LỜI CẢM ƠNEm xin cảm ơn sự hướng dẫn của thầy cô giáo trong bộ môn Mạng máy tính và truyền thông và dưới sự hướng dẫn trực tiếp, tận tình của Thầy Lê Hoàng Hiệp đã cung cấp cho em những
Trang 1LỜI CẢM ƠN
Em xin cảm ơn sự hướng dẫn của thầy cô giáo trong bộ môn Mạng máy tính và truyền thông và dưới sự hướng dẫn trực tiếp, tận tình của Thầy Lê Hoàng Hiệp đã cung cấp cho em những thông tin cần thiết cùng với việc phân tích các yêu cầu thực tế, em đã
xây dựng hoàn thành đề tài “Nghiên cứu một số thuật toán tìm kiếm google, thúc đẩy Marketing online và nâng rank cho các website thương mại điện tử”.
Qua một thời gian khảo sát, thiết kế và xây dựng website, áp dụng các kĩ thuật đến nay nội dung của đề tài cơ bản đã hoàn thành Mặc dù đã có sự cố gắng
và được sự giúp đỡ tận tình của thầy cô, nhưng do thời gian và kinh nghiệm thực tế còn nhiều hạn chế nên em không tránh khỏi những thiếu sót nên sản phẩm chưa được thiết kế một cách khoa học, chưa mang tính chuyên nghiệp Vì vậy em rất mong có được sự đóng góp của thầy cô trong Khoa Công Nghệ Thông Tin, cũng như ý kiến đóng góp của các bạn để chương trình của em được hoàn thiện hơn Một lần nữa em xin chân thành cảm ơn sự hướng dẫn tận tình của Thầy Lê Hoàng Hiệp đã giúp đỡ nhiệt tình để em hoàn thành đồ án này
Em xin chân thành cảm ơn !
Thái Nguyên, ngày 20 tháng 05 năm 2016
Sinh viên
Lê Thanh Tùng
Trang 2LỜI CAM ĐOAN
Em xin cam đoan rằng đây là bài đồ án tốt nghiệp của em, được sự hướng
dẫn từ Giáo viên Th.S Thầy Lê Hoàng Hiệp – Giảng viên trường Đại học Công
nghệ Thông tin và Truyền thông Thái Nguyên, Đại học Thái Nguyên Các nội dung nghiên cứu và kết quả trong đồ án này là trung thực và em cũng có tham khảo từ các báo cáo thực tập, đồ án khác trước đây Nếu có bất kỳ sự gian lận nào
em xin hoàn toàn chịu trách nhiệm trước Hội đồng
Em xin chân thành cảm ơn!
Thái Nguyên, ngày 20 tháng 05 năm 2016
Sinh viên
Lê Thanh Tùng
Trang 3Optimization Tối ưu hóa công cụ tìm kiếm.
7 URL Uniform Resource
Locator Tham chiếu tới tài nguyên trên Internet
Trang 4DANH MỤC HÌNH
Hình 1.1: Tổng quan cách thức làm việc của bộ máy tìm kiếm 6
Hình 1.2: Biểu đồ thị phần search engine từ tháng 12 - 2015 7
Hình 1.3: Cấu tạo Search Engine 8
Hình 1.4: Mô hình xử lý tổng quát hệ thống lập chỉ mục 11
Hình 1.5: Hệ thống tự động đoán hành vi tìm kiếm 14
Hình 1.6: Minh họa về chỉ số Reach của Alexa 17
Hình 1.7: Alexa Rank 17
Hình 1.8: Thuật toán penguin liên quan tới backlink 19
Hình 1.9: Thuật toán Zebra ( ngựa vằn ) 22
Hình 1.10: Thuật toán payday loan 23
Hình 1.11: Thuật toán hummingbird 24
Hình 1.12: Thẻ tiêu đề trang web 29
Hình 1.13: Thẻ mô tả trang web 30
Hình 1.14: URL chứa từ khóa của trang web 31
Hình 1.15: Khai báo website với Google 32
Hình 1.16: Các mạng xã hội có lợi cho SEO 34
Hình 2.1: Cấu trúc Silo được sử dụng cho website 37
Hình 2.2: Đặt tiêu đề có chứa từ khóa chính của website 39
Hình 2.3: Tiêu đề của trang xuất hiện vị trí trên cùng của trình duyệt 39
Hình 2.4: Truy vấn Google 40
Hình 2.5: Giống như thẻ <title> thẻ <meta description> 42
Hình 2.6: URL đơn giản 44
Hình 2.7: Điều hướng các bài viết ở cuối mỗi bài 46
Hình 2.9: Thống kê các bài viết mới nhất 48
Hình 2.10: Tiêu đề bài viết được in đậm và đặt ngay ở đầu bài viết 51
Hình 2.11: Xây dựng liên kết nội bộ Internal Linking 53
Trang 5Hình 2.12: Xây dựng Link theo mô hình kim tự tháp 57
Hình 2.13: Xây dựng link theo mô hình Link Wheel 59
Hình 2.14: Sử dụng facebook Marketing nhắm đến người dùng tiềm năng 62
Hình 2.15 Sử dụng Google Adwords để lôi kéo người dùng 63
Hình 3.1: Biểu đồ xu hướng về từ khóa ship hàng 66
Hình 3.2: Quốc gia quan tâm đến từ khóa ship hàng 66
Hình 3.3: Lựa chọn nhà cung cấp Hosting- vps 68
Hình 3.4: Nghiên cứu từ khóa 69
Hình 3.5: Phân tích từ khóa đối thủ 70
Hình 3.6: Phân tích Link đối thủ 71
Hình 3.7: Cấu trúc Silo 71
Hình 3.8: Chèn từ khóa vào tiêu đề bài viết và URL 73
Hình 3.9: Đặt tiêu đề bài viết trong thẻ H1 và có chứa từ khóa 73
Hình 3.10: Đặt từ khóa trong thẻ ALT 74
Hình 3.11: Tạo cho người dùng có thể tương tác và chia sẻ bài viết dễ dàng 76
Hình 3.12: Tìm kiếm các Blog liên quan để comment 78
Hình 3.13: Tìm kiếm các forum liên quan để post bài 78
Hình 3.14: Từ khóa nằm ở TOP 5 chỉ với SEO onpage 81
Hình 3.15: Lượt truy cập từ lúc khởi tạo website đến hiện tại 81
Hình 3.16: Biểu đồ so sánh traffic tháng 2 82
Hình 3.17: Bản đồ thống kê lượt truy cập 82
Hình 3.18: Top từ khóa tìm kiếm 83
Trang 6MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
BẢNG CÁC TỪ VIẾT TẮT 3
DANH MỤC HÌNH 4
MỤC LỤC 6
LỜI NÓI ĐẦU 1
CHƯƠNG 1: CƠ SỞ LÍ THUYẾT 2
1.1 Đặt vấn đề 2
1.2 Lịch sử giải quyết vấn đề 4
1.3 Tổng quan bộ máy tìm kiếm 5
1.3.1 Bộ máy tìm kiếm hoạt động như thế nào? 5
1.3.2 Giới thiệu về các search engine thông dụng 7
1.4 Cấu tạo chung các bộ máy tìm kiếm 8
1.4.1 Robot 9
1.4.2 Index – bộ lập chỉ mục 11
1.4.3 Search Engine – bộ tìm kiếm thông tin 13
1.5 Hệ thống Rank 15
1.5.1 Google PageRank 15
1.5.2 Alexa Rank 16
1.6 Các thuật toán của Google 17
1.6.1 Thuật toán Google Panda 17
1.6.2 Thuật toán Google Pengiun 19
1.6.3 Thuật toán Zebra ( Ngựa vằn ) 22
1.6.4 Thuật toán Payday loan 23
1.6.5 Thuật toán Hummingbird ( Chim ruồi ) 24
1.6.6 Thuật toán Pigeon ( Chim bồ câu ) 25
1.7 Tìm hiểu về SEO 25
Trang 71.7.1 SEO là gì? 26
1.7.2 Tại sao cần SEO? 27
1.7.3 Các kĩ thuật SEO cơ bản? 28
CHƯƠNG 2: MỘT SỐ GIẢI PHÁP TỐI ƯU TỪ KHÓA TÌM KIẾM 36
2.1 Các phương pháp tối ưu hóa website 36
2.1.1 Nghiên cứu và tối ưu hóa từ khóa (keyword) 36
2.1.2 Thực hiện cấu trúc trang web 37
2.1.3.OnPage SEO 38
2.1.4 Offpage SEO 55
CHƯƠNG 3: TRIỂN KHAI, THỬ NGHIỆM ÁP DỤNG XÂY DỰNG MỘT SỐ KỸ THUẬT SEO THÚC ĐẨY MARKETING ONLINE VÀ NÂNG RANK CHO CÁC WEBSITE THƯƠNG MẠI ĐIỆN TỬ 65
3.1 Lý do chọn website/ blog ship hàng 65
3.2 Phân tích, nghiên cứu thị trường 65
3.3 Triển khai xây dựng website 67
3.3.1 Chọn tên miền 67
3.3.2 Chọn hosting- vps 67
3.3.3 Chọn nền tảng phát triển website 68
3.3.4 Nghiên cứu từ khóa 68
3.3.5 Thực hiện cấu trúc Silo với website 71
3.3.6.Chuẩn bị nội dung, cung cấp nội dung chất lượng 72
3.3.7.Thực hiện SEO Onpage 72
3.3.8 Thực hiện SEO Offpage 76
3.3.9 Kết quả đạt được 80
3.3.10 Phương pháp giữ top 10 khi SEO thành công 83
KẾT LUẬN 85
Trang 8LỜI NÓI ĐẦU
Ngày nay, cùng với sự phát triển của nhiều công nghệ tiên tiến, hiện đại nhằm phục vụ nhu cầu sống và làm việc của con người trong đó có công nghệ thông tin với tốc độ phát triển nhanh đến chóng mặt Đặc biệt là trong việc kinh doanh, chính mảng thông tin sẽ tạo ra nhiều lợi nhuận nhất cho các doanh nghiệp,
vì nó cung cấp một cổng vào ngay lập tức cho khách hàng hay cho các đối tác tiềm năng Và website của doanh nghiệp không chỉ đơn giản là giới thiệu về doanh nghiệp mà còn cung cấp một lượng thông tin thích đáng cho người truy cập về sản phẩm và giá cả
Nhờ ineternet, các hoạt động thương mại được thực hiện nhanh hơn, hiệu quả hơn, giúp tiết kiệm chi phí và mở rộng không gian kinh doanh.Vấn đề đặt ra
là "Làm sao đưa website của bạn đến với nhiều khách hàng hay các đối tác tiềm năng nhất có thể?" Theo thống kê có đến 80% số người tìm đến website lần đầu tiên qua Search Engine như Google hay Yahoo.Tối ưu hóa SEO (viết tắt của Search Engine Optimization), là cách tối ưu hóa kết quả tìm kiếm Kết quả của việc thực hiện SEO là giúp website của bạn tăng thứ hạng lên cao nhất trong các trang kết quả tìm kiếm của các bộ máy tìm kiếm chính như Google,Yahoo, Bing,
Rõ ràng khi website của bạn đứng trong top đầu của kết quả tìm kiếm, người dùng
sẽ truy cập website của bạn nhiều hơn
Nhận thức được tầm quan trọng của việc tối ưu hóa kết quả tìm kiếm (SEO), em đã chọn đồ ánvới nội dung “Nghiên cứu một số thuật toán tìm kiếm của Google, áp dụng xây dựng một số kỹ thuật SEO thúc đẩy Marketing Online và nâng rank cho các website thương mại điện tử
” Bài báo cáo này em sẽ tập trung trình bày một cách nhìn tổng quan về các
bộ máy tìm kiếm, các phương thức thu thập thông tin, và các cách để tối ưu hóa website (SEO - Search Engine Optimization)
Trong quá trình thực hiện, em còn gặp nhiều khó khăn và không tránh khỏi sai sót Song, giáo viên hướng dẫn em đã giải quyết những vấn đề đã đặt ra Em xin gửi lời cám ơn sâu sắc đến thầy giáo Ths Lê Hoàng Hiệp đã tận tình giúp đỡ
em trong suốt quá trình làm đề tài
Thái Nguyên, tháng 6 năm 2016
Trang 9bảng hiệu của một Công ty thì website chính là văn phòng của Công ty đó, là nơi khách hàng tìm kiếm các thông tin về doanh nghiệp trước khi kí hợp đồng, là nơi khách hàng và các đối tác liên hệ doanh nghiệp, là bộ mặt của doanh nghiệp… Ngoài ra website còn tạo ra không ít lợi thế khác như:
- Hướng hoạt động của doanh nghiệp từ nội địa hoặc cục bộ ra toàn cầu.
- Website là nơi trưng bày, giới thiệu sản phẩm, hàng hóa dịch vụ của Doanh nghiệp Hoạt động lên tục 24x7, không giới hạn thời gian và không gian.
- Website là kênh thông tin giới thiệu sản phẩm, dịch vụ hoàn hảo nhất và hữu dụng nhất với hình ảnh, các giới thiệu, các media…
- Website còn là một kho hàng khổng lồ, không giới hạn về sức chứa.
- Hơn cả, website là một kênh bán hàng tốn ít chi phí nhất.
Thông qua website, doanh nghiệp có thể tiếp thị hình ảnh, thương hiệu, dịch
vụ, sản phẩm của mình ra ngoài phạm vi, khu vực của quốc gia Chính vì những lợi ích ấy, việc không có website đã là một thiệt thòi so với các đối thủ cạnh tranh
Theo thống kê của trung tâm số liệu internet quốc tế, Việt Nam xếp hạng 18 trên 20 quốc gia có số người dùng Internet lớn nhất thế giới trong quý I/2015 Cụ thể, tính tới thời điểm ngày 1/12/2015, Việt Nam có 30.858.742 người dùng Internet, chiếm tỉ lệ 34,1% dân số Việt Nam và bằng 1,4% dân số thế giới
Trong giai đoạn 2000 - 2015, tỉ lệ tăng trưởng người sử dụng Internet tại Việt Nam đạt mức 12%, tốc độ tăng trưởng nhanh nhất trong khu vực Như vậy sau gần 14 năm kể từ ngày Việt Nam gia nhập cộng đồng Internet toàn cầu (1/12/1997), lượng người sử dụng Internet trong nước đã tăng nhanh một cách đáng kể
Nhìn chung, Internet là một món ăn không thể thiếu với cuộc sống của mọi người, với thói quen sử dụng các bộ máy tìm kiếm (Google, Bing, Yahoo…) để tìm kiếm thông tin về doanh nghiệp, tài liệu học tập, mua sắm trực tuyến, nạp thẻ điện thoại, thanh toán hóa đơn…
Theo thống kê, có đến hơn 86% lượng truy cập của một website đều đến từ
Trang 10các Search Engine lớn như Google, Yahoo, MSN… Mỗi ngày có hàng triệu người dùng lướt web sử dụng Search Engine để tìm những sản phẩm, dịch vụ và thông tin họ đang cần Nhưng liệu với hàng tỉ website hiện đang tồn tại, làm sao khách hàng có thể tìm thấy website của bạn trước mà không phải của các đối thủ cạnh tranh? Hầu hết người sử dụng các bộ máy tìm kiếm đều không kiên nhẫn, họ chỉ tập trung vào các kết quả tìm kiếm ở “Trang nhất” trong hàng trăm, hàng triệu kết quả trả về khi truy vấn tìm kiếm
Như vậy, câu hỏi được đặt ra là: “làm sao giúp website có thể hiển thị được
ở trang đầu tiên khi người dùng truy vấn ?” SEO – Search Enginee Optimization: tối ưu hóa công cụ tìm kiếm được đề xuất như là một phương pháp hữu hiệu giúp website có vị trí cao tại trang kết quả truy vấn đầu tiên, giúp cho người dùng dễ dàng tìm thấy kết quả nhất
Chính vì đa phần người dùng đến 1 website đều thông qua công cụ tìm kiếm nên nếu bỏ qua SEO đồng nghĩa với việc một doanh nghiệp hay cá nhân sẽ mất tiền mỗi ngày cho website của đối thủ cạnh tranh Không người dùng nào đủ kiên nhẫn xem quá 3 trang kết quả sau khi thực hiện tìm kiếm trên SE
Nếu website của bạn không nằm trong top 30 – top 10, khách hàng sẽ không hề biết website của doanh nghiệp hay cá nhân nào đó tồn tại
SEO là hoạt động không thể thiếu đối với bất kỳ trang web nào, nó là con đường để trở thành một trang web được nhiều người biết đến Các phương pháp quảng cáo truyền thống càng bị bão hoà đối, chi phí cao nhưng hiệu quả lại giảm sút Nhất là trong giai đoạn khủng hoảng hiện nay, khi mà hiệu quả của việc quảng cáo phải được đặt lên hàng đầu
SEO có rất nhiều ưu điểm so với các phương pháp quảng bá truyền thống như: người dùng không phải độc thoại, có thể tiếp cận trao đổi thông tin trực tiếp; linh hoạt hơn trong phân loại người dùng và đặc biệt là Webmaster có thể quản lý được thông tin khách hàng Với rất nhiều ưu điểm mà truyền hình, báo giấy không có được, Internet sẽ luôn là lựa chọn hàng đầu
Trang 111.2 Lịch sử giải quyết vấn đề
Webmaster và các nhà cung cấp dịch vụ SEO đã bắt đầu tối ưu hóa các trang web cho công cụ tìm kiếm vào giữa những năm 1990 Ban đầu, các webmaster bắt đầu gửi link liên kết hay url của trang web đến các công cụ tìm kiếm, các công cụ này sẽ gửi một spider đến trang website đó, website sẽ được thu thập dữ liệu, sau đó được index lên máy chủ tìm kiếm, nơi đây các thông tin về website sẽ được lưu trữ lại, các từ khóa của website, các link liên kết trong website
đó, các spider này sẽ làm việc index lên máy chủ theo lịch trình mà các công cụ tìm kiếm quy ước Người sở hữu trang web bắt đầu để nhận ra những giá trị của việc có các trang web của họ và có thể nhìn thấy được xếp hạng cao trong kết quả công cụ tìm kiếm SEO chia ra làm hai dạng đó là : SEO truyền thống (White Hat SEO) và SEO gian lận (Black Hat SEO)
Theo nhà phân tích Danny Sullivan, cụm từ “Tối ưu hóa công cụ tìm kiếm”
sử dụng rất nhiều trên mạng vào năm 1997
Đầu phiên bản của thuật toán tìm kiếm dựa vào quản trị trang web cung cấp thông tin như các thẻ meta từ khoá, hoặc tập tin chỉ mục như ALIWEB Thẻ meta cung cấp một hướng dẫn đến nội dung của mỗi trang
Sử dụng dữ liệu meta vào các trang chỉ mục được tìm thấy sẽ được ít hơn đáng tin cậy, tuy nhiên, vì những sự lựa chọn của webmastermà các thẻ meta có sự chính xác trong khả năng đưa thông tin website lên máy chủ tìm kiếm Những dữ liệu không chính xác, không đầy đủ, và không nhất quán trong thẻ meta có thể gây ra sự xếp hạng không đúng vị trí cho các tìm kiếm không liên quan Việc cung cấp nội dung đựoc tối
ưu hóa và một số thuộc tính trong mã nguồn HTML đối với một trang web cần phải chính xác để có được kết quả tốt trên công cụ tìm kiếm
Bằng cách dựa quá nhiều vào các yếu tố như mật độ từ khóa đó được độc quyền trong vòng kiểm soát của một webmaster, công cụ tìm kiếm sớm bị lạm dụng vào thao tác xếp hạng Để cung cấp kết quả tốt hơn cho người dùng của họ, công cụ tìm kiếm đã phải thích ứng để đảm bảo kết quả của các trang đã cho thấy
Trang 12các kết quả tìm kiếm có liên quan nhất, thay vì các trang không liên quan nhồi với
từ khoá nhiều bởi Black Hat SEO – nhóm Webmaster không bao giờ tuân theo các qui định của các bộ máy tìm kiếm, họ luôn lạm dụng quá mức các thủ thuật Các công cụ tìm kiếm đã phản ứng lại bằng cách phát triển phức tạp hơn thuật toán xếp hạng, có tính đến các yếu tố bổ sung mà gây nhiều khó khăn cho quản trị web để thao tác
SEO tại Việt Nam bắt đầu những nền móng phát triển đầu tiên khoảng vào thời điểm giữa năm 2006 Sau 5 năm, đến nay SEO đã là một khái niệm mà hầu như bất kì một nhà quản trị website nào cũng biết đến và tìm hiểu nó dù ít hay nhiều Thậm chí, SEO còn được đưa vào hoạt động của công ty như một hướng đi chiến lược với những kế hoạch dài hơi Điển hình, có thể dễ dàng nhận ra FPT có
bộ phận SEO riêng, Zing có bộ phận SEO riêng, VCCORP cũng có bộ phận traffic riêng…
Đồ án “Nghiên cứu và thử nghiệm một số giải pháp nâng cao thứ hạng tìm kiếm trong quá trình xây dựng website về thông tin sức khỏe” là một minh chứng
cụ thể nhất cho việc áp dụng phương pháp SEO vào một website của một cá nhân, chứng minh rằng việc SEO cho website cũng có thể thực hiện bởi những cá nhân
và có thể đạt được những hiệu quả nhất định
1.3 Tổng quan bộ máy tìm kiếm
1.3.1 Bộ máy tìm kiếm hoạt động như thế nào?
Search Engine hay còn gọi là công cụ tìm kiếm, bộ máy tìm kiếm giúp người xem tìm thấy những thông tin một cách liên quan nhất Người dùng có thể tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm… trên search engine Khi nhận được câu lệnh yêu cầu tìm kiếm, search engine sẽ phân tích yêu cầu đó, đánh giá, xếp hạng và trả về kết quả liên quan nhất Search engine hoạt động theo quy trình như sau :
Ban đầu, SE (Search Engine) sẽ gửi các Spider (hay còn gọi là con bọ, Crawler)
để tiến hành khảo sát một website khi nó được upload lên Các Spider này được lập
Trang 13trình để có thể tự động lần theo liên kết để đi đến các website khác nhau, sau khi dừng lại ở một website nào đó, Spider này sẽ thu thập, đánh giá các thông tin trên website đó trước khi tự động lần theo các liên kết đến các website khác…
Sau khi nhận được các thông tin từ Spider, SE có nhiệm vụ lưu trữ lại trước khi phân tích chúng bằng các thuật toán riêng biệt để trả về các kết quả khi người dùng truy vấn đúng vào nội dung Ta có thể tham khảo cách thức làm việc chung của SE tại hình dưới đây:
Hình 1.1: Tổng quan cách thức làm việc của bộ máy tìm kiếm
Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham
quan, thu thập thông tin trên website của bạn Search engine có những con bọ (spider hay crawler) được lập trình để có thể tự động theo các liên kết (link) để mò đến các website khác nhau, thu thập và đánh giá các thông tin trên website đó
Lưu trữ - Index: là giai đoạn search engine lưu lại thông tin sau khi đã
crawl Với khối lượng lưu trữ vô hạn, các search engine có thể chứa hàng tỉ kết quả liên quan Một trang web có thể được index nhanh hoặc chậm tuỳ thuộc vào
Trang 14tốc độ crawl, độ trust của website và nhiều yếu tố khác.
Phân tích – Analytics: giai đoạn này search engine sẽ làm việc trên các
dữ liệu mà nó thu thập được Sau đó tính toán độ liên quan của dữ liệu so với yêu cầu của người dùng Các search engine khác nhau có những thuật toán phân tích khác nhau từ đây tạo ra sự khác biệt giữa các search engine Giai đoạn phân tích sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả
Kết quả - Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn
này Những kết quả liên quan thường được sắp ở phía trên, cao hơn những kết quả
ít liên quan Mặc dù không phải lúc nào các kết quả cũng thoả mãn được yêu cầu của người tìm kiếm Nhưng cho đến hiện nay, người dùng khá hài lòng với những
gì mà search engine trả về
Tuy bức tranh hoạt động của search engine bên ngoài nhìn chung khá đơn giản nhưng bên trong là tập hợp rất nhiều thuật toán phức tạp Search engine nào thoả mãn nhiều nhất nhu cầu tìm kiếm người sử dụng sẽ được sử dụng rộng rãi và phát triển mạnh mẽ trong tương lai Ai là vua trong thị trường tìm kiếm trực tuyến đầy tiềm năng này?
1.3.2 Giới thiệu về các search engine thông dụng
Hiện nay trên thế giới có rất nhiều search engine đang hoạt động Trong đó, phải kể đến ba chàng khổng lồ đang chi phối 97% thị phần tìm kiếm
Trang 15Hình 1.2: Biểu đồ thị phần search engine từ tháng 12 - 2015
Google là search engine được nhiều người sử dụng nhất với 84% số người
sử dụng Tiếp theo là Yahoo 6% và Bing 8%, còn lại số phần trăm ít ỏi dành cho các search engine khác
Hiện nay, ở Việt Nam đa số mọi người cũng sử dụng Google để tìm kiếm thông tin Nên việc SEO trên Google là ưu tiên hàng đầu đối với các website
1.4 Cấu tạo chung các bộ máy tìm kiếm
Bộ máy tìm kiếm thường cấu tạo bởi 3 bộ phận đó là: Bộ thu thập thông tin,
Bộ lập chỉ mục và bộ tìm kiếm thông tin, được hoạt động theo mô hình sau:
Trang 16Hình 1.3: Cấu tạo Search Engine
Robot – bộ thu thập thông tin: Robot được biết đến dưới nhiều tên gọi
khác nhau: spider, bot, crawler, hoặc web worm…Về bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ các website trên mạng, nó tự động duyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụ tìm kiếm Những trình duyệt thông thường không được xem là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con người
Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân
tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm sau này
Search Engine – Bộ tìm kiếm thông tin: Tưởng tượng ta muốn tìm vài
quyển sách trong một thư viện rất lớn Với sức lực cá nhân ta không thể xem qua hết tất cả sách, vì vậy ta cần một danh mục sách Tương tự, tồn tại hàng triệu trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiều hơn, cho
Trang 17dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng không thể duyệt hết Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định được vị trí của những từ cần tìm trong các trang web khắp nơi trên thế giới.
1.4.1 Robot
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ mục
1.4.1.1 Robot thu thập thông tin
Robot thu thập thông tin có nhiệm vụ:
Phân tích – thống kê - Statistical Analysis: Robot đầu tiên được dùng để
đếm số lượng web server, số tài liệu trung bình của một server, tỉ lệ các dạng file khác nhau, kích thước trung bình của một trang web, độ kết dính…
Duy trì siêu liên kết – Maintenance: Một trong những khó khăn của việc duy
trì một siêu liên kết là nó liên kết với những trang bị hỏng (dead links) khi những trang này bị thay đổi hoặc thậm chí bị xóa Thật không may vẫn chưa có cơ chế nào cảnh báo các bộ duy trì về sự thay đổi này Trên thực tế khi các tác giả nhận ra tài liệu của mình chứa những liên kết hỏng, họ sẽ thông báo cho nhau, hoặc thỉnh thoảng độc giả thông báo cho họ bằng email Một số robot có thể trợ giúp tác giả phát hiện các liên kết hỏng cũng như duy trì các cấu trúc siêu liên kết cùng nội dung của một trang web Chức năng này lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra sẽ được giải quyết nhanh chóng
Ánh xạ địa chỉ web – Mirroring: Mirroring là một kỹ thuật phổ biến trong
việc duy trì các kho dữ liệu Một ánh xạ (mirror) sẽ sao chép toàn bộ cấu trúc cây thư mục và thường xuyên cập nhật những file bị thay đổi Điều này cho phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị thất bại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào site thực sự chứa các dữ liệu này
Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó
để phát hiện tài nguyên.Con người không thể kiểm soát nổi một khối lượng thông tin khổng lồ trong môi trường mạng Robot sẽ giúp thu thập tài liệu, tạo
và duy trì cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp
Trang 18với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người.
Kết hợp các công dụng trên - Combined uses: Một robot có thể đảm nhận
nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ sở dữ liệu… Tuy nhiên những ứng dụng như thế còn khá ít ỏi
1.4.1.2 Robot chỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ cho việc lập chỉ mục, ta cần giải quyết vấn đề sau:
Trong môi trường mạng, robot lấy thông tin từ các site Vậy robot sẽ bắt đầu từ site nào? Điều này hoàn toàn phụ thuộc vào robot Mỗi robot khác nhau có những chiến lược khác nhau Thường thì robot sẽ viếng thăm các site phổ biến hoặc những site có nhiều liên kết dẫn đến nó
Ai sẽ cung cấp địa chỉ của các site này cho robot? Có 2 nguồn: một là Robot nhận các URL ban đầu từ user Hai là Robot phân tích các trang web để lấy các URL mới, đến lượt các URL này trở thành địa chỉ đầu vào cho robot Quá trình này được lặp lại liên tục
Chọn dữ liệu nào trong tài liệu để lập chỉ mục? Quyết định chọn dữ liệu nào trong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được liệt kê như sau được xem là quan trọng :
Trong các đề mục
Được in đậm
Trong URL
Trong tiêu đề (quan trọng)
Trong phần miêu tả trang web (Description) Trong các thẻ dành cho hình ảnh (ALT)
Trong các thẻ chứa từ khóa
Trong các text liên kết
Một số robot lập chỉ mục trên tiêu đề, hoặc một số đoạn văn bản đầu tiên hoặc toàn bộ tài liệu (full text) Một số khác lại lập chỉ mục trên các thẻ META
Trang 19(META tags) hoặc các thẻ ẩn, nhờ vậy tác giả của trang web được quyền ấn định
từ khoá cho tài liệu của mình Tuy nhiên chức năng này bị lạm dụng quá nhiều do
đó các thẻ META không còn giữ được giá trị ban đầu của chúng nữa (Black Hat SEO)
Trang 201.4.2 Index – bộ lập chỉ mục
Mô hình xử lý tổng quát của một hệ thống lập chỉ mục
Hình 1.4: Mô hình xử lý tổng quát hệ thống lập chỉ mục
Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợp cốt lõi có khả năng đại diện cho nội dung của tài liệu Như vậy, vấn đề đặt ra là phải rút trích ra những thông tin chính, có khả năng đại diện cho nội dung của tài liệu
Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ
so với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu trữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp
Trang 21Việc rút trích này chính là việc lập chỉ mục trên tài liệu Trước đây, quá trình này thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ công “ nên có độ chính xác cao Nhưng trong môi trường hiện đại ngày nay, với lượng thông tin khổng lồ thì việc lập chỉ mục bằng tay không còn phù hợp, phương pháp lập chỉ mục tự động mang lại hiệu quả cao hơn.
Một thủ tục lập chỉ mục tự động cơ bản:
Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng
trắng, mỗi chuỗi xem như là một từ
Step of removal of stop words: bỏ những từ thường xuyên xuất hiện trong
hầu hết các tài liệu nhưng lại không quan trọng trong các tài liệu như tính từ, đại từ
Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc
Các từ thu được sẽ được lập chỉ mục Tuy nhiên hai bước đầu cũng cần cho quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì tiếng Việt thuộc dòng ngôn ngữ đơn thể
Phương pháp lập chỉ mục
Phương pháp lập chỉ mục gồm hai phần chính yếu sau:
Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho văn bản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stop-word, xử lý hậu tố…)
Thứ hai là xác định trọng số cho từng mục từ , trọng số này là giá trị phản ánh tầm quan trọng của mục từ đó trong văn bản
Xác định mục từ quan trọng cần lập chỉ mục:
Mục từ hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở cho quá trình lập chỉ mục Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một ngữ cảnh cụ thể Ta xác định mục từ của 1 văn bản dựa vào chính nội dung của văn bản
đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản đó
Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất hiện của từng loại từ riêng rẽ trong văn bản Nếu tất cả các từ xuất hiên trong tập tài
Trang 22liêu với những tần số băng nhau, thì không thể phân biệt các mục từ theo tiêu chuẩn định lượng Tuy nhiên, trong văn bản ngôn ngữ tự nhiên, tần số xuất hiện của từ có tính thất thường, do đó những mục từ có thể được phân biệt bởi tần số xuất hiên của chúng.
Xác định trọng số cho mục từ:
Trọng số của mục từ là sự tần xuất xuất hiện của mục từ trong toàn bộ tài liệu Phương pháp thường được sử dụng để đánh giá trọng số của từ là dựa vào thống kê, với ý tưởng là những từ thường xuyên xuất hiện trong tất cả các tài liệu thì “ít có ý nghĩa hơn” là những từ tập trung trong một số tài liệu
1.4.3 Search Engine – bộ tìm kiếm thông tin
Vì sao ta cần một công cụ tìm kiếm thông tin? Tưởng tượng ta muốn tìm vài quyển sách trong một thư viện rất lớn Với sức lực cá nhân ta không thể xem qua hết tất cả sách, vì vậy ta cần một danh mục sách Tương tự, tồn tại hàng triệu trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiều hơn, cho
dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng không thể duyệt hết Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định được vị trí của những từ cần tìm trong các trang web khắp nơi trên thế giới
1.4.3.1 Các phương thức tìm kiếm
Tìm kiếm theo từ khóa:
Đây là phương pháp được áp dụng với hầu hết các search engine Trừ khi tác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều này phụ thuộc vào search engine Như vậy các search engine sẽ tự mình chọn và đánh chỉ mục Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một số khác chỉ chọn một số đoạn văn bản
Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems) đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword Có những công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường
Những khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc rối với
Trang 23những từ đồng âm khác nghĩa hoặc những từ có các biến thể khác nhau do có tiền
tố và hậu tố Bên cạnh đó search engine cũng không thể trả về các tài liệu chứa những từ đồng nghĩa với các từ trong câu truy vấn
Tìm kiếm theo ngữ nghĩa:
Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa sẽ
‘đoán’ ý muốn của người dùng thông qua câu chữ Tìm theo ngữ nghĩa hoạt động dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữ học, các thuyết về trí tuệ nhân tạo, tiếp cận dựa vào phương pháp tính toán bằng cách đếm
số lần xuất hiện của các từ quan trọng Khi nhiều từ hoặc những cụm từ có nghĩa đặt gần nhau trong tài liệu thì cho rằng chúng đang ám chỉ một chủ đề nào đó
Hình 1.5: Hệ thống tự động đoán hành vi tìm kiếm 1.4.3.2 Các chiến lược tìm kiếm
Trang 24Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về bất
kỳ chủ đề gì Nhưng kết quả cuối cùng thường là lãng phí thời gian cho những URL vô ích
Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm
Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng?
Hoặc ta đã hình dung được cụ thể những gì cần tìm?
Hay ta muốn tìm địa chỉ của ai đó?
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web (web directory) Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn một công cụ tìm kiếm thích hợp
Ví dụ: Chỉ với từ khóa “học” ta có thể có “học tiếng anh”, “học tài
chính”, “học ngân hàng”, “học guitar nhưng với từ khóa rõ nghĩa hơn là học tiếng anh online, học tiếng anh cơ bản
Một vài chỉ số quan trọng quyết định Google PageRank của một trang web:
độ hữu dụng của thông tin trên trang web, độ phổ biến của trang web, chất lượng
kỹ thuật
Google PageRank được chia làm 10 bậc và được biểu hiện bằng vạch màu
xanh trên nền trắng: Giá trị của mỗi trang web theo Google PageRank tăng dần từ 1 đến 10
Thuật ngữ PageRank™ là một thương hiệu được bảo hộ của Google, do Larry Page và Sergey Brin phát triển tại trường đại học Stanford của Mỹ trong một
dự án nghiên cứu về công cụ tìm kiếm năm 1995
Trang 251.5.1.2 Google PageRank đem lại lợi ích gì?
Google PageRank trước năm 2014 được coi là chỉ số đáng tin cậy đánh giá mức độ quan trọng mỗi trang web Một trang web có chỉ số Google PageRank cao
sẽ đem lại ấn tượng đáng tin cậy cho khách truy cập, điều này đặc biệt có ý nghĩa với các website kinh doanh thương mại điện tử Tuy nhiên sau tháng 1 năm 2014 sau nhiều lần Google cập nhật thuật toán của mình giá trị Page Rank hầu như không còn nhiều giá trị, nhưng Google vẫn sử dụng PageRank để đánh giá ngầm một website, mặc dù giá trị đã giảm so với trước đó
Google PageRank ảnh hưởng trực tiếp tới vị trí hiển thị của mỗi trang web khi cạnh tranh thứ hạng hiển thị trong danh sách kết quả tìm kiếm của Google Một trang web có PageRank cao dễ xuất hiện trên đầu danh sách kết quả tìm kiếm của Google hơn
Trang 261.5.1.3 Tăng Google PageRank như thế nào?
Về cơ bản, theo các chuyên gia của Google: "Không được sử dụng các phương pháp giả tạo, hãy tạo ra các trang web cho mọi người chứ không phải cho các công cụ tìm kiếm" Và việc đó là việc cung cấp nội dung thực sự hữu ích, cung cấp trải nghiệm cho người dùng thật sự Khi website đã có sự tin tưởng thì Google
sẽ nâng hạng tin cậy của website lên
Tăng thứ hạng trong danh sách kết quả tìm kiếm của Google là phương pháp tăng PageRank rất hiệu quả vì vừa tăng độ phổ biến các trang web, vừa tăng lượng khách truy cập
Cấu trúc website, cấp bậc cần rõ ràng, nội dung thông tin cần phong phú, hữu ích
Website không được chứa các liên kết lỗi, các lỗi HTML, lỗi câu lệnh.Đăng ký website vào các danh bạ uy tín cũng như các website chất lượng khác để tăng độ phổ biến
1.5.2 Alexa Rank
1.5.2.1 Alexa Rank là gì ?
Alexa Rank là thước đo mức độ phổ biến của các website Chỉ số thứ hạng của mỗi website được Alexa kết hợp đánh giá từ 2 yếu tố là: số trang web người dùng xem (Page Views) và số người truy cập website (Reach)
1.5.2.2 Alexa Rank mang lại lợi ích gì?
Chỉ số thứ hạng Alexa của một website cao được hiểu là website đó có đông người truy cập, phần nào đem lại cho website ấn tượng sống động và uy tín
Trong thị trường quảng cáo trực tuyến, Alexa Rank có thể được sử dụng để đánh giá giá trị quảng cáo
Chỉ số Alexa Rank là thước đo ghi nhận thành quả lao động của các webmaster với cộng đồng và là một công cụ rất hữu ích giúp các webmaster quản trị website hiệu quả
Trang 281.5.2.3 Tăng Alexa Rank như thế nào?
Tiến hành các chiến dịch quảng bá website định kỳ nhằm thường xuyên thu hút khách truy cập website, tăng cao chỉ số Reach
Hình 1.6: Minh họa về chỉ số Reach của Alexa
Trong website, nên có các phần thông tin có giá trị cao, cập nhật để thu hút khách hàng thường xuyên quay lại website, tăng Page views
Bố trí nội dung, cấu trúc website sao cho thu nhận được thật nhiều cú nhấp chuột của khách truy cập để tăng Page views nhưng vẫn mang lại cảm giác thoải mái, tiện lợi
Trang 29Hình 1.7: Alexa Rank
1.6 Các thuật toán của Google
Một số thuật toán của Google
1.6.1 Thuật toán Google Panda
Là một trong những thuật toán quan trọng nhất mà người là seo web nào cũng phải biết đó chính là thuật toán google panda, thuật toán được google công
bố vào ngày 24/2/2011 cho đến nay thì đã cập nhật rất nhiều phiên bản đòi hỏi
khắc khe hơn cho các seoer
Về cơ bản thuật toán Google Panda đánh mạnh vào nội dung của
website, những web kém chất lượng sẽ không có kết quả cao ở google Cụ thể như:
- Nội dung sơ sài, kém chất lượng
- Nội dung không liên quan đến với tiêu đề
- Nội dung copy
- Số lượng link out trong một bài quá lớn
- Mật độ từ khóa không phù hợp
Trang 30- Trong bài viết có chứa link ẩn
và có 4 tiêu chí chính trong thuật toán google panda mà chúng ta cần lưu ý:
1.6.1.1 Thời gian người dùng ở trang web của bạn
Thời gian khách truy cập trên website Nếu người dùng tìm thấy những nội dung hữu ích và đáp ứng đúng nhu cầu của họ, khả năng họ ở lại trên website để tìm những thông tin liên quan là rất cao Do đó các trang web mà người dùng giành nhiều thời gian để đọc và tìm những bài viết trên website sẽ được Google đánh giá cao
1.6.1.2 Người dùng cập thường xuyên
Tỷ lệ Bounce Rate Thuật toán Google đưa ra là khi một website người dùng thường xuyên truy cập sẽ là website có giá trị và không rơi vào bộ lọc của Google Panda
1.6.1.3 Người dùng quay lại trang web
Tỷ lệ người dùng quay trở lại, một cách tuyệt vời để biết được trang web đang có thứ hạng cao trên bảng tìm kiếm của Google có hữu ích hay không chính
là tỷ lệ khách hàng quay trở lại website Google tin rằng chỉ có chất lượng website mới khiến người dùng quay trở lại website thường xuyên hơn
1.6.1.4 Mạng xã hội
Trang 31Mục đích của Google Panda là để giúp chọn lọc ra các website hoạt động thực sự bởi con người chứ không phải máy móc (Auto post) Do đó những mạng
xã hội là tiêu chí đánh giá khá quan trọng khi tại đây những yếu tố tương tác rất mạnh chỉ có con người mới có thể làm được như trên Facbook, Youtube, Twister…
1.6.2 Thuật toán Google Pengiun
Là thuật toán thứ 2 được google tung ra thuật toán google penguin hay
còn gọi là chim cánh cụt là một trong những thuật toán nhiều seoer không tìm hiểu
kỹ về seo dễ mắc phải Thuật toán này được chính thức cập nhật 24/4/2012 cho
đến nay thì cũng đã cập nhật rất nhiều phiên bản
Vì sao thuật toán này lại là thuật toán nhiều seoer gặp phải vì nó liên quan
đến backlink một trong những việc mà seoer thường xuyên làm, việc tạo ra
backlink chất lượng khá khó khăn khiến cho nhiều người đã biến nó thành công việc spam và dẫn đến việc bị google nhòm ngó
Hình 1.8: Thuật toán penguin liên quan tới backlink
Một số lỗi thường gặp của seoer
Trang 32- Backlink có nội dung trùng lập
- Backlink chèn ẩn
- Nhồi nhét backlink
- Mua bán backlink
- Chỉ tập trung vào một anchortext
Google Pentium phạt những lỗi như thế nào?
1.6.2.1 Xây dựng backlink không tự nhiên
Backlink tự nhiên là backlink cho người khác đặt vì sự hữu ích của website bạn chứa không phải do bạn đặt hoặc yêu cầu người khác đặt Theo lý thuyết trên thì thực tế Google sẽ không biết đâu là backlink tự nhiên hay không?
Google sẽ dựa và 1 số yếu tố sau để xác định backlink không tự nhiên
- Quá nhiều backlink trong thời gian ngắn:
Đặc biệt với nhưng website mới có ít nội dung sẽ phải cận thận khi đặt link toàn trang trên các site có index cao Backlink quá nhiều trong thời gian ngắn không tương xứng với nội dung hiện có sẽ làm cho website của bạn bị phạt nặng.Ngoài làm cho từ khóa bị mất tích thì lỗi này còn có thể ảnh hưởng đến toàn
bộ website Bạn nên đặt nhẹ backlink cho tới khi từ khóa nhận diện và nội dung đủ nhiều thì bạn mới có thể tăng tốc backlink được
- Quá nhiều anchortext cho một site trên một page:
Lỗi này hay gặp khi các bạn đặt chữ ký hay gửi tin nhắn trong các diễn đàn Các SEOer thường tận dụng số lượng ký tự cho phép trong chữ ký để đặt tối đa có thể Điều này vô tình làm mật độ từ khóa quá cao khi các bạn trả lời nhiều lần trong topic đó Một vấn đề nữa là giá trị backlink sẽ bị giảm dần khi đặt anchortext thứ 3 cho một site trở đi Với lỗi này google ít phạt nhưng bạn sẽ không mang hiệu quả của backlink Lời khuyên của mình là bạn chỉ nên đặt tối đa là ba backlink cho một website trên một page
- Link SEO chỉ tập trung vào một từ khóa:
Backlink SEO chỉ đặt cho từ khóa SEO mà không đạt link SEO cho các từ
Trang 33khóa mở rộng Với lỗi này google chỉ phạt với mức độ nhẹ, từ khóa sẽ ở vị trị từ 20x trở xuống Đây là lỗi nhiều SEOer mắc phải mà không biết lý do tại sao mình SEO nghiêm túc mà vẫn không thể lên top mặc dù backlink là nhiều Lời khuyên cho bạn là SEO thêm từ khóa mở rộng với cùng link SEO từ khóa SEO chính →
đa dạng hóa anchortext
- Từ khóa không phù hợp với link SEO:
Lỗi gặp khi SEOer chọn link SEO không phù hợp hoặc không tối ưu hóa nội dung của link SEO Dẫn đến anchortext chẳng liên quan gì đến nội dung Google sẽ phạt nhẹ lỗi này - từ khóa sẽ “lênh đênh” ở top dưới bảng xếp hạng tìm kiếm
1.6.2.2 Backlink từ những website hoặc page chất lượng kém
- Website bị google phạt nặng:
Đây là điều tối kỵ khi bạn đặt backlink, backlink trên các website bị google phạt sẽ ảnh hưởng rất lớn tới độ trust website của bạn, tốt nhất đừng “dao du” với các website như thế Các nhận biết các website bị phạt nặng là kiểm tra index (chỉ mục) xem còn không Công thức trên box tìm kiếm google : “site:doman-bị-phat”
- Có nội dung trùng lặp:
Điển hình là backlink từ những site có nội dung rác hay những page có nội dung trùng lặp ví dụ như backlink trên các bài viết ( rao vặt ) sao chép hoặc trộn không kỹ Sau đây là nhưng website cần trách khi đặt backlink
- Website bị nhiễm mã độc :
Backlink của bạn sẽ có giá trị bằng không khi đặt trên các website như thế này và đôi khi còn bị ảnh hưởng lây Để bảo vệ người dùng google chrome sẽ hỏi bạn có chắc chắn khi truy cập vào website này không (website bị nhiễm) Để kiểm tra website có bị nhiễm mã độc hay không các bạn truy cập vào link sau:
- Website crawl tin của website khác:
Google rất ghét nội dung trùng lặp, đợi cập nhập thuật toán gần đây đã làm cho nhiều website crawl bị giảm 50% lượng truy cập Nội dung sao chép bị google đánh giá thấp và ít khi có mặt trên top cao của kết quả tìm kiếm Ngoài ra nếu sao chép ở mức độ cao (cả title và description) website này sớm muộn gì của bị googel phạt nặng Nên bạn cũng suy nghĩ kỹ trước khi đặt link tại các website này
Trang 341.6.3 Thuật toán Zebra ( Ngựa vằn )
Google đã lấy con vật có nửa đen, nửa trắng này để làm tượng trưng cho
thuật toán này, hay người ta còn gọi là thuật toán Zebra ( Ngựa vằn ), từ hình
tượng trưng ta cũng có thể suy đoán được một phần nào đó, nó tượng trưng cho seoer mũ trắng Thuật toán này liên quan nhiều đến mạng xã hội
Hình 1.9: Thuật toán Zebra ( ngựa vằn )
1.6.3.1 Các điều cần lưu ý với thuật toán Zebra
- Đăng nhiều link lên tường nhà bạn mà không có bất kỳ nội dung nào bổ ích cho người đọc
- Mạo danh tài khoản Google+, mạo danh tài khoản người khác
- Chia sẻ quá nhiều liên kết trên Google+ của bạn: Spam liên kết trong
Trang 35comment của người khác, hoặc lên những group không liên quan đến nội dung.
- Lạm dụng spam Social Bookmarking: Việc spam lên hàng loạt Social giờ
là vô nghĩa, và đôi khi nó giết chết bạn Hãy dừng lại và chú trọng đến những Social chất lượng mà bạn có thể phát triển được (Google+, Facebook Twiter, Pinterest) Việc Social Bookmarking nhiều có thể nên dành cho web vệ tinh cần sự index và boot - Con số ngầm: Con số ngầm là điểm chất lượng mà Google+ dành cho bạn Nếu bạn đi spam, comment ném link, post bài group vô tội vạ… chỉ cần 1 hành thộng report (báo cáo) hay xóa của admin thì bạn sẽ bị trừ điểm khá mạnh
- Tham gia những Forum hoặc dùng thủ thuật để tăng Followers không chính đáng
1.6.3.2 Một số gợi ý để tránh thuật toán Zebra
1 Xây dựng 1 tài khoản Google+ chất lượng để làm Authorship
2 Thường xuyên cập nhật bài viết mới, hấp dẫn cho web của bạn để gây được sự chú ý với độc giả
3 Linh hoạt các tài khoản Google+ khác cũng có độ chất về sự linh hoạt nội dung tương tự để thao tác linh hoạt
4 Tham gia cộng đồng linh hoạt, nên tạo những cộng đồng Google+ nhỏ nhỏ để tăng chất lượng và linh hoạt nội dung Nếu nội dung chỉ là liên kết thì sớm muộn cũng sẽ bị thuật toán Zebra xử lý
1.6.4 Thuật toán Payday loan
Thuật toán Payday loan ( các khoản vay ) thuật toán này đánh vào cá "truy vấn spam" nó chỉ ảnh hưởng đến một từ khóa trong website hay nói cách khác nó
sẽ chỉ ảnh hưởng đến link có sử dụng các biện pháp truy vấn spam để hi vọng có thể lên top một cách nhanh chóng
Trang 36Hình 1.10: Thuật toán payday loan
1.6.4.1 Từ khóa Payday Loan vi phạm như thế nào ?
Từ khoá “Payday Loans” khi đó được SEO bằng cách:
Cách thứ nhất: Họ đi spam trên các trang dùng mã nguồn Drupal bằng
tools, vì khi đó, mã nguồn này ko chặn auto comment, cũng không có thẻ NoFollow cho phần comment => Backlink khủng => thăng hạng
Cách thứ hai: Họ viết 1 plugin có chức năng share tin lên FB (như
Addthis) dùng cho mã nguồn Joomla, mà Joomla thời đó có vài triệu người dùng Một site sẽ sử dụng 1 plugin, site đó có bao nhiêu link thì plugin đó trả về từng đó backlink => Backlink khủng => thăng hạng (Dù tất cả đều là link ẩn)
Đó chính là một trong những cách seo bẩn mà vẫn có thể lên top một cách nhanh chóng, nhưng đó chỉ là trước đây
1.6.5 Thuật toán Hummingbird ( Chim ruồi )
Trang 37Hummingbird hay là chim ruồi một trong những loài chim có tốc độ đập
cánh số 1, với trên 70 lần/giây.Thuật toán Hummingbird này làm nâng cao khả
năng tìm kiếm, và khả năng tìm kiếm bằng giọng nói ở trên google
Hình 1.11: Thuật toán hummingbird
Panda, Penguin và những thuật toán khác là những thay đổi một phần nào
đó trong thuật toán cũ, chứ không hoàn toàn thay thế nó Hãy thử tưởng tượng, giống như một cỗ máy Những thuật toán Panda hay Penguin cũng giống như việc thay đổi một bộ phận lọc dầu hay thay phanh mới Hummingbird là một cỗ máy hoàn toàn mới, mặc dù nó vẫn sử dụng một số phần của thuật toán cũ, chẳng hạn như Penguin và Panda
Hay nói cách khác thì thuật toán này sẽ giúp người dùng có kết quả tìm kiếm chính xác vào sâu hơn, và nó còn có khả năng phân tích được các kết quả có
từ đồng nghĩa, thuật toán này giường như sẽ giúp các bạn chuyên sâu các từ khóa
dài, hãy tập trung nhiều hơn về long-tail keywords
1.6.6 Thuật toán Pigeon ( Chim bồ câu )
Theo các chuyên gia hàng đầu Việt Nam, thế giới và các tạp chí thế giới nổi tiếng về SEO Google cập nhật thuật toán này một cách âm thầm và được các chuyên gia đặt tên là chim Bồ Câu (Pigeon)
Trang 38Với tên gọi này sẽ giúp mọi người tìm hiểu về thuật toán này trong tương lai.
Pigeon hoạt động như thế nào? Thuật toán chim bồ câu (Pigeon) như nói ở trên, sẽ sắp xếp toàn bộ các Website có liên quan đến địa phương, tìm các từ đồng nghĩa Hoạt động dựa theo công nghệ Google PigeonRank, công nghệ này xử lý theo kết quả tìm kiếm chính xác và nhanh nhất theo địa điểm Những website nào SEO hướng đến SEO LOCAL sẽ có sự ảnh hưởng một phần nào đó nhưng không nhiều
1.7 Tìm hiểu về SEO
Theo thống kê của tổ chức Verisign, trong Q1 năm 2010 đã có thêm 1 triệu địa chỉ Internet, nâng tổng số địa chỉ Internet trên thế giới lên trên 193 triệu và số lượng này sẽ không ngừng tăng lên đồng nghĩa với việc có bằng đó địa chỉ website
đã hoặc sẽ hoạt động trên mạng
Việc thiết kế xong một website cũng giống như việc chọn và mua được vật liệu để xây nhà từ những cữa hàng vật liệu uy tín mà thôi Thiết kế một website đẹp là do đội ngũ thiết kế và xây dựng, còn việc website đó có làm ra tiền hay không thì phần lớn lại phụ thuộc vào cách mà webmaster quảng cáo và khai thác website đó như thế nào Như vậy, câu hỏi được đặt ra là: làm thế nào để quảng cáo website tới người dùng?
Có rất nhiều cách để bạn đưa website của mình đến với người dùng như là quảng cáo trên ti vi, báo chí, quảng cáo tờ rơi, làm hội thảo… Mỗi cá nhân và doanh nghiệp chọn một cách quảng bá khác nhau Nhưng một cách vô cùng hiệu quả mà bất kỳ website nào cũng phải làm đó là tối ưu hóa công cụ tìm kiếm hay còn gọi là SEO Như vậy:
Trang 39website trong các trang kết quả của các công cụ tìm kiếm và có thể được coi là một tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm.
Thuật ngữ SEO cũng có thể được dùng để chỉ những người làm công việc tối ưu hóa công cụ tìm kiếm, là những nhà tư vấn đưa ra những dự án tối ưu hóa cho các website của khách hàng
Làm SEO là quá trình tối ưu hóa mã nguồn website, giúp website thân thiện với các công cụ tìm kiếm để tăng lượng truy cập qua từ khóa tìm kiếm từ đó tăng
số lượng người truy cập tới Một website được làm SEO tốt, đồng nghĩa với việc website đó luôn xuất hiện ở thứ hạng cao khi người truy cập sử dụng công cụ tìm kiếm để tìm nội dung mà họ cần SEO cũng có thể bao gồm nhiều loại mục tiêu khác nhau khi tìm kiếm như: tìm ảnh, tìm từ khóa, tìm theo quốc gia và một số loại SEO khác
Các công cụ tìm kiếm hiển thị một số dạng danh sách trong trang kết quả tìm kiếm (SERP) bao gồm danh sách trả tiền, danh sách quảng cáo, dánh sách trả tiền theo click và danh sách tìm kiếm miễn phí
Mục tiêu của SEO chủ yếu hướng tới việc nâng cao thứ hạng của danh sách tìm kiếm miễn phí theo một số từ khóa nhằm tăng lượng và chất của khách viếng thăm đến trang
SEO đôi khi là một dịch vụ độc lập hay là một phần của dự án tiếp thị và có thể rất hiệu quả ở giai đoạn phát triển ban đầu và giai đoạn thiết kế website Hiện nay các nhà quản trị website tại Việt Nam nói riêng hay trên toàn thế giới nói chung đã luôn dành cho SEO một vị trí đặc biệt trong chiến lược phát triển kinh doanh online của họ Hiện trên mạng Internet có 3 công cụ tìm kiếm hữu hiệu nhất
và phổ biến nhất:Google, Yahoo, Bing
SEO có thể coi như là một kỹ thuật, một bí quyết thực sự đối với mỗi người quản trị, xây dựng website hay đơn thuần là người làm trong lĩnh vực truyền thông
1.7.2 Tại sao cần SEO?
Đại đa số lưu lượng truy cập đến với các website hiện nay đều từ các bộ
Trang 40máy tìm kiếm lớn như: Google, Yahoo, Bing… Nếu website không được tìm thấy bởi các công cụ tìm kiếm hoặc nội dung không nằm trong cơ sơ dữ liệu của các bộ máy tìm kiếm thì đó chính là một thảm họa nếu công ty đó đang kinh doanh online hoặc có giao dịch trực tuyến hoặc có đi chăng nữa nhưng kết quả tìm kiếm luôn nằm ở trang 3, 4, 5… trở đi thì cũng coi như là 1 thất bại.
Một ví dụ nhỏ: website kinh doanh nội thất và…cứ mỗi “khách hàng tiềm năng” lên Google, Bing gõ từ khóa tìm kiếm: “đồ nội thất giá rẻ” thì kết quả truy vấn đầu tiên đập vào mắt họ là website của doanh nghiệp Sau đó, khả năng “khách hàng tiềm năng” trở thành ”khách hàng thân thiết” sẽ cao hơn các đối thủ khác, và
dĩ nhiên doanh số tăng theo
Làm SEO hiện tại với thị trường phát triển mạnh và liên tục như hiện nay là điều mà các trang web nên làm và phải làm, hãy bắt đầu ngay vì không bao giờ SEO là quá muộn
Một câu hỏi khác được đặt ra: “Tại sao các công cụ tìm kiếm không thể tìm thấy website của tôi nếu không có sự trợ giúp của SEO?”
Nếu nói là “không thể tìm thấy” thì không hoàn toàn đúng
Thực ra, sau 1 thời gian dài, website cũng được các cổng tìm kiếm đưa vào index, nhưng chỉ là “cho có” chứ không thật sự như những gì mà chúng ta muốn,
vì khi các đối thủ cạnh tranh có sử dụng các biện pháp SEO thì website chúng ta chẳng bao giờ được lọt vào các trang đầu trên bộ máy tìm kiếm
Khi có SEO tham gia vào công việc này, nó sẽ giúp website tăng thứ hạng trên các công cụ tìm kiếm và hiển thị nội dung ở những nơi mà người dùng dễ thấy
và tìm kiếm nhất (kết quả hiển thị ngay trang 1)
Thời đại toàn cầu hóa đã biến bất kỳ môi trường làm việc nào cũng mang tính cạnh tranh, và thế giới ảo cũng không ngoại lệ Những website nào đã và đang quan tâm đến SEO thì đã có 1 lợi thế hơn so với đối thủ của mình trong việc giành lấy người dùng
1.7.3 Các kĩ thuật SEO cơ bản?