Đề tài về công cụ SEO, một trong những công cụ để làm tăng thứ hạng của Website trong lệnh tìm kiếm của Google.com. Nghiên cứu và ứng dụng công cụ SEO vào website vietair tv tại công ty cổ phần thương mại dịch vụ và du lịch Tam Vương
Trang 1CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ THỰC TẬP VÀ ĐỀ TÀI NGHIÊN
CỨU 4
1.1 Tổng quan về cơ sở thực tập 4
1.1.1 Giới thiệu chung 4
1.1.2 Lịch sử hình thành và phát triển 5
1.1.3 Lĩnh vực hoạt động 6
1.1.4 Mục tiêu của công ty 7
1.1.5 Tổ chức công ty 8
1.1.6 Các đối tác của công ty 10
1.2 Tổng quan về đề tài nghiên cứu 10
1.2.1 Thực trạng ứng dụng tin học của công ty 10
1.2.2 Tính cấp thiết của đề tài nghiên cứu 11
CHƯƠNG 2 CƠ SỞ PHƯƠNG PHÁP LUẬN VỀ TỐI ƯU HÓA WEBSITE 12 2.1 Tổng quan về World Wide Web 12
2.1.1 Khái niệm về World Wide Web 12
2.1.2 Lịch sử hình thành 12
2.1.3 Đặc điểm và nguyên lý hoạt động 12
2.1.4 Một số trình duyệt Web 13
2.2 Tổng quan bộ máy tìm kiếm 15
2.2.1 Lịch sử hình thành 15
2.2.2 Cách thức hoạt động 16
2.2.3 Một số Search Engine thông dụng 18
2.3 Cấu tạo chung của bộ máy tìm kiếm 19
2.3.1 Robot – bộ thu thập thông tin 20
2.3.2 Index – bộ lập chỉ mục 23
2.3.3 Search Engine – Bộ tìm kiếm thông tin 23
2.4 Hệ thống PageRank (PR) 25
2.4.1 Khái niệm PageRank 25
2.4.2 Bản chất của PageRank 25
2.4.3 Công thức tính PageRank 26
2.4.4 Vai trò của PageRank 26
2.4.5 Tối ưu PageRank 27
2.5 Tổng quan về SEO 27
Trang 22.5.1 Lịch sử hình thành 27
2.5.2 SEO là gì? 29
2.5.3 Tại sao cần SEO? 30
2.5.4 Các công việc của người làm SEO 31
2.5.5 Các kỹ thuật SEO cơ bản 32
CHƯƠNG 3 TỐI ƯU HÓA WEBSITE VIETAIR.TV 35
3.1 Kiến trúc của website 35
3.2 Các công cụ SEO cần thiết cho việc quản trị website 36
3.3 Tối ưu hóa bên trong website 38
3.3.1 Tối ưu tiêu đề của website (Title) 38
3.3.2 Tối ưu mô tả cho website (Meta Description) 41
3.3.3 Tối ưu URL cho website 42
3.3.4 Tối ưu trong điều hướng website 43
3.3.5 Tối ưu hình ảnh trong website 45
3.3.6 Tối ưu các thẻ Heading trong website 45
3.3.7 Sử dụng các liên kết trong website 46
3.3.8 Bài viết chuẩn Seo trong website 48
3.3.9 Tối ưu tốc độ website 51
3.3.10.Robot 52
3.4 Tối ưu hóa bên ngoài website 53
3.4.1 Phương pháp xây dựng backlink 53
3.4.2 Phương pháp xây dựng backlink tại website vietair.tv 55
3.5 Nghiên cứu từ khóa 59
3.5.1 Mục đích của nghiên cứu từ khóa 59
3.5.2 Phân loại từ khóa 60
3.5.3 Danh sách từ khóa của website vietair.tv 61
3.6 Kết quả đạt được 63
KẾT LUẬN 67
TÀI LIỆU THAM KHẢO 69
Trang 3DANH MỤC CHỮ VIẾT TẮT
IATA International Air Transport - Association
DANH MỤC SƠ ĐỒ - BẢNG BIỂU
Hình 1.1 Sơ đồ tổ chức công ty 8
Trang 4Hình 2.1 Quy trình truy cập Web Browser 13
Hình 2.2 Biểu đồ thị phần của các trình duyệt web 14
Hình 2.3 Bộ máy tìm kiếm Search Engine 16
Hình 2.4 Cách thức hoạt động của bộ máy tìm kiếm 17
Hình 2.5 Tỷ lệ tìm kiếm trên các kênh Search Engine quý I năm 2014 18
Hình 2.6 Tỷ lệ tìm kiếm trên các kênh Search Engine năm 2013 19
Hình 2.7 Cấu tạo Search Engine 20
Hình 2.8: Hệ thống tự động đoán hành vi tìm kiếm 24
Hình 2.9 Trang chủ của Google năm 1998 28
Hình 2.10 SEO là gì? 29
Hình 2.11 Phân loại SEOer 31
Hình 3.1 Thanh Menu bên trên của website vietair.tv 35
Hình 3.2 Sitemap của website vietair.tv 36
Hình 3.3 Sử dụng công cụ Seoquake Toolbar trên website vietair.tv 38
Hình 3.4 Tiêu đề của website vietair.tv 38
Hình 3.5 Tiêu đề của website vietair.tv trong đoạn code lập trình 39
Hình 3.6: Tiêu đề xuất hiện trong kết quả tìm kiếm về website 39
Hình 3.7 Thẻ Meta Description trong code lập trình của website vietair.tv 41 Hình 3.8 URL của website vietair.tv 42
Hình 3.9 Cấu trúc phân tầng hợp lý của website vietair.tv 44
Hình 3.10 Các thẻ Headings của website vietair.tv theo Seoquake 46
Hình 3.11 Các ký tự liên kết trong website vietair.tv 48
Hình 3.12 Quy định về bài viết chuẩn SEO 50
Hình 3.13 Robots.txt được đặt ở root 52
Hình 3.14 Mô hình Star 56
Hình 3.15 Mô hình Link Wheel 57
Hình 3.16 Mô hình Pyramid 58
Hình 3.17 Hệ thống website vệ tinh 58
Hình 3.18 Độ dài từ khóa 61
Hình 3.19: Biểu đồ theo đánh giá của Ahrefs Rank cho website vietair.tv .64 Hình 3.20 Biểu đồ về các trang chuyển hướng tới vietair.tv 65
Hình 3.21 Biểu đồ về các loại backlink tại website vietair.tv 65
Hình 3.22 Bản đồ thống kê lượng truy cập theo vị trí địa lý 66
Hình 3.23 Thống kê theo Alexa Rank 66
Trang 5LỜI NÓI ĐẦU
Trong những năm gần đây, Internet ngày càng phát triển mạnh mẽ, chúng takhông chỉ dùng internet để giải trí, kết bạn hay truyền các thư điện tử mà cònkinh doanh qua internet Thương mại điện tử tại Việt Nam trong vài năm gần đâycũng phát triển mạnh Chính vì vậy mà ngày càng có nhiều website kinh doanhsản phẩm, dịch vụ được mở ra, từ những cá nhân nhỏ lẻ đến các công ty Họ chỉcần một chiếc máy tính có kết nối internet và một website để trưng bày sản phẩmcùng thông tin liện hệ là hoàn toàn có thể tham gia kinh doanh trên mạng
Để đạt được vị trí tốt trên các công cụ tìm kiếm chúng ta sẽ có hai cách:Thứ nhất là quảng cáo Google Adwards hiệu quả nhanh nhưng chi phí cực lớntheo thời gian và cách thứ hai chính là "Tối Ưu Hóa Công Cụ Tìm Kiếm" haycòn gọi là SEO, viết tắt của Search Engine Optimization,với hiệu quả lâu dài vàchi phí thấp hơn nhiều Đối với các doanh nghiệp có mục đích lâu dài thì đều lựachọn phương thức thứ hai để tăng hạng website của mình
Vậy làm thế nào để có thể thu được hiệu quả tốt và nhanh nhất cho việc tối
ưu hóa website? Như ta đã biết, quy trình tối ưu hóa đã được thực hiện thông qua
hệ thống quản trị nội dung Tuy nhiên, trong thực tế, công việc này cần có kinhnghiệm và một quy trình phân tích kỹ lưỡng về tính hiệu quả để có một hướng tối
ưu cho website của bạn Vì vậy, em đã chọn đề tài "Nghiên cứu và ứng dụngcông cụ SEO vào website vietair.tv tại Công ty cổ phần thương mại dịch vụ và dulịch Tam Vương" trong chuyên đề thực tập của mình
Tính cấp thiết của đề tài
Website là đại diện thay thế cho bất kì doanh nghiệp nào trên Internet, lànơi khách hàng tìm kiếm thông tin về doanh nghiệp và các dịch vụ cũng như sảnphẩm của doanh nghiệp đó Ngoài ra, website còn tạo ra nhiều lợi thế khác như:
- Đưa hoạt động của doanh nghiệp từ nội địa ra quy mô toàn cầu
- Là nơi trưng bày, giới thiệu sản phẩm, hàng hóa, dịch vụ của Doanhnghiệp, hoạt động liên tục 24h/7 ngày, không bị giới hạn thời gian và không gian
- Là kênh thông tin giới thiệu sản phẩm, dịch vụ hoàn hảo nhất và hữu dụngnhất với hình ảnh, media, …
- Là một kho hàng khổng lồ, không giới hạn sức chứa
- Là kênh bán hàng tốn ít chi phí nhất
Trang 6Theo Tổng cục Thống kê, tổng số người sử dụng Internet tại Việt Nam tínhđến tháng 11/2012 là 31,3 triệu người, chiếm 35,58% dân số Việt Nam Như vậy,
kể từ ngày Việt Nam gia nhập cộng đồng Internet toàn cầu (1/12/1997), lượngngười sử dụng Internet trong nước đã tăng nhanh một cách đáng kể
Nhìn chung, Internet là một món ăn tinh thần không thể thiếu với cuộc sốngcủa mọi người, với thói quen sử dụng các công cụ tìm kiếm như Google, Yahoo,MSN để tìm kiếm thông tin về doanh nghiệp, tài liệu học tập, mua sắm trựctuyến hay thanh toán hóa đơn…
Hiện nay, có đến hơn 86% lượng truy cập vào website đều đến từ các kênhtìm kiếm lớn như Google, Yahoo, MSN… Trong hàng trăm, hàng triệu kết quảtrả về khi khách hàng truy vấn tìm kiếm, liệu website của bạn đang ở vị trí nào đểkhách hàng có thể tìm đến nhanh nhất? Hầu hết, những người sử dụng bộ máytìm kiếm đều không kiên nhẫn, họ thường chỉ tập trung vào các kết quả tìm đượctại “Trang nhất”
Câu hỏi đặt ra là: “Làm sao để website có thể hiển thị ở trang đầu tiên khingười dùng truy vấn?” SEO – Search Enginee Optimization: tối ưu hóa công cụtìm kiếm được đề xuất như là một phương pháp hữu hiệu giúp website có vị trícao tại trang kết quả đầu tiên, giúp cho người dùng dễ dàng tìm được website cóthông tin mình đang cần
Thực tế, công ty cổ phần TMDV và du lịch Tam Vương tuy đã được thànhlập từ lâu nhưng mua bán qua website cũng mới chỉ thực sự được chú trọngnhững năm gần đây Bên cạnh đó, nguồn khách hàng mới tìm đến website quacác kênh thông tin tìm kiếm là rất lớn Mặt khác, hiện nay với các từ khóa chínhđược tìm kiếm trên Google, website vietair.tv vẫn chưa có được thứ hạng nhưdoanh nghiệp mong muốn Chính vì vậy, đề tài “Nghiên cứu và ứng dụng công
cụ SEO vào website vietair.tv tại công ty cổ phần TMDV và du lịch TamVương” là thực sự cần thiết
Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu:
Bộ máy tìm kiếm Google
SEO và Công cụ SEO
Ứng dụng công cụ SEO vào website vietair.tv tại công ty cổ phầnTMDV và du lịch Tam Vương
- Phạm vi nghiên cứu:
Website vietair.tv tại công ty cổ phần TMDV và du lịch Tam Vương
Trang 7Mục tiêu của đề tài
- Tìm hiểu về bộ máy tìm kiếm của Google
- Hiểu thế nào là SEO, các công cụ SEO và các biện pháp để tiến hành SEOmột website
- Đưa website vào top 10 của bộ máy tìm kiếm với từ khóa “vé máy bay giárẻ”
- Phương pháp duy trì top 10 khi SEO đã thành công
- Website có lượng truy cập và backlink tương đối lớn
Phương pháp nghiên cứu
Trong đề tài nghiên cứu này, em sử dụng các phương pháp nghiên cứu sau đây:
- Phương pháp tiếp cận hệ thống làm nền tảng để xem xét và phân tích rồiđưa ra phương hướng tối ưu hóa website vietair.tv tại công ty cổ phầnTMDV và du lịch Tam Vương
- Phương pháp nghiên cứu và tổng hợp tài liệu liên quan đến các vấn đềquản lý tối ưu hóa trang web
Bước 1: Xây dựng ý tưởng, lựa chọn mã nguồn, xây dựng website
có nội dung riêng biệt, hỗ trợ người dùng tối đa
Bước 2: Bắt đầu phát triển website, song song với việc phát triển
cả về nội dung lẫn mã nguồn, bắt đầu áp dụng các biện pháp để tối
ưu hóa website
Bước 3: Thống kê, theo dõi các từ khóa, lượng người truy cập
Bước 4: Theo dõi báo cáo cụ thể, duy trì công việc hiện tại nếuSEO thành công hoặc sửa chữa khi SEO chưa thành công
Kết cấu của đề tài
Đề tài “Nghiên cứu và ứng dụng công cụ SEO vào website vietair.tv tạicông ty cổ phần TMDV và du lịch Tam Vương” gồm có 3 phần chính nhưsau:
Chương 1: Tổng quan về cơ sở thực tập và đề tài nghiên cứu
Chương 2: Cơ sở phương pháp luận về tối ưu hóa website
Chương 3: Ứng dụng SEO để tối ưu hóa website vietair.tv
Trang 8CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ THỰC TẬP VÀ ĐỀ TÀI NGHIÊN CỨU I.1 Tổng quan về cơ sở thực tập
I.1.1 Giới thiệu chung
- Tên công ty viết bằng tiếng Việt: Công ty cổ phần TMDV và du lịch TamVương
- Tên công ty viết bằng tiếng nước ngoài: TAM VUONG TRADINGSERVICE & TOURISM.,JSC
- Tên phòng vé: Tam Vương
- Điện thoại dịch vụ hotline: 19001796
- Tổng Giám đốc công ty: Ông Phạm Đình Ba
- Địa chỉ công ty:
a Trụ sở chính:
Số 16, ngõ 204, Trần Duy Hưng, Cầu Giấy, Hà Nội
Điện thoại: (04) 3783 6888 - Fax: (04) 3 782 4188
- Cơ sở pháp lý của công ty:
Công ty cổ phần Thương mại dịch vụ và du lịch Tam Vương đượcthành lập vào ngày 29 tháng 8 năm 2005 tại Sở Kế Hoạch và Đầu
Tư thành phố Hà Nội
Trang 9 Mã số thuế: 0101767563
Đăng ký lần đầu: ngày 29 tháng 8 năm 2005
Giấy phép kinh doanh: 0101767563 – ngày cấp 29/08/2005
Ngày hoạt động: 29/08/2005
Vốn điều lệ: 10.000.000.000 VNĐ
- Loại hình doanh nghiệp:
Công ty cổ phần TMDV và du lịch Tam Vương thuộc loại hình doanhnghiệp công ty cổ phần
- Người đại diện theo pháp luật của công ty:
Công ty được thành lập vào ngày 29 tháng 8 năm 2005 với tên gọi Công ty
cổ phần TMDV và du lịch Tam Vương, đặt trụ sở chính tại Số 16, ngõ 204 TrầnDuy Hưng, Thành phố Hà Nội; do ông Phạm Đình Ba làm Tổng Giám đốc.Công ty cổ phần TMDV và du lịch Tam Vương được hình thành dựa trênnhu cầu cần thiết của xã hội về vấn đề đặt vé máy, đặt các tour du lịch, tìm hiểuthông tin về các hãng hàng không trong và ngoài nước…
Hiện nay công ty Tam Vương xây dựng 2 website Vietair.tv và Onetour.vnvới mục tiêu trở thành 2 thương hiệu du lịch và đặt vé máy bay hàng đầu thịtrường
Onetour tại Việt Nam đang là đối tác của nhiều công ty chuyên cung cấpdịch vụ Landtour tại các quốc gia trên thế giới, đặc biệt là Hàn Quốc, Nhật Bản,Châu Âu và Châu Úc Công ty luôn đáp ứng cho du khách mọi nhu cầu về dulịch, nhận được sự hài lòng của khách hàng
Với những hoạt động tích cực không ngừng nghỉ, Công ty Tam Vương còn
là Đại lý được bổ nhiệm của Hiệp hội hàng không quốc tế - IATA (InternationalAir Transport - Association) cùng các đối tác là các Airline nổi tiếng và uy tíntrên thế giới
Trải qua một quá trình phát triển, công ty đã phát triển và đứng vững trongđiều kiện cạnh tranh ngày càng khốc liệt, luôn hoàn thành nghĩa vụ với các Nhànước Công ty đã trở thành một trong những công ty có uy tín trên thị trường vềlĩnh vực cung cấp dịch vụ hàng không, tổ chức các chương trình du lịch nội địa
Trang 10và quốc tế Cho đến nay, qua 10 năm thành lập và phát triển, phòng vé TamVương luôn là một trong những Công ty có doanh thu cao và ổn định tại Hà Nội,doanh thu tăng, lợi nhuận tăng, đảm bảo về chất lượng, giá cả cũng như sự phục
vụ trong mọi mặt kinh doanh Đặc biệt, Tam Vương hân hạnh được trao giảithưởng “Sản phẩm – Dịch vụ hàng đầu Việt Nam năm 2014” do người tiêu dùngbình chọn suốt 4 năm liền gần đây
I.1.3 Lĩnh vực hoạt động
Công ty cổ phần TMDV và du lịch Tam Vương là một công ty hoạt độngđộc lập, tự chịu trách nhiệm về các nghĩa vụ của mình Chính vì vậy, công tyhướng tới mục tiêu phát triển bền vững và trở thành thương hiệu du lịch và đặt vémáy bay hàng đầu trên thị trường Việt Nam Ban giám đốc và nhân viên trongcông ty luôn nỗ lực để tạo uy tín, thu hút được lượng khách hàng lớn, mở rộngthị trường và đem lại hiệu quả kinh doanh cao nhất cho công ty
Các phòng ban luôn phối hợp hoạt động, đặc biệt là phòng kinh doanh và phòngMarketing luôn điều tra, tìm hiểu, nắm bắt nhu cầu của thị trường
Công ty cổ phần TMDV và du lịch Tam Vương hoạt động bao gồm các lĩnh vựcchuyên môn sau đây:
- Cung cấp dịch vụ vé máy bay:
Tất cả các đường bay của các hãng hàng không trong nước vàquốc tế có mặt tại thị trường Việt Nam
Giao vé và các chứng từ hóa đơn tận nơi cho khách hàng
Hỗ trợ đưa đón tại sân bay, làm các thủ tục check-in
Hỗ trợ lấy chỗ cho khách những trường hợp căng chỗ, mùa caođiểm
- Cung cấp các Tour Du lịch trong và ngoài nước:
Chuyên cung cấp landtours trọn gói tại Hàn Quốc
Dịch vụ khách sạn tại Hàn Quốc
Cung cấp dịch vụ vận chuyển (Airlines, KTX, Limousine,Pickup )
Tổ chức hợp tác trao đổi quan hệ, thương mại 2 nước
Dịch vụ hướng dẫn viên, phiên dịch
- Cung cấp dịch vụ bảo hiểm của Công ty Bảo hiểm hàng đầu thế giới AIG:
Bảo hiểm du lịch
Bảo hiểm du học
Trang 11- Mục tiêu:
Hoàn thiện chất lượng dịch vụ, nâng cao kỹ năng trình độ của độingũ nhân viên, quản lý để đem lại những dịch vụ tốt nhất chokhách hàng
Luôn hướng tới lợi ích khách hàng:
Nỗ lực hết mình để đáp ứng nhu cầu của khách hàng trongkhoảng thời gian nhanh nhất với những thông tin chính xác vàhiệu quả nhất
Đáp ứng đa dạng nhu cầu của khách hàng
Lắng nghe, thấu hiểu, chăm sóc, thiết lập mối quan hệ bềnvững và thân thiết với khách hàng
Năng động sáng tạo:
Đây là mục tiêu được chú trọng và phát huy tại Công ty CổPhần TMDV & Du Lịch Tam Vương bởi nó là yếu tố tiênquyết để Tam Vương trở thành nhà cung cấp dịch vụ và dulịch hàng đầu
Trang 12 Tạo ra được nhiều giá trị thiết thực và đem tới sự hài lòng chokhách hàng khi hợp tác với Công ty Cổ Phần TMDV & DuLịch Tam Vương.
Giá trị cốt lõi:
Định hướng khách hàng là nền tảng hoạt động
Tạo dựng uy tín và hợp tác chặt chẽ bền vững với khách hàng
Đội ngũ nhân viên nhiệt tình, sáng tạo, có tinh thần trách
nhiệm và chuyên nghiệp
Xây dựng văn hóa Công ty với phương châm đoàn kết, tương
trợ, văn minh, không ngừng học hỏi và hoàn thiện
I.1.5 Tổ chức công ty
a Sơ đồ tổ chức công ty
Hình 1.1 Sơ đồ tổ chức công ty
Trang 13b Nhiệm vụ các phòng ban
- Ban lãnh đạo: Ban lãnh đạo chính là Tổng Giám đốc, là người đại diện
pháp nhân cho công ty, chịu trách nhiệm điều hành hoạt động kinh doanhcủa công ty, có quyền và nghĩa vụ cao nhất trong công ty, là người chịutrách nhiệm trước cơ quan Nhà nước, quyết định mọi thủ tục hay địnhhướng phát triển tại công ty
- Phòng Bán Vé:
Thực hiện các giao dịch đặt vé máy bay cho khách hàng lẻ khikhách hàng đặt vé trên website
Đặt vé cho các đoàn mà bộ phận tour gửi
Giao dịch với các hãng hàng không trong nước và quốc tế.
- Phòng Tour:
Thực hiện xây dựng các tour du lịch trong nước và nước
Liên hệ và tư vấn cho khách hàng về các dịch vụ của công ty như
tổ chức tour du lịch, làm visa du lịch cho du khách
- Phòng Kinh Doanh: Tìm kiếm các khách hàng mới, nguồn khách hàng
tiềm năng, liên hệ với khách hàng
- Phòng Kế toán:
Thực hiện thanh toán hợp đồng, các chi phí
Kiểm tra số liệu kế toán tổng hợp hàng ngày
Giám sát nghiệp vụ kế toán các chi nhánh từ xa và tại chỗ
Kế toán thuế, trích lập và sử dụng các quỹ ngân hàng
Thực hiện các báo cáo nghiệp vụ có liên quan
- Phòng IT:
Triển khai, quản lý, vận hành hệ thống máy chủ, hệ thống lưu trữ
Quản lý website và nghiên cứu để website của công ty ngày càngđược nâng cấp hơn nữa
Trang 14I.1.6 Các đối tác của công ty
1 Hãng hàng không Việt Nam Cung cấp dịch vụ vé máy bay trong nước
4 Bảo hiểm du lịch toàn cầu
AIG Cung cấp dịch vụ bảo hiểm cho khách hàng khi đi ra nước ngoài
5 Công ty Galileo Vietnam Cung cấp hệ thống đặt giữ chỗ Galileo của
I.2 Tổng quan về đề tài nghiên cứu
I.2.1 Thực trạng ứng dụng tin học của công ty
a Thực trạng phần cứng
- Máy chủ:
DC: máy chủ lưu trữ website của công ty và các website vệ tinh
Mailsrv: máy chủ Mail server quản lý toàn bộ hệ thống Email của công
ty Mỗi cán bộ nhân viên trong công ty được cấp một Account Email miễnphí, dung lượng không giới hạn
Trang 15 Máy chủ Proxy server: máy chủ kết nối truy cập Internet cho tất cả cácmáy tính trong công ty.
- Modem: 2 Model ADSL
I.2.2 Tính cấp thiết của đề tài nghiên cứu
Công nghệ thông tin là tập hợp các phương pháp khoa học, các phương tiện
và công cụ kĩ thuật hiện đại, chủ yếu là kĩ thuật máy tính và viễn thông nhằm tổchức khai thác và sử dụng có hiệu quả các nguồn tài nguyên thông tin rất phongphú và tiềm năng trong mọi lĩnh vực hoạt động của con người và xã hội Dựa vàonhu cầu thực tế của xã hội đòi hỏi con người luôn phải năng động và sáng tạo đểtạo ra những sản phẩm cho xã hội
Một ứng dụng quan trọng của công nghệ thông tin ngày nay đối với hầu hếtcác doanh nghiệp là website Website chính là ngôi nhà của bất kì doanh nghiệpnào trên Internet, là nơi khách hàng tìm kiếm thông tin về doanh nghiệp và cácdịch vụ cũng như sản phẩm của doanh nghiệp đó
Đối với Công ty cổ phần TMDV và du lịch Tam Vương, việc giới thiệu đếnkhách hàng sản phẩm, dịch vụ chủ yếu thông qua website nên đội ngũ nhân viênthuộc bộ phận IT đang cố gắng để cải thiện website vietair.tv sao cho nội dungthêm phong phú, hấp dẫn; tốc độ xử lý nhanh chóng hơn và đặc biệt là tối ưu hóawebsite sao cho website được giới thiệu đến nhiều khách hàng hơn thông qua cáccông cụ tìm kiếm trên internet
Trước đây, do chưa nhận thức được tầm quan trọng của vị trí website xuấthiện trên các kênh thông tin tìm kiếm mà website của công ty vẫn chưa được xử
lý tốt nhất Vì vậy, làm thế nào để đưa website lên vị trí top đầu khi tìm kiếm qua
Trang 16Google với các từ khóa nhất định đang là một vấn đề cấp thiết đối với các nhânviên của bộ phận IT.
CHƯƠNG 2 CƠ SỞ PHƯƠNG PHÁP LUẬN VỀ TỐI ƯU HÓA WEBSITE 2.1 Tổng quan về World Wide Web
2.1.1 Khái niệm về World Wide Web
- World Wide Web được gọi tắt là Web hay WWW, là mạng lưới nguồnthông tin cho phép mọi người khai thác thông tin qua một số công cụ hoặc
là chương trình hoạt động dưới các giao thức mạng
- Web có khả năng liên kết với những Web khác, thông qua các “siêu liênkết” (hyperlink), mà thực chất là địa chỉ trỏ tới nguồn thông tin nằm đâu
đó trên Internet Bằng những siêu liên kết này, các trang web có thể liênkết với nhau thành một mạng chằng chịt, trang này trỏ tới trang khác, chophép mọi người có thể tìm thấy bất cứ thông tin gì có trên Internet
2.1.2 Lịch sử hình thành
- Năm 1991, Tim Berners Lee trong quá trình nghiên cứu Internet đã hìnhdung ra một khái niệm về phương thức truyền các tập tin qua lại giữa kếtnối UUCP (Unix to Unix Copy) và FTP Theo phương cách này, một máytính ở trên mạng có thể xem được các tập tin của máy tính khác và ngượclại Khái niệm này sau đó được phát triển mạnh mẽ và trở thành WorldWide Web
- Các file truyền trên WWW hoặc Web lúc ban đầu là những văn bản địnhdạng text (chỉ gồm các ký tự) phải được đánh dấu định dạng (Marked up)bởi một ngôn ngữ có tên Hyper Text Markup Language (HTML) Chươngtrình duyệt Web còn gọi là Web Browser sẽ căn cứ vào các dấu định dạngnày để tái hiện nội dung văn bản lên màn hình
- Ngày nay, các file trên Web có thể có những định dạng sau: hình ảnh,videos, file pdf, video flash, file javascript Với nhiều định dạng file khácnhau, nội dung trang web trở nên hấp dẫn hơn, thay vì thuần túy là vănbản Việc này gây khó khăn cho máy tìm kiếm, đặc biệt vào thời điểm nómới ra đời
2.1.3 Đặc điểm và nguyên lý hoạt động
- WWW được xây dựng dựa trên một kỹ thuật có tên gọi là hypertext.Hypertext là kỹ thuật trình bày thông tin trên một trang không theo tuần
tự Người đọc tự do đuổi theo các dấu vết liên quan qua tài liệu đó bằngcác mối liên kết xác định sẵn Trong môi trường ứng dụng hypertext, cóthể trỏ vào bất kỳ từ liên kết nào của tài liệu và sẽ tức khắc nhảy đến cáctài liệu khác có văn bản liên quan đến nó
Trang 17- Người dùng sử dụng một phần mềm Web Browser để xem thông tin trêncác máy chủ WWW Tại sever phải có một phần mềm Web server Phầnmềm này thực hiện nhận các yêu cầu từ Web Brower gửi lên và thực hiệnyêu cầu đó.
Hình 2.1 Quy trình truy cập Web Browser 2.1.4 Một số trình duyệt Web
a Internet Explorer
Viết tắt là IE, là trình duyệt Web thông dụng nhất hiện nay được đi kèmvới hệ điều hành Windows của hãng Microsoft Phiên bản hiện tại làInternet Explorer 8
b Mozilla FireFox
- Là một trình duyệt tự do, mã nguồn mở, có khả năng chạy trên nhiều hệđiều hành khác nhau, có giao diện đồ họa và được phát triển bởi công tyMozilla Corporation và hàng trăm tình nguyện viên ở khắp nơi trên thếgiới
- FireFox là trình duyệt đầu tiên có tất cả tính năng như ngăn chặn cửa sổquảng cáo kiểu pop-up, duyệt tab, đánh dấu trang động (live bookmarks),
hỗ trợ chuẩn mở và cơ cấu mở rộng để thêm chức năng cho chương trình
- Phiên bản hiện tại là 3.6
c Opera
- Là một bộ phần mềm Internet điều khiển các tác vụ liên quan đến Internetbao gồm duyệt web, gửi và nhận thư điện tử, tin nhắn, quản lý danh sáchliên hệ và trò chuyện trực tuyến
- Opera được phát triển bởi công ty phần mềm Opera Software tại Oslo (NaUy) Có thể chạy trên nhiều hệ điều hành khác nhau: Windows, MacOS,Solaris và Linux Nó cũng được sử dụng trong điện thoại di động,
Trang 18smartphone, PDA (Personal Digital Assistant), thiết bị trò chơi cầm tay vàtivi tương tác.
d Google Chrome
- Là trình duyệt web của hãng Google, một gã khổng lồ trong lĩnh vựcInternet và truyền thông, hỗ trợ tới 42 ngôn ngữ khác nhau, có khả năngchạy trên nhiều hệ điều hành khác nhau, giao diện đơn giản, dễ sử dụng và
có tốc độ duyệt web cực nhanh
- Tuy sinh sau đẻ muộn nhưng Google Chrome đã nhanh chóng vươn lênthành trình duyệt được nhiều người sử dụng nhất
- Google đã phát hành bản Chrome 2.0 chính thức vào giữa tháng 2/2009.Phiên bản hiện tại là ver 4
- Các thuật toán của Google luôn được thay đổi theo hướng tích cực hơntrong việc giúp người dùng tìm kiếm được các thông tin thực sự cần thiết.Mới nhất, ngày 21/4/2015, Google đã công bố dùng các website mobile-friendly để nâng hạng tốt hơn trong công nghệ tìm kiếm di động, ảnhhưởng đến tất cả các ngôn ngữ trên thế giới
e Cốc Cốc
- Tuy mới chỉ ra đời 2 năm từ năm 2012 nhưng Cốc Cốc thực sự đã đượckhá nhiều người biết tới và sử dụng, đặc biệt là ở Việt Nam Việc Cốc Cốcthu hút người sử dụng bởi nó mang trong mình nhiều tính năng của ngườianh em Chrome, nhưng nó có khả năng tải file mạnh mẽ mà không cần sửdụng tới các phần mềm download như IDM
- Ngoài ra, trình duyệt này còn tích hợp sẵn từ điển Anh – Việt Vì thế, việcbạn dịch một đoạn văn hay một từ tiếng Anh cũng đơn giản hơn rất nhiều
Hình 2.2 Biểu đồ thị phần của các trình duyệt web
Trang 192.2 Tổng quan bộ máy tìm kiếm
2.2.1 Lịch sử hình thành
Máy truy tìm dữ liệu trực tuyến hay SE (Search Engine), còn được gọi vớinghĩa rộng hơn là công cụ tìm kiếm (search tool), nguyên thủy là một phần mềm(thường được tích hợp vào một trang web trực tuyến) nhằm tìm ra các trang trênmạng Internet có nội dung theo yêu cầu người dùng dựa vào các thông tin màchúng có Trữ lượng thông tin này của công cụ tìm kiếm thực chất là một loại cơ
sở dữ liệu (database) cực lớn Việc tìm các tài liệu sẽ dựa trên các từ khóa(keyword) được người dùng gõ vào và trả về một danh mục của các trang Web
có chứa từ khóa mà nó tìm được Từ khóa được hiểu như là một tổ hợp các từ củamột ngôn ngữ nhất định được sắp xếp hay quan hệ với nhau thông qua các biểuthức logic mà công cụ tìm kiếm hỗ trợ Trong trường hợp một từ khoá bao gồmnhiều hơn một chữ (hay từ) thì có thể gọi tập họp tất cả các chữ đó là bộ từ khoá(set of keywords) Cơ sở dữ liệu mà máy truy tìm sử dụng thường được bổ sungcập nhật định kì bằng cách quét (scan), điều chỉnh, thêm bớt nội dung và chỉ sốhoá lại tất cả các trang mà nó có thể tìm gặp trên Internet
Ngày nay, với số lượng các trang Web lên đến hàng tỉ, việc tìm ra các trang
có chứa nội dụng đúng yêu cầu của người tìm kiếm với một từ khoá có thể hiện
ra kết quả trả về lên đến hàng triệu trang Do đó, việc hiển thị các trang tìm thấytheo đúng thứ tự quan trọng của các trang và theo mong muốn của người dùngcũng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự khéo léo vềcách thức đặt ra từ khoá từ người dùng máy
Một bộ máy tìm kiếm dữ liệu là một hệ thống phần mềm máy tính giúp conngười tìm kiếm thông tin được lưu trữ trên hệ thống máy tính như mạng Internet,hoặc máy tính cá nhân Máy tìm kiếm cho phép người dùng yêu cầu các thông tinvới những hạn chế nhất định (thường được miêu tả bởi từ hoặc cụm từ) và nhận
về một danh sách các liên kết siêu văn bản thỏa mãn các hạn chế Máy tìm kiếm
sử dụng hệ thống chỉ mục để có thể tìm kiếm nhanh chóng và hiệu quả Máy tìmkiếm thường được hiểu là máy tìm những thông tin công khai trên mạng, nếukhông có những khả năng cao hơn Ngoài ra còn có các loại máy tìm kiếm khácnhư máy tìm kiếm doanh nghiệp để tìm thông tin trên mạng nội bộ, máy tìmkiếm cá nhân để tìm thông tin trên máy tính cá nhân và máy tìm kiếm di động.Một số máy tìm kiếm còn khai thác thông tin trong các nhóm tin, các cơ sở
dữ liệu lớn, hay trong các hệ thống thư mục mở Khác với hệ thống thư mục
Trang 20mạng được duy trì bởi con người, máy tìm kiếm hoạt động dựa vào các thuậttoán Những trang web được gọi là máy tìm kiếm thực chất là giao diện ngườidùng của các máy tìm kiếm sở hữu bởi các công ty khác nhau.
2.2.2 Cách thức hoạt động
Người dùng có thể tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm…trên search engine Khi nhận được câu lệnh yêu cầu tìm kiếm, search engine sẽphân tích yêu cầu đó, đánh giá, xếp hạng và trả về kết quả liên quan nhất Searchengine hoạt động theo quy trình như sau :
Hình 2.3 Bộ máy tìm kiếm Search Engine
Ban đầu, Search Engine sẽ gửi các Spider (hay còn gọi là con bọ, Crawler)
để tiến hành khảo sát một website khi nó được upload lên Các Spider này đượclập trình để có thể tự động lần theo liên kết để đi đến các website khác nhau, saukhi dừng lại ở một website nào đó, Spider này sẽ thu thập, đánh giá các thông tintrên website đó trước khi tự động lần theo các liên kết đến các website khác…
Trang 21Sau khi nhận được các thông tin từ Spider, Seach Engine có nhiệm vụ lưutrữ lại trước khi phân tích chúng bằng các thuật toán riêng biệt để trả về các kếtquả khi người dùng truy vấn đúng vào nội dung
Ta cũng có thể tham khảo cách thức làm việc chung của các SE tại hìnhdưới đây:
Hình 2.4 Cách thức hoạt động của bộ máy tìm kiếm
Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham
quan, thu thập thông tin trên website của bạn Search engine có những con bọ(spider hay crawler) được lập trình để có thể tự động theo các liên kết (link) để
mò đến các website khác nhau, thu thập và đánh giá các thông tin trên websiteđó
Lưu trữ - Index: là giai đoạn search engine lưu lại thông tin sau khi đã
crawl Với khối lượng lưu trữ vô hạn, các search engine có thể chứa hàng tỉ kếtquả liên quan Một trang web có thể được index nhanh hoặc chậm tuỳ thuộc vàotốc độ crawl, độ trust của website và nhiều yếu tố khác
Phân tích – Analysis: giai đoạn này search engine sẽ làm việc trên các dữ
liệu mà nó thu thập được Sau đó tính toán độ liên quan của dữ liệu so với yêucầu của người dùng Các search engine khác nhau có những thuật toán phân tíchkhác nhau từ đây tạo ra sự khác biệt giữa các search engine Giai đoạn phân tích
sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả
Trang 22Kết quả - Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn
này Những kết quả liên quan thường được sắp ở phía trên, cao hơn những kếtquả ít liên quan, mặc dù không phải lúc nào các kết quả cũng thoả mãn được yêucầu của người tìm kiếm Nhưng cho đến hiện nay, người dùng khá hài lòng vớinhững gì mà Search Engine trả về
Tuy bức tranh hoạt động của Search Engine bên ngoài nhìn chung khá đơngiản nhưng bên trong là tập hợp rất nhiều thuật toán phức tạp Search Engine nàothoả mãn nhiều nhất nhu cầu tìm kiếm người sử dụng sẽ được sử dụng rộng rãi
và phát triển mạnh mẽ trong tương lai
2.2.3 Một số Search Engine thông dụng
Hiện nay tính chung trên toàn thế giới thì có 5 công cụ tìm kiếm lớn nhất là:Google, Bing, Yahoo, Ask và AOL
Và đây là biểu đồ thống kê thị phần của 5 công cụ trong tháng quý I năm
2014 do Search Engine Watch công bố:
Hình 2.5 Tỷ lệ tìm kiếm trên các kênh Search Engine quý I năm 2014
Trang 23Còn theo weidert đến năm 2013 thì thị phần tìm kiếm như sau:
Hình 2.6 Tỷ lệ tìm kiếm trên các kênh Search Engine năm 2013
Trong một tháng, tại một vùng lãnh thổ hay một quốc gia, lượt tìm kiếm
có thể lên đến hàng chục tỷ lần Nên nhìn vào biểu đồ này, ta có thể thấy rõ sựkhác biệt về thị phần của các công cụ tìm kiếm Vì thế với thị phần như biểu đồ
ta có thể thấy được Google đã và đang thống trị lĩnh vực tìm kiếm trên internet
2.3 Cấu tạo chung của bộ máy tìm kiếm
Bộ máy tìm kiếm thường cấu tạo bởi 3 bộ phận đó là: Bộ thu thập thông tin,
bộ lập chỉ mục và bộ tìm kiếm thông tin, được hoạt động theo mô hình sau:
Trang 24Hình 2.7 Cấu tạo Search Engine
- Robot – bộ thu thập thông tin:
Robot được biết đến dưới nhiều tên gọi khác nhau: spider, bot, crawler,hoặc web worm…Về bản chất robot chỉ là một chương trình duyệt và thuthập thông tin từ các website trên mạng, nó tự động duyệt qua các cấu trúcsiêu liên kết và trả về các danh mục kết quả của công cụ tìm kiếm Nhữngtrình duyệt thông thường không được xem là robot do thiếu tính chủ động,chúng chỉ duyệt web khi có sự tác động của con người
- Index – bộ lập chỉ mục:
Các trang web sau khi thu thập về sẽ được phân tích, trích chọn nhữngthông tin cần thiết (thường là các từ đơn, từ ghép, cụm từ quan trọng) đểlưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếm sau này
- Search Engine – Bộ tìm kiếm thông tin:
Tưởng tượng ta muốn tìm vài quyển sách trong một thư viện rất lớn Vớisức lực cá nhân ta không thể xem qua hết tất cả sách, vì vậy ta cần mộtdanh mục sách Tương tự, tồn tại hàng triệu trang web trên thế giới và mỗiphút trôi qua số lượng được đẩy lên càng nhiều hơn, cho dù ta có trong taymột công cụ lướt web tuyệt vời đến đâu cũng không thể duyệt hết Tuynhiên, với sự trợ giúp của SE, ta có thể thậm chí xác định được vị trí củanhững từ cần tìm trong các trang web khắp nơi trên thế giới
2.3.1 Robot – bộ thu thập thông tin
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ mục
Trang 25a Robot thu thập thông tin có nhiệm vụ:
- Phân tích – thống kê - Statistical Analysis:
Robot đầu tiên được dùng để đếm số lượng web server, số tài liệu trungbình của một server, tỉ lệ các dạng file khác nhau, kích thước trung bìnhcủa một trang web, độ kết dính…
- Duy trì siêu liên kết – Maintenance:
Một trong những khó khăn của việc duy trì một siêu liên kết là nó liên kếtvới những trang bị hỏng (dead links) khi những trang này bị thay đổi hoặcthậm chí bị xóa
Một số robot có thể trợ giúp tác giả phát hiện các liên kết hỏng cũng nhưduy trì các cấu trúc siêu liên kết cùng nội dung của một trang web Chứcnăng này lặp lại liên tục mỗi khi một tài liệu được cập nhật, nhờ đó mọivấn đề xảy ra sẽ được giải quyết nhanh chóng
- Ánh xạ địa chỉ web – Mirroring:
Là một kỹ thuật phổ biến trong việc duy trì các kho dữ liệu Một ánh xạ(mirror) sẽ sao chép toàn bộ cấu trúc cây thư mục và thường xuyên cậpnhật những file bị thay đổi
Điều này cho phép nhiều người cùng truy xuất một nguồn dữ liệu, giảm sốliên kết bị thất bại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếpvào site thực sự chứa các dữ liệu này
- Phát hiện tài nguyên:
Có lẽ ứng dụng thú vị nhất của robot là dùng nó để phát hiện tài nguyên Con người không thể kiểm soát nổi một khối lượng thông tin khổng lồ trong môi trường mạng
Robot sẽ giúp thu thập tài liệu, tạo và duy trì cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp với công cụ tìm kiếm cung cấp thông tin cần thiết cho con người
- Kết hợp các công dụng trên - Combined uses:
Một robot có thể đảm nhận nhiều chức năng như: vừa thống kê số lượngtài liệu thu được vừa tạo cơ sở dữ liệu… Tuy nhiên những ứng dụng nhưthế còn khá ít ỏi
Trang 26b Robot chỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ cho việc lập chỉ mục, ta cần giảiquyết vấn đề sau:
Trong môi trường mạng, robot lấy thông tin từ các site Vậy robot sẽ bắtđầu từ site nào ? Điều này hoàn toàn phụ thuộc vào robot Mỗi robot khác nhau
có những chiến lược khác nhau Thường thì robot sẽ viếng thăm các site phổ biếnhoặc những site có nhiều liên kết dẫn đến nó
Ai sẽ cung cấp địa chỉ của các site này cho robot ? Có 2 nguồn; Một làRobot nhận các URL ban đầu từ user Hai là Robot phân tích các trang web đểlấy các URL mới, đến lượt các URL này trở thành địa chỉ đầu vào cho robot Quátrình này được lặp lại liên tục
Chọn dữ liệu nào trong tài liệu để lập chỉ mục? Quyết định chọn dữ liệu nàotrong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được liệt
kê như sau được xem là quan trọng :
- Ở góc cao của tài liệu
- Trong các đề mục
- Được in đậm
- Trong đường dẫn URL
- Trong tiêu đề
- Trong phần miêu tả trang web (Description)
- Trong các thẻ dành cho hình ảnh (ALT)
- Trong các thẻ chứa từ khóa
- Trong các từ khóa liên kết
Một số robot lập chỉ mục trên tiêu đề, hoặc một số đoạn văn bản đầu tiênhoặc toàn bộ tài liệu Một số khác lại lập chỉ mục trên các thẻ Meta hoặc các thẻ
ẩn, nhờ vậy tác giả của trang web được quyền ấn định từ khoá cho tài liệu củamình Tuy nhiên, chức năng này bị lạm dụng quá nhiều, do đó các thẻ Metakhông còn giữ được giá trị ban đầu của chúng nữa
Trang 272.3.2 Index – bộ lập chỉ mục
- Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợpcốt lõi có khả năng đại diện cho nội dung của tài liệu Như vậy, vấn đề đặt
ra là phải rút trích ra những thông tin chính, có khả năng đại diện cho nộidung của tài liệu
- Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ
so với nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưutrữ và chi phí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp
- Việc rút trích này chính là việc lập chỉ mục trên tài liệu Trước đây, quátrình này thường được các chuyên viên đã qua đào tạo thực hiện một cách
“thủ công” nên có độ chính xác cao Nhưng trong môi trường hiện đạingày nay, với lượng thông tin khổng lồ thì việc lập chỉ mục bằng taykhông còn phù hợp, phương pháp lập chỉ mục tự động mang lại hiệu quảcao hơn
Loại bỏ các hậu tố để đưa về các từ gốc
Các từ thu được sẽ được lập chỉ mục Tuy nhiên, hai bước đầu cũng cầncho quá trình lập chỉ mục đối với các tài liệu tiếng Việt, bước thứ ba không cần
vì tiếng Việt thuộc dòng ngôn ngữ đơn thể
2.3.3 Search Engine – Bộ tìm kiếm thông tin
a Tìm kiếm theo từ khóa
Đây là phương pháp được áp dụng với hầu hết các search engine Trừ khitác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điều nàyphụ thuộc vào search engine Như vậy các search engine sẽ tự mình chọn và đánhchỉ mục Một số site lập chỉ mục cho tất cả các từ có trong một trang web, một sốkhác chỉ chọn một số đoạn văn bản
Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems)đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword Cónhững công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường
Trang 28Những khó khăn khi tìm theo từ khóa: Search Engine thường gặp rắc rốivới những từ đồng âm khác nghĩa hoặc những từ có các biến thể khác nhau do cótiền tố và hậu tố Bên cạnh đó, Search Engine cũng không thể trả về các tài liệuchứa những từ đồng nghĩa với các từ trong câu truy vấn.
b Tìm kiếm theo ngữ nghĩa
Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa sẽ
“đoán” ý muốn của người dùng thông qua câu chữ Tìm theo ngữ nghĩa hoạtđộng dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữhọc, các thuyết về trí tuệ nhân tạo; tiếp cận dựa vào phương pháp tính toán bằngcách đếm số lần xuất hiện của các từ quan trọng Khi nhiều từ hoặc những cụm
từ có nghĩa đặt gần nhau trong tài liệu thì cho rằng chúng đang ám chỉ một chủ
đề nào đó
Hình 2.8: Hệ thống tự động đoán hành vi tìm kiếm
Trang 292.4 Hệ thống PageRank (PR)
2.4.1 Khái niệm PageRank
- Theo định nghĩa của Google: “PageRank giống như các phiếu bầu”
Google coi các liên kết đến một website có chức năng như một phiếu bầu chowebsite đó Các phiếu bầu khác nhau sẽ có một sức mạnh và vai trò quan trọngkhác nhau đối với website Từ đó, Google xác định PageRank là một hệ thống cóchức năng kiểm đếm các phiếu bầu của một trang web và xác định những trangnào có vai trò quan trọng nhất dựa trên chất lượng của chúng
- Càng nhiều liên kết tốt, trang web sẽ càng được cộng nhiều các điểmthưởng Những điểm cộng này sau đó được sử dụng cùng với nhiều tiêuchí khác để xác định xem một trang web sẽ có xếp hạng bao nhiêu trongbảng kết quả tìm kiếm từ khóa Tuy nhiên, PageRank không phải là yếu tốquan trọng duy nhất để xếp hạng website
- PageRank được thể hiện với 11 giá trị từ 0 đến 10, trong đó PageRankcàng cao thì độ phổ biến cũng như uy tín của trang web càng lớn.PageRank cao cũng có thể được sử dụng để chứng minh cho chất lượng vàtầm quan trọng của một website Hiện nay, đa phần các website đều cóPageRank rơi vào khoảng từ 2 đến 4 Rất ít website có PR lớn hơn 9
- Có một số hệ thống PageRank như Google PageRank, Alexa Rank, MozRank, … Tuy nhiên, ở Việt Nam hiện nay thì Google PageRank là đượcđánh giá cao hơn cả
2.4.2 Bản chất của PageRank
- PageRank được phát minh dựa trên nguyên tắc độc đáo và dân chủ trênwebsite, bằng cách phân tích hệ thống các đường link của một website đểtính toán độ rộng lớn của của liên kết, và coi nó như là một chỉ số về chấtlượng của một trang Tuy nhiên, Google lại phân tích rất kỹ hệ thống cácliên kết này, và không chỉ dừng lại ở việc đếm số liên kết như phiếu bầu.Công cụ này sẽ phân tích từng trang ứng với từng liên kết, để xác địnhxem phiếu bầu này chất lượng đến đâu và có vai trò “quan trọng” như thếnào
- Thông qua việc phân tích điều trên và chất lượng của website cũng nhưnhiều các tiêu chí khác, Google sẽ đưa ra kết quả PageRank cho mỗiwebsite Thông thường, các trang web chất lượng cao sẽ có một PageRankkhá cao, và có một ví trí cao trong bảng kết quả tìm kiếm Và tất nhiên làcác trang này phải có nội dung phù hợp với những gì người dùng đangtruy vấn
Trang 302.4.3 Công thức tính PageRank
- Hiện nay chưa có công thức tính toán chính xác cho giá trị PageRank củawebsite Tất cả các công thức tính đã và đang được sử dụng đều là cáccông thức không chính thống, kể cả công thức tính của wikipedia
- Tuy nhiên, chúng ta có thể đánh giá được giá trị của PageRank qua côngthức liên hệ giữa dưới đây:
sử 1 ngày SEOer làm được 150 link) Đây chỉ là con số ước tính và con sốthực tế sẽ lớn hơn rất nhiều, bởi các Backlink của bạn sẽ có thể mất đitheo thời gian và số lượng link không phải là yếu tố duy nhất quyết địnhgiá trị của PageRank
2.4.4 Vai trò của PageRank
Có rất nhiều điều chúng ta có thể nói về tầm quan trọng của PageRank đối vớimột website Tuy nhiên, đối với các nhà quản trị website và các SEOer thì cầnchú ý những điều sau đây:
- PageRank cho người dùng thấy tầm quan trọng của một website Tuynhiên, PageRank chỉ là một quan điểm của Google cũng như các công cụtìm kiếm khác về sự quan trọng của một trang web đối với các websitekhác hay người dùng mạng
- PageRank đóng một vai trò quan trọng trong việc xác định độ uy tín củawebsite và tên miền Website chỉ có thể có một PageRank cao khi nó cómột lượng lớn các liên kết có chất lượng, bao gồm cả internal link vàexternal link, hay nói cách khác là có nhiều website có uy tín liên kết vớiwebsite
- PageRank là một trong rất nhiều, rất nhiều yếu tố cấu thành nên bảng kếtquả xếp hạng tìm kiếm Nhưng nó cũng là chỉ một trong rất rất nhiều cácyếu tố xếp hạng được sử dụng để xác định thứ hạng của một website trongbảng kết quả tìm kiếm
Trang 312.4.5 Tối ưu PageRank
- Gia tăng số lượng và chất lượng các Backlink
Liên kết không phải là yếu tố duy nhất ảnh hưởng đến PageRank nhưngchúng ta không thể phủ nhận vai trò to lớn của nó trong việc tăng cườngPageRank Vì vậy, nhà đầu tư SEO cần tích cực gia tăng cả về số lượnglẫn chất lượng Backlink
Tuy nhiên, các Backlink cần được tạo một cách hợp lý để tránh việc cáctrang web spam có PageRank thấp gây thiệt hại cho trang website hoặc bịGoogle liệt vào cách danh sách spam vì làm link quá đà
- Tối ưu các từ khóa liên kết trỏ về website
Việc đa dạng các từ khóa liên kết trên trang nhưng vẫn tập trung về một chủ đềchính sẽ giúp đem lại những liên kết thực sự có ích cho việc cải thiện PageRankcho website
- Vào những năm đầu của thập niên 90s, chịu ảnh hưởng từ cách sắp xếp
dữ liệu của những những trang danh bạ (Yellow Page), những người làmSEO (SEOers) giai đoạn này thường lợi dụng vào cách thức sắp xếp theothứ tự Alphabet để giúp trang web của họ có những vị trí đầu tiên trên cáccông cụ tìm kiếm Đó là lí do vì sao thời điểm đó có nhiều trang web cótitle đại loại như “AAA” , “1ForU” và những title tương tự như thế nhưthế xuất hiện
- Những năm sau đó, các công cụ tìm kiếm mới hơn lần lượt xuất hiện (AltaVista, AOL, Inktomi ) với việc áp dụng các thuật toán phức tạp hơntrong việc sắp xếp dữ liệu tìm kiếm Những thuật toán được phát triển đã
sử dụng những yếu tố liên quan đến mật độ từ khóa (keyword density) vànhững thẻ meta như “meta keywords” để giúp các công cụ tìm kiếm tăngthêm khả năng nhận biết nội dung các trang web Và những SEOers lúc đólại tận dụng những yếu tố này để tối ưu các trang web của họ với “hàngđống từ khóa lặp đi lặp lại nhiều lần” trong nội dung và thẻ metakeywords để làm tăng mức độ liên quan của trang web
Trang 32- Những năm đầu tiên của thập niên 90, một số hội nhóm chính thức đãđược thành lập để thảo luận về SEO Và thật sự cụm từ “Search EngineOptimization” hay còn gọi tắt là SEO được đặt ra khoảng năm 1997.
- Vào khoảng cuối nhưng năm thập niên 90, các công cụ tìm kiếm lớn vàhiện đại bắt đầu sử dụng những yếu tố dựa trên liên kết để xếp hạng kếtquả tìm kiếm (off-page) Và Alta Vista là một trong số đó, họ tuyên bốchính thức sẽ sử dụng yếu tố phổ biến liên kết trong xếp hạng trang web.Còn về phía Goole họ muốn tạo ra sự khác biệt của chính mình bằng việc
ra đời thuật toán Pagerank Bằng cách này, Google có thể lọc ra nhữngtrang web kém chất lượng và ảnh hướng đến kết quả tìm kiếm của ngườidùng
Hình 2.9 Trang chủ của Google năm 1998
Như một sự thành công của các công cụ tìm kiếm, SEO trở thành một môi trườngtiềm năng có khả năng đem đến lợi ích kinh doanh Và như một tất yếu của sựphát triển, các kỹ thuật SEO ở những giai đoạn tiếp theo trở nên ngày càng đadạng và phức tạp hơn và các công cụ tìm kiếm (chủ yếu là Google) bắt đầu tìmcách tích hợp các nguồn tài nguyên để chống lại các yếu tố spam
b SEO chuyển sang một kỷ nguyên mới
- Khi việc thực hiện tìm kiếm thông tin trên web đã trở nên quen thuộc.Ngành công nghiệp SEO đã hình thành và phát triển một cách chuyênnghiệp hơn, bắt đầu xuất hiện các buổi hội thảo lớn và rất nhiều các tổchức chuyên nghiệp lần lượt ra đời
Trang 33- Vào năm 2009, Search Engine Marketing Professional Organization(SEMPO) đã ước lượng được rằng khoảng 2 tỷ USD được đầu tư cho cácdịch vụ SEO trong 1 năm Và trong cùng khoảng thời gian đó tạp chíForbes đã tiếng hành một cuộc khảo sát với tiêu đề “Khảo sát hiệu quả cácchiến dịch quảng cáo năm 2009” và kết quả cho thấy rằng 53% các giámđốc marketing cao cấp của doanh nghiệp đã lên kế hoạch chi tiêu hơn 1triệu USD cho các dịch vụ SEO (nhiều hơn bất cứ hình thức tiếp thị nàotrên thị trường Internet Marketing.
- Các doanh nghiệp bắt đầu thuê những team làm SEO trong chính doanhnghiệp của mình Tại thời điểm đó, trên các trang tìm việc lớn hàng đầunước Mỹ như monster.com , khi tìm kiếm từ khóa SEO sẽ có hàng trămkết quả đang tìm kiếm các vị trí các ứng viên trên toàn nước Mỹ
- Ở Việt Nam hiện nay, trong những năm gần đây, SEO cũng đang dần trởthành một nghành công nghiệp mà bất cứ doanh nghiệp nào cũng thấy cầnthiết
2.5.2 SEO là gì?
SEO được viết tắt của cụm từ Search Engine Optimization, tức là Tối ưu hóa cáccông cụ tìm kiếm SEO được hiểu là phương pháp hay tập hợp những phươngpháp tối ưu hóa website, làm cho website trở lên thân thiện với máy chủ tìmkiếm, nhằm nâng cao thứ hạng website của bạn trên các công cụ tìm kiếm nhưGoogle, Yahoo, Bing,… khi người dùng tìm kiếm với các từ khóa liên quan
Hình 2.10 SEO là gì?
Trang 34Cụ thể:
- SEO cũng được coi là một lĩnh vực trong việc tiếp thị, truyền thông vàquảng bá, là một ngành nghề tiếp thị hay dành cho những người làm côngviệc tối ưu hóa thiết bị tìm kiếm, người đưa ra phương pháp tối ưu chowebsite
- Thông qua SEO, các quản trị có thể đưa trang web của họ lên vị trí caotrong SERP (Search engine result page – trang kết quả tìm kiếm) vớinhững từ khóa liên quan nhằm tăng lượt truy cập và tính cạnh tranh vớiđối thủ
- SEO là một công việc riêng, một việc rất độc lập nhưng đôi khi là mộttrong những chiến dịch quảng cáo của các quản trị Nếu nhận thức đượctầm quan trọng của SEO, người quản trị sẽ gặt hái được nhiều thành công,kiếm được nhiều nguồn khách hàng khổng lồ từ các công cụ tìm kiếm
- Thuật ngữ SEO cũng có thể được dùng để chỉ những người làm công việctối ưu hóa công cụ tìm kiếm, là những nhà tư vấn đưa ra những dự án tối
ưu hóa cho các website của khách hàng
2.5.3 Tại sao cần SEO?
- Theo một số thống kê thì có đến hơn 80% số người dùng Internet sử dụngcác công cụ tìm kiếm như Google , Yahoo, LiveSearch… Mỗi ngày cóhàng triệu người dùng web sử dụng các công cụ tìm kiếm để tìm nhữngsản phẩm, dịch vụ và thông tin họ đang cần Nhưng liệu với hàng tỷwebsite hiện đang tồn tại, làm sao khách hàng có thể tìm thấy website củabạn trước mà không phải của các đối thủ cạnh tranh?
- Chính vì đa phần khách hàng đến một website đều thông qua các công cụtìm kiếm, nên nếu như trang web của bạn có thứ hạng thấp thì đồng nghĩavới việc bạn đã đánh mất một lượng lớn khách hàng tiềm năng vào tay đốithủ cạnh tranh
- Một thực tế là, không người dùng nào đủ kiên nhẫn xem quá 3 trang kếtquả (mỗi trang hiển thị 10 kết quả) sau khi thực hiện tìm kiếm trên SE.Nếu website doanh nghiệp của bạn không nằm trong top 30, khách hàng
sẽ không hề biết website của bạn tồn tại Thưc tế có tới 70% người dùngweb chỉ xem trang thứ nhất của kết quả tìm kiếm Vì thế, nếu trang webcủa bạn lọt vào trong top10 của kết quả tìm kiếm thì cơ hội được kháchhàng viếng thăm là rất lớn
Trang 35- Mặt khác, ngày càng nhiều website được thành lập, website của bạn sẽ bịlãng quên trước các đối thủ cạnh tranh nếu bạn không thực hiện quảng báwebsite trên các bộ máy tìm kiếm
- Tối ưu hóa máy tìm kiếm chính là giải pháp cho vấn đề trên SEO baogồm các kĩ thuật nhằm giúp website đạt thứ hạng cao trên các công cụ tìmkiếm Hãy bắt đầu ngay từ bây giờ vì không bao giờ SEO là quá muộn
2.5.4 Các công việc của người làm SEO
a Phân loại các SEOer hiện nay
Trải qua những giai đoạn hình thành và phát triển nhiều thập kỷ qua,chúng ta nhận thấy có rất nhiều nhóm người triển khai SEO với cácphương pháp tiếp cận và suy nghĩ khác nhau nhằm mục đích chung là đạtđược những thứ hạng tốt nhất trên các công cụ tìm kiếm
Có 3 nhóm SEOer trong thị trường SEO:
- Black Hat SEO: là những nhóm người lén lút sử dụng các thủ thuật nhằmqua mặt các quy định của công cụ tìm kiếm
- White Hat SEO: những người luôn tuân thủ triệt để các quy định mà cáccông cụ tìm kiếm đặt ra
- Gray Hat SEO: hầu hết các SEOer hiện nay đều nằm giữa ranh giới 2nhóm trên
Hình 2.11 Phân loại SEOer
Một liên tưởng thú vị đó là Google chính là một xã hội thu nhỏ, cũng như bao xãhội khác sẽ có rất nhiều thành phần khác nhau sống dưới hiến pháp mà Googleđặt ra Sẽ có những người tìm luôn cách phạm pháp và chống đối lại pháp luật –Black Hat SEO, có những người công dân chân chính, luôn sống và làm việctheo pháp luật – White Hat SEO Và bên cạnh đó là những con người biết tậndụng cơ hội nhưng không gây hại đến bất kỳ ai hay đụng chạm đến luật pháp, chỉđơn gỉản là họ nhìn ra và nắm bắt được những ý tưởng để có thể bức phá trongcông việc một cách hiệu quả nhất – Gray Hat SEO
Trang 36b Công việc của SEOer
- Tối ưu hóa lại website của bạn giúp website của bạn đạt chuẩn google yêucầu, nếu anh muốn google đánh giá cao thì anh phải tuân thủ luật củagoogle Đừng nghĩ rằng google không biết
- Xây dựng những liên kết chất lượng đảm bảo những liên kết này không từnhững trang google đang phạt
- Tạo nội dụng mới, duy nhất và hữu ích đối với người dùng khi ghé thămwebsite của khách hàng
- Bố cục nội dung đảm bảo khách hàng khi ghé thăm website có ấn tượngcũng như ở lại website lâu nhất
- Quảng bá thương hiệu tới rất nhiều hệ thống khác, bao gồm media, PR, …
- Giới thiệu lên các mạng xã hội tạo hiệu ứng lan tỏa và ức chế khi khôngghé thăm website
- Những điều cần lưu ý khi chúng ta thực hiện SEO theo thị trường:
Ở thị trường nào thì dùng ngôn ngữ của thị trường đó
Backlink xuất phát từ thị trường đích có chất lượng cao hơn
Tên miền quốc gia luôn được ưu tiên hơn
Server/Hosting đặt tại thị trường đích
Đăng ký "doanh nghiệp địa phương" trên công cụ Place của cácSearch Engine
Website phải có thẻ Meta Language là ngôn ngữ của thị
trường đó
b SEO Image
- Trên các Search Engine có những từ khóa chúng ta tìm sẽ xuất hiện kếtquả bằng hình ảnh Vậy những yếu tố nào giúp những hình ảnh đó đượcxuất hiện trong kết quả tìm kiếm?
- Những điều cần lưu ý khi SEO hình ảnh:
Từ khóa được đặt gần và bao quanh bức ảnh ( Trên, dưới, trái,phải)
Tên của ảnh có chứa từ khóa
Title và Alt của ảnh chứa từ khóa
Phổ biến hình ảnh qua những website khác nhưng nguồn là từwebsite mình