Yahoo… để tìm kiếm thông tin về doanh nghiệp, tài liệu học tập, mua sắm trựctuyến, nạp thẻ điện thoại, thanh toán hóa đơn…Theo thống kê, có đến hơn 86% lượng truy cập của một website đều
Trang 1Tôi cam đoan đây là công trình nghiên cứu của tôi Những kết quả và các sốliệu trong chuyên đề chưa được ai công bố dưới bất cứ hình thức nào Tôi hoàntoàn chịu trách nhiệm trước nhà trường về sự cam đoan này.
Huế, ngày 01 tháng 05 năm 2016
Sinh viên thực hiện
Nguyễn Tuấn Vũ
Trang 3MỤC LỤC
Trang 4DANH MỤC HÌNH
Trang 5CHƯƠNG 1 TỔNG QUAN 1.1 ĐẶT VẤN ĐỀ
Website – ngôi nhà của Doanh nghiệp trên Internet, nếu nói tên miền làbảng hiệu của một Công ty thì website chính là văn phòng của Công ty đó, lànơi khách hàng tìm kiếm các thông tin về doanh nghiệp trước khi kí hợp đồng, lànơi khách hàng và các đối tác liên hệ doanh nghiệp, là bộ mặt của doanh nghiệp…Ngoài ra website còn tạo ra không ít lợi thế khác như :
− Hướng hoạt động của doanh nghiệp từ nội địa hoặc cục bộ ra toàncầu
− Website là nơi trưng bày, giới thiệu sản phẩm, hàng hóa dịch vụ củaDoanh nghiệp Hoạt động lên tục 24x7, không giới hạn thời gian vàkhông gian
− Website là kênh thông tin giới thiệu sản phẩm, dịch vụ hoàn hảonhất và hữu dụng nhất với hình ảnh, các giới thiệu, các media…
− Website còn là một kho hàng khổng lồ, không giới hạn về sức chứa
− Hơn cả, website là một kênh bán hàng tốn ít chi phí nhất
Thông qua website, doanh nghiệp có thể tiếp thị hình ảnh, thương hiệu,dịch vụ, sản phẩm của mình ra ngoài phạm vi, khu vực của quốc gia Chính vìnhững lợi ích ấy, việc không có website đã là một thiệt thòi so với các đối thủcạnh tranh
Theo Tổng cục Thống kê, tổng số người sử dụng Internet tại Việt Nam tínhđến 2013 là hơn39 triệu người, ( chiếm hơn 43.9% dân số Việt Nam) và hơn 8,5triệu người dùng Internet băng thông rộng (08/2014)
Trong giai đoạn 2000 - 2010, tỉ lệ tăng trưởng người sử dụng Internet tạiViệt Nam đạt mức 12%, tốc độ tăng trưởng nhanh nhất trong khu vực Như vậysau gần 14 năm kể từ ngày Việt Nam gia nhập cộng đồng Internet toàn cầu(1/12/1997), lượng người sử dụng Internet trong nước đã tăng nhanh một cáchđáng kể
Nhìn chung, Internet là một món ăn không thể thiếu với cuộc sống củamọi người, với thói quen sử dụng các bộ máy tìm kiếm (Google, Bing,
Trang 6Yahoo…) để tìm kiếm thông tin về doanh nghiệp, tài liệu học tập, mua sắm trựctuyến, nạp thẻ điện thoại, thanh toán hóa đơn…
Theo thống kê, có đến hơn 86% lượng truy cập của một website đều đến từcác Search Engine lớn như Google, Yahoo, MSN… Mỗi ngày có hàng triệu ngườidùng lướt web sử dụng Search Engine để tìm những sản phẩm, dịch vụ và thôngtin họ đang cần.Nhưng liệu với hàng tỉ website hiện đang tồn tại, làm sao kháchhàng có thể tìm thấy website của bạn trước mà không phải của các đối thủ cạnhtranh? Hầu hết người sử dụng các bộ máy tìm kiếm đều không kiên nhẫn, họchỉ tập trung vào các kết quả tìm kiếm ở “Trang nhất” trong hàng trăm, hàngtriệu kết quả trả về khi truy vấn tìm kiếm
1.2 LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ
Webmaster và các nhà cung cấp dịch vụ SEO đã bắt đầu tối ưu hóa cáctrang web cho công cụ tìm kiếm vào giữa những năm 1990 Ban đầu, cácwebmaster bắt đầu gửi link liên kết hay url của trang web đến các công cụ tìmkiếm, các công cụ này sẽ gửi một spider đến trang website đó, website sẽ đượcthu thập dữ liệu, sau đó được index lên máy chủ tìm kiếm, nơi đây các thông tin
về website sẽ được lưu trữ lại, các từ khóa của website, các link liên kết trongwebsite đó, các spider này sẽ làm việc index lên máy chủ theo lịch trình màcác công cụ tìm kiếm quy ước Người sở hữu trang web bắt đầu để nhận ranhững giá trị của việc có các trang web của họ và có thể nhìn thấy được xếphạng cao trong kết quả công cụ tìm kiếm SEO chia ra làm hai dạng đó là : SEOtruyền thống (White Hat SEO) và SEO gian lận (Black Hat SEO)
Theo nhà phân tích Danny Sullivan, cụm từ “Tối ưu hóa công cụ tìm kiếm”
sử dụng rất nhiều trên mạng vào năm 1997
Đầu phiên bản của thuật toán tìm kiếm dựa vào quản trị trang web cung cấpthông tin như các thẻ meta từ khoá, hoặc tập tin chỉ mục như ALIWEB Thẻ metacung cấp một hướng dẫn đến nội dung của mỗi trang
Trang 7Sử dụng dữ liệu meta vào các trang chỉ mục được tìm thấy sẽ được ít hơnđáng tin cậy, tuy nhiên, vì những sự lựa chọn của webmastermà các thẻ meta có
sự chính xác trong khả năng đưa thông tin website lên máy chủ tìm kiếm Những
dữ liệu không chính xác, không đầy đủ, và không nhất quán trong thẻ meta có thểgây ra sự xếp hạng không đúng vị trí cho các tìm kiếm không liên quan Việccung cấp nội dung được tối ưu hóa và một số thuộc tính trong mã nguồn HTMLđối với một trang web cần phải chính xác để có được kết quả tốt trên công cụ tìmkiếm
Bằng cách dựa quá nhiều vào các yếu tố như mật độ từ khóa đó được độcquyền trong vòng kiểm soát của một webmaster, công cụ tìm kiếm sớm bị lạmdụng vào thao tác xếp hạng Để cung cấp kết quả tốt hơn cho người dùng của họ,công cụ tìm kiếm đã phải thích ứng để đảm bảo kết quả của các trang đã cho thấycác kết quả tìm kiếm có liên quan nhất, thay vì các trang không liên quan nhồi với
từ khoá nhiều bởi Black Hat SEO – nhóm Webmaster không bao giờ tuân theocác qui định của các bộ máy tìm kiếm, họ luôn lạm dụng quá mức các thủ thuật.Các công cụ tìm kiếm đã phản ứng lại bằng cách phát triển phức tạp hơn thuậttoán xếp hạng, có tính đến các yếu tố bổ sung mà gây nhiều khó khăn cho quản trịweb để thao tác
SEO tại Việt Nam bắt đầu những nền móng phát triển đầu tiên khoảng vàothời điểm giữa năm 2006 Sau 5 năm, đến nay SEO đã là một khái niệm mà hầunhư bất kì một nhà quản trị website nào cũng biết đến và tìm hiểu nó dù ít haynhiều Thậm chí, SEO còn được đưa vào hoạt động của công ty như một hướng
đi chiến lược với những kế hoạch dài hơi Điển hình, bạn có thể dễ dàng nhận raFPT có bộ phận SEO riêng, Zing có bộ phận SEO riêng, VCCORP cũng có bộphận traffic riêng, Báo điện tử 24h…
Như đã trình bày ở trên, hầu hết người làm SEO chỉ chú ý đến việc là sao đểmột website Thương mại được lên trang nhất của bộ máy tìm kiếm Vấn đề đặtra: có thể áp dụng SEO cho một website phi lợi nhuận, mang tính giáo dục vàCộng đồng không ? Liệu SEO cho một trang web phi thương mại có khả năngthành công không…
Trang 8Chuyên đề đề tài “TÌM HIỂU VÀ ỨNG DỤNG SEO VÀO TRANG WEB
TOANCAUMOBILE.VN” là một minh chứng cụ thể nhất cho việc áp dụng
phương pháp SEO vào một website phi lợi nhuận, một website bán hàng điện tửđiện thoại
1.3 MỤC TIÊU CẦN ĐẠT ĐƯỢC
1.3.1 Về lý thuyết
Sau khi hoàn thành chuyên đề, sinh viên có các kĩ năng sau:
− Tìm hiểu bộ máy tìm kiếm
− Hiểu thế nào là SEO, các biện pháp để tiến hành SEO một trangweb
1.3.2 Về ứng dụng
Sau khi áp dụng lý thuyết đạt được vào thực tiễn, sinh viên có được cách để:
− Đưa website vào top 3 của bộ máy tìm kiếm với từ khóa “điện thoạitoàn cầu”
− Phương pháp duy trì top 10 khi seo đã thành công
Trang 9CHƯƠNG 2 KHẢO SÁT HIỆN TRẠNG 2.1 Phương pháp nghiên cứu và giải quyết vấn đề
Việc đầu tiên trước khi SEO một website đã được định hướng đúng đắnbằng những ý tưởng độc đáo và mã nguồn tốt thì chúng ta phải biết được SEO
là gì?Và các phương pháp lựa chọn những thành phần hỗ trợ cho website đó.Mộtwebsite được SEO tốt khi và chỉ khi webmaster có được hiểu biết đúng đắn, tránhrơi vào tình trạng Black Hat SEO
Nhìn chung, quá trình nghiên cứu được phân thành 04 giai đoạn, các giaiđoạn này được thực hiện liên tục cho đến khi SEO thành công
Hình 2 1: Tổng quan quá trình nghiên cứu và giải quyết vấn đề
− Bước 1: Xây dựng ý tưởng, lựa chọn mã nguồn, xây dựng website
có nội dung riêng biệt, hỗ trợ người dùng tối đa
− Bước 2: Bắt đầu phát triển website, song song với việc phát triển cả
về nội dung lẫn mã nguồn, tác giả bắt đầu áp dụng các biện pháp đểtối ưu hóa website
− Bước 3: Thống kê, theo dõi các từ khóa, lượng người truy cập
− Bước 4: Theo dõi các báo cáo cụ thể, duy trì công việc hiện tại nếuSEO thành công hoặc sữa chữa khi SEO chưa thành công
Trang 102.1.2 Kế hoạch làm việc
1 - 2 Nghiên cứu về Search Engines, cách thức hoạt động, cách thức thu
thập thông tin
3 - 4 Nghiên cứu về SEO, các cách giải quyết vấn đề về SEO
5 - 7
Tối ưu hóa website
Quảng bá website dựa trên các mạng xã hội
Phân tích theo dõi bằng các công cụ miễn phí của các Search Engines cung cấp Xác định hướng đi đúng đắn cho Website
8 Theo dõi, điều chỉnh từ khóa, các nội dung không phù hợp
9 Viết báo cáo
Qua chương 1, tác giả giới thiệu toàn cảnh về đề tài.Cách thức nghiên cứu,tiếp cận đề tài và các mục tiêu đạt được khi hoàn thành tốt chuyên đề
− Chương 2: Cơ sở lý thuyết
Về cơ sở lý thuyết, tác giả tìm hiểu cách thức làm việc chung của các bộmáy tìm kiếm, các cách thức thu thập thông tin, cách thức để một bộ máy tìmkiếm có thể thấy được trang web
Trang 11Trong chương này, tác giả cũng giới thiệu về hai phương thức đánh giáthứ hạng của website là Alexa và GoogleRank, hai phương thức này đã và đang
là thước đo quan trọng trong việc phát triển trang web
Cũng trong chương này, tác giả giới thiệu SEO, giúp cho người đọc có cáinhìn rõ ràng hơn về SEO
− Chương 3: Ứng dụng
Sau khi đã tìm hiểu và nắm rõ các phương thức tìm kiếm, các tiêu chí đánhgiá xếp hạng tại Chương 2, tác giả áp dụng những hiểu biết trên cơ sở lý thuyết đó
để bắt đầu SEO trang web ToanCauMobile.vn
Vì vậy, ở chương này, chúng ta sẽ nghiên cứu các phương pháp cơ bảnnhất, chính qui nhất để có thể tối ưu hóa một website, nhằm đưa website lên cácthứ hạng cao khi người dùng truy vấn
Sau khi đã áp dụng các phương pháp cơ bản và chính qui, tác giả sẽ thống
kê các số liệu và so sánh lúc chưa áp dụng SEO và sau khi áp dụng SEO
Một số phương pháp, kĩ năng mềm mà tác giả đã áp dụng để SEO thànhcông trang web
− Chương 4: Kết luận – hướng phát triển
Nội dung của chương 4 sẽ là tổng hợp kết quả các công việc đã làm ở cácchương trước Các kết quả đã đạt được sau khi hoàn thành luận văn
Những nhược điểm của SEO
Hướng phát triển, đề xuất các phương pháp đễ giữ các vị trí cao khi SEOthành công, cũng như cách thức quảng bá website để có thể thu lợi nhuận, tự nuôisống website
Trang 12CHƯƠNG 3 CỞ SỞ LÝ THUYẾT 3.1 TỔNG QUAN BỘ MÁY TÌM KIẾM
3.1.1 Bộ máy tìm kiếm hoạt động như thế nào?
Search Engine hay còn gọi là công cụ tìm kiếm, bộ máy tìm kiếm giúpngười xem tìm thấy những thông tin một cách liên quan nhất Người dùng cóthể tìm kiếm thông tin theo từ khoá, hình ảnh, địa điểm… trên search engine.Khi nhận được câu lệnh yêu cầu tìm kiếm, search engine sẽ phân tích yêu cầu
đó, đánh giá, xếp hạng và trả về kết quả liên quan nhất Search engine hoạtđộng theo quy trình như sau :
Ban đầu, SE sẽ gửi các Spider (hay còn gọi là con bọ, Crawler) để tiến hànhkhảo sát một website khi nó được upload lên Các Spider này được lập trình để cóthể tự động lần theo liên kết để đi đến các website khác nhau, sau khi dừng lại ởmột website nào đó, Spider này sẽ thu thập, đánh giá các thông tin trên website
đó trước khi tự động lần theo các liên kết đến các website khác…
Sau khi nhận được các thông tin từ Spider, SE có nhiệm vụ lưu trữ lại trướckhi phân tích chúng bằng các thuật toán riêng biệt để trả về các kết quả khi ngườidùng truy vấn đúng vào nội dung Ta có thể tham khảo cách thức làm việc chungcủa SE tại hình dưới đây:
Hình 3 1: Tổng quan cách thức là, việc của bộ máy tìm kiếm
Trang 13Trong đó:
Khảo sát – Crawl: là một giai đoạn rất quan trọng để search engine tham
quan, thu thập thông tin trên website của bạn Search engine có những con bọ(spider hay crawler) được lập trình để có thể tự động theo các liên kết (link) để
mò đến các website khác nhau, thu thập và đánh giá các thông tin trên websiteđó
Lưu trữ - Index: là giai đoạn search engine lưu lại thông tin sau khi đã
crawl Với khối lượng lưu trữ vô hạn, các search engine có thể chứa hàng tỉ kếtquả liên quan Một trang web có thể được index nhanhn hoặc chậm tuỳ thuộc vàotốc độ crawl, độ trust của website và nhiều yếu tố khác
Phân tích – Analysis: giai đoạn này search engine sẽ làm việc trên các dữ
liệu mà nó thu thập được Sau đó tính toán độ liên quan của dữ liệu so với yêu cầucủa người dùng Các search engine khác nhau có những thuật toán phân tíchkhác nhau từ đây tạo ra sự khác biệt giữa các search engine Giai đoạn phân tích
sẽ tạo tiền đề cho giai đoạn phía sau – Trả về kết quả
Kết quả - Results: Các kết quả liên quan sẽ được hiển thị trong giai đoạn
này Những kết quả liên quan thường được sắp ở phía trên, cao hơn những kếtquả ít liên quan.Mặc dù không phải lúc nào các kết quả cũng thoả mãn đượcyêu cầu của người tìm kiếm.Nhưng cho đến hiện nay, người dùng khá hài lòngvới những gì mà search engine trả về
Tuy bức tranh hoạt động của search engine bên ngoài nhìn chung khá đơngiản nhưng bên trong là tập hợp rất nhiều thuật toán phức tạp Search enginenào thoả mãn nhiều nhất nhu cầu tìm kiếm người sử dụng sẽ được sử dụng rộngrãi và phát triển mạnh mẽ trong tương lai Ai là vua trong thị trường tìm kiếmtrực tuyến đầy tiềm năng này?
Trang 143.1.2 Giới thiệu về các search engine thông dụng
Hiện nay trên thế giới có rất nhiều search engine đang hoạt động Trong đó,phải kể đến ba chàng khổng lồ đang chi phối 98% thị phần tìm kiếmtheo thông
kê của SEO MOD tháng 01/2014
Hình 3 2: Biểu đồ thị phần search engine từ seomoz.org
Google là search engine được nhiều người sử dụng nhất với 80% số người sửdụng Tiếp theo là Yahoo 9.5% và Bing 8.5%, còn lại số phần trăm ít ỏi dành chocác search engine khác
Hiện nay, ở Việt Nam đa số mọi người cũng sử dụng Google để tìm kiếmthông tin.Nên việc SEO trên Google là ưu tiên hàng đầu đối với các website
3.2 CẤU TẠO CHUNG CÁC BỘ MÁY TÌM KIẾM
Bộ máy tìm kiếm thường cấu tạo bởi 3 bộ phận đó là: Bộ thu thập thôngtin, Bộ lập chỉ mục và bộ tìm kiếm thông tin, được hoạt động theo mô hình sau:
Hình 3 3: Cấu tạo Search Engine
Trang 15Robot – bộ thu thập thông tin: Robot được biết đến dưới nhiều tên gọi
khác nhau: spider, bot, crawler, hoặc web worm…Về bản chất robot chỉ là mộtchương trình duyệt và thu thập thông tin từ các website trên mạng, nó tự độngduyệt qua các cấu trúc siêu liên kết và trả về các danh mục kết quả của công cụtìm kiếm Những trình duyệt thông thường không được xem là robot do thiếu tínhchủ động, chúng chỉ duyệt web khi có sự tác động của con người
Index – bộ lập chỉ mục: Các trang web sau khi thu thập về sẽ được phân
tích, trích chọn những thông tin cần thiết (thường là các từ đơn, từ ghép, cụm từquan trọng) để lưu trữ trong cơ sở dữ liệu nhằm phục vụ cho nhu cầu tìm kiếmsau này
Search Engine – Bộ tìm kiếm thông tin: Tưởng tượng ta muốn tìm vài
quyển sách trong một thư viện rất lớn Với sức lực cá nhân ta không thể xemqua hết tất cả sách, vì vậy ta cần một danh mục sách Tương tự, tồn tại hàngtriệu trang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càngnhiều hơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũngkhông thể duyệt hết Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xácđịnh được vị trí của những từ cần tìm trong các trang web khắp nơi trên thế giới
3.2.1 Robot
Robot được chia làm 2 loại đó là: Robot thu thập thông tin, và robot chỉ mục
3.2.1.1 Robot thu thập thông tin có nhiệm vụ
Phân tích – thống kê - Statistical Analysis: Robot đầu tiên được dùng để
đếm số lượng web server, số tài liệu trung bình của một server, tỉ lệ các dạng filekhác nhau, kích thước trung bình của một trang web,độ kết dính…
Duy trì siêu liên kết – Maintenance: Một trong những khó khăn của việc
duy trì một siêu liên kết là nó liên kết với những trang bị hỏng (dead links) khinhững trang này bị thay đổi hoặc thậm chí bị xóa Thật không may vẫn chưa có
cơ chế nào cảnh báo các bộ duy trì về sự thay đổi này Trên thực tế khi các tácgiả nhận ra tài liệu của mình chứa những liên kết hỏng, họ sẽ thông báo chonhau, hoặc thỉnh thoảng độc giả thông báo cho họ bằng email Một số robot có
Trang 16thể trợ giúp tác giả phát hiện các liên kết hỏng cũng như duy trì các cấu trúcsiêu liên kết cùng nội dung của một trang web Chức năng này lặp lại liên tụcmỗi khi một tài liệu được cập nhật, nhờ đó mọi vấn đề xảy ra sẽ được giải quyếtnhanh chóng.
Ánh xạ địa chỉ web – Mirroring: Mirroring: là một kỹ thuật phổ biến
trong việc duy trì các kho dữ liệu Một ánh xạ (mirror) sẽ sao chép toàn bộ cấutrúc cây thư mục và thường xuyên cập nhật những file bị thay đổi Điều này chophép nhiều người cùng truy xuất một nguồn dữ liệu, giảm số liên kết bị thấtbại, nhanh hơn và ít chi phí hơn so với truy cập trực tiếp vào site thực sự chứacác dữ liệu này
Phát hiện tài nguyên: Có lẽ ứng dụng thú vị nhất của robot là dùng nó để
phát hiện tài nguyên Con người không thể kiểm soát nổi một khối lượng thông tinkhổng lồ trong môi trường mạng Robot sẽ giúp thu thập tài liệu, tạo và duy trì
cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết hỏng nếu có, kết hợp với công cụtìm kiếm cung cấp thông tin cần thiết cho con người
Kết hợp các công dụng trên - Combined uses: Một robot có thể đảm nhận
nhiều chức năng như: vừa thống kê số lượng tài liệu thu được vừa tạo cơ sở dữliệu… Tuy nhiên những ứng dụng như thế còn khá ít ỏi
3.2.1.2 Robot chỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ cho việc lập chỉ mục , ta cần giảiquyết vấn đề sau:
Trong môi trường mạng,robot lấy thông tin từ các site.Vậy robot sẽ bắt đầu từsite nào? Điều này hoàn toàn phụ thuộc vào robot.Mỗi robot khác nhau cónhững chiến lược khác nhau.Thường thì robot sẽ viếng thăm các site phổ biếnhoặc những site có nhiều liên kết dẫn đến nó
Ai sẽ cung cấp địa chỉ của các site này cho robot ?Có 2 nguồn; Một làRobot nhận các URL ban đầu từ user.Hai là Robot phân tích các trang web đểlấy các URL mới, đến lượt các URL này trở thành địa chỉ đầu vào cho robot.Quátrình này được lặp lại liên tục
Trang 17Chọn dữ liệu nào trong tài liệu để lập chỉ mục? Quyết định chọn dữ liệu nàotrong tài liệu cũng hoàn toàn phụ thuộc vào robot, thường thì những từ được liệt
kê như sau được xem là quan trọng :
− Ở góc cao của tài liệu
− Trong các đề mục
− Được in đậm
− Trong URLTrong tiêu đề (quan trọng)
− Trong phần miêu tả trang web (Description)
− Trong các thẻ dành cho hình ảnh (ALT)
− Trong các thẻ chứa từ khóa
− Trong các text liên kết
Một số robot lập chỉ mục trên tiêu đề, hoặc một số đoạn văn bản đầu tiênhoặc toàn bộ tài liệu (full text) Một số khác lại lập chỉ mục trên các thẻMETA(META tags) hoặc các thẻ ẩn, nhờ vậy tác giả của trang web được quyền
ấn định từ khoá cho tài liệu của mình Tuy nhiên chức năng này bị lạm dụng quánhiều do đó các thẻ META không còn giữ được giá trị ban đầu của chúng nữa(Black Hat SEO)
Trang 183.2.2 Index – bộ lập chỉ mục
3.2.2.1 Mô hình xử lý tổng quát của một hệ thống lập chỉ mục
Hình 3 4: Mô hình xử lý tổng quát hệ thống lập chỉ mục
Lập chỉ mục là quá trình phân tích và xác định các từ, cụm từ thích hợpcốt lõi có khả năng đại diện cho nội dung của tài liệu.Như vậy, vấn đề đặt ra làphải rút trích ra những thông tin chính, có khả năng đại diện cho nội dung của tàiliệu
Thông tin này phải “vừa đủ”, nghĩa là không thiếu để trả ra kết quả đầy đủ sovới nhu cầu tìm kiếm, nhưng cũng phải không dư để giảm chi phí lưu trữ và chiphí tìm kiếm và để loại bỏ kết quả dư thừa không phù hợp
Việc rút trích này chính là việc lập chỉ mục trên tài liệu Trước đây, quá trìnhnày thường được các chuyên viên đã qua đào tạo thực hiện một cách “thủ công “nên có độ chính xác cao Nhưng trong môi trường hiện đại ngày nay, với lượngthông tin khổng lồ thì việc lập chỉ mục bằng tay không còn phù hợp, phươngpháp lập chỉ mục tự động mang lại hiệu quả cao hơn
Một thủ tục lập chỉ mục tự động cơ bản:
Trang 19− Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vàokhoảng trắng, mỗi chuỗi xem như là một từ.
− Step of removal of stop words: bỏ những từ thường xuyên xuất hiệntrong hầu hết các tài liệu nhưng lại không quan trọng trong các tàiliệu như tính từ, đại từ
− Step of stemming: loại bỏ các hậu tố (Suffixes) để đưa về các từ gốc.Các từ thu được sẽ được lập chỉ mục Tuy nhiên hai bước đầu cũng cần choquá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì tiếngViệt thuộc dòng ngôn ngữ đơn thể
3.2.2.2 Phương pháp lập chỉ mục
Phương pháp lập chỉ mục gồm hai phần chính yếu sau:
Đầu tiên là xác định các mục từ, khái niệm mà có khả năng đại diện cho vănbản sẽ được lưu trữ (bao gồm cả việc tách từ, loại bỏ stop-word, xử lý hậu tố…)Thứ hai là xác định trọng số cho từng mục từ, trọng số này là giá trị phảnánh tầm quan trọng của mục từ đó trong văn bản
3.2.2.2.1 Xác định mục từ quan trọng cần lập chỉ mục
Mục từ hay còn gọi là mục từ chỉ mục, là đơn vị cơ sở cho quá trình lập chỉmục Mục từ có thể là từ đơn, từ phức hay một tổ hợp từ có nghĩa trong một ngữcảnh cụ thể Ta xác định mục từ của 1 văn bản dựa vào chính nội dung của vănbản đó, hoặc dựa vào tiêu đề hoặc tóm tắt nội dung của văn bản đó
Hầu hết việc lập chỉ mục tự động bắt đầu với việc khảo sát tần số xuất hiệncủa từng loại từ riêng rẽ trong văn bản Nếu tất cả các từ xuất hiên trong tập tàiliêu với những tần số băng nhau, thì không thể phân biệt các mục từ theo tiêuchuẩn định lượng.Tuy nhiên trong văn bản ngôn ngữ tự nhiên, tần số xuất hiệncủa từ có tính thất thường, do đó những mục từ có thể được phân biệt bởi tần sốxuất hiên của chúng
3.2.2.2.2 Xác định trọng số cho mục từ
Trang 20Trọng số của mục từ là sự tần xuất xuất hiện của mục từ trong toàn bộ tàiliệu.Phương pháp thường được sử dụng để đánh giá trọng số của từ là dựa vàothống kê, với ý tưởng là những từ thường xuyên xuất hiện trong tất cả các tàiliệu thì “ít có ý nghĩa hơn” là những từ tập trung trong một số tài liệu.
Ví dụ: tại trang web ToanCauMobile.vn thì những mục từ có trọng số cao:toàn cầu, điện thoại, luxury…
3.2.3 Search Engine – bộ tìm kiếm thông tin
Vì sao ta cần một công cụ tìm kiếm thông tin? Tưởng tượng ta muốn tìm vàiquyển sách trong một thư viện rất lớn Với sức lực cá nhân ta không thể xemqua hết tất cả sách, vì vậy ta cần một danh mục sách Tương tự, tồn tại hàng triệutrang web trên thế giới và mỗi phút trôi qua số lượng được đẩy lên càng nhiềuhơn, cho dù ta có trong tay một công cụ lướt web tuyệt vời đến đâu cũng khôngthể duyệt hết Tuy nhiên, với sự trợ giúp của SE, ta có thể thậm chí xác địnhđược vị trí của những từ cần tìm trong các trang web khắp nơi trên thế giới
3.2.3.1 Các phương thức tìm kiếm
3.2.3.1.1 Tìm kiếm theo từ khóa
Đây là phương pháp được áp dụng với hầu hết các search engine Trừ khitác giả của trang web xác định từ khóa cho tài liệu của mình, ngược lại điềunày phụ thuộc vào search engine Như vậy các search engine sẽ tự mình chọn vàđánh chỉ mục Một số site lập chỉ mục cho tất cả các từ có trong một trang web,một số khác chỉ chọn một số đoạn văn bản
Các hệ thống đánh chỉ mục trên toàn văn bản (full-text indexing systems)đếm số lần xuất hiện của mỗi từ trong tài liệu ngoại trừ các từ stopword.Cónhững công cụ tìm kiếm còn phân biệt cả chữ hoa lẫn chữ thường
Những khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc rốivới những từ đồng âm khác nghĩa hoặc những từ có các biến thể khác nhau do
có tiền tố và hậu tố Bên cạnh đó search engine cũng không thể trả về các tàiliệu chứa những từ đồng nghĩa với các từ trong câu truy vấn
Trang 223.2.3.1.2 Tìm kiếm theo ngữ nghĩa
Không giống các hệ thống tìm theo từ khoá, hệ thống tìm theo ngữ nghĩa
sẽ ‘đoán’ ý muốn của người dùng thông qua câu chữ Tìm theo ngữ nghĩa hoạtđộng dựa trên hình thức gom nhóm tài liệu, phức tạp hơn thì dựa vào ngôn ngữhọc, các thuyết về trí tuệ nhân tạo; tiếp cận dựa vào phương pháp tính toán bằngcách đếm số lần xuất hiện của các từ quan trọng Khi nhiều từ hoặc những cụm
từ có nghĩa đặt gần nhau trong tài liệu thì cho rằng chúng đang ám chỉ một chủ
đề nào đó
Hình 3 5: Hệ thống tự động đoán hành vi tìm kiếm
3.2.3.1.3 Các chiến lược tìm kiếm
Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về bất
kỳ chủ đề gì Nhưng kết quả cuối cùng thường là lãng phí thời gian cho nhữngURL vô ích
Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm
− Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng ?
− Hoặc ta đã hình dung được cụ thể những gì cần tìm ?
− Hay ta muốn tìm địa chỉ của ai đó ?
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thư mục web(web directory)
Trang 23Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn mộtcông cụ tìm kiếm thích hợp.
Ví dụ: chỉ với từ khóa “điện thoại” ta có thể có “điện thoại nhật cường”,
“điện thoại sky”, “điện thoại oppo”, “điện thoại sam sung”
Một vài chỉ số quan trọng quyết định Google PageRank của một trang web:
độ hữu dụng của thông tin trên trang web, độ phổ biến của trang web, chất lượng
kỹ thuật
Google PageRank được chia làm 10 bậc và được biểu hiện bằng vạchmàu xanh trên nền trắng: Giá trị của mỗi trang web theo GooglePageRank tăng dần từ 1 đến 10
Thuật ngữ PageRank™ là một thương hiệu được bảo hộ của Google, do
Larry Page và Sergey Brin phát triển tại trường đại học Stanford của Mỹ trongmột dự án nghiên cứu về công cụ tìm kiếm năm 1995
3.3.1.2 Google PageRank đem lại lợi ích gì ?
Google PageRank hiện nay được coi là chỉ số đáng tin cậy đánh giá mức
độ quan trọng mỗi trang web Một trang web có chỉ số Google PageRank cao sẽđem lại ấn tượng đáng tin cậy cho khách truy cập, điều này đặc biệt có ý nghĩavới các website kinh doanh thương mại điện tử
Google PageRank ảnh hưởng trực tiếp tới vị trí hiển thị của mỗi trang webkhi cạnh tranh thứ hạng hiển thị trong danh sách kết quả tìm kiếm của Google
Trang 24Một trang web có PageRank cao dễ xuất hiện trên đầu danh sách kết quả tìmkiếm của Google hơn.
3.3.1.3 Tăng Google PageRank như thế nào?
Về cơ bản, theo các chuyên gia của Google: "Không được sử dụng cácphương pháp giả tạo, hãy tạo ra các trang web cho mọi người chứ không phải chocác công cụ tìm kiếm"
Tăng thứ hạng trong danh sách kết quả tìm kiếm của Google làphương pháp tăng PageRank rất hiệu quả vì vừa tăng độ phổ biến các trang webcủa bạn, vừa tăng lượng khách truy cập
Cấu trúc website, cấp bậc cần rõ ràng, nội dung thông tin cần phong phú,hữu ích Website không được chứa các liên kết lỗi, các lỗi HTML, lỗi câu lệnh.Đăng ký website vào các danh bạ uy tín cũng như các website chất lượngkhác để tăng độ phổ biến
3.3.2 Alexa Rank
3.3.2.1 Alexa Rank là gì ?
Alexa Rank là thước đo mức độ phổ biến của các website Chỉ số thứhạng của mỗi website được Alexa kết hợp đánh giá từ 2 yếu tố là: số trang webngười dùng xem (Page Views) và số người truy cập website (Reach)
3.3.2.2 Alexa Rank mang lại lợi ích gì?
Chỉ số thứ hạng Alexa của một website cao được hiểu là website đó cóđông người truy cập, phần nào đem lại cho website ấn tượng sống động và uy tín.Trong thị trường quảng cáo trực tuyến, Alexa Rank có thể được sử dụng đểđánh giá giá trị quảng cáo
Chỉ số Alexa Rank là thước đo ghi nhận thành quả lao động của cácwebmaster với cộng đồng và là một công cụ rất hữu ích giúp các webmaster quảntrị website hiệu quả
Trang 253.3.2.3 Tăng Alexa Rank như thế nào?
Tiến hành các chiến dịch quảng bá website định kỳ nhằm thường xuyênthu hút khách truy cập website, tăng cao chỉ số Reach
Hình 3 6: Minh họa về chỉ số Traffic của Alexa
Trong website, nên có các phần thông tin có giá trị cao, cập nhật để thu hútkhách hàng thường xuyên quay lại website, tăng Page views, Traffic
Bố trí nội dung, cấu trúc website sao cho thu nhận được thật nhiều cúnhấp chuột của khách truy cập để tăng Page views nhưng vẫn mang lại cảm giácthoải mái, tiện lợi
Có rất nhiều cách để bạn đưa website của mình đến với người dùng như làquảng cáo trên ti vi, báo chí, quảng cáo tờ rơi, làm hội thảo… Mỗi cá nhân và
Trang 26doanh nghiệp chọn một cách quảng bá khác nhau Nhưng một cách vô cùng hiệuquả mà bất kỳ website nào cũng phải làm đó là tối ưu hóa công cụ tìm kiếm haycòn gọi là SEO Như vậy:
3.4.1 SEO là gì?
SEO là chữ viết tắt của Search Engine Optimization (tối ưu hóa công cụ tìmkiếm) SEO là một tập hợp các phương pháp nhằm nâng cao thứ hạng của mộtwebsite trong các trang kết quả của các công cụ tìm kiếm và có thể được coi làmột tiểu lĩnh vực của tiếp thị qua công cụ tìm kiếm
Thuật ngữ SEO cũng có thể được dùng để chỉ những người làm côngviệc tối ưu hóa công cụ tìm kiếm, là những nhà tư vấn đưa ra những dự án tối ưuhóa cho các website của khách hàng
Làm SEO là quá trình tối ưu hóa mã nguồn website, giúp website thân thiệnvới các công cụ tìm kiếm để tăng lượng truy cập qua từ khóa tìm kiếm từ đó tăng
số lượng người truy cập tới Một website được làm SEO tốt, đồng nghĩa với việcwebsite đó luôn xuất hiện ở thứ hạng cao khi người truy cập sử dụng công cụtìm kiếm để tìm nội dung mà họ cần SEO cũng có thể bao gồm nhiều loại mụctiêu khác nhau khi tìm kiếm như: tìm ảnh, tìm từ khóa, tìm theo quốc gia và một
số loại SEO khác
Các công cụ tìm kiếm hiển thị một số dạng danh sách trong trang kếtquả tìm kiếm (SERP) bao gồm danh sách trả tiền, danh sách quảng cáo, dánhsách trả tiền theo click và danh sách tìm kiếm miễn phí
Mục tiêu của SEO chủ yếu hướng tới việc nâng cao thứ hạng của danhsách tìm kiềm miễn phí theo một số từ khóa nhằm tăng lượng và chất của kháchviếng thăm đến trang
SEO đôi khi là một dịch vụ độc lập hay là một phần của dự án tiếp thị và
có thể rất hiệu quả ở giai đoạn phát triển ban đầu và giai đoạn thiết kế website.Hiện nay, nhận thức của người quản trị website tại Việt Nam nói riêng và thếgiới nói chung nhận biết việc tối ưu hóa website để các máy tìm kiếm trỏ tới rất
ít Người sử dụng không ý thức được tầm quan trọng của việc tối ưu hóa website,
Trang 27hoặc làm các phương thức để các máy tìm kiếm trỏ đến Hiện trên mạng Internet
có 3 công cụ tìm kiếm hữu hiệu nhất và phổ biến nhất:
3.4.2 Tại sao cần SEO?
Đại đa số lưu lượng truy cập đến với các website hiện nay đều từ các bộmáy tìm kiếm lớn như : Google, Yahoo, Bing… Nếu website không được tìmthấy bởi các công cụ tìm kiếm hoặc nội dung không nằm trong cơ sơ dữ liệu củacác bộ máy tìm kiếm thì đó chính là một thảm họa nếu công ty bạn đang kinhdoanh online hoặc có giao dịch trực tuyến hoặc có đi chăng nữa nhưng kết quảtìm kiếm luôn nằm ở trang 3,4,5…trở đi thì cũng coi như thất bại
Một ví dụ nhỏ: website kinh doanh nội thất và…cứ mỗi “khách hàngtiềm năng” lên Google, Bing gõ từ khóa tìm kiếm: “đồ nội thất giá rẻ” thì kếtquả truy vấn đầu tiên đập vào mắt họ là website của bạn Sau đó, khả năng
“khách hàng tiềm năng” trở thành ”khách hàng thân thiết” sẽ cao hơn các đốithủ khác, và dĩ nhiên doanh số tăng theo
Làm SEO hiện tại với thị trường phát triển mạnh và liên tục như hiện nay làđiều mà các trang web nên làm và phải làm, hãy bắt đầu ngay vì không bao giờSEO là quá muộn
Một câu hỏi khác được đặt ra: “Tại sao các công cụ tìm kiếm không thể tìmthấy website của tôi nếu không có sự trợ giúp của SEO?”
Nếu nói là “không thể tìm thấy” thì không hoàn toàn đúng
Trang 28Thực ra, sau 1 thời gian dài, website cũng được các cổng tìm kiếm đưa vàoindex, nhưng chỉ là “cho có” chứ không thật sự như những gì mà chúng ta muốn,
vì khi các đối thủ cạnh tranh có sử dụng các biện pháp SEO thì website bạnchẳng bao giờ được lọt vào các trang đầu trên bộ máy tìm kiếm
Tìm kiếm và hiển thị nội dung ở những nơi mà người dùng dễ thấy và tìmkiếm nhất (kết quả hiển thị ngay trang 1)
Thời đại toàn cầu hóa đã biến bất kỳ môi trường làm việc nào cũng mang tínhcạnh tranh, và thế giới ảo Khi có SEO tham gia vào công việc này, nó sẽ giúpwebsite bạn tăng thứ hạng trên các công cụ tìm cũng không ngoại lệ.Nhữngwebsite nào đã và đang quan tâm đến SEO thì đã có 1 lợi thế hơn so với đối thủcủa mình trong việc giành lấy người dùng
Trang 29CHƯƠNG 4 ỨNG DỤNG
Ở chương trước, chúng tôi đã trình bày nguyên lý hoạt động, các nguyên
lý thu thập thông tin cũng như Index một trang web lên bộ máy tìm kiếm Tạichương này, chúng tôi sẽ áp dụng những nguyên tắc về lý thuyết đó vào trangweb ToanCauMobile.vn để giúp cho trang web có vị trí cao khi người dùng truyvấn Nội dung chương 4 không nêu rõ từng bước xây dựng website mà chỉ chútrọng về các cách thức cách thức khảo sát người chùng, cách thức chọn tênmiền cũng như các cách để tối ưu hóa nó sao cho việc Index lên các bộ máy tìmkiếm là dễ dàng nhất
4.1 KHẢO SÁT THÔNG TIN NGƯƠI DÙNG
4.1.1 Thành phần người sử dụng
Đây là bước đầu tiên khi xây dựng một website, tìm hiểu các khách hàngcần những gì để có thể xây dựng một site có thể hỗ trợ tối đa cho họ WebsiteToanCauMobile.vn được tạo nên nhằm mục đích quảng bá sản phẩm của côngty.Đây là nơi trưng bày các sản phẩm ,qua đó giới thiệu cho khách hàng những dịch
vụ nhu cầu mua hàng và hơn hết là phù hợp về giá cả và chất lượng sản phầm màcông ty cung cấp
4.1.2 Đối thủ cạnh tranh và hướng đi của ToanCauMobile.vn
Đối thủ cạnh tranh của website ToanCauMobile.vn gồm có nhưng trangweb sau:
FPT Shop và Thế giới di động là 2 website cạnh tranh lơn nhất ,2 trang nàylớn mạnh và được hình thành từ lâu đc hỗ trợ cho khách hàng trực tuyến khá tốt
và úy tín lâu năm,nguồn tin tức dữ liệu phong phú.Nên việc lựa chọn một hướng
đi đúng đắn và riêng biệt cho ToanCau/Mobile.vn là một điều quyết định đối với
sự phát triển của trang web, do đó hướng phát triển của trang web phải mang tínhriêng biệt, nhắm vào nhu cầu thực tế của khách hàng
− Xây dựng một trang web với các thao tác dễ nhất, hỗ trợ tối đa chocác bạn có kiến thức tin học chưa cao