Chuyên đề đề tài “Tìm hiểu và ứng dụng SEO vào trang web toancaumobile.vn” là một minh chứng cụ thể nhất cho việc áp dụng phương pháp SEO vào một website phi lợi nhuận, một website bán hàng điện tử điện thoại.
Trang 1Tôi cam đoan đây là công trình nghiên c u c a tôi. Nh ng k t qu và các s li uứ ủ ữ ế ả ố ệ trong chuyên đ ch a đề ư ược ai công b dố ướ ấ ứi b t c hình th c nào. Tôi hoàn toàn ch uứ ị trách nhi m trệ ước nhà trường v s cam đoan này.ề ự
Hu , ngày 01 tháng 05 năm 2016 ế
Sinh viên th c hi nự ệ
Nguy n Tu n Vũễ ấ
Trang 2M C L CỤ Ụ
Trang 3DANH M C HÌNHỤ
Trang 4CHƯƠNG 1. T NG QUANỔ
1.1. Đ T V N ĐẶ Ấ Ề
Website – ngôi nhà c aủ Doanh nghiệp trên Internet, nếu nói tên miền là bảng hiệu c a ủ m tộ Công ty thì website chính là văn phòng c aủ Công ty đó, là
n iơ khách hàng tìm kiếm các thông tin về doanh nghiệp trư cớ khi kí hợp đ ng,ồ
là n iơ khách hàng và các đ iố tác liên hệ doanh nghiệp, là bộ mặt c aủ doanh nghiệp… Ngoài ra website còn tạo ra không ít lợi thế khác nh ư :
Hướng hoạt động của doanh nghiệp từ n iộ địa hoặc cục bộ ra toàn cầu
Website là nơi tr ngư bày, giới thiệu sản phẩm, hàng hóa d chị vụ c aủ Doanh nghiệp. Hoạt đ ngộ lên tục 24x7, không giới hạn thời gian và không gian.Website là kênh thông tin giới thiệu sản phẩm, dịch vụ hoàn hảo nhất và hữu
đ iố thủ cạnh tranh
Theo T ngổ c cụ Th ngố kê, t ngổ s ngố ườ s d ngi ử ụ Internet t i Vi tạ ệ Nam tính đến 2013 là hơn39 triệu ngư i,ờ ( chiếm hơn 43.9% dân số Việt Nam) và hơn 8,5 triệu ngườ dùng Internet băng thông r ngi ộ (08/2014)
Trong giai đoạn 2000 2010, tỉ lệ tăng trưởng người sử d ngụ Internet tại Việt Nam đạt m cứ 12%, t cố độ tăng trưởng nhanh nhất trong khu v c.ự Như vậy sau gần 14 năm kể từ ngày Việt Nam gia nhập c ngộ đ ngồ Internet toàn cầu (1/12/1997), lượng ngườ s d ngi ử ụ Internet trong nướ đã tăng nhanh c
m tộ cách đáng kể
Trang 5Nhìn chung, Internet là m tộ món ăn không thể thiếu với cu cộ s ngố c aủ
m iọ người, v i ớ thói quen sử d ngụ các bộ máy tìm ki mế (Google, Bing, Yahoo…) để tìm kiếm thông tin v ề doanh nghi p,ệ tài liệu h cọ tập, mua sắm
tr cự tuyến, nạp thẻ điện thoại, thanh toán hóa đơn…
Theo th ngố kê, có đến hơn 86% lượ truy cập c ang ủ m tộ website đều đ nế
t ừ các Search Engine lớn như Google, Yahoo, MSN… M iỗ ngày có hàng triệu người dùng lướt web s ử d ng ụ Search Engine đ tìm nh ngể ữ sản phẩm, dịch vụ
và thông tin h đangọ cần.Nh ngư liệu với hàng t ỉwebsite hiện đang t nồ t i,ạ làm sao khách hàng có thể tìm thấy website c aủ bạn trước mà không phải c aủ các
đ iố thủ cạnh tranh? Hầu h tế người sử d ngụ các bộ máy tìm kiếm đều không kiên nhẫn, họ chỉ tập trung vào các k tế quả tìm kiếm ở “Trang nhất” trong hàng trăm, hàng triệu kết quả trả về khi truy vấn tìm kiếm
1.2. L CH S GI I QUY T V N ĐỊ Ử Ả Ế Ấ Ề
Webmaster và các nhà cung cấp d chị vụ SEO đã bắt đầu t iố uư hóa các trang web cho công cụ tìm ki mế vào gi aữ những năm 1990. Ban đầu, các webmaster bắt đầu gửi link liên k t ế hay url c a trangủ web đến các công c tụ ìm kiếm, các công c nàyụ s g iẽ ử m tộ spider đến trang website đó, website sẽ được thu thập dữ liệu, sau đó đượ index lên máy chủ tìm kiếm, n ic ơ đây các thông tin về website sẽ đượ l uc ư trữ l iạ , các từ khóa c aủ website, các link liên
k tế trong website đó, các spider này sẽ làm vi cệ index lên máy chủ theo lịch trình mà các công cụ tìm kiếm quy ước. Ngư iờ sở h uữ trang web b tắ đầu để nhận ra những giá trị c aủ việc có các trang web c aủ họ và có thể nhìn thấy được xếp hạng cao trong k tế quả công cụ tìm kiếm. SEO chia ra làm hai dạng
đó là : SEO truyền th ngố (White Hat SEO) và SEO gian l nậ (Black Hat SEO).Theo nhà phân tích Danny Sullivan, cụm t “T iừ ố ưu hóa công c tụ ìm kiếm”
s d ngử ụ r t ấ nhiều trên mạng vào năm 1997
Trang 6Đầu phiên bản c a thu tủ ậ toán tìm ki mế d a vự ào quản tr trị ang web cung cấp thông tin nh ư các thẻ meta từ khoá, ho cặ tập tin chỉ m cụ như ALIWEB. Thẻ meta cung cấp m tộ hướ dẫn đến n ing ộ dung c aủ m iỗ trang.
Sử d ngụ dữ liệu meta vào các trang chỉ m cụ đượ tìm thấy sẽ được ít chơn đáng tin cậy, tuy nhiên, vì nh ngữ sự lựa ch nọ c aủ webmastermà các thẻ meta có sự chính xác trong khả năng đ aư thông tin website lên máy chủ tìm kiếm. Những d lữ iệu không chính xác, không đầy đ , ủ và không nhất quán trong thẻ meta có thể gây ra sự xếp hạng không đúng vị trí cho các tìm kiếm không liên quan. Vi cệ cung cấp n iộ dung được t i u hóaố ư và m tộ số thu cộ tính trong
mã ngu n ồ HTML đ iố với m tộ trang web cần phải chính xác để có được kết quả t tố trên công cụ tìm kiếm
Bằng cách d aự quá nhiều vào các yếu tố như mật độ từ khóa đó đư cợ
đ cộ quyền trong vòng ki mể soát c aủ m tộ webmaster, công cụ tìm kiếm sớm
bị l mạ d ngụ vào thao tác xếp hạng. Để cung cấp k tế quả t tố hơn cho người dùng c aủ h ,ọ công cụ tìm ki mế đã phải thích ngứ để đảm bảo kết quả c aủ các trang đã cho thấy các kết quả tìm kiếm có liên quan nhất, thay vì các trang không liên quan nh iồ với từ khoá nhiều bởi Black Hat SEO – nhóm Webmaster không bao gi ờ tuân theo các qui đ nhị c aủ các bộ máy tìm kiếm, họ luôn lạm d ngụ quá m cứ các thủ thuật. Các công cụ tìm kiếm đã ph nả ngứ l iạ bằng cách phát triển ph cứ tạp hơn thu tậ toán xếp h ng,ạ có tính đến các yếu tố
bổ sung mà gây nhiều khó khăn cho quản trị web để thao tác
SEO tại Việt Nam b t đ uắ ầ những nền móng phát triển đầu tiên khoảng vào thời điểm gi a ữ năm 2006. Sau 5 năm, đến nay SEO đã là m tộ khái ni mệ
mà hầu như b tấ kì m tộ nhà quản tr ịwebsite nào cũng bi tế đến và tìm hi uể nó
dù ít hay nhiều. Th mậ chí, SEO còn đượ đ ac ư vào hoạt đ ngộ c aủ công ty như
m tộ hướng đi chiến lược với nh ngữ kế hoạch dài hơi. Điển hình, bạn có thể
Trang 7dễ dàng nhận ra FPT có bộ phận SEO riêng, Zing có bộ phận SEO riêng, VCCORP cũng có bộ phận traffic riêng, Báo điện tử 24h…
Như đã trình bày trên,ở hầu hết người làm SEO chỉ chú ý đến việc là sao
để m tộ website Thương mại đượ lên trang nhất c ac ủ bộ máy tìm kiếm. V nấ
đề đặt ra: có thể áp dụng SEO cho m tộ website phi l iợ nhuận, mang tính giáo
d cụ và C ngộ đ ngồ không ? Liệu SEO cho m tộ trang web phi thương mại có khả năng thành công không…
Chuyên đề đề tài “TÌM HI U VÀ NG D NG SEO VÀO TRANG WEBỂ Ứ Ụ TOANCAUMOBILE.VN” là m tộ minh ch ngứ cụ thể nhất cho vi cệ áp d ngụ phương pháp SEO vào m tộ website phi l i nhuợ ận, m t website bán hàng đi n tộ ệ ử
Trang 8CHƯƠNG 2. KH O SÁT HI N TR NGẢ Ệ Ạ
2.1. Phương pháp nghiên c u và gi i quy t v n đ ứ ả ế ấ ề
Vi cệ đầu tiên trướ khi SEO m tc ộ website đã đượ đ nhc ị hướ đúng ng
đ nắ bằng nh ngữ ý tưở đ cng ộ đáo và mã ngu nồ t tố thì chúng ta phải bi tế được SEO là gì?Và các phương pháp l aự ch n nh ng thành ph n h tr choọ ữ ầ ỗ ợ website đó.M t website độ ược SEO t t khi và ch khi wố ỉ ebmaster có đư cợ hi uể
bi tế đúng đ n,ắ tránh r iơ vào tình tr ngạ Black Hat SEO
Nhìn chung, quá trình nghiên cứu đượ phân thành 04 giai đoạn, các giai cđoạn này đư c ợ th cự hi nệ liên t cụ cho đ nế khi SEO thành công
Bư cớ 1: Xây dựng ý tưởng, lựa chọn mã ngu n,ồ xây dựng website có n iộ dung riêng biệt, hỗ trợ người dùng t iố đa
Bư cớ 2: B tắ đ uầ phát tri nể website, song song v iớ việc phát triển cả về n iộ dung lẫn mã ngu n,ồ tác giả bắt đ uầ áp d ngụ các bi nệ pháp để tối uư hóa website
Bư cớ 3: Thống kê, theo dõi các t ừ khóa, lư ngợ người truy cập
Trang 9Bư cớ 4: Theo dõi các báo cáo cụ th ,ể duy trì công việc hiện tại nếu SEO thành công hoặc sữa ch aữ khi SEO ch aư thành công
Qua chương 1, tác giả giới thiệu toàn cảnh về đề tài.Cách th cứ nghiên cứu, tiếp cận đề tài và các m cụ tiêu đ tạ được khi hoàn thành t tố chuyên đề
Chư ngơ 2: Cơ sở lý thuyết
Về cơ sở lý thuyết, tác giả tìm hiểu cách thức làm vi cệ chung c aủ các
bộ máy tìm kiếm, các cách th cứ thu thập thông tin, cách th cứ để m tộ bộ máy tìm kiếm có thể thấy được trang web
Trang 10Trong chương này, tác giả cũng giới thiệu về hai phương th cứ đánh giá thứ hạng c a ủ website là Alexa và GoogleRank, hai phương th cứ này đã và đang là thướ đo quan tr ngc ọ trong vi cệ phát triển trang web.
Cũng trong chương này, tác giả giới thiệu SEO, giúp cho ngườ đ ci ọ có cái nhìn rõ ràng hơn về SEO
Chư ngơ 3: Ứng d ng.ụ
Sau khi đã tìm hiểu và nắm rõ các phương th cứ tìm kiếm, các tiêu chí đánh giá xếp hạng t i ạ Chương 2, tác giả áp d ngụ những hiểu bi tế trên c s ơ ở lý thuyết đó đ bể ắt đầu SEO trang web ToanCauMobile.vn
Vì vậy, ở chương này, chúng ta sẽ nghiên cứu các phương pháp cơ bản nhất, chính qui nhất để có thể t iố uư hóa m tộ website, nhằm đ aư website lên các thứ h ngạ cao khi ngườ dùng truy vấn.i
Sau khi đã áp d ngụ các phương pháp cơ bản và chính qui, tác giả sẽ
th ngố kê các số li u ệ và so sánh lúc ch aư áp d ngụ SEO và sau khi áp d ngụ SEO
M tộ số phương pháp, kĩ năng mềm mà tác giả đã áp d ngụ để SEO thành công trang web
Chư ngơ 4: Kết lu nậ – hướ phát triển.ng
N iộ dung c aủ chương 4 sẽ là t ngổ hợp kết quả các công vi cệ đã làm ở các chương trước. Các kết quả đã đạt đượ sau khi hoàn thành luận văn.c
Nh ngữ nhược điểm c aủ SEO
Hướng phát triển, đề xuất các phư ngơ pháp đễ giữ các vị trí cao khi SEO thành công, cũng nh cách th c qu ng bá website đ có th thu l i nhu n,ư ứ ả ể ể ợ ậ
t nuôi s ng website.ự ố
Trang 11CHƯƠNG 3. C S LÝ THUY TỞ Ở Ế
3.1. T NG QUAN B MÁY TÌM KI M Ổ Ộ Ế
3.1.1. B máy tìm ki m ho t đ ng nh th nào? ộ ế ạ ộ ư ế
Search Engine hay còn g iọ là công cụ tìm kiếm, bộ máy tìm kiếm giúp
ngườ xem tìm th yi ấ nh ngữ thông tin m tộ cách liên quan nh t.ấ Ngườ dùng i
có thể tìm kiếm thông tin theo t ừ khoá, hình nh,ả đ a điị ểm… trên search engine. Khi nh nậ đư cợ câu lệnh yêu cầu tìm kiếm, search engine sẽ phân tích yêu cầu đó, đánh giá, x pế h ngạ và trả về k tế quả liên quan nhất. Search engine ho tạ động theo quy trình như sau :
Ban đầu, SE s g iẽ ử các Spider (hay còn g iọ là con b ,ọ Crawler) đ tiể ến hành khảo sát m t ộ website khi nó đượ upload lên. Các Spider này đc ượ l pc ậ trình để có thể tự đ ngộ lần theo liên kết đ đi để ến các website khác nhau, sau khi d ngừ l iạ ở m tộ website nào đó, Spider này s thuẽ thập, đánh giá các thông tin trên website đó trư cớ khi tự đ ngộ lần theo các liên kết đến các website khác…
Sau khi nh nậ đượ các thông tin t c ừ Spider, SE có nhiệm vụ l uư tr l iữ ạ trước khi phân tích chúng bằng các thu tậ toán riêng bi tệ đ tr v cácể ả ề k tế quả khi ngườ dùng truy vấn đúng vào n i i ộ dung. Ta có thể tham kh oả cách thức làm
vi cệ chung c aủ SE tại hình dướ đây:i
Trang 12Hình 3. : T ng quan cách th c là, vi c c a b máy tìm ki mổ ứ ệ ủ ộ ế
Trong đó:
Kh oả sát – Crawl: là m tộ giai đo nạ r t quanấ tr ngọ đ searchể engine tham quan, thu th p ậ thông tin trên website c aủ b n.ạ Search engine có nh ngữ con bọ (spider hay crawler) đượ lập trình để có thể tự đ ngc ộ theo các liên k tế (link)
để mò đ nế các website khác nhau, thu thập và đánh giá các thông tin trên website đó
L uư trữ Index: là giai đo nạ search engine l uư l iạ thông tin sau khi đã crawl. V iớ kh i ố lượ l ung ư trữ vô h n,ạ các search engine có thể ch aứ hàng tỉ kết quả liên quan. M tộ trang web có thể đượ index nhanhn ho cc ặ chậm tuỳ thu cộ vào t cố độ crawl, độ trust c aủ website và nhiều yếu tố
khác
Phân tích – Analysis: giai đoạn này search engine s làm vẽ i cệ trên các dữ liệu mà nó thu thập đượ Sau đó tính toán đ lic ộ ên quan c a d liủ ữ ệu so v i ớ yêu cầu c aủ ngườ dùng. Các search engine khác nhau có những thu ti ậ toán phân tích khác nhau từ đây tạo ra sự khác bi tệ gi aữ các search engine. Giai đoạn phân tích sẽ tạo tiền đề cho giai đoạn phía sau – Trả về k tế quả
Kết quả Results: Các kết quả liên quan sẽ đ cượ hiển thị trong giai đoạn này. Nh ngữ k t ế quả liên quan thường đượ sắp ở phía trên, cao hơn nh ngc ữ
Trang 13kết quả ít liên quan.M cặ dù không phải lúc nào các kết quả cũng thoả mãn được yêu cầu c aủ người tìm kiếm.Nhưng cho đến hi n ệ nay, người dùng khá hài lòng v iớ nh ngữ gì mà search engine trả về.
Tuy b cứ tranh hoạt đ ngộ c aủ search engine bên ngoài nhìn chung khá đơn giản nh ng ư bên trong là tập hợp r tấ nhiều thu tậ toán ph cứ t p.ạ Search engine nào thoả mãn nhiều nh tấ nhu cầu tìm ki mế ngườ sử d ngi ụ sẽ đượ sử c
d ngụ r ngộ rãi và phát triển m nhạ mẽ trong tương lai. Ai là vua trong thị trường tìm ki mế tr cự tuyến đầy tiềm năng này?
Trang 143.1.2. Gi i thi u v các search engine thông d ng ớ ệ ề ụ
Hiện nay trên thế gi iớ có rất nhiều search engine đang hoạt đ ng.ộ Trong
đó, phải kể đ n ế ba chàng kh ngổ lồ đang chi ph iố 98% thị phần tìm kiếmtheo thông kê c aủ SEO MOD tháng 01/2014
Google là search engine đượ nhiều ngư ic ờ s d ngử ụ nhất với 80% số người
s d ng.ử ụ Ti p ế theo là Yahoo 9.5% và Bing 8.5%, còn l iạ số phần trăm ít iỏ dành cho các search engine khác
Hiện nay, ở Việt Nam đa số m iọ ngư iờ cũng sử d ngụ Google để tìm
ki mế thông tin.Nên vi cệ SEO trên Google là ưu tiên hàng đầu đ iố với các website
3.2. C U T O CHUNG CÁC B MÁY TÌM KI MẤ Ạ Ộ Ế
Bộ máy tìm ki mế thường cấu tạo b iở 3 bộ phận đó là: Bộ thu thập thông tin, Bộ l pậ chỉ m cụ và bộ tìm kiếm thông tin, đượ hoạt đ ngc ộ theo mô hình sau:
Trang 15Hình 3. : C u t o Search Engineấ ạ Robot – bộ thu thập thông tin: Robot đ cượ bi tế đến dưới nhiều tên
g iọ khác nhau: spider, bot, crawler, ho cặ web worm…Về bản chất robot chỉ
là m tộ chươ trình duyệt và thu thập thông tin từ các website trên mạng, nó ng
tự đ ngộ duyệt qua các cấu trúc siêu liên kết và trả v ề các danh mục kết quả
c aủ công c tìm kiụ ếm. Nh ngữ trình duyệt thông thườ không đư cng ợ xem là robot do thi uế tính chủ đ ng,ộ chúng chỉ duyệt web khi có sự tác đ ngộ c aủ con
Trang 16Duy trì siêu liên kết – Maintenance: M tộ trong những khó khăn c aủ
vi cệ duy trì m t ộ siêu liên kết là nó liên kết v iớ nh ngữ trang bị h ngỏ (dead links) khi những trang này bị thay đ i ổ ho cặ thậm chí bị xóa. Thật không may vẫn ch aư có cơ chế nào cảnh báo các bộ duy trì về sự thay đ iổ này. Trên th cự
tế khi các tác giả nhận ra tài liệu c aủ mình ch aứ nh ngữ liên k tế h ng,ỏ họ sẽ thông báo cho nhau, ho cặ th nhỉ thoảng đ cộ giả thông báo cho họ bằng email.
M tộ số robot có th ể trợ giúp tác giả phát hiện các liên kết h ngỏ cũng như duy trì các cấu trúc siêu liên kết cùng n i ộ dung c aủ m tộ trang web. Ch cứ năng này lặp lại liên t cụ m iỗ khi m tộ tài liệu đư cợ c pậ nhật, nh ờ đó m iọ vấn đề xảy ra
sẽ được gi iả quyết nhanh chóng
Ánh x đ aạ ị chỉ web – Mirroring: Mirroring: là m tộ kỹ thuật phổ biến trong việc duy trì các kho dữ liệu. M tộ ánh xạ (mirror) sẽ sao chép toàn bộ c uấ trúc cây thư m cụ và thường xuyên cập nhật nh ngữ file bị thay đ i.ổ Điều này cho phép nhiều ngườ cùng truy xuất m ti ộ ngu nồ d ữ liệu, giảm số liên kết bị
th tấ b iạ , nhanh hơn và ít chi phí hơn so với truy cập tr cự tiếp vào site th cự
sự ch aứ các dữ liệu này
Phát hiện tài nguyên: Có l ngẽ ứ d ngụ thú v nhị ất c aủ robot là dùng nó để phát hi nệ tài nguyên. Con ngư iờ không th kiể ểm soát n iổ m tộ kh iố lượng thông tin kh ngổ l trongồ môi trường m ng.ạ Robot sẽ giúp thu thập tài liệu, tạo và
Trang 17duy trì cơ sở dữ liệu, phát hiện và xoá bỏ các liên kết h ngỏ n uế có, kết hợp với công cụ tìm kiếm cung cấp thông tin cần thi tế cho con ngư i.ờ
Kết h p ợ các công d nụ g trên Combined uses: M tộ robot có thể đảm nhận nhiều ch c ứ năng nh :ư vừa th ngố kê s lố ượng tài liệu thu đượ v ac ừ tạo cơ
s d liở ữ ệu…. Tuy nhiên nh ngữ ng ứ d ngụ như thế còn khá ít i.ỏ
3.2.1.2 Robot chỉ m c ụ – Robot Indexing
Trong quá trình thu th p thông tin ph c v cho vi c l p ch m c , ta c nậ ụ ụ ệ ậ ỉ ụ ầ
gi i quy t v n đ sau:ả ế ấ ề
Trong môi trường m ng,robot l y thông tin t các site.V y robot s b tạ ấ ừ ậ ẽ ắ
đ u t site nào? Điầ ừ ều này hoàn toàn ph ụ thu c ộ vào robot.M i ỗ robot khác nhau có những chiến lư c ợ khác nhau.Thường thì robot sẽ viếng thăm các site phổ biến ho cặ những site có nhiều liên kết dẫn đ nế
nó.
Ai sẽ cung cấp đ aị chỉ c aủ các site này cho robot ?Có 2 ngu n;ồ M tộ là Robot nhận các URL ban đ uầ từ user.Hai là Robot phân tích các trang web để lấy các URL mới, đến lượ các URL này trở thành đ at ị chỉ đầu vào cho robot.Quá trình này được lặp lại liên tục
Ch nọ d ữ li uệ nào trong tài liệu đ ể l p chậ ỉ mục? Quyết đ nhị ch nọ d liữ ệu nào trong tài li u ệ cũng hoàn toàn phụ thu cộ vào robot, thường thì nh ngữ t đừ ược liệt kê như sau được xem là quan tr ngọ :
Trang 18Trong các text liên kết
M tộ số robot lập chỉ m cụ trên tiêu đề, ho cặ m tộ số đoạn văn bản đầu tiên hoặc toàn b ộ tài liệu (full text). M tộ số khác l iạ l pậ chỉ m cụ trên các thẻ META(META tags) hoặc các thẻ n, ẩ nhờ vậy tác gi ả c aủ trang web được quyền ấn đ nhị t khoáừ cho tài liệu c aủ mình. Tuy nhiên ch c ứ năng này bị lạm
d ngụ quá nhiều do đó các thẻ META không còn giữ đư cợ giá trị ban đầu c aủ chúng n aữ (Black Hat SEO)
Trang 193.2.2. Index – bộ l p ậ chỉ m c ụ
3.2.2.1. Mô hình xử lý t ng ổ quát c a ủ m t ộ hệ thống l p ậ chỉ mục
Lập chỉ mục là quá trình phân tích và xác đ nhị các t ,ừ c mụ từ thích hợp
c tố lõi có kh ả năng đại di nệ cho n iộ dung c aủ tài liệu.Như vậy, vấn đề đ tặ ra
là phải rút trích ra nh ngữ thông tin chính, có khả năng đ iạ diện cho n iộ dung
c aủ tài liệu
Thông tin này phải “v aừ đ ”,ủ nghĩa là không thi uế đ tr ra kể ả ết quả đầy
đ soủ với nhu c u ầ tìm kiếm, nh ngư cũng phải không dư để giảm chi phí l uư trữ và chi phí tìm kiếm và để lo iạ b ỏ kết quả dư th aừ không phù hợp
Vi cệ rút trích này chính là việc lập chỉ m cụ trên tài liệu. Trước đây, quá trình này thường đượ các chuyên viên đã qua đào t oc ạ th cự hiện m tộ cách “thủ công “ nên có độ chính xác cao. Nhưng trong môi trường hiện đại ngày nay, với lượng thông tin kh ngổ lồ thì việc lập chỉ mục bằng tay không còn phù hợp, phương pháp lập chỉ m cụ tự động mang lại hiệu quả cao hơn
Trang 20M tộ thủ t cụ lập chỉ m cụ tự đ ngộ cơ bản:
Step of tokenization: Tách văn bản ra thành các chu iỗ nhờ vào khoảng trắng,
m iỗ chu i ỗ xem như là một t ừ
Step of removal of stop words: bỏ những từ thường xuyên xuất hiện trong hầu hết các tài liệu nh ngư lại không quan trọng trong các tài liệu như tính từ, đại từ
Thứ hai là xác đ nhị tr ngọ số cho t ngừ m cụ t ,ừ tr ngọ số này là giá trị phản ánh tầm quan tr ngọ c aủ m cụ từ đó trong văn bản
3.2.2.2.1. Xác đ nh m c t quan tr ng c n l p ch m c ị ụ ừ ọ ầ ậ ỉ ụ
M cụ từ hay còn g iọ là m cụ từ chỉ mục, là đơn vị cơ sở cho quá trình lập chỉ m c.ụ M cụ t ừ có thể là từ đơn, từ ph cứ hay m tộ tổ hợp từ có nghĩa trong
m tộ ngữ cảnh cụ thể. Ta xác đ nhị m c ụ từ c aủ 1 văn bản dựa vào chính n iộ dung c aủ văn bản đó, ho cặ d aự vào tiêu đề ho cặ tóm t tắ n i ộ dung c aủ văn bản đó
Hầu hết việc lập chỉ m cụ tự đ ngộ bắt đầu v iớ vi cệ khảo sát t nầ số xuất hiện c aủ t ngừ lo i ạ từ riêng rẽ trong văn bản. Nếu tất cả các từ xu tấ hiên trong tập tài liêu với nh ngữ tần số băng nhau, thì không thể phân biệt các
Trang 21m cụ từ theo tiêu chuẩn đ nhị lượng.Tuy nhiên trong văn b n ngônả ngữ tự nhiên, tần số xu tấ hiện c aủ từ có tính thất thường, do đó những m cụ từ có thể được phân bi tệ bởi tần số xu tấ hiên c aủ chúng.
3.2.2.2.2. Xác định tr ng ọ số cho m c ụ từ
Tr ngọ số c aủ m cụ từ là sự tần xuất xuất hiện c aủ m cụ từ trong toàn
bộ tài liệu.Phương pháp thường đượ sử d ngc ụ để đánh giá tr ngọ số c aủ từ là
d aự vào th ngố kê, với ý tưởng là nh ng ữ từ thường xuyên xuất hiện trong t tấ
cả các tài liệu thì “ít có ý nghĩa h n”ơ là nh ngữ từ tập trung trong m tộ số tài liệu
Ví d :ụ tại trang web ToanCauMobile.vn thì nh ngữ m cụ từ có tr ngọ số cao: toàn c u,ầ đi n tho iệ ạ , luxury…
3.2.3. Search Engine – bộ tìm kiếm thông tin
Vì sao ta c nầ m tộ công cụ tìm kiếm thông tin? Tưởng tượng ta mu nố tìm vài quyển sách trong m tộ thư viện r tấ l n.ớ Với s cứ l cự cá nhân ta không thể xem qua hết tất cả sách, vì vậy ta cần m tộ danh m cụ sách. Tương t ,ự t nồ tại hàng triệu trang web trên thế giới và m iỗ phút trôi qua s ố lượng được đẩy lên càng nhiều hơn, cho dù ta có trong tay m tộ công c lụ ướt web tuyệt vời đến đâu cũng không thể duyệt hết. Tuy nhiên, với sự trợ giúp c aủ SE, ta có thể thậm chí xác đ nh ị đượ vị trí c ac ủ những từ cần tìm trong các trang web khắp nơi trên thế giới
3.2.3.1 Các phư ng ơ th c ứ tìm kiếm
3.2.3.1.1. Tìm kiếm theo từ khóa
Đây là phương pháp đư cợ áp d ngụ với hầu hết các search engine. Trừ khi tác giả của trang web xác đ nhị từ khóa cho tài liệu c aủ mình, ngược l iạ điều này phụ thu cộ vào search engine. Như vậy các search engine sẽ tự mình
ch nọ và đánh chỉ m c.ụ M tộ số site lập chỉ m cụ cho t tấ cả các từ có trong m tộ trang web, m tộ số khác chỉ ch nọ một số đoạn văn bản
Trang 22Các h th ngệ ố đánh chỉ m cụ trên toàn văn bản (fulltext indexing systems)
đ m s l n ế ố ầ xuất hiện c aủ m iỗ từ trong tài liệu ngo iạ trừ các từ stopword.Có những công cụ tìm ki mế còn phân bi tệ cả chữ hoa lẫn chữ thường
Nh ngữ khó khăn khi tìm theo từ khóa: Search engine thường gặp rắc r iố với nh ngữ t ừ đ ngồ âm khác nghĩa hoặc những từ có các biến thể khác nhau
do có ti nề tố và hậu t ố Bên cạnh đó search engine cũng không thể trả về các tài liệu ch aứ những từ đ ngồ nghĩa v iớ các từ trong câu truy v n.ấ
Trang 23ho cặ nh ngữ cụm từ có nghĩa đ tặ gần nhau trong tài liệu thì cho rằng chúng đang ám chỉ m tộ ch ủ đề nào đó.
3.2.3.1.3. Các chiến l ượ tìm kiếm c
M iọ ngườ đều nhận xét rằng web là n ii ơ mà ta luôn có đượ thông tin về cbất kỳ chủ đề gì. Nh ngư kết quả cu iố cùng thườ là lãng phí th ing ờ gian cho
Trang 24Nếu phạm vi quan tâm c aủ ta quá r ng,ộ ta nên xem xét các thư m cụ web (web directory).
Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc l aự ch nọ m tộ công cụ tìm kiếm thích h p.ợ
Ví d :ụ chỉ v iớ từ khóa “đi n tho i”ệ ạ ta có thể có “đi n tho i nh tệ ạ ậ
cườ ”, “đi n tho i sky”,ng ệ ạ “đi n tho i oppoệ ạ ”, “đi n tho i sam sungệ ạ ”
Google PageRank đư cợ chia làm 10 bậc và đượ biểu hi nc ệ bằng vạch màu xanh trên nền trắng: Giá trị c aủ m iỗ trang web theo Google PageRank tăng dần từ 1 đến 10
Thuật ng PageRank™ ữ là m tộ thương hiệu đư cợ bảo h ộ c aủ Google, do Larry Page và Sergey Brin phát triển tại trường đại h cọ Stanford c aủ Mỹ trong
m tộ dự án nghiên cứu về công cụ tìm kiếm năm 1995
3.3.1.2. Google PageRank đem l i ạ l i ợ ích gì ?
Google PageRank hiện nay được coi là chỉ số đáng tin cậy đánh giá mức
độ quan tr ng ọ m iỗ trang web. M tộ trang web có chỉ số Google PageRank cao
Trang 25sẽ đem l iạ ấn tượng đáng tin cậy cho khách truy cập, điều này đặc biệt có ý nghĩa với các website kinh doanh thương mại điện tử.
Google PageRank ảnh hưởng tr cự tiếp tới vị trí hiển thị c aủ m iỗ trang web khi cạnh tranh thứ hạng hiển thị trong danh sách kết quả tìm ki mế c aủ Google. M tộ trang web có PageRank cao dễ xuất hiện trên đầu danh sách k tế quả tìm kiếm c aủ Google hơn
3.3.1.3 Tăng Google PageRank như thế nào?
Về cơ bản, theo các chuyên gia c aủ Google: "Không được sử d ngụ các phương pháp giả tạo, hãy tạo ra các trang web cho mọi người chứ không phải cho các công cụ tìm kiếm"
Tăng th ứ hạng trong danh sách k t qu ế ả tìm kiếm c a Google ủ là phương pháp tăng PageRank r t hiấ ệu quả vì v a từ ăng độ phổ biến các trang web c aủ bạn, v aừ tăng lượng khách truy cập
Cấu trúc website, cấp b cậ cần rõ ràng, n iộ dung thông tin cần phong phú, hữu ích. Website không đượ ch ac ứ các liên k tế lỗi, các l iỗ HTML, l iỗ câu lệnh.Đăng ký website vào các danh bạ uy tín cũng như các website ch tấ lượng khác để tăng độ phổ biến
3.3.2. Alexa Rank
3.3.2.1. Alexa Rank là gì ?
Alexa Rank là thướ đo m cc ứ độ phổ biến c aủ các website. Chỉ số thứ hạng c aủ mỗi website đượ Alexa k tc ế hợp đánh giá từ 2 yếu tố là: số trang web người dùng xem (Page Views) và số người truy cập website (Reach)
3.3.2.2. Alexa Rank mang l i ạ lợi ích gì?
Chỉ số thứ hạng Alexa c aủ m tộ website cao đượ hiểu là website đó có cđông ngườ truy cập, phần nào đem lại cho website ấn tượng s ngi ố đ ngộ và uy tín
Trang 26Trong thị trường quảng cáo trực tuyến, Alexa Rank có thể đượ sử d ngc ụ
để đánh giá giá trị quảng cáo
Chỉ số Alexa Rank là thư cớ đo ghi nhận thành quả lao đ ngộ c aủ các webmaster với c ngộ đ ngồ và là m tộ công cụ rất h uữ ích giúp các webmaster quản trị website hiệu quả
3.3.2.3. Tăng Alexa Rank như thế nào?
Tiến hành các chiến d chị quảng bá website định kỳ nh mằ thường xuyên thu hút khách truy cập website, tăng cao chỉ số Reach
Trong website, nên có các phần thông tin có giá tr cị ao, c pậ nh tậ đ thu hútể khách hàng thường xuyên quay lại website, tăng Page views, Traffic
Bố trí n iộ dung, cấu trúc website sao cho thu nhận được thật nhiều cú nhấp chu tộ c a ủ khách truy cập để tăng Page views nhưng vẫn mang l iạ cảm giác tho iả mái, tiện lợi
3.4. TÌM HIỂU VỀ SEO
Theo th ngố kê c aủ tổ ch cứ Verisign, trong Q1 năm 2010 đã có thêm 1 triệu đ aị ch ỉ Internet, nâng t ngổ s đ aố ị chỉ Internet trên thế gi iớ lên trên 193 triệu và s lố ượng này s ẽ không ng ngừ tăng lên đ ngồ nghĩa với vi cệ có bằng đó
đ aị chỉ website đã hoặc sẽ hoạt đ ngộ trên m ng.ạ
Trang 27Vi cệ thi tế kế xong m tộ website cũng gi ngố như vi cệ ch nọ và mua đượ cvật liệu để xây nhà từ nh ngữ c aữ hàng vật liệu uy tín mà thôi. Thiết kế m tộ website đẹp là do đ iộ ngũ thi tế kế và xây dựng; còn vi cệ website đó có làm ra tiền hay không thì phần lớn lại phụ thu cộ vào cách mà webmaster quảng cáo và khai thác website đó như thế nào ? Như vậy, câu h iỏ được đ tặ ra là: làm thế nào để quảng cáo website t iớ người dùng ?
Có rất nhiều cách để bạn đ aư website c aủ mình đến với người dùng như
là quảng cáo trên ti vi, báo chí, quảng cáo tờ rơi, làm h iộ thảo… M iỗ cá nhân và doanh nghiệp ch nọ m tộ cách quảng bá khác nhau. Nh ngư m tộ cách vô cùng hiệu quả mà bất kỳ website nào cũng phải làm đó là t iố uư hóa công cụ tìm kiếm hay còn g iọ là SEO. Như vậy:
Trang 28Các công cụ tìm kiếm hiển thị một số dạng danh sách trong trang kết quả tìm kiếm (SERP) bao gồm danh sách trả tiền, danh sách quảng cáo, dánh sách trả tiền theo click và danh sách tìm ki mế miễn phí.
M cụ tiêu c aủ SEO chủ yếu hướng tới việc nâng cao thứ hạng c aủ danh sách tìm kiềm miễn phí theo m tộ số từ khóa nh mằ tăng lượng và ch tấ
c aủ khách viếng thăm đến trang
SEO đôi khi là m tộ dịch vụ đ cộ lập hay là m tộ phần c aủ dự án tiếp thị
và có thể rất hi u ệ quả ở giai đoạn phát triển ban đầu và giai đoạn thi tế kế website. Hiện nay, nhận th cứ c aủ người quản trị website t iạ Vi tệ Nam nói riêng và thế gi iớ nói chung nhận biết vi cệ t iố ưu hóa website để các máy tìm kiếm trỏ t iớ r tấ ít. Ngườ sử d ngi ụ không ý th cứ được t mầ quan tr ngọ c aủ vi cệ
t i ố ư hóa website, hoặc làm các phu ươ th cng ứ để các máy tìm kiếm trỏ đến. Hiện trên m ngạ Internet có 3 công cụ tìm kiếm hữu hiệu nh tấ và phổ biến nhất:
Yahoo
Bing
Hiện nay, nhận th cứ c aủ ngư iờ quản trị website tại Việt Nam nói riêng
và thế giới nói chung nhận biết việc t iố uư hóa website để các máy tìm ki mế trỏ t iớ rất ít. Người sử d ngụ không ý th cứ đượ t mc ầ quan tr ngọ c aủ vi cệ t iố u
ư hóa website, ho cặ làm các phương th cứ để các máy tìm kiếm trỏ đến.SEO
có thể coi như là m tộ kỹ thuật, m tộ bí quyết th cự sự đ iố với m iỗ người quản tr ,ị xây dựng website hay đơn thuần là người làm trong lĩnh v cự truyền thông
3.4.2. T i ạ sao c n ầ SEO?
Đại đa số l uư lượng truy cập đến với các website hiện nay đều từ các
bộ máy tìm kiếm lớn như : Google, Yahoo, Bing… Nếu website không được
Trang 29tìm thấy bởi các công cụ tìm kiếm ho cặ n iộ dung không nằm trong cơ sơ dữ liệu c aủ các bộ máy tìm kiếm thì đó chính là m tộ thảm h aọ nếu công ty bạn đang kinh doanh online ho cặ có giao dịch tr cự tuyến hoặc có đi chăng n aữ
nh ng k t qu tìm ki m luôn n m trang 3,4,5…tr đi thì cũng coi nh th tư ế ả ế ằ ở ở ư ấ
b i.ạ
M tộ ví dụ nh :ỏ website kinh doanh n iộ thất và…cứ m iỗ “khách hàng tiềm năng” lên Google, Bing gõ từ khóa tìm kiếm: “đồ n iộ thất giá r ”ẻ thì k tế quả truy vấn đầu tiên đập vào m t ắ họ là website c aủ bạn. Sau đó, khả năng
“khách hàng tiềm năng” trở thành ”khách hàng thân thiết” sẽ cao hơn các đ iố thủ khác, và dĩ nhiên doanh số tăng theo
Làm SEO hiện t iạ với thị trường phát triển mạnh và liên t cụ như hiện nay
là điều mà các trang web nên làm và phải làm, hãy bắt đầu ngay vì không bao giờ SEO là quá mu n.ộ
M tộ câu h iỏ khác được đặt ra: “Tại sao các công cụ tìm ki mế không thể tìm thấy website c aủ tôi nếu không có sự trợ giúp c aủ SEO?”
Trang 30Thời đ i toànạ cầu hóa đã biến bất kỳ môi trường làm việc nào cũng mang tính cạnh tranh, và thế giới o ả Khi có SEO tham gia vào công vi cệ này, nó sẽ giúp website bạn tăng th hứ ạng trên các công c ụ tìm cũng không ngoại lệ.Nh ngữ website nào đã và đang quan tâm đến SEO thì đã có 1 l iợ thế h nơ so với đ iố thủ c a ủ mình trong vi cệ giành l yấ người dùng.
Trang 31CHƯƠNG 4. NG D NGỨ Ụ
Ở chương trư c,ớ chúng tôi đã trình bày nguyên lý ho tạ đ ng,ộ các nguyên lý thu thập thông tin cũng như Index m tộ trang web lên bộ máy tìm kiếm. T iạ chư ngơ này, chúng tôi sẽ áp d ngụ những nguyên t c v lý ắ ề thuyết đó vào trang web ToanCauMobile.vn đ gể iúp cho trang web có v ịtrí cao khi người dùng truy vấn. N iộ dung chương 4 không nêu rõ t ngừ bướ xây d ngc ự website
d ch v nhu c u mua hàng và h n h t là phù h p v giá c và ch t lị ụ ầ ơ ế ợ ề ả ấ ượng s nả
ph m mà công ty cung c p.ầ ấ
4.1.2. Đ i th c nh tranh và h ố ủ ạ ướ ng đi c a ToanCauMobile.vn ủ
Đ i th c nh tranh c a website ToanCauMobile.vn g m có nh ng trangố ủ ạ ủ ồ ư web sau:
FPT Shop và Th gi i di đ ng là 2 website c nh tranh l n nh t ,2 trangế ớ ộ ạ ơ ấ này l n m nh và đớ ạ ược hình thành t lâu đc h tr cho khách hàng tr c tuy nừ ỗ ợ ự ế khá t t và úy tín lâu năm,ngu n tin t c d li u phong phú.Nên vi c l a ch nố ồ ứ ữ ệ ệ ự ọ
m t hộ ướng đi đúng đ n và riêng bi t cho ToanCau/Mobile.vn là m t đi uắ ệ ộ ề quy t đ nh đ i v i s phát tri n c a trang web, do đó hế ị ố ớ ự ể ủ ướng phát tri n c aể ủ trang web ph i mang tính riêng bi t, nh m vào nhu c u th c t c a khách hàng.ả ệ ắ ầ ự ế ủ