Do đó khi mà ta tiến hành tìm kiếm trên các bộ máy hổ trợ tìm kiếm cũng phải phân loại, ưu tiên, phải phản xạ theo thói quen..., để đáp ứng được thông tin người dùng muốn tìm.. Nói thì đ
Trang 1LỜI GIỚI THIỆU
Đầu tiên em xin chân thành cảm ơn Thầy GS.TSKH Hoàng Kiếm đã tạo điều kiện cho em tìm hiểu về lịch sử các công nghệ liên quan tới vấn đề tri thức, cũng như vai trò to lớn của công nghệ tri thức trong giai đoạn hiện nay
Trong chuyên đề SEMINAR Công nghệ Tri Thức em thấy rất thích phần khai thác thông tin thông qua các bộ máy tìm kiếm
Tìm kiếm thông tin là một vấn đề có vẻ là đơn giản nhưng thực chất đây là một vấn đề lớn khi mà số lượng thông tin ngày càng nhiều và ngày càng trở nên đa dạng
Do đó khi mà ta tiến hành tìm kiếm trên các bộ máy hổ trợ tìm kiếm cũng phải phân loại,
ưu tiên, phải phản xạ theo thói quen , để đáp ứng được thông tin người dùng muốn tìm
Nói thì đơn giản nhưng để tìm được thông tin mình muốn là một vấn đề không phải dễ vì các hệ thống tìm kiếm không phải lúc nào cũng hiểu đầy đủ ý nghĩa của người muốn tìm kiếm thông tin Hơn nữa khi hiểu được nghĩa thì vấn đề là làm cách nào tìm tới thông tin chính xác mà người tìm kiếm cần, thậm chí không có thông tin trong hệ thống hay là phải nhờ một hệ thống tìm kiếm khác hỗ trợ cho mình
Như vậy cách thức tìm kiếm để có được thông tin mình cần là một vấn đề
rất có ý nghĩa Nên em quyết định chọn đề tài “cách thức tìm kiếm thông tin hiệu quả bằng tiếng Việt” nhằm phần nào khai thác các bộ máy tìm kiếm được hiệu quả hơn nhưng
cũng không làm mất thời gian của người tìm kiếm
Em xin cảm ơn thầy các thầy cô, phòng đào tạo sao đại học và đặc biệt là Thầy GS.TSKH Hoàng Kiếm đã tạo điều kiện cho em làm đề tài này
Trang 2TÓM TẮT TIỂU LUẬN
Tiểu luận được được trình bày qua hai phần chính:
Giới thiệu chung bộ máy tìm kiếm của google
Giới thiệu về hai phương pháp tìm kiếm để có được thông tin mình cần
MỤC LỤC
I Giới thiệu … 3
1 1 Giới thiệu về tiểu luận 3
1 2 Phân tích các yếu tố cơ bản trong tìm kiếm 4
1 3 Cách tiếp cận nâng cao độ chính xác và hiệu quả trong tìm kiếm 4
1 4 Dự định kết quả đạt được 5
II Giới thiệu về bộ máy tìm kiếm google 7
2 1 Giới thiệu về hệ thống tìm kiếm google
2 2 Các quy tắc tìm kiếm cơ bản với google
2 3 Nhận định về các yếu tố nâng cao hiệu quả tìm kiếm
III Tìm hiểu các phương pháp nâng cao độ chính xác và hiệu quả tìm kiếm 3 1 Các từ khóa theo cách truyền thống
3 2 Cách tiếp cận theo phương pháp tham lam và lọc bớt
3 3 Cách tiếp cận theo lĩnh vực, thể loại, ngành theo hệ thống phân cấp
3 4 Nhận xét về hiệu quả trong các cách tiếp cận
IV Tổng kết 14
4 1 Nhận xét, đánh giá
4 2 Tài liệu tham khảo
Trang 3Chương I Giới thiệu
1 1 Giới thiệu về tiểu luận:
Tiểu luận không đi sâu vào việc đánh giá hiệu quả của các phương pháp tìm kiếm
mà chỉ đi vào phân tích các yếu tố cơ bản giúp tìm kiếm hiệu quả trên google
Còn các phương pháp tìm kiếm được đề ra dựa vào các phương pháp mang tính khoa học như phương pháp vét cạn, phương pháp tham lam, phương pháp loại trừ,
1 2 Phân tích các yếu tố cơ bản trong tìm kiếm:
Lượng thông tin mà hệ thống sẵn sàng hay hệ thống tìm kiếm có đầy đủ thông tin không (có tích hợp các hệ thống tìm kiếm khác để đáp ứng thông tin đầy đủ)
Chất lượng của thông tin từ hệ thống
Mức độ chính xác của thông tin trả lời khi mà người dùng truy vấn
Mức độ thân thiện của các toán tử tìm kiếm và sự uyển chuyển của chúng
Thời gian trả về kết quả tìm kiếm
Phương pháp xử lý thông tin sơ bộ trước khi tìm kiếm
Một yếu tố không thể thiếu là: Nghĩ xem bạn đang muốn tìm kiếm thông tin gì
và bạn trông chờ từ ngữ hay cụm từ có thể xuất hiện trong kết quả tìm kiếm
1 3 Cách tiếp cận nâng cao độ chính xác và hiệu quả trong tìm kiếm:
Việc chọn lựa một hệ thống tìm kiếm tốt là hoàn toàn có thể (ví dụ google)
Như vậy yếu tố từ người dùng là quan trọng nhất, được thể hiện qua hai yếu tố:
Nghĩ xem bạn muốn tìm kiếm thông tin gì
Áp dụng các toán tử tìm kiếm gì (do hệ thống tìm kiếm hỗ trợ)
Vận dụng các phương pháp, hay chiến lược tìm kiếm gì là hợp lý để có được thông tin mình cần
1 4 Dự định kết quả đạt được:
Trình bày được chi tiết các toán tử tìm kiếm hữu ích của google
Đưa ra được các phương pháp tìm kiếm hiệu quả và có độ chính xác cao
Trang 4Chương II Giới thiệu về bộ máy tìm kiếm google
2 3 Giới thiệu về bộ tìm kiếm google:
Google là công cụ tìm kiếm thông tin phổ biến nhất hiện nay trên Internet Chúng
ta có thể nói Google hiện đang sở hữu từ 1 tỉ dến 1,5 tỉ người sử dụng dịch vụ.[6]
Theo thống kê của StatCounter, Google đang chiếm hơn 90% thị phần mảng tìm kiếm trên mạng của toàn thế giới.[6]
Mobile Search, mảng Google đang hoàn toàn “độc chiếm” Google là công cụ tìm kiếm mặc định của phần lớn các smartphone, trong đó có cả iPhone lẫn Android Tại phân khúc di động, Google hiện nắm giữ 97% thị phần.[6]
Hỗ trợ tìm kiếm trên 100 ngôn ngữ, kho dữ liệu của Google gồm trên 6 tỷ mục thông tin, bao gồm 4,28 tỷ trang web, 880 triệu hình ảnh và 845 triệu thông điệp Internet[5]
Nhưng phần lớn người dùng không tận dụng hết những ưu điểm của nó Phải chăng bạn mới chỉ gõ vào một hoặc hai từ khóa rồi chờ đợi những kết quả tốt nhất? Đó có thể là phương pháp tìm kiếm nhanh nhất, nhưng với hơn 3 tỷ trang web có trong chỉ mục của Google thì bạn sẽ phải nỗ lực rất lớn để tìm ra kết quả cần thiết trong số các trang tìm được [2]
2 2 Các quy tắc tìm kiếm cơ bản với google:
2 2.1 Các kỹ năng cơ bản: [3],[4]
kết quả
1 Từng từ đơn Cụm chứa
các từ đơn
Tìm các từ trong cụm
từ tính toán hiệu năng cao
tính toán hiệu năng cao
29.40 0.000
2 Nguyên cụm từ "cụm từ" Tìm chính xác các kết
quả có cụm từ "tính toán hiệu năng cao"
"tính toán hiệu năng
3 Nhất thiết phải +"cụm từ" Tìm các cài đặt của cài đặt +"tính toán 14.50
Trang 5có cụm từ tính toán hiệu năng
cao
hiệu năng cao" 0
4 Không có cụm
từ trong kế quả -"cụm từ" Tìm các cài đặt không liên quan tới tính toán
hiệu năng cao
cài đặt -"tính toán hiệu năng cao" 107.000.00
0
5 Đồng nghịa ~"cụm từ
cao"
~"tính toán hiệu năng cao"
122.0
00
6 Định nghịa define:"cụm
từ"
Tìm định nghịa của tính toán hiệu năng cao
define:"tính toán hiệu năng cao"
122.0
00
7 Thay thế cho
cụm từ bất kỳ
phần đầu là tính toán
và phần sau là năng cao
"tính toán * năng cao" 3.040
.000
8 Thay thế cho
ký tự
cao"
122.0
00
9 Toán tử hoặc OR Tìm "tính toán hiệu
năng cao" hay HPC "tính toán hiệu năng cao" OR HPC 93.100.000
10 Toán tử và AND Tìm "tính toán hiệu
năng cao" và "phần cứng"
Tìm "tính toán hiệu năng cao" AND
"phần cứng"
18.70
0
11 cụm từ có trong
một website
được chỉ định
"cụm từ":URL
Tìm kiếm tính toán hiệu năng cao có trong trang mediafire
"tính toán hiệu năng cao":www.mediafire
com
385
12 cụm từ có trong
loại tập tin chỉ
định
"cụm từ"
filetype:mở rộng của tập tin
Tìm kiếm các tài liệu toán hiệu năng cao được viết băng pdf
"tính toán hiệu năng cao" filetype:pdf
199
13 Tựa đề có cụm
từ
allintitle:"cụ
m từ"
Tìm các tựa đề có tính toán hiệu năng cao
allintitle:"tính toán hiệu năng cao"
26.10
0
14 Nội dung có
cụm từ intext:"cụm từ" Tìm trong nội dung cótính toán hiệu năng
cao
intext:"tính toán hiệu năng cao" 121.000
15 Tìm tựa đề có
cụm từ 1 và nội
dung có cụm từ
intitle:"cụm
từ 1" "cụm
từ 2"
Tìm tựa đề có install
và nội dung hpc
intitle: install hpc 88.30
0
Trang 616 Trên URL có
chứa cụm từ
allinurl:"cụ
m từ"
Tìm các đường dẫn có
từ hpc
0.000
17 Trên URL có
chứa cụm từ 1
và nội dung có
chứa cụm từ 2
inurl:"cụm
từ 1" "cụm
từ 2"
Tìm các đường dẫn có
từ hpc và nội dung là hardware
inurl:hpc hardware 742.0
00
18 Tìm kiếm cụm
từ trong tựa đề
và nguồn từ
URL
intitle:"cụm từ"
site:URL
Tìm tính toán hiệu năng cao trong các trang edu.vn
intitle:"tính toán hiệu năng cao" site:edu.vn
24.90
0
2 2.2 Tìm kiếm theo nhóm trên google: [3],[4]
http://support.google.com/websearch/bin/answer.py?
hl=en&answer=142143&topic=1221265&ctx=topic
Tìm trên bản đồ maps.google.com Tìm kiếm các thông tin trên bản đồ
videohp
Tìm kiếm thông tin theo dạng video
Tin tức thời sự support.google.com/
news/?hl=en
Tìm kiếm các tin tức thời sự
Tìm kiếm các cửa hàng sản
phẩm www.google.com/shopping Giúp tìm kiếm các sản phẩm và các cửa hàng có trên google
Tìm blog support.google.com/webmasters/bin/
answer.py?
hl=en&answer=70950
Tìm kiếm các blog
Học thuật scholar.google.com Giúp xác định các bài báo, bài tóm
tắc, các nội dung học thuật và tin học Ở đây không chỉ xác định các bài báo đang tìm mà còn cập nhật
Trang 7các nghiên cứu mới, và các bài báo liên quan giúp việc đào sâu tốt hơn
2 2.3 Tìm kiếm năng cao: [3],[4]
www.google.com.vn/advanced_search hay www.google.com/advanced_search
1 all these words Tìm kiếm theo nguyên một
2 any of these
words Tìm kiếm theo từ cụ thể trong cụm từ Tính toán hiệu năng cao 1,220,000,000
3 this exact word
or phrase Tìm kiếm theo nguyên một cụm từ cần độ chính xác Tính toán hiệu năng cao 95,300
4 none of these
words
Tìm kiếm kết quả không có các
từ trong cụm từ này
Tính toán hiệu năng cao
không có kết quả
5 numbers
ranging from Dãy số trang bắt đầu từ và kết thúc từ (Theo 1 và)+45 và 55 2.330
6 language Chọn ngôn ngữ của kết quả trả
7 region Chọn lãnh thổ có kết quả trả về (Theo 1 và)
8 last update Chọn khoản thời gian cập nhật
lần cuối của kết quả trả về + 24 giờ qua 11
9 site or domain Kết quả có trong các trang web
hay nên miền +edu.vn ( hay site:edu.vn) 36.000
10 terms appearing Vị trí mà các thuật ngữ xuất
hiện trong kết quả trả về
+ Trong vằn bản của trang( allintext:
"Tính toán hiệu năng cao" hay {allintitle:->tiêu đề, allinurl: -> trong url, allinanchor :->liên kết tới trang})
95.400
11 safeSearch Chọn chế độ tìm kiếm( không
lọc{off}, Trung
+ nghiêm ngặt 95.300
Trang 8bình{ moderate}, nghiêm ngặt{trict})
13 usage rights Quyền sử dụng của kết quả trả
Chú ý: Đề giảm bớt số lượng kết quả trả về người ta có thể kết hợp nhiều tiêu chí lại với nhau để có được kết quả như mong muốn
2 3 Nhận định về các yếu tố nâng cao hiệu quả tìm kiếm:
Người dùng cần phải xác định được mình cần tìm kiếm thông tin gì
Vận dụng các toán tử tìm kiếm mà hệ thống google đáp ứng
Thời gian mà thông tin được công bố lênh google
H1 Cách thức chung khi tìm kiếm thông tin.
Các thông tin
Cần tìm kiếm
Toán tử
tìm kiếm
Danh sách
điểm thời gian
Người tìm tin
Hệ thống tìm kiếm
Kết quả 1
Kế quả 2
Kết quả 3
…
Tìm kiếm 1 Tìm kiếm 2
Tìm kiếm 3
…
Kết quả tìm kiếm được thông tin ưng ý
Trang 10Chương III Tìm hiểu các phương pháp nâng cao độ
chính xác và hiệu quả tìm kiếm
3 1 Các từ khóa theo cách truyền thống :
3 1.1 Từ khóa theo lĩnh vực, chủ đề:
Giáo trình ( định nghĩa, giải thuật, định lý, cơ sở khoa học, phương pháp,
kỹ thuật, quy trình, cách thức, )
Tài liệu tham khảo, dự án, hướng dẫn Bài báo, tin tức, sự kiện
Công trình nghiên cứu
Sự kiện liên quan
Xu hướng hiện tại Thách thức hiện tại
3 1.2 Từ khóa theo phạm vi:
Trung tâm nghiên cứu : Khu vực và thế giới( vị trí) Trung tâm ứng dụng : Khu vực và thế giới
Trường đại học Trường THPT Kinh nghiệm thực tiễn Trung tấm hướng dẫn, chuyển giao ứng dụng Điểm thời gian, khoảng thời gian
3 1.3 Nhận xét chung:
Khi tiến hành làm hay nghiên cứu một vấn đề nào đó chúng ta thường có thao tác tìm kiếm thông tin về vấn đề trước sao đó mới xem xét có nên làm hay không Nên việc tìm kiếm có quy trình là rất cần thiết và sẽ tốn thời gian
Ví dụ : Muốn làm 1 vấn đề A.
3 2 Cách tiếp cận theo phương pháp tham lam và lọc bớt :
3 2.1 phương pháp:
Trang 11B1: Tìm kiếm tin tức, bài báo về vấn đề A
B2: Xu hướng hiện tại của vấn đề A
B3: Thách thức và khó khăn trong vấn đề A (Khu vực và thế giới)
B4: Đánh giá lại có nên làm vấn đề A hay không
B5: Tìm kiếm tài liệu về các phương pháp (kỹ thuật) hiện tại được áp dụng để làm vấn đề A
B5.1: Tìm kiếm cách tiếp cận phương pháp, kỹ thuật hợp lý B5.2: Có cách nào tối ưu các công đoạn trong phương pháp( kỹ thuật), tối
ưu các yếu tố cơ bản hay không
B6: Tiến hành lênh kế hoạch làm vấn đề A
B6.1 : Dự trù về thời gian B6.2: Dự trù về nguồng lực B6.3: Dự trù về kinh phí
3 2.2 Ví dụ người dùng muốn tìm kiếm thông tin về tính toán hiệu năng cao:
Tình hình tính toán hiệu năng cao Cách thức triển khai để có được tính toán hiệu năng cao
Nhu cầu về phần cứng Nhu cầu về phầm mềm
B1: "tính toán hiệu năng cao" có 122.000 kết quả B2 : "tính toán hiệu năng cao" +xu hướng * 2012 có 4.730 kết quả
( Ở đây đã áp dụng chiến lược tham lam trong quá trình tìm thông tin lĩnh vực)
B3: "tính toán hiệu năng cao" +"thách thức" + 2012 có 6.620 kết quả
Như vậy qua các kết quả tìm kiếm ta có được các thông tin như:
hệ thống siêu máy tính
HPOS : hệ điều hành hiệu năng cao
Phần mềm mô phỏng : ANSYS 12.0
ĐH Bách khoa HN sắp có hệ thống máy tính triệu đô B4: Tính toán hiệu năng cao là nhu cầu cấp thiết và cần phải nghiên cứu B5: "tính toán hiệu năng cao" + "yêu cầu phần cứng" có 9 kết quả hay "tính toán hiệu năng cao" + "yêu cầu phần mềm" có 5 kết quả Như vậy qua các kết quả tìm kiếm
Chip IBM tăng tốc 1000 lần cho siêu máy tính Windows HPC Server 2008
Điện toán đám mây
Trang 123 3 Cách tiếp cận theo lĩnh vực, thể loại, ngành theo hệ thống phân cấp:
3 3.1 phương pháp:
B1: "Lĩnh vực , chủ đề hay phạm vi " + "cụm từ cần tìm"
Từ bước này ta có thể áp dụng 3.2 để tối ưu tìm kiếm tiếp
3 3.1 một số ví dụ tìm kiếm:
"Bài báo" +"tính toán hiệu năng cao" có 1.700 kết quả
"Tin tức"+ "tính toán hiệu năng cao" có 25.200 kết quả
"Bài báo" + "Tin tức"+ "tính toán hiệu năng cao" có 3.000 kết quả
"article" + "news"+ "high performance computing" có 123.000
"trung tâm nghiên cứu"+ "toán hiệu năng cao" có 5.720 kết quả
H2 Cách thức tìm theo phân loại truyền thống
3 4 Nhận xét về hiệu quả trong các cách tiếp cận:
Nhình chung nếu chỉ đơn thuần tìm kiếm một cụm từ mà không có các từ khóa phân loại, phân cấp, hàng lâm thì số kế quả trả về rất lớn Nhưng nếu có hệ thống từ khóa phân loại, phân cấp, hàng lâm thì kết quả tìm kiếm sẽ hiệu quả và chính xác hơn
mà số lượng tin trả về ít, nhờ đó mà việc lọc thông tin theo cách thủ công sẽ đơn giản và
dễ dàng hơn
Các thông tin
Cần tìm kiếm
Toán tử
tìm kiếm
Danh sách
điểm thời gian
Người tìm tin
Hệ thống tìm kiếm
Kết quả 1
Kế quả 2
Kết quả 3
…
Tìm kiếm 1 Tìm kiếm 2
Tìm kiếm 3
…
Kết quả tìm kiếm được thông tin ưng ý
Danh sách từ
khóa theo phân
loại truyền thống
Trang 13Chương IV Tổng kết
4 1 Nhận xét, đánh giá:
Tìm kiếm dữ liệu chính xác là một vần đề rất phức tạp và không hề đơn giản Nhưng trong bài viết cũng trình bày được các yếu tố cơ bản giúp tìm kiếm tốt hơn
Dù bài viết chỉ mang tính chất chung chung, không thể đi sâu được vào vấn đề cần nghiên cứu Nhưng cũng vạch ra được cách thức tìm kiếm có số lượng thông tin ít hơn và cho kết quả trả lời chấp nhận được
4 2 Tài liệu tham khảo:
[1] GS.TSKH Hoàng Kiếm, “Các hệ thống thông tin tri thức hổ trợ sáng tạo”, trong chuyên đề seminar, ĐH Công Nghệ Thông Tin
[2] http://vi.wikipedia.org/wiki/Google
[3] http://support.google.com/websearch/?hl=en
[4] http://www.google.com.vn
[5] http://www.google.com/intl/vi/about/corporate/company/history.html
[6] http://genk.vn/c194n2011040810081844/theo-ban-google-lon-toi-chung-nao.chn