Các kỹ thuật tìm kiếm Tìm kiếm thông dụng nhất : Thí dụ: www.google.com Các kỹ thuật tìm kiếm nâng cao Sử dụng dấu ngoặc kép “…” để tìm chính xác Sử dụng dấu + hoặc – đã trở nên q
Trang 1Một số kỹ thuật
trong quá trình nghiên cứu
TRẦN HOÀI NAM
E-mail: namdhtm@yahoo.com Web: http://namdhtm.co.nr
Trang 2• Tìm kiếm và thu thập thông tin
• Kỹ thuật thao tác với dữ liệu
Trang 3Các mối quan hệ
Các nguồn thông tin truyền thống
(Thư viện, báo chí, tài liệu tham khảo…)
Mạng Internet Thông tin đến từ đâu ?
Trang 4Các công cụ tìm kiếm thông thường
MSN
…
Làm thế nào để tìm được các thông tin cần thiết ?
Website nước ngoài
Website trong nước
Trang 5Các kỹ thuật tìm kiếm
Tìm kiếm thông dụng nhất :
Thí dụ: www.google.com
Các kỹ thuật tìm kiếm nâng cao
Sử dụng dấu ngoặc kép “…” để tìm chính xác
Sử dụng dấu (+) hoặc (–)
đã trở nên quá thông dụng mà Google có xu hướng
quan đến tình yêu thay vì liên quan đến cà chua.
(Nhớ loại bỏ các khoảng trống trước và sau dấu +,-)
Trang 6Các kỹ thuật tìm kiếm với
Tìm kiếm theo phân loại: : Kích chuột vào phím Thư mục trên trang chủ của Google để mở thư mục của Google Sau đó chọn phân loại cần quan tâm.
Tìm kiếm các website liên quan : Dùng câu lệnh related
trước URL của một website, để tìm các website có nội dung tương tự website này, thí dụ
related
related:ebusiness.mit.edu nx website liên quan kinh doanh điện tử
Tìm các website có liên kết tới website mình quan tâm :
Dùng câu lệnh link trước một website, thí dụ
link
link:ecommerce.mit.edu/forum/ -> các website có liên kết trỏ tới
Website ecommerce.mit.edu/forum/
Tìm theo một chủ đề nhất định :
Dùng lệnh allinurl:e-commerce để nhận được danh sách website có allinurl
cụm từ “e-commerce” trên địa chỉ URL
Trang 7 Các kỹ thuật với
Tìm kiếm trên một website cụ thể :
Gõ e-commerce site:www.stanford.edu để tìm các thông tin về TMĐT trên webpage của Trường Đại học Tổng hợp Stanford
Khôi phục các webpage chết: : Đối với các trang web chết (thông báo lỗi 404 – không tìm thấy trang web) Bấm
Cached tại phía cuối của mỗi phần mô tả một địa chỉ
Google để khôi phục những nội dung đã từng tồn tại.
Tìm kiếm Ảnh hoặc tìm kiếm các Nhóm tin tức (nhóm thảo luận Usenet): Bấm phím Hình ảnh hoặc phím Nhóm tin trên trang chủ Google.
Thông tin đưa ra càng nhiều, kết quả càng chính xác :
Thí dụ: “e-commerce management” “syllabus” “university program”
Cá nhân hoá Google :
www.google.com/preferences đặt các lựa chọn cho riêng mình
Trang 8 Tìm kiếm dưới tầng sâu của Web (Deep Web)
Những vấn đề trong tìm kiếm thông tin:
• Theo Công ty nghiên cứu thị trường trực tuyến NPD ( www.npd.com ) 85%
số người tìm kiếm thông tin trực tuyến là thông qua các công cụ tìm kiếm; Tuy nhiên, 85% trong số người được hỏi tỏ thái độ thất vọng, cho rằng họ không nhận được chính xác những gì mình cần.
• Hiện có hai nguyên tắc tìm kiếm thông tin:
người truy cập, từ đó lần tới các trang thông tin theo các siêu liên kết có chứa từ khoá Qui trình này lặp đi lặp lại tương tự sóng nước làn trên mặt hồ từ một tâm
Trên bề mặt Web hiện có khoảng 2,5 tỷ văn bản và tăng với tốc độ 7,5 triệu văn
Tuy nhiên, kết quả thu được không sát với yêu cầu tìm kiếm do "sóng tìm kiếm" lan ra quá xa các cụm từ khoá ban đầu.
được nhiều người vào hơn cả, có nội dung phù hợp từ khoá tìm kiếm sẽ được ưu tiên liệt kê trong danh sách tìm kiếm
Tuy nhiên, thường bỏ qua các văn bản có ít đường liên kết tới.
• Tìm thông tin chính xác, đầy đủ ở những kho thông tin công cộng đã khó, tìm thông tin ở những “thư mục cá nhân” của những người không muốn phổ biến tài nguyên của mình trên mạng càng khó hơn.
Trang 9 Tìm kiếm dưới tầng sâu của Web (Deep Web)
• Năm 1994, TS Jill Ellsworth (Mỹ) là người đầu tiên đưa ra khái niệm “Web
vô hình” (Invisible Web) để chỉ những nội dung thông tin không thể bị phát hiện thông qua các công cụ tìm kiếm thông thường Một thời gian sau
Invisible Web được đổi thành Deep Web
Thông tin của Deep Web gồm những gì: 12 hình thức
1. Các cơ sở dữ liệu phân loại theo chủ đề (54%)
2. Website nội bộ: Cơ sở dữ liệu dưới dạng “tìm kiếm được” (13%)
3. Kho lưu trữ văn bản (11%)
4. Thông tin lưu trữ trong quá trình kinh doanh trực tuyến của các
công ty (5%)
5. Tài liệu mật (5%)
6. Cổng dịch vụ: CSDL, nơi lưu trữ danh mục hàng hoá (3%)
7. Thư viện: CSDL ở thư viện của các trường đại học trên TG (2%)
8. Trang trắng, Trang vàng: thông điệp của các cá nhân, tập thể (2%)
9. Website thống kê, tính toán, phiên dịch (2%)
10. Các kiểu biểu mẫu, đơn từ… (1%)
11. CSDL chứa thông điệp và chat trực tuyến (1%)
12. Thông tin tìm kiếm qua các công cụ tìm kiếm thông thường (1%)
Trang 10Một số thống kê về Deep Web
Trang 11 Tìm kiếm dưới tầng sâu của Web (Deep Web)
Deep Web chứa các thông tin gì:
• Thông tin về các hoạt động khoa học nhân văn (13,5%)
• Nội dung tin tức và truyền thông (12,2%)
• Mạng, máy tính (6,9%)
• Nghệ thuật (6,6%)
• Kinh doanh (5,9%)
• Y tế, sức khoẻ (5,5%)
• Thông tin cá nhân – doanh nghiệp (4,9%)
• Giáo dục (4,3%)
• Thông tin tuyển dụng (4,1%)
• Thông tin chính phủ (3,9%)
• Thể thao (3,5%)
• Du lịch (3,4%)
• Lĩnh vực chế tạo máy (3,1%)
• Mua bán (3,2%)
• Nông nghiệp (2,7%); Còn lại là các lĩnh vực khác
Trang 12 Tìm kiếm dưới tầng sâu của Web (Deep Web)
Các đặc tính của Deep Web : (Nguồn: BrightPLanet, Inktomi)
• Kích cỡ một văn bản thuộc Deep Web có dung lượng TB:
13,7-19,7 KB, nhỏ hơn 27% so với dung lượng một tài liệu trên bề mặt
• Chất lượng thông tin phong phú gấp hàng triệu lần
• Càng ở sâu, hàm lượng thông tin càng lớn
- Một website ở bề mặt chứa một vài hoặc vài chục hồ sơ dữ liệu
- Một website ở lớp giữa chứa khoảng 4.950 hồ sơ
- Một website ở lớp sâu nhất trung bình chứa 5,43 triệu hồ sơ
• Số siêu liên kết của 1 trang web ở lớp sâu nhiều gấp đôi siêu liên kết của 1 trang web trên bề mặt (6.2000 : 3.700)
Nhưng ở bề mặt lại lớn hơn lớp giữa (83 : 66)
• Tốc độ phát triển về số lượng của website Deep web nhanh hơn nhiều so với các website trên mặt Web
• Tuy nhiên, vì Deep Web quá rộng lớn nên tìm kiếm thông tin ở
Deep Web cũng tương tự “mò kim đáy bể”
Giải pháp là gì ?
Trang 1315 website lớn nhất trong Deep Web
Trang 14 Tìm kiếm dưới tầng sâu của Web (Deep Web)
Công cụ tìm kiếm trong Deep Web:
• LexiBot là một trong những công cụ hoàn hảo nhất: http://www.lexibot.com LexiBot
Các công cụ tìm kiếm khác:
• CompletePlanet.com: http://www.completeplanet.com/
• ProFusion http://www.profusion.com/ ProFusion
• WebData.com: http://www.webdata.com WebData.com
cổng dữ liệu, chuyên tìm kiếm, sắp xếp, phân loại các CSDL trực tuyến theo
sự xếp hạng và đánh giá của các nhà quản trị WebData.
• Library of Congress: http://www.lcweb.loc.gov hoặc Library of Congress:
http://www.lcweb.loc.gov/z3950/gateway.html#other
• AlphaSearch: AlphaSearch http://www.calvin.edu/library/searreso/internet/as/ gồm các website “cổng vào” (gateway) thu thập và sắp xếp các website theo từng chủ
đề, khá thân thiện
• Big Hub: Big Hub http://www.thebighub.com
• Infomine Multiple Database Search : http://infomine.ucr.edu/search.phtml
“công cụ tìm kiếm dành cho các học giả”: tập hợp các tạp chí, ấn phẩm điện
tử, các công trình khoa học, các đề tài nghiên của…
• Lycos Directory: http://dir.lycos.com/Reference/Searchable_Databases/ Lycos Directory
• Librarians' Index to the Internet: http://lii.org Librarians' Index to the Internet
Trang 15Giới thiệu công cụ tìm kiếm mới
• Tìm kiếm tài liệu trên máy tính
• Tìm kiếm thông tin trên Internet
Trang 16• Tìm kiếm và thu thập thông tin
• Kỹ thuật thao tác với dữ liệu
Trang 17Thông tin thường ở những dạng nào ?
Số hoá (văn bản, tài liệu trên máy tính)
Tài liệu viết tay
Văn bản in ấn (trên giấy)
Trang 18Xử lý văn bản in ấn trên giấy
bản trên máy tính (số hoá)
Đánh máy trực tiếp:
Ưu điểm: Phương pháp truyền thống, đơn giản Ưu điểm
Nhược điểm: Mất thời gian, công sức và sai lỗi chính tả Nhược điểm
Nên áp dụng kỹ thuật để tiết kiệm thời gian ?
Sử dụng phương pháp quét và nhận dạng văn bản:
Ưu điểm: Nhanh, không tốn nhiều công, có thể phối hợp các kỹ thuật Ưu điểm
khác để tăng độ chính xác của tài liệu đích
Nhược điểm: Phải đầu tư thiết bị, phụ thuộc vào thiết bị và phải nắm Nhược điểm
được cách thức thao tác
Trang 19Phương pháp quét và nhận dạng văn bản
Yêu cầu thiết bị: Máy tính (PC), máy quét (Scanner) và… tài liệu
Phần mềm: Phần mềm nhận dạng tiếng Việt (VnDoc)
Các bước thao tác:
1. Lắp đặt thiết bị và cài đặt phần mềm
2. Phân loại tài liệu:
Tiếng nước ngoài: Thực hiện bước 3 Tiếng nước ngoài
Tiếng Việt: Sang bước 4 Tiếng Việt
khi cài đặt máy quét) Nếu là tiếng Anh, có thể dịch Anh – Việt bằng phần mềm phiên dịch Anh – Việt chuyển sang bước 5
4 Thao tác với tài liệu tiếng Việt
5 Đặt tên và lưu văn bản Word
6 Kết thúc
Một số lưu ý:
Tài liệu Scan phải rõ ràng, giấy trắng, mực đen Giữ sạch, không gạch xoá
Tốt nhất là Font chữ không chân
VnDoc cũng có thể “học” nhận dạng các lỗi
VnDoc có nhiều tiện ích khác để hỗ trợ cho người sử dụng