Một số kỹ thuật tìm kiếm & xử lý thông tin trong quá trình nghiên cứu

Các kỹ thuật tìm kiếm Tìm kiếm thông dụng nhất : Thí dụ: www.google.com  Các kỹ thuật tìm kiếm nâng cao  Sử dụng dấu ngoặc kép “…” để tìm chính xác  Sử dụng dấu + hoặc – đã trở nên q

Trang 1

Một số kỹ thuật

trong quá trình nghiên cứu

TRẦN HOÀI NAM

E-mail: namdhtm@yahoo.com Web: http://namdhtm.co.nr

Trang 2

• Tìm kiếm và thu thập thông tin

• Kỹ thuật thao tác với dữ liệu

Trang 3

Các mối quan hệ

Các nguồn thông tin truyền thống

(Thư viện, báo chí, tài liệu tham khảo…)

Mạng Internet Thông tin đến từ đâu ?

Trang 4

Các công cụ tìm kiếm thông thường

 MSN

 …

Làm thế nào để tìm được các thông tin cần thiết ?

Website nước ngoài

Website trong nước

Trang 5

Các kỹ thuật tìm kiếm

 Tìm kiếm thông dụng nhất :

Thí dụ: www.google.com

 Các kỹ thuật tìm kiếm nâng cao

 Sử dụng dấu ngoặc kép “…” để tìm chính xác

 Sử dụng dấu (+) hoặc (–)

đã trở nên quá thông dụng mà Google có xu hướng

quan đến tình yêu thay vì liên quan đến cà chua.

(Nhớ loại bỏ các khoảng trống trước và sau dấu +,-)

Trang 6

Các kỹ thuật tìm kiếm với

Tìm kiếm theo phân loại: : Kích chuột vào phím Thư mục trên trang chủ của Google để mở thư mục của Google Sau đó chọn phân loại cần quan tâm.

Tìm kiếm các website liên quan : Dùng câu lệnh related

trước URL của một website, để tìm các website có nội dung tương tự website này, thí dụ

Tìm các website có liên kết tới website mình quan tâm :

Dùng câu lệnh link trước một website, thí dụ

link

link:ecommerce.mit.edu/forum/ -> các website có liên kết trỏ tới

Website ecommerce.mit.edu/forum/

Tìm theo một chủ đề nhất định :

Dùng lệnh allinurl:e-commerce để nhận được danh sách website có allinurl

cụm từ “e-commerce” trên địa chỉ URL

Trang 7

 Các kỹ thuật với

 Tìm kiếm trên một website cụ thể :

Gõ e-commerce site:www.stanford.edu để tìm các thông tin về TMĐT trên webpage của Trường Đại học Tổng hợp Stanford

 Khôi phục các webpage chết: : Đối với các trang web chết (thông báo lỗi 404 – không tìm thấy trang web) Bấm

Cached tại phía cuối của mỗi phần mô tả một địa chỉ

Google để khôi phục những nội dung đã từng tồn tại.

 Tìm kiếm Ảnh hoặc tìm kiếm các Nhóm tin tức (nhóm thảo luận Usenet): Bấm phím Hình ảnh hoặc phím Nhóm tin trên trang chủ Google.

 Thông tin đưa ra càng nhiều, kết quả càng chính xác :

Thí dụ: “e-commerce management” “syllabus” “university program”

 Cá nhân hoá Google :

www.google.com/preferences  đặt các lựa chọn cho riêng mình

Trang 8

 Tìm kiếm dưới tầng sâu của Web (Deep Web)

 Những vấn đề trong tìm kiếm thông tin:

• Theo Công ty nghiên cứu thị trường trực tuyến NPD ( www.npd.com ) 85%

số người tìm kiếm thông tin trực tuyến là thông qua các công cụ tìm kiếm; Tuy nhiên, 85% trong số người được hỏi tỏ thái độ thất vọng, cho rằng họ không nhận được chính xác những gì mình cần.

• Hiện có hai nguyên tắc tìm kiếm thông tin:

người truy cập, từ đó lần tới các trang thông tin theo các siêu liên kết có chứa từ khoá Qui trình này lặp đi lặp lại tương tự sóng nước làn trên mặt hồ từ một tâm

Trên bề mặt Web hiện có khoảng 2,5 tỷ văn bản và tăng với tốc độ 7,5 triệu văn

 Tuy nhiên, kết quả thu được không sát với yêu cầu tìm kiếm do "sóng tìm kiếm" lan ra quá xa các cụm từ khoá ban đầu.

được nhiều người vào hơn cả, có nội dung phù hợp từ khoá tìm kiếm sẽ được ưu tiên liệt kê trong danh sách tìm kiếm

 Tuy nhiên, thường bỏ qua các văn bản có ít đường liên kết tới.

• Tìm thông tin chính xác, đầy đủ ở những kho thông tin công cộng đã khó, tìm thông tin ở những “thư mục cá nhân” của những người không muốn phổ biến tài nguyên của mình trên mạng càng khó hơn.

Trang 9

• Năm 1994, TS Jill Ellsworth (Mỹ) là người đầu tiên đưa ra khái niệm “Web

vô hình” (Invisible Web) để chỉ những nội dung thông tin không thể bị phát hiện thông qua các công cụ tìm kiếm thông thường Một thời gian sau

Invisible Web được đổi thành Deep Web

 Thông tin của Deep Web gồm những gì: 12 hình thức

1. Các cơ sở dữ liệu phân loại theo chủ đề (54%)

2. Website nội bộ: Cơ sở dữ liệu dưới dạng “tìm kiếm được” (13%)

3. Kho lưu trữ văn bản (11%)

4. Thông tin lưu trữ trong quá trình kinh doanh trực tuyến của các

công ty (5%)

5. Tài liệu mật (5%)

6. Cổng dịch vụ: CSDL, nơi lưu trữ danh mục hàng hoá (3%)

7. Thư viện: CSDL ở thư viện của các trường đại học trên TG (2%)

8. Trang trắng, Trang vàng: thông điệp của các cá nhân, tập thể (2%)

9. Website thống kê, tính toán, phiên dịch (2%)

10. Các kiểu biểu mẫu, đơn từ… (1%)

11. CSDL chứa thông điệp và chat trực tuyến (1%)

12. Thông tin tìm kiếm qua các công cụ tìm kiếm thông thường (1%)

Trang 10

Một số thống kê về Deep Web

Trang 11

 Deep Web chứa các thông tin gì:

• Thông tin về các hoạt động khoa học nhân văn (13,5%)

• Nội dung tin tức và truyền thông (12,2%)

• Mạng, máy tính (6,9%)

• Nghệ thuật (6,6%)

• Kinh doanh (5,9%)

• Y tế, sức khoẻ (5,5%)

• Thông tin cá nhân – doanh nghiệp (4,9%)

• Giáo dục (4,3%)

• Thông tin tuyển dụng (4,1%)

• Thông tin chính phủ (3,9%)

• Thể thao (3,5%)

• Du lịch (3,4%)

• Lĩnh vực chế tạo máy (3,1%)

• Mua bán (3,2%)

• Nông nghiệp (2,7%); Còn lại là các lĩnh vực khác

Trang 12

 Các đặc tính của Deep Web : (Nguồn: BrightPLanet, Inktomi)

• Kích cỡ một văn bản thuộc Deep Web có dung lượng TB:

13,7-19,7 KB, nhỏ hơn 27% so với dung lượng một tài liệu trên bề mặt

• Chất lượng thông tin phong phú gấp hàng triệu lần

• Càng ở sâu, hàm lượng thông tin càng lớn

- Một website ở bề mặt chứa một vài hoặc vài chục hồ sơ dữ liệu

- Một website ở lớp giữa chứa khoảng 4.950 hồ sơ

- Một website ở lớp sâu nhất trung bình chứa 5,43 triệu hồ sơ

• Số siêu liên kết của 1 trang web ở lớp sâu nhiều gấp đôi siêu liên kết của 1 trang web trên bề mặt (6.2000 : 3.700)

Nhưng ở bề mặt lại lớn hơn lớp giữa (83 : 66)

• Tốc độ phát triển về số lượng của website Deep web nhanh hơn nhiều so với các website trên mặt Web

• Tuy nhiên, vì Deep Web quá rộng lớn nên tìm kiếm thông tin ở

Deep Web cũng tương tự “mò kim đáy bể”

 Giải pháp là gì ?

Trang 13

15 website lớn nhất trong Deep Web

Trang 14

Công cụ tìm kiếm trong Deep Web:

• LexiBot là một trong những công cụ hoàn hảo nhất: http://www.lexibot.com LexiBot

Các công cụ tìm kiếm khác:

• CompletePlanet.com: http://www.completeplanet.com/

• ProFusion http://www.profusion.com/ ProFusion

• WebData.com: http://www.webdata.com WebData.com

cổng dữ liệu, chuyên tìm kiếm, sắp xếp, phân loại các CSDL trực tuyến theo

sự xếp hạng và đánh giá của các nhà quản trị WebData.

• Library of Congress: http://www.lcweb.loc.gov hoặc Library of Congress:

http://www.lcweb.loc.gov/z3950/gateway.html#other

• AlphaSearch: AlphaSearch http://www.calvin.edu/library/searreso/internet/as/ gồm các website “cổng vào” (gateway) thu thập và sắp xếp các website theo từng chủ

đề, khá thân thiện

• Big Hub: Big Hub http://www.thebighub.com

• Infomine Multiple Database Search : http://infomine.ucr.edu/search.phtml

“công cụ tìm kiếm dành cho các học giả”: tập hợp các tạp chí, ấn phẩm điện

tử, các công trình khoa học, các đề tài nghiên của…

• Lycos Directory: http://dir.lycos.com/Reference/Searchable_Databases/ Lycos Directory

• Librarians' Index to the Internet: http://lii.org Librarians' Index to the Internet

Trang 15

Giới thiệu công cụ tìm kiếm mới

• Tìm kiếm tài liệu trên máy tính

• Tìm kiếm thông tin trên Internet

Trang 16

• Tìm kiếm và thu thập thông tin

• Kỹ thuật thao tác với dữ liệu

Trang 17

Thông tin thường ở những dạng nào ?

Số hoá (văn bản, tài liệu trên máy tính)

Tài liệu viết tay

Văn bản in ấn (trên giấy)

Trang 18

Xử lý văn bản in ấn trên giấy

bản trên máy tính (số hoá)

 Đánh máy trực tiếp:

 Ưu điểm: Phương pháp truyền thống, đơn giản Ưu điểm

 Nhược điểm: Mất thời gian, công sức và sai lỗi chính tả Nhược điểm

 Nên áp dụng kỹ thuật để tiết kiệm thời gian ?

 Sử dụng phương pháp quét và nhận dạng văn bản:

 Ưu điểm: Nhanh, không tốn nhiều công, có thể phối hợp các kỹ thuật Ưu điểm

khác để tăng độ chính xác của tài liệu đích

 Nhược điểm: Phải đầu tư thiết bị, phụ thuộc vào thiết bị và phải nắm Nhược điểm

được cách thức thao tác

Trang 19

Phương pháp quét và nhận dạng văn bản

 Yêu cầu thiết bị: Máy tính (PC), máy quét (Scanner) và… tài liệu

 Phần mềm: Phần mềm nhận dạng tiếng Việt (VnDoc)

 Các bước thao tác:

1. Lắp đặt thiết bị và cài đặt phần mềm

2. Phân loại tài liệu:

 Tiếng nước ngoài: Thực hiện bước 3 Tiếng nước ngoài

 Tiếng Việt: Sang bước 4 Tiếng Việt

khi cài đặt máy quét) Nếu là tiếng Anh, có thể dịch Anh – Việt bằng phần mềm phiên dịch Anh – Việt  chuyển sang bước 5

4 Thao tác với tài liệu tiếng Việt

5 Đặt tên và lưu văn bản Word

6 Kết thúc

 Một số lưu ý:

 Tài liệu Scan phải rõ ràng, giấy trắng, mực đen Giữ sạch, không gạch xoá

 Tốt nhất là Font chữ không chân

 VnDoc cũng có thể “học” nhận dạng các lỗi

 VnDoc có nhiều tiện ích khác để hỗ trợ cho người sử dụng

Tiêu đề	Một số kỹ thuật tìm kiếm & xử lý thông tin trong quá trình nghiên cứu
Tác giả	Trần Hoài Nam
Chuyên ngành	Khoa học Máy tính
Thể loại	Bài giảng

Định dạng
Số trang	19
Dung lượng	359,5 KB