1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu và cách tìm kiếm thông tin trên Web Máy tìm kiếm

47 771 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 47
Dung lượng 1,97 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khai phá dữ liệu & Cách tìm kiếm thông tin trên Web Máy tìm kiếm... Khai phá dữ liệu1.1 Định nghĩa về khai phá dữ liệu Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự độn

Trang 1

Khai phá dữ liệu &

Cách tìm kiếm thông tin trên Web Máy tìm kiếm

Trang 2

I.Khai phá dữ liệu và khai phá

Trang 3

Khai phá dữ liệu &

Khai phá dữ liệu Web

Trang 4

1 Khai phá dữ liệu

1.1 Định nghĩa về khai phá dữ liệu

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.

Trang 5

1.2 Các kiểu khai phá dữ liệu

KHAI PHÁ DỮLIỆU VĂN BẢN (TEXTMINING)

KHAI PHÁ DỮLIỆU WEB (WEBMINING)

1 Khai phá dữ liệu

Trang 6

2.1 Tổng quan về khai phá dữ liệu Web

Sự phát triển nhanh chóng của mạng Internet và Intranet

đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web)

Lý do cho sự phát triển này là chi phí thấp để duy trì một trang Web trên Internet

Internet như là cuốn từ điển Bách khoa toàn thư với nội dung và hình thức đa dạng

2 Khai phá dữ liệu Web

Trang 7

2 Khai phá dữ liệu web

2.1 Tổng quan về khai phá dữ liệu Web

Khai phá dữ liệu trên Internet (khai phá web )

+ Khai phá được nội dung các trang văn bản,cũng như mối quan hệ giữa chúng

+ Khai phá Web là sự giao thoa giữa khai phá dữ liệu và Word-Wide-Web đang phát triển mạnh mẽ, gồm :

- Trí tuệ nhân tạo

- Truy xuất thông tin

- v.v.v

Trang 8

2 Khai phá dữ liệu web

2.1 Tổng quan về khai phá dữ liệu Web

Khai phá web như việc trích ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới World-Wide

Web

Trang 9

2 Khai phá dữ liệu web

2.1 Tổng quan về khai phá dữ liệu Web

Khai phá web chia thành 3 lĩnh vực chính: khai phá nội dung web (web content mining), khai phá cấu trúc web (web structure mining) và khai phá việc sử dụng web (web usage mining)

Trang 10

2 Khai phá dữ liệu web

2.2 Các bài toán được đặt ra trong khai phá Web

-Tìm kiếm các thông tin cần thiết: được gỉai quyết bởi

máy tìm kiếm

- Tạo ra các tri thức mới từ các thông tin có sẵn trên

Web: Cần lấy ra được thông tin cần thiết từ dữ lieeujWeb

- Cá nhân hóa các thông tin: Cung cấp thông tin cho nhà cung cấp thông tin trên Web đạt được mục đích của mình

- Tìm hiểu về những người tiêu thụ sản phẩm cũng như

về cá nhân người dùng

Trang 11

2 Khai phá dữ liệu web

2.3 Các lĩnh vực của khai phá dữ liệu Web

a Khai phá nội dung Web (Web content mining):

- Là quá trình xử lý để lấy ra các ri thức từ nội dung trang văn bản hoặc mô tả của chúng.

Có 2 chiến lược khai phá:

+ Khai phá trực tiếp nội dung trang.

+ Tìm kiếm nâng cao: Tìm kiếm trong kết qua: máy tìm kiếm

Trang 12

2 Khai phá dữ liệu web

2.3 Các lĩnh vực của khai phá dữ liệu Web

b Khai phá cấu trúc web (web structure mining).

-Nhờ vào kết nối giữa các cấu trúc Web.

-Là quá trình xử lý nhằm rút ra các tri thức từ cách

tổ chức và liên kết giữa các trag Web.

Trang 13

2 Khai phá dữ liệu web

2.3 Các lĩnh vực của khai phá dữ liệu Web

c Khai phá sử dụng web (web usage mining).

-Khai phá hồ sơ Web để lấy ra các thông tin trong

Trang 14

2 Khai phá dữ liệu web

Trang 15

2 Khai phá dữ liệu web

Trang 16

CÁCH TÌM KIẾM THÔNG

TIN TRÊN INTERNET

Trang 17

I Cách tìm kiếm thông tin

1. Các thông tin phổ biến trên mạng

- Tin tức, sự kiện

- Thông tin kinh tế

- Thông tin của chính phủ

- Thông tin học thuật

- Văn hóa đại chúng

- Hướng dẫn kỹ năng

- Giải trí

17

Trang 18

2 Đặc điểm của thông tin trên Internet

- Được bổ sung và cập nhật liên tục

- Tài liệu không được xử lý bằng bất kỳ

một hệ thống tiêu chuẩn nào

- Thông tin được tìm kiếm bằng nhiều

công cụ khác nhau

18

I Cách tìm kiếm thông tin

Trang 19

3 Có thể tìm được mọi thông tin trên

Internet?

- Có phải mọi thông tin đều miễn phí?

- Các thông tin khó tìm thấy trên

Trang 20

4 Các bước chuẩn bị trước khi bắt đầu dùng Internet tìm kiếm

-Thu hẹp chủ đề, chọn những từ quan trọng, những mục quan trọng.

Trang 21

5. Sử dụng công cụ, chức năng tìm kiếm

(search engine)

- Dễ sử dụng

- Mỗi search engine chỉ tìm một số lượng nhất

định các trang web, không phải tất cả các trang

- Mỗi search engine có những đặc điểm khác

nhau về tính năng cũng như diện bao quát

21

I Cách tìm kiếm thông tin

Trang 22

5. Sử dụng công cụ, chức năng tìm kiếm (search

Trang 23

5. Sử dụng công cụ, chức năng tìm kiếm

Trang 24

Tìm kiếm thông tin với…

24

Trang 26

Tìm kiếm thông tin với Google

1. Từ khoá:

- Từ có nghĩa rõ ràng, mang tính đặc thù

cao với thông tin cần tìm

- Tránh dùng từ đa nghĩa, bỏ các từ không

có nghĩa

- Sử dụng từ đồng nghĩa, từ có liên quan

khi cần thiết

26

Trang 28

Tìm kiếm thông tin với Google

2 Dấu ngoặc kép “ ”

Sử dụng dấu ngoặc kép khi muốn những

từ trong một cụm từ xuất hiện liền nhau trong một trang thông tin

“to be or not to be”

28

Trang 29

Tìm kiếm thông tin với

Google

- Sử dụng dấu + khi muốn tất cả từ khoá

được gõ vào ô tìm kiếm đều xuất hiện ở mỗi trang thông tin

“lịch bay” + “vietnam airlines”

- Sử dụng dấu - khi muốn loại bỏ bớt

những trang thông tin có chứa từ khoá nằm sau dấu –

scholarships + nursing -“uk colleges”

29

Trang 31

Tìm kiếm thông tin với Google

Trang 32

Tìm kiếm thông tin với Google

Sử dụng dấu “tương đương” khi muốn tìm cả những trang thông tin có chứa các từ liên quan hoặc từ đồng nghĩa với từ khóa

~“bệnh tiểu đường”

Sử dụng dấu ba chấm “ ” giữa hai con số để tìm “ ”

kiếm giá trị trong một phạm vi

32

Trang 33

… và một số thủ thuật khác

với Google

33

Trang 34

Tìm kiếm theo tệp tin

Trang 35

Định nghĩa từ và cụm từ

Cú pháp

define:cancer

35

Trang 36

Xem thời gian

Cú pháp

time new york

36

Trang 37

Xem thời tiết

Cú pháp

weather hue city

37

Trang 38

Máy tìm kiếm

Trang 39

1 Định nghĩa

Máy tìm kiếm là các hệ thống được xây dựng có khả năng tiếp nhận các yêu cầu tìm kiếm của người dùng (thường là một tập các

từ khóa), sau đó phân tích và tìm kiếm trong

cơ sở dữ liệu đã có sẵn và đưa ra các kết quả

là các trang Web cho người sử dụng

Trang 40

2

2 Cơ chế hoạt động của máy tìm kiếm

công nghệ truy xuất thông tin rất đa dạng Sự khác nhau giữa chúng liên quan tới vấn đề đánh chỉ số, cách biểu diễn văn bản, cách thức truy vấn và thực thi

Trang 42

2

2 Cơ chế hoạt động của máy tìm kiếm

Cách thức biểu diễn (representation):

Phần lớn các máy tìm kiếm sử dụng cách đánh chỉ số full text để nhanh chóng đo mức độ tương tự giữa câu truy vấn và trang web.

Trang 44

2

2 Cơ chế hoạt động của máy tìm kiếm

Thực thi (implementation): Các máy

tìm kiếm cũng như các hệ thống thư mục chủ đề (topic directory) đều phải đương đầu với bản chất động của môi trường Internet ngược hẳn với bản chất tĩnh của các hệ thống truy xuất thông tin IR

Trang 45

3 Cấu trúc của các hệ tìm kiếm

Trang 46

4 Nhược điểm của máy tìm kiếm

chưa có vai trò gì trong quá trình tìm kiếm.

nhau, do đó chưa cho phép tính độ quan trọng khác nhau của các từ khóa

bản, vấn đề từ đồng nghĩa, đa nghĩa

Trang 47

Thank you for listening!

Ngày đăng: 06/04/2015, 20:49

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w