Khai phá dữ liệu & Cách tìm kiếm thông tin trên Web Máy tìm kiếm... Khai phá dữ liệu1.1 Định nghĩa về khai phá dữ liệu Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự độn
Trang 1Khai phá dữ liệu &
Cách tìm kiếm thông tin trên Web Máy tìm kiếm
Trang 2I.Khai phá dữ liệu và khai phá
Trang 3Khai phá dữ liệu &
Khai phá dữ liệu Web
Trang 41 Khai phá dữ liệu
1.1 Định nghĩa về khai phá dữ liệu
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó.
Trang 51.2 Các kiểu khai phá dữ liệu
KHAI PHÁ DỮLIỆU VĂN BẢN (TEXTMINING)
KHAI PHÁ DỮLIỆU WEB (WEBMINING)
1 Khai phá dữ liệu
Trang 62.1 Tổng quan về khai phá dữ liệu Web
Sự phát triển nhanh chóng của mạng Internet và Intranet
đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web)
Lý do cho sự phát triển này là chi phí thấp để duy trì một trang Web trên Internet
Internet như là cuốn từ điển Bách khoa toàn thư với nội dung và hình thức đa dạng
2 Khai phá dữ liệu Web
Trang 72 Khai phá dữ liệu web
2.1 Tổng quan về khai phá dữ liệu Web
Khai phá dữ liệu trên Internet (khai phá web )
+ Khai phá được nội dung các trang văn bản,cũng như mối quan hệ giữa chúng
+ Khai phá Web là sự giao thoa giữa khai phá dữ liệu và Word-Wide-Web đang phát triển mạnh mẽ, gồm :
- Trí tuệ nhân tạo
- Truy xuất thông tin
- v.v.v
Trang 82 Khai phá dữ liệu web
2.1 Tổng quan về khai phá dữ liệu Web
Khai phá web như việc trích ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới World-Wide
Web
Trang 92 Khai phá dữ liệu web
2.1 Tổng quan về khai phá dữ liệu Web
Khai phá web chia thành 3 lĩnh vực chính: khai phá nội dung web (web content mining), khai phá cấu trúc web (web structure mining) và khai phá việc sử dụng web (web usage mining)
Trang 102 Khai phá dữ liệu web
2.2 Các bài toán được đặt ra trong khai phá Web
-Tìm kiếm các thông tin cần thiết: được gỉai quyết bởi
máy tìm kiếm
- Tạo ra các tri thức mới từ các thông tin có sẵn trên
Web: Cần lấy ra được thông tin cần thiết từ dữ lieeujWeb
- Cá nhân hóa các thông tin: Cung cấp thông tin cho nhà cung cấp thông tin trên Web đạt được mục đích của mình
- Tìm hiểu về những người tiêu thụ sản phẩm cũng như
về cá nhân người dùng
Trang 112 Khai phá dữ liệu web
2.3 Các lĩnh vực của khai phá dữ liệu Web
a Khai phá nội dung Web (Web content mining):
- Là quá trình xử lý để lấy ra các ri thức từ nội dung trang văn bản hoặc mô tả của chúng.
Có 2 chiến lược khai phá:
+ Khai phá trực tiếp nội dung trang.
+ Tìm kiếm nâng cao: Tìm kiếm trong kết qua: máy tìm kiếm
Trang 122 Khai phá dữ liệu web
2.3 Các lĩnh vực của khai phá dữ liệu Web
b Khai phá cấu trúc web (web structure mining).
-Nhờ vào kết nối giữa các cấu trúc Web.
-Là quá trình xử lý nhằm rút ra các tri thức từ cách
tổ chức và liên kết giữa các trag Web.
Trang 132 Khai phá dữ liệu web
2.3 Các lĩnh vực của khai phá dữ liệu Web
c Khai phá sử dụng web (web usage mining).
-Khai phá hồ sơ Web để lấy ra các thông tin trong
Trang 142 Khai phá dữ liệu web
Trang 152 Khai phá dữ liệu web
Trang 16CÁCH TÌM KIẾM THÔNG
TIN TRÊN INTERNET
Trang 17I Cách tìm kiếm thông tin
1. Các thông tin phổ biến trên mạng
- Tin tức, sự kiện
- Thông tin kinh tế
- Thông tin của chính phủ
- Thông tin học thuật
- Văn hóa đại chúng
- Hướng dẫn kỹ năng
- Giải trí
17
Trang 182 Đặc điểm của thông tin trên Internet
- Được bổ sung và cập nhật liên tục
- Tài liệu không được xử lý bằng bất kỳ
một hệ thống tiêu chuẩn nào
- Thông tin được tìm kiếm bằng nhiều
công cụ khác nhau
18
I Cách tìm kiếm thông tin
Trang 193 Có thể tìm được mọi thông tin trên
Internet?
- Có phải mọi thông tin đều miễn phí?
- Các thông tin khó tìm thấy trên
Trang 204 Các bước chuẩn bị trước khi bắt đầu dùng Internet tìm kiếm
-Thu hẹp chủ đề, chọn những từ quan trọng, những mục quan trọng.
Trang 215. Sử dụng công cụ, chức năng tìm kiếm
(search engine)
- Dễ sử dụng
- Mỗi search engine chỉ tìm một số lượng nhất
định các trang web, không phải tất cả các trang
- Mỗi search engine có những đặc điểm khác
nhau về tính năng cũng như diện bao quát
21
I Cách tìm kiếm thông tin
Trang 225. Sử dụng công cụ, chức năng tìm kiếm (search
Trang 235. Sử dụng công cụ, chức năng tìm kiếm
Trang 24Tìm kiếm thông tin với…
24
Trang 26Tìm kiếm thông tin với Google
1. Từ khoá:
- Từ có nghĩa rõ ràng, mang tính đặc thù
cao với thông tin cần tìm
- Tránh dùng từ đa nghĩa, bỏ các từ không
có nghĩa
- Sử dụng từ đồng nghĩa, từ có liên quan
khi cần thiết
26
Trang 28Tìm kiếm thông tin với Google
2 Dấu ngoặc kép “ ”
Sử dụng dấu ngoặc kép khi muốn những
từ trong một cụm từ xuất hiện liền nhau trong một trang thông tin
“to be or not to be”
28
Trang 29Tìm kiếm thông tin với
- Sử dụng dấu + khi muốn tất cả từ khoá
được gõ vào ô tìm kiếm đều xuất hiện ở mỗi trang thông tin
“lịch bay” + “vietnam airlines”
- Sử dụng dấu - khi muốn loại bỏ bớt
những trang thông tin có chứa từ khoá nằm sau dấu –
scholarships + nursing -“uk colleges”
29
Trang 31Tìm kiếm thông tin với Google
Trang 32Tìm kiếm thông tin với Google
Sử dụng dấu “tương đương” khi muốn tìm cả những trang thông tin có chứa các từ liên quan hoặc từ đồng nghĩa với từ khóa
~“bệnh tiểu đường”
Sử dụng dấu ba chấm “ ” giữa hai con số để tìm “ ”
kiếm giá trị trong một phạm vi
32
Trang 33… và một số thủ thuật khác
với Google
33
Trang 34Tìm kiếm theo tệp tin
Trang 35Định nghĩa từ và cụm từ
Cú pháp
define:cancer
35
Trang 36Xem thời gian
Cú pháp
time new york
36
Trang 37Xem thời tiết
Cú pháp
weather hue city
37
Trang 38Máy tìm kiếm
Trang 391 Định nghĩa
Máy tìm kiếm là các hệ thống được xây dựng có khả năng tiếp nhận các yêu cầu tìm kiếm của người dùng (thường là một tập các
từ khóa), sau đó phân tích và tìm kiếm trong
cơ sở dữ liệu đã có sẵn và đưa ra các kết quả
là các trang Web cho người sử dụng
Trang 402
2 Cơ chế hoạt động của máy tìm kiếm
công nghệ truy xuất thông tin rất đa dạng Sự khác nhau giữa chúng liên quan tới vấn đề đánh chỉ số, cách biểu diễn văn bản, cách thức truy vấn và thực thi
Trang 422
2 Cơ chế hoạt động của máy tìm kiếm
Cách thức biểu diễn (representation):
Phần lớn các máy tìm kiếm sử dụng cách đánh chỉ số full text để nhanh chóng đo mức độ tương tự giữa câu truy vấn và trang web.
Trang 442
2 Cơ chế hoạt động của máy tìm kiếm
Thực thi (implementation): Các máy
tìm kiếm cũng như các hệ thống thư mục chủ đề (topic directory) đều phải đương đầu với bản chất động của môi trường Internet ngược hẳn với bản chất tĩnh của các hệ thống truy xuất thông tin IR
Trang 453 Cấu trúc của các hệ tìm kiếm
Trang 464 Nhược điểm của máy tìm kiếm
chưa có vai trò gì trong quá trình tìm kiếm.
nhau, do đó chưa cho phép tính độ quan trọng khác nhau của các từ khóa
bản, vấn đề từ đồng nghĩa, đa nghĩa
Trang 47Thank you for listening!