1. Trang chủ
  2. » Công Nghệ Thông Tin

Khai thác dữ liệu

36 597 3
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai thác dữ liệu
Người hướng dẫn GV. Nguyễn Kim Long
Thể loại Giới thiệu môn học
Định dạng
Số trang 36
Dung lượng 0,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khai thác dữ liệu

Trang 1

Khai Thác Dữ Liệu

GV: Nguyễn Kim Long

Trang 2

Giới thiệu môn học

Trang 3

• Trình bày được các khái niệm cơ bản trong khai thác dữ liệu.

• Các kỹ thuật, công nghệ, phương pháp áp dụng trong khai thác dữ liệu

• Triển khai phương pháp khai thác dữ liệu đối với một lĩnh vực cụ thể

• Nâng cao kỹ năng tham khảo tài liệu về lĩnh vực khai thác dữ liệu

Kết quả đạt được

Trang 6

• Lý thuyết: trên lớp CS2

• Thực hành: phòng máy CS2

• Bài tập: tùy chọn

Môi trường học và thực hành

Trang 8

• 1-3 Làm quen công cụ mining

Trang 9

Bài giảng 1 Giới thiệu

Trang 11

• 1960s: HT xử lý tập tin đơn giản -> HT CSDL

• 1970s: CSDL quan hệ, mô hình hóa, câu truy vấn,

• 1980s: lý thuyết mô hình hướng đối tượng, CSDL phân tán,

=> sự bùng nổ kho dữ liệu khổng lồ

=> „giàu dữ liệu, nghèo thông tin”

Lịch Sử

Trang 12

Tại sao KTDL?

Trang 13

KTDL là gì?

Trang 14

• khai thác tri thức

• Knowledge Discovery form Data (KDD)

• knowledge mining from data

• knowledge extraction

• data/pattern analysis

• data archaeology (khai quật dữ liệu)

• data dredging (nạo vét dữ liệu)

Các khái niệm tương đương

Trang 15

• Tra cứu số điện thoại trong danh bạ.

• Tìm xem trong 1 khu vực nhất định, cái tên nào phổ biến nhất

• Sử dụng Google để tìm kiếm thông tin về

Trang 16

Quá trình khám phá tri thức

Trang 17

1 Làm sạch dữ liệu – Data cleaning

2 Tích hợp dữ liệu − Data integration

3 Lựa chọn dữ liệu − Data selection

4 Chuyển hóa dữ liệu − Data transformation

5 Khai thác dữ liệu − Data mining

6 Đánh giá mẫu − Pattern evaluation

7 Biểu diễn tri thức − Knowledge representation

Các bước KTDL

Trang 18

• relational database (cơ sở dữ liệu quan hệ)

• data warehouse (Kho dữ liệu)

• Cơ sở dữ liệu giao dịch

• Dữ liệu cao cấp, hệ thống thông tin và ứng dụng cao cấp

– Cơ sở dữ liệu quan hệ đối tượng

– Cơ sở dữ liệu thời gian, Cơ sở dữ liệu khoảng thời gian, và

Cơ sở dữ liệu chuỗi thời gian

– Cơ sở dữ liệu không gian và cơ sở dữ liệu không gian thời gian

– Cơ sở dữ liệu văn bản và cơ sở dữ liệu đa truyền thông

– Cơ sở dữ liệu hỗn tạp và Cơ sở dữ liệu kế thừa

Kiểu dữ liệu

Trang 19

• Table

• Attribute(column/field)

• Record (row/tuple)

• ER

• SQL (select, join, sum, min, max, avg)

• => nơi lưu trữ nhiều thông tin nhất hiện nay

relational database

Trang 20

• Kho dữ liệu:

– Def: Là nơi lưu trữ thông tin tập hợp từ nhiều nguồn khác nhau

– Dạng lưu trữ: Schema (giản đồ), khối đa chiều

• Các bước xây dựng kho dữ liệu:

Trang 22

• Hồi quy (Regression) - P

• Phân tích trình tự (Sequence Analysis) - D

• Phân tích độ lệch (Deviation Analysis) - P

Chức năng KTDL

Trang 23

• Sử dụng 1 tập các records có sẵn, mỗi record có chứa nhiều thuộc tính, trong đó có 1 thuộc tính

là class

Classification (P)1/6

Trang 24

• Cho 1 t p các i m d li u (data points) v i ậ đ ể ữ ệ ớ

các thu c tính và 1 ộ đơ n v t ị ươ ng đươ ng

(similarity measure), tìm các nhóm sao cho:

– D li u trong cùng 1 nhóm (cluster) thì gi ng ữ ệ ố nhau h n nhóm khác ơ

– D li u trong các nhóm khác nhau thì ít gi ng ữ ệ ố nhau h n ơ

Clustering (D)2/6

Trang 25

• Cho tr ướ c 1 nhóm records có ch a m t s ứ ộ ố

các items t 1 b nh t nh ừ ộ ấ đị

• Thi t l p các lu t ph thu c ế ậ ậ ụ ộ để ự đ d oán s ự

xu t hi n c a 1 s item d a trên nh ng item ấ ệ ủ ố ự ữ

khác.

Association (D) 3/6

Trang 26

• D oán giá tr c a 1 thông s ự đ ị ủ ố đượ c cho liên

t c, d a trên giá tr c a nh ng thông s ụ ự ị ủ ữ ố

khác.

– (Gi s cho tr ả ử ướ c 1 mô hình ph thu c tuy n ụ ộ ế

tính hay phi tuy n tính) ế

• Áp d ng nhi u trong l nh v c th ng kê, m ng ụ ề ĩ ự ố ạ

l ướ i th n kinh ầ

Regression (P) 4/6

Trang 27

• Cho tr ướ c 1 t p các ậ đố ượ i t ng, trong ó m i đ ỗ đố ượ i t ng

có riêng 1 chu i các s ki n C n tìm các quy lu t d ỗ ự ệ ầ ậ ự oán s ph thu c tu n t gi a các s ki n.

Trang 29

• Lựa chọn thuộc tính:

– Thuật tóan RELIEF, FOCUS, LVF, EBR, SCRAP,

LVW, Neuralnet, Genetic,

• Luật kết hợp:

– Thuật tóan Apriori, AprioriTid, AprioriHybrid, FP-tree,

PHP, PCY, PCY nhiều chặng, cây quyết định (ID3, các mở rộng của C4.5)

• Phân lớp:

– Cây quyết định, mạng bayes, mạng neural, SVM,

Các kỹ thuật (thuật tóan)KTDL

Trang 30

1 Phân lọai theo cơ sở dữ liệu được khai thác

2 Phân lọai theo tri thức khai thác

3 Phân lọai theo kỹ thuật KTDL

4 Phân lọai theo môi trường ứng dụng

Phân lọai hệ thống KTDL

Trang 31

• Hệ thống khai thác CSDL quan hệ

• Hệ thống khai thác CSDL giao dịch

• Hệ thống khai thác CSDL quan hệ đối tượng

• Hệ thống khai thác kho dữ liệu

• Hệ thống khai thác CSDL không gian, thời gian

• Hệ thống khai thác dữ liệu văn bản, đa truyền thông

• Hệ thống khai thác dữ liệu mạng tòan cần

Theo CSDL(1/4)

Trang 32

• Hệ thống mô tả và phân biệt dữ liệu

• Hệ thồng khai thác kết hợp và tương quan dữ liệu

• Hệ thống phân lớp và dự đóan dữ liệu

• Hệ thống gom nhóm dữ liệu

• HT phân tích dữ liệu ngọai lệ và tiến hóa

• HT khai thác tri thức phổ biến

• HT khai thác tri thức thô

• HT khai thác tri thức đa cấp độ

Theo tri thức (2/4)

Trang 33

• HT khai thác dữ liệu tự động

• HT khai thác dữ liệu có tương tác

• HT khai thác dữ liệu theo truy vấn

• HT sử dụng kỹ thuật máy học, thống kê, mô phỏng, nhận dạng mẫu

Theo kỹ thuật (3/4)

Trang 34

• HT khai thác dữ liệu tài chính kế tóan

• HT khai thác dự liệu viễn thông

• HT khai thác dự liệudi truyền học

• HT khai thác dự liệu chứng khóan

• HT khai thác dự liệu giáo dục

Theo môi trường ứng dụng (4/4)

Trang 35

• Các bước khai thác dữ liệu? Các bước thực

hiện một bài tóan khai thác dữ liệu?

• Nội dung thuyết trình.

• Chủ đề 1 thi cuối kỳ:

- tổng quan khai thác dữ liệu.

Tổng kết

Trang 36

Q&A?

Ngày đăng: 17/01/2013, 11:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w