1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng khai phá dữ liệu chương 1 phan mạnh thường

18 287 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 1,67 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tổng quanChương 1 Các kỹ thuật khai phá 4 Các khái niệm cơ bản 1 Các giai đoạn khai phá tri thức 2 Ứng dụng của khai phá dữ liệu 3 Nội dung... Chương 1 Tổng quan Dữ liệu Data: có thể xe

Trang 1

Khai phá dữ liệu (Datamining)

Phan Mạnh Thường

Trang 2

7/12/2014 www.l hu.edu.vn

Thông tin về môn học

• Số tiết lý thuyết : 45

• Số tiết thực hành : 30

Thời lượng

• Nắm vững kiến thức cơ sở dữ liệu

• SQL Server và ngôn ngữ T-SQL

• Lập trình Visual.NET

Điều kiện

Cung cấp các kiến thức về

• Các phương pháp khai phá dữ liệu

• Nhà kho dữ liệu

Mục tiêu

Trang 3

Thông tin về môn học

1 Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005

2 Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.

3 Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan

Kaufmann Publishers, 2002

4 Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,

University of Illinois, Morgan Kaufmann Publishers, 2002

5 John Wang, Data mining: opportunities and challenges, Idea Group, 2003

6 ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005,

Wiley Publishing, 2005

Tài liệu tham khảo

Trang 4

7/12/2014 www.l hu.edu.vn

Nội dung môn học

Chương 1: Tổng quan về khai phá dữ liệu

Chương 2: Luật kết hợp

2

Chương 3: Phân lớp dữ liệu

3

Chương 4: Chuỗi phổ biến

4

Chương 5: Gom cụm dữ liệu

5

Chương 6: Nhà kho dữ liệu

5

Trang 5

Thông tin về môn học

Gồm 3 cột điểm:

• Điểm chuyên cần (10%): điểm danh buổi học

(Lưu ý: nghỉ quá 30% số tiết bị cấm thi)

• Điểm kiểm tra (30%): bài tập, seminar

• Điểm thi (60%): làm bài thi trên máy

Đánh giá

Trang 6

Tổng quan

Chương 1

Các kỹ thuật khai phá

4

Các khái niệm cơ bản

1

Các giai đoạn khai phá tri thức

2

Ứng dụng của khai phá dữ liệu

3

Nội dung

Trang 7

Chương 1 Tổng quan

Dữ liệu (Data): có thể xem là chuỗi các bit,

là số, ký tự…mà chúng ta tập hợp hàng

ngày trong công việc

Thông tin (Information): là tập hợp của

những mảnh dữ liệu đã được chắt lọc dùng

mô tả, giải thích đặc tính của một đối tượng

nào đó

Tri thức (Knowledge): là tập hợp những

thông tin có liên hệ với nhau, có thể xem tri

thức là sự kết tinh từ dữ liệu Tri thức thể

hiện tư duy của con người về một vấn đề

Các khái niệm cơ bản

Trang 8

7/12/2014 www.l hu.edu.vn

Chương 1 Tổng quan

 Khám phá tri thức từ cơ sở dữ liệu:

(Knowledge Discovery in Databases – KDD)

Fayyad, Platetsky-Shapiro, Smyth (1996)

gồm nhiều công đoạn như: xác định vấn đề, tập hợp

và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp dụng tri thức vào thực tế

 http://www.kdnuggets.com/

Các khái niệm cơ bản

Trang 9

Chương 1 Tổng quan

“Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức”

ngày là rất lớn

Các CSDL khổng lồ

Dữ liệu từ Internet

chỉ có 80% dữ liệu được

khai thác, 20% còn lại ẩn

trong các Database là những

tri thức quý giá

Tại sao phải khai phá dữ liệu ?

Trang 10

7/12/2014 www.l hu.edu.vn

Chương 1 Tổng quan

Khai phá dữ liệu là gì?

 Khai phá dữ liệu (Datamining) là một bước trong quy trình khám phá tri thức, nhằm:

khối dữ liệu lớn

Trang 11

Chương 1 Tổng quan

Lợi ích của khai phá dữ liệu

EDP: Electronic Data Processing MIS: Management Information Systems

Số lượng

Giá trị

MIS DSS EDP

Trang 12

7/12/2014 www.l hu.edu.vn

Chương 1 Tổng quan

Quy trình khai phá dữ liệu

Nghi ên cứu lĩnh vực

Rút gọn / chiều

Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa

Chọn tác vụ Khai thác dữ liệu

Nghi ên cứu lĩnh vực Tạo tập dữ liệu đầu vào Tiền xử lý/ làm sạch, mã hóa

Nghi ên cứu lĩnh vực Tạo tập dữ liệu đầu vào

Rút gọn / chiều Tiền xử lý/ làm sạch, mã hóa

Nghi ên cứu lĩnh vực Tạo tập dữ liệu đầu vào

Chọn tác vụ Khai thác dữ liệu

Rút gọn / chiều

Tiền xử lý/ làm sạch, mã hóa

Nghiên cứu lĩnh vực

Tạo tập dữ liệu đầu vào

Trang 13

Chương 1 Tổng quan

Quy trình khai phá dữ liệu

Chọn các thuật giải KTDL

Biểu diễn tri thức

KTDL: Tìm kiếm tri thức Đánh giá mẫu tìm được

Sử dụng các tri thức vừa khám phá

Sử dụng các tri thức vừa khám phá

Trang 14

7/12/2014 www.l hu.edu.vn

Chương 1 Tổng quan

Quy trình khai phá dữ liệu

Increasing potential

to support

business decisions End User

Business Analyst

Data Analyst

DBA

Making Decisions

Data Presentation

Visualization Techniques

Data Mining

Information Discovery

Data Exploration

OLAP, MDA

Statistical Analysis, Querying and Reporting

Data Warehouses / Data Marts

Data Sources

Paper, Files, Information Providers, Database Systems, OLTP

Trang 15

Chương 1 Tổng quan

Từ dữ liệu đến quyết định

D ữ liệu

• Store data

• Demographical Data

• Geographical data

Th ông tin

• X lives in Z

• S is Y years old

• X and S moved

• W has money in Z

Tri th ức

• A quantity Y of product A is used in region Z

• Customers of class Y use x% of C during period D

Quy ết định

• Mail ads to families of profile P

• Cross-sell service B to clients C

Trang 16

7/12/2014 www.l hu.edu.vn

Chương 1 Tổng quan

Các ứng dụng

Kinh doanh

- Phân tích dữ liệu bán hàng và tiếp thị

- Phân tích đầu tư

- Chứng khoán

- Xác định gian lận

Sản xuất

- Điều khiển và lập lịch

- Quản trị mạng lưới

- Phân tích kết quả thử nghiệm Khoa học - Không gian

- Sinh học

- Địa lý

- etc.

Y học

- Bệnh lý

- Sinh học

Trang 17

Chương 1 Tổng quan

Các kỹ thuật sử dụng

Phân lớp

Mẫu tuần tự

?

Nhà kho- OLAP

Gom cụm

Luật kết hợp

Dự đoán

Tìm các đặc trưng của lớp các đối tượng và sử dụng

để phân lớp dữ liệu mới.

Dữ đoán dữ liệu tương lai dựa trên dữ liệu quá khứ.

Xác định các cụm tiềm ẩn trong các tập đối tượng chưa

được xếp lớp.

Xác định trật tự dữ liệu, cấu trúc lưu trữ phù hợp với tác vụ

khai phá

Tìm các mẫu phổ biến

từ dữ liệu và mối quan

hệ của các đối tượng

dữ liệu.

Khám phá các mẫu tín hiệu phổ biến nhất từ dữ liệu các sự kiện

Trang 18

7/12/2014 www.l hu.edu.vn

Chương 1 Tổng quan

Kết luận

KPDL: tiến trình khám phá bán tự động các thông

tin, mẫu có ích từ CSDL lớn

 Tiền xử lý

 KTDL( data mining tasks)

 Hậu xử lý

 CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)

 Tri thức (đặc trưng, gom cụm, kết hợp, …)

 Kỹ thuật (máy học, thống kê, trực quan hóa, …)

 Ứng dụng (bán lẻ, điện thoại, khai thác Web …)

Ngày đăng: 03/12/2015, 01:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm