1. Trang chủ
  2. » Luận Văn - Báo Cáo

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG

46 806 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 905 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung Chương I. Tổng quan về khám phá tri thức (KDD) và khai phá dữ liệu (DM) Chương II. Tiền xử lý dữ liệu Chương III. Một số phương pháp khai phá dữ liệu Chương IV. Lượng giá và sử dụng tri thức được khám phá Chương V. Ứng dụng I.1. Khám phá tri thức và khai phá dữ liệu là gì? Giáo sư Tom Mitchell 4 đã đưa ra định nghĩa của KPDL như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad 3 đã phát biểu: “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.”

Trang 1

KHAI PHÁ DỮ LIỆU

VÀ ỨNG DỤNG

Nguyễn Thị Hương Giang

Trang 2

Nội dung

(KDD) và khai phá dữ liệu (DM)

liệu

được khám phá

Trang 3

I Tổng quan về khám phá tri thức (KDD) và khai phá

dữ liệu (DM)

 I.1 Khám phá tri thức và khai phá dữ liệu là gì?

- Giáo sư Tom Mitchell [4] đã đưa ra định nghĩa của KPDL

như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.”

- Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [3] đã phát biểu: “KPDL, thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những

thông tin ẩn, trước đây chưa biết và có khả năng hữu ích,

dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ

liệu.”

Trang 4

II Tiến trình khai phá tri thức

Knowledge

Pattern Discovery

Transformed Data

Cleansed Preprocessed Preparated

Trang 5

II Tiến trình khai phá tri thức

 Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1 :

1 Gom dữ liệu (Gathering)

- Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web.

vô nghĩa và không có khả năng kết nối dữ liệu

- Ví dụ: tuổi = 673

Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên

Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử

lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.

Trang 6

II Tiến trình khai phá tri thức

4 Chuyển đổi dữ liệu (Transformation)

- Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.

5 Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)

- Đây là bước mang tính tư duy trong khai phá dữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, v.v

6 Đánh giá kết quả mẫu (Evaluation of Result)

- Đây là giai đoạn cuối trong quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu

dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu

dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra.

Trang 7

Transform values

Select DM method (s)

Create derived attributes

Extract knowledge

Find important attributes &

value ranges

Test knowledge knowledge Refine

Query & report generation Aggregation & sequences Advanced methods

Data warehousing

Trang 8

III Các phương pháp KPDL (DM)

cơ sở dữ liệu để chiết xuất ra các mẫu là các dự đoán những giá trị chưa biết hoặc những giá trị trong tương lai của các biến đáng quan tâm

- Mô tả tập trung vào việc tìm kiếm các mẫu mô tả

dữ liệu mà con người có thể hiểu được

Debt have defaulted

on their loans

-Lớp bài toán Dự đoán sẽ học ra các bộ dự

đoán Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị

số học cho hàm cần dự đoán.

- Ví dụ: Bài toán tiêu biểu của phương pháp này

Trang 9

 2 Phân loại:

- Ánh xạ (phân loại) một mục dữ liệu vào trong một

trong nhiều lớp được định nghĩa trước

- Với một tập các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân loại sẽ học ra bộ phân loại (classifier) dùng để phân các dữ

liệu mới vào một trong những lớp (còn gọi là loại) đã

được xác định trước Nhận dạng cũng là một bài toán thuộc kiểu Phân loại

Ví dụ: nhận dạng tự động các đối tượng trong CSDL

ảnh lớn

III Các phương pháp KPDL (DM) (tt)

Trang 10

3 Tìm luật liên kết (Association Rule):

- Tìm kiếm các mối liên kết giữa các phần tử

dữ liệu.

- Ví dụ: nhóm các món hàng thường được

mua kèm với nhau trong siêu thị.

III Các phương pháp KPDL (DM) (tt)

Trang 11

4 Hồi quy (Regression):

 là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực

- Ví dụ: đánh giá khả năng sống của bệnh nhân với tập các kết quả kiểm tra chẩn đoán; đoán nhu cầu người tiêu dùng đối với sản phẩm

mới,…

III Các phương pháp KPDL (DM) (tt)

Trang 12

5 Phân cụm (Clustering)

- Nhóm các đối tượng dữ liệu có tính chất giống nhau vào cùng một nhóm.

- Có nhiều cách tiếp cận với những mục tiêu

khác nhau trong phân loại Các kỹ thuật trong bài toán này thường được vận dụng trong vấn

đề phân hoạch dữ liệu tiếp thị hay khảo sát

sơ bộ các dữ liệu.

III Các phương pháp KPDL (DM) (tt)

Trang 13

 6 Tổng hợp (Summarization)

- Các phương pháp tìm kiếm một mô tả tóm tắt cho một tập con dữ liệu

- Các kỹ thuật tóm tắt thường được áp

dụng cho các phân tích dữ liệu tương tác

có tính thăm dò và tạo báo cáo tự động

III Các phương pháp KPDL (DM) (tt)

Trang 14

7 Mô hình ràng buộc (Dependency

modeling)

- Tìm mô hình mô tả các ràng buộc quan trọng,

có nghĩa giữa các biến.

- Mô hình ràng buộc có 2 mức: mức cấu trúc xác định các biến ràng buộc cục bộ với nhau như thế nào, trong khi mức định lượng xác

định độ lớn của ràng buộc sử dụng tỷ lệ số

III Các phương pháp KPDL (DM) (tt)

Trang 15

8 Dò tìm và biến đổi độ lệch (Change and

Trang 16

Chương II Tiền xử lý dữ liệu

Mục tiêu chính của việc chuẩn bị dữ liệu:

- Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn sàng được xử lý bởi các chương trình khai

phá dữ liệu

- để chuẩn bị các đặc tính tốt nhất cho việc

khai phá

Trang 17

II Tiền xử lý dữ liệu

 2 Tại sao phải tiền xử lý dữ liệu

 Dữ liệu trong thế giới thực là hỗn tạp

chắc chắn cần quan tâm, hoặc chỉ chứa dữ liệu chung

mâu thuẫn nhau

 Dữ liệu không đảm bảo chất lượng thì kết quả khai phá không hiệu quả

liệu có chất lượng

Trang 18

b Lệch

tính khác đáng kể với phần lớn các đối tượng dữ liệu khác trong tập dữ liệu

Trang 19

c Các giá trị bị mất

 Lý do bị mất giá trị dữ liệu

Ví dụ: người được điều tra từ chối không

cung cấp thông tin tuổi và cân nặng của họ

trường hợp

Ví dụ: thu nhập hàng năm không áp dụng cho

trẻ con

Trang 20

3 Các vấn đề dữ liệu

phá?

Trang 21

4 Các chiều đo chất lượng dữ liệu

Trang 22

5 Nhiệm vụ chính trong tiền xử lý

 Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file

 Chuẩn hóa hoặc kết hợp

 Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới kết quả phân tích

 Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu dạng số

Trang 24

a Làm sạch dữ liệu

Thu nhận dữ liệu và siêu dữ liệu

Bổ sung các giá trị dữ liệu bị mất

Trang 25

Làm sạch dữ liệu: Thu nhận dữ liệu

Các giao thức ODBC, JDBC

Định dạng các cột cố định

Định dạng phân cách: tab, dấu “,”,

làm sạch và sau khi làm sạch

Trang 26

000000000000000.000000000000000.0000000 …

000000000000000.000000000000000.000000000000000.000000000000000.000000 000000000.000000000000000.000000000000000.000000000000000000000000000 00.000000000000000.000000000000000.000000000000000.000000000000000.000 000000000000.000000000000000.00000000000000000000000000000.0000000000 00000.000000000000000.000000000000000.000000000000000.000000000000000.

00 0000000000300.00 0000000000300.

000000000001,199706,1979.833,8014,5722 , ,#000310 … ,

111,03,000101,0,04,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0300,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0300,0300.00

Trang 27

Làm sạch dữ liệu: Siêu dữ liệu

 Các kiểu trường:

đủ

 Vai trò của trường

 Mô tả trường

Trang 29

Dữ liệu bị mất

 Dữ liệu không luôn có sẵn

 VD: nhiều bộ dữ liệu có các thuộc tính không có dữ liệu, như thu nhập khách hàng trong dữ liệu bán hàng

 Dữ liệu bị mất do:

 Sự cố thiết bị

 Mâu thuẫn với các bản ghi khác và do đó bị xóa

 Dữ liệu không được nhập vào do hiểu nhầm

 Không nhận thấy tầm quan trọng của dữ liệu nhập vào

 Không ghi nhận lịch sử hoặc sự thay đổi dữ liệu

Trang 30

Giải quyết dữ liệu bị mất

 Bỏ qua: thường được dùng khi nhãn lớp bị mất

 Điền giá trị bị mất bằng tay: nhàm chán + bất tiện?

 Dùng một giá trị chung cho giá trị bị mất: VD:

Trang 31

Dữ liệu nhiễu

 Nhiễu là sự thay đổi giá trị gốc của dữ liệu

 Ví dụ: sự biến dạng giọng nói của người khi nói trên một điện thoại có chất lượng kém và hiện tượng “mè” trên tivi

Trang 32

Giải quyết dữ liệu nhiễu

bình, trung vị hoặc biên

Trang 33

Phương pháp rời rạc hóa đơn giản

 Chia (khoảng cách) thành các khoảng có độ rộng bằng

nhau:

đồng dạng

dài của các khoảng sẽ là: W = (B-A)/N

lý tốt

 Chia (tần số) thành các khoảng có độ sâu bằng nhau:

số lượng mẫu

Trang 34

Sử dụng phương pháp dãy để làm trơn dữ liệu

 Giả sử có dãy dữ liệu giá (đôla) được sắp xếp như sau: 4, 8, 9, 15, 21, 21,

Trang 35

Tích hợp dữ liệu

 Tích hợp dữ liệu:

 Kết hợp dữ liệu từ nhiều nguồn thành một kho lưu trữ

 Tích hợp lược đồ:

 Tích hợp siêu dữ liệu từ nhiều nguồn khác nhau

 Vấn đề định danh đối tượng: xác định các thực thể trong thế giới thực từ nhiều nguồn dữ liệu:

 Phát hiện và giải quyết mâu thuẫn dữ liệu:

tính từ nhiều nguồn khác nhau là khác nhau

 VD: đơn vị đo mét với inche

Trang 36

Giải quyết dữ liệu dư thừa trong

tích hợp dữ liệu

 Dư thừa DL xảy ra khi tích hợp DL từ nhiều CSDL

 Sự tích hợp tốt dữ liệu từ nhiều nguồn có thể giúp

giảm/tránh các dư thừa và mâu thuẫn để tăng tốc độ và chất lượng khai phá

Trang 37

Biến đổi dữ liệu

 Làm trơn: giảm nhiễu

 Kết hợp: tổng quát hóa, xây dựng DL dạng khối

 Tổng quát hóa: khái niệm cấu trúc phân cấp

 Chuẩn hóa: đo trong một vùng dữ liệu nhỏ, xác định:

 Xây dựng cấu trúc thuộc tính/đặc tính

Trang 38

Biến đổi dữ liệu: Chuẩn hóa

Trang 39

Thu nhỏ dữ liệu

 Các kho dữ liệu có thể chứa tới hàng terabyte dữ liệu: phân tích/khai phá dữ liệu phức tạp có thể mất rất nhiều thời gian nếu thực hiện tập DL đầy đủ

Trang 40

Kết hợp DL

 Kết hợp hai hay nhiều thuộc tính (đối tượng)

thành một thuộc tính (đối tượng)

 Mục đích:

 Thu nhỏ dữ liệu

Giảm số thuộc tính của dữ liệu

 Thay đổi tỉ lệ dữ liệu

Các thành phố được kết hợp lại thành các vùng, các bang, các quốc gia

 Tạo ra sự bền vững cho dữ liệu

Trang 41

a Kết hợp

Sự thay đổi lượng mưa ở Úc

Trang 42

 Mẫu hóa được sử dụng trong khai phá dữ liệu vì nếu xử lý toàn bộ tập dữ liệu thì phải tốn chi phí lớn hoặc mất nhiều thời gian

Trang 43

b Mẫu hóa

là:

Sử dụng một mẫu sẽ làm việc cũng như được

sử dụng trong toàn bộ tập dữ liệu, nếu mẫu

đó là tiêu biểu

Một mẫu là tiêu biểu nếu nó có xấp xỉ thuộc tính cùng với tập dữ liệu gốc

Trang 44

Ví dụ

Trang 45

Rời rạc hóa và khái niệm phân cấp

 Rời rạc hóa:

 Thu nhỏ số lượng giá trị của một thuộc tính có giá trị liên tục cho trước bằng cách chia vùng thuộc tính thành các khoảng Các nhãn khoảng có thể được dùng để thay thế giá trị DL thực sự

 Khái niệm phân cấp:

 Thu nhỏ DL bằng cách tập hợp và thay thế các khái niệm mức thấp (như giá trị kiểu số cho thuộc tính

tuổi) bằng khái niệm mức cao hơn (như trẻ, trung niên, hoặc lão niên)

Trang 46

Rời rạc hóa và sinh ra khái niệm phân cấp cho DL kiểu số

Ngày đăng: 10/11/2014, 10:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w