1. Trang chủ
  2. » Công Nghệ Thông Tin

DM BI chapter 2 data

39 332 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 1,54 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chương 2: Data Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm: Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô. Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. Triển khai (Deployment). Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.

Trang 1

1

Chương 2: Dữ liệu được khai phá

Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh

Học kỳ 2 – 2016-2017

Cao Học Ngành Hệ Thống Thông Tin Quản Lý

Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu

(chauvtn@cse.hcmut.edu.vn)

Trang 2

2

Tài liệu tham khảo

 [1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012

 [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001

 [3] David L Olson, Dursun Delen, “Advanced Data Mining

Techniques”, Springer-Verlag, 2008

 [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,

Methodology, Techniques, and Applications”, Springer-Verlag, 2006

 [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC,

2009

 [6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006

 [7] Ian H.Witten, Frank Eibe, Mark A Hall, “Data mining : practical

machine learning tools and techniques”, Third Edition, Elsevier Inc,

2011

 [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,

“Successes and new directions in data mining”, IGI Global, 2008

 [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC

2005, 2010

Trang 3

3

Nội dung

 Chương 1: Tổng quan về khai phá dữ liệu

Chương 2: Dữ liệu được khai phá

 Chương 3: Các vấn đề tiền xử lý dữ liệu

 Chương 4: Các kỹ thuật khai phá dữ liệu

 Hồi qui dữ liệu

 Phân loại dữ liệu

 Gom cụm dữ liệu

 Luật kết hợp

 Chương 5: Hệ trí tuệ kinh doanh

 Chương 6: Khai phá dữ liệu và trí tuệ kinh doanh với công nghệ cơ sở dữ liệu

 Chương 7: Các đề tài nghiên cứu trong khai phá

dữ liệu và trí tuệ kinh doanh

 Ôn tập

Trang 4

4

Chương 2: Dữ liệu được khai phá

 2.1 Kiểu dữ liệu

 2.2 Các độ đo khoảng cách trong khai phá dữ liệu

 2.3 Vấn đề thu thập và chuẩn bị dữ liệu

 2.4 Vấn đề chất lượng dữ liệu

 2.5 Trực quan hóa dữ liệu

 2.6 Tóm tắt

Trang 6

2.1 Kiểu dữ liệu

6

Trang 9

2.1 Kiểu dữ liệu

 Dữ liệu được lưu trữ

 Các tập tin truyền thống (flat files)

 Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ đối tượng (object relational databases)

 Các cơ sở dữ liệu giao tác (transactional databases) hay kho

dữ liệu (data warehouses)

 Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian (spatial databases), cơ sở dữ liệu thời gian (temporal

databases), cơ sở dữ liệu không thời gian (spatio-temporal databases), cơ sở dữ liệu chuỗi thời gian (time series

databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), …

 Các kho thông tin: the World Wide Web, …

 Dữ liệu tạm thời: các dòng dữ liệu (data streams)

9

Trang 11

2.1 Kiểu dữ liệu

 Twitter: > 7 terabytes per day

 Facebook: 10 terabytes per day

 Some enterprises: terabytes of data every hour

of every day of the year

 Let’s imagine data all over the world:

* 2000: 800000 petabytes

* 2020: 35 zettabytes

11

Source: P C Zikopoulos, C Eaton, D deRoos, T Deutsch, G Lapis, "Understaning Big Data:

Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,

2012., p 5-6

Trang 12

 Velocity

 How fast is fast?

12

Figure 1-1 IBM characterizes Big Data by its volume, velocity, and variety - or simply, V 3

Source: P C Zikopoulos, C Eaton, D deRoos, T Deutsch, G Lapis, "Understaning Big Data:

Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,

2012., p 5

Trang 13

2.1 Kiểu dữ liệu

 Các đặc trưng của dữ liệu

Trang 14

2.1 Kiểu dữ liệu

 Sự thay đổi trong dữ liệu được khai phá

 Không biến đổi

 Biến đổi nhưng chỉ trạng thái hiện thời được quan tâm

 Biến đổi với các trạng thái khác nhau theo thời gian

Trang 15

15

2.2 Các độ đo khoảng cách trong

khai phá dữ liệu

 Ma trận dữ liệu (data matrix)

nf x

n1 x

if x

i1 x

1f x

11 x

-n đối tượng (objects)

-p biến/thuộc tính (variables/attributes)

Trang 16

16

2.2 Các độ đo khoảng cách trong

khai phá dữ liệu

 Ma trận sai biệt (dissimilarity matrix)

) 2 , ( )

1 , (

: :

:

) 2 , 3 ( )

n d n

d

0 d

d(3,1

0 d(2,1)

0

d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính

Trang 17

17

2.2 Các độ đo khoảng cách trong

khai phá dữ liệu

d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính

d(i,j)  0

d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)

Trang 18

18

2.2 Các độ đo khoảng cách trong

khai phá dữ liệu

 Đối tượng vector (vector objects)

 Đối tượng i và j được biểu diễn tương ứng bởi vector x và y

 Độ tương tự (similarity) giữa i và j được tính bởi độ đo cosine:

x = (x1, …, xp)

y = (y1, …, yp)

s(x, y) = (x1*y1 + … + xp*yp)/((x12 + … + xp2 ) 1/2 *(y12 + … + yp2 ) 1/2 )

Trang 20

2 1

1

nf f

|

|

| (|

Trang 21

21

2.2 Các độ đo khoảng cách trong

khai phá dữ liệu

 Độ đo khoảng cách Minkowski

 Độ đo khoảng cách Manhattan

 Độ đo khoảng cách Euclidean

p p

q q

j

x i

x j

x i

x j

x i

x j

i

2 2

|

|

|

| ) ,

(

2 2

1

1 x j x i x j x ip x jp

i

x j

|

|

|(|

),

2 2

2 1

1 x j x i x j x i p x j p

i

x j

i

Trang 22

b a

c b

j i d

p d

b c a sum

d c d

c

b a b

0 1

c b

a

c b

j i d



) , (

Object i

Object j

(= a + b + c + d)

Hệ số so trùng đơn giản (nếu symmetric):

Hệ số so trùng Jaccard (nếu asymmetric):

Trang 23

1 1

2 1 )

, (

67 0 1

1 1

1 1 )

, (

33 0 1

0 2

1 0 )

, (

d

Jim Jack

d

Mary Jack

d

Trang 24

 N ếu xif hoặc xjf bị thiếu (missing) thì

f (variable/attribute): binary (nominal)

) ( ) ( 1

) ,

(

f ij

p f

f ij

f ij

p

j i d

z if

Trang 25

25

5.1 Tổng quan về gom cụm dữ liệu

R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on Neural Networks, 16(3),

May 2005, pp 645-678

Trang 27

2.4 Vấn đề chất lượng dữ liệu

 Chất lượng (quality of data/information)

 Phù hợp với đặc tả (specifications), yêu cầu từ

người dùng (user requirements), ngữ cảnh sử

dụng (context of use), …

 “A comprehensive list of commonly agreed quality dimensions is still not available.”

 Phân loại chiều chất lượng (quality dimensions)

 Schema quality dimensions  structure

 Data quality dimensions  instance

C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62

Trang 28

2.4 Vấn đề chất lượng dữ liệu

Accuracy: “inaccuracy implies that the information

system represents a real world state different from the one that should have been represented.”

Timeliness: refers to “the delay between a change

of the real-world state and the resulting

modification of the information system state.”

Completeness: is “the ability of an information to

represent every meaningful state of the

represented real world system”

28

C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62

Trang 29

2.4 Vấn đề chất lượng dữ liệu

Consistency: consistency of data values occurs

whether or not there is more than one state of the information system matching a state of the real world system; therefore, “inconsistency

would mean that the representation mapping is one-to-many.”

Interpretability: concerns the documentation

and metadata that are available to interpret correctly the meaning and properties of data sources

29

C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62

Trang 30

2.4 Vấn đề chất lượng dữ liệu

Accessibility: measures the ability of the user to

access the data as from his/her own culture, physical status/functions and technologies available

Usability: measures the effectiveness, efficiency,

satisfaction with which specified users perceive and make use of data

Trustworthiness: measures how reliable the

organization is in providing data sources

30

C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62

Trang 31

2.5 Trực quan hóa dữ liệu

các biểu diễn đồ họa

 Báo cáo

 Quản lý tác nghiệp

 Theo dõi tiến triển công việc

 Khám phá các mối liên hệ trong dữ liệu thông

qua trực quan hóa

31

Trang 32

2.5 Trực quan hóa dữ liệu

 Dữ liệu được quan sát và ghi nhận với nhiều đặc

điểm (thuộc tính, đặc trưng) khác nhau

 Không gian dữ liệu vs Không gian biểu diễn dữ liệu

Trang 33

2.5 Trực quan hóa dữ liệu

33 Figure 2.10, [1], p 57

Trang 34

2.5 Trực quan hóa dữ liệu

34 Figure 2.13 for geometric projection visualization, [1], p 59

Trang 35

2.5 Trực quan hóa dữ liệu

35 Figure 2.20 for geometric projection visualization, [1], p 65

Trang 36

2.5 Trực quan hóa dữ liệu

36 SOM visualization

Trang 37

2.5 Trực quan hóa dữ liệu

37

Trang 38

 Truy xuất => trực quan hóa dữ liệu

 ẩn chứa nhiều thông tin và tri thức quý báu

 Xử lý

 Khai phá

Trang 39

39

Hỏi & Đáp …

Ngày đăng: 20/05/2017, 21:37

TỪ KHÓA LIÊN QUAN