Chương 2: Data Khai phá dữ liệu là một bước của quá trình khai thác tri thức (Knowledge Discovery Process), bao gồm: Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem understanding and data understanding). Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), biến đổi dữ liệu (data transformation). Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô. Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc nguồn tri thức thu được. Triển khai (Deployment). Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã qua.
Trang 11
Chương 2: Dữ liệu được khai phá
Khoa Khoa Học & Kỹ Thuật Máy Tính Trường Đại Học Bách Khoa Tp Hồ Chí Minh
Học kỳ 2 – 2016-2017
Cao Học Ngành Hệ Thống Thông Tin Quản Lý
Giáo trình điện tử Biên soạn bởi: TS Võ Thị Ngọc Châu
(chauvtn@cse.hcmut.edu.vn)
Trang 22
Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, Jian Pei, “Data Mining: Concepts and Techniques”, Third Edition, Morgan Kaufmann Publishers, 2012
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data Mining”, MIT Press, 2001
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006
[5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis Group, LLC,
2009
[6] Daniel T Larose, “Data mining methods and models”, John Wiley & Sons, Inc, 2006
[7] Ian H.Witten, Frank Eibe, Mark A Hall, “Data mining : practical
machine learning tools and techniques”, Third Edition, Elsevier Inc,
2011
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC
2005, 2010
Trang 33
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Dữ liệu được khai phá
Chương 3: Các vấn đề tiền xử lý dữ liệu
Chương 4: Các kỹ thuật khai phá dữ liệu
Hồi qui dữ liệu
Phân loại dữ liệu
Gom cụm dữ liệu
Luật kết hợp
Chương 5: Hệ trí tuệ kinh doanh
Chương 6: Khai phá dữ liệu và trí tuệ kinh doanh với công nghệ cơ sở dữ liệu
Chương 7: Các đề tài nghiên cứu trong khai phá
dữ liệu và trí tuệ kinh doanh
Ôn tập
Trang 44
Chương 2: Dữ liệu được khai phá
2.1 Kiểu dữ liệu
2.2 Các độ đo khoảng cách trong khai phá dữ liệu
2.3 Vấn đề thu thập và chuẩn bị dữ liệu
2.4 Vấn đề chất lượng dữ liệu
2.5 Trực quan hóa dữ liệu
2.6 Tóm tắt
Trang 62.1 Kiểu dữ liệu
6
Trang 92.1 Kiểu dữ liệu
Dữ liệu được lưu trữ
Các tập tin truyền thống (flat files)
Các cơ sở dữ liệu quan hệ (relational databases) hay quan hệ đối tượng (object relational databases)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho
dữ liệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu không gian (spatial databases), cơ sở dữ liệu thời gian (temporal
databases), cơ sở dữ liệu không thời gian (spatio-temporal databases), cơ sở dữ liệu chuỗi thời gian (time series
databases), cơ sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web, …
Dữ liệu tạm thời: các dòng dữ liệu (data streams)
9
Trang 112.1 Kiểu dữ liệu
Twitter: > 7 terabytes per day
Facebook: 10 terabytes per day
Some enterprises: terabytes of data every hour
of every day of the year
Let’s imagine data all over the world:
* 2000: 800000 petabytes
* 2020: 35 zettabytes
11
Source: P C Zikopoulos, C Eaton, D deRoos, T Deutsch, G Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p 5-6
Trang 12 Velocity
How fast is fast?
12
Figure 1-1 IBM characterizes Big Data by its volume, velocity, and variety - or simply, V 3
Source: P C Zikopoulos, C Eaton, D deRoos, T Deutsch, G Lapis, "Understaning Big Data:
Analytics for Enterprise Class Hadoop and Streaming Data", The McGraw-Hill Companies,
2012., p 5
Trang 132.1 Kiểu dữ liệu
Các đặc trưng của dữ liệu
Trang 142.1 Kiểu dữ liệu
Sự thay đổi trong dữ liệu được khai phá
Không biến đổi
Biến đổi nhưng chỉ trạng thái hiện thời được quan tâm
Biến đổi với các trạng thái khác nhau theo thời gian
Trang 1515
2.2 Các độ đo khoảng cách trong
khai phá dữ liệu
Ma trận dữ liệu (data matrix)
nf x
n1 x
if x
i1 x
1f x
11 x
-n đối tượng (objects)
-p biến/thuộc tính (variables/attributes)
Trang 1616
2.2 Các độ đo khoảng cách trong
khai phá dữ liệu
Ma trận sai biệt (dissimilarity matrix)
) 2 , ( )
1 , (
: :
:
) 2 , 3 ( )
n d n
d
0 d
d(3,1
0 d(2,1)
0
d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính
Trang 1717
2.2 Các độ đo khoảng cách trong
khai phá dữ liệu
d(i, j) là khoảng cách giữa đối tượng i và j; thể hiện sự khác biệt giữa đối tượng i và j; được tính tuỳ thuộc vào kiểu của các biến/thuộc tính
d(i,j) 0
d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j)
Trang 1818
2.2 Các độ đo khoảng cách trong
khai phá dữ liệu
Đối tượng vector (vector objects)
Đối tượng i và j được biểu diễn tương ứng bởi vector x và y
Độ tương tự (similarity) giữa i và j được tính bởi độ đo cosine:
x = (x1, …, xp)
y = (y1, …, yp)
s(x, y) = (x1*y1 + … + xp*yp)/((x12 + … + xp2 ) 1/2 *(y12 + … + yp2 ) 1/2 )
Trang 202 1
1
nf f
|
|
| (|
Trang 2121
2.2 Các độ đo khoảng cách trong
khai phá dữ liệu
Độ đo khoảng cách Minkowski
Độ đo khoảng cách Manhattan
Độ đo khoảng cách Euclidean
p p
q q
j
x i
x j
x i
x j
x i
x j
i
2 2
|
|
|
| ) ,
(
2 2
1
1 x j x i x j x ip x jp
i
x j
|
|
|(|
),
2 2
2 1
1 x j x i x j x i p x j p
i
x j
i
Trang 22b a
c b
j i d
p d
b c a sum
d c d
c
b a b
0 1
c b
a
c b
j i d
) , (
Object i
Object j
(= a + b + c + d)
Hệ số so trùng đơn giản (nếu symmetric):
Hệ số so trùng Jaccard (nếu asymmetric):
Trang 231 1
2 1 )
, (
67 0 1
1 1
1 1 )
, (
33 0 1
0 2
1 0 )
, (
d
Jim Jack
d
Mary Jack
d
Trang 24 N ếu xif hoặc xjf bị thiếu (missing) thì
f (variable/attribute): binary (nominal)
) ( ) ( 1
) ,
(
f ij
p f
f ij
f ij
p
j i d
z if
Trang 2525
5.1 Tổng quan về gom cụm dữ liệu
R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on Neural Networks, 16(3),
May 2005, pp 645-678
Trang 272.4 Vấn đề chất lượng dữ liệu
Chất lượng (quality of data/information)
Phù hợp với đặc tả (specifications), yêu cầu từ
người dùng (user requirements), ngữ cảnh sử
dụng (context of use), …
“A comprehensive list of commonly agreed quality dimensions is still not available.”
Phân loại chiều chất lượng (quality dimensions)
Schema quality dimensions structure
Data quality dimensions instance
C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62
Trang 282.4 Vấn đề chất lượng dữ liệu
Accuracy: “inaccuracy implies that the information
system represents a real world state different from the one that should have been represented.”
Timeliness: refers to “the delay between a change
of the real-world state and the resulting
modification of the information system state.”
Completeness: is “the ability of an information to
represent every meaningful state of the
represented real world system”
28
C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62
Trang 292.4 Vấn đề chất lượng dữ liệu
Consistency: consistency of data values occurs
whether or not there is more than one state of the information system matching a state of the real world system; therefore, “inconsistency
would mean that the representation mapping is one-to-many.”
Interpretability: concerns the documentation
and metadata that are available to interpret correctly the meaning and properties of data sources
29
C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62
Trang 302.4 Vấn đề chất lượng dữ liệu
Accessibility: measures the ability of the user to
access the data as from his/her own culture, physical status/functions and technologies available
Usability: measures the effectiveness, efficiency,
satisfaction with which specified users perceive and make use of data
Trustworthiness: measures how reliable the
organization is in providing data sources
30
C Batini, B Pernici Data Quality Management and Evolution of Information Systems In IFIP International Federation for Information Processing, volume 214, The Past and Future of Information Systems: 1976-2006 and Beyond, eds D Avison, S Elliot, J Krogstie, J Pries-Heje, Boston: Springer, 2006, pp 51-62
Trang 312.5 Trực quan hóa dữ liệu
các biểu diễn đồ họa
Báo cáo
Quản lý tác nghiệp
Theo dõi tiến triển công việc
Khám phá các mối liên hệ trong dữ liệu thông
qua trực quan hóa
31
Trang 322.5 Trực quan hóa dữ liệu
Dữ liệu được quan sát và ghi nhận với nhiều đặc
điểm (thuộc tính, đặc trưng) khác nhau
Không gian dữ liệu vs Không gian biểu diễn dữ liệu
Trang 332.5 Trực quan hóa dữ liệu
33 Figure 2.10, [1], p 57
Trang 342.5 Trực quan hóa dữ liệu
34 Figure 2.13 for geometric projection visualization, [1], p 59
Trang 352.5 Trực quan hóa dữ liệu
35 Figure 2.20 for geometric projection visualization, [1], p 65
Trang 362.5 Trực quan hóa dữ liệu
36 SOM visualization
Trang 372.5 Trực quan hóa dữ liệu
37
Trang 38 Truy xuất => trực quan hóa dữ liệu
ẩn chứa nhiều thông tin và tri thức quý báu
Xử lý
Khai phá
Trang 3939
Hỏi & Đáp …