Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh. Chương này cung cấp cho học viên những kiến thức về: lựa chọn mẫu, làm sạch dữ liệu, tích hợp và biến đổi dữ liệu; tổ chức và cài đặt kho dữ liệu (Data warehouse), tổ chức và cài đặt Data Mart;... Mời các bạn cùng tham khảo!
Trang 1Đọc sách: Business Intelligence
Concepts and Applications
BI for Better Decisions : Decision Types
BI Tools
BI Skills
BI Applications : Customer Relationship
Management; Health Care and Wellness ;
Education; Retail; Banking; Financial Services;
Insurance; Manufacturing; Telecom; Government
Chương 2: Tiền xử lý và Tổ chức dữ liệu
2.2.1 Tổ chức và cài đặt kho dữ liệu (Data warehouse)
2.2.2 Tổ chức và cài đặt Data Mart
Trang 22.1 Tiền xử lý dữ liệu
Làm cho dữ liệu có được ban đầu qua thu thập dữ
liệu (gọi là dữ liệu gốc original data) có thể áp dụng
được (thích hợp) với các mô hình khai phá dữ liệu
(data mining model) cụ thể
◦ ời rạc hóa dữ liệu):
2.1.1 Lựa chọn mẫu
Mục đích loại bỏ những thuộc tính không cần thiết,
dư thừa khỏi quá trình học
Những vấn đề gặp phải:
◦Sự đa dạng và không đồng nhất: nhiều dạng,
nhiều nguồn
◦Quy mô dữ liệu: dung lượng và quy mô của dữ
liệu lớn đòi hỏi các công cụ quản lý và khai phá
dữ liệu phải được cải tiến, nâng cấp cho phù hợp
◦Tốc độ/tính chuyển động liên tục của dữ liệu: các
dòng dữ liệu (data stream)
Trang 4Phân chia tập dữ liệu
2.1.2 Làm sạch dữ liệu
Điền giá trị bị thiếu (missing values)
Dữ liệu nhiễu
Hồi quy tuyến tính
Trang 5Một số phương pháp để điền
giá trị thiếu
Bỏ qua các trường có chứa những giá trị này
Điền vào các giá trị thiếu thủ công
Sử dụng các giá trị quy ước (NULL/0)
Sử dụng những giá trị bình quân
Sử dụng các giá trị của các bộ cùng loại để
thay thế cho giá trị thiếu
Sử dụng giá trị có tỉ lệ xuất hiện cao để điền
vào cho các giá trị thiếu
Dữ liệu nhiễu
Dữ liệu nhiễu là các dữ liệu nằm ở những
khoảng không đồng đều, có những giá trị
nằm ở nhóm cao thấp, bất thường không
theo quy luật.
Việc làm mịn một giá trị dữ liệu được xác
định thông qua các giá trị xung quanh nó
được gọi là Bin
Trang 6Outliers: giá trị 79.29 có thể là 7.929
Ví dụ: Giả sử ta có một danh sách các giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34
Ta có thể phân chia thành các bin
Trang 7Hồi quy tuyến tính
Tìm ra được một mối quan hệ tốt nhất giữa hai
thuộc tính (hoặc các biến), từ đó một thuộc
tính có thể dùng để dự đoán thuộc tính khác
Phương pháp nhóm cụm: Các giá trị tương tự
nhau được tổ chức thành các nhóm hay “cụm"
trực quan Các giá trị rơi ra bên ngoài các
nhóm này sẽ được xem xét để làm mịn
Xây dựng công cụ khảo sát
Công cụ thực nghiệm
Phiếu
Qui
thang đo các cấp độ hỏi
Trang 8Thống kê và kiểm định dữ liệu
Thống kê dữ liệu
Thống kê dữ liệu trong Excel
Khái niệm về kiểm định giả thiết
Cho một tổng thể (tập giá trị quan sát), ta thường chỉ có thể lấy ra
một mẫu (tập con các giá trị quan sát) theo lý thuyết lấy mẫu, để
phân tích, xử lí.
Từ đặc trưng của mẫu, ta suy ra (ước lượng) tổng thể cũng có đặc
trưng như thế.
Khi xem xét đặc trưng của mẫu, ta thường đưa ra một giả thiết và
kiểm tra giả thiết đúng hay sai Việc đưa ra kết luận để chấp nhận
hoặc bác bỏ giả thiết này gọi là kiểm định giả thiết (thống kê)
(hypothesis test).
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 56
Trang 9Những quyết định dựa trên giả thiết
H0
giả thiết H 0 thực tế là đúng
giả thiết H 0 thực tế là sai
Kiểm định chấp
nhận H 0
Xác xuất quyết định đúng là
1 –
Xác xuất mắc sai lầm loại 2 là
Kiểm định
bác bỏ H 0
Xác xuất mắc sai lầm loại 1 là
Xác xuất quyết định đúng là
1 –
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 57
Xác suất mắc sai lầm hoặc đúng trong
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 58
Trang 10Miền bác bỏ và giá trị kiểm định
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 59
1 Nếu giả thiết đối có dạng H1: > 0 thì được gọi là kiểm
định bên phải, vì miền bác bỏ H1 nằm phía bên phải miền
chấp nhận H0
Kiểm định bên phải (one – tail test): H 0 : 0 H 1 : > 0
• ulà giá trị kiểm định;
• là mức ý nghĩa
Miền bác bỏ và giá trị kiểm định
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 60
2 Nếu giả thiết đối có dạng H1: < 0 thì được gọi là kiểm
định bên trái, vì miền bác bỏ H1 nằm phía bên trái miền
chấp nhận H0
Kiểm định bên trái (one – tail test): H 0 : 0 H 1 : < 0
• ulà giá trị kiểm định;
• là mức ý nghĩa
Trang 11Miền bác bỏ và giá trị kiểm định
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 61
3 Nếu giả thiết đối có dạng H1: 0 thì được gọi là kiểm
định hai bên, vì miền bác bỏ H1nằm về hai phía miền chấp
nhận H0
Kiếm định hai bên H 0 : = 0 H 1 : 0
• ulà giá trị kiểm định;
• là mức ý nghĩa
Các phép kiểm định thống kê cơ bản
Kiểm định giả thiết về tỉ lệ tổng thể
Kiểm định giả thiết về trung bình tổng thể
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 62
Trang 12Thực hiện thống kê kiểm định bằng
phần mềm SPSS
Ví dụ về thang đo
Trang 13Đo độ tin cậy bằng SPSS
Tóm tắt cách thực hiện
Analyze \ Scale \ Reliability Analysis
Chọn các thang đo cần đánh giá độ tin cậy vào
Trang 14ĐỘ TƯƠNG QUAN CỦA TRẮC NGHIỆM
67
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
Độ tương quan (Correlation)
Trong SPSS, thống kê có tên là hệ số tương quan
Pearson Correlation (kí hiệu R) để đánh giá mức độ
tương quan tuyến tính giữa hai biến định lượng |R|
càng gần 1 thì mối tương quan tuyến tính càng chặt
chẽ |R|=0 thì không có mối tương quan tuyến tính
|R| > 0 hay |R| < 0 biểu thị mối tương quan thuận chiều
hoặc ngược chiều
Giả thuyết H0 trong trường hợp này cho rằng hai biến
định lượng không có mối tương quan với nhau
KHAI PHÁ DỮ LIỆU
TRONG KINH DOANH
68
Trang 15Độ tương quan (Correlation)
Cách
69
- Giá trị Sig nói lên tính phù hợp của
hệ số tương quan giữa các biến theo phép kiểm định F với một độ tin cậy cho trước Trong kiếm định này, lấy độ tin cậy là 95%, nghĩa là hệ số sai số Sig không vượt quá 0.05 Do
đó, biến cột nào có giá trị Sig > 0.05 thì nó cần phải loại bỏ để đảm bảo
sự phù hợp của mô hình.
- Ta thấy các thang đó có mối tương quan tương đối như nhau và khá cao.
- Hệ số Pearson nói lên mức độ tương quan giữa các biến với nhau trong mô hình
(dấu âm thể hiện sự tương quan nghịch; dấu dương thể hiện sự tương quan
nghịch): ở đây là tương quan thuận chiều.
Độ tương quan (Correlation)
Quan sát bảng kết quả và nhận xét
Các thang đo có mối tương quan như nhau và thuận chiều
Hai dấu sao ** cạnh 0.350 và sử dụng mức ý nghĩa 1% khẳng định hai cấp độ tư
duy thuật toán chuyển giao và thiết kế tương quan với nhau ở mức rất cao.
KHAI PHÁ DỮ LIỆU
TRONG KINH DOANH
70
Trang 162.2 Tổ chức dữ liệu
2.2.1 Tổ chức và cài đặt kho dữ liệu (Data warehouse)
Đặc điểm
Một Data Warehouse là một cơ sở lớn của dữ liệu được thu thập
từ các tổ chức hoặc phòng ban khác nhau trong doanh nghiệp
cung cấp một môi trường tích hợp và một bức tranh tổng quát về
tình hình kinh doanh ở thời điểm hiện tại.
các dữ liệu này thường phù hợp với mô hình nhiều chiều
Trang 17KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 73
Example
Given data warehouse
Trang 18Example – cross tabulation
1 What is the best selling movie by revenue?
2 What is the best quarter by revenue this year?
3 Any other patterns?
Extra- questions
If a cross-tabulation was designed to include customer location data,
one could answer other questions:
1 What is the best selling geography
2 What is the worst selling geography?
3 Any other patterns.
Trang 192.2.2 Tổ chức và cài đặt Data
Mart
Là một dạng con của Data Warehouse
Lợi ích của Data mart
Giảm kích thước của tập dữ liệu tìm kiếm.
Cung cấp cách thức truy cập dễ dàng với những tập dữ liệu thường xuyên
Việc cài đặt của Data Mart khá dễ dàng và rẻ hơn so với cài đặt kho dữ liệu
(data warehouse).
nếu có sự thay đổi nào đó với mô hình hệ thống thì data mart dễ dàng
chuyển đổi hơn vì nó có kích thước nhỏ gọn.
Một Data mart được xây dựng bởi một chủ đề hay một chức năng tương
ứng của doanh nghiệp
Dữ liệu trong Data Mart được phân mảnh và cho phép truy cập từng mảng
độc lập với sự kiểm soát đặc thù.
Chính vì dữ liệu được phân mảnh nên nó có thể lưu trữ ở các nền tảng
phần cứng và phần mềm khác nhau.
Trang 20Các kiểu Data Mart
Kiểu phụ thuộc: Data Mart phụ thuộc được tạo
bằng cách trích rút dữ liệu trực tiếp từ các nguồn
hoạt động tác nghiệp trong hoặc ngoài doanh
nghiệp, hoặc cả hai nguồn này
Kiểu độc lập: Data Mart độc lập được tạo mà không
sử dụng một kho dữ liệu trung tâm
Kiểu lai ghép: Data Mart này có thể lấy dữ liệu từ
kho dữ liệu hoặc từ hệ thống tác nghiệp trong
doanh nghiệp
Các bước cài đặt Data Mart
Trang 21Data Lake
Đây là nơi lưu trữ dữ liệu lớn (có cấu trúc, nửa cấu trúc và không có
cấu trúc) Nó không hạn chế về kích thước của file dữ liệu cũng như
loại dữ liệu lưu trữ
Mục đích chính của việc xây dựng Data Lake là cung cấp một cái nhìn dữ liệu thô
(chưa tinh chế) cho các nhà khoa học dữ liệu
là một hệ thống hoặc một kho để lưu trữ dữ liệu dưới dạng thô được lưu trữ
Trang 23◦ The decision may be a simple binary one, whether to
approve a loan or not Or it may be a complex multivalued
decision, as to what may be the diagnosis for a particular
sickness
◦ Decision trees are hierarchically branched structures that
help one come to a decision based on asking certain
questions in a particular sequence
Decision trees are one of the most
widely used techniques for
classification.
A good decision tree should be short
and ask only a few meaningful
questions.
Trang 24Ví dụ
Câu hỏi có chơi tennis hay không? Quyết định đưa ra dựa trên
các yếu tố về thời tiết: outlook, humidity, wind.
Cây Quyết định
Case Study: Caselet: Predicting Heart Attacks Using
Decision Trees
Q1 Is a decision tree good enough in terms of accuracy,
design, readability, for this data, and so on? (Cây quyết
định có đủ tốt cho loại dữ liệu này ko? Tại sao?)
Q2 Identify the benefits from creating such a decision
tree Can these be quantified? (Xác định các lợi ích từ
việc tạo ra các cây quyết định này Liệu có định lượng
được các ích lợi này không?)
Trang 25The objective is to predict the play decision given
the atmospheric conditions out there The decision
is: Should the game be allowed or not?
list of the decisions taken in 14 instances of past
soccer game situations
Trang 26Decision Tree Construction
Determining root node of the tree: Start with any variable,
in this case outlook It can take three values: sunny,
overcast, and rainy
◦ Start with the sunny value of outlook There are five instances
where the outlook is sunny In two of the five instances, the play
decision was yes, and in the other three, the decision was no
Thus, if the decision rule was that outlook: sunny → no, then three
out of five decisions would be correct, while two out of five such
decisions would be incorrect There are two errors out of five
Similar analysis would be done for other values of
the outlook variable
Adding up errors for all values of outlook, there are
4 errors out of 14
Trang 27A similar analysis can be done for the other three variables
Splitting the tree
From the outlook node, the tree will split
into three branches, or subtrees,
corresponding to each of the three values of
outlook
Data for the root node (the entire data) will
be divided into the three segments, one for
each of the value of outlook
Trang 28Result
Determining the next nodes of the tree
A similar logic of tree building should be applied to each
branch For the sunny branch on the left, error values will
be calculated for the three other variables: temp, humidity,
and windy.
The variable of humidity shows the least amount of error,
that is, zero error The other two variables have nonzero
errors Thus, the branch on the left will use humidity as the
next split variable
Trang 29Similar analysis should be done for the “rainy” value of the
tree
For the rainy branch, it can similarly be seen that the
variable windy gives all the correct answers, while none of
the other two variables makes all the correct decisions
Decision tree for the weather problem
Trang 30This tree can be used to solve the current problem Here is the problem
again.
Lessons from Constructing
Trees
Trang 31Observations about how the
tree was constructed
1 This final decision tree has zero errors in
mapping to the prior data In real-life situations,
such perfect predictive accuracy is not possible
when making decision trees
2 The decision tree algorithm selected the
minimum number of variables that are needed to
solve the problem Thus, one can start with all
available variables, and let the decision tree
algorithm select what is useful, and discard the rest
3 This tree is symmetric with all branches being of almost
similar lengths However, in real-life situations, some of the
branches may be longer than the others
4 It is possible to increase predictive accuracy by making
more subtrees and making the tree longer However, the
marginal accuracy gained from each subsequent level in the
tree will be less and may not be worth the loss in ease and
interpretability of the tree If the branches are long and
complicated, it will be difficult to understand and use The
longer branches may need to be trimmed to keep the tree
easy to use.
Trang 325 A perfectly fitting tree has the danger of overfitting the data, thus
capturing all the random variations in the data It may fit the training
data well, but may not do well in predicting the future instances.
6 There was a single best tree for this data There could however be
two or more equally efficient decision trees of similar length with
similar predictive accuracy for the same data set
7 Decision trees are based strictly on observing patterns within the
data, and do not rely on any underlying theory of the problem domain
When multiple candidate trees are available, they can all be used,
wherever each one is more reflective for different situations The ease
of understanding the tree would be a criterion for selecting one tree If
both are equally intuitive, then use either one based on personal
preference.
Decision Tree Algorithms
1 Create a root node and assign all of the training data to it
2 Select the best splitting attribute according to certain
criteria 3 Add a branch to the root node for each value of
the split
4 Split the data into mutually exclusive subsets along the
lines of the specific split
5 Repeat Steps 2 and 3 for each and every leaf node until
the stopping criteria is reached
Trang 33DT và Thuật toán ID3
Iterative Dichotomiser 3 (ID3) là thuật toán nổi
tiếng để xây dựng Decision Tree, áp dụng cho bài
toán Phân loại (Classification) mà tất các các thuộc
tính để ở dạng category
Ví dụ
Trang 34Hàm số Entropy
Trong thuật toán ID3, các thuộc tính được đánh giá dựa trên Hàm số
Entropy, hàm số phổ biến trong toán học xác suất
Cho một phân phối xác suất của một biến rời rạc xx có thể nhận nn giá
trị khác nhau x1, x2,
Giả sử rằng xác suất để xx nhận các giá trị này là pi = p(x = xi)
Đồ thị entropy
Với cây quyết định, ta cần tạo cây như thế nào để cho ta nhiều thông tin
nhất, tức là Entropy là cao nhất.
Trang 35Ví dụ
Ta sẽ tiến hành kiểm tra mô hình DT ta vừa tạo được bằng tập
Test Data như bên dưới
Trang 36Dựa vào cây
Accuracy?
Trang 37Trong SPSS: Analyze Linear
KQ
Trang 38Regression- Hồi quy
Hồi quy sử dụng Excel
Hồi quy dùng SPSS
MS Excel
Chọn Data Data Analysis Regression
Trang 40Để chạy hồi quy đa biến: vào menu Analyze->Regression-> Linear
Association Rule Mining –
Caselet: Netflix—Data Mining in
Entertainment
Q1 Are Netflix customers being
manipulated into seeing what Netflix wants
Trang 41Example: {Laptop Computer, Antivirus Software} ⇒
{Extended Service Plan} [30%, 70%]
Association Rules Exercise