Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh. Chương này cung cấp cho học viên những kiến thức về: lựa chọn mẫu, làm sạch dữ liệu, tích hợp và biến đổi dữ liệu; tổ chức và cài đặt kho dữ liệu (Data warehouse), tổ chức và cài đặt Data Mart;... Mời các bạn cùng tham khảo!

Trang 1

Đọc sách: Business Intelligence

Concepts and Applications

BI for Better Decisions : Decision Types

BI Tools

BI Skills

BI Applications : Customer Relationship

Management; Health Care and Wellness ;

Education; Retail; Banking; Financial Services;

Insurance; Manufacturing; Telecom; Government

Chương 2: Tiền xử lý và Tổ chức dữ liệu

2.2.1 Tổ chức và cài đặt kho dữ liệu (Data warehouse)

2.2.2 Tổ chức và cài đặt Data Mart

Trang 2

2.1 Tiền xử lý dữ liệu

Làm cho dữ liệu có được ban đầu qua thu thập dữ

liệu (gọi là dữ liệu gốc original data) có thể áp dụng

được (thích hợp) với các mô hình khai phá dữ liệu

(data mining model) cụ thể

◦ ời rạc hóa dữ liệu):

2.1.1 Lựa chọn mẫu

Mục đích loại bỏ những thuộc tính không cần thiết,

dư thừa khỏi quá trình học

Những vấn đề gặp phải:

◦Sự đa dạng và không đồng nhất: nhiều dạng,

nhiều nguồn

◦Quy mô dữ liệu: dung lượng và quy mô của dữ

liệu lớn đòi hỏi các công cụ quản lý và khai phá

dữ liệu phải được cải tiến, nâng cấp cho phù hợp

◦Tốc độ/tính chuyển động liên tục của dữ liệu: các

dòng dữ liệu (data stream)

Trang 4

Phân chia tập dữ liệu

2.1.2 Làm sạch dữ liệu

Điền giá trị bị thiếu (missing values)

Dữ liệu nhiễu

Hồi quy tuyến tính

Trang 5

Một số phương pháp để điền

giá trị thiếu

Bỏ qua các trường có chứa những giá trị này

Điền vào các giá trị thiếu thủ công

Sử dụng các giá trị quy ước (NULL/0)

Sử dụng những giá trị bình quân

Sử dụng các giá trị của các bộ cùng loại để

thay thế cho giá trị thiếu

Sử dụng giá trị có tỉ lệ xuất hiện cao để điền

vào cho các giá trị thiếu

Dữ liệu nhiễu

Dữ liệu nhiễu là các dữ liệu nằm ở những

khoảng không đồng đều, có những giá trị

nằm ở nhóm cao thấp, bất thường không

theo quy luật.

Việc làm mịn một giá trị dữ liệu được xác

định thông qua các giá trị xung quanh nó

được gọi là Bin

Trang 6

Outliers: giá trị 79.29 có thể là 7.929

Ví dụ: Giả sử ta có một danh sách các giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34

Ta có thể phân chia thành các bin

Trang 7

Hồi quy tuyến tính

Tìm ra được một mối quan hệ tốt nhất giữa hai

thuộc tính (hoặc các biến), từ đó một thuộc

tính có thể dùng để dự đoán thuộc tính khác

Phương pháp nhóm cụm: Các giá trị tương tự

nhau được tổ chức thành các nhóm hay “cụm"

trực quan Các giá trị rơi ra bên ngoài các

nhóm này sẽ được xem xét để làm mịn

Xây dựng công cụ khảo sát

Công cụ thực nghiệm

Phiếu

Qui

thang đo các cấp độ hỏi

Trang 8

Thống kê và kiểm định dữ liệu

Thống kê dữ liệu

Thống kê dữ liệu trong Excel

Khái niệm về kiểm định giả thiết

Cho một tổng thể (tập giá trị quan sát), ta thường chỉ có thể lấy ra

một mẫu (tập con các giá trị quan sát) theo lý thuyết lấy mẫu, để

phân tích, xử lí.

Từ đặc trưng của mẫu, ta suy ra (ước lượng) tổng thể cũng có đặc

trưng như thế.

Khi xem xét đặc trưng của mẫu, ta thường đưa ra một giả thiết và

kiểm tra giả thiết đúng hay sai Việc đưa ra kết luận để chấp nhận

hoặc bác bỏ giả thiết này gọi là kiểm định giả thiết (thống kê)

(hypothesis test).

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 56

Trang 9

Những quyết định dựa trên giả thiết

H0

giả thiết H 0 thực tế là đúng

giả thiết H 0 thực tế là sai

Kiểm định chấp

nhận H 0

Xác xuất quyết định đúng là

1 – 

Xác xuất mắc sai lầm loại 2 là 

Kiểm định

bác bỏ H 0

Xác xuất mắc sai lầm loại 1 là 

Xác xuất quyết định đúng là

1 – 

Xác suất mắc sai lầm hoặc đúng trong

Trang 10

Miền bác bỏ và giá trị kiểm định

1 Nếu giả thiết đối có dạng H1:  > 0 thì được gọi là kiểm

định bên phải, vì miền bác bỏ H1 nằm phía bên phải miền

chấp nhận H0

Kiểm định bên phải (one – tail test): H 0 :    0  H 1 :  >  0

• ulà giá trị kiểm định;

•  là mức ý nghĩa

2 Nếu giả thiết đối có dạng H1:  < 0 thì được gọi là kiểm

định bên trái, vì miền bác bỏ H1 nằm phía bên trái miền

chấp nhận H0

Kiểm định bên trái (one – tail test): H 0 :    0  H 1 :  <  0

Trang 11

3 Nếu giả thiết đối có dạng H1:   0 thì được gọi là kiểm

định hai bên, vì miền bác bỏ H1nằm về hai phía miền chấp

nhận H0

Kiếm định hai bên H 0 :  =  0  H 1 :    0

Các phép kiểm định thống kê cơ bản

Kiểm định giả thiết về tỉ lệ tổng thể

Kiểm định giả thiết về trung bình tổng thể

Trang 12

Thực hiện thống kê kiểm định bằng

phần mềm SPSS

Ví dụ về thang đo

Trang 13

Đo độ tin cậy bằng SPSS

Tóm tắt cách thực hiện

Analyze \ Scale \ Reliability Analysis

Chọn các thang đo cần đánh giá độ tin cậy vào

Trang 14

ĐỘ TƯƠNG QUAN CỦA TRẮC NGHIỆM

67

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

Độ tương quan (Correlation)

Trong SPSS, thống kê có tên là hệ số tương quan

Pearson Correlation (kí hiệu R) để đánh giá mức độ

tương quan tuyến tính giữa hai biến định lượng |R|

càng gần 1 thì mối tương quan tuyến tính càng chặt

chẽ |R|=0 thì không có mối tương quan tuyến tính

|R| > 0 hay |R| < 0 biểu thị mối tương quan thuận chiều

hoặc ngược chiều

Giả thuyết H0 trong trường hợp này cho rằng hai biến

định lượng không có mối tương quan với nhau

KHAI PHÁ DỮ LIỆU

TRONG KINH DOANH

68

Trang 15

Cách

69

- Giá trị Sig nói lên tính phù hợp của

hệ số tương quan giữa các biến theo phép kiểm định F với một độ tin cậy cho trước Trong kiếm định này, lấy độ tin cậy là 95%, nghĩa là hệ số sai số Sig không vượt quá 0.05 Do

đó, biến cột nào có giá trị Sig > 0.05 thì nó cần phải loại bỏ để đảm bảo

sự phù hợp của mô hình.

- Ta thấy các thang đó có mối tương quan tương đối như nhau và khá cao.

- Hệ số Pearson nói lên mức độ tương quan giữa các biến với nhau trong mô hình

(dấu âm thể hiện sự tương quan nghịch; dấu dương thể hiện sự tương quan

nghịch): ở đây là tương quan thuận chiều.

Quan sát bảng kết quả và nhận xét

 Các thang đo có mối tương quan như nhau và thuận chiều

 Hai dấu sao ** cạnh 0.350 và sử dụng mức ý nghĩa 1% khẳng định hai cấp độ tư

duy thuật toán chuyển giao và thiết kế tương quan với nhau ở mức rất cao.

KHAI PHÁ DỮ LIỆU

TRONG KINH DOANH

70

Trang 16

2.2 Tổ chức dữ liệu

2.2.1 Tổ chức và cài đặt kho dữ liệu (Data warehouse)

Đặc điểm

Một Data Warehouse là một cơ sở lớn của dữ liệu được thu thập

từ các tổ chức hoặc phòng ban khác nhau trong doanh nghiệp

cung cấp một môi trường tích hợp và một bức tranh tổng quát về

tình hình kinh doanh ở thời điểm hiện tại.

các dữ liệu này thường phù hợp với mô hình nhiều chiều

Trang 17

Example

Given data warehouse

Trang 18

Example – cross tabulation

1 What is the best selling movie by revenue?

2 What is the best quarter by revenue this year?

3 Any other patterns?

Extra- questions

If a cross-tabulation was designed to include customer location data,

one could answer other questions:

1 What is the best selling geography

2 What is the worst selling geography?

3 Any other patterns.

Trang 19

2.2.2 Tổ chức và cài đặt Data

Mart

Là một dạng con của Data Warehouse

Lợi ích của Data mart

Giảm kích thước của tập dữ liệu tìm kiếm.

Cung cấp cách thức truy cập dễ dàng với những tập dữ liệu thường xuyên

Việc cài đặt của Data Mart khá dễ dàng và rẻ hơn so với cài đặt kho dữ liệu

(data warehouse).

nếu có sự thay đổi nào đó với mô hình hệ thống thì data mart dễ dàng

chuyển đổi hơn vì nó có kích thước nhỏ gọn.

Một Data mart được xây dựng bởi một chủ đề hay một chức năng tương

ứng của doanh nghiệp

Dữ liệu trong Data Mart được phân mảnh và cho phép truy cập từng mảng

độc lập với sự kiểm soát đặc thù.

Chính vì dữ liệu được phân mảnh nên nó có thể lưu trữ ở các nền tảng

phần cứng và phần mềm khác nhau.

Trang 20

Các kiểu Data Mart

Kiểu phụ thuộc: Data Mart phụ thuộc được tạo

bằng cách trích rút dữ liệu trực tiếp từ các nguồn

hoạt động tác nghiệp trong hoặc ngoài doanh

nghiệp, hoặc cả hai nguồn này

Kiểu độc lập: Data Mart độc lập được tạo mà không

sử dụng một kho dữ liệu trung tâm

Kiểu lai ghép: Data Mart này có thể lấy dữ liệu từ

kho dữ liệu hoặc từ hệ thống tác nghiệp trong

doanh nghiệp

Các bước cài đặt Data Mart

Trang 21

Data Lake

Đây là nơi lưu trữ dữ liệu lớn (có cấu trúc, nửa cấu trúc và không có

cấu trúc) Nó không hạn chế về kích thước của file dữ liệu cũng như

loại dữ liệu lưu trữ

Mục đích chính của việc xây dựng Data Lake là cung cấp một cái nhìn dữ liệu thô

(chưa tinh chế) cho các nhà khoa học dữ liệu

là một hệ thống hoặc một kho để lưu trữ dữ liệu dưới dạng thô được lưu trữ

Trang 23

◦ The decision may be a simple binary one, whether to

approve a loan or not Or it may be a complex multivalued

decision, as to what may be the diagnosis for a particular

sickness

◦ Decision trees are hierarchically branched structures that

help one come to a decision based on asking certain

questions in a particular sequence

Decision trees are one of the most

widely used techniques for

classification.

A good decision tree should be short

and ask only a few meaningful

questions.

Trang 24

Ví dụ

Câu hỏi có chơi tennis hay không? Quyết định đưa ra dựa trên

các yếu tố về thời tiết: outlook, humidity, wind.

Cây Quyết định

Case Study: Caselet: Predicting Heart Attacks Using

Decision Trees

Q1 Is a decision tree good enough in terms of accuracy,

design, readability, for this data, and so on? (Cây quyết

định có đủ tốt cho loại dữ liệu này ko? Tại sao?)

Q2 Identify the benefits from creating such a decision

tree Can these be quantified? (Xác định các lợi ích từ

việc tạo ra các cây quyết định này Liệu có định lượng

được các ích lợi này không?)

Trang 25

The objective is to predict the play decision given

the atmospheric conditions out there The decision

is: Should the game be allowed or not?

list of the decisions taken in 14 instances of past

soccer game situations

Trang 26

Decision Tree Construction

Determining root node of the tree: Start with any variable,

in this case outlook It can take three values: sunny,

overcast, and rainy

◦ Start with the sunny value of outlook There are five instances

where the outlook is sunny In two of the five instances, the play

decision was yes, and in the other three, the decision was no

Thus, if the decision rule was that outlook: sunny → no, then three

out of five decisions would be correct, while two out of five such

decisions would be incorrect There are two errors out of five

Similar analysis would be done for other values of

the outlook variable

Adding up errors for all values of outlook, there are

4 errors out of 14

Trang 27

A similar analysis can be done for the other three variables

Splitting the tree

From the outlook node, the tree will split

into three branches, or subtrees,

corresponding to each of the three values of

outlook

Data for the root node (the entire data) will

be divided into the three segments, one for

each of the value of outlook

Trang 28

Result

Determining the next nodes of the tree

A similar logic of tree building should be applied to each

branch For the sunny branch on the left, error values will

be calculated for the three other variables: temp, humidity,

and windy.

The variable of humidity shows the least amount of error,

that is, zero error The other two variables have nonzero

errors Thus, the branch on the left will use humidity as the

next split variable

Trang 29

Similar analysis should be done for the “rainy” value of the

tree

For the rainy branch, it can similarly be seen that the

variable windy gives all the correct answers, while none of

the other two variables makes all the correct decisions

Decision tree for the weather problem

Trang 30

This tree can be used to solve the current problem Here is the problem

again.

Lessons from Constructing

Trees

Trang 31

Observations about how the

tree was constructed

1 This final decision tree has zero errors in

mapping to the prior data In real-life situations,

such perfect predictive accuracy is not possible

when making decision trees

2 The decision tree algorithm selected the

minimum number of variables that are needed to

solve the problem Thus, one can start with all

available variables, and let the decision tree

algorithm select what is useful, and discard the rest

3 This tree is symmetric with all branches being of almost

similar lengths However, in real-life situations, some of the

branches may be longer than the others

4 It is possible to increase predictive accuracy by making

more subtrees and making the tree longer However, the

marginal accuracy gained from each subsequent level in the

tree will be less and may not be worth the loss in ease and

interpretability of the tree If the branches are long and

complicated, it will be difficult to understand and use The

longer branches may need to be trimmed to keep the tree

easy to use.

Trang 32

5 A perfectly fitting tree has the danger of overfitting the data, thus

capturing all the random variations in the data It may fit the training

data well, but may not do well in predicting the future instances.

6 There was a single best tree for this data There could however be

two or more equally efficient decision trees of similar length with

similar predictive accuracy for the same data set

7 Decision trees are based strictly on observing patterns within the

data, and do not rely on any underlying theory of the problem domain

When multiple candidate trees are available, they can all be used,

wherever each one is more reflective for different situations The ease

of understanding the tree would be a criterion for selecting one tree If

both are equally intuitive, then use either one based on personal

preference.

Decision Tree Algorithms

1 Create a root node and assign all of the training data to it

2 Select the best splitting attribute according to certain

criteria 3 Add a branch to the root node for each value of

the split

4 Split the data into mutually exclusive subsets along the

lines of the specific split

5 Repeat Steps 2 and 3 for each and every leaf node until

the stopping criteria is reached

Trang 33

DT và Thuật toán ID3

Iterative Dichotomiser 3 (ID3) là thuật toán nổi

tiếng để xây dựng Decision Tree, áp dụng cho bài

toán Phân loại (Classification) mà tất các các thuộc

tính để ở dạng category

Ví dụ

Trang 34

Hàm số Entropy

Trong thuật toán ID3, các thuộc tính được đánh giá dựa trên Hàm số

Entropy, hàm số phổ biến trong toán học xác suất

Cho một phân phối xác suất của một biến rời rạc xx có thể nhận nn giá

trị khác nhau x1, x2,

Giả sử rằng xác suất để xx nhận các giá trị này là pi = p(x = xi)

Đồ thị entropy

Với cây quyết định, ta cần tạo cây như thế nào để cho ta nhiều thông tin

nhất, tức là Entropy là cao nhất.

Trang 35

Ví dụ

Ta sẽ tiến hành kiểm tra mô hình DT ta vừa tạo được bằng tập

Test Data như bên dưới

Trang 36

Dựa vào cây

Accuracy?

Trang 37

Trong SPSS: Analyze Linear

KQ

Trang 38

Regression- Hồi quy

Hồi quy sử dụng Excel

Hồi quy dùng SPSS

MS Excel

Chọn Data Data Analysis Regression

Trang 40

Để chạy hồi quy đa biến: vào menu Analyze->Regression-> Linear

Association Rule Mining –

Caselet: Netflix—Data Mining in

Entertainment

Q1 Are Netflix customers being

manipulated into seeing what Netflix wants

Trang 41

Example: {Laptop Computer, Antivirus Software} ⇒

{Extended Service Plan} [30%, 70%]

Association Rules Exercise

Định dạng
Số trang	47
Dung lượng	1,94 MB