1. Trang chủ
  2. » Hóa học

Bài giảng Khai phá dữ liệu: Chương 3 - TS. Võ Thị Ngọc Châu

20 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 580,93 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Snee, Validation of Regression Models: Methods and Examples, Technometrics , Vol.. Giudici, Ap[r]

Trang 1

1

Học kỳ 1 – 2011-2012

(chauvtn@cse.hcmut.edu.vn)

Trang 2

Tài liệu tham khảo

‡ [1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and

Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.

‡ [2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data

Mining”, MIT Press, 2001.

‡ [3] David L Olson, Dursun Delen, “Advanced Data Mining

Techniques”, Springer-Verlag, 2008.

‡ [4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,

Methodology, Techniques, and Applications”, Springer-Verlag, 2006.

‡ [5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and

Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis

Group, LLC, 2009.

‡ [6] Daniel T Larose, “Data mining methods and models”, John Wiley

& Sons, Inc, 2006.

‡ [7] Ian H.Witten, Eibe Frank, “Data mining : practical machine

learning tools and techniques”, Second Edition, Elsevier Inc, 2005

‡ [8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,

“Successes and new directions in data mining”, IGI Global, 2008.

‡ [9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge

Discovery Handbook”, Second Edition, Springer Science + Business

Media, LLC 2005, 2010.

Trang 3

3

Nội dung

‡ Chương 1: Tổng quan về khai phá dữ liệu

‡ Chương 2: Các vấn đề tiền xử lý dữ liệu

‡ Chương 3: Hồi qui dữ liệu

‡ Chương 4: Phân loại dữ liệu

‡ Chương 5: Gom cụm dữ liệu

‡ Chương 6: Luật kết hợp

‡ Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ

liệu

‡ Chương 8: Ứng dụng khai phá dữ liệu

‡ Chương 9: Các đề tài nghiên cứu trong khai phá dữ

liệu

‡ Chương 10: Ôn tập

Trang 4

Chương 3: Hồi qui dữ liệu

Trang 5

5

3.0 Tình huống 1

Ngày mai giá cổ phiếu STB sẽ là bao nhiêu???

Trang 6

3.0 Tình huống 2

x

y

y = x + 1

X1

Y1 Y1’

Mô hình phân bố dữ liệu của y theo x???

Trang 7

7

3.0 Tình huống 3

Bài toán phân tích giỏ hàng thị

trường (market basket analysis)

Æ sự kết hợp giữa các mặt hàng?

Trang 8

3.0 Tình huống 4

‡ Khảo sát các yếu tố tác động đến xu hướng

sử dụng quảng cáo trực tuyến tại Việt Nam

„ Sự giải trí cảm nhận (+0.209)

„ Chất lượng thông tin (+0.261)

„ Chất lượng thông tin cảm nhận (+0.199)

„ Sự khó chịu cảm nhận (-0.175)

„ Sự tin cậy cảm nhận

„ Thái độ về tính riêng tư

„ Sự tương tác (+0.373)

„ Chuẩn chủ quan (+0.254)

„ Nhận thức kiểm soát hành vi (+0.377)

Trang 9

9

3.0 Tình huống …

‡ Hồi qui (regression)

„ Khai phá dữ liệu có tính dự báo (Predictive data

mining)

‡ Tình huống ???

„ Khai phá dữ liệu có tính mô tả (Descriptive data

mining)

‡ Tình huống ???

Trang 10

3.1 Tổng quan về hồi qui

‡ Định nghĩa - Hồi qui (regression)

„ J Han et al (2001, 2006): Hồi qui là kỹ thuật thống

kê cho phép dự đoán các trị (số) liên tục

„ Wiki (2009): Hồi qui (Phân tích hồi qui – regression

analysis) là kỹ thuật thống kê cho phép ước lượng

các mối liên kết giữa các biến

„ R D Snee (1977): Hồi qui (Phân tích hồi qui) là kỹ

thuật thống kê trong lĩnh vực phân tích dữ liệu và

xây dựng các mô hình từ thực nghiệm, cho phép

mô hình hồi qui vừa được khám phá được dùng cho

mục đích dự báo (prediction), điều khiển (control),

hay học (learn) cơ chế đã tạo ra dữ liệu

R D Snee, Validation of Regression Models: Methods and Examples, Technometrics,

Vol 19, No 4 (Nov., 1977), pp 415-428.

Trang 11

11

3.1 Tổng quan về hồi qui

‡ M ô hình hồi qui (regression model): mô hình mô

tả mối liên kết (relationship) giữa một tập các

biến dự báo (predictor variables/independent

variables) và một hay nhiều đáp ứng

(responses/dependent variables).

Y = f(X, β) X: các biến dự báo (predictor/independent variables) Y: các đáp ứng (responses/dependent variables)

β: các hệ số hồi qui (regression coefficients)

Trang 12

3.1 Tổng quan về hồi qui

‡ Phương trình hồi qui: Y = f(X, β)

„ X: các biến dự báo (predictor/independent

variables)

„ Y: các đáp ứng (responses/dependent variables)

„ β: các hệ số hồi qui (regression coefficients)

Æ X dùng để giải thích sự biến đổi của các đáp ứng Y

Æ Y dùng đề mô tả các hiện tượng (phenomenon)

được quan tâm/giải thích

Æ Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc

hàm của Y đối với X

Æ β mô tả sự ảnh hưởng của X đối với Y

Trang 13

13

3.1 Tổng quan về hồi qui

‡ Ph ân loại

„ Hồi qui tuyến tính (linear) và phi tuyến

(nonlinear)

„ Hồi qui đơn biến (single) và đa biến (multiple)

„ Hồi qui có thông số (parametric), phi thông số

(nonparametric), và thông số kết hợp

(semiparametric)

„ Hồi qui đối xứng (symmetric) và bất đối xứng

(asymmetric)

Trang 14

3.1 Tổng quan về hồi qui

‡ Ph ân loại

„ Hồi qui tuyến tính

(linear) và phi tuyến

(nonlinear)

‡Linear in parameters:

kết hợp tuyến tính các thông số tạo nên Y

‡Nonlinear in

parameters: kết hợp phi tuyến các thông số tạo nên Y

[Regression and Calibration.ppt]

Trang 15

15

3.1 Tổng quan về hồi qui

‡ Ph ân loại

„ Hồi qui đơn biến (single) và đa biến (multiple)

‡Single: X = (X1)

‡Multiple: X = (X1, X2, …, Xk)

ˆ 6 3 9 7 2 2 0 4 9 2 1 0 2 8 0 5

y = + x + x yˆ 26.89 4.06 = + x

[Chapter 6 Regression and Correlation.ppt]

Trang 16

3.1 Tổng quan về hồi qui

‡ Phân loại

„ Hồi qui có thông số (parametric), phi thông số (nonparametric),

và thông số kết hợp (semiparametric)

‡ Parametric: mô hình hồi qui với hữu hạn thông số

‡ Nonparametric: mô hình hồi qui với vô hạn thông số

‡ Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm

[Wikipedia]

[GAM - nonparameteric regression technique.ppt]

P Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.

Y = β0 + β1*X1 + f(X2)

Semiparametric

Y = β0 + f(X)

Nonparametric

Y = β0 + β1*X Parametric

Mathematical Form Types of (Additive) Model

Trang 17

17

3.1 Tổng quan về hồi qui

‡ Ph ân loại

„ Hồi qui đối xứng (symmetric) và bất đối xứng

(asymmetric)

‡Symmetric: mô hình hồi qui có tính mô tả (descriptive) (eg

log-linear models)

ƒ The objective of the analysis is descriptive – to describe the associative structure among the variables.

‡Asymmetric: mô hình hồi qui có tính dự báo (predictive)

(eg linear regression models, logistic regression models )

ƒ The variables are divided in two groups, response and explanatory – to predict the responses on the basis of the explanatory variables.

Æ Generalized linear models: symmetric vs asymmetric

P Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.

Trang 18

3.2 Hồi qui tuyến tính

‡ Hồi qui tuyến tính đơn biến

„ Đường hồi qui (regression line)

‡ Hồi qui tuyến tính đa biến

„ Mặt phẳng hồi qui (regression plane)

Trang 19

19

3.2.1 Hồi qui tuyến tính đơn biến

Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến

tính đơn biến được cho dưới dạng sau với εi dùng giữ phần

biến thiên của đáp ứng Y không được giải thích từ X:

-Dạng đường thẳng

-Dạng parabola

Trang 20

3.2.1 Hồi qui tuyến tính đơn biến

•Y= β0 + β1*X1 → Y = 0.636 + 2.018*X

•Dấu của β1 cho biết sự ảnh hưởng của X đối với Y.

Ngày đăng: 10/03/2021, 14:38

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm