Discovery Handbook”, Second Edition, Springer Science + Business Media, LLC 2005, 2010... Snee, Validation of Regression Models: Methods and Examples, Technometrics , Vol.. Giudici, Ap[r]
Trang 11
Học kỳ 1 – 2011-2012
(chauvtn@cse.hcmut.edu.vn)
Trang 2Tài liệu tham khảo
[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts and
Techniques”, Second Edition, Morgan Kaufmann Publishers, 2006.
[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles of Data
Mining”, MIT Press, 2001.
[3] David L Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.
[4] Graham J Williams, Simeon J Simoff, “Data Mining: Theory,
Methodology, Techniques, and Applications”, Springer-Verlag, 2006.
[5] Hillol Kargupta, Jiawei Han, Philip S Yu, Rajeev Motwani, and
Vipin Kumar, “Next Generation of Data Mining”, Taylor & Francis
Group, LLC, 2009.
[6] Daniel T Larose, “Data mining methods and models”, John Wiley
& Sons, Inc, 2006.
[7] Ian H.Witten, Eibe Frank, “Data mining : practical machine
learning tools and techniques”, Second Edition, Elsevier Inc, 2005
[8] Florent Messeglia, Pascal Poncelet & Maguelonne Teisseire,
“Successes and new directions in data mining”, IGI Global, 2008.
[9] Oded Maimon, Lior Rokach, “Data Mining and Knowledge
Discovery Handbook”, Second Edition, Springer Science + Business
Media, LLC 2005, 2010.
Trang 33
Nội dung
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Các vấn đề tiền xử lý dữ liệu
Chương 3: Hồi qui dữ liệu
Chương 4: Phân loại dữ liệu
Chương 5: Gom cụm dữ liệu
Chương 6: Luật kết hợp
Chương 7: Khai phá dữ liệu và công nghệ cơ sở dữ
liệu
Chương 8: Ứng dụng khai phá dữ liệu
Chương 9: Các đề tài nghiên cứu trong khai phá dữ
liệu
Chương 10: Ôn tập
Trang 4Chương 3: Hồi qui dữ liệu
Trang 55
3.0 Tình huống 1
Ngày mai giá cổ phiếu STB sẽ là bao nhiêu???
Trang 63.0 Tình huống 2
x
y
y = x + 1
X1
Y1 Y1’
Mô hình phân bố dữ liệu của y theo x???
Trang 77
3.0 Tình huống 3
Bài toán phân tích giỏ hàng thị
trường (market basket analysis)
Æ sự kết hợp giữa các mặt hàng?
Trang 83.0 Tình huống 4
Khảo sát các yếu tố tác động đến xu hướng
sử dụng quảng cáo trực tuyến tại Việt Nam
Sự giải trí cảm nhận (+0.209)
Chất lượng thông tin (+0.261)
Chất lượng thông tin cảm nhận (+0.199)
Sự khó chịu cảm nhận (-0.175)
Sự tin cậy cảm nhận
Thái độ về tính riêng tư
Sự tương tác (+0.373)
Chuẩn chủ quan (+0.254)
Nhận thức kiểm soát hành vi (+0.377)
Trang 99
3.0 Tình huống …
Hồi qui (regression)
Khai phá dữ liệu có tính dự báo (Predictive data
mining)
Tình huống ???
Khai phá dữ liệu có tính mô tả (Descriptive data
mining)
Tình huống ???
Trang 103.1 Tổng quan về hồi qui
Định nghĩa - Hồi qui (regression)
J Han et al (2001, 2006): Hồi qui là kỹ thuật thống
kê cho phép dự đoán các trị (số) liên tục
Wiki (2009): Hồi qui (Phân tích hồi qui – regression
analysis) là kỹ thuật thống kê cho phép ước lượng
các mối liên kết giữa các biến
R D Snee (1977): Hồi qui (Phân tích hồi qui) là kỹ
thuật thống kê trong lĩnh vực phân tích dữ liệu và
xây dựng các mô hình từ thực nghiệm, cho phép
mô hình hồi qui vừa được khám phá được dùng cho
mục đích dự báo (prediction), điều khiển (control),
hay học (learn) cơ chế đã tạo ra dữ liệu
R D Snee, Validation of Regression Models: Methods and Examples, Technometrics,
Vol 19, No 4 (Nov., 1977), pp 415-428.
Trang 1111
3.1 Tổng quan về hồi qui
M ô hình hồi qui (regression model): mô hình mô
tả mối liên kết (relationship) giữa một tập các
biến dự báo (predictor variables/independent
variables) và một hay nhiều đáp ứng
(responses/dependent variables).
Y = f(X, β) X: các biến dự báo (predictor/independent variables) Y: các đáp ứng (responses/dependent variables)
β: các hệ số hồi qui (regression coefficients)
Trang 123.1 Tổng quan về hồi qui
Phương trình hồi qui: Y = f(X, β)
X: các biến dự báo (predictor/independent
variables)
Y: các đáp ứng (responses/dependent variables)
β: các hệ số hồi qui (regression coefficients)
Æ X dùng để giải thích sự biến đổi của các đáp ứng Y
Æ Y dùng đề mô tả các hiện tượng (phenomenon)
được quan tâm/giải thích
Æ Quan hệ giữa Y và X được diễn tả bởi sự phụ thuộc
hàm của Y đối với X
Æ β mô tả sự ảnh hưởng của X đối với Y
Trang 1313
3.1 Tổng quan về hồi qui
Ph ân loại
Hồi qui tuyến tính (linear) và phi tuyến
(nonlinear)
Hồi qui đơn biến (single) và đa biến (multiple)
Hồi qui có thông số (parametric), phi thông số
(nonparametric), và thông số kết hợp
(semiparametric)
Hồi qui đối xứng (symmetric) và bất đối xứng
(asymmetric)
Trang 143.1 Tổng quan về hồi qui
Ph ân loại
Hồi qui tuyến tính
(linear) và phi tuyến
(nonlinear)
Linear in parameters:
kết hợp tuyến tính các thông số tạo nên Y
Nonlinear in
parameters: kết hợp phi tuyến các thông số tạo nên Y
[Regression and Calibration.ppt]
Trang 1515
3.1 Tổng quan về hồi qui
Ph ân loại
Hồi qui đơn biến (single) và đa biến (multiple)
Single: X = (X1)
Multiple: X = (X1, X2, …, Xk)
ˆ 6 3 9 7 2 2 0 4 9 2 1 0 2 8 0 5
y = + x + x yˆ 26.89 4.06 = + x
[Chapter 6 Regression and Correlation.ppt]
Trang 163.1 Tổng quan về hồi qui
Phân loại
Hồi qui có thông số (parametric), phi thông số (nonparametric),
và thông số kết hợp (semiparametric)
Parametric: mô hình hồi qui với hữu hạn thông số
Nonparametric: mô hình hồi qui với vô hạn thông số
Semiparametric: mô hình hồi qui với hữu hạn thông số được quan tâm
[Wikipedia]
[GAM - nonparameteric regression technique.ppt]
P Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
Y = β0 + β1*X1 + f(X2)
Semiparametric
Y = β0 + f(X)
Nonparametric
Y = β0 + β1*X Parametric
Mathematical Form Types of (Additive) Model
Trang 1717
3.1 Tổng quan về hồi qui
Ph ân loại
Hồi qui đối xứng (symmetric) và bất đối xứng
(asymmetric)
Symmetric: mô hình hồi qui có tính mô tả (descriptive) (eg
log-linear models)
The objective of the analysis is descriptive – to describe the associative structure among the variables.
Asymmetric: mô hình hồi qui có tính dự báo (predictive)
(eg linear regression models, logistic regression models )
The variables are divided in two groups, response and explanatory – to predict the responses on the basis of the explanatory variables.
Æ Generalized linear models: symmetric vs asymmetric
P Giudici, Applied Data Mining – Statistical Methods for Business and Industry, John Wiley & Sons Ltd, 2003.
Trang 183.2 Hồi qui tuyến tính
Hồi qui tuyến tính đơn biến
Đường hồi qui (regression line)
Hồi qui tuyến tính đa biến
Mặt phẳng hồi qui (regression plane)
Trang 1919
3.2.1 Hồi qui tuyến tính đơn biến
Cho N đối tượng đã được quan sát, mô hình hồi qui tuyến
tính đơn biến được cho dưới dạng sau với εi dùng giữ phần
biến thiên của đáp ứng Y không được giải thích từ X:
-Dạng đường thẳng
-Dạng parabola
Trang 203.2.1 Hồi qui tuyến tính đơn biến
•Y= β0 + β1*X1 → Y = 0.636 + 2.018*X
•Dấu của β1 cho biết sự ảnh hưởng của X đối với Y.