BÀI 4Que sera sera ……… Người đầu tiên dùng số liệu thống kê để dự báo?. Trong thời kỳ bị dịch bệnh hoành hành vào cuối thế kỷ 16, chính phủ Anh bắt đầu phát hành số liệu thống kê hàng tu
Trang 1BÀI 4
Que sera sera ………
Người đầu tiên dùng số liệu thống kê để dự báo?
“Lo lắng về nạn bệnh dịch, Henry VII đã hạ lệnh phải ghi chép số người chết kể từ năm 1532 Cũng vào thời gian
đó, tại Pháp, giới tăng lữ cũng buộc phải ghi chép về số
lễ rửa tội, số đám tang và số lễ kết hôn Trong thời kỳ bị dịch bệnh hoành hành vào cuối thế kỷ 16, chính phủ Anh bắt đầu phát hành số liệu thống kê hàng tuần về số người chết Đến năm 1632, Bills of Mortality cung cấp số chết
và số sinh theo giới đã ra đời
Năm 1662, Captain John Graunt sử dụng số liệu 30 năm của Bills of Mortality để dự báo số người sẽ chết bởi bệnh dịch, và dự báo tỉ lệ sinh đối với nam và nữ Graunt được coi là người tiên phong trong việc sử dụng số liệu thống
kê để làm dự báo Với cống hiến của mình, ông được mời làm thành viên của Hàn Lâm Hoàng Gia Anh.”
Nguồn Trần Trí Dũnghttp://www.saga.vn/Kinhtehockinhdoanh/Mohinhtoan/983.saga
Phân loại
Định tính
• Kinh nghiệm
• Phương pháp Delphi
• Cố vấn
• Khảo sát khách hàng
• … …
Định lượng
• Mô hình chuỗi thời gian
Yt=f(Yt-1, Yt-2,…, Yt-n)
Trang 2Phương pháp Delphi
Phương pháp dự báo định tính theo đó ý kiến của các chuyên gia được kết hợp trong một loạt số lần lặp lại Kết quả của mỗi lần lặp lại được sử dụng cho lần lặp tiếp theo để thu thập được ý kiến chung của các chuyên gia
Dự báo theo chuỗi thời gian (Time Series Models)
• Dựa vào các giá trị khảo sát trước đó
• Ý tưởng: phát hiện “dạng thức”
• Dự báo nhu cầu ngắn hạn
• Phổ biến, dễ làm
Ngẫu nhiên
Tuyến tính
Phi tuyến
Đặc trưng chuỗi tuần tự theo thời gian
Xu hướng dài hạn
(Trend component)
Thành phần chu kỳ
(Cyclical component)
Thành phần mùa
(Seasonal component)
Thành phần bất thường
(Irregular component)
Vấn đề
Ft– Dự báo kỳ thứ t
Di– Giá trị khảo sát ở kỳ i < t
ai– Mức độ ảnh hưởng của kỳ i
Xác định ai ??
1
n t n
F
Trang 3Dự báo theo mô hình nhân quả (Causal Models)
Dùng nguyên nhân (biến độc lập) để dự báo kết quả
(biến phụ thuộc)
Công cụ: Hồi quy (Regression Analysis)
• Y = a0+ a1X1+ a2X2+ … anXn
• Xác định ai phương pháp bình phương tối thiểu
II Một số mô hình dự báo
Moving Averages Exponential Smoothing Regression Analysis
1 Ví dụ
Dự báo nhu cầu bánh trung thu
5 7 9 11 13 15 17 19 21 23 25
kỳ
2008 11
140
22 2007 10
19 2006 9
17 2005 8
16 2004 7
13 2003 6
12 2002 5
10 2001 4
11 2000 3
10 1999 2
10 1998 1
Di Năm Kỳ
?
Phương pháp đơn giản Ft = D t–1
5 7 9 11 13 15 17 19 21 23 25
kỳ
Di Fi
17 16 13 12 10 11 10 10 Di
16 8
13 7
12 6
10 5
11 4
10 3
10 2
NA 1
Fi
Trang 4Phương pháp trung bình Ft = D
5 7 9 11 13 15 17 19 21 23 25
kỳ
Di Fi
140
22 19 17 16 13 12 10 11 10 10 Di
14
11
14 10
14 9
14 8
14 7
14 6
14 5
14 4
14 3
14 2
14 1
Fi
?
2 Trung bình di động – Moving Average
a Ví dụ: cửa sổ trượt w = 2
5 7 9 11 13 15 17 19 21 23 25
kỳ
Di Fi
140 22 19 17 16 13 12 10 11 10 10 Di
20,5
11
18 10
16,5 9
14,5 8
12,5 7
11 6
10,5 5
10,5 4
10 3
NA 2
NA 1
Fi
“Bán bà con xa,
mua láng giềng gần”
?
b Cách tính
Trung bình đơn giản của w kỳ gần nhất
• w càng lớn càng ổn định
• w càng nhỏ càng linh hoạt
1
1 w N
n
c Công cụ Moving Average
1 Chuẩn bị vùng
Input Range
2 Ra lịnh Tools Data Analysis Moving Average
3 Khai báo
a Input Range
b Interval
c Output options
4 Nhấn OK
Ví dụ (Excel 2003)
ⓐ
ⓑ
ⓒ
Trang 53 San bằng mũ – Exponential Smoothing
a Ví dụ: hệ số điều chỉnh a = 0,7
5 7 9 11 13 15 17 19 21 23 25
kỳ
Di Fi
3,78 2,61 2,04 3,46 1,54 1,79 – 0,7 1 0 NA
Di–
Fi
140
22 19 17 16 13 12 10 11 10 10 Di
20,87
11
18,22 10
16,39 9
14,96 8
12,54 7
11,46 6
10,21 5
10,70 4
10,00 3
10,00 2
NA 1
Fi Kỳ
“Sai thì sửa”
Ft = Ft–1 + a(Dt–1–Ft–1)
?
3 San bằng mũ – Exponential Smoothing
a Ví dụ: hệ số điều chỉnh a = 0,7
5 7 9 11 13 15 17 19 21 23 25
kỳ
Di Fi
2,04 3,46 1,54 1,79 – 0,7 1 0 NA
Di–
Fi
17 16 13 12 10 11 10 10 Di
14,96 8
12,54 7
11,46 6
10,21 5
10,70 4
10,00 3
10,00 2
NA 1
Fi Kỳ
b Cách tính
• Dự báo = trung bình có trọng số của giá trị dự báo
và nhu cầu thực tế kỳ cuối
• a càng nhỏ càng ổn định
• a càng lớn càng linh hoạt
Ft = Ft–1+ a(Dt–1–Ft–1)
= Ft–1+ a.Dt–1 – a.Ft–1
= a.Dt–1 + Ft–1 – a.Ft–1
= a Dt–1+ (1 – a) Ft–1
Lưu ý: Ký hiệu dampFactor u dampFactor = 1 – a
c Công cụ Exponential Smoothing
1 Chuẩn bị Input
Range
2 Ra lịnh Tools
Data Analysis Exponential Smoothing
ⓐ
ⓑ
3 Khai báo
a Input Range và Damping factor (mặc định là 0.3)
Trang 6Moving Average vs Exponential Smoothing
Giống nhau
• Quá trình ổn định
• 1 thông số (a hoặc N)
MA: N kỳ cuối MA: N số liệu gần nhất
ES: Kỳ cuối cùng ES: Dữ liệu kỳ cuối cùng
4 Hồi quy đơn tuyến tính
a Ví dụ
y = 1.32x + 6.67
R 2 = 0.89
5 7 9 11 13 15 17 19 21 23 25
kỳ
22 19 17 16 13 12 10 11 10 10 Di
21,2
11
19,9 10
18,6 9
17,2 8
15,9 7
14,6 6
13,3 5
12,0 4
10,6 3
9,3 2
8,0 1
Fi
Mối quan hệ hàm số
Y = f(x) = a.x + b
?
b Các khái niệm liên quan
Mô hình nhân quả – Quan hệ Tương quan
“Ở hiền gặp lành”
Vấn đề: “có quan hệ”
Câu trên có đúng không?
Và nếu đúng thì đúng bao nhiêu phần?
Hồi Qui (Regression) – Tương Quan (Correlation)
Phân tích hồi quy là kỹ thuật dự báo dùng để thiết lập mối quan hệ giữa các lượng biến
Y=f(X1, X2, …, Xn)
Nếu n = 1 hồi quy đơn biến; n > 1 đa biến Nếu f có dạng đường thẳng hồi quy tuyến tính Nếu f không có dạng thẳng phi tuyến
biến độc lậ
Trang 7Hệ số tương quan (coefficient of correlation)
Dùng đánh giá mức độ tương quan giữa 2 đại lương
X và Y
Chặt chẽ
> 0.9
Rất cao
0.81 0.90
Cao
0.61 0.80
Trung bình
0.41 0.60
Vừa phải
0.31 0.40
Yếu
0.21 0.30
Rời rạc
0.16 0.20
Không có quan hệ
< 0.15
Mức độ quan hệ
| rxy |
rxy > 0 tương quan
thuận
rxy < 0 tương quan
nghịch
b Cách tính Hồi quy đơn tuyến tính Y t = ax t + b
b ≅ Hệ số / tung độ gốc (Intercept)
2 2 2 2
x x
y x y x x n x
y x n y x a
x b y
b
a ≅ Hệ số gốc / độ dốc (Slope) xu hướng
rxy≅Hệ số tương quan (coefficient of correlation)
c Công cụ
①Hàm
Regression
② Đồ thị (Add Trendline)
a. TR
END(
know n_y's ,know n_x's ,new_
x’s)
b. IN
TERC
EPT(
know n_y's ,know n_x's )
c.
SLOP E(kn
own_
y's,kn
own_
x's)
d. CO
RREL (arra y1,ar
ray2 )
Xác định phương trình hồi quy bằng hàm
TREND(known_y's,known_x's,new_x’s) INTERCEPT(known_y's,known_x's) SLOPE(known_y's,known_x's) CORREL(array1,array2)
16 13 12 10 11 10 10
Di
7 6 5 4 3 2 1
Kỳ
known_y’s known_x’s
Trang 8Đồ thị (Add Trendline)
1 Tạo đồ thị
2 Chọn data
series
3 Click Add
Trendline trên Chart menu
4 Chọn dạng
linear trong
trang Type
5 Nhấn OK
Tùy chọn hiển thị phương trình hồi quy Tùy chọn hiển thị
hệ số R 2
Trend line Area,Bar, Column, Line, XY scatter
Ví dụ (Excel 2003)
Công cụ Regression
1 Ra lịnh Tools,
Data Analysis, Regression
2 Khai báo – Input Y Range:
biến độc lập – Input X Range:
biến độc lập – Output options
5 Nhấn OK
Ví dụ (Excel 2003)
Bài tập
So sánh ưu nhược điểm của 3 phương pháp dự báo
1 Trung bình di động
2 San bằng mũ
3 Hồi quy đơn tuyến tính
III Lựa chọn mô hình dự báo
Trang 91 Đo lường sai số dự báo
• Mean Square Deviation
• Bias
• Mean Absolute Deviation
Ghi chú: Hàm SUMXMY2(array_x,array_y) tính (x–y) 2
2 Quan hệ nhân quả ???
Số liệu thống kê giữa các thành phố cho thấy có quan hệ giữa số lượng cảnh sát với số lượng tội phạm
Ta có thể kết luận: Cảnh sát nhiều thì tội phạm nhiều để giảm tội phạm cần giảm
3 Tính thời vụ (Seasonal Patterns)
Thời vụ là thời gian lặp lại
Ví dụ: Tuần là 1 thời vụ có 7 giai đoạn, năm là thời vụ
có 4 giai đoạn
Ý tưởng cơ bản:
– Gán trọng số
cncho mỗi kỳ hạn (N kỳ) – Σcn = 1 – Điều chỉnh kết quả dự báo bằng trọng số c
Trang 10Nhu cầu và chu kỳ sản phẩm (Product Life Cycles)
Dự báo nhu cầu phụ thuộc vào chu kỳ sản phẩm
Quyết định dựa theo PLC
Product Development
Analysis
Product Introduction
Analysis
Quyết định dựa theo PLC
Growth
statistical tech
promotions
Analysis
Steady State
Analysis
The End