Cơ sở dữ liệu ngoại suy và ứng dụng

Việc dự báo cho các mục tiêu đơn và cụ thể đã được thực hiện nhiều song việc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy, dựa trên các dữ liệu đã thu t

Trang 1

LỜI CẢM ƠN

Luận văn được hoàn thành dưới sự hướng dẫn của tiến sĩ Đỗ Năng Toàn -Viện

Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam

Tác giả xin bày tỏ lòng biết ơn sâu sắc đến các thầy, về sự hướng dẫn tận tình

và đầy lòng nhân hậu trong quá trình học tập, nghiên cứu

Tác giả xin bày tỏ lòng biết ơn đến Ban lãnh đạo Trung tâm Thông tin- Tư liệu

Dầu khí đã tận tình động viên, tạo điều kiện giúp đỡ tác giả trong thời gian học tập

Tác giả xin bày tỏ lòng biết ơn sâu sắc đến Trường Đại học Công nghệ- Đại

học Quốc gia Hà nội, Viện Công nghệ Thông tin- Viện Khoa học và Công nghệ

Việt Nam đã tạo điều kiện thuận lợi trong thời gian học tập và nghiên cứu

Tác giả xin gửi lời cám ơn chân thành đến những người thân trong gia đình

bạn bè và đồng nghiệp về những sự quan tâm, động viên và giúp đỡ trong thời

gian qua

Hà nội tháng 10-2006

Trang 2

MỤC LỤC

MỞ ĐẦU 3

1 Tính thời sự, ý nghĩa thực tiễn của đề tài 3

2 Mục đích, cấu trúc của luận văn 4

Chương 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU “NGOẠI SUY” 6

1 Khái niệm cơ sở dữ liệu “ngoại suy” 6

2 Tính chất của cơ sở dữ liệu “ngoại suy” 8

3 Các bước cần thực hiện để xây dựng cơ sở dữ liệu “ngoại suy” 9

4 Chức năng vai trò của cơ sở dữ liệu “ngoại suy” 11

4.1 Chức năng của cơ sở dữ liệu “ngoại suy” 11

4.2 Vai trò của cơ sở dữ liệu “ngoại suy” 12

Chương 2: MỘT SỐ PHƯƠNG NGOẠI SUY DỮ LIỆU 15

1 Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính 15

1.1 Mô hình hồi quy tuyến tính cổ điển 15

1.2 Ước lượng bình phương cực tiểu 16

1.2.1 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 17

1.2.2 Định lý Gauss về ước lượng bình phương cực tiểu 18

1.2.3 Hệ số xác định R 18

1.2.4 Khoảng tin cậy các hệ số hồi quy  18 i 1.2.5 Kiểm định các giả thiết về hệ số hồi quy 19

1.2.6 Ước lượng hàm hồi quy tuyến tính 21

1.3 Kiểm tra sự phù hợp của mô hình 21

1.3.1 Tiêu chuẩn F 21

1.3.2 Khảo sát các phần dư 21

1.4 Tóm tắt các bước tiến hành phân tích hồi quy 22

1.5 Hệ thống các mô hình hồi quy tuyến tính bội 22

1.5.1 Mô hình hồi quy với nhiều biến phụ thuộc 22

1.5.2 Ước lượng tham số chưa biết của mô hình 24

1.6 Hồi quy và tương quan tuyến tính bội 25

1.6.1 Ngoại suy với một biến phụ thuộc 25

1.6.2 Ngoại suy với nhiều biến phụ thuộc 27

1.7 Mô hình hồi quy phi tuyến 29

2 Ngoại suy bằng phương pháp làm trơn 31

2.1 Các kỹ thuật làm trơn thường dùng 31

2.2 Trung bình trượt đơn 31

2.3 Trung bình trượt kép 33

2.4 Làm trơn đơn mũ 34

2.5 Làm trơn mũ kép 36

3 Ngoại suy dữ liệu dựa trên phân tích chuỗi thời gian 38

3.1 Đại cương về chuỗi thời gian 38

3.1.1 Khái niệm về chuỗi thời gian 38

3.1.2 Mục tiêu của việc phân tích chuỗi thời gian 39

3.2 Quá trình dừng và phân tích hệ số tương quan 41

3.2.1 Khái niệm về quá trình dừng 41

Trang 3

3.2.2 Các quá trình tuyến tính 43

3.2.3 Hệ số tương quan và tự tương quan mẫu 43

3.2.4 Hệ số tự tương.quan riêng 46

3.3 Ngoại suy dữ liệu dựa trên chuỗi thời gian ARMA 47

3.3.1 Khái niệm về chuỗi thời gian dừng 47

3.3.2 Chuỗi thời gian ARMA 51

3.3.3 Ngoại suy dữ liệu trên quá trình ARMA 54

3.3.4 Kiểm tra tính phù hợp của mô hình 64

Chương 3: ỨNG DỤNG 66

1 Cơ sở dữ liệu trạng thái 66

1.1 Cơ sở dữ liệu thời gian 66

1.2 Cơ sở dữ liệu ngoại suy qua trạng thái 69

2 Ứng dụng 69

2.1 Bài toán 69

2.2 Ngoại suy dựa vào chuỗi thời gian 70

2.3 Chương trình quản trị cơ sở dữ liệu International Revenue 73

KẾT LUẬN 75

TÀI LIỆU THAM KHẢO 76

Trang 4

MỞ ĐẦU

1 Tính thời sự, ý nghĩa thực tiễn của đề tài

Khái niệm dự báo đã tồn tại từ rất lâu trong đời sống xã hội Tuy nhiên, trong buổi đầu nó còn mang nặng tính thần bí, vô căn cứ, chỉ sau này khi mà các môn khoa học tự nhiên phát triển thì dự báo mới thực sự được coi trọng và những hoạt động dự báo được diễn ra trên một cơ sở khoa học vững chắc

Ngày nay, việc đoán trước các xu thế tương lai đóng vai trò cực kỳ quan trọng trong việc hoạch định các chính sách kinh tế-xã hội cho hoạt động của các tập đoàn, các công ty nhỏ , vừa, lớn và thậm chí cả những quốc gia hùng mạnh Việc đánh giá các diễn biến tương lai của đối tượng phải dựa trên các số liệu thực tế trong các chu kỳ thời gian trước đó và hiện tại Nhưng trong nhiều trường hợp các số liệu chưa thể cập nhậ t đến thời điểm hiện thời , song nhu cầu bắt buộc lại cần kết quả để đánh giá quá trình hoạt động Ví dụ: Việc tính toán thanh toán khấu trừ khi thực hiện gọi điện thoại giữa các vùng chẳng hạn Cuộc điện thoại được gọi từ Việt Nam sang Mỹ thì Việt Nam thu tiền cước trong khi Mỹ vẫn phải chịu phí tổn đường truyền và ngược lại nếu cuộc điện thoại gọi từ Mỹ về Việt Nam thì Mỹ lại là người thu tiền Vấn đề đặt ra là cần phải tính toán khấu trừ giữa việc gọi đi và gọi đến Tuy nhiên, các số liệu thực tế thường có được chậm, có khi là cả quý Số liệu thật

có chậm một quý và việc thanh toán thì lại chậm thêm mất một quý nữa Trong khi chúng ta lại luôn cần biết thông tin về kinh doanh tại thời điểm hiện tại để có kế hoạch, định hướng kinh doanh chẳng hạn như thuê thêm hay bớt đi đường truyền

Từ đó dẫn đến một tất yếu nảy sinh là phải tính toán dựa trên các số liệu ngoại suy (extrapolate data) để phục vụ nhu cầu đánh giá và quyết định

Việc dự báo cho các mục tiêu đơn và cụ thể đã được thực hiện nhiều song việc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy, dựa trên các dữ liệu đã thu thập trong quá khứ, hiện tại và tổ chức thành một cơ sở

dữ liệu gọi là cơ sở dữ liệu “ngoại suy” thì ít và có thể nói là chưa có tài liệu nào đề cập đến, cho dù đã có rất nhiều dạng cấu trúc dữ liệu đã được tạo dựng

2 Mục đích, cấu trúc của luận văn

Sử dụng các kỹ thuật ngoại suy dữ liệu nhằm ứng dụng vào các mục đích dự báo đã được sử dụng nhiều trong các đơn vị hành chính cũng như các doanh nghiệp thông qua các mô hình, các phương pháp toán học Việc tổ chức có tính chất hệ thống cho các dữ liệu ngoại suy nhằm xây dựng các cơ sở dữ liệu mà thực tiễn đặt

Trang 5

ra đang là nhu cầu cấp thiết nhưng những tài liệu có tính chất hệ thống về vấn đề đặt

Chương 1: Tổng quan về cơ sở dữ liệu “ngoại suy” (8 trang)

Trình bày tổng quan về các mô hình cơ sở dữ liệu, về dữ liệu ngoại suy Sau

đó nêu lên vai trò của việc tổ chức dữ liệu ngoại suy trong việc tổ chức và quản lý

dữ liệu

Chương 2: Một số phương pháp ngoại suy dữ liệu (51 trang)

Chương này trình bày các khái niệm và các kỹ thuật ứng với ba phương pháp chính thường được sử dụng trong việc ngoại suy dữ liệu, đó là: Mô hình hồi quy và phương pháp ngoại suy dựa vào mô hình hồi quy Quá trình làm trơn và ngoại suy dựa trên làm trơn Chuỗi thời gian và ngoại suy dữ liệu dựa trên chuỗi thời gian

Chương 3: Ứng dụng (9 trang)

Trình bày việc tổ chức dữ liệu ngoại suy thành cơ sở dữ liệu dựa trên việc gán trạng thái thời gian cho các bản ghi Trên cơ sở đó cài đặt ứng dụng cụ thể liên quan đến việc thao tác với các dữ liệu ngoại suy

Trang 6

Chương 1

TỔNG QUAN VỀ CƠ SƠ DỮ LIỆU “NGOẠI SUY”

1 Khái niệm cơ sở dữ liệu “ngoại suy”

Bản thân thuật ngữ cơ sở dữ liệu “ngoại suy” đã nói lên thuộc tính không thể thiếu được của bộ não con người: đó là sự phản ánh vượt trước, sự cố gắng hướng tới một tương lai ngày một tốt đẹp hơn Những cố gắng ban đầu được thể hiện dưới hình thức là ước đoán, những hy vọng thiếu căn cứ, những ước muốn viển vông không tưởng, những tính toán ước lượng thiếu cơ sở khoa học và mang nặng tính kinh nghiệm.[1]

Từ cổ xưa việc dự báo đã được áp dụng trong cuộc sống hàng ngày, nhưng mang nặng màu sắc thần bí tôn giáo, thể hiện ở các câu tiên tri, lời bói toán Ngay

từ thời cổ Hy Lạp người ta đã phân chia các lĩnh vực dự báo thành:

Các hiện tượng tự nhiên như: thời tiết, nhật thực, nguyệt thực…

Các hiện tượng xã hội: Sự xuất hiện và kết thúc các cuộc chiến tranh, sự hưng thịnh hay suy vong của một thể chế chính trị…

Các hiện tượng về đời sống xã hội như khả năng giàu có, bệnh tật, sinh tử, về

sự phát đạt của một dòng họ…

Suốt nhiều thế kỷ trước dự báo không được vận dụng một cách khoa học và không có tính tích cực, bởi vì đây là thời kỳ lý thuyết tôn giáo không tưởng và triết học duy tâm chiếm vai trò thống trị trong tư duy nhận thức thế giới, giai cấp thống trị đã lợi dụng nó làm công cụ thống trị và mê hoặc người dân nghèo khổ Đến thế

kỷ XVI, XVII khi mà các môn khoa học tự nhiên như toán học, hóa học , vật lý học

và thiên văn học đã phát triển, các dự báo có tính chất khoa học mới dần dần xuất hiện Tuy nhiên, lúc đầu các dự báo với độ chính xác cao thường được áp dụng vào trong vật lý cổ điển, hóa học và đặt trong phạm vi không gian và thời gian rất khắt khe Sau đó, sự xuất hiện nhiều dự báo mà hiện tượng dự báo rất phức tạp, chịu sự tác động của nhiều nhân tố: tiến bộ khoa học–kỹ thuật, sự phát triển kinh tế-xã hội, chính trị, sự thay đổi về tâm lý và chuẩn mực đạo đức xã hội, đòi hỏi dự báo phải vận dụng các phương pháp thống kê xác suất (dự báo với mức độ tin cậy nào đó chứ không hoàn toàn chính xác) [1]

Trang 7

Học thuyết của C.Mác đã mở ra một khả năng mới vế sự tiên đoán có tính khoa học về các hình thái kinh tế - xã hội Mác và Ăng nghen là người đầu tiên đề

ra và giải thích một cách sâu sắc rằng mâu thuẫn chính là động lực phát triển của mọi hình thái kinh tế - xã hội và sự tất yếu khách quan của việc chuyển từ hình thái kinh tế - xã hội này sang hình thái kinh tế xã - hội khác tiến bộ hơn Hai ông cho rằng các hiện tượng kinh tế - xã hội vận động và phát triển theo thời gian: hiện tại bao giờ cũng mang dấu vết trong quá khứ còn tương lai do quá khứ và hiện tại phát triển tạo thành Khi liên hệ một cách thận trọng với kinh nghiệm của quá khứ để rút

ra bài học sâu sắc từ thực tế sinh động, không thể phủ nhận được những tiên đoán thiên tài của Lênin, một di sản có tính chất kinh điển Ông đã tổng quát hóa các khuynh hướng phát triển của các hiện tượng phức tạp nhất trong các lĩnh vực chính trị, kinh tế, xã hội và khoa học để tập chung đầu tư cho kế hoạch điện khí hóa Nhà nước Xô Viết đầu tiên [2]

Như vậy, dự báo đã từ thần bí kinh nghiệm phát triển thành một môn khoa học độc lập Ngày nay vai trò của dự báo ngày càng được khẳng định và tăng lên đáng kể trong mọi lĩnh vực và cấp độ của đời sống xã hội Đó là do quy mô của nền kinh tế ngày càng lớn, cấu trúc của nền kinh tế xã hội ngày càng phức tạp Việc tổng hợp các nhân tố ảnh hưởng đến quá trình phát triển nền kinh tế quốc dân, việc vạch ra các luận chứng để xây dựng chiến lược, quy hoạch và kế hoạch phát triển, việc lựa chọn các phương án để phát triển khả năng thực hiện các mục tiêu kinh tế -

xã hội ngày càng tăng lên

Như vậy có thể hiểu cơ sở dữ liệu “ngoại suy” là một cơ sở dữ liệu gắn với chuỗi thời gian thực, được cài đặt các thuật toán ngoại suy nhằm sản sinh ra bộ dữ liệu mới (dữ liệu ngoại suy) có căn cứ khoa học mang tính chất xác suất về mức độ, nội dung, các mối quan hệ, trạng thái, xu hướng phát triển của đối tượng nghiên cứu hoặc về cách thức và thời hạn đạt được các mục tiêu nhất định đã đề ra trong tương lai

Tiên đoán là hình thức phản ánh vượt trước về thời gian hiện thực khách quan, đó là kết quả nhận thức chủ quan của con người dựa trên cơ sở nhận thức quy luật khách quan trong sự vận động và phát triển của sự vật và hiện tượng có thể phân biệt 3 loại tiên đoán:

Tiên đoán không khoa học: đó là các tiên đoán không có cơ sở khoa học, thường dựa trên các mối quan hệ có tính tưởng tượng, không hiện thực, được cấu trúc một cách giả tạo, hoặc những phát hiện có tính chất bất chợt Các hình thức như

Trang 8

bói toán, tiên tri, các luận điệu tuyên truyền của các thế lực thù địch,… thuộc loại tiên đoán này

Tiên đoán kinh nghiệm: các tiên đoán hình thành qua kinh nghiệm thực tế dựa vào các mối quan hệ qua lại thường xuyên trong thực tế hoặc tưởng tượng mà không dựa trên cơ sở phân tích cấu trúc lý thuyết, nghiên cứu quy luật hay đánh giá kinh nghiệm Loại tiên đoán này ít nhiều có cơ sở song lại không giải thích được sự vận động của đối tượng và đa số mới chỉ dừng lại ở mức độ định tính

Tiên đoán khoa học: đây là tiên đoán dựa trên việc phân tích mối quan hệ qua lại giữa các đối tượng trong khuôn khổ của một hệ thống lý luận khoa học nhất định Nó dựa trên việc phân tích tính quy luật phát triển của đối tượng dự báo và các điều kiện ban đầu với tư cách như là các giả thiết Tiên đoán khoa học là kết quả của sự kết hợp giữa những phân tích định tính và những phân tích định lượng các quá trình cần dự báo Chỉ có dự báo khoa học mới đảm bảo độ tin cậy cao và là cơ

sở vững chắc cho việc thông qua các quyết định quản lý khoa học [2]

Ngoại suy dữ liệu bao giờ cũng có thời gian xác định hay tầm xa của ngoại suy Tầm xa ngoại suy dữ liệu là khoảng cách thời gian tối đa từ hiện tại đến thời điểm sản sinh dữ liệu ngoại suy Khoảng cách này phụ thuộc vào nhiều nhân tố: sự thay đổi của dữ liệu ngoại suy, mức độ ổn định của các nhân tố ảnh hưởng, độ dài thời kỳ tiền sử v.v…

2 Tính chất của cơ sở dữ liệu “ngoại suy”

Ngoại suy dữ liệu mang tính xác suất Mỗi đối tượng dữ liệu ngoại suy đều

vận động theo một quy luật nào đó, một quỹ đạo nhất định nào đó, đồng thời trong quá trình phát triển nó luôn luôn chịu sự tác động của môi trường, hay các yếu tố bên ngoài Bản thân môi trường hay các yếu tố tác động cũng không phải là đứng

im mà luôn luôn trong trạng thái vận động và phát triển không ngừng, về phía chủ thể dữ liệu ngoại suy, những thông tin hiểu biết về đối tượng ở tương lai bao giờ cũng nghèo nàn hơn hiện tại Vì vậy dù các thuật toán ngoại suy có hoàn thiện, có tin cậy đến đâu cũng không thể chắc chắn rằng các dữ liệu ngoai suy là hoàn toàn chính xác Hay nói một cách khác ngoại suy dữ liệu bao giờ cũng mang tính xác suất [1]

Ngoại suy dữ liệu là đáng tin cậy Ngoại suy mang tính xác suất nhưng

đáng tin cậy vì nó dựa trên những cơ sở lý luận và phương pháp luận khoa học Đó

là phép biện chứng duy vật và lịch sử, hệ thống các lý luận về khoa học, về kinh tế

và xã hội Phương pháp và công cụ xử lý thông tin ngày càng hiện đại Xét về mặt

Trang 9

bản chất, ngoại suy dữ liệu là sự phản ảnh vượt trước, là những giả thiết về sự phát triển của dữ liệu ngoại suy trong tương lai được đưa ra trên cơ sở nhận thức các quy luật phát triển và những điều kiện ban đầu với tư cách là những giả thiết Theo đà phát triển của khoa học kỹ thuật, trình độ nhận thức quy luật và các điều kiện ban đầu ngày càng được hoàn thiện thì độ tin cậy của dữ liệu ngoại suy cũng không ngừng được nâng cao độ tin cậy.[1]

Ngoại suy dữ liệu mang tính đa kết quả Mỗi phương pháp ngoại suy được

thực hiện trên những giả thiết nhất định – ngoại suy có điều kiện Tập hợp các giả thiết như vậy gọi là phông dữ liệu ngoại suy Ngoại suy có thể được tiến hành trên các phông dữ liệu ngoại suy khác nhau, do những nguyên nhân chủ quan và khách quan khác nhau và vì vậy có thể có nhiều kết quả ngoại suy khác nhau Tính đa kết quả một mặt là thuộc tính khách quan của dữ liệu ngoại suy, nhưng mặt khác lại là phù hợp với yêu cầu của công tác quản lý, nó làm cho việc ra quyết định cũng như chỉ đạo thực hiện quyết định quản lý trở nên linh hoạt hơn, dễ thích nghi với sự biến đổi vô cùng phức tạp của tình hình thực tế [1]

3 Các bước thực hiện để xây dựng cơ sở dữ liệu “ngoại suy”

Thông thường các thủ tục để xây dựng cơ sở dữ liệu “ngoại suy” bao gồm các bước sau đây: [2]

Bước 1: Xác định mục tiêu bài toán

Bước đầu tiên của công tác xây dựng cơ sở dữ liệu “ngoại suy” là làm rõ mục tiêu của nó Ba mục tiêu chính cần xác định là:

Xác định đối tượng: Nhu cầu về thuê bao điện thoại, nhu cầu về nhà ở, nhu cầu nghề nghiệp, lượng nước về trong hồ chứa, thời tiết, tỷ giá cổ phiếu v.v…

Khu vực dự báo: Theo địa dư (một tỉnh, khu vực, toàn quốc v.v…) hay khu vực xã hội (ngành công nghiệp, khu vực dịch vụ, v.v…) Khu vực dự báo có thể là thu hẹp trong một vùng nông thôn hay một lĩnh vực cụ thể nào đó như tỷ giá đồng

đô la Mỹ và đồng Việt nam

Khoảng thời gian dự báo: 1 năm, 5 năm, 10 năm…

Bước 2: Phân tích các yếu tố ảnh hưởng

Đại lượng biến đổi theo thời gian có thể thực hiện trên tiền đề là quan hệ giữa đại lượng này và các yếu tố quyết định các giá trị của đại lượng này trong quá khứ, về cơ bản không thay đổi cho đến thời điểm cần xác định trong tương lai Do

Trang 10

đó, các điều kiện bên trong (hệ thống giá, cơ cấu giá, cơ chế vận hành điều tiết lũ v.v…) cùng các điều kiện bên ngoài (kế hoạch phát triển vùng, bảo đảm tính bền vững của môi trường v.v…) phải được xét đến

Bước 3: Thu thập phân loại dữ liệu

Trong nghiên cứu các yếu tố ảnh hưởng trực tiếp đến đối tượng, cần phải thu thập những số liệu về yếu tố đó, sau đó sắp xếp phân loại chúng để xử lý

Chẳng hạn, dữ liệu cần cho việc xác định nhu cầu điện thoại có thể bao gồm: Dân số, hộ gia đình

Số văn phòng các công ty, cơ quan đoàn thể

Tốc độ tăng thu nhập

Các kế hoạch phát triển đô thị

Nhu cầu điện thoại các năm qua

Các dữ liệu trên cần được sắp xếp theo thời gian, vùng địa dư hay ngành nghề

Bước 4: Phân tích xu hướng tiến triển của đại lượng

Xu hướng tiến triển được phân tích trên bình diện sau:

Các số liệu của thời gian trước đó

Cơ cấu phát triển của hệ

Nguồn tác động đến quá trình phát triển

Xem xét đặc trưng của khu vực

So sánh các vùng khác

Bước 5: Xác định mô hình kỹ thuật ngoại suy sẽ sử dụng trong quá trình tính

toán, lựa chọn cơ sở dữ liệu cài đặt

Ngoại suy chuỗi thời gian

Quá trình làm trơn

Phân tích hồi quy

Các phương pháp khác (so sánh, chuyên gia v.v…)

Phương pháp và mô hình được chọn tương ứng với đặc điểm của đối tượng

và yếu tố liên quan, ứng với các dữ liệu có thể thu thập được Để đạt được giá trị có

Trang 11

độ tin cậy cao, điều quan trọng là phải lựa chọn được phương pháp thích hợp, khả thi nhất và chọn ra phương pháp tính toán tin cậy và tối ưu

Bước 6: Kiểm tra tính phù hợp của mô hình

Bước 7: Xác định các giá trị dữ liệu ngoại suy và cập nhật dữ liệu thích hợp

vào cơ sở dữ liệu: Kết hợp kết quả thu được ở bước 5 và phân tích thực hiện ở bước

2 và 4 xác định dữ liệu kết quả thích hợp nhất để cập nhật vào cơ sở dữ liệu

4 Chức năng vai trò của cơ sở dữ liệu “ngoại suy”

4.1 Chức năng của cơ sở dữ liệu “ngoại suy”

Ngoại suy dữ liệu dựa trên sự phản ánh một hình thức nhận thức thế giới, nhận thức xã hội Nó có hai chức năng cơ bản:

Chức năng tham mưu: trên cơ sở đánh giá thực trạng, phân tích xu hướng

vận động và phát triển trong quá khứ, hiện tại và tương lai, ngoại suy dữ liệu sẽ cung cấp thông tin dữ liệu cần thiết, khách quan làm căn cứ cho việc ra quyết định quản lý và xây dựng chiến lược, kế hoạch hóa các chương trình, dự án,…người quản lý và hoạch định chiến lược, người lập kế hoạch có nhiệm vụ lựa chọn trong

số các phương án có thể có, tìm ra các phương án có tính khả thi cao nhất, có hiệu quả nhất Để thực hiện tổ chức năng này, dữ liệu ngoại suy phải thật sự đảm bảo được tính khách quan, khoa học và tính độc lập tương đối với các cơ quan quản lý

và hoạch định chính sách [2]

Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dữ liệu ngoại

suy cung cấp thông tin, để tiên đoán các hậu quả có thể nảy sinh trong quá trình thực hiện các chính sách kinh tế - xã hội, nhằm giúp các cơ quan chức năng kịp thời điều chỉnh mục tiêu cũng như các cơ chế tác động quản lý để đạt được hiệu quả kinh tế - xã hội cao nhất

Với hai chức năng đó, nếu xét trong quan hệ kế hoạch thì dữ liệu ngoại suy bao gồm hai loại: dữ liệu ngoại suy cung cấp thông tin dự báo trước kế hoạch và dữ liệu ngoại suy cung cấp thông tin dự báo sau kế hoạch Dự báo trước kế hoạch là tiền đề khoa học đảm bảo tính khả thi của kế hoạch, còn dự báo sau kế hoạch giúp cho quá trình chỉ đạo thực hiện kế hoạch đạt hiệu quả cao nhất [2]

Trang 12

4.2 Vai trò của cơ sở dữ liệu “ngoại suy”

Cơ sở dữ liệu ngoại suy có vai trò quan trọng trong quá trình ra quyết định quản lý Theo nghĩa chung nhất, quản lý là sự tác động liên tục có tổ chức, có chủ đích vào đối tượng quản lý bằng các hệ thống biện pháp kinh tế, xã hội, các biện pháp hành chính …, nhằm tạo điều kiện thuận lợi thúc đẩy sự phát triển sản xuất, tiến bộ xã hội.Kết quả của hoạt động quản lý là các quyết định quản lý Cơ chế ra quyết định bao gồm ba bước: [2]

 Thu thập thông tin về đối tượng quản lý

 Xây dựng mô hình thống kê thực nghiệm và thông tin tiền nghiệm

 So sánh cân nhắc đưa ra quyết định

Trong các bước của quá trình ra quyết định quản lý thì vấn đề xây dựng mô hình là khâu cơ bản nhất, sở dĩ như vậy là vì qúa trình đi đến một quyết định quản

lý đòi hỏi phải mô hình hóa các mối quan hệ trong quá trình vận động và phát triển của đối tượng quản lý, cho phép liên kết các môi quan hệ không những theo chiều dọc mà còn theo chiều ngang, cho phép liên hệ từ quá khứ đến hiện tạivà sang tương lai Xét về mặt thời gian các mô hình như vậy đều mang ý nghĩa dự báo

Hướng sử dụng cơ sở dữ liệu ngoại suy để xây dựng mô hình dự báo trong hoạt động quản lý là rất quan trọng, nó tạo điều kiện không những cung cấp thông tin tương lai mà còn có khả năng làm chủ công tác quản lý Nhờ có cơ sở dữ liệu ngoại suy mà việc xây dựng mô hình dự báo có thể tăng cường khả năng quản lý một cách khoa học:

Giúp nhận thức sâu sắc hơn các quy luật khách quan, tránh được chủ quan duy ý chí

Mô hình hóa đề cập một cách toàn diện các mối quan hệ kinh tế- xã hội Cho phép định lượng được các mối quan hệ bằng cách áp dụng các phương pháp khoa học như toán, thống kê, …

Trong nền kinh tế thị trường, việc xây dựng cơ sở dữ liệu ngoại suy nhằm cung cấp các dữ liệu ngoại suy từ các dữ liệu trong quá khứ là vô cùng quan trọng,bởi lẽ nó cung cấp các thông tin cần thiết nhằm phát hiện và bố trí sử dụng các nguồn lực trong tương lai một cách có căn cứ thực tế Với cơ sở dữ liệu ngoại suy, những dữ liệu ngoại suy đưa ra cho phép các nhà hoạch định chính sách có những quyết định về đầu tư, các quyết định về sản xuất, về tiết kiệm và tiêu dùng,

Trang 13

các chính sách tài chính, chính sách kinh tế vĩ mô Việc xây dựng cơ sở dữ liệu ngoại suy và cung cấp dữ liệu ngoại suy không chỉ tạo cơ sở khoa học cho việc hoạch định chính sách, xây dựng chiến lược phát triển, cho các quy hoạch tổng thể

mà còn cho phép xem xét khả năng thực hiện kế hoạch và hiệu chỉnh kế hoạch Mối quan hệ giữa cơ sở dữ liệu ngoại suy và kế hoạch hóa được biểu thị qua sơ đồ dưới đây:

Hình 1.1: Mối quan hệ giữa cơ sở dữ liệu ngoại suy với công tác lập kế

hoạch và ra quyết định quản lý

Trong quản lý vĩ mô, việc sản sinh dữ liệu ngoại suy là hoạt động gắn liền với công tác hoạch định và chỉ đạo thực hiện chiến lược kinh doanh của doanh nghiệp Các doanh nghiệp không thể không tổ chức thực hiện tốt công tác dự báo nếu họ muốn đứng vững trong kinh doanh

Chức năng đầu tiên của quản lý trong doanh nghiệp là xác định mục tiêu của doanh nghiêp dài hạn và ngắn hạn Doanh nghiệp phải lập kế hoạch để thực hiện những mục tiêu đó, tổ chức tốt các nguồn nhân lực và vật tư để thực hiện kế hoạch,

Những thuận lợi

về nguồn lực

Sự Phân Bổ Nguồn Lực và Cam Kết

Mục tiêu, Mục đích,

Quyết định

Các hạn chế

Sự thực hiện

và chính sách điều chỉnh

Lập kế hoạch

Mục tiêu của quản lý

Cơ sở dữ liệu

ngoại suy

Trang 14

điều chỉnh kế hoạch cũng như kiểm soát các hoạt động để tin chắc rằng tất cả diễn

ra theo đúng kế hoạch Phân tích kinh tế và dự báo được tiến hành trong tất cả các bước của quản lý doanh nghiệp, nhưng trước hết là trong việc xác định mục tiêu và hoạch định các kế hoạch dài hạn và ngắn hạn

Trong việc xác định mục tiêu, mỗi doanh nghiệp phải quyết định hàng hóa và dịch vụ nào sẽ được sản xuất và bán ra, mức giá sản phẩm và dịch vụ, vùng tiêu thụ, thị trường tiềm năng về sản phẩm đó Thị phần mà doanh nghiệp thực tế có thể hy vọng chiếm được, hiệu suất vốn doanh nghiệp có thể kỳ vọng…những mục tiêu như vậy chỉ có thể trở thành hiện thực nếu doanh nghiệp đã phân tích các xu thế của nền kinh tế, đã có đầy đủ các cơ sở để dự báo về nhu cầu sản phẩm của mình cả trong dài hạn và ngắn hạn, chi phí các nhân tố sản xuất…Như vậy các dự báo về thị trường, giá cả, tiến bộ khoa học và công nghệ, nguồn nhân lực, sự thay đổi của các nguồn đầu tư vào, đối thủ cạnh tranh,… có tầm quan trọng sống còn đối với doanh nghiệp Ngoài ra các dữ liệu ngoại suy cung cấp những thông tin cho phép phối hợp hành động giữa các bộ phận trong doanh nghiệp [1]

Trang 15

Chương 2

MỘT SỐ PHƯƠNG NGOẠI SUY DỮ LIỆU

1 Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính

Phân tích hồi quy là một phương pháp phân tích thống kê dự đoán các giá trị của một hoặc một số biến phụ thuộc (biến đáp ứng) theo một tập các biến độc lập (các biến dùng để ngoại suy) Nó cũng được vận dụng đánh giá hiệu quả tác động của biến độc lập đối với biến phụ thuộc [4]

1.1 Mô hình hồi quy tuyến tính cổ điển[4]

Giả sử X , ,1 X k là các biến độc lập dùng để ngoại suy và Y là biến phụ thuộc cần ngoại suy Sự phụ thuộc của biến Y theo X , ,1 X k nói chung là rất phức tạp Tuy nhiên trong một số trường hợp sự phụ thuộc là tương đối đơn giản Mô hình hồi quy tuyến tính cổ điển khẳng định rằng Y phụ thuộc tuyến tính và các X i

(nghĩa là Y là biểu thức bậc nhất của X , ,1 X k) và sai số  Như vậy:

trong đó i,i  0 k là các hệ số chưa biết

Bây giờ ta tiến hành n quan sát độc lập đồng thời kể từ k+1 biến X , ,1 X k, Giả sử các số liệu quan sát tuân theo mô hình sau:

1 1 11

1 0

1   x  k x k 

y

2 2 21

1 0

2   x  k x k 

………

n nk k n

y 0 1 1  

trong đó i, ,n thỏa mãn 3 điều kiện sau:

1) E(j)  0 (việc đo đạc không chịu sai lệch hệ thống)

2) D(j)2 (phương sai không đổi hay là độ chuẩn xác đo đạc như nhau)

Trang 16

3) cov(i,j)  0 với mọi i j 1 n (các sai lệch từng bước không ảnh hưởng đến nhau)

Mô hình (2.2) có thể viết dưới dạng ma trận như sau:

n

k k

x x

x

x x

2 1

2 22

21

1 12

11 2

1

11

n

k k

x x

x

x x

x

x x

x X

2 22

21

1 12

T n y y y

k j

y b

S

1

2 1

1

)

Đại lượng ˆ làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình

phương cực tiểu của  , còn

n j

x x

j  ( ˆ  ˆ   ˆ ), 1

Trang 17

Gọi là phần dư của phép hồi quy Trong trường hợp này, vì biểu thức theo

Yˆ ˆ ˆ ˆ

1 1

Được gọi là phương trình hồi quy tuyến tính mẫu Ta có kết quả sau: đặt

jk k j

yˆ ˆ ˆ ˆ

1 1



T n y y

Yˆ ˆ1, ,ˆ )

ước lượng bình phương cực tiểu có dạng:

Y X X

T n

1

n j j T

Y Y y Y

j j n

2 1

cov(

; )

Phần dư ˆ có tính chất ˆ=0 (điều này cũng tương đương với Yˆ YˆT)

) ( ) cov(

; 0 )

Trang 18

1

2 2

) 1 /(

ˆ ) 1 /(

ˆ ˆ

 là ước lượng không lệch của ˆ 2, tức

là E(ˆ 2 ) ˆ 2 ˆ và ˆlà không tương quan

0 ) ˆ , ˆ cov(

; 0 ) , ˆ

1.2.2 Định lý Gauss về ước lượng bình phương cực tiểu [5]

Trong mô hình tuyến tính cổ điển (2.3) và (2.4) các hạng đầy đủ k1n thì ước lượng

k k

c ˆ ˆ ˆ ˆ

1 1 0

c   00    là ước lượng không chệch với phương sai bé nhất

so với bất kỳ ước lượng tuyến tính không lệch dạng n n

a  1 1 Nếu thêm giả thiết rằng  có phân bố chuẩn ( 0 , 2 )

n

N  thì c Tˆ là một ước lượng không chệch với phương sai cực tiểu của c T so với bất kỳ ước lượng không chệch nào khác

1.2.3 Hệ số xác định R [4]

2 ˆ 2 1

2 1

2 2

2

2 2

)(

)(ˆ)

(ˆ

)(ˆˆ

y

y n

j

n j T

s

s y n y

y n y y

n Y

y n Y Y

Gọi là bình phương của hệ số xác định, đó là tỷ lệ biến thiên của biến y j

được giải thích bởi các biến x , , j1 x jk

Do đó từ (2.15)

1  (1 ))

(

1

2 1

Ta nhận được phương trình để tính sai số bình phương trung bình

Trong phần này ta xét mô hình hồi quy cổ điển (2.7), (2.8) với giả thiết thêm rằng: các j cũng phân bố chuẩn N( 0 ,2 ) và độc lập, tức là T

n) , , , (1 2 

Trang 19

Mệnh đề 2.3: Xét mô hình hồi quy tuyến tính cổ điển Y  X  với X có bậc là k1n và  có phân bố chuẩn ( 0 , 2 )

)1()()

( T X T X   k 2F k1,nk1  (2.22) Trong đó F k1,nk1() là phân vị trên mức  của phân bố F với k+1, n-k-1 bậc tự do Nói cách khác, với độ tin cậy 1 giá trị  phải nằm trong Elíppsoid

)(ˆ

)1()()

(x T X T X x  k 2F k1,nk1 

Hơn nữa khoảng tin cậy đồng thời mức 1 của các i,i  0 k được xác định bởi các mút:

) ( )

1 )(

ˆ (

ˆ

1 ,



là phân vị trên mức

) 1 (

2 k



của phân

bố Student với n-k-1 bậc tự do Khi đó đồng thời ta có các khoảng tin cậy của i

với mức tin cậy 1 cho bởi các đầu mút:

)ˆ()1(2

ˆ

k n

1.2.5 Kiểm định giả thiết về hệ số hồi quy [4]

Xét mô hình hồi quy tuyến tính trong (2.1) Trong khi thiết lập mô hình, ta giả thiết tất cả các biến độc lập X1,X2 , X k đều tham gia vào phương trình hồi quy Song trên thực tế có một số biến độc lập không tham gia vào phương trình hồi quy,

Trang 20

tức là các hệ số của nó trong phương trình bằng 0 Tuy nhiên, các giá trị ước lượng của nó có thể khác 0 Vậy khi nào các hệ số ước lượng được xem là bằng 0 thực sự? Điều này dẫn ta đến bài toán kiểm định giả thiết:

0 : 1

0 p   k 

Với đối thiết K: ip 1 , ,k sao cho i  0

Giả thiết H0có nghĩa là các biến độc lập X p1,X p2, , X k không tham gia

vào biểu thức trong (2.1) ngược lại đối thiết K nói rằng có ít nhất một trong các biến

này quả thực cần tính trong mô hình Tổng quát hơn ta xét bài toán kiểm định giả thiết dạng

c c

c

a c

c c

a c

c c

p k k k k p

k p

k

k k

1 , 0

0

,

2 2

1 21 0

20

1 1

1 11 0

0 0 0

0

0 1

0 0 0

0

0 0

1 0 0

N  ˆ có phân bố chuẩn )

) (

X E X Y E

Y  ( ),  ( )  ( 1, , )

bác bỏ giả thiết H0 :C a nếu a nằm ngoài elippsoid tin cậy của C :

Quy tắc kiểm định bác bỏ: Bác bỏ giả thiết H0:C  0 nếu

)()

(ˆ/ˆ))()(

ˆ

(C C X T X  1C T  1C 2  kp F k ,nk1  (2.28)

Trang 21

1.2.6 Ƣớc lƣợng hàm hồi quy tuyến tính [4]

Bài toán đặt ra là hãy ƣớc lƣợng hàm hồi quy tuyến tính

X Y

1 1 0

N  thì X 0Tˆ có phân bố chuẩn )

)(,

T

X D t

1.3 Kiểm tra sự phù hợp của mô hình

Xét mô hình hồi quy tuyến tính (2.2) Mô hình hồi quy tuyến tính sẽ phù hợp với dãy số liệu dạng quan sát sai số i quả thật chỉ do các yếu tố ngẫu nhiên tạo nên, tức là dãy biến ngẫu nhiên độc lập, cùng phân phối Vì mô hình đang xét có phân phối chuẩn nên ta cần kiểm tra xem các sai số có phân bố chuẩn ( 0 , 2 )

n I

)1(

2

R k

R k n F

N  và nếu k

i

i  0 ;  1 

 thì F cho bởi (2.32) có phân bố F với k và n-k-1 bậc tự do

Từ mệnh đề này ta đưa ra quy tắc: Nếu F qua lớn hoặc F gần 0 ta cần bác bỏ giả thiết  có phân bố chuẩn ( 0 , 2 )

n I

N  hoặc bác bỏi  0 ;i 1 k

1.3.2 Khảo sát các phần dƣ [5]

Nhƣ trong mệnh đề (2.1) ta đã biết phần dƣ:ˆ Y Yˆ  (I H)

Trang 22

Và nếu giả thiết H0rằng  có phân bố chuẩn ( 0 , 2 )

n I

1.4 Tóm tắt các bước tiến hành phân tích hồi quy [4]

Việc phân tích hồi quy tuyến tính được thực hiện theo các bước sau:

j j n

Bước 3: Kiểm định sự phù hợp của mô hình Sử dụng tiêu chuẩn F để kiểm

tra giả thiết 1   k  0 Dùng tiêu chuẩn T để kiểm tra giả thiết  có phân bố chuẩn ( 0 , 2 )

n I

N  hay không Nếu mô hình đã xây dựng tỏ ra là mô hình hồi quy tuyến tính cổ điển thì có thể chuyển sang bước 4

Bước 4: Xác định khoảng tin cậy của các hệ số hồi quy

Bước 6: Dùng phương trình hồi quy tuyến tính mẫu:

k

k X X

Yˆ ˆ ˆ ˆ

1 1

0 0

1 1 0

0 )

|

E       và giá trị Y(X0 )

1.5 Hệ thống các mô hình hồi quy tuyến tính bội

1.5.1 Mô hình hồi quy với nhiều biến phụ thuộc [4]

Nhiều lúc, cùng một biến dự báo X1,X2, , X k ta quan tâm nhiều biến phụ

thuộc Trong phần này ta xem xét mối quan hệ tuyến tính giữa m biến phụ thuộc

Trang 23

m k km m

m m

k k

X X

Y

X X

Y

X X

2 2

1 12 02 2

1 1

1 11 01 1

,

cov( i j

  có thể khác không khi i  j

Bây giờ giả sử ta có n quan sát (x j1,x j2, ,x jk,y j1,y j2, , y jm), j  1 n về véc

tơ (X1,X2, , X k,Y1,Y2, ,Y m) sai số quan sát thứ j sẽ là  T

x x

Y  1, , là quan sát thứ j về các biến đáp ứng  T

m Y

Y , ,1 còn

ni i

2 22

21

1 12

11

)

nm n

n

m m

m

y y

y

y y

y

y y

1

1 12

11

0 02

01

1

2 21

1 11

km k

k

m m

nk n

k k

k

n

x x

2 22

21

1 12

11

)

nm n

n

m m

Trang 24

Tức là với cùng thứ tự quan sát các sai số li và lj(i j)có tương quan nhưng thứ tự quan sát khác nhau li,ji(l j) không tương quan với nhau; trong đó

 và   ij là các ma trận của các tham số chưa biết

1.5.2 Ước lượng các tham số chưa biết của mô hình [4]

Đầu tiên ta xét một mô hình riêng lẻ

( ) 2 ( ) 1

ˆ

m T

) (

) ( ) ( ) ( ) ( )

1 ( ) 1 ( ) ( ) (

) ( ) ( ) 1 ( ) 1 ( )

1 ( ) 1 ( ) 1 ( ) 1 (

m m

T m m

m m

T T

T

Xb Y

Xb Y Xb

Trang 25

Phần dư ˆ ˆ ˆ ˆ  ˆ

) ( ) 2 ( ) 1

k n

và ˆ không tương quan với ˆ

1.6 Hồi quy và tương quan tuyến tính bội

1.6.1 Ngoại suy với một biến phụ thuộc [4]

Khác với phần trước, trong phần này ta xét cả biến đáp ứng Y và biến giải

k X X

X  ( 1, , ) đều là các biến ngẫu nhiên Giả sử, véc tơ trung bình của

T k

YX YY

0

Trang 26

Ta muốn tìm hệ số b0,b1, ,b k sao cho (2.49) đạt giá trị bé nhất

T XY YY

T X Y

1 ,

~ ,

T XY XY

XX

T XY YY

XY XX

T XY X

Y Y

2

X Y X

Y

Sự kiện này rất quan trọng khi xem Y có biểu diễn tuyến tính qua X hay

không Phương trình Y~0X được gọi là phương trình hồi quy tuyến tính của Y theo X

Nhận xét: Giả thiết rằng Y,X1, , X k có phân bố đồng thời chuẩn N k1(,  )

Khi đó có thể chứng minh rằng phân bố có điều kiện của Y khi X1  , ,x1 X k  x k

đã cho chính là phân bố chuẩn N(Y~,E() 2 ) với

Y~01x1 k x k Y1(x11) k(x k k)

Còn E() 2 được cho bởi (2.51) hoặc (2.53)

Hơn nữa người ta cũng chứng minh được rằng E(Y |X1, , X k) có phân bố

chuẩn đồng thời thì ngoại suy tốt nhất của Y theo X là ngoại suy tuyến tính

X

Y~0

Bây giờ ta chuyển sang nghiên cứu bài toán ước lượng theo mẫu Giả sử

n j

x

y j, j , , jk);  1 

( 1 là n quan sát độc lập của Y,X1,X2 ,X k

Trang 27

Mệnh đề 6.2: Giả sử Y,X1, , X k có phân bố đồng thời chuẩn N k1(,  ) Đặt:

YX YY

S S

S x

1 2

XY XX

T XY

S k n

(được gọi là phương trình hồi quy mẫu) chính là ước lượng hợp lý cực đại của hàm hồi quy lý thuyết Y~0T X

1.6.2 Ngoại suy với nhiều biến phụ thuộc [4]

Giả sử chúng ta muốn ngoại suy m biến đáp ứng Y , ,1 Y m theo k biến độc lập k

X  1, , với giá trị trung bình  và ma trận hiệp phương sai )

YX YY

X Y X

Y X

E

Y E

) (

Trang 28

X

X X

m

k k

2 1

21 20

1 1

11 10 2

1

2 22

12

1 21

11

) 1 ( 0

20 10

m k mk k

k

m m

Ta đưa vào khái niệm hệ số tương quan riêng Xét cặp sai số

Nhận được khi sử dụng ngoại suy tuyến tính tốt nhất lần lượt của Y1,Y2 theo

X Mối quan hệ giữa 1,2 được xác định bởi ma trận phương sai của sai số

YY XX

2 1)()(

),cov(

T XY YY X

.

) (

2 1

2 2

X Y X Y

X Y X

.

)

2 2

X Y Y X Y

X Y X

Y

S S

S

Ta cũng có các kết quả tương tự về ước lượng hợp lý cực đại cho trường hợp

hồi quy tuyến tính với n biến phụ thuộc Y , ,1 Y m

Trang 29

1.7 Mô hình hồi quy phi tuyến [4]

Giả sử quan hệ giữa biến phụ thuộc ngẫu nhiên Y và biến độc lập không ngẫu

nhiên X (X1, , X k) được biểu diễn bởi biểu thức sau

Y i)  f(X i) ,) i;i  1 , 2 , ,n (2.64)

Dựa trên n bộ quan sát đó và dựa trên (2.64) ta sẽ tìm được ˆ của 

Cũng tương tự như mô hình hồi quy tuyến tính ta sẽ dùng phương pháp bình phương cực tiểu, tức là tìm ˆ sao cho:   







n i

Trang 30

,()

(

;),(

),()(

;

) ( )

( 1

) 1 ( )

1 ( 1

) (

) 1 (

) (

) 1 (

s n

X

f X

f G

X f

X f f

( )

0 0

Bước 2: Giả sử phương trình chuẩn (2.68) với ( 0 ) được thay bởi ( 0 ) có nghiệm ( 1 ), và lấy ( 2 ) ( 1 )  ( 1 ) làm giá trị ban đầu và làm như vậy cho đến bước N  N0 cho trước

Quá trình lặp sẽ dừng lại ở bước N nếu N  N0 hoặc |  (N)   (N 1 ) |  đã cho

2

1 , , , ) var(    thì 2 được ước lượng bởi

2 2

(  G G 

)) ˆ ( ) ( ( ) (  G  G  

Trang 31

Các bước phân tích tiếp theo được thực hiện tương tự như mô hình hồi quy tuyến tính

2 Ngoại suy dữ liệu bằng kỹ thuật làm trơn

hệ sẽ tổ hợp của xu thế cơ bản này với các thăng giáng ngẫu nhiên Mục đích của các phương pháp này là tách các xu thế cơ bản ra khỏi thăng giáng ngẫu nhiên bằng cách làm trơn các thăng giáng theo thời gian Điều này đưa đến việc khử bỏ phần thay đổi bất thường trong các dữ liệu ban đầu và việc ngoài suy của ta sẽ dựa vào các giá trị trung gian đã được làm trơn [13]

2.2 Trung bình trượt đơn [13]

Về hình thức, phương pháp tính toán được thực hiện như sau: giả sử ta có quan sát (x t).t n Giá trị dự báo f t của chuỗi thời kỳ t được tính theo công thức

f t  (x t1 x tN) /N

Trong đó N là số cố định nào đó Số N gọi là các thời kỳ trong trung bình

trượt Kỹ thuật này thực chất là lấy tập hợp các giá trị được quan sát, tìm trung bình các giá trị này trên từng khoảng thời gian liền nhau rồi sau đó sử dụng các trung bình làm giá trị ngoại suy cho thời kỳ tiếp theo

Ví dụ 2.1: Ta xét trường hợp sau: một hãng máy bay lưu trữ các giá trị nhiên

liệu hàng tháng trong suốt thời kỳ 18 tháng của phi đoàn máy bay của mình, như

Trang 32

trình bày trong cột 3 của bảng dưới đây Công ty muốn dùng kỹ thuật trung bình trượt để ngoại suy giá nhiên liệu cho tương lai

Vấn đề đầu tiên cần phải xem xét, tức chọn N bằng bao nhiêu Điều này được

quyết định thông qua phép thử và sai số Cuối cùng chọn số thời kỳ với sai số bình phương tối thiểu Trong bảng 1 chúng ta đã thử cả hai trung bình trượt ba tháng (cột 3-4) và trung bình trượt 4 tháng (cột 7-9)

Năm Tháng Khoảng

thời gian

t x

(1000$)

Ngoại suy trung bình trượt ba

tháng Ngoại suy trung bình trượt bốn tháng

81 83.67

82 72.33 70.67 75.67

87

86

86 88.67 91.33

90 89.67 87.3

1 -1.33

5 -4.67 -30 8.67 23.33 10.33 -9

8

8 -2.67 -1.33

3 -10.67

1 1.77

25 21.81

900 75.17 544.29 106.71

91

64

64 7.13 1.77

9 113.85

5.2016





83.25

82 82.25 82.5 74.5 74.5 76.5 78.25 84.75

88

91 90.75

87

-2.25

4 -3.25 30.5 6.5 19.5 9.5 -0.25 9.25

6 -2

2

2 -11.75

5.06

16 10.56 930.25 42.25 380.25 90.25 0.06 85.56

36

4

4 138.06

3.1746





Bảng 1: Áp dụng kỹ thuật trung bình trượt đơn để ngoại suy giá nhiên liệu

cho tương lai

Dùng trung bình trượt 3 tháng ta thu được kết quả là 87.3 với sai số trung bình bình phương là 134.43 còn nếu dùng trung bình trượt 4 tháng ta thu được kết quả hơn là 87 với sai số trung bình bình phương là 124.74

Một số nhận xét về kỹ thuật trung bình trượt đơn

1 Kỹ thuật các trung bình trượt cần một số quan sát theo thời gian được lưu trữ trước khi bắt đầu quá trình ngoại suy, chẳng hạn trung bình trượt 3 tháng yêu cầu có ít nhất dữ liệu 3 khoảng thời gian đơn vị là tháng

Trang 33

2 Ngoại suy trước 1 đơn vị thời gian, tức là dữ liệu tháng giêng, hai và tháng

ba năm 1996 được sử dụng để ngoại suy tháng 4/1996 và tiếp tục như vậy

3 Kỹ thuật làm trơn này cho phép nhận được ngoại suy tốt hơn nếu ta sử dụng nhiều tháng dữ liệu hơn trong trung bình trượt, tức là ta có sai số bình phương trung bình nhỏ hơn Thực ra đây chỉ là một điều “cảm quan” Vấn đề phức tạp hơn

là ở chỗ nếu ta tin rằng có một số lớn các yếu tố ngẫu nhiên chứa trong chuỗi, ta hãy

sử dụng nhiều hơn nữa các khoảng thời gian trong trung bình trượt để loại bỏ yếu tố ngẫu nhiên này Song lấy khoảng thời gian quá lớn thì dãy số liệu ngoại suy không còn phản ánh được xu thế căn bản của dãy số liệu ban đầu Mặt khác nếu ta tin rằng chuỗi (ban đầu) có một sự thay đổi xu thế căn bản và ta muốn nắm bắt sự thay đổi này thay vì loại bỏ nó thì hãy dùng ít hơn số khoảng thời gian trong trung bình trượt Do vậy, kỹ thuật này chỉ có ích khi các chuỗi dữ liệu không thể hiện xu hướng mà dao động quanh một trung bình cố định nào đó

Nếu chuỗi thời gian thực bộc lộ một hướng thì các dữ liệu được làm trơn đơn

sẽ thường nằm dưới đó Vì vậy chiến lược của ta là giả sử các chuỗi dữ liệu D

t f

được làm trơn đơn K

t

f là chuỗi được làm trơn kép còn f t là chuỗi ngoại suy

 Tìm chuỗi trung bình trượt đơn f D x t x t x t N N

t  ( 1  2    ) /

 Tìm chuỗi trung bình trượt kép f f f f K N

N t

K t

D t

k

t  ( 1  2    ) /

 Tìm hiệu giữa chuỗi trung bình trượt đơn và trung bình trượt kép rồi cộng

nó vào chuỗi trung bình trượt đơn ta được đại luợng chuẩn bị cho ngoại

 Hiệu chỉnh đại lượng chuẩn bị ngoại suy một lượng ( )

D t

K t

D t

K t

D t

N

N f N

N f

f N f

f f

1

1 1

2 ) (

1

2 ) (

Trang 34

Chúng ta trình bày phương pháp trung bình kép với dữ liệu bài toán giá nhiên liệu ở mục trước

thời gian

t x

(1000$)

TBT đơn 4 tháng f t D

TBT kép 4 tháng f t K

Giá trị

K t

Giá trị ngoại suy

88

91 90.75

87

82.25 80.32 78.44

77 75.94 78.5 81.8 84.75 87.19 88.75 89.44 89.19

82.25 68.69 70.56

76 80.56

91 94.12 91.25 88.81 93.25 92.06 84.81

0 -3.87 -2.63 -0.33 1.54 4.17 4.08 2.17 0.54 1.4 0.87 -1.46

82.25 64.82 67.93 75.67 82.1 95.17 98.2 93.42 89.35 94.75 92.93 83.35

Bảng 2: Áp dụng kỹ thuật trung bình trượt kép để ngoại suy giá nhiên liệu

cho tương lai

Nhận xét: Có một vấn đề nảy sinh với kỹ thuật trung bình trượt kép là nó đòi

hỏi nhiều dữ liệu hơn là trung bình trượt đơn Vì lý do này mà phương pháp đang xét ít hấp dẫn hơn phương pháp làm trơn mũ đơn được trình bày dưới đây

2.4 Làm trơn đơn mũ [13]

Kỹ thuật làm trơn mũ đơn khắc phục được 2 nhược điểm của phép lấy trung bình trượt, đó là

Sự cần thiết phải có ít nhất N quan sát

Với các trung bình trượt, các khoảng thời gian được coi trọng như nhau, trong khi đó với kỹ thuật làm trơn mũ đơn các dữ liệu càng cũ càng ít ảnh hưởng hơn trong phép ngoại suy

Tuy nhiên kỹ thuật làm trơn mũ đơn vẫn giống các kỹ thuật trung bình trượt

ở chỗ, nó làm trơn các dữ liệu để khử tính ngẫu nhiên Với kỹ thuật làm trơn mũ đơn, các quan sát trước được gán với các trọn số giảm dần theo cấp số nhân:

Trang 35

t n

n t

t

f 1   ( 1 ) 1  ( 1 ) Trong đó f t 1 là hàm ngoại suy của thời tiếp theo, thời kỳ t+1, còn x t là dữ liệu thực với thời kỳ t;  là hằng số làm trơn 0 1

Từ điều kiện trên suy ra ( 1 ) 2 , ( 1 ) 3 , ngày càng nhỏ Điều này có nghĩa

là trong công thức trên các dữ liệu cũ càng ít ảnh hưởng đến trong khi ngoại suy Bằng một vài phép biến đổi đơn giản từ công thức tính f t 1 ta thu được:

Phép làm trơn mũ đơn đưa ra các dữ liệu ngoại suy, như là tổng số có trọng

số của các quan sát trước đây trong chuỗi thời gian như trong phương trình đã cho

Chúng ta lần nữa sử dụng chuỗi thời gian về nhiên liệu của hãng hàng không như ở ví dụ trước đây Trong phương pháp làm trơn mũ bước đầu tiên là chọn giá trị của hằng số làm trơn  Về mặt thống kê, điều này phải làm được bằng phép thử và sai số, trong đó giá trị thích hợp nhất của  sẽ là giá trị mà nó sai số trung bình bình phương bé nhất của giá trị ngoại suy Trong bảng 3 ta thử 3 giá trị khác nhau của  là  =0.001,  =0.02 và  =0.6 Từ các sai số trung bình bình phương ở cuối bảng rõ ràng  =0.001 là giá trị tốt nhất trong ba giá trị nêu trên

Trong phương pháp trung bình trượt khi ta chọn một số khoảng thời gian lớn trong tính toán trung bình trượt ta sẽ được độ trơn lớn hơn của chuỗi thời gian Trong phép làm trơn đơn mũ, việc chọn  càng gần 0 càng làm dữ liệu trơn lên, trong khi chọn  gần 1 sẽ tương đương với một số nhỏ khoảng thời gian trong trung bình trượt và sẽ để lại nhiều thăng giáng hơn trong dữ liệu

-1 -8 -1.99 -4.99 0.02 -6.98

1

64 3.96 24.9

0 48.72

86 85.8 84.24 84.19 83.55 84.04

-1 -7.8 -0.24 -3.19 2.45 -5.04

1 60.8 0.06 10.18

6 25.4

86 85.41 80.96 82.78 81.71 84.29

-1 -7.4 3.04 1.78 4.29 -5.29

1 54.76 9.24 3.17 18.4 27.98

Trang 36

33.98 -4.94 8.06 0.05 -7.95 8.06 8.05 0.05 4.05 7.04 -6.97

-1154.

6 24.4 64.96

0 63.2 64.96 64.8

0 16.4 49.56 48.58

83.03 76.83 77.76 80.93 81.94 81.15 83.72 85.78 85.82 86.66 87.93

31.03 4.17 16.34 5.07 -3.94 12.85 10.28 0.22 4.18 4.34 -8.93

-962.8

6 17.39

267 25.7 15.52 165.1

2 105.6

8 0.05 17.47 40.2 79.74

81.11 63.65 74.06 86.02 86.01 81.2 88.88 91.95 88.38 89.35 91.54

19.11 17.35 19.94 -0.02 -8.01 12.8 5.12 -5.95 1.62 2.63 - 12.54

-365.19 301.02 397.6

0 64.16 163.84 26.21 35.4 2.62 6.91 157.25

Bảng 3: Áp dụng kỹ thuật làm trơn đơn mũ để ngoại suy giá nhiên liệu cho

tương lai Những hạn chế chính trong kỹ thuật làm trơn mũ đơn:

 Giống như kỹ thuật trung bình trượt đơn ký thuật này thích hợp nhất khi

dữ liệu là dừng

 Không có một quy tắc chung nào để xác định hằng số làm trơn thích hợp nhất Chúng ta cần thực hiện phép thử nghiệm và sai số để thử các giá trị khác nhau và tìm các sai số bình phương trung bình của dự báo

2.5 Làm trơn mũ kép [13]

Chúng ta nhớ lại rằng, khi bàn về các trung bình trượt ta đã nhận xét rằng, trong một chuỗi dữ liệu không dừng các trung bình trượt đơn luôn đánh giá thấp Tình huống tương tự xảy ra đối với phép làm trơn mũ đơn của một chuỗi không dừng Để khắc phục điều nay ta xét kỹ thuật làm trơn mũ kép sau đây

Thể thức tính toán đối với phép làm trơn mũ kép

Các dữ liệu ban đầu về giá nhiên liêu hàng tháng của hãng hàng không (x t) được sao lại trên cột 3 (bảng 4) dưới đây để ngoại suy giá nhiên liệu bằng phép làm trơn mũ kép

thời gian

t x

86 85.96 85.62

86 85.64 82.86

0.25 -0.05 -0.345

86.25 85.6 82.52

Trang 37

85.33 84.97 84.78 84.43 82.91 81.86 81.69 81.74 81.62 82.04 82.79 83.4 84.05 84.83

83.05 82.13 83.3 81.63 70.75 73.46 80.17 82.14 80.68 85.40 88.77 88.24 89.27 91.03

-0.285 -0.355 -0.185 -0.35 -1.52 -1.05 -0.19 0.05 -0.12 0.42 0.75 0.61 0.65 0.78

82.77 81.78 83.11 81.28 69.23 72.41 79.98 82.19 80.56 85.82 89.52 88.85 89.92 91.81

Bảng 4: Áp dụng kỹ thuật làm trơn mũ kép để ngoại suy giá nhiên liệu cho

là dữ liệu được làm trơn kép (làm trơn lần 2) Sử dụng hằng số làm trơn  =0.2, các

dữ liệu được làm đơn xuất hiện trong cột 4 tức là:

Số hạng đầu tiên trên cột 4 là số liệu thực của thời ky trước, do đó giá trị ngoại suy cho tháng Hai bằng số liệu thực của tháng Giêng và bằng 86

Số hạng thứ hai trong cột 4 là:

8 85 ) 86 85 ( 2 0 86 ) (

D t

K t

D t

Trang 38

1 f D f K

Cột 8 là giá trị ngoại suy cuối cùng của phép làm trơn mũ kép và là tổng cột

6 và cột 7

Những ưu thế của phép làm trơn mũ đối với phép lấy trung bình trượt:

Đối với dữ liệu không dừng các kỹ thuật làm trơn kép là rõ ràng ưu việt hơn

kỹ thuật làm trơn đơn Kỹ thuật làm trơn mũ thường được xem là ưu việt hơn các trung bình trượt vì hai lý do sau đây:

- Tư tưởng về thu gọn dần các trọng số đối với các dữ liệu của thời kỳ trước,

có vẻ như là một cách lô-gic hơn để đưa ra kết quả ngoại suy

-Không cần nhiều số liệu dự trữ để thực hiện ngoại suy

3 Ngoại suy dữ liệu dựa trên phân tích chuỗi thời gian

3.1 Đại cương về chuỗi thời gian

Chương này trình bày một số ý tưởng cơ bản của bài toán phân tích chuỗi thời gian Trong bài toán đó, khái niệm về tính dừng, về hệ số tương quan có vai trò đặc biệt quan trọng Chúng ta cũng tóm tắt luợc qua một vài nét về các kỹ thuật cơ bản ước lượng, và loại bỏ đường xu thế cũng như tính chất theo mùa, từ một chuỗi thời gian quan sát được

3.1.1 Khái niệm chuỗi thời gian [6]

Mục tiêu của việc phân tích kinh tế thể nghiệm chỉ ra cơ chế kiểm soát và đưa ra quyết sách Vì vậy ta đòi hỏi có một số lượng lớn các quan sát cho các đại lượng thích hợp, để nghiên cứu các mối quan hệ giữa các đại lượng này Các quan sát này, có thể được tiến hành đều đặn qua các thời kỳ chẳng hạn: theo từng ngày, từng tuần, từng tháng, từng quý hoặc từng năm Dãy các quan sát này gọi là chuỗi thời gian Như vậy chuỗi thời gian là tập hợp các quan sát,được ghi nhận tại thời

điểm t với t  T Chuỗi thời gian được gọi là rời rạc nếu T là tập các điểm rời rạc

(Thí dụ các quan sát được thực hiện cách nhau một khoảng thời gian đều đặn, như doanh thu cước phí điện thoại hàng tháng, của một trạm bưu điện từ tháng 1 năm

1990 đến tháng 12 năm 2000) Ngược lại nếu T là một khoảng thì chuỗi thời gian là

liên tục Biểu đồ ghi nhịp tim của một bệnh nhân trong 3 giờ là một ví dụ minh họa

cho chuỗi thời gian liên tục với T=[0,3]

Định dạng
Số trang	76
Dung lượng	1,56 MB