Việc dự báo cho các mục tiêu đơn và cụ thể đã được thực hiện nhiều songviệc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy,dựa trên các dữ liệu đã thu thậ
Trang 1LỜI CẢM ƠN
Luận văn được hoàn thành dưới sự hướng dẫn của tiến sĩ Đỗ Năng Toàn Viện Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam
-Tác giả xin bày tỏ lòng biết ơn sâu sắc đến các thầy, về sự hướng dẫn tận tình
và đầy lòng nhân hậu trong quá trình học tập, nghiên cứu
Tác giả xin bày tỏ lòng biết ơn đến Ban lãnh đạo Trung tâm Thông tin- Tư liệuDầu khí đã tận tình động viên, tạo điều kiện giúp đỡ tác giả trong thời gian học tập
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến Trường Đại học Công nghệ- Đạihọc Quốc gia Hà nội, Viện Công nghệ Thông tin- Viện Khoa học và Công nghệViệt Nam đã tạo điều kiện thuận lợi trong thời gian học tập và nghiên cứu
Tác giả xin gửi lời cám ơn chân thành đến những người thân trong gia đìnhbạn bè và đồng nghiệp về những sự quan tâm, động viên và giúp đỡ trong thời gianqua
Hà nội tháng 10-2006
Trang 2MỤC LỤC
MỞ ĐẦU 3
1 Tính thời sự, ý nghĩa thực tiễn của đề tài 3
2 Mục đích, cấu trúc của luận văn 4
Chương 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU “NGOẠI SUY” 6
1 Khái niệm cơ sở dữ liệu “ngoại suy” 6
2 Tính chất của cơ sở dữ liệu “ngoại suy” 8
3 Các bước cần thực hiện để xây dựng cơ sở dữ liệu “ngoại suy” 9
4 Chức năng vai trò của cơ sở dữ liệu “ngoại suy” 11
4.1 Chức năng của cơ sở dữ liệu “ngoại suy” 11
4.2 Vai trò của cơ sở dữ liệu “ngoại suy” 12
Chương 2: MỘT SỐ PHƯƠNG NGOẠI SUY DỮ LIỆU 15
1 Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính 15
1.1 Mô hình hồi quy tuyến tính cổ điển 15
1.2 Ước lượng bình phương cực tiểu 16
1.2.1 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 17
1.2.2 Định lý Gauss về ước lượng bình phương cực tiểu 18
1.2.3 Hệ số xác định R 18
1.2.4 Khoảng tin cậy các hệ số hồi quy i 18
1.2.5 Kiểm định các giả thiết về hệ số hồi quy 19
1.2.6 Ước lượng hàm hồi quy tuyến tính 21
1.3 Kiểm tra sự phù hợp của mô hình 21
1.3.1 Tiêu chuẩn F 21
1.3.2 Khảo sát các phần dư 21
1.4 Tóm tắt các bước tiến hành phân tích hồi quy 22
1.5 Hệ thống các mô hình hồi quy tuyến tính bội 22
1.5.1 Mô hình hồi quy với nhiều biến phụ thuộc 22
1.5.2 Ước lượng tham số chưa biết của mô hình 24
1.6 Hồi quy và tương quan tuyến tính bội 25
1.6.1 Ngoại suy với một biến phụ thuộc 25
1.6.2 Ngoại suy với nhiều biến phụ thuộc 27
1.7 Mô hình hồi quy phi tuyến 29
2 Ngoại suy bằng phương pháp làm trơn 31
2.1 Các kỹ thuật làm trơn thường dùng 31
2.2 Trung bình trượt đơn 31
2.3 Trung bình trượt kép 33
2.4 Làm trơn đơn mũ 34
2.5 Làm trơn mũ kép 36
3 Ngoại suy dữ liệu dựa trên phân tích chuỗi thời gian 38
3.1 Đại cương về chuỗi thời gian 38
3.1.1 Khái niệm về chuỗi thời gian 38
3.1.2 Mục tiêu của việc phân tích chuỗi thời gian 39
3.2 Quá trình dừng và phân tích hệ số tương quan 41
3.2.1 Khái niệm về quá trình dừng 41
Trang 33.2.2 Các quá trình tuyến tính 43
3.2.3 Hệ số tương quan và tự tương quan mẫu 43
3.2.4 Hệ số tự tương.quan riêng 46
3.3 Ngoại suy dữ liệu dựa trên chuỗi thời gian ARMA 47
3.3.1 Khái niệm về chuỗi thời gian dừng 47
3.3.2 Chuỗi thời gian ARMA 51
3.3.3 Ngoại suy dữ liệu trên quá trình ARMA 54
3.3.4 Kiểm tra tính phù hợp của mô hình 64
Chương 3: ỨNG DỤNG 66
1 Cơ sở dữ liệu trạng thái 66
1.1 Cơ sở dữ liệu thời gian 66
1.2 Cơ sở dữ liệu ngoại suy qua trạng thái 69
2 Ứng dụng 69
2.1 Bài toán 69
2.2 Ngoại suy dựa vào chuỗi thời gian 70
2.3 Chương trình quản trị cơ sở dữ liệu International Revenue 73
KẾT LUẬN 75
TÀI LIỆU THAM KHẢO 76
Trang 4MỞ ĐẦU
1 Tính thời sự, ý nghĩa thực tiễn của đề tài
Khái niệm dự báo đã tồn tại từ rất lâu trong đời sống xã hội Tuy nhiên, trongbuổi đầu nó còn mang nặng tính thần bí, vô căn cứ, chỉ sau này khi mà các mônkhoa học tự nhiên phát triển thì dự báo mới thực sự được coi trọng và những hoạtđộng dự báo được diễn ra trên một cơ sở khoa học vững chắc
Ngày nay, việc đoán trước các xu thế tương lai đóng vai trò cực kỳ quan trọng trong việc hoạch định các chính sách kinh tế-xã hội cho hoạt động của các tập đoàn, các công ty nhỏ , vừa, lớn và thậm chí cả những quốc gia hùng mạnh Việc đánh giá các diễn biến tương lai của đối tượng phải dựa trên các số liệu thực tế trong các chu kỳ thời gian trước đó và hiện tại Nhưng trong nhiều trường hợp các
số liệu chưa thể cập nhậ t đến thời điểm hiện thời , song nhu cầu bắt buộc lại cần kết quả để đánh giá quá trình hoạt động Ví dụ: Việc tính toán thanh toán khấu trừ khi thực hiện gọi điện thoại giữa các vùng chẳng hạn Cuộc điện thoại được gọi từ Việt Nam sang Mỹ thì Việt Nam thu tiền cước trong khi Mỹ vẫn phải chịu phí tổn đường truyền và ngược lại nếu cuộc điện thoại gọi từ Mỹ về Việt Nam thì Mỹ lại làngười thu tiền Vấn đề đặt ra là cần phải tính toán khấu trừ giữa việc gọi đi và gọi đến Tuy nhiên, các số liệu thực tế thường có được chậm, có khi là cả quý Số liệu thật có chậm một quý và việc thanh toán thì lại chậm thêm mất một quý nữa Trong khi chúng ta lại luôn cần biết thông tin về kinh doanh tại thời điểm hiện tại để có kế hoạch, định hướng kinh doanh chẳng hạn như thuê thêm hay bớt đi đường truyền
Từ đó dẫn đến một tất yếu nảy sinh là phải tính toán dựa trên các số liệu ngoại suy (extrapolate data) để phục vụ nhu cầu đánh giá và quyết định
Việc dự báo cho các mục tiêu đơn và cụ thể đã được thực hiện nhiều songviệc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy,dựa trên các dữ liệu đã thu thập trong quá khứ, hiện tại và tổ chức thành một cơ sở
dữ liệu gọi là cơ sở dữ liệu “ngoại suy” thì ít và có thể nói là chưa có tài liệu nào đềcập đến, cho dù đã có rất nhiều dạng cấu trúc dữ liệu đã được tạo dựng
2 Mục đích, cấu trúc của luận văn
Sử dụng các kỹ thuật ngoại suy dữ liệu nhằm ứng dụng vào các mục đích dựbáo đã được sử dụng nhiều trong các đơn vị hành chính cũng như các doanh nghiệpthông qua các mô hình, các phương pháp toán học Việc tổ chức có tính chất hệthống cho các dữ liệu ngoại suy nhằm xây dựng các cơ sở dữ liệu mà thực tiễn đặt
Trang 5ra đang là nhu cầu cấp thiết nhưng những tài liệu có tính chất hệ thống về vấn đềđặt ra vẫn đang là một phần thiếu vắng.
Xuất phát từ thực tế đó, mục tiêu của luận văn là nghiên cứu các phươngpháp ngoại suy dữ liệu, trên cơ sở đó đề xuất một giải pháp cho việc xây dựng cơ sở
dữ liệu cho các giá trị ngoại suy dựa trên các mô hình toán học và giải quyết mộtvấn đề thực tế nhờ ứng dụng mô hình đề xuất này Với mục tiêu cụ thể như sau:
Nghiên cứu tổng quan về ngoại suy dữ liệu và cơ sở dữ liệu nhằm thừa kếcác kết quả và cải tiến cho phù hợp với các dữ liệu chính xác và dữ liệu dự báo
Tìm hiểu các mô hình toán học và các phương pháp ngoại suy dữ liệu dựatrên mô hình
Đề xuất một bài toán ứng dụng thực tế có sử dụng một phương pháp ngoạisuy cụ thể và cài đặt
Cấu trúc của luận văn gồm 76 trang chia thành 3 chương, phần mở đầu, phầnkết luận và tài liệu tham khảo được cấu trúc như sau:
Chương 1: Tổng quan về cơ sở dữ liệu “ngoại suy” (8 trang)
Trình bày tổng quan về các mô hình cơ sở dữ liệu, về dữ liệu ngoại suy Sau
đó nêu lên vai trò của việc tổ chức dữ liệu ngoại suy trong việc tổ chức và quản lý
dữ liệu
Chương 2: Một số phương pháp ngoại suy dữ liệu (51 trang)
Chương này trình bày các khái niệm và các kỹ thuật ứng với ba phương phápchính thường được sử dụng trong việc ngoại suy dữ liệu, đó là: Mô hình hồi quy vàphương pháp ngoại suy dựa vào mô hình hồi quy Quá trình làm trơn và ngoại suy dựatrên làm trơn Chuỗi thời gian và ngoại suy dữ liệu dựa trên chuỗi thời gian
Chương 3: Ứng dụng (9 trang)
Trình bày việc tổ chức dữ liệu ngoại suy thành cơ sở dữ liệu dựa trên việcgán trạng thái thời gian cho các bản ghi Trên cơ sở đó cài đặt ứng dụng cụ thể liênquan đến việc thao tác với các dữ liệu ngoại suy
Trang 6Chương 1
TỔNG QUAN VỀ CƠ SƠ DỮ LIỆU “NGOẠI SUY”
1 Khái niệm cơ sở dữ liệu “ngoại suy”
Bản thân thuật ngữ cơ sở dữ liệu “ngoại suy” đã nói lên thuộc tính không thểthiếu được của bộ não con người: đó là sự phản ánh vượt trước, sự cố gắng hướngtới một tương lai ngày một tốt đẹp hơn Những cố gắng ban đầu được thể hiện dướihình thức là ước đoán, những hy vọng thiếu căn cứ, những ước muốn viển vôngkhông tưởng, những tính toán ước lượng thiếu cơ sở khoa học và mang nặng tínhkinh nghiệm.[1]
Từ cổ xưa việc dự báo đã được áp dụng trong cuộc sống hàng ngày, nhưngmang nặng màu sắc thần bí tôn giáo, thể hiện ở các câu tiên tri, lời bói toán Ngay
từ thời cổ Hy Lạp người ta đã phân chia các lĩnh vực dự báo thành:
Các hiện tượng tự nhiên như: thời tiết, nhật thực, nguyệt thực…
Các hiện tượng xã hội: Sự xuất hiện và kết thúc các cuộc chiến tranh, sựhưng thịnh hay suy vong của một thể chế chính trị…
Các hiện tượng về đời sống xã hội như khả năng giàu có, bệnh tật, sinh tử,
về sự phát đạt của một dòng họ…
Suốt nhiều thế kỷ trước dự báo không được vận dụng một cách khoa học vàkhông có tính tích cực, bởi vì đây là thời kỳ lý thuyết tôn giáo không tưởng và triếthọc duy tâm chiếm vai trò thống trị trong tư duy nhận thức thế giới, giai cấp thốngtrị đã lợi dụng nó làm công cụ thống trị và mê hoặc người dân nghèo khổ Đến thế
kỷ XVI, XVII khi mà các môn khoa học tự nhiên như toán học, hóa học , vật lý học
và thiên văn học đã phát triển, các dự báo có tính chất khoa học mới dần dần xuấthiện Tuy nhiên, lúc đầu các dự báo với độ chính xác cao thường được áp dụng vàotrong vật lý cổ điển, hóa học và đặt trong phạm vi không gian và thời gian rất khắtkhe Sau đó, sự xuất hiện nhiều dự báo mà hiện tượng dự báo rất phức tạp, chịu sựtác động của nhiều nhân tố: tiến bộ khoa học–kỹ thuật, sự phát triển kinh tế-xã hội,chính trị, sự thay đổi về tâm lý và chuẩn mực đạo đức xã hội, đòi hỏi dự báo phảivận dụng các phương pháp thống kê xác suất (dự báo với mức độ tin cậy nào đóchứ không hoàn toàn chính xác) [1]
Trang 7Học thuyết của C.Mác đã mở ra một khả năng mới vế sự tiên đoán có tínhkhoa học về các hình thái kinh tế - xã hội Mác và Ăng nghen là người đầu tiên đề
ra và giải thích một cách sâu sắc rằng mâu thuẫn chính là động lực phát triển củamọi hình thái kinh tế - xã hội và sự tất yếu khách quan của việc chuyển từ hình tháikinh tế - xã hội này sang hình thái kinh tế xã - hội khác tiến bộ hơn Hai ông chorằng các hiện tượng kinh tế - xã hội vận động và phát triển theo thời gian: hiện tạibao giờ cũng mang dấu vết trong quá khứ còn tương lai do quá khứ và hiện tại pháttriển tạo thành Khi liên hệ một cách thận trọng với kinh nghiệm của quá khứ để rút
ra bài học sâu sắc từ thực tế sinh động, không thể phủ nhận được những tiên đoánthiên tài của Lênin, một di sản có tính chất kinh điển Ông đã tổng quát hóa cáckhuynh hướng phát triển của các hiện tượng phức tạp nhất trong các lĩnh vực chínhtrị, kinh tế, xã hội và khoa học để tập chung đầu tư cho kế hoạch điện khí hóa Nhànước Xô Viết đầu tiên [2]
Như vậy, dự báo đã từ thần bí kinh nghiệm phát triển thành một môn khoahọc độc lập Ngày nay vai trò của dự báo ngày càng được khẳng định và tăng lênđáng kể trong mọi lĩnh vực và cấp độ của đời sống xã hội Đó là do quy mô của nềnkinh tế ngày càng lớn, cấu trúc của nền kinh tế xã hội ngày càng phức tạp Việc tổnghợp các nhân tố ảnh hưởng đến quá trình phát triển nền kinh tế quốc dân, việc vạch
ra các luận chứng để xây dựng chiến lược, quy hoạch và kế hoạch phát triển, việclựa chọn các phương án để phát triển khả năng thực hiện các mục tiêu kinh tế - xãhội ngày càng tăng lên
Như vậy có thể hiểu cơ sở dữ liệu “ngoại suy” là một cơ sở dữ liệu gắn vớichuỗi thời gian thực, được cài đặt các thuật toán ngoại suy nhằm sản sinh ra bộ dữliệu mới (dữ liệu ngoại suy) có căn cứ khoa học mang tính chất xác suất về mức độ,nội dung, các mối quan hệ, trạng thái, xu hướng phát triển của đối tượng nghiêncứu hoặc về cách thức và thời hạn đạt được các mục tiêu nhất định đã đề ra trongtương lai
Tiên đoán là hình thức phản ánh vượt trước về thời gian hiện thực kháchquan, đó là kết quả nhận thức chủ quan của con người dựa trên cơ sở nhận thức quyluật khách quan trong sự vận động và phát triển của sự vật và hiện tượng có thểphân biệt 3 loại tiên đoán:
Tiên đoán không khoa học: đó là các tiên đoán không có cơ sở khoa học,thường dựa trên các mối quan hệ có tính tưởng tượng, không hiện thực, được cấu trúcmột cách giả tạo, hoặc những phát hiện có tính chất bất chợt Các hình thức như
Trang 8Tiên đoán khoa học: đây là tiên đoán dựa trên việc phân tích mối quan hệ qualại giữa các đối tượng trong khuôn khổ của một hệ thống lý luận khoa học nhấtđịnh Nó dựa trên việc phân tích tính quy luật phát triển của đối tượng dự báo vàcác điều kiện ban đầu với tư cách như là các giả thiết Tiên đoán khoa học là kếtquả của sự kết hợp giữa những phân tích định tính và những phân tích định lượngcác quá trình cần dự báo Chỉ có dự báo khoa học mới đảm bảo độ tin cậy cao và là
cơ sở vững chắc cho việc thông qua các quyết định quản lý khoa học [2]
Ngoại suy dữ liệu bao giờ cũng có thời gian xác định hay tầm xa của ngoạisuy Tầm xa ngoại suy dữ liệu là khoảng cách thời gian tối đa từ hiện tại đến thờiđiểm sản sinh dữ liệu ngoại suy Khoảng cách này phụ thuộc vào nhiều nhân tố: sựthay đổi của dữ liệu ngoại suy, mức độ ổn định của các nhân tố ảnh hưởng, độ dàithời kỳ tiền sử v.v…
2 Tính chất của cơ sở dữ liệu “ngoại suy”
Ngoại suy dữ liệu mang tính xác suất Mỗi đối tượng dữ liệu ngoại suy đều
vận động theo một quy luật nào đó, một quỹ đạo nhất định nào đó, đồng thời trongquá trình phát triển nó luôn luôn chịu sự tác động của môi trường, hay các yếu tốbên ngoài Bản thân môi trường hay các yếu tố tác động cũng không phải là đứng
im mà luôn luôn trong trạng thái vận động và phát triển không ngừng, về phía chủthể dữ liệu ngoại suy, những thông tin hiểu biết về đối tượng ở tương lai bao giờcũng nghèo nàn hơn hiện tại Vì vậy dù các thuật toán ngoại suy có hoàn thiện, cótin cậy đến đâu cũng không thể chắc chắn rằng các dữ liệu ngoai suy là hoàn toànchính xác Hay nói một cách khác ngoại suy dữ liệu bao giờ cũng mang tính xácsuất [1]
Ngoại suy dữ liệu là đáng tin cậy Ngoại suy mang tính xác suất nhưng
đáng tin cậy vì nó dựa trên những cơ sở lý luận và phương pháp luận khoa học Đó
là phép biện chứng duy vật và lịch sử, hệ thống các lý luận về khoa học, về kinh tế
và xã hội Phương pháp và công cụ xử lý thông tin ngày càng hiện đại Xét về mặt
Trang 9bản chất, ngoại suy dữ liệu là sự phản ảnh vượt trước, là những giả thiết về sự pháttriển của dữ liệu ngoại suy trong tương lai được đưa ra trên cơ sở nhận thức cácquy luật phát triển và những điều kiện ban đầu với tư cách là những giả thiết Theo
đà phát triển của khoa học kỹ thuật, trình độ nhận thức quy luật và các điều kiện banđầu ngày càng được hoàn thiện thì độ tin cậy của dữ liệu ngoại suy cũng khôngngừng được nâng cao độ tin cậy.[1]
Ngoại suy dữ liệu mang tính đa kết quả Mỗi phương pháp ngoại suy
được thực hiện trên những giả thiết nhất định – ngoại suy có điều kiện Tập hợp các
giả thiết như vậy gọi là phông dữ liệu ngoại suy Ngoại suy có thể được tiến hànhtrên các phông dữ liệu ngoại suy khác nhau, do những nguyên nhân chủ quan vàkhách quan khác nhau và vì vậy có thể có nhiều kết quả ngoại suy khác nhau Tính
đa kết quả một mặt là thuộc tính khách quan của dữ liệu ngoại suy, nhưng mặt kháclại là phù hợp với yêu cầu của công tác quản lý, nó làm cho việc ra quyết định cũngnhư chỉ đạo thực hiện quyết định quản lý trở nên linh hoạt hơn, dễ thích nghi với sựbiến đổi vô cùng phức tạp của tình hình thực tế [1]
3 Các bước thực hiện để xây dựng cơ sở dữ liệu “ngoại suy”
Thông thường các thủ tục để xây dựng cơ sở dữ liệu “ngoại suy” bao gồmcác bước sau đây: [2]
Bước 1: Xác định mục tiêu bài toán.
Bước đầu tiên của công tác xây dựng cơ sở dữ liệu “ngoại suy” là làm rõmục tiêu của nó Ba mục tiêu chính cần xác định là:
Xác định đối tượng: Nhu cầu về thuê bao điện thoại, nhu cầu về nhà ở, nhucầu nghề nghiệp, lượng nước về trong hồ chứa, thời tiết, tỷ giá cổ phiếu v.v…
Khu vực dự báo: Theo địa dư (một tỉnh, khu vực, toàn quốc v.v…) hay khuvực xã hội (ngành công nghiệp, khu vực dịch vụ, v.v…) Khu vực dự báo có thể làthu hẹp trong một vùng nông thôn hay một lĩnh vực cụ thể nào đó như tỷ giá đồng
đô la Mỹ và đồng Việt nam
Khoảng thời gian dự báo: 1 năm, 5 năm, 10 năm…
Bước 2: Phân tích các yếu tố ảnh hưởng
Đại lượng biến đổi theo thời gian có thể thực hiện trên tiền đề là quan hệgiữa đại lượng này và các yếu tố quyết định các giá trị của đại lượng này trong quákhứ, về cơ bản không thay đổi cho đến thời điểm cần xác định trong tương lai Do
Trang 10đó, các điều kiện bên trong (hệ thống giá, cơ cấu giá, cơ chế vận hành điều tiết lũv.v…) cùng các điều kiện bên ngoài (kế hoạch phát triển vùng, bảo đảm tính bềnvững của môi trường v.v…) phải được xét đến
Bước 3: Thu thập phân loại dữ liệu
Trong nghiên cứu các yếu tố ảnh hưởng trực tiếp đến đối tượng, cần phảithu thập những số liệu về yếu tố đó, sau đó sắp xếp phân loại chúng để xử lý
Chẳng hạn, dữ liệu cần cho việc xác định nhu cầu điện thoại có thể bao gồm:Dân số, hộ gia đình
Số văn phòng các công ty, cơ quan đoàn thể
Tốc độ tăng thu nhập
Các kế hoạch phát triển đô thị
Nhu cầu điện thoại các năm qua
Các dữ liệu trên cần được sắp xếp theo thời gian, vùng địa dư hay ngànhnghề
Bước 4: Phân tích xu hướng tiến triển của đại lượng
Xu hướng tiến triển được phân tích trên bình diện sau:
Các số liệu của thời gian trước đó
Cơ cấu phát triển của hệ
Nguồn tác động đến quá trình phát triển
Xem xét đặc trưng của khu vực
So sánh các vùng khác
Bước 5: Xác định mô hình kỹ thuật ngoại suy sẽ sử dụng trong quá trình
tính toán, lựa chọn cơ sở dữ liệu cài đặt
Ngoại suy chuỗi thời gian
Quá trình làm trơn
Phân tích hồi quy
Các phương pháp khác (so sánh, chuyên gia v.v…)
Phương pháp và mô hình được chọn tương ứng với đặc điểm của đối tượng vàyếu tố liên quan, ứng với các dữ liệu có thể thu thập được Để đạt được giá trị có
Trang 11độ tin cậy cao, điều quan trọng là phải lựa chọn được phương pháp thích hợp, khảthi nhất và chọn ra phương pháp tính toán tin cậy và tối ưu.
Bước 6: Kiểm tra tính phù hợp của mô hình
Bước 7: Xác định các giá trị dữ liệu ngoại suy và cập nhật dữ liệu thích hợp
vào cơ sở dữ liệu: Kết hợp kết quả thu được ở bước 5 và phân tích thực hiện ởbước 2 và 4 xác định dữ liệu kết quả thích hợp nhất để cập nhật vào cơ sở dữ liệu
4 Chức năng vai trò của cơ sở dữ liệu “ngoại suy”
4.1 Chức năng của cơ sở dữ liệu “ngoại suy”
Ngoại suy dữ liệu dựa trên sự phản ánh một hình thức nhận thức thế giới,nhận thức xã hội Nó có hai chức năng cơ bản:
Chức năng tham mưu: trên cơ sở đánh giá thực trạng, phân tích xu hướng
vận động và phát triển trong quá khứ, hiện tại và tương lai, ngoại suy dữ liệu sẽcung cấp thông tin dữ liệu cần thiết, khách quan làm căn cứ cho việc ra quyết địnhquản lý và xây dựng chiến lược, kế hoạch hóa các chương trình, dự án,…ngườiquản lý và hoạch định chiến lược, người lập kế hoạch có nhiệm vụ lựa chọn trong
số các phương án có thể có, tìm ra các phương án có tính khả thi cao nhất, có hiệuquả nhất Để thực hiện tổ chức năng này, dữ liệu ngoại suy phải thật sự đảm bảođược tính khách quan, khoa học và tính độc lập tương đối với các cơ quan quản lý
và hoạch định chính sách [2]
Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dữ liệu ngoại
suy cung cấp thông tin, để tiên đoán các hậu quả có thể nảy sinh trong quá trìnhthực hiện các chính sách kinh tế - xã hội, nhằm giúp các cơ quan chức năng kịp thờiđiều chỉnh mục tiêu cũng như các cơ chế tác động quản lý để đạt được hiệu quảkinh tế - xã hội cao nhất
Với hai chức năng đó, nếu xét trong quan hệ kế hoạch thì dữ liệu ngoại suybao gồm hai loại: dữ liệu ngoại suy cung cấp thông tin dự báo trước kế hoạch và dữliệu ngoại suy cung cấp thông tin dự báo sau kế hoạch Dự báo trước kế hoạch làtiền đề khoa học đảm bảo tính khả thi của kế hoạch, còn dự báo sau kế hoạch giúpcho quá trình chỉ đạo thực hiện kế hoạch đạt hiệu quả cao nhất [2]
Trang 124.2 Vai trò của cơ sở dữ liệu “ngoại suy”
Cơ sở dữ liệu ngoại suy có vai trò quan trọng trong quá trình ra quyết địnhquản lý Theo nghĩa chung nhất, quản lý là sự tác động liên tục có tổ chức, có chủđích vào đối tượng quản lý bằng các hệ thống biện pháp kinh tế, xã hội, các biệnpháp hành chính …, nhằm tạo điều kiện thuận lợi thúc đẩy sự phát triển sản xuất,tiến bộ xã hội.Kết quả của hoạt động quản lý là các quyết định quản lý Cơ chế raquyết định bao gồm ba bước: [2]
Trong các bước của quá trình ra quyết định quản lý thì vấn đề xây dựng môhình là khâu cơ bản nhất, sở dĩ như vậy là vì qúa trình đi đến một quyết định quản
lý đòi hỏi phải mô hình hóa các mối quan hệ trong quá trình vận động và phát triểncủa đối tượng quản lý, cho phép liên kết các môi quan hệ không những theo chiềudọc mà còn theo chiều ngang, cho phép liên hệ từ quá khứ đến hiện tạivà sangtương lai Xét về mặt thời gian các mô hình như vậy đều mang ý nghĩa dự báo
Hướng sử dụng cơ sở dữ liệu ngoại suy để xây dựng mô hình dự báo tronghoạt động quản lý là rất quan trọng, nó tạo điều kiện không những cung cấp thôngtin tương lai mà còn có khả năng làm chủ công tác quản lý Nhờ có cơ sở dữ liệungoại suy mà việc xây dựng mô hình dự báo có thể tăng cường khả năng quản lýmột cách khoa học:
Giúp nhận thức sâu sắc hơn các quy luật khách quan, tránh được chủ quanduy ý chí
Mô hình hóa đề cập một cách toàn diện các mối quan hệ kinh tế- xã hội.Cho phép định lượng được các mối quan hệ bằng cách áp dụng các phươngpháp khoa học như toán, thống kê, …
Trong nền kinh tế thị trường, việc xây dựng cơ sở dữ liệu ngoại suy nhằmcung cấp các dữ liệu ngoại suy từ các dữ liệu trong quá khứ là vô cùng quantrọng,bởi lẽ nó cung cấp các thông tin cần thiết nhằm phát hiện và bố trí sử dụngcác nguồn lực trong tương lai một cách có căn cứ thực tế Với cơ sở dữ liệu ngoạisuy, những dữ liệu ngoại suy đưa ra cho phép các nhà hoạch định chính sách cónhững quyết định về đầu tư, các quyết định về sản xuất, về tiết kiệm và tiêu dùng,
Trang 13các chính sách tài chính, chính sách kinh tế vĩ mô Việc xây dựng cơ sở dữ liệungoại suy và cung cấp dữ liệu ngoại suy không chỉ tạo cơ sở khoa học cho việchoạch định chính sách, xây dựng chiến lược phát triển, cho các quy hoạch tổng thể
mà còn cho phép xem xét khả năng thực hiện kế hoạch và hiệu chỉnh kế hoạch Mốiquan hệ giữa cơ sở dữ liệu ngoại suy và kế hoạch hóa được biểu thị qua sơ đồ dướiđây:
Mục tiêucủa quản lý
Các hạn chế
Sự Phân BổNguồn Lực vàCam Kết
Sự thực hiện
và chính sáchđiều chỉnh
Hình 1.1: Mối quan hệ giữa cơ sở dữ liệu ngoại suy với công tác lập
kế hoạch và ra quyết định quản lý
Trong quản lý vĩ mô, việc sản sinh dữ liệu ngoại suy là hoạt động gắn liềnvới công tác hoạch định và chỉ đạo thực hiện chiến lược kinh doanh của doanhnghiệp Các doanh nghiệp không thể không tổ chức thực hiện tốt công tác dự báonếu họ muốn đứng vững trong kinh doanh
Trang 14Chức năng đầu tiên của quản lý trong doanh nghiệp là xác định mục tiêu củadoanh nghiêp dài hạn và ngắn hạn Doanh nghiệp phải lập kế hoạch để thực hiệnnhững mục tiêu đó, tổ chức tốt các nguồn nhân lực và vật tƣ để thực hiện kế hoạch,
Trang 15điều chỉnh kế hoạch cũng như kiểm soát các hoạt động để tin chắc rằng tất cả diễn
ra theo đúng kế hoạch Phân tích kinh tế và dự báo được tiến hành trong tất cả cácbước của quản lý doanh nghiệp, nhưng trước hết là trong việc xác định mục tiêu vàhoạch định các kế hoạch dài hạn và ngắn hạn
Trong việc xác định mục tiêu, mỗi doanh nghiệp phải quyết định hàng hóa vàdịch vụ nào sẽ được sản xuất và bán ra, mức giá sản phẩm và dịch vụ, vùng tiêuthụ, thị trường tiềm năng về sản phẩm đó Thị phần mà doanh nghiệp thực tế có thể
hy vọng chiếm được, hiệu suất vốn doanh nghiệp có thể kỳ vọng…những mục tiêunhư vậy chỉ có thể trở thành hiện thực nếu doanh nghiệp đã phân tích các xu thế củanền kinh tế, đã có đầy đủ các cơ sở để dự báo về nhu cầu sản phẩm của mình cảtrong dài hạn và ngắn hạn, chi phí các nhân tố sản xuất…Như vậy các dự báo về thịtrường, giá cả, tiến bộ khoa học và công nghệ, nguồn nhân lực, sự thay đổi của cácnguồn đầu tư vào, đối thủ cạnh tranh,… có tầm quan trọng sống còn đối với doanhnghiệp Ngoài ra các dữ liệu ngoại suy cung cấp những thông tin cho phép phối hợphành động giữa các bộ phận trong doanh nghiệp [1]
Trang 16Chương 2
MỘT SỐ PHƯƠNG NGOẠI SUY DỮ LIỆU
1 Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính
Phân tích hồi quy là một phương pháp phân tích thống kê dự đoán các giá trịcủa một hoặc một số biến phụ thuộc (biến đáp ứng) theo một tập các biến độc lập(các biến dùng để ngoại suy) Nó cũng được vận dụng đánh giá hiệu quả tác độngcủa biến độc lập đối với biến phụ thuộc [4]
1.1 Mô hình hồi quy tuyến tính cổ điển[4]
Giả sử X1 , , X k là các biến độc lập dùng để ngoại suy và Y là biến phụ thuộc
Tuy nhiên trong một số trường hợp sự phụ thuộc là tương đối đơn giản Mô hình
là Y là biểu thức bậc nhất của X1 , , X k ) và sai số Như vậy:
Y 0 1 X 1 k X k (2.1)trong đó i ,i 0 k là các hệ số chưa biết
Giả sử các số liệu quan sát tuân theo mô hình sau:
y1 0 1 x11 k x 1k 1
y2 0 1 x21 k x 2k 2 (2.2)
………
y n 0 1 x n1 k x nk n
trong đó i , , n thỏa mãn 3 điều kiện sau:
2) D(j ) 2 (phương sai không đổi hay là độ chuẩn xác đo đạc như nhau)
Trang 173) cov(i , j ) 0 với mọi i j 1 n (các sai lệch từng bước không ảnh
Một bài toán trước tiên đặt ra là hãy dựa trên ma trận X và véc tơ của các giá
trị quan sát hãy uớc lượng véc tơ tham số và 2
Nếu chúng ta sử dụng b là giá trị thử của thì giữa các quan sát và b1x j1
b k x jksẽ bị một độ lệch y j b0 (b1 x j1 b k x jk ) Nói chung độ lệch nàysẽ khác 0
Phương pháp ước luợng bình phương tối thiểu là hãy chọn giá trị véc tơ b
làm cực tiểu hóa phiếm hàm S(b) được gọi là ước lượng bình
Trang 18Gọi là phần dư của phép hồi quy Trong trường hợp này, vì biểu thức theo
là tuyến tính, nên phương trình
Mệnh đề 2.1: Nếu ma trận thiết kế X không ngẫu nhiên có hạng
ước lượng bình phương cực tiểu có dạng:
(2.9) (2.10) (2.11) (2.12) (2.13) (2.14)
Đẳng thức này gọi là phân tích tổng bình phương Nó chính là “đẳng thức
Pitago” trong không gian Hilbert của các biến ngẫu nhiên bình phương khả tích
1.2.1 Tính chất ước lượng bằng phương pháp bình phương cực tiểu [5]
Trang 201.2.2 Định lý Gauss về ước lượng bình phương cực tiểu [5]
c0 0 ck k là ước lượng không chệch với phương sai bé nhất
s yˆ
(2.20)
1n y 2j n( y )2 s y
được giải thích bởi các biến x j1, , x
Ta nhận được phương trình để tính sai số bình phương trung bình
Trong phần này ta xét mô hình hồi quy cổ điển (2.7), (2.8) với giả thiết thêmrằng: các j cũng phân bố chuẩn N(0, 2) và độc lập, tức là ( 1 , 2 , , n)T có
Trang 22Mệnh đề 2.2:
có phân bố chuẩn N k1 ( , 2 ( X T X ) 1 ) 2) (n k 1)ˆ
bậc là k1n và có phân bố chuẩn N n (0, 2I n ) Khi đó miền tin cậy đồng thời mức 1 của xác định bởi
Trang 23Song trên thực tế có một số biến độc lập không tham gia vào phương trình hồi quy,
Trang 24tức là các hệ số của nó trong phương trình bằng 0 Tuy nhiên, các giá trị ước lượng
của nó có thể khác 0 Vậy khi nào các hệ số ước lượng được xem là bằng 0 thực
sự? Điều này dẫn ta đến bài toán kiểm định giả thiết:
H
0 :
Với đối thiết K: ip1, ,k sao cho i 0
Giả thiết H 0 có nghĩa là các biến độc lập X p1 , X p2 , , X k không tham gia
vào biểu thức trong (2.1) ngược lại đối thiết K nói rằng có ít nhất một trong các biến
này quả thực cần tính trong mô hình Tổng quát hơn ta xét bài toán kiểm định giả
Trong đó Cc ij cấp (kp)(k1);aa1,a2, ,a kpT
Ta giả thiết rằng ma trận C của các hệ số của k-p tổ hợp tuyến tính này có
Trang 251.2.6 Ước lượng hàm hồi quy tuyến tính [4]
Bài toán đặt ra là hãy ước lượng hàm hồi quy tuyến tính
là ước lượng tuyến tính với phương sai cực tiểu
1.3 Kiểm tra sự phù hợp của mô hình
Xét mô hình hồi quy tuyến tính (2.2) Mô hình hồi quy tuyến tính
tố ngẫu nhiên tạo nên, tức là dãy biến ngẫu nhiên độc lập, cùng phân phối Vì mô
hình đang xét có
phân phối chuẩn nên ta cần kiểm tra xem các sai số có phân bố chuẩn
hay không? Đề kiểm tra giả thiết đó người ta thường xét các tiêu chuẩn sau đây: [4]
i 0; i 1 k thì F cho bởi (2.32) có phân bố F với k và n-k-1 bậc tự do.
Từ mệnh đề này ta đưa ra quy tắc: Nếu F qua lớn hoặc F gần 0 ta cần bác bỏ
giả thiết có phân bố chuẩn N (0, 2I n ) hoặc bác bỏ i 0; i 1 k
N (0,2 I n )
Trang 27Và nếu giả thiết H0 rằng có phân bố chuẩn N(0, 2I n) là đúng thì ˆ cũng
1.4 Tóm tắt các bước tiến hành phân tích hồi quy [4]
Việc phân tích hồi quy tuyến tính được thực hiện theo các bước sau:
Bước 3: Kiểm định sự phù hợp của mô hình Sử dụng tiêu chuẩn F để kiểm
tuyến tính cổ điển thì có thể chuyển sang bước 4
Bước 4: Xác định khoảng tin cậy của các hệ số hồi quy
Bước 6: Dùng phương trình hồi quy tuyến tính mẫu:
Y 0 1 X1 k X k Để
E(Y|X X0) 0 1 X 1 k X k0 và giá trị Y ( X 0 )
1.5 Hệ thống các mô hình hồi quy tuyến tính bội
1.5.1 Mô hình hồi quy với nhiều biến phụ thuộc [4]
thuộc Trong phần này ta xem xét mối quan hệ tuyến tính giữa m biến phụ thuộc
X 1 , X 2 , , X k
Trang 29Y1 01 11 X 1 k1 X k 1
Y2 02 12 X 1 k2 X k 2
cov(i , j ) có thể khác không khiij
Bây giờ giả sử ta có n quan sát (x j1,x j2 , ,x jk,y j1,y j2 , ,y jm),j 1 n về
véc ( X 1 , X 2 , , X k ,Y1 ,Y2 , , Y m ) sai số quan sát thứ j sẽ là 1 , ,mTtrong đó
y ij ( 0i 1i x j1 ki x jk ); i 1 m
Giả sử Y jy j1 , ,y jmT là quan sát thứ j về các biến đáp ứng Y1, ,Y mT
còn y 1i , y 2i , ,y niT là các quan sát của biến phụ thuộc Y i ;i 1 m đặt
trình ma trận sau: (chú ý rằng Y(1) , ,Y(m), (1) , , (m) là véc-tơ cột của ma trận Y và
Với giả thiết sau đây về sai số:
Trang 31Tức là với cùng thứ tự quan sát các sai số li và lj (ij) có tương quan
nhưng thứ tự quan sát khác nhau li,ji (lj) không tương quan với nhau; trong đó
1.5.2 Ước lượng các tham số chưa biết của mô hình [4]
Đầu tiên ta xét một mô hình riêng lẻ
g có:
YY Y
ˆˆ
Trang 32(2.41)(2.42)(2.43)
Trang 33và ˆ không tương quan với ˆ
1.6 Hồi quy và tương quan tuyến tính bội
1.6.1 Ngoại suy với một biến phụ thuộc [4]
Khác với phần trước, trong phần này ta xét cả biến đáp ứng Y và biến giải
thích X (X1 , , X k ) T đều là các biến ngẫu nhiên Giả sử, véc tơ trung bình của
(Y , X 1 , , X k )T là và ma trận hiệp phương sai là Ta đưa vào ký hiệu sau:
Y E(Y ), X E( X ) (EX 1 , , EX k ) T
Trang 34trung bình là: E( b T X ) 2
(2.47)(2.48)(2.49)
Trang 35Ta muốn tìm hệ số b0 ,b1 , ,b k sao cho (2.49) đạt giá trị bé nhất
Nhận xét: Giả thiết rằng Y ,X 1 , ,X k có phân bố đồng thời chuẩn N k1 ( , )
Khi đó có thể chứng minh rằng phân bố có điều kiện của Y khi X1 x1 , ,X kx k
đã cho chính là phân bố chuẩn
chuẩn đồng thời thì ngoại suy tốt nhất của Y theo X là ngoại suy tuyến tính
Trang 36là véc-tơ trung bình mẫu và ma trận hiệp phương sai mẫu (đồng thời với các
ước lượng hợp lý cực đại của và )
Khi đó các ước lượng hợp lý cực đại của các hệ số hồi quy 0, 1 , k của E( 2 ) chính là
1.6.2 Ngoại suy với nhiều biến phụ thuộc [4]
Giả sử chúng ta muốn ngoại suy m biến đáp ứng Y1 , ,Y m theo k biến độc lập
X 1 , , X k Giả thiết các biến độc lập này có thể ngẫu nhiên Đặt
Y Y1 , ,Y mT , X X1 , ,X kT với giá trị trung bình và ma trận hiệp phương sai
Khi đó tất cả các công thức trong mệnh đề 6.1 và 6.2 vẫn còn hiệu lực nếu ta
ngoại suy tuyến tính tối ưu là
Trang 37T XYXX1YY và hệ số tương quan giữa 1 , 2 Mối liên hệ này đặc trưng cho sự
Trang 38Y Y X S YY.X ) 2
Ta cũng có các kết quả tương tự về ước lượng hợp lý cực đại cho trường hợp hồi quy tuyến
tính với n biến phụ thuộc
Trang 391.7 Mô hình hồi quy phi tuyến [4]
Giả sử quan hệ giữa biến phụ thuộc ngẫu nhiên Y và biến độc lập không ngẫu
nhiên X ( X 1 , , X k ) được biểu diễn bởi biểu thức sau
Y
f ( X , ) (2.62)
Trong đó ( 1 , , s)T R S là các tham số chưa biết, F:R k R s
hàm đã cho, là sai số ngẫu nhiên Nếu f(X, ) là hàm tuyến tính theo
Trong mục này ta sẽ nghiên cứu mô hình hồi quy phi tuyến dạng (2.62)
Giả sử ta có bộ quan sát (Y(1) ,X(1) , ,Y (n),X (n)) về véc-tơ (X,Y), Khi đó tanhận được hệ phương trình quan sát sau:
của Cũng tương tự như mô hình hồi quy tuyến tính ta sẽ dùng phương pháp bìnhphương cực tiểu, tức là tìm ˆ
sao cho: nY (i) f ( X (i) , )2 min
i1
Giả sử f là hàm khả vi liên tục theo Khi đó thông thường ˆ
là nghiệmcủa hệ phương trình sau:
nY (i) f ( X (i) , ) f( X (i) , ) 0; j 1 s (2.65)
Để đơn giản ta sẽ ký hiệu
Z1 , Z 2 , , Z s
Trang 40Để xác định nghiệm của (2.65) người ta
dùng phương pháp xấp xỉ liên tiếp như sau: Giả sử phương trình (2.65) có nghiệm
duy nhât
Bước 1: Cho (0) G((0) ) trong đó (0) (2.67)
Thay (2.67) vào (2.65) ta nhận được hệ phương trình:
Phương trình (2.68) được gọi là phương trình chuẩn Từ đây ta có thể tìm
được nghiệm (0) Tiếp đó ta sẽ lấy (1) (0) (0) làm giá trị ban đầu với
một 0 1 nào đó
nghiệm (1) , và lấy ( 2) (1) (1) làm giá trị ban đầu và làm như vậy cho đến
là nghiệm của hệ (2.65) và cực tiểu hóa bình phương