Tuy nhiên, trong buổi đầu nó còn mang nặng tính thần bí, vô căn cứ, chỉ sau này khi mà các môn khoa học tự nhiên phát triển thì dự báo mới thực sự được coi trọng và những hoạt động dự bá
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CÔNG TUẤN
CƠ SỞ DỮ LIỆU NGOẠI SUY
VÀ ỨNG DỤNG
Ngành : Công nghệ thông tin
Mã số : 1.01.10
LUẬN VĂN THẠC SỸ Người hướng dẫn khoa học: TS ĐỖ NĂNG TOÀN
HÀ NỘI – 2006
Trang 2LỜI CẢM ƠN
Luận văn được hoàn thành dưới sự hướng dẫn của tiến sĩ Đỗ Năng Toàn -Viện
Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến các thầy, về sự hướng dẫn tận tình và
đầy lòng nhân hậu trong quá trình học tập, nghiên cứu
Tác giả xin bày tỏ lòng biết ơn đến Ban lãnh đạo Trung tâm Thông tin- Tư liệu Dầu
khí đã tận tình động viên, tạo điều kiện giúp đỡ tác giả trong thời gian học tập
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến Trường Đại học Công nghệ- Đại học
Quốc gia Hà nội, Viện Công nghệ Thông tin- Viện Khoa học và Công nghệ Việt Nam đã
nghiên cứu
Tác giả xin gửi lời cám ơn chân thành đến những người thân trong gia đình bạn bè
và đồng nghiệp về những sự quan tâm, động viên và giúp đỡ trong thời
gian qua
Hà nội tháng 10-2006
Trang 3MỤC LỤC
MỞ ĐẦU 3
1 Tính thời sự, ý nghĩa thực tiễn của đề tài 3
2 Mục đích, cấu trúc của luận văn 4
Chương 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU “NGOẠI SUY” 6
1 Khái niệm cơ sở dữ liệu “ngoại suy” 6
2 Tính chất của cơ sở dữ liệu “ngoại suy” 8
3 Các bước cần thực hiện để xây dựng cơ sở dữ liệu “ngoại suy” 9
4 Chức năng vai trò của cơ sở dữ liệu “ngoại suy” 11
4.1 Chức năng của cơ sở dữ liệu “ngoại suy” 11
4.2 Vai trò của cơ sở dữ liệu “ngoại suy” 12
Chương 2: MỘT SỐ PHƯƠNG NGOẠI SUY DỮ LIỆU 15
1 Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính 15
1.1 Mô hình hồi quy tuyến tính cổ điển 15
1.2 Ước lượng bình phương cực tiểu 16
1.2.1 Tính chất ước lượng bằng phương pháp bình phương cực tiểu 17
1.2.2 Định lý Gauss về ước lượng bình phương cực tiểu 18
1.2.3 Hệ số xác định R 18
1.2.4 Khoảng tin cậy các hệ số hồi quy i 18
1.2.5 Kiểm định các giả thiết về hệ số hồi quy 19
1.2.6 Ước lượng hàm hồi quy tuyến tính 21
1.3 Kiểm tra sự phù hợp của mô hình 21
1.3.1 Tiêu chuẩn F 21
1.3.2 Khảo sát các phần dư 21
1.4 Tóm tắt các bước tiến hành phân tích hồi quy 22
1.5 Hệ thống các mô hình hồi quy tuyến tính bội 22
1.5.1 Mô hình hồi quy với nhiều biến phụ thuộc 22
1.5.2 Ước lượng tham số chưa biết của mô hình 24
1.6 Hồi quy và tương quan tuyến tính bội 25
1.6.1 Ngoại suy với một biến phụ thuộc 25
1.6.2 Ngoại suy với nhiều biến phụ thuộc 27
1.7 Mô hình hồi quy phi tuyến 29
2 Ngoại suy bằng phương pháp làm trơn 31
2.1 Các kỹ thuật làm trơn thường dùng 31
2.2 Trung bình trượt đơn 31
2.3 Trung bình trượt kép 33
2.4 Làm trơn đơn mũ 34
2.5 Làm trơn mũ kép 36
3 Ngoại suy dữ liệu dựa trên phân tích chuỗi thời gian 38
3.1 Đại cương về chuỗi thời gian 38
3.1.1 Khái niệm về chuỗi thời gian 38
3.1.2 Mục tiêu của việc phân tích chuỗi thời gian 39
3.2 Quá trình dừng và phân tích hệ số tương quan 41
3.2.1 Khái niệm về quá trình dừng 41
Trang 43.2.2 Các quá trình tuyến tính 43
3.2.3 Hệ số tương quan và tự tương quan mẫu 43
3.2.4 Hệ số tự tương.quan riêng 46
3.3 Ngoại suy dữ liệu dựa trên chuỗi thời gian ARMA 47
3.3.1 Khái niệm về chuỗi thời gian dừng 47
3.3.2 Chuỗi thời gian ARMA 51
3.3.3 Ngoại suy dữ liệu trên quá trình ARMA 54
3.3.4 Kiểm tra tính phù hợp của mô hình 64
Chương 3: ỨNG DỤNG 66
1 Cơ sở dữ liệu trạng thái 66
1.1 Cơ sở dữ liệu thời gian 66
1.2 Cơ sở dữ liệu ngoại suy qua trạng thái .69
2 Ứng dụng 69
2.1 Bài toán 69
2.2 Ngoại suy dựa vào chuỗi thời gian 70
2.3 Chương trình quản trị cơ sở dữ liệu International Revenue 73
KẾT LUẬN 75
TÀI LIỆU THAM KHẢO 76
Trang 5MỞ ĐẦU
1 Tính thời sự, ý nghĩa thực tiễn của đề tài
Khái niệm dự báo đã tồn tại từ rất lâu trong đời sống xã hội Tuy nhiên, trong buổi đầu nó còn mang nặng tính thần bí, vô căn cứ, chỉ sau này khi mà các môn khoa học tự nhiên phát triển thì dự báo mới thực sự được coi trọng và những hoạt động dự báo được diễn ra trên một cơ sở khoa học vững chắc
Ngày nay, việc đoán trước các xu thế tương lai đóng vai trò cực kỳ quan trọng trong việc hoạch định các chính sách kinh tế-xã hội cho hoạt động của các tập đoàn, các công ty nhỏ , vừa, lớn và thậm chí cả những quốc gia hùng mạnh Việc đánh giá các diễn biến tương lai của đối tượng phải dựa trên các số liệu thực tế trong các chu kỳ thời gian trước đó và hiện tại Nhưng trong nhiều trường hợp các số liệu chưa thể cập nhậ t đến thời điểm hiện thời, song nhu cầu bắt buộc lại cần kết quả để đánh giá quá trình hoạt động Ví dụ: Việc tính toán thanh toán khấu trừ khi thực hiện gọi điện thoại giữa các vùng chẳng hạn Cuộc điện thoại được gọi từ Việt Nam sang Mỹ thì Việt Nam thu tiền cước trong khi
Mỹ vẫn phải chịu phí tổn đường truyền và ngược lại nếu cuộc điện thoại gọi từ Mỹ về Việt Nam thì Mỹ lại là người thu tiền Vấn đề đặt ra là cần phải tính toán khấu trừ giữa việc gọi đi và gọi đến Tuy nhiên, các số liệu thực tế thường có được chậm, có khi là cả quý Số liệu thật có chậm một quý và việc thanh toán thì lại chậm thêm mất một quý nữa Trong khi chúng ta lại luôn cần biết thông tin về kinh doanh tại thời điểm hiện tại để có
kế hoạch, định hướng kinh doanh chẳng hạn như thuê thêm hay bớt đi đường truyền Từ
đó dẫn đến một tất yếu nảy sinh là phải tính toán dựa trên các số liệu ngoại suy
(extrapolate data) để phục vụ nhu cầu đánh giá và quyết định
Việc dự báo cho các mục tiêu đơn và cụ thể đã được thực hiện nhiều song việc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy, dựa trên các
dữ liệu đã thu thập trong quá khứ, hiện tại và tổ chức thành một cơ sở dữ liệu gọi là cơ sở
dữ liệu “ngoại suy” thì ít và có thể nói là chưa có tài liệu nào đề cập đến, cho dù đã có rất nhiều dạng cấu trúc dữ liệu đã được tạo dựng
2 Mục đích, cấu trúc của luận văn
Sử dụng các kỹ thuật ngoại suy dữ liệu nhằm ứng dụng vào các mục đích dự báo
đã được sử dụng nhiều trong các đơn vị hành chính cũng như các doanh nghiệp thông qua các mô hình, các phương pháp toán học Việc tổ chức có tính chất hệ thống cho các dữ liệu ngoại suy nhằm xây dựng các cơ sở dữ liệu mà thực tiễn đặt ra đang là nhu cầu cấp
Trang 6thiết nhưng những tài liệu có tính chất hệ thống về vấn đề đặt ra vẫn đang là một phần thiếu vắng
Xuất phát từ thực tế đó, mục tiêu của luận văn là nghiên cứu các phương pháp ngoại suy dữ liệu, trên cơ sở đó đề xuất một giải pháp cho việc xây dựng cơ sở dữ liệu cho các giá trị ngoại suy dựa trên các mô hình toán học và giải quyết một vấn đề thực tế nhờ ứng dụng mô hình đề xuất này Với mục tiêu cụ thể như sau:
Nghiên cứu tổng quan về ngoại suy dữ liệu và cơ sở dữ liệu nhằm thừa kế các kết quả và cải tiến cho phù hợp với các dữ liệu chính xác và dữ liệu dự báo
Tìm hiểu các mô hình toán học và các phương pháp ngoại suy dữ liệu dựa trên mô hình
Đề xuất một bài toán ứng dụng thực tế có sử dụng một phương pháp ngoại suy cụ thể và cài đặt
Cấu trúc của luận văn gồm 76 trang chia thành 3 chương, phần mở đầu, phần kết luận và tài liệu tham khảo được cấu trúc như sau:
Chương 1: Tổng quan về cơ sở dữ liệu “ngoại suy” (8 trang)
Trình bày tổng quan về các mô hình cơ sở dữ liệu, về dữ liệu ngoại suy Sau đó nêu lên vai trò của việc tổ chức dữ liệu ngoại suy trong việc tổ chức và quản lý dữ liệu
Chương 2: Một số phương pháp ngoại suy dữ liệu (51 trang)
Chương này trình bày các khái niệm và các kỹ thuật ứng với ba phương pháp chính thường được sử dụng trong việc ngoại suy dữ liệu, đó là: Mô hình hồi quy và phương pháp ngoại suy dựa vào mô hình hồi quy Quá trình làm trơn và ngoại suy dựa trên làm trơn Chuỗi thời gian và ngoại suy dữ liệu dựa trên chuỗi thời gian
Chương 3: Ứng dụng (9 trang)
Trình bày việc tổ chức dữ liệu ngoại suy thành cơ sở dữ liệu dựa trên việc gán trạng thái thời gian cho các bản ghi Trên cơ sở đó cài đặt ứng dụng cụ thể liên quan đến việc thao tác với các dữ liệu ngoại suy
Trang 7Chương 1
TỔNG QUAN VỀ CƠ SƠ DỮ LIỆU “NGOẠI SUY”
1 Khái niệm cơ sở dữ liệu “ngoại suy”
Bản thân thuật ngữ cơ sở dữ liệu “ngoại suy” đã nói lên thuộc tính không thể thiếu được của bộ não con người: đó là sự phản ánh vượt trước, sự cố gắng hướng tới một tương lai ngày một tốt đẹp hơn Những cố gắng ban đầu được thể hiện dưới hình thức là ước đoán, những hy vọng thiếu căn cứ, những ước muốn viển vông không tưởng, những tính toán ước lượng thiếu cơ sở khoa học và mang nặng tính kinh nghiệm.[1]
Từ cổ xưa việc dự báo đã được áp dụng trong cuộc sống hàng ngày, nhưng mang nặng màu sắc thần bí tôn giáo, thể hiện ở các câu tiên tri, lời bói toán Ngay từ thời cổ Hy Lạp người ta đã phân chia các lĩnh vực dự báo thành:
Các hiện tượng tự nhiên như: thời tiết, nhật thực, nguyệt thực…
Các hiện tượng xã hội: Sự xuất hiện và kết thúc các cuộc chiến tranh, sự hưng thịnh hay suy vong của một thể chế chính trị…
Các hiện tượng về đời sống xã hội như khả năng giàu có, bệnh tật, sinh tử, về sự phát đạt của một dòng họ…
Suốt nhiều thế kỷ trước dự báo không được vận dụng một cách khoa học và không
có tính tích cực, bởi vì đây là thời kỳ lý thuyết tôn giáo không tưởng và triết học duy tâm chiếm vai trò thống trị trong tư duy nhận thức thế giới, giai cấp thống trị đã lợi dụng nó làm công cụ thống trị và mê hoặc người dân nghèo khổ Đến thế kỷ XVI, XVII khi mà các môn khoa học tự nhiên như toán học, hóa học , vật lý học và thiên văn học đã phát triển, các dự báo có tính chất khoa học mới dần dần xuất hiện Tuy nhiên, lúc đầu các dự báo với độ chính xác cao thường được áp dụng vào trong vật lý cổ điển, hóa học và đặt trong phạm vi không gian và thời gian rất khắt khe Sau đó, sự xuất hiện nhiều dự báo mà hiện tượng dự báo rất phức tạp, chịu sự tác động của nhiều nhân tố: tiến bộ khoa học–kỹ thuật, sự phát triển kinh tế-xã hội, chính trị, sự thay đổi về tâm lý và chuẩn mực đạo đức
xã hội, đòi hỏi dự báo phải vận dụng các phương pháp thống kê xác suất (dự báo với mức
độ tin cậy nào đó chứ không hoàn toàn chính xác) [1]
Học thuyết của C.Mác đã mở ra một khả năng mới vế sự tiên đoán có tính khoa học về các hình thái kinh tế - xã hội Mác và Ăng nghen là người đầu tiên đề ra và giải thích một cách sâu sắc rằng mâu thuẫn chính là động lực phát triển của mọi hình thái kinh
Trang 8tế - xã hội và sự tất yếu khách quan của việc chuyển từ hình thái kinh tế - xã hội này sang hình thái kinh tế xã - hội khác tiến bộ hơn Hai ông cho rằng các hiện tượng kinh tế - xã hội vận động và phát triển theo thời gian: hiện tại bao giờ cũng mang dấu vết trong quá khứ còn tương lai do quá khứ và hiện tại phát triển tạo thành Khi liên hệ một cách thận trọng với kinh nghiệm của quá khứ để rút ra bài học sâu sắc từ thực tế sinh động, không thể phủ nhận được những tiên đoán thiên tài của Lênin, một di sản có tính chất kinh điển Ông đã tổng quát hóa các khuynh hướng phát triển của các hiện tượng phức tạp nhất trong các lĩnh vực chính trị, kinh tế, xã hội và khoa học để tập chung đầu tư cho kế hoạch điện khí hóa Nhà nước Xô Viết đầu tiên [2]
Như vậy, dự báo đã từ thần bí kinh nghiệm phát triển thành một môn khoa học độc lập Ngày nay vai trò của dự báo ngày càng được khẳng định và tăng lên đáng kể trong mọi lĩnh vực và cấp độ của đời sống xã hội Đó là do quy mô của nền kinh tế ngày càng lớn, cấu trúc của nền kinh tế xã hội ngày càng phức tạp Việc tổng hợp các nhân tố ảnh hưởng đến quá trình phát triển nền kinh tế quốc dân, việc vạch ra các luận chứng để xây dựng chiến lược, quy hoạch và kế hoạch phát triển, việc lựa chọn các phương án để phát triển khả năng thực hiện các mục tiêu kinh tế - xã hội ngày càng tăng lên
Như vậy có thể hiểu cơ sở dữ liệu “ngoại suy” là một cơ sở dữ liệu gắn với chuỗi thời gian thực, được cài đặt các thuật toán ngoại suy nhằm sản sinh ra bộ dữ liệu mới (dữ liệu ngoại suy) có căn cứ khoa học mang tính chất xác suất về mức độ, nội dung, các mối quan hệ, trạng thái, xu hướng phát triển của đối tượng nghiên cứu hoặc về cách thức và
tương lai
Tiên đoán là hình thức phản ánh vượt trước về thời gian hiện thực khách quan, đó
là kết quả nhận thức chủ quan của con người dựa trên cơ sở nhận thức quy luật khách quan trong sự vận động và phát triển của sự vật và hiện tượng có thể phân biệt 3 loại tiên đoán:
Tiên đoán không khoa học: đó là các tiên đoán không có cơ sở khoa học, thường dựa trên các mối quan hệ có tính tưởng tượng, không hiện thực, được cấu trúc một cách giả tạo, hoặc những phát hiện có tính chất bất chợt Các hình thức như bói toán, tiên tri, các luận điệu tuyên truyền của các thế lực thù địch,… thuộc loại tiên đoán này
Tiên đoán kinh nghiệm: các tiên đoán hình thành qua kinh nghiệm thực tế dựa vào các mối quan hệ qua lại thường xuyên trong thực tế hoặc tưởng tượng mà không dựa trên
cơ sở phân tích cấu trúc lý thuyết, nghiên cứu quy luật hay đánh giá kinh nghiệm Loại
Trang 9tiên đoán này ít nhiều có cơ sở song lại không giải thích được sự vận động của đối tượng
và đa số mới chỉ dừng lại ở mức độ định tính
Tiên đoán khoa học: đây là tiên đoán dựa trên việc phân tích mối quan hệ qua lại giữa các đối tượng trong khuôn khổ của một hệ thống lý luận khoa học nhất định Nó dựa trên việc phân tích tính quy luật phát triển của đối tượng dự báo và các điều kiện ban đầu với tư cách như là các giả thiết Tiên đoán khoa học là kết quả của sự kết hợp giữa những phân tích định tính và những phân tích định lượng các quá trình cần dự báo Chỉ có dự báo khoa học mới đảm bảo độ tin cậy cao và là cơ sở vững chắc cho việc thông qua các quyết định quản lý khoa học [2]
Ngoại suy dữ liệu bao giờ cũng có thời gian xác định hay tầm xa của ngoại suy Tầm xa ngoại suy dữ liệu là khoảng cách thời gian tối đa từ hiện tại đến thời điểm sản sinh dữ liệu ngoại suy Khoảng cách này phụ thuộc vào nhiều nhân tố: sự thay đổi của dữ liệu ngoại suy, mức độ ổn định của các nhân tố ảnh hưởng, độ dài thời kỳ tiền sử v.v…
2 Tính chất của cơ sở dữ liệu “ngoại suy”
Ngoại suy dữ liệu mang tính xác suất Mỗi đối tượng dữ liệu ngoại suy đều vận
động theo một quy luật nào đó, một quỹ đạo nhất định nào đó, đồng thời trong quá trình phát triển nó luôn luôn chịu sự tác động của môi trường, hay các yếu tố bên ngoài Bản thân môi trường hay các yếu tố tác động cũng không phải là đứng im mà luôn luôn trong trạng thái vận động và phát triển không ngừng, về phía chủ thể dữ liệu ngoại suy, những thông tin hiểu biết về đối tượng ở tương lai bao giờ cũng nghèo nàn hơn hiện tại Vì vậy
dù các thuật toán ngoại suy có hoàn thiện, có tin cậy đến đâu cũng không thể chắc chắn rằng các dữ liệu ngoai suy là hoàn toàn chính xác Hay nói một cách khác ngoại suy dữ
xác suất [1]
Ngoại suy dữ liệu là đáng tin cậy Ngoại suy mang tính xác suất nhưng đáng tin
cậy vì nó dựa trên những cơ sở lý luận và phương pháp luận khoa học Đó là phép biện chứng duy vật và lịch sử, hệ thống các lý luận về khoa học, về kinh tế và xã hội Phương pháp và công cụ xử lý thông tin ngày càng hiện đại Xét về mặt bản chất, ngoại suy dữ liệu là sự phản ảnh vượt trước, là những giả thiết về sự phát triển của dữ liệu ngoại suy trong tương lai được đưa ra trên cơ sở nhận thức các quy luật phát triển và những điều kiện ban đầu với tư cách là những giả thiết Theo đà phát triển của khoa học kỹ thuật, trình độ nhận thức quy luật và các điều kiện ban đầu ngày càng được hoàn thiện thì độ tin cậy của dữ liệu ngoại suy cũng không ngừng được nâng cao độ tin cậy.[1]
Trang 10Ngoại suy dữ liệu mang tính đa kết quả Mỗi phương pháp ngoại suy được thực
hiện trên những giả thiết nhất định – ngoại suy có điều kiện Tập hợp các giả thiết như vậy gọi là phông dữ liệu ngoại suy Ngoại suy có thể được tiến hành trên các phông dữ liệu ngoại suy khác nhau, do những nguyên nhân chủ quan và khách quan khác nhau và
vì vậy có thể có nhiều kết quả ngoại suy khác nhau Tính đa kết quả một mặt là thuộc tính khách quan của dữ liệu ngoại suy, nhưng mặt khác lại là phù hợp với yêu cầu của công tác quản lý, nó làm cho việc ra quyết định cũng như chỉ đạo thực hiện quyết định quản lý trở nên linh hoạt hơn, dễ thích nghi với sự biến đổi vô cùng phức tạp của tình hình thực
tế [1]
3 Các bước thực hiện để xây dựng cơ sở dữ liệu “ngoại suy”
Thông thường các thủ tục để xây dựng cơ sở dữ liệu “ngoại suy” bao gồm các bước sau đây: [2]
Bước 1: Xác định mục tiêu bài toán
Bước đầu tiên của công tác xây dựng cơ sở dữ liệu “ngoại suy” là làm rõ mục tiêu của nó Ba mục tiêu chính cần xác định là:
Xác định đối tượng: Nhu cầu về thuê bao điện thoại, nhu cầu về nhà ở, nhu cầu nghề nghiệp, lượng nước về trong hồ chứa, thời tiết, tỷ giá cổ phiếu v.v…
Khu vực dự báo: Theo địa dư (một tỉnh, khu vực, toàn quốc v.v…) hay khu vực xã hội (ngành công nghiệp, khu vực dịch vụ, v.v…) Khu vực dự báo có thể là thu hẹp trong một vùng nông thôn hay một lĩnh vực cụ thể nào đó như tỷ giá đồng đô la Mỹ và đồng Việt nam
Khoảng thời gian dự báo: 1 năm, 5 năm, 10 năm…
Bước 2: Phân tích các yếu tố ảnh hưởng
Đại lượng biến đổi theo thời gian có thể thực hiện trên tiền đề là quan hệ giữa đại lượng này và các yếu tố quyết định các giá trị của đại lượng này trong quá khứ, về cơ bản không thay đổi cho đến thời điểm cần xác định trong tương lai Do