Tìm hiểu về phân tích dữ liệu. Áp dụng dự báo số lượng hành khách vận chuyển phân theo ngành vận tải
Trang 1KHOA : CÔNG NGHỆ THÔNG TIN
BÀI TẬP LỚN MÔN : PHÂN TÍCH THỐNG KÊ SỐ LIỆU
Đề tài : Tìm hiểu về phân tích dữ liệu Áp dụng dự báo số lượng hành khách vận
chuyển phân theo ngành vận tải
Giáo viên hướng dẫn : Th.s Nguyễn Phương Nga
Sinh viên thực hiện : Nhóm – KHMT2 – K4
Hà nội, Ngày 08 Tháng 12 Năm 2012
MỤC LỤC
Trang 2I Hồi quy tuyến tính 4
1 Khái niệm về hồi quy 4
2 Phương pháp hồi quy đơn 5
3 Mối Liên hệ giữ mô hình hồi quy đơn biến va hồi quy bội 7
4 Mô hình hồi quy tuyến tính 3 biến 7
5.Mô hình hồi quy k biến 15
II Hồi quy chuỗi thời gian 20 1 Khái niệm về dãy số thời gian 20
2 Giới thiệu phân tích chuỗi thời gian 22
3 Mô hình phân tích chuỗi thời gian 23
B.PHÂN TÍCH DỮ LIỆU THỰC TẾ 30 I Giới thiệu bài toán 30 1 Giới thiệu 30
2 Các yêu cầu đặt ra 31
II Giải quyết vấn đề đặt ra 31 1 Áp dụng hồi quy bội phân tích dữ liệu Tổng khối lượng hành khách vận chuyển phân theo ngành vận tải từ năm 1995 - năm 2010 31
LỜI MỞ ĐẦU
Một nghiên cứu tốt, một báo cáo khoa học có căn cứ được người đọc chấp nhận về mặt học thuật đòi hỏi phải có phương pháp tốt, áp dụng các công cụ kỹ thuật để cung cấp các thông tin xác thực Đặc biệt trong các vấn đề kinh tế - xã hội và khi nghiên cứu số lớn
Trang 3chúng ta cần phải quan tâm đến các công cụ kỹ thuật như thống kê.Thống kê học là mộtlĩnh vực khá rộng, do vậy trong phạm vi của môn học này trang bị cho người học nhữngkiến thức cơ bản trong việc phân tích số liệu thống kê nhằm mục đích có thể khai tháchiệu quả các thông tin thu thập được, để phục vụ cho công tác nghiên cứu khoa học củacác khoa học về kinh tế - xã hội
Phân tích thống kê số liệu không những giúp bạn khai thác hiệu quả các thông tin thunhập được mà còn giúp bạn có thể dự báo các kết quả trong tương lai
Đề tài “Tìm hiểu về phân tích dữ liệu Áp dụng dự báo số lượng hành khách vận
chuyển phân theo ngành vận tải” nhằm đưa ra các kết quả phân tích giúp cho ngành
vận tải nắm bắt được các chuyển biến trong lượng khách sử dụng các loại hình vậnchuyển của ngành vận tải cũng như chất lượng phục vụ, lượng lưu động hàng năm để có
sự thay đổi trong các loại hình vận tải
Em xin trân trọng gửi lời cảm ơn sâu sắc tới ThS Nguyễn Phương Nga, người đã tậntình giúp đỡ chúng em trong suốt quá trình học tập và thực hiện bài tập lớn Thạc sĩ khôngchỉ trực tiếp hướng dẫn, cung cấp cho em những kiến thức, tài liệu hữu ích mà còn dànhcho em sự quan tâm sâu sắc
Hà Nội, tháng 12 năm 2012
Sinh viênNguyễn Thị HiềnNguyễn Thị Thu Trang
A.LÝ THUYẾT
I Hồi quy tuyến tính
1 Khái niệm về hồi quy
Hồi quy - nói theo cách đơn giản, là đi ngược lại về quá khứ để nghiên cứunhững dữ liệu đã diễn ra theo thời gian hoặc diễn ra tại cùng một thời điểm nhằm tìm đếnmột quy luật về mối quan hệ giữa chúng Mối quan hệ đó được biểu diễn thành mộtphương trình (hay mô hình) gọi là phương trình hồi quy mà dựa vào đó, có thể giải thíchbằng các kết quả lượng hoá về bản chất, hỗ trợ củng cố các lý thuyết và dự báo tương lai
Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ
Trang 4thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượnghoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập
Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực khác, hồi quy
là công cụ phân tích đầy sức mạnh không thể thay thế, là phương pháp thống kê toándùng để ước lượng, dự báo những sự kiện xảy ra trong tương lai dựa vào quy luật quákhứ
Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau:
Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi quy, biến phản
ứng, biến nội sinh
Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm
soát, biến ngoại sinh
Ví dụ về phân tích hồi quy trong thực tế :
(1) Ngân hàng XYZ muốn tăng lượng tiền huy động Ngân hàng này muốn biết mốiquan hệ giữa lượng tiền gửi và lãi suất tiên gửi, cụ thể hơn họ muốn biết khi tăng lãi suấtthêm 0,1% thì lượng tiền gửi sẽ tăng trung bình là bao nhiêu
(2) Một nhà nghiên cứu nông nghiệp muốn biết năng suất tôm sú nuôi trong hệ thốngthâm canh phụ thuộc thế nào vào diện tích ao nuôi, mật độ thả tôm giống, chi phí hoá chất
xử lý môi trường, trình độ nhân công Từ phân tích hồi quy này ông ta đề ra các chỉ tiêu
kỹ thuật phù hợp cho loại hình này
2 Phương pháp hồi quy đơn.
Còn gọi là hồi quy đơn biến, dùng xét mối quan hệ tuyến tính giữa 1 biến kết quả và 1 biến giải thích hay là biến nguyên nhân (nếu giữa chúng có mối quan hệ nhân quả) Trong phương trình hồi quy tuyến tính, một biến gọi là: biến phụ thuộc; một biến kia là tác nhân gây ra sự biến đổi, gọi là biến độc lập
Phương trình hồi quy đơn biến (đường thẳng) có dạng tổng quát:
(3.1)Trong đó:
Trang 5Y: biến số phụ thuộc (dependent variable);
X: biến số độc lập (independent variable);
1: tung độ gốc hay nút chặn (intercept);
Y: Tổng chi phí phát sinh trong kỳ;
X: Khối lượng sản phẩm tiêu thụ;
Trang 6Đồ thị 1.1 Ứng xử của các loại chi phí
Nhận xét
Với phương trình trên, tổng chi phí Y chịu ảnh hưởng trực tiếp của khối lượnghoạt động X theo quan hệ tỷ lệ thuận Khi X tăng dẫn đến Y tăng; khi X giảm dẫn đến Ygiảm
Khi X = 0 thì Y = a: Các chi phí như tiền thuê nhà, chi phí khấu hao, tiền lươngthời gian và các khoản chi phí hành chính khác là những chi phí bất biến, không chịu ảnhhưởng từ thay đổi của khối lượng hoạt động
Đường biểu diễn a song song với trục hoành Trị số a là hệ số cố định, thể hiện “chi phí tối thiểu” trong kỳ của doanh nghiệp (nút chặn trên đồ thị)
Trị số b quyết định độ dốc (tức độ nghiêng của đường biểu diễn chi phí trên
đồ thị)
Đường tổng chi phí Y = a + bX và đường chi phí khả biến bX song song với nhau vì giữa chúng có cùng chung một độ dốc b (slope) Xuất phát điểm của đường tổng chi phí bắt đầu từ nút chặn a (intercept = a) trên trục tung; trong khi
đó, đường chi phí khả biến lại bắt đầu từ gốc trục toạ độ vì có nút chặn bằng 0 (intercept = 0) Hay nói một cách khác, theo nội dung kinh tế, khi khối lượng hoạt động bằng 0 (X=0) thì chi phí khả biến cũng sẽ bằng 0 (bX=0)
3 Mối Liên hệ giữ mô hình hồi quy đơn biến va hồi quy bội
Báng so sánh về dạng hàm của mô hình hồi quy đa biến so với trường hợp đơn biến
Hồi quy đơn biến Hồi quy đa biến
X
Trang 7Với mỗi quan sát
Như vậy hồi quy đa biến là sự mở rộng tự nhiên của trường hợp đơn biến, khi số biếngiải thích lớn hơn 2, kể cả hằng số
4 Mô hình hồi quy tuyến tính 3 biến.
• Ui là các sai số ngẫu nhiên
4.2.Các giả thiết của mô hình
Giá trị trung bình của đại lượng ngẫu nhiêu Ui bằng 0
Phương sai của Ui không thay đổi
Không có sự tương quan giữa các Ui
Không có sự tương quan (cộng tuyến) giữa X2 và X3
Không có sự tương quan giữa các Ui và X2,X3
4.3.Ước lượng các tham số
Chúng ta sử dụng phương pháp bình phương nhỏ nhất OLS
Hàm hồi quy mẫu tương ứng sẽ là :
Hay
Trang 8Theo nguyên lý của phương pháp OLS thì các tham số
được chọn sao cho :
Như vậy , công thức tính của các tham số như sau :
Trong đó:
Người ta chứng minh được :
Trang 10Vậy
4.4.Hệ số xác định của mô hình
Đối với mô hình hồi quy bội , người ta tính R 2 có hiệu chỉnh như sau :
k là số tham số trong mô hình.
có các đặc điểm sau :
Trang 11Khi k>1 thì
có thể âm, và khi nó âm, coi như bằng 0
Ví dụ : Tính hệ số xác định của mô hình hồi quy theo số liệu của ví dụ trước
4.5.Phương sai của hệ số hồi quy
Phương sai của các tham số hồi quy được tính theo các công thức sau:
Với
4.6.Khoảng tin cậy của các hệ số hồi quy
Trang 12Khoảng tin cậy của Với độ tin cậy là 1-α
Khoảng tin cậy của Với độ tin cậy là 1-α
Khoảng tin cậy của Với độ tin cậy là 1-α
Lưu ý khi tra bảng T-Student, trong trường hợp hàm hồi quy 3 biến thì bậc tự do là (n-3)
Ví dụ : Tính khoảng tin cậy của β2 và β3 mô hình hồi quy theo số liệu của ví dụ trước với
độ tin cậy 95%
Giải: tra bảng T-Student bậc tự do (n-3)=12-3=9
Khoảng tin cậy của β2 là:
Khoảng tin cậy của β3 là:
4.7.Kiểm định giả thiết
a)Kiểm định giả thiết về β1, β2 β3 :
Ho:βi= βo
H1:βi≠ βo
Trang 13Độ tin cậy là 1-α
Bước 1 : Lập khoảng tin cậy
Bước 2 : Nếu β0 thuộc khoảng tin cậy thì chấp nhận Ho Nếu β0 không thuộc khoảng tin cậy thì bác bỏ Ho
Ví dụ : (theo số liệu trước), yêu cầu kiểm định các giả thiết
Ho:β2= 0
H1:β2≠ 0
Ho:β3= 0
H1:β3≠ 0
Với độ tin cậy 95%
b)Kiểm định giả thiết về R2
Ho:R2= 0
H1:R2≠ 0
Độ tin cậy là 1-α
Bước 1 : Tính
Bước 2 : Tra bảng tìm F(2,n-3), mức ý nghĩa là α
Bước 3 : Nếu F>F(2,n-3) , bác bỏ H0 Nếu F≤F(2,n-3) , chấp nhận H0
Ví dụ : Yêu cầu kiểm định giả thiết
a)Hàm sản xuất Cobb-Douglas
Hàm sản xuất Cobb-Douglas được biểu diễn như sau:
Trang 14Trong đó : Yi : sản lượng của doanh nghiệp
X2i : lượng vốn
X3i : lượng lao động
Ui : sai số ngẫu nhiên
Hàm sản xuất Cobb-Douglas có thể đưa được về dạng tuyến tính bằng cách lấy logarit haivế
Đặt
Dạng tuyến tính sẽ là :
b)Hàm hồi quy đa thức bậc 2
Mặc dù chỉ có một biến độc lập Xi nhưng nó xuất hiện với các luỹ thừa khác nhau khiến cho mô hình trở thành hồi quy ba biến
5.Mô hình hồi quy k biến
Trang 16
5.3 Các tham số dưới dạng ước lượng
Kỳ vọng :Phương sai
Với được ước lượng bởi
5.4 Hàm số xác định bội và bội hiệu chỉnh
Trang 17+ Giá trị của R2 đồng biến với số biến giải thích của mô hình Tuy nhiên không thểlấy điều đó xem xét việc đã thêm biến giải thischvaof mô hình
Hệ số xác định bội hiệu chỉnh
hay
có các tính chất sau :
- có thể âm, trong trường hợp âm, ta coi giá trị của nó bằng 0
- Khi số biến giải thích của mô hình tăng lên thì tăng chậm hơn
Tính chất này được dùng làm căn cứ xem sét việc đã thêm biến giải thích vào mô hình
Các sử dụng để quyết định đưa thêm biến vào mô hình
Trang 18Nếu thì chọn mô hình (1) tức là không cần thêm biến X3 vào ngược lại hìchọn mô hình (2)
5.5 Khoảng tin cậu của tham số kiểm định các giả thiết hồi quy
Khoảng tin cậy của tham số
Khoảng tin cậy của tham sô với mức ý nghĩa hay độ tin cậy
1-Với độ tin cậy 1- cho trước ,khoảng tin cậy của các hệ số hồi quy
Trang 19
5.7 Kiểm định giả tiết
Kiểm định giả thiết H0 :
II Hồi quy chuỗi thời gian
1 Khái niệm về dãy số thời gian
1.1 Khái niệm
- Vật chất luôn luôn vận động không ngừng theo thời gian.Để nghiên cứu biến động của
kinh tế xã hội,người ta thường sử dụng dãy số thời gian
Trang 20- Dãy số thời gian là dãy các trị số của chỉ tiêu thống kê được sắp xềp theothứ tự thời gian Dãy số thời gian cho phép thống kê học nghiên cứu đặc đIểm biến động của hiện tượng theo thời gian vạch rõ xu hướng và tính quy luật của sự biến động, đồng thời dự đoán các mức độ của hiện tượng trong tương lai.
1.2 Kết cấu:
Dãy số thì gian gồm hai thành phần:thời gian và chỉ tiêu của hiện tượng đượcnghiên cứu
+ Thờt gian có thể đo bằng ngày ,tháng, năm,…tuỳ theo mục đích nghiên cứu.Đơn
vị thời gian phải đồng nhất trong dãy số thời gian.Độ dài thời gian giữa hai thờigian liền nhau được gọi là khoảng cách thời gian
+ Chỉ tiêu về hiện tượng được nghiên cứu là chỉ tiêu được xây dựng cho dãy sốthời gian Các trị số của chỉ tiêu được gọi là các mức độ của dãy số thời gian Cáctrị số này có thể là tuyệt đối, tương đối hay bình quân
1.3 Phân loại:
- Có một số cách phân loại dãy số thời gian theo các mục đích nghiên cứu khácnhau.Thông thường ,người ta căn cứ vào đặc điểm tồn tại về quy mô của hiện tượngtheo thời gian để phân loại.Theo cách này ,dãy số thời gian được chia thành hailoại: dãy số thời điểm và dãy số thời kì
- Dãy số thời điểm biểu hiện quy mô của hiện tượng nghiên cứu tại những thờiđiểm nhất định.Do vậy ,mức độ của hiện tượng ở thời điểm sau có thể bao gồm toàn
bộ hay một bộ phận mức độ của hiện tượng ở thời diểm trước đó
- Dãy số thời kì biểu hiện quy mô (khối lượng) của hiện tượng trong từng thờ giannhất định.Do đó ,chúng ta có thể cộng các mức độ liền nhau để được một mức độlớn hơn trong một khoảng thời gian dài hơn.Lúc này, số lượng các số trong dãy sốgiảm xuống và khoảng cách thời gian lớn hơn
1.4 Tác dụng:
Dãy số thời gian có hai tác dụng chính sau:
Trang 21+ Thứ nhất ,cho phép thống kê học nghiên cứu các đặc điểm và xu hướng biến độngcủa hiện tượng theo thời gian.Từ đó ,chúng ta có thể đề ra định hướng hoặc các biện pháp xử lí thích hợp.
+ Thứ hai ,cho phép dự đoán các mức độ của hiện tượng nghiên cứu có khả năng xảy ra trong tương lai
1.5 Điều kiện vận dụng
- Để có thể vận dụng dãy số thời gian một cách hiệu quả thì dãy số thời gian phải đảm bảo tình chất có thể so sánh được giữa các mức độ trong dãy thời gian
Cụ thể là:
+ Phải thống nhất được nội dung và phương pháp tính
+ Phải thống nhất được phạm vi tổng thể nghiên cứu
+ Các khoảng thời gian trong dãy số thời gian nên bằng nhau nhất là trong dãy số thời kì
- Tuy nhiên, trên thực tế nhiều khi các điều kiện trên bị vi phạm do các nguyên nhân khác nhau.Vì vậy, khi vận dụng đòi hỏi phải có sự điều chỉnh thích hợp để tiến hành phân tích đạt hiệu quả cao
2 Giới thiệu phân tích chuỗi thời gian
Định nghĩa :
- Phân tích chuỗi thời gian là một phương pháp phân tích thống kê dùng cho chuỗi số liệuđược thu thập đều đặn theo thời gian tức là số liệu được ghi nhận tại những điểm thờigian cách đều nhau, như số liệu được thu thập hàng tuần, hàng tháng, hàng quý , hàngnăm…
Ví dụ : Số lượng hàng bán được trong 12 tháng của một công ty.
- Các gía trị của chuỗi tuần tự theo thời gian của đại lượng X được ký hiệu X1,
X2, ………, Xt, … Xn, với Xt, là gía trị quan sát của X ở thời điểm t
Ứng dụng: Việc sử dụng các mô hình chuỗi thời gian có hai phần:
Trang 22 Có được một sự hiểu biết của các lực lượng cơ bản và cơ cấu sản xuất ra các dữ liệu quan sát
Phù hợp với một mô hình và tiến tới dự báo, theo dõi hoặc thậm chí những phản hồi và kiểm soát trước
Phân tích chuỗi thời gian được sử dụng cho nhiều ứng dụng như :
Phân tích điều tra dân số
3 Mô hình phân tích chuỗi thời gian
Phân tích chuỗi thời gian được chia làm hai phương pháp
Trang 23Phân tích xu thế : Đây là một phân tích liên quan đến chuỗi nhiều năm, do đó ta sẽ sửdụng số liệu hàng năm để phân tích một cách tổng quát ta cần phải một chuỗi dài ít là 10-
Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian dài
là tuyến tính ,.Phương trình sẽ được xác định bởi
Y=a+bt
t: biểu thị thời gian
a,b:là những tham số quy định vị trí của đường hồi quy
Từ phương trình này,bằng phương pháp bình phương nhỏ nhất hoặc thông qua việc đặtthứ tự thời gian (t) trong dãy số để tính tham số a,b
Trang 24Yi: Quan sát a: Xu thế
Đây là một hàm hai biến a và b, để cho D cực trị (với ý nghĩa vật lý của bài toán ta biết đó
3.2 Đánh giá sự biến đổi theo mùa
Để nhận biết ảnh hưởng của thành phần mùa lên chuỗi thời gian khảo sát ta dùng thông sốgọi là chỉ số mùa
- Nếu số liệu theo tháng, ta có 12 tháng giá trị is
Trang 25- Nếu số liệu theo quý ,ta có 12 giá trị is.
- Nếu giá trị tính theo 6 tháng ,ta có 2 giá trị is
Tính chỉ số mùa
Từ số liệu quan trắc chỉ số mùa được tính từ is,t như sau:
is,t=[giá trị quan trắc]/[giá trị cho bởi y=[a+bt]t
Chú ý: Có bao nhiêu số liệu quan trắc có bấy nhiêu is,t và giá trị is,t thay đổi quanh giátrị 1
Từ các giá trị đại biểu is,t , các giá trị đại biểu is được tính bằng giá trị trung bình của cáctháng (quý) tương ứng :
Theo tháng
is,k=
Theo quý
is,k=
Với N (số tháng ,quý,…) có trong chuỗi số liệu phân tích
Giá trị chỉ số mùa hiệu chỉnh
Ta phải có :
Hiệu chỉnh
Chuỗi CVS(loại bỏ ảnh hưởng mùa trong chuỗi giá trị quan sát)