1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu về phân tích dữ liệu. Áp dụng dự báo số lượng hành khách vận chuyển phân theo ngành vận tải

50 624 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,71 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tìm hiểu về phân tích dữ liệu. Áp dụng dự báo số lượng hành khách vận chuyển phân theo ngành vận tải

Trang 1

KHOA : CÔNG NGHỆ THÔNG TIN

BÀI TẬP LỚN MÔN : PHÂN TÍCH THỐNG KÊ SỐ LIỆU

Đề tài : Tìm hiểu về phân tích dữ liệu Áp dụng dự báo số lượng hành khách vận

chuyển phân theo ngành vận tải

Giáo viên hướng dẫn : Th.s Nguyễn Phương Nga

Sinh viên thực hiện : Nhóm – KHMT2 – K4

Hà nội, Ngày 08 Tháng 12 Năm 2012

MỤC LỤC

Trang 2

I Hồi quy tuyến tính 4

1 Khái niệm về hồi quy 4

2 Phương pháp hồi quy đơn 5

3 Mối Liên hệ giữ mô hình hồi quy đơn biến va hồi quy bội 7

4 Mô hình hồi quy tuyến tính 3 biến 7

5.Mô hình hồi quy k biến 15

II Hồi quy chuỗi thời gian 20 1 Khái niệm về dãy số thời gian 20

2 Giới thiệu phân tích chuỗi thời gian 22

3 Mô hình phân tích chuỗi thời gian 23

B.PHÂN TÍCH DỮ LIỆU THỰC TẾ 30 I Giới thiệu bài toán 30 1 Giới thiệu 30

2 Các yêu cầu đặt ra 31

II Giải quyết vấn đề đặt ra 31 1 Áp dụng hồi quy bội phân tích dữ liệu Tổng khối lượng hành khách vận chuyển phân theo ngành vận tải từ năm 1995 - năm 2010 31

LỜI MỞ ĐẦU

Một nghiên cứu tốt, một báo cáo khoa học có căn cứ được người đọc chấp nhận về mặt học thuật đòi hỏi phải có phương pháp tốt, áp dụng các công cụ kỹ thuật để cung cấp các thông tin xác thực Đặc biệt trong các vấn đề kinh tế - xã hội và khi nghiên cứu số lớn

Trang 3

chúng ta cần phải quan tâm đến các công cụ kỹ thuật như thống kê.Thống kê học là mộtlĩnh vực khá rộng, do vậy trong phạm vi của môn học này trang bị cho người học nhữngkiến thức cơ bản trong việc phân tích số liệu thống kê nhằm mục đích có thể khai tháchiệu quả các thông tin thu thập được, để phục vụ cho công tác nghiên cứu khoa học củacác khoa học về kinh tế - xã hội

Phân tích thống kê số liệu không những giúp bạn khai thác hiệu quả các thông tin thunhập được mà còn giúp bạn có thể dự báo các kết quả trong tương lai

Đề tài “Tìm hiểu về phân tích dữ liệu Áp dụng dự báo số lượng hành khách vận

chuyển phân theo ngành vận tải” nhằm đưa ra các kết quả phân tích giúp cho ngành

vận tải nắm bắt được các chuyển biến trong lượng khách sử dụng các loại hình vậnchuyển của ngành vận tải cũng như chất lượng phục vụ, lượng lưu động hàng năm để có

sự thay đổi trong các loại hình vận tải

Em xin trân trọng gửi lời cảm ơn sâu sắc tới ThS Nguyễn Phương Nga, người đã tậntình giúp đỡ chúng em trong suốt quá trình học tập và thực hiện bài tập lớn Thạc sĩ khôngchỉ trực tiếp hướng dẫn, cung cấp cho em những kiến thức, tài liệu hữu ích mà còn dànhcho em sự quan tâm sâu sắc

Hà Nội, tháng 12 năm 2012

Sinh viênNguyễn Thị HiềnNguyễn Thị Thu Trang

A.LÝ THUYẾT

I Hồi quy tuyến tính

1 Khái niệm về hồi quy

Hồi quy - nói theo cách đơn giản, là đi ngược lại về quá khứ để nghiên cứunhững dữ liệu đã diễn ra theo thời gian hoặc diễn ra tại cùng một thời điểm nhằm tìm đếnmột quy luật về mối quan hệ giữa chúng Mối quan hệ đó được biểu diễn thành mộtphương trình (hay mô hình) gọi là phương trình hồi quy mà dựa vào đó, có thể giải thíchbằng các kết quả lượng hoá về bản chất, hỗ trợ củng cố các lý thuyết và dự báo tương lai

Phân tích hồi quy là tìm quan hệ phụ thuộc của một biến, được gọi là biến phụ

Trang 4

thuộc vào một hoặc nhiều biến khác, được gọi là biến độc lập nhằm mục đích ước lượnghoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập

Trong phân tích hoạt động kinh doanh cũng như trong nhiều lĩnh vực khác, hồi quy

là công cụ phân tích đầy sức mạnh không thể thay thế, là phương pháp thống kê toándùng để ước lượng, dự báo những sự kiện xảy ra trong tương lai dựa vào quy luật quákhứ

Một số tên gọi khác của biến phụ thuộc và biến độc lập như sau:

Biến phụ thuộc: biến được giải thích, biến được dự báo, biến được hồi quy, biến phản

ứng, biến nội sinh

Biến độc lập: biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm

soát, biến ngoại sinh

Ví dụ về phân tích hồi quy trong thực tế :

(1) Ngân hàng XYZ muốn tăng lượng tiền huy động Ngân hàng này muốn biết mốiquan hệ giữa lượng tiền gửi và lãi suất tiên gửi, cụ thể hơn họ muốn biết khi tăng lãi suấtthêm 0,1% thì lượng tiền gửi sẽ tăng trung bình là bao nhiêu

(2) Một nhà nghiên cứu nông nghiệp muốn biết năng suất tôm sú nuôi trong hệ thốngthâm canh phụ thuộc thế nào vào diện tích ao nuôi, mật độ thả tôm giống, chi phí hoá chất

xử lý môi trường, trình độ nhân công Từ phân tích hồi quy này ông ta đề ra các chỉ tiêu

kỹ thuật phù hợp cho loại hình này

2 Phương pháp hồi quy đơn.

Còn gọi là hồi quy đơn biến, dùng xét mối quan hệ tuyến tính giữa 1 biến kết quả và 1 biến giải thích hay là biến nguyên nhân (nếu giữa chúng có mối quan hệ nhân quả) Trong phương trình hồi quy tuyến tính, một biến gọi là: biến phụ thuộc; một biến kia là tác nhân gây ra sự biến đổi, gọi là biến độc lập

Phương trình hồi quy đơn biến (đường thẳng) có dạng tổng quát:

(3.1)Trong đó:

Trang 5

Y: biến số phụ thuộc (dependent variable);

X: biến số độc lập (independent variable);

1: tung độ gốc hay nút chặn (intercept);

Y: Tổng chi phí phát sinh trong kỳ;

X: Khối lượng sản phẩm tiêu thụ;

Trang 6

Đồ thị 1.1 Ứng xử của các loại chi phí

Nhận xét

Với phương trình trên, tổng chi phí Y chịu ảnh hưởng trực tiếp của khối lượnghoạt động X theo quan hệ tỷ lệ thuận Khi X tăng dẫn đến Y tăng; khi X giảm dẫn đến Ygiảm

Khi X = 0 thì Y = a: Các chi phí như tiền thuê nhà, chi phí khấu hao, tiền lươngthời gian và các khoản chi phí hành chính khác là những chi phí bất biến, không chịu ảnhhưởng từ thay đổi của khối lượng hoạt động

Đường biểu diễn a song song với trục hoành Trị số a là hệ số cố định, thể hiện “chi phí tối thiểu” trong kỳ của doanh nghiệp (nút chặn trên đồ thị)

Trị số b quyết định độ dốc (tức độ nghiêng của đường biểu diễn chi phí trên

đồ thị)

Đường tổng chi phí Y = a + bX và đường chi phí khả biến bX song song với nhau vì giữa chúng có cùng chung một độ dốc b (slope) Xuất phát điểm của đường tổng chi phí bắt đầu từ nút chặn a (intercept = a) trên trục tung; trong khi

đó, đường chi phí khả biến lại bắt đầu từ gốc trục toạ độ vì có nút chặn bằng 0 (intercept = 0) Hay nói một cách khác, theo nội dung kinh tế, khi khối lượng hoạt động bằng 0 (X=0) thì chi phí khả biến cũng sẽ bằng 0 (bX=0)

3 Mối Liên hệ giữ mô hình hồi quy đơn biến va hồi quy bội

Báng so sánh về dạng hàm của mô hình hồi quy đa biến so với trường hợp đơn biến

Hồi quy đơn biến Hồi quy đa biến

X

Trang 7

Với mỗi quan sát

Như vậy hồi quy đa biến là sự mở rộng tự nhiên của trường hợp đơn biến, khi số biếngiải thích lớn hơn 2, kể cả hằng số

4 Mô hình hồi quy tuyến tính 3 biến.

• Ui là các sai số ngẫu nhiên

4.2.Các giả thiết của mô hình

Giá trị trung bình của đại lượng ngẫu nhiêu Ui bằng 0

Phương sai của Ui không thay đổi

Không có sự tương quan giữa các Ui

Không có sự tương quan (cộng tuyến) giữa X2 và X3

Không có sự tương quan giữa các Ui và X2,X3

4.3.Ước lượng các tham số

Chúng ta sử dụng phương pháp bình phương nhỏ nhất OLS

Hàm hồi quy mẫu tương ứng sẽ là :

Hay

Trang 8

Theo nguyên lý của phương pháp OLS thì các tham số

được chọn sao cho :

Như vậy , công thức tính của các tham số như sau :

Trong đó:

Người ta chứng minh được :

Trang 10

Vậy

4.4.Hệ số xác định của mô hình

Đối với mô hình hồi quy bội , người ta tính R 2 có hiệu chỉnh như sau :

k là số tham số trong mô hình.

có các đặc điểm sau :

Trang 11

Khi k>1 thì

có thể âm, và khi nó âm, coi như bằng 0

Ví dụ : Tính hệ số xác định của mô hình hồi quy theo số liệu của ví dụ trước

4.5.Phương sai của hệ số hồi quy

Phương sai của các tham số hồi quy được tính theo các công thức sau:

Với

4.6.Khoảng tin cậy của các hệ số hồi quy

Trang 12

Khoảng tin cậy của Với độ tin cậy là 1-α

Khoảng tin cậy của Với độ tin cậy là 1-α

Khoảng tin cậy của Với độ tin cậy là 1-α

Lưu ý khi tra bảng T-Student, trong trường hợp hàm hồi quy 3 biến thì bậc tự do là (n-3)

Ví dụ : Tính khoảng tin cậy của β2 và β3 mô hình hồi quy theo số liệu của ví dụ trước với

độ tin cậy 95%

Giải: tra bảng T-Student bậc tự do (n-3)=12-3=9

Khoảng tin cậy của β2 là:

Khoảng tin cậy của β3 là:

4.7.Kiểm định giả thiết

a)Kiểm định giả thiết về β1, β2 β3 :

Ho:βi= βo

H1:βi≠ βo

Trang 13

Độ tin cậy là 1-α

Bước 1 : Lập khoảng tin cậy

Bước 2 : Nếu β0 thuộc khoảng tin cậy thì chấp nhận Ho Nếu β0 không thuộc khoảng tin cậy thì bác bỏ Ho

Ví dụ : (theo số liệu trước), yêu cầu kiểm định các giả thiết

Ho:β2= 0

H1:β2≠ 0

Ho:β3= 0

H1:β3≠ 0

Với độ tin cậy 95%

b)Kiểm định giả thiết về R2

Ho:R2= 0

H1:R2≠ 0

Độ tin cậy là 1-α

Bước 1 : Tính

Bước 2 : Tra bảng tìm F(2,n-3), mức ý nghĩa là α

Bước 3 : Nếu F>F(2,n-3) , bác bỏ H0 Nếu F≤F(2,n-3) , chấp nhận H0

Ví dụ : Yêu cầu kiểm định giả thiết

a)Hàm sản xuất Cobb-Douglas

Hàm sản xuất Cobb-Douglas được biểu diễn như sau:

Trang 14

Trong đó : Yi : sản lượng của doanh nghiệp

X2i : lượng vốn

X3i : lượng lao động

Ui : sai số ngẫu nhiên

Hàm sản xuất Cobb-Douglas có thể đưa được về dạng tuyến tính bằng cách lấy logarit haivế

Đặt

Dạng tuyến tính sẽ là :

b)Hàm hồi quy đa thức bậc 2

Mặc dù chỉ có một biến độc lập Xi nhưng nó xuất hiện với các luỹ thừa khác nhau khiến cho mô hình trở thành hồi quy ba biến

5.Mô hình hồi quy k biến

Trang 16

5.3 Các tham số dưới dạng ước lượng

Kỳ vọng :Phương sai

Với được ước lượng bởi

5.4 Hàm số xác định bội và bội hiệu chỉnh

Trang 17

+ Giá trị của R2 đồng biến với số biến giải thích của mô hình Tuy nhiên không thểlấy điều đó xem xét việc đã thêm biến giải thischvaof mô hình

 Hệ số xác định bội hiệu chỉnh

hay

có các tính chất sau :

- có thể âm, trong trường hợp âm, ta coi giá trị của nó bằng 0

- Khi số biến giải thích của mô hình tăng lên thì tăng chậm hơn

Tính chất này được dùng làm căn cứ xem sét việc đã thêm biến giải thích vào mô hình

 Các sử dụng để quyết định đưa thêm biến vào mô hình

Trang 18

Nếu thì chọn mô hình (1) tức là không cần thêm biến X3 vào ngược lại hìchọn mô hình (2)

5.5 Khoảng tin cậu của tham số kiểm định các giả thiết hồi quy

 Khoảng tin cậy của tham số

Khoảng tin cậy của tham sô với mức ý nghĩa hay độ tin cậy

1-Với độ tin cậy 1- cho trước ,khoảng tin cậy của các hệ số hồi quy

Trang 19

5.7 Kiểm định giả tiết

Kiểm định giả thiết H0 :

II Hồi quy chuỗi thời gian

1 Khái niệm về dãy số thời gian

1.1 Khái niệm

- Vật chất luôn luôn vận động không ngừng theo thời gian.Để nghiên cứu biến động của

kinh tế xã hội,người ta thường sử dụng dãy số thời gian

Trang 20

- Dãy số thời gian là dãy các trị số của chỉ tiêu thống kê được sắp xềp theothứ tự thời gian Dãy số thời gian cho phép thống kê học nghiên cứu đặc đIểm biến động của hiện tượng theo thời gian vạch rõ xu hướng và tính quy luật của sự biến động, đồng thời dự đoán các mức độ của hiện tượng trong tương lai.

1.2 Kết cấu:

Dãy số thì gian gồm hai thành phần:thời gian và chỉ tiêu của hiện tượng đượcnghiên cứu

+ Thờt gian có thể đo bằng ngày ,tháng, năm,…tuỳ theo mục đích nghiên cứu.Đơn

vị thời gian phải đồng nhất trong dãy số thời gian.Độ dài thời gian giữa hai thờigian liền nhau được gọi là khoảng cách thời gian

+ Chỉ tiêu về hiện tượng được nghiên cứu là chỉ tiêu được xây dựng cho dãy sốthời gian Các trị số của chỉ tiêu được gọi là các mức độ của dãy số thời gian Cáctrị số này có thể là tuyệt đối, tương đối hay bình quân

1.3 Phân loại:

- Có một số cách phân loại dãy số thời gian theo các mục đích nghiên cứu khácnhau.Thông thường ,người ta căn cứ vào đặc điểm tồn tại về quy mô của hiện tượngtheo thời gian để phân loại.Theo cách này ,dãy số thời gian được chia thành hailoại: dãy số thời điểm và dãy số thời kì

- Dãy số thời điểm biểu hiện quy mô của hiện tượng nghiên cứu tại những thờiđiểm nhất định.Do vậy ,mức độ của hiện tượng ở thời điểm sau có thể bao gồm toàn

bộ hay một bộ phận mức độ của hiện tượng ở thời diểm trước đó

- Dãy số thời kì biểu hiện quy mô (khối lượng) của hiện tượng trong từng thờ giannhất định.Do đó ,chúng ta có thể cộng các mức độ liền nhau để được một mức độlớn hơn trong một khoảng thời gian dài hơn.Lúc này, số lượng các số trong dãy sốgiảm xuống và khoảng cách thời gian lớn hơn

1.4 Tác dụng:

Dãy số thời gian có hai tác dụng chính sau:

Trang 21

+ Thứ nhất ,cho phép thống kê học nghiên cứu các đặc điểm và xu hướng biến độngcủa hiện tượng theo thời gian.Từ đó ,chúng ta có thể đề ra định hướng hoặc các biện pháp xử lí thích hợp.

+ Thứ hai ,cho phép dự đoán các mức độ của hiện tượng nghiên cứu có khả năng xảy ra trong tương lai

1.5 Điều kiện vận dụng

- Để có thể vận dụng dãy số thời gian một cách hiệu quả thì dãy số thời gian phải đảm bảo tình chất có thể so sánh được giữa các mức độ trong dãy thời gian

Cụ thể là:

+ Phải thống nhất được nội dung và phương pháp tính

+ Phải thống nhất được phạm vi tổng thể nghiên cứu

+ Các khoảng thời gian trong dãy số thời gian nên bằng nhau nhất là trong dãy số thời kì

- Tuy nhiên, trên thực tế nhiều khi các điều kiện trên bị vi phạm do các nguyên nhân khác nhau.Vì vậy, khi vận dụng đòi hỏi phải có sự điều chỉnh thích hợp để tiến hành phân tích đạt hiệu quả cao

2 Giới thiệu phân tích chuỗi thời gian

Định nghĩa :

- Phân tích chuỗi thời gian là một phương pháp phân tích thống kê dùng cho chuỗi số liệuđược thu thập đều đặn theo thời gian tức là số liệu được ghi nhận tại những điểm thờigian cách đều nhau, như số liệu được thu thập hàng tuần, hàng tháng, hàng quý , hàngnăm…

Ví dụ : Số lượng hàng bán được trong 12 tháng của một công ty.

- Các gía trị của chuỗi tuần tự theo thời gian của đại lượng X được ký hiệu X1,

X2, ………, Xt, … Xn, với Xt, là gía trị quan sát của X ở thời điểm t

Ứng dụng: Việc sử dụng các mô hình chuỗi thời gian có hai phần:

Trang 22

 Có được một sự hiểu biết của các lực lượng cơ bản và cơ cấu sản xuất ra các dữ liệu quan sát

 Phù hợp với một mô hình và tiến tới dự báo, theo dõi hoặc thậm chí những phản hồi và kiểm soát trước

Phân tích chuỗi thời gian được sử dụng cho nhiều ứng dụng như :

 Phân tích điều tra dân số

3 Mô hình phân tích chuỗi thời gian

Phân tích chuỗi thời gian được chia làm hai phương pháp

Trang 23

Phân tích xu thế : Đây là một phân tích liên quan đến chuỗi nhiều năm, do đó ta sẽ sửdụng số liệu hàng năm để phân tích một cách tổng quát ta cần phải một chuỗi dài ít là 10-

 Trong trường hợp cá biệt khi nhận thấy xu thế của biến khảo sát trong thời gian dài

là tuyến tính ,.Phương trình sẽ được xác định bởi

Y=a+bt

t: biểu thị thời gian

a,b:là những tham số quy định vị trí của đường hồi quy

Từ phương trình này,bằng phương pháp bình phương nhỏ nhất hoặc thông qua việc đặtthứ tự thời gian (t) trong dãy số để tính tham số a,b

Trang 24

Yi: Quan sát a: Xu thế

Đây là một hàm hai biến a và b, để cho D cực trị (với ý nghĩa vật lý của bài toán ta biết đó

3.2 Đánh giá sự biến đổi theo mùa

Để nhận biết ảnh hưởng của thành phần mùa lên chuỗi thời gian khảo sát ta dùng thông sốgọi là chỉ số mùa

- Nếu số liệu theo tháng, ta có 12 tháng giá trị is

Trang 25

- Nếu số liệu theo quý ,ta có 12 giá trị is.

- Nếu giá trị tính theo 6 tháng ,ta có 2 giá trị is

Tính chỉ số mùa

Từ số liệu quan trắc chỉ số mùa được tính từ is,t như sau:

is,t=[giá trị quan trắc]/[giá trị cho bởi y=[a+bt]t

Chú ý: Có bao nhiêu số liệu quan trắc có bấy nhiêu is,t và giá trị is,t thay đổi quanh giátrị 1

Từ các giá trị đại biểu is,t , các giá trị đại biểu is được tính bằng giá trị trung bình của cáctháng (quý) tương ứng :

Theo tháng

is,k=

Theo quý

is,k=

Với N (số tháng ,quý,…) có trong chuỗi số liệu phân tích

Giá trị chỉ số mùa hiệu chỉnh

Ta phải có :

Hiệu chỉnh

Chuỗi CVS(loại bỏ ảnh hưởng mùa trong chuỗi giá trị quan sát)

Ngày đăng: 25/07/2015, 12:26

HÌNH ẢNH LIÊN QUAN

Bảng dưới đây cho các số liệu về doanh số bán (Y), chi phí chào hàng (X 2 ) và chi  phí quảng cáo (X 3 ) của một công ty. - Tìm hiểu về phân tích dữ liệu. Áp dụng dự báo số lượng hành khách vận chuyển phân theo ngành vận tải
Bảng d ưới đây cho các số liệu về doanh số bán (Y), chi phí chào hàng (X 2 ) và chi phí quảng cáo (X 3 ) của một công ty (Trang 9)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w