1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BT4 Phân tích dữ liệu kinh doanh

21 95 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 707,11 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài 4a. (Chapter 9) Dùng ngôn ngữ R và SPSS thực hiện các phép tính Hồi quy tuyến tính (Linear Regression) với tập tin dữ liệuHome Market ValueColleges and UniversitiesBài 4b Dữ liệu thực tế tùy chọn của Việt Nam

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA HỆ THỐNG THÔNG TIN

BÁO CÁO LAB 4 Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH

Giảng viên hướng dẫn: TS Nguyễn Đình Thuân

Trang 2

Mục lục

Trang 3

A.BÀI TẬP

I Dữ liệu Home Market Value

1 Sử dụng SPSS

1.1 Hồi quy đơn biến

Chúng ta muốn phân tích, Square Feet có ảnh hưởng Market Value không và mức độ ảnh hưởng như thế nào

Vào Analyze → Regression → Linear…

Cửa sổ Linear Regression mở ra và thực hiện các thiết lập sau:

Đưa biến Market Value vào ô Dependent,

Đưa biến Square Feet vào ô Independent(s)

Trang 4

Xong bấm OK, kết quả sẽ ra như sau:

Hệ số tương quan R đo lường mức độ tương quan giữa hai biến

Trang 5

Có thể nói 52,3%sự biến đổi giá trị ngôi nhà có thể được giải thích bằng sự biến đổi về diện tích ngôi nhà.

Giá trị của Sig( P-value) của bảng ANOVA dùng để đánh giá sự phù hợp (tồn tại) của mô hình Giá trị Sig nhỏ (thường <5%) thì mô hình tồn tại

Bảng Coefficients sẽ trình bày các hệ số của phương trình hồi quy tuyến tính giản đơn bao gồm 1hằng số cắt αα và tham số ββ của ước lượng

Phương trình hồi qui tuyến tính đơn biến có thể viết như sau

Giá trị của ngôi nhà = 32673.220 +35,036*(diện tích ngôi nhà)

Hệ số B của diện tích là 35.036, nghĩa là khi biến diện tích tăng 1 đơn vị thì biến Markert tăng 35,036đơn vị

Sig của diện tích ngôi nhà là 0.000 => hệ số của biến diện tích ngôi nhà có ý nghĩa thống kê

1.2 Hồi quy đa biến

Chúng ta muốn phân tích Home Age, Square Feet có ảnh hưởng Market Value không và mức độ ảnh hưởng như thế nào Giải quyết vấn đề này chúng ta có thể dùng hồi quy tuyến tính đa biến, với biến phụ thuộc là Market Value và 2 biến giải thích (độc lập) là Home Age, Square Feet Trên SPSS, chúng ta thực hiện hồi quy tuyến tính đa biến như sau:

Vào Analyze → Regression → Linear…

Trang 6

Cửa sổ Linear Regression mở ra và thực hiện các thiết lập sau:Đưa biến Market Value vào ô Dependent,

Đưa biến Home Age, Square Feet vào ô Independent(s)

Trang 7

Xong bấm vào Statistics chọn Collinearity diagnostics (để tính ra hệ số VIF – hệ số phóng đại phương sai- để đánh giá hiện tượng đa cộng tuyến)

Xong bấm OK, kết quả sẽ ra như sau:

Bảng này dùng để đánh giá độ phù hợp của mô hình hồi quy đa biến

Hệ số tương quan R đo lường mức độ tương quan giữa hai biến

Hệ số tương quan R=0,745

Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) sự biến thiên của biến phụ thuộc được giải thích bởi biến độc lập

Hệ số R bình phương hiệu chỉnh Adjusted R Square là 0.533

Nghĩa là 53,3% biến thiên của biến phụ thuộc giá trị ngôi nhà được giải thích bởi 2 nhân tố độc lập độ tuổi và diện tích ngôi nhà còn lại là ảnh hưởng của sai số tự nhiên và biến ngoài mô hình

Trang 8

Kiểm định giả thuyết về độ phù hợp với tổng thể của mô hình

Ta dùng giá trị F ở bảng phân tích ANOVA để kiểm định độ phù hợp Giá trị F= 24.395 với Sig của kiểm định F =0.000 < 0.05 ta có thể kết luận R bình phương của tổng thể khác 0-> mô hình hồi quy tuyến tính phù hợp với tập dữ liệu và có thể suy rộng và áp dụng cho toàn tổng thể.Bảng Coefficients sẽ trình bày các hệ số của phương trình hồi quy tuyến tính giản đơn bao gồm 1hằng số cắt αα và tham số ββ của ước lượng

Phương trình hồi qui tuyến tính đa biến có thể viết như sau

Giá trị của ngôi nhà = 47331,382 + -825,161*(tuổi của ngôi nhà) +

=>Diện tích ngôi nhà ảnh hưởng nhiều nhất đến sự thay đổi của giá trị ngôi nhà

Cột Collinearity Statistics kiểm tra mức độ đa cộng tuyến giữa các biến giải thích Theo quy tắc kinh nghiệm thì hệ số phóng đại phương sai (VIF) lớn hơn 10 thì được xem là có hiện tượng đa cộng giữa các biến

Hệ số phóng đại phương sai VIF đều bé hơn 2, chứng tỏ không có hiện tượng đa cộng tuyến

Trang 9

2 Sử dụng R

Nhập dữ liệu:

1 Hệ số tương quan

Giữa House.Age và Square.Feet

r1 = 0.6456685, ta thấy 0 < r<1: House.Age và Square.Feet là hai biến số có liên hệ với nhau.Giữa Square Feet và Market Value

r2= 0.7312552, ta thấy 0 < r<1: Square.Feet và Market.Value là hai biến số có liênhệ với nhauGiữa House Age và Market Value

r3 = 0.3614153, ta thấy 0 < r<1: House.Age và Market.Value là hai biến số có liên hệ với nhau.Mức độ liên hệ giữa hai biến ta xét: r2 > r1 > r3

Trang 10

2.1 Hồi quy tuyến tính đơn biến

Phân tích Square Feet có ảnh hưởng Market Value không và mức độ ảnh hưởng như thế nào

Kết quả phân tích trên cho thấy các ước số:

Trang 11

2.2 Hồi quy tuyến tính đa biến

Phân tích Home Age, Square Feet có ảnh hưởng Market Value không và mức độ ảnh hưởng như thế nào

Kết quả phân tích trên cho thấy các ước số:

Market.Value = 473331.38 - 825.16 (House.Age) + 40.911 (Square.Feet)

Phương trình cho biết cứ giảm 1 năm tuổi thì thì giá nhà tăng lên 825.16$, và tăng mỗi 1 mét vuông thì giá nhà tăng lên 40.911$

Tham số R bình phương hiệu chỉnh (Adjusted R Square) cho biết mức độ (%) sự biến thiên của biến phụ thuộc được giải thích bởi biến độc lập

Hệ số R bình phương hiệu chỉnh Adjusted R Square là 0.533

Nghĩa là 53,3% biến thiên của biến phụ thuộc giá trị ngôi nhà được giải thích bởi 2 nhân tố độc lập độ tuổi và diện tích ngôi nhà còn lại là ảnh hưởng của sai số tự nhiên và biến ngoài mô hình

Trang 12

II.Dữ liệu Colleges and Universities

1 Sử dụng SPSS

1 Đặt vấn đề

Giữa Graduation với Median SAT, Acceptance Rate, Expenditures/Student và Top 10%

HS có mối liên hệ như thế nào?

H0: Không có mối liên hệ nào

H1: Có mối liên hệ và theo dạng phương trình sau: Y = aX1 + bX2 + cX3 + dX4 + e với:

Dùng hồi quy tuyến tính đa biến

- Bước 1: Chọn Analyze  Regression  Linear…

Trang 13

- Bước 2: Chọn thuộc tính phụ thuộc vào ô Dependent: và thuộc tính độc lập vào ô Independent(s):

Trang 14

- Bước 3: Chọn OK

1.2 Kết quả

Trang 15

1.3 Nhận xét và giải thích

- Từ kết quả ở bảng 1, ta có: hệ số R bình phương hiệu chỉnhAdjusted R Square = 0.492 nghĩa là 49.2% sự biến thiên của biến phụ thuộc Graduation được giải thích bởi 4 biến độc lập ở trên, còn lại 50.8% sự biến thiên phụ thuộc là do các biến ngoài mô hình và sai

số ngẫu nhiên R2 hiệu chỉnh càng lớn thể hiện độ phù hợp của mô hình càng cao

- Từ kết quả ở bảng 2, ta có F = 12.627 với sig = 0.000 < 0.05 Do đó ta bác bỏ H0 và chấpnhận H1 rằng giữa Y với X1, X2, X3, X4 có mối liên hệ với nhau theo dạng phương trình: Y =aX1 + bX2 + cX3 + dX4 + e và còn chứng tỏ được R bình phương của tổng thể khác 0, nghĩa là mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể

- Tất cả các giá trị sig của 4 biến độc lập đều < 5% chứng tỏ 4 biến độc lập đều có tác động

Trang 16

Graduation % = 0.072 * (Median SAT) – 0.249 * (Acceptance Rate) – 0.163 * (Top 10% HS)+ 17.921

- Từ phương trình hồi quy tuyến tính cho thấy: Graduation % (Tỉ lệ tốt nghiệp) tỉ lệ thuận với Median SAT (điểm SAT) và tỉ lệ nghịch với: Acceptance Rate (tỉ lệ chấp thuận) và Top 10% HS Trong đó Acceptance Rate có ảnh hưởng lớn nhất

2 Sử dụng R

1 Đặt vấn đề

Sự tốt nghiệp (Graduation) ở các trường đại học có phụ thuộc vào 4 yếu tố này hay không? MedianSAT, AcceptanceRate, Expenditures, Top10HS

H0: Không có sự phụ thuộc nào

H1: Có phụ thuộc và theo dạng phương trình sau: Y = aX1 + bX2 + cX3 + dX4 + e với:

Trang 17

2.2 Kết quả

2.3 Nhận xét và giải thích

- Phần Residuals: dao động dư có phần trung vị (Median) là 0.6193, tứ phân vị thứ nhất

có giá trị là: -2.0462, tứ phân vị thứ 3 có giá trị là: 3.6417

- Phần Coefficients: hệ số

+ MedianSAT, AcceptanceRate, Expenditures, Top10HS đều có p_values rất nhỏ < 0.05

Do đó bác bỏ H0 chấp nhận H1 Nên điều này cho thấy rất có ý nghĩa thống kê

+ Phương trình hồi quy tuyến tính có dạng: Y= 17.921 + 0.072X1 – 24.859X2 –

0.00014X3 – 0.163X4

- Cần làm thêm bước phân tích phương sai Anova để biết được đâu ra kết quả này:

Trang 18

+ R-Squared (Hệ số xác định) =tổng sum sq của bốn thuộc tính / tổng sum sq =

1423.21/2663.06= 0.5344 Hay nói cách khác: bốn thuộc tính này MedianSAT,

AcceptanceRate, Expenditures, Top10HS giải thích 53% sự tốt nghiệp ở các trường đại học

+ Adjusted R-squared: Hệ số xác định điều chỉnh 0.4921 (nếu biết được 4 yếu tố thì tính phương sai giảm đi) Nghĩa là 49.2% sự biến thiên của biến phụ thuộc Graduation được giải thích bởi 4 biến độc lập ở trên, còn lại 50.8% sự biến thiên phụ thuộc là do các biến ngoài mô hình và sai số ngẫu nhiên R2 hiệu chỉnh càng lớn thể hiện độ phù hợp của mô hình càng cao

III Dữ liệu tự chọn Việt Nam

1 Sử dụng SPSS

2 Sử dụng R

 Nhập dữ liệu:

- Dùng lệnh read.csv() để nhập dữ liệu và gán vào biến df

- Dùng lệnh attach() để đọc dữ liệu thực thi

- Xem các cột dữ liệu

Trang 19

1 Hồi quy đơn biến

 Đặt vấn đề : Ảnh hưởng của chỉ số vàng đến chỉ số giá tiêu dùng

 Tiến hành :

- Hàm lm có thể tính toán các giá trị của α và β một cách nhanh gọn

- Lệnh thứ hai, summary(c), yêu cầu R liệt kê các thông tin tính toán trong b

Kết quả như trên:

Trang 20

 Tiến hành :

- Hàm lm có thể tính toán các giá trị của α và β một cách nhanh gọn

- Lệnh thứ hai, summary(c), yêu cầu R liệt kê các thông tin tính toán trong c

Kết quả như trên:

Phạm Huỳnh Mỹ Hạnh - 17520443 Dữ liệu Home Market Value cả SPSS và R

Nguyễn Thị Cẩm Hoài - 17520499 Dữ liệu tùy chọn Việt Nam

Trà Thảo Nguyên - 17520831 Dữ liệu tùy chọn Việt Nam bên R

Trương Thị Mỹ Linh – 17520692 Dữ liệu Colleges and Universities bên R

Hồ Thị Ngọc Huyền - 17520596 Dữ liệu Colleges and Universities bên SPSS + Báo cáo

Trang 21

C.TÀI LIỆU THAM KHẢO

[1] https://www.slideshare.net/vomanhtai/r-chap10-regression?

fbclid=IwAR2kmEqNx7mz4PMqH5taKcwZI_wN9-u7ZCKqHUqDNP1LhO1hXlCkra7GDm4[2] http://phantichspss.com/huong-dan-thuc-hanh-cach-phan-tich-hoi-quy-da-bien.html

Ngày đăng: 22/08/2020, 16:03

TỪ KHÓA LIÊN QUAN

w