1. Trang chủ
  2. » Luận Văn - Báo Cáo

Dùng ms excel, ngôn ngữ r và ngôn ngữ python thực hiện các phép tính hồi quy tuyến tính đa biến với tập tin dữ liệu colleges and universities

49 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dùng ms excel, ngôn ngữ r và ngôn ngữ python thực hiện các phép tính hồi quy tuyến tính đa biến với tập tin dữ liệu colleges and universities
Người hướng dẫn PGS.TS. Nguyễn Đình Thuân, Nguyễn Thị Viết Hương, Nguyễn Minh Nhựt
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Hệ Thống Thông Tin
Thể loại Báo cáo cuối kỳ
Năm xuất bản 2023
Thành phố Hồ Chí Minh
Định dạng
Số trang 49
Dung lượng 7,17 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1. Giải thích và lấy ví dụ (4)
    • 1.1 Hồi quy tuyến tính đa biến (4)
      • 1.1.1 Giải thích (4)
      • 1.1.2 Ví dụ (5)
    • 1.2 Hồi quy phi tuyến đa biến (7)
      • 1.2.1 Giải thích (7)
      • 1.2.2 Ví dụ (7)
    • 1.3 Hồi quy Logistic (8)
      • 1.3.1 Giải thích (8)
      • 1.3.2 Ví dụ (10)
  • 2. Thực hành (13)
    • 2.1 Dùng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện các phép tính hồi quy tuyến tính đa biến với tập tin dữ liệu Colleges and Universities (13)
      • 2.1.1 Phát biểu bài toán (13)
      • 2.1.2 Sử dụng MS Excel (14)
      • 2.1.3 Sử dụng ngôn ngữ R (18)
      • 2.1.4 Sử dụng ngôn ngữ Python (23)
      • 2.1.5 Kết luận (24)
    • 2.2 Dùng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện phép tính Hồi quy phi tuyến đa biến với dữ liệu thực tế tùy chọn về/của Việt Nam (25)
      • 2.2.1 Giới thiệu tập dữ liệu (25)
      • 2.2.2. Phát biểu bài toán (27)
      • 2.2.3. Sử dụng MS Excel (28)
      • 2.2.4 Sử dụng ngôn ngữ R (30)
      • 2.2.5 Sử dụng Python (34)
    • 2.3 Dùng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện các phép tính hồi quy logistic với dữ liệu tùy chọn về Việt Nam (37)
      • 2.3.1 Giới thiệu tập dữ liệu (37)
      • 2.3.2 Phát biểu bài toán (37)
      • 2.3.3 Sử dụng MS Excel (38)
      • 2.3.4 Sử dụng ngôn ngữ R (44)
      • 2.3.5 Sử dụng ngôn ngữ Python (46)
      • 2.3.6 Kết luận (47)
  • TÀI LIỆU THAM KHẢO (48)

Nội dung

Giải thích và lấy ví dụ

Hồi quy tuyến tính đa biến

Hồi quy tuyến tính đa biến là kỹ thuật phân tích dữ liệu giúp dự đoán giá trị của một biến dựa trên nhiều biến độc lập Biến cần dự đoán được gọi là biến phụ thuộc, trong khi các biến dùng để dự đoán gọi là biến độc lập Kỹ thuật này rất hữu ích trong các lĩnh vực như kinh tế, marketing và nghiên cứu thị trường để đưa ra dự đoán chính xác dựa trên các yếu tố liên quan.

Mô hình hồi quy tuyến tính đa biến là phương trình mô tả mối quan hệ giữa biến phụ thuộc y với nhiều biến độc lập x₁, x₂, , xₙ, cùng với các sai số ngẫu nhiên e Đây là phương pháp phân tích quan trọng trong thống kê để xác định ảnh hưởng của các biến độc lập đến biến phụ thuộc và dự đoán giá trị của y dựa trên các biến đầu vào Mô hình này giúp hiểu rõ cách các yếu tố tác động đến kết quả, từ đó hỗ trợ quá trình ra quyết định chính xác hơn trong nghiên cứu và thực tiễn.

Phương trình hồi qui tuyến tính đa biến là phương trình mô tả mối quan hệ giữa biến phụ thuộc y với các biến độc lập x , x , x1 2 p

+ X , X1 2, Xn là biến độc lập

+ β là hằng số hồi quy0

+ β , β ,… β là các hệ số hồi quy1 2 n

+ e là sai số ngẫu nhiên

Ta có thể sử dụng hồi quy tuyến tính đa biến để:

+ Lập mô hình mối quan hệ giữa các biến phức tạp, như:

- Lượng mưa, nhiệt độ và tần suất sử dụng phân bón đối với cây ăn quả.

- Thu nhập, số thành viên đối với chi tiêu trong gia đình

+ Tính giá trị của biến phụ thuộc tại một giá trị cụ thể của các biến độc lập, như:

- Giá nhà của 1 căn có số phòng, diện tích và độ tuổi ngôi nhà nhất định

Dựa trên khảo sát 20 hộ gia đình trong khu vực về mức chi tiêu hàng tháng, tổng thu nhập và số thành viên trong gia đình được ghi nhận để phân tích Phương pháp phân tích hồi quy được sử dụng nhằm xác định mối quan hệ giữa chi tiêu, thu nhập và số thành viên trong gia đình Kết quả cho thấy, mức chi tiêu của các hộ gia đình có liên hệ rõ ràng với tổng thu nhập, trong khi số thành viên trong gia đình cũng ảnh hưởng đáng kể đến mức chi tiêu hàng tháng Các phát hiện này giúp hiểu rõ hơn về các yếu tố ảnh hưởng đến tiêu dùng và hỗ trợ xây dựng các chiến lược phát triển kinh tế gia đình hiệu quả.

Mức chi tiêu, thu nhập và số thành viên của 20 hộ gia đình được trình bày như sau:

Thực hiện hồi quy bằng công cụ Data Analysis:

Kết quả hồi qui trên Excel:

Dựa vào kết quả phân tích, ta có phương trình hồi quy:

Chi tiêu = 1.658 + 0.28 * [Thu nhập] + 3.963 * [Thành viên]

Hồi quy phi tuyến đa biến

Hồi quy phi tuyến đa biến (Multivariate Nonlinear Regression) là phương pháp phân tích nhằm dự đoán biến mục tiêu dựa trên nhiều biến độc lập Phương pháp này phù hợp khi mối quan hệ giữa biến phụ thuộc và các biến độc lập là hàm phi tuyến tính Hồi quy phi tuyến đa biến giúp mô hình hóa các quan hệ phức tạp và phi tuyến trong dữ liệu, nâng cao độ chính xác của dự đoán Đây là công cụ quan trọng trong phân tích dữ liệu khi các mối quan hệ không thể mô tả bằng mô hình tuyến tính đơn giản.

Các bước chính để thực hiện hồi quy phi tuyến tính đa biến là:

B1: Thu thập dữ liệu cho các biến độc lập và biến phụ thuộc.

B2: Kiểm tra giả thiết về phân phối và tương quan giữa các biến.

B3: Xác định hàm mục tiêu (hàm phi tuyến) dựa trên mối quan hệ giữa các biến độc lập và biến phụ thuộc.

B4: Ước tính các tham số của hàm mục tiêu bằng các phương pháp tối ưu hóa. B5: Đánh giá mô hình và kiểm tra tính chính xác của nó.

Dưới đây là đoạn nội dung đã được tối ưu hóa cho SEO dựa trên bài viết của bạn:Bạn có thể xây dựng mô hình dự đoán giá trị nhà dựa trên nhiều yếu tố như diện tích, số lượng phòng ngủ và độ tuổi của căn nhà Sử dụng mô hình hồi quy phi tuyến đa biến giúp mô hình hóa chính xác mối quan hệ phức tạp giữa các yếu tố này và giá trị của bất động sản Việc áp dụng kỹ thuật này giúp dự đoán giá nhà hiệu quả hơn, hỗ trợ các nhà đầu tư và khách hàng trong quá trình đưa ra quyết định.

 Để thực hiện việc này, ta có thể sử dụng công thức sau:

Giá trị nhà = β0 + β1Diện tích + β2Số phòng ngủ + β3*Độ tuổi + ε

+ β0, β1, β2 và β3 là các tham số mô hình

+ ε là sai số ngẫu nhiên

 Công thức trên cho phép ta tính toán giá trị nhà dựa trên các yếu tố diện tích, số lượng phòng ngủ và độ tuổi của căn nhà.

Hồi quy Logistic

Mô hình hồi quy logistic dùng để mô tả mối liên quan giữa biến phân loại (thường có

Trong bài viết này, chúng ta tập trung vào việc phân tích hai loại biến chính là biến giá trị nhị phân và biến tiên lượng, bao gồm cả biến phân loại và biến liên tục, nhằm mục đích phân loại và dự đoán dựa trên dữ liệu Mô hình phân tích còn giúp kiểm soát các biến số nhiều và phát triển các mô hình dự đoán chính xác hơn Ngoài ra, việc sử dụng các kỹ thuật này còn hỗ trợ tối ưu quá trình phân tích dữ liệu và nâng cao khả năng dự đoán trong các lĩnh vực khác nhau.

Một số khái niệm liên quan:

- p (probability): xác suất của biến cố xảy ra trong một thời gian

- Odds: tỉ số giữa xác suất biến cố xảy ra và biến cố không xảy ra.

 Odds là một biến liên tục

 Nếu ODDs > 1: xác suất biến cố xảy ra cao hơn biến cố đối của nó.

 Nếu ODDs < 1 xác suất biến cố xảy ra thấp hơn biến cố đối của nó.

 Nếu ODDs = 1 xác suất biến cố xảy ra khả năng bằng biến cố đối của nó.

- Odds ratio: tỉ số của 2 odds

- Logit: gọi logit = log odds:

Mô hình hồi quy logistic được dựa trên khái niệm logit phát biểu rằng:

- α: log odds của biến phân loại khi biến tiên lượng X = 0

- β: log odds ratio liên quan với một đơn vị tăng của biến tiên lượng X

Mô hình hồi quy hoạt động tương tự như mô hình hồi quy tuyến tính, cho phép dự đoán xác suất của một kết quả nhờ vào biến đầu vào Trong đó, p đại diện cho xác suất, là biến phụ thuộc nằm trong khoảng từ 0 đến 1, còn α và β là các tham số của mô hình Cách thức hoạt động của mô hình xác suất này thể hiện qua công thức p = α + βX, giúp dự đoán khả năng xảy ra của một hiện tượng dựa trên các yếu tố tác động.

Vế phải của bài toán là một biến liên tục có thể vượt qua khoảng từ 0 đến 1 Do đó, để đảm bảo tính liên tục và dễ dàng phân tích, ta chuyển đổi vế trái thành odds ratio Việc này giúp biến trái cũng trở thành một biến liên tục, phù hợp với quy trình phân tích thống kê và tối ưu hóa mô hình dự báo.

Vì odds ratio luôn là một số dương, nên ta chuyển vế trái thành logarit

 log(p/(1-p)) = α + βX Để được p như ban đầu, ta áp dụng hà mũ cho cả 2 vế

Sau vài phép biến đổi đơn giản ta thu được: p = e α + βX /((1+ e α + βX )

Mô hình hồi quy logistic là công cụ quan trọng trong phân tích dữ liệu, giúp chuyển đổi các tính toán phức tạp thành các bài toán số học đơn giản hơn Nhờ vào các ứng dụng thống kê hiện đại tự động ngày nay, mô hình này dễ dàng áp dụng trong nhiều lĩnh vực, nâng cao độ chính xác và hiệu quả phân tích dữ liệu.

Hãy dự đoán khả năng mua nhà của nhóm người thông qua độ tuổi qua bộ dữ liệu:

Gọi: biến phân loại “House” là y (y=1: có khả năng mua nhà, y=0: không có khả năng mua nhà).

Biến tiên lượng “Age” là X thể hiện độ tuổi.

Dạng tuyến tính của phương trình hồi quy logistic:

- Y: biến phân loại nhị phân

Do Y là biến nhị phân tuân theo luật phân phối nhị thức nên mô hình hồi quy tuyến tính không thể áp dụng được.

Bài toán đặt ra: Kiểm tra xem độ tuổi có ảnh hưởng đến khả năng mua nhà hay không?

Bước 1: Import dữ liệu vào RStudio

Bước 2: Dùng hàm glm() để phân tích hồi quy logistic với tham số family binomial

Từ kết quả trên ta được phương trình hồi quy:

Ta suy ra được kết quả:

Tỉ số: OR Ta có thể hiểu: cứ tuổi (Age) tăng lên 1 đơn vị thì khả năng mua nhà tăng lên 1.4323 lần.

Thực hành

Dùng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện các phép tính hồi quy tuyến tính đa biến với tập tin dữ liệu Colleges and Universities

Giả sử, với độ tin cậy là 95%, có thể tìm ra mối quan hệ giữa Graduation % với Median SAT, Acceptance Rate, Expenditures/Student và Top 10% HS được hay không?

Ta có phương trình hồi quy như sau:

Graduation % = β + β * Median SAT + β * Acceptance Rate + β * 0 1 2 3

+ Tìm hằng số β 0 và các hệ số β 1 , β 2 , β 3 , β 4

+ Phân tích kết quả, từ đó kết luận xem mô hình có phù hợp hay không?

Bước 1: Mở tập dữ liệu Colleges and Universities.xlsx và đổi dữ liệu sang dạng số các cột cần đổi, ta được kết quả như hình dưới:

Bước 2: Thực hiện phân tích trên Excel theo các bước như hình dưới

Bước 3: Chọn Input Y Range: “Graduation”, Input X Range: “Median SAT”,

“Acceptance Rate”, “Expenditures/ Student” và Top 10% HS và nhấn OK

Bước 4: Sau khi nhấn OK, ta được kết quả như sau:

Bảng tóm tắt SUMMARY OUTPUT:

+ Dựa vào kết quả Regression Statistics, ta thấy các thông số của mô hình hồi quy như sau:

- Multiple R: Hệ số tương quan bội(0 Regression, chọn Input Y Range:

“p_rating”, Input X Range: “p_price”, “s_response_rate”, “p_rating^10”

Nhấn OK, ta được kết quả:

Kết quả cho thấy hệ số tương quan (R) đạt 0.9137, cho thấy mô hình hồi quy phù hợp cao Tham số R bình phương hiệu chỉnh (Adjusted R Square) là 83.45%, cho biết khoảng 83.45% biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập Độ phụ thuộc của biến Y vào biến X (R2) là 8.35, xác nhận mức độ ảnh hưởng của biến độc lập đến biến phụ thuộc Kết quả phân tích ANOVA cho thấy giá trị sig < 0.05, từ đó bác bỏ giả thuyết H0 và chứng tỏ mô hình hồi quy phù hợp với tổng thể dữ liệu Mỗi mô hình đều có sig < 0.05, do đó tất cả các mô hình đều được chấp nhận Phương trình hồi quy được xác định là: p_rating = -1.28794E-11 * p_price - 0.03735 * s_response_rate + 1.0035E-07 * p_rating^10 + 4.10775.

Bước 1: Import và attach dữ liệu

Bước 2: Tìm mô hình hồi quy

- Mô hình hàm số mũ:

Biến độc lập X và biến phụ thuộc Y được biểu diễn theo phương trình:

Biến độc lập X và biến phụ thuộc Y được biểu diễn theo phương trình:

R-squared của mô hình lũy thừa nhỏ hơn mô hình hàm số mũ, nên ta lựa chọn mô hình hàm số mũ

Bước 3: Vẽ đồ thị p_rating ~ p_price

Bước 4: Vẽ đồ thị p_rating và s_response_rate

Bước 5: Vẽ đồ thị p_rating và p_rating^10

Bước 1: import thư viện cần thiết

Bước 3: tạo biến độc lập X và biến phụ thuộc Y

Bước 4: dùng hàm SVM để đưa mô hình theo biến X và Y

Vậy phương trình hồi quy là: p_rating = -1.28794E-11 * p_price -0.037348937 * s_response_rate + 1.0035E-07 * p_rating^10 + 4.107751641

Dùng MS Excel, ngôn ngữ R và ngôn ngữ Python thực hiện các phép tính hồi quy logistic với dữ liệu tùy chọn về Việt Nam

2.3.1 Giới thiệu tập dữ liệu

- Tên dataset: Bank Customer Data in Vietnam

- Link dataset: https://www.kaggle.com/datasets/tomculihiddleston/bank-customer- data-in-vietnam

- Tác giả: Tom CuLi Hiddleston

- Thời gian dataset được cập nhật: năm 2021

Dữ liệu gồm 42.639 dòng ghi thông tin khách hàng trong chiến dịch tiếp thị qua điện thoại, với 16 cột dữ liệu như ID, tuổi (age), nghề nghiệp (job), tình trạng hôn nhân (marital), trình độ học vấn (education), tình trạng tín dụng mặc định (default), ngày-tháng cuộc gọi gần nhất (day-month), và thời lượng cuộc gọi (duration) Trong số đó, các cột quan trọng gồm có term_deposit — biến nhị phân thể hiện khách hàng đã đăng ký tiền gửi có kỳ hạn hay chưa —, balance (số dư tài khoản khách hàng), housing (khách hàng có khoản vay mua nhà hay không), và loan (khách hàng có khoản vay hay không) These variables are key indicators for evaluating customer behavior and optimizing marketing strategies.

Tiền gửi có kỳ hạn là hình thức gửi tiền phổ biến nhất hiện nay, trong đó khách hàng gửi một khoản tiền tại ngân hàng hoặc tổ chức tín dụng trong một khoản thời gian nhất định theo thỏa thuận Đặc điểm nổi bật của tiền gửi có kỳ hạn là ngân hàng cam kết hoàn trả đầy đủ tiền gốc kèm lãi suất theo thỏa thuận khi hết kỳ hạn Đây là cách giúp khách hàng vừa đảm bảo an toàn tài chính, vừa sinh lời hiệu quả từ lãi suất cạnh tranh.

Trong đó, tiếp thị trực tiếp (gọi điện thoại) là một trong những cách tiếp thị có hiệu quả và xuất hiện nhất trong thời buổi ngày nay.

Mục tiêu là dự đoán xem khách hàng có đăng ký khoản tiền gửi có kỳ hạn hay không.

Vậy bài toán đặt ra: Các biến phân loại có ảnh hưởng đến khả năng đăng ký tiền gửi có kỳ hạn hay không.

Gọi: biến phân loại “term_deposit” là y (y=1: có đăng ký tiền gửi, y=0: không đăng ký tiền gửi).

Biến tiên lượng “age” thể hiện số tuổi, “housing” thể hiện có khoản vay mua nhà hay không, “loan” thể hiện có khoản vay cá nhân hay không là X.

Bước 1: Chọn Data Analysis trong Data

Bước 3: Chọn vùng dữ liệu cho trường Input Y Range là cột “term _deposit”, trường

Input X Range là cột “age”, “housing” và “loan”

Bước 4: Ta tính biến tiên lượng “term_deposit” bằng công thức dựa vào kết quả trên:

Bước 5: Tính xác suất xảy ra sự kiện P = e / 1 + e Y Y

Bước 6: Tính khả năng xảy ra (likelihood) bằng hàm IF(term_deposit, P, 1-P)

Bước 7: Tính log của xác suất bằng hàm LOG(likelihood)

Bước 8: Tính tổng LOG(likelihood)

Bước 9: Mở Tùy chọn Excel, chọn Phần bổ trợ, chọn Analysis ToolPak, chọn Đến

Bước 10: Tick Bổ trợ Trình giải quyết,chọn OK

Bước 11: Chọn Solver trong mục Dữ liệu

Bước 12: Trường Set Objective chọn sum(log(likelihood), trường By Changing Vảiable

Cells chọn Coefficients của 4 hàng, chọn Solve:

Ta thu được phương trình:

Bước 1: Import dữ liệu vào

Bước 2: Dùng hàm glm() để phân tích hồi quy logistic

Trong đó: Estimate là ước số, Std.Error là độ lệch chuẩn, z value bằng thương Estimate chia cho Std.Error và Pr(>|z|) là chỉ số của e.

Từ kết quả trên ta thu được phương trình hồi quy:

2.3.5 Sử dụng ngôn ngữ Python

Bước 1: Nhập thư viện Scikit-learn

Bước 3: Tạo mảng X gồm age, housing, loan và Y là biến term_deposit

Bước 4: Sử dụng hàm LogisticRegression() và fit X, Y

Bước 5: Đưa ra kết quả:

Từ kết quả trên ta thu được phương trình hồi quy:

Cả 3 kiểm nghiệm trên đều thu được phương trình hồi quy:

 Odds ratio của age = 0.9967 Một người có khả năng đăng ký gửi tiền bằng với người  kém hơn 1 tuổi

Odds ratio của housing = 0.5 Một người có khoản vay mua nhà có khả năng đăng ký  tiền gửi thấp hơn 50% so với người không có khoản vay mua nhà

Odds ratio của loan = 0.59 Một người có khoản nợ cá nhân có khả năng đăng ký tiền  gửi thấp hơn 41% so với người không có khoản nợ cá nhân.

 Vậy chỉ có thuộc tính “housing” và “loan” là yếu tố dẫn đến đăng ký tiền gửi.

BẢNG PHÂN CÔNG CÔNG VIỆC

Hồ Thị Hằng Dương Nhật Minh Nguyễn Hoàng

Ngày đăng: 17/08/2023, 10:31

HÌNH ẢNH LIÊN QUAN

Bảng tóm tắt SUMMARY OUTPUT: - Dùng ms excel, ngôn ngữ r và ngôn ngữ python thực hiện các phép tính hồi quy tuyến tính đa biến với tập tin dữ liệu colleges and universities
Bảng t óm tắt SUMMARY OUTPUT: (Trang 16)
BẢNG PHÂN CÔNG CÔNG VIỆC - Dùng ms excel, ngôn ngữ r và ngôn ngữ python thực hiện các phép tính hồi quy tuyến tính đa biến với tập tin dữ liệu colleges and universities
BẢNG PHÂN CÔNG CÔNG VIỆC (Trang 48)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w