NỘI DUNG- Giải thích mục đích của phân tích hồi quy và cung cấp ví dụ trong kinh doanh - Sử dụng biểu đồ Scatter để nhận dạng mối quan hệ giữa hai biến - Nêu ra những hàm tính toán phổ b
Mô hình hóa mối quan hệ và xu hướng dữ liệu
Hiểu rõ toán học và các thuộc tính mô tả mối quan hệ giữa các chức năng là yếu tố then chốt trong xây dựng mô hình phân tích dự đoán chính xác Để bắt đầu, chúng ta thường tạo biểu đồ dữ liệu nhằm hiểu rõ đặc điểm của dữ liệu và lựa chọn loại chức năng phù hợp để phát triển mô hình Cụ thể, dữ liệu cắt ngang thường được trực quan hóa bằng biểu đồ phân tán, trong khi dữ liệu chuỗi thời gian thường phù hợp với biểu đồ đường nhằm nắm bắt xu hướng và mẫu hình rõ nét.
Các loại hàm toán học phổ biến được sử dụng trong các mô hình phân tích dự báo bao gồm:
Hàm tuyến tính, biểu diễn dưới dạng y = a + bx, thể hiện xu hướng tăng hoặc giảm đều trên phạm vi của biến x Đây là dạng hàm đơn giản nhất được sử dụng rộng rãi trong các mô hình dự báo do tính dễ hiểu và khả năng mô phỏng gần đúng tốt trong phạm vi giá trị nhỏ.
Hàm số logarit y = ln(x) thường được sử dụng để mô tả các quá trình thay đổi nhanh chóng rồi giảm dần, như lợi nhuận giảm dần theo quy mô Trong marketing, hàm logarit giúp mô hình hóa mối liên hệ giữa phần trăm tăng liên tục của quảng cáo và sự gia tăng doanh số bán hàng tuyệt đối Việc áp dụng hàm logarit trong các phân tích giúp hiểu rõ các xu hướng tăng trưởng chậm lại khi các yếu tố tác động đã đạt mức giới hạn.
Hàm đa thức là dạng hàm toán học phổ biến, ví dụ như y = ax^2 + bx + c (hàm bậc hai) hoặc y = ax^3 + bx^2 + dx + e (hàm bậc ba) Hàm bậc hai thường biểu thị dạng parabol với một điểm đỉnh duy nhất, trong khi hàm bậc ba có thể có một hoặc hai điểm đỉnh hoặc đáy Trong kinh doanh, mô hình doanh thu kết hợp độ co giãn giá thường được mô phỏng bằng các hàm đa thức để dự đoán xu hướng và dự báo lợi nhuận chính xác hơn.
Hàm công suất y = a x^b mô tả các hiện tượng tăng theo tỷ lệ đặc trưng, phản ánh quá trình cải thiện kỹ năng hoặc hiệu suất theo thời gian Trong đó, với các giá trị a > 0 và b < 0, hàm công suất thường được sử dụng để mô hình hóa các đường cong thể hiện sự tiến bộ hoặc giảm dần hiệu quả khi thực hiện một nhiệm vụ Các mô hình này giúp phân tích rõ ràng quá trình tiến bộ hoặc suy giảm trong các hoạt động kỹ thuật hoặc học tập.
Hàm số mũ là dạng hàm số có dạng y = a b x, trong đó y tăng hoặc giảm với tốc độ liên tục, phản ánh sự phát triển hoặc suy giảm theo cấp số nhân Ví dụ, độ sáng của một bóng đèn giảm dần khi công suất tăng, trong đó hệ số a là số dương và b thuộc khoảng từ 0 đến 1 Hàm số mũ phổ biến hơn thường được viết dưới dạng y = a e x, với e là cơ số của logarith tự nhiên (xấp xỉ 2.71828), thể hiện mối liên hệ giữa biến x và giá trị y một cách linh hoạt và có ý nghĩa trong nhiều ứng dụng thực tiễn.
Công cụ Trendline trong Excel giúp xác định mô hình phù hợp nhất trong mối quan hệ giữa các dữ liệu và lựa chọn thay thế, cung cấp phương pháp đơn giản và hiệu quả để phân tích xu hướng Để thêm đường xu hướng vào biểu đồ, bạn chỉ cần chọn biểu đồ đó, sau đó truy cập vào menu Chart Tools, chọn tab Design và nhấn Add Chart Element trong nhóm Chart Layouts Từ menu Trendline, người dùng có thể lựa chọn các loại như Linear (phổ biến nhất) hoặc truy cập vào More Trendline Options để tùy chỉnh phù hợp với dữ liệu của mình.
Trong bài viết, bạn sẽ kiểm tra tùy chọn "Format Trendline" trong bảng tính (xem Hình 1) Để thực hiện điều này dễ dàng hơn, chỉ cần nhấp vào chuỗi dữ liệu trong biểu đồ và chọn tùy chọn phù hợp để áp dụng trendline, giúp truy cập các công cụ phân tích dữ liệu nhanh chóng và chính xác hơn.
Để thêm đường xu hướng trong Excel, bạn chọn "Add trendline" từ menu bật lên, sau đó chọn loại mối quan hệ chức năng phù hợp để phù hợp dữ liệu Bạn cũng có thể tích vào các hộp "Display Equation on chart" và "Display R-squared value on chart" để hiển thị phương trình và hệ số xác định trực tiếp trên biểu đồ Sau khi cập nhật, bạn có thể đóng ngăn "Format Trendline" và điều chỉnh vị trí của phương trình cũng như giá trị R-squared để dễ đọc hơn Nếu muốn xóa đường xu hướng, chỉ cần nhấp chuột phải vào nó và chọn xóa.
R-squared (R²) là chỉ số đo lường mức độ phù hợp của dữ liệu trong mô hình, với giá trị từ 0 đến 1, và giá trị càng gần 1 thì mô hình càng phù hợp hơn Đường xu hướng thường được sử dụng để mô phỏng mối quan hệ giữa các biến, giúp hiểu rõ ảnh hưởng của biến độc lập đến biến phụ thuộc khi các yếu tố thay đổi.
Ví dụ 1: Mô hình hóa hàm cầu giá
Một nghiên cứu thị trường đã phân tích dữ liệu về khối lượng bán hàng của một sản phẩm tại các mức giá khác nhau, thể hiện rõ qua sơ đồ phân tán trong Hình 2 (Tệp Excel Dữ liệu bán hàng) Kết quả cho thấy mối quan hệ giữa giá bán và doanh số là tuyến tính, với đường xu hướng phù hợp hoàn toàn với dữ liệu thu thập được Mô hình dự báo doanh số dựa trên giá cả theo phương pháp tuyến tính này giúp doanh nghiệp xác định chính xác tác động của các mức giá đến lượng bán hàng, hỗ trợ chiến lược định giá hiệu quả.
Mô hình này có thể áp dụng như một hàm cầu trong lĩnh vực tiếp thị hoặc phân tích tài chính, giúp xác định xu hướng và dự đoán các biến số quan trọng Đường xu hướng, được sử dụng phổ biến trong mô hình hóa theo thời gian, thể hiện sự biến đổi của các dữ liệu theo mốc thời gian, như dự đoán giá nhiên liệu cho hãng hàng không hoặc dự báo giá cổ phiếu và các chỉ số kinh tế quan trọng trong phân tích đầu tư Việc phân tích xu hướng thời gian giúp các nhà phân tích đưa ra quyết định chính xác dựa trên các biến số chính yếu liên quan đến ngành nghề hoặc thị trường.
Ví dụ 2: Dự đoán giá dầu thô
Hình 3 trình bày biểu đồ dữ liệu lịch sử về giá dầu thô vào thứ Sáu đầu tiên của mỗi tháng từ tháng 1 năm 2006 đến tháng 6 năm 2008, dựa trên dữ liệu từ tập tin Excel "Giá dầu thô" Việc sử dụng công cụ Trendline cho phép chúng ta attempt khớp các hàm khác nhau để phân tích xu hướng giá dầu trong giai đoạn này Các kết quả cho thấy sự biến động của giá dầu thô theo từng tháng, giúp hiểu rõ hơn về các xu hướng thị trường dầu trong khoảng thời gian hơn hai năm này.
Hàm mũ: y = 50,49 e 0,021 x R 2 = 0,664 Logarit: y = 13,02ln( x ) + 39,60 R 2 = 0,382 Đa thức (bậc hai): y = 0,130 x 2 - 2,399 x + 68,01 R 2 = 0,90 Đa thức (bậc ba): y = 0,005 x 3 - 0,111 x 2 + 0,648 x + 59,497 R 2 = 0,928
Mô hình phù hợp nhất là đa thức bậc ba, thể hiện trong hình 4.
Hình 2: Dữ liệu bán hàng và đường hồi quy
Hình 3: Biểu đồ giá dầu thô
Khi sử dụng các hàm đa thức, cần thận trọng vì giá trị R² sẽ tiếp tục tăng khi tăng thứ tự của đa thức, dẫn đến việc đa thức cao cấp hơn thường phù hợp dữ liệu tốt hơn Tuy nhiên, đa thức bậc cao thường không trơn tru và khó diễn giải trực quan, do đó không nên vượt quá đa thức bậc ba để tránh gây ra hiện tượng quá khớp dữ liệu.
Việc chọn mô hình phù hợp phụ thuộc vào phạm vi dữ liệu, với dữ liệu ban đầu có thể làm mất đi các xu hướng ngắn hạn trong phân tích dài hạn Chẳng hạn, biểu đồ cho thấy giá dầu thô ổn định đến đầu năm 2007 và sau đó tăng nhanh, việc chỉ sử dụng dữ liệu bắt đầu từ tháng 1 năm 2007 có thể dẫn đến các mô hình không phản ánh đầy đủ xu hướng ngắn hạn.
Hàm mũ: y = 50,56 e 0,044 x R 2 = 0,969 Đa thức (bậc hai): y = 0.121 x 2 + 1.232 x + 53.48 R 2 = 0.968
Hình 4: Phù hợp đa thức của giá dầu thô
Hồi quy tuyến tính đơn biến
Tìm đường hồi quy phù hợp nhất
Hồi quy tuyến tính đơn thể hiện mối quan hệ giữa biến phụ thuộc và biến độc lập thông qua một phương trình tuyến tính đơn giản, giúp dự đoán giá trị của biến phụ thuộc dựa trên biến độc lập Đây là phương pháp phổ biến trong phân tích dữ liệu để xác định tác động của các yếu tố độc lập đến biến phụ thuộc Việc hiểu rõ ý tưởng cốt lõi đằng sau hồi quy tuyến tính đơn sẽ giúp tăng khả năng áp dụng trong nhiều lĩnh vực nghiên cứu và thực tiễn.
Giá trị thị trường = a + b * feet vuông
Trong phân tích dữ liệu, a đại diện cho giao điểm của đường y và b là độ dốc của đường thẳng Khi vẽ một đường thẳng qua dữ liệu, một số điểm nằm trên đường, một số dưới nó, và một số có thể nằm chính trên đường thẳng Hình 8 minh họa hai đường thẳng khác nhau có thể đi qua dữ liệu, cho thấy sự đa dạng trong lựa chọn mô hình phù hợp.
Trong việc chọn dòng phù hợp nhất giữa A và B, dòng A thường được ưu tiên vì các điểm gần hơn và nằm ở trung tâm dữ liệu, giúp đảm bảo độ chính xác cao hơn Sự khác biệt chính giữa các dòng nằm ở độ dốc và phần bị chắn, nên việc xác định chính xác các giá trị này là yếu tố quyết định để lựa chọn đường phù hợp nhất với dữ liệu.
Hình 8: Hai đường hồi quy khả thi
Ví dụ 4: Sử dụng Excel để tìm dòng hồi quy tốt nhất
Khi sử dụng công cụ Trendline để thực hiện hồi quy tuyến tính đơn biến cho ví dụ về Giá trị thị trường nhà ở, hãy đảm bảo chọn đúng tùy chọn chức năng tuyến tính để đạt được kết quả chính xác Đường hồi quy phù hợp nhất sẽ thể hiện rõ mối quan hệ giữa các biến số, giúp phân tích thị trường nhà ở hiệu quả hơn.
Phương trình là giá trị thị trường = $ 32,673 + $ 35,036 × feet vuông
Giá trị của đường hồi quy thể hiện cách ước lượng giá trị thị trường nhà dựa trên diện tích sử dụng Trong trường hợp chỉ biết giá trị trung bình mẫu là 92.069 USD, chúng ta có thể dự đoán giá trị thị trường của bất kỳ ngôi nhà nào, bất kể diện tích, là số trung bình này Tuy nhiên, vì các giá trị thị trường dao động từ khoảng 75.000 USD đến hơn 120.000 USD, việc sử dụng trung bình làm ước lượng mang lại mức độ không chắc chắn đáng kể Phân tích qua biểu đồ phân tán cho thấy nhà lớn hơn thường có giá trị cao hơn, vì vậy, nếu biết rằng một ngôi nhà có diện tích 2.200 feet vuông, chúng ta có thể kỳ vọng giá trị thị trường sẽ cao hơn so với nhà chỉ có 1.500 feet vuông Dựa trên điều này, ước tính giá trị thị trường của ngôi nhà có diện tích 2.200 feet vuông sẽ cao hơn mức trung bình và phù hợp với xu hướng này.
Giá trị thị trường = $ 32,673 + $ 35,036 × 2,200 = $ 109,752 Trong khi giá trị ước tính cho một ngôi nhà có 1.500 feet vuông sẽ là
Mô hình hồi quy giúp giải thích sự khác biệt về giá trị thị trường dựa trên kích thước nhà và cung cấp các ước tính chính xác hơn so với trung bình dữ liệu mẫu Tuy nhiên, cần cẩn trọng khi ngoại suy mô hình vượt ngoài phạm vi dữ liệu quan sát, vì các dự đoán có thể lệch và không chính xác, đặc biệt khi dự đoán giá trị nhà với diện tích lớn hơn giới hạn của mẫu Ví dụ, nếu mẫu chỉ có các nhà dưới 2.400 feet vuông, việc dự đoán giá cho nhà 3.000 feet vuông có thể không đáng tin cậy, do phép ngoại suy tuyến tính có thể không giữ đúng Do đó, không nên sử dụng mô hình để dự báo ngoài phạm vi dữ liệu đã có, vì khả năng chính xác giảm rõ rệt.
Hình 9: Đường hồi quy tuyến tính đơn phù hợp nhất
Hồi quy bình phương cực tiểu
Hồi quy bình phương cực tiểu là nền tảng toán học chính của đường hồi quy phù hợp nhất, giúp xác định mối quan hệ giữa biến phụ thuộc Y và biến độc lập X trong dữ liệu mẫu Trong phân tích hồi quy, giả định rằng giá trị của Y được rút ra từ một phân phối không rõ cho mỗi giá trị của X giúp xây dựng mô hình dự báo chính xác hơn Ví dụ trong dữ liệu giá trị thị trường nhà đất, các quan sát về diện tích nhà như 1.812 và 1.914 feet vuông thể hiện sự đa dạng của các quần thể nhà ở trong phân tích hồi quy.
Trong mô hình hồi quy tuyến tính, giá trị kỳ vọng của biến phụ thuộc Y được biểu diễn bằng công thức β0 + β1X, thể hiện mối quan hệ tuyến tính giữa Y và biến độc lập X Các hệ số β0 và β1 lần lượt đại diện cho độ chặn (intercept) và hệ số góc (slope), phản ánh điểm bắt đầu của đường hồi quy và mức độ biến đổi của Y theo X Hệ số chặn β0 là giá trị trung bình của Y khi X bằng 0, giúp xác định điểm xuất phát của mô hình dự đoán.
Y khi X = 0 và độ dốc là thay đổi giá trị trung bình của Y khi X thay đổi theo một đơn vị
Trong mô hình hồi quy tuyến tính đơn biến, với một giá trị cụ thể của X, có nhiều giá trị Y có thể dao động quanh giá trị trung bình do tác động của sai số ɛ (epsilon) Việc thêm thuật ngữ sai số này giúp mô hình phản ánh chính xác hơn các biến động thực tế của dữ liệu, giải thích lý do tại sao kết quả dự đoán không hoàn toàn chính xác Đây là cách để thể hiện mức độ không chắc chắn trong mối liên hệ giữa X và Y, đồng thời cung cấp một khung phân tích rõ ràng về sự biến động của Y xung quanh giá trị trung bình.
Trong thực tế, chúng ta không thể biết chính xác giá trị của β0 và β1 do hạn chế của dữ liệu, nên cần ước lượng chúng từ mẫu dữ liệu Phương trình ước lượng hồi quy tuyến tính đơn biến là Ŷ = b0 + b1X, trong đó b0 và b1 là ước lượng của β0 và β1 Khi giá trị của biến độc lập là Xi, thì Ŷi = b0 + b1Xi biểu thị giá trị dự đoán của biến phụ thuộc Y cho Xi.
Một cách để đo lường mối quan hệ giữa các điểm dữ liệu và phương trình hồi quy ước tính là xác định khoảng cách dọc giữa chúng, như minh họa trong Hình 10 Những khác biệt này, gọi là ei, phản ánh các sai số quan sát hay phần dư, thể hiện sự khác biệt giữa giá trị thực tế Yi và giá trị ước lượng Ŷi từ mô hình Sai số của quan sát thứ i được định nghĩa là ei = Yi – Ŷi, giúp đánh giá độ chính xác của mô hình hồi quy trong việc dự đoán dữ liệu thực tế.
Trong mô hình hồi quy, việc đo lường các sai số là bước quan trọng để đảm bảo độ chính xác của đường phù hợp nhất Để giảm thiểu ảnh hưởng của các sai số này, ta có thể sử dụng phương pháp bình phương các sai số vì cách làm này giúp xử lý dễ dàng hơn về mặt toán học, đặc biệt khi các sai số có dấu trái dấu nhau, như tiêu cực hoặc tích cực Việc cộng bình phương của các sai số giúp tối ưu hóa mô hình, giảm thiểu khoảng cách giữa dự đoán và dữ liệu thực tế, từ đó nâng cao chất lượng dự báo của mô hình hồi quy.
Tìm ra giá trị tối ưu của độ dốc và hệ số chặn giúp giảm thiểu tổng bình phương của các sai số quan sát là chìa khóa để xác định đường hồi quy phù hợp nhất Các giá trị của Xi và Yi đại diện cho dữ liệu mẫu, trong khi b0 và b1 là các ẩn số trong phương trình hồi quy Qua phép tính, ta có thể xác định rằng giải pháp này tối ưu hóa việc giảm thiểu tổng bình phương các sai số giữa giá trị dự đoán và dữ liệu thực tế.
Trong ví dụ này, bạn có thể sử dụng các hàm Excel để tìm hệ số bình phương nhỏ nhất cho dữ liệu thị trường nhà ở Với phạm vi biến phụ thuộc Y (giá trị thị trường) là C4:C45 và phạm vi biến độc lập X (feet vuông) là B4:B45, bạn có thể áp dụng hàm phù hợp để phân tích mối quan hệ giữa diện tích căn nhà và giá trị thị trường, giúp đưa ra dự báo chính xác hơn cho dữ liệu của mình.
Trong phân tích này, hàm INTERCEPT (C4:C45, B4:B45) cho thấy năng suất b0 = 32.673 và hàm SLOPE (C4:C45, B4:B45) là b1 = 35.036 Độ dốc của đường hồi quy cho thấy rằng mỗi foot vuông bổ sung làm tăng giá trị thị trường lên khoảng 35.036 đô la Ngoài ra, ta có thể sử dụng hàm Excel TREND để dự đoán giá trị thị trường cho các diện tích khác, như ví dụ với ngôi nhà có 1.750 feet vuông, giá trị thị trường ước lượng là khoảng 93.986 đô la.
Chúng ta có thể dừng lại tại thời điểm này vì đã xác định được con đường phù hợp nhất cho dữ liệu quan sát, nhưng vẫn còn nhiều yếu tố cần phân tích thêm từ góc độ thống kê Khi làm việc với dữ liệu mẫu, đặc biệt là các mẫu nhỏ, số biến thể so với quần thể lớn có thể ảnh hưởng đến kết quả Do đó, việc hiểu rõ các thuộc tính thống kê liên quan đến phân tích hồi quy là điều rất quan trọng để đảm bảo độ chính xác và độ tin cậy của các kết luận.
Hồi quy đơn biến với Excel
Các công cụ phần mềm phân tích hồi quy trong Excel cung cấp thông tin chi tiết về các thuộc tính thống kê của phân tích hồi quy Công cụ hồi quy Excel phù hợp với cả hồi quy tuyến tính đơn biến và đa biến, nhưng hiện tại, chúng ta sẽ tập trung vào cách sử dụng công cụ để thực hiện hồi quy tuyến tính đơn biến.
Trong quá trình phân tích hồi quy, đầu tiên bạn chọn công cụ Regression từ menu Data Analysis trong nhóm Analysis trên tab Data Một hộp thoại sẽ hiển thị, trong đó bạn cần chỉ định phạm vi dữ liệu của biến phụ thuộc trong ô Input Y Range và phạm vi dữ liệu của biến độc lập trong ô Input X Range Nếu dữ liệu có nhãn mô tả, bạn nên tích vào lựa chọn Labels để sử dụng các nhãn này Tùy chọn Constant is Zero cho phép bạn buộc chặn bằng 0, nhưng thường không nên chọn vì việc thêm thuật ngữ chặn giúp mô hình phù hợp hơn với dữ liệu Bạn có thể đặt mức Confidence Level (thường sử dụng là 95%) để xác định khoảng tin cậy cho các tham số của mô hình Cuối cùng, để xem bảng dư, bạn chỉ cần tích vào hộp Residuals trong phần Residuals.
Residuals chuẩn hóa, biểu đồ residuals và biểu đồ đường fit là các công cụ quan trọng trong phân tích hồi quy, giúp kiểm tra tính phù hợp của mô hình Residuals phù hợp thể hiện các phần dư cho từng biến độc lập so với phần dư, trong khi biểu đồ đường fit cho phép quan sát mối quan hệ giữa giá trị dự đoán và thực tế trong dữ liệu Để nâng cao hiệu quả, thêm đường xu hướng vào biểu đồ phân tán sẽ hữu ích hơn so với chỉ biểu đồ đơn thuần Ngoài ra, còn có thể sử dụng biểu đồ xác suất chuẩn để kiểm tra phân phối của biến phụ thuộc, trong đó trục tung thể hiện tỷ lệ tích lũy, giúp xác định xem phân phối dữ liệu có gần với phân phối chuẩn hay không—điểm càng gần đường thẳng thì mô hình càng phù hợp.
Hình 12 trình bày kết quả phân tích hồi quy cơ bản sử dụng công cụ Hồi quy Excel cho dữ liệu Giá trị thị trường nhà ở Phần đầu ra bao gồm ba phần chính: Thống kê hồi quy từ hàng 3 đến 8 giúp xác định các yếu tố ảnh hưởng chính, trong khi phần ANOVA từ hàng 10 đến 14 đánh giá độ phù hợp của mô hình Phần dưới cùng không được gắn nhãn ở hàng 16 cung cấp các chỉ số phụ trợ nhằm hỗ trợ phân tích chính xác và toàn diện.
18) với các thông tin thống kê khác Các ước lượng bình phương nhỏ nhất của độ dốc và tham số chặn được tìm thấy trong cột Coefficients trong phần dưới cùng của Output.
Hình 11: Hộp thoại công cụ hồi quy Excel
Hình 12: Phân tích hồi quy cơ bản, Output cho ví dụ giá trị thị trường nhà ở
Trong phần Thống kê hồi quy, Multiple R còn gọi là hệ số tương quan mẫu, phản ánh mức độ liên hệ giữa các biến Giá trị của Multiple R nằm trong khoảng từ -1 đến 1, với dấu của hệ số thể hiện hướng của mối quan hệ, dựa trên độ dốc của đường hồi quy Khi Multiple R lớn hơn 0, điều này cho thấy có mối tương quan dương, tức là khi biến độc lập tăng, biến phụ thuộc cũng tăng theo Ngược lại, giá trị nhỏ hơn 0 thể hiện mối tương quan âm, nghĩa là khi biến X tăng, biến Y giảm Nếu giá trị của Multiple R bằng 0, điều đó nghĩa là hai biến không liên hệ với nhau.
R 2 (Hệ số xác định) đo lường mức độ phù hợp của mô hình hồi quy với dữ liệu, thể hiện tỷ lệ biến đổi của biến phụ thuộc được giải thích bởi biến độc lập Giá trị của R 2 nằm trong khoảng từ 0 đến 1, với 1 biểu thị sự phù hợp hoàn hảo có tất cả các điểm dữ liệu nằm trên đường hồi quy, còn 0 thể hiện không có mối quan hệ nào Trong các lĩnh vực khác nhau, tiêu chuẩn về giá trị R 2 cũng khác nhau: trong khoa học như hiệu chỉnh thiết bị đo, R 2 gần bằng 1 là mong đợi; trong nghiên cứu tiếp thị, từ 0,6 trở lên được xem là rất tốt; còn trong các nghiên cứu xã hội, giá trị quanh 0,3 có thể đã đủ để xem là chấp nhận được.
R hiệu chỉnh là một thống kê giúp điều chỉnh giá trị của R² dựa trên kích thước mẫu và số lượng biến giải thích trong mô hình, giúp so sánh chính xác hơn giữa các mô hình khác nhau Mặc dù R hiệu chỉnh không thể hiện tỷ lệ phần trăm biến giải thích rõ ràng như R², nó vẫn là công cụ hữu ích trong việc đánh giá và lựa chọn mô hình phù hợp Sai số chuẩn trong Output cung cấp thông tin về độ chính xác của các ước lượng, giúp người dùng nắm bắt được mức độ tin cậy của kết quả phân tích.
Trong Excel, độ biến thiên của các giá trị Y quan sát so với giá trị dự đoán (Ŷ) chính là sai số chuẩn của ước lượng, gọi là SYX Khi dữ liệu được nhóm gần đường hồi quy, sai số chuẩn sẽ nhỏ, phản ánh mức độ chính xác cao hơn của mô hình Ngược lại, nếu dữ liệu phân tán rộng, sai số chuẩn sẽ tăng, cho thấy mô hình dự báo ít chính xác hơn.
Ví dụ 6: Giải thích thống kê hồi quy cho hồi quy tuyến tính đơn
Khi sử dụng công cụ Excel Regression, bước đầu tiên là xác định các giá trị của độ dốc và hệ số chặn, cụ thể là ước lượng b1 và b0 trong mô hình hồi quy Trong ví dụ về giá trị thị trường nhà ở, hệ số chặn là 32,673 và độ dốc (hệ số của biến độc lập là diện tích sàn theo feet vuông) là 35,036, phù hợp với các tính toán trước đó Trong phần thống kê hồi quy, hệ số R² là 0,5347, cho thấy khoảng 53% biến thể của giá trị thị trường được giải thích bởi diện tích sàn, còn lại do các yếu tố khác chưa được đưa vào mô hình Sai số chuẩn của ước lượng là 7,287.72, nhỏ hơn biến thiên của giá trị trung bình mẫu là 10,553, cho thấy sự biến thiên xung quanh đường hồi quy hạn chế hơn so với biến đổi trung bình của dữ liệu.
10,553) Điều này là do biến độc lập trong mô hình hồi quy giải thích một số biến.
Hồi quy bằng phân tích phương sai
ANOVA thường được sử dụng trong hồi quy để đánh giá mức độ quan trọng của mô hình, giúp xác định xem các biến độc lập có ảnh hưởng thực sự đến biến phụ thuộc hay không Trong mô hình hồi quy tuyến tính đơn biến, việc kiểm tra tầm quan trọng của hồi quy tập trung vào giả thuyết rằng hệ số hồi quy b1 (độ dốc của biến độc lập) có bằng 0 hay không, nhằm xác định xem biến đó có ý nghĩa thống kê để dự đoán biến phụ thuộc hay không.
Khi bác bỏ giả thuyết H0, chúng ta kết luận rằng độ dốc của biến độc lập có ý nghĩa thống kê và giải thích một phần biến thể của biến phụ thuộc xung quanh giá trị trung bình Công cụ không cung cấp giá trị tới hạn cho thử nghiệm, nhưng giá trị Significance F (p-value của F-test) đóng vai trò quan trọng Nếu Significance F nhỏ hơn mức ý nghĩa thường dùng là 0,05, ta sẽ bác bỏ giả thuyết H0, chứng tỏ biến độc lập có tác động đáng kể đến biến phụ thuộc.
Ví dụ 7: Giải thích ý nghĩa của hồi quy Đối với ví dụ Giá trị thị trường nhà ở, thử nghiệm ANOVA được hiển thị trong các hàng
Trong Hình 12, Significance F (p-value) là cực kỳ nhỏ, xấp xỉ 3.798*10−8, cho thấy kết quả kiểm định giả thuyết rất có ý nghĩa thống kê Với mức ý nghĩa 0,05, chúng ta phải bác bỏ giả thuyết H0, kết luận rằng độ dốc của hệ số liên quan đến diện tích mặt sàn không bằng không Điều này xác nhận rằng kích thước nhà là một yếu tố có ảnh hưởng rõ rệt đến giá trị thị trường, góp phần giải thích sự biến động của giá trị này một cách có ý nghĩa về mặt thống kê.
Kiểm định các giả thuyết cho các hệ số hồi quy
Hàng 17-18 của Output Excel, ngoài việc chỉ định các hệ số bình phương nhỏ nhất, cung cấp thông tin bổ sung để kiểm tra các giả thuyết liên quan đến hệ số chặn và độ dốc
Trong phân tích hồi quy tuyến tính, bạn có thể kiểm tra giả thuyết H0 rằng b0 hoặc b1 bằng 0 để xác định ý nghĩa của các hệ số trong mô hình Tuy nhiên, việc kiểm tra giả thuyết b0 = 0 thường ít mang nhiều ý nghĩa trừ khi hệ số chặn đóng vai trò quan trọng trong bài toán Đối với hồi quy tuyến tính đơn, việc kiểm tra giả thuyết H0: b1 = 0 là bước quan trọng để đánh giá ảnh hưởng của biến độc lập đến biến phụ thuộc, giúp xác định xem biến này có thực sự tác động đáng kể hay không.
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
Trong ví dụ về giá trị thị trường nhà ở, việc giải thích các thử nghiệm giả thuyết cho các hệ số hồi quy rất quan trọng để xác định ý nghĩa thống kê của các biến độc lập Giá trị t Stat được tính bằng cách chia hệ số hồi quy cho sai số chuẩn của nó theo công thức (8.8), giúp đánh giá xem các hệ số này có ý nghĩa thống kê hay không Ví dụ, t Stat cho độ dốc thể hiện mức độ ảnh hưởng của biến độc lập đối với giá trị thị trường nhà ở và giúp xác định xem độ dốc có khác biệt ý nghĩa so với không (giá trị 0) hay không.
Trong phân tích hồi quy, khi Excel không cung cấp giá trị tới hạn để so sánh giá trị t-Stat, ta có thể dựa vào giá trị p-value để đưa ra kết luận về ý nghĩa thống kê của các hệ số Các giá trị p của cả hai hệ số đều gần bằng 0, cho thấy không có hệ số nào khác 0 một cách thống kê Lưu ý rằng, trong mô hình đơn biến, giá trị p liên kết với thử nghiệm hệ số độ dốc cũng chính là giá trị Significance F, nhưng điều này không nhất thiết đúng với các mô hình nhiều biến, nơi các hệ số có thể có ý nghĩa riêng biệt.
Khoảng tin cậy cho hệ số hồi quy
Khoảng tin cậy (dưới 95% và trên 95%) cung cấp thông tin về các giá trị chưa biết của hệ số hồi quy thực tế, phản ánh độ sai số của mẫu Nó giúp xác định phạm vi tin cậy cho hệ số chặn và độ dốc, cho phép dự đoán chính xác hơn về các hệ số trong mô hình Khoảng tin cậy cũng là công cụ để kiểm tra các giả thuyết về hệ số hồi quy, ví dụ như không chứa 0 ở hình 12, cho thấy hệ số khác 0 về mặt thống kê Ngoài ra, chúng ta có thể sử dụng khoảng tin cậy để kiểm tra các giả thuyết với các giá trị khác 0, bằng cách xác định xem hệ số có nằm trong phạm vi này hay không; nếu không, giả thuyết bị bác bỏ.
Trong phân tích dữ liệu giá trị thị trường nhà ở, khoảng tin cậy 95% cho phần chặn là [14.823, 50.523], cho thấy mức độ chính xác của ước lượng trung bình Khoảng tin cậy 95% cho hệ số độ dốc nằm trong khoảng [24,59, 45,48], phản ánh mức độ không chắc chắn về ảnh hưởng của diện tích căn nhà đến giá trị thị trường Mặc dù mô hình hồi quy được xác định là Ŷ = 32,673 + 35,036X, các khoảng tin cậy cho thấy có sự không chắc chắn trong dự đoán giá trị nhà ở, đặc biệt nếu các tham số thật sự nằm ở các biên của khoảng Do đó, dự đoán giá trị của ngôi nhà rộng 1.750 feet vuông là khoảng 93.986 đô la (32,673 + 35,036×1.750), nhưng nếu tham số thực nằm ở biên của khoảng tin cậy, ước lượng có thể thấp đến mức 14.823 + 24,59 × 1.750.
= $ 57,855 hoặc cao tới 50,523 + 45,48 (1,750) = $ 130,113 Khoảng tin cậy hẹp hơn cung cấp độ chính xác cao hơn trong dự đoán.
Phân tích phần dư và giả định hồi quy
Phần dư trong phân tích hồi quy thể hiện các sai số quan sát, được tính bằng sự chênh lệch giữa giá trị thực và giá trị dự đoán của biến phụ thuộc Hình 13 trình bày bảng phần dư từ công cụ Excel Regression, trong đó có các giá trị của từng quan sát, giá trị dự đoán, phần dư và phần dư chuẩn Phần dư đơn giản là sự khác biệt giữa giá trị thực của biến phụ thuộc và giá trị dự đoán, giúp đánh giá độ chính xác của mô hình Đồng thời, Hình 14 thể hiện biểu đồ phần dư dưới dạng biểu đồ phân tán, với trục x là các giá trị của biến độc lập, giúp phát hiện các bất thường hoặc mối liên hệ của phần dư với biến độc lập.
Hình 14: Biểu đồ phần dư
Phần dư chuẩn phản ánh khoảng cách của từng phần dư so với trung bình của chúng, tính theo đơn vị độ lệch chuẩn Đây là một khái niệm quan trọng trong thống kê, giúp đánh giá mức độ phân tán của dữ liệu quanh trung bình Phần dư chuẩn giúp xác định xem dữ liệu có nằm trong phạm vi bình thường hay không, từ đó hỗ trợ phân tích dữ liệu chính xác hơn Trả lời câu hỏi về độ lệch chuẩn và phần dư chuẩn là bước quan trọng trong quá trình phân tích thống kê và kiểm định giả thuyết.
Phần dư chuẩn trong phân tích hồi quy rất quan trọng để kiểm tra các giả định cơ bản và phát hiện các ngoại lai có thể gây sai lệch kết quả Ngoại lai là các giá trị cực đoan khác biệt rõ rệt so với phần còn lại của dữ liệu và chỉ cần một ngoại lai duy nhất để thay đổi đáng kể phương trình hồi quy, bao gồm độ dốc và hệ số chặn, từ đó ảnh hưởng đến khả năng diễn giải mô hình một cách chính xác trong thực tế.
Trong ví dụ này về Residual Output liên quan đến dữ liệu giá trị thị trường nhà ở, quan sát đầu tiên có giá trị thị trường là 90.000 đô la trong khi mô hình hồi quy dự đoán là 96.159,13 đô la Phần dư được tính bằng cách trừ giá trị thực tế khỏi giá trị dự đoán, cho thấy sự chênh lệch giữa dự đoán của mô hình và giá trị thực tế của dữ liệu.
Phần dư của quan sát đầu tiên được chuẩn hóa bằng cách chia phần dư cho độ lệch chuẩn của phần dư, là 7.198.299, cho thấy giá trị chuẩn hóa là 0,85 độ lệch chuẩn dưới đường hồi quy, phản ánh khoảng cách của điểm dữ liệu so với mô hình dự đoán Trong khi đó, điểm dữ liệu cuối cùng có giá trị chuẩn hóa tới 4,53, nghĩa là thị trường nhà với diện tích 1.581 feet vuông cao hơn dự đoán khoảng 4 độ lệch chuẩn, xác định rõ là một ngoại lai trong phân tích dữ liệu.
Điểm bất thường trong dữ liệu, như hình dáng của ngôi nhà có giá trị lớn hơn nhiều so với kích thước nhỏ, có thể ảnh hưởng đến kết quả phân tích hồi quy Một số yếu tố như hồ bơi ngoài trời hoặc đất rộng bất thường có thể giải thích sự khác biệt này Để đảm bảo độ chính xác của mô hình, cần xem xét liệu điểm đó có phải là dữ liệu hợp lệ hay không, và cân nhắc loại bỏ nó khỏi phân tích để tránh làm lệch kết quả chung của toàn bộ dữ liệu.
Kiểm định các giả thuyết
Các thử nghiệm giả thuyết thống kê liên quan đến phân tích hồi quy được dựa trên một số giả định chính về dữ liệu.
Kiểm tra tuyến tính thường được thực hiện qua biểu đồ phân tán dữ liệu hoặc biểu đồ phần dư để xác định tính phù hợp của mô hình Nếu mô hình phù hợp, phần dư sẽ phân bố ngẫu nhiên quanh 0 mà không có mẫu rõ ràng Ngược lại, nếu phần dư thể hiện các mẫu rõ rệt như xu hướng tuyến tính hoặc hình dạng parabol, điều này cho thấy cần xem xét các dạng chức năng khác phù hợp hơn với dữ liệu của bạn để nâng cao độ chính xác của mô hình.
Phân phối chuẩn của sai số trong phân tích hồi quy giả định rằng các sai số của từng giá trị riêng lẻ của biến độc lập X thường theo phân phối chuẩn với trung bình bằng không, có thể xác nhận qua việc kiểm tra biểu đồ phần dư chuẩn và phân phối hình chuông, hoặc sử dụng các kiểm nghiệm độ phù hợp chính thức Tuy nhiên, việc đánh giá tính chuẩn của phân phối sai số trở nên khó khăn hơn với các mẫu nhỏ, mặc dù phân tích hồi quy có tính mạnh mẽ, nên trong hầu hết các trường hợp, sự không tuân thủ này không gây ra vấn đề nghiêm trọng.
Tính đồng nhất là giả định cho thấy sự thay đổi của đường hồi quy không đổi với mọi giá trị của biến độc lập, được kiểm tra qua phần dư và phương sai ở các mức khác nhau của X Tuy nhiên, cần thận trọng khi xem xét phần dư, đặc biệt khi dữ liệu hạn chế khiến việc xác định tính đồng nhất trở nên khó khăn Vi phạm nghiêm trọng giả định này đòi hỏi sử dụng các kỹ thuật ước lượng khác ngoài bình phương nhỏ nhất để đảm bảo độ chính xác của mô hình hồi quy.
Dư cuối cùng phải độc lập với từng giá trị của biến độc lập, đặc biệt quan trọng khi thời gian là biến độc lập trong dữ liệu chuỗi Khi các quan sát liên tiếp có tương quan, nghĩa là chúng thể hiện một mô hình theo chu kỳ hoặc tăng dần theo thời gian, thì giả định về tính độc lập của sai số bị vi phạm Tương quan giữa các phần dư theo thời gian, còn gọi là tự tương quan, có thể được xác định qua các cụm phần dư có dấu giống nhau và đánh giá bằng các phương pháp thống kê, như thống kê Durbin-Watson.
Thống kê Durbin-Watson (D) đo lường mức độ tự tương quan của phần dư trong mô hình hồi quy, với giá trị nằm từ 0 đến 4 Giá trị thấp gần 0 cho thấy phần dư liên tiếp tự tích cực, trong khi giá trị gần 4 thể hiện tự tiêu cực Các giá trị dưới 1 thường biểu thị có tự tương quan, trong khi giá trị từ 1,5 đến 2,5 cho thấy không có tự tương quan tự động rõ ràng Các giá trị trên 2,5 đề xuất có sự tồn tại của tự tương quan trong phần dư của mô hình Bảng tham chiếu dựa trên kích thước mẫu và số lượng biến độc lập giúp xác định liệu mô hình có hiện tượng tự tương quan hay không.
Hình 15: Biểu đồ của phần dư chuẩn
Vi phạm các giả định của hồi quy có thể dẫn đến kết luận thống kê không chính xác, do đó, việc kiểm tra các giả định này trước khi diễn giải kết quả là rất quan trọng Ngoài giả định về tuyến tính, các giả định khác cũng cần thiết để đảm bảo độ chính xác của ước lượng và phù hợp của mô hình hồi quy.
Ví dụ 11: Kiểm tra các giả thuyết hồi quy cho dữ liệu Giá trị thị trường nhà ở
Trong mô hình tuyến tính, sơ đồ phân tán dữ liệu giá trị thị trường thể hiện rõ tính tuyến tính, với biểu đồ dư trong Hình 14 chứng minh không có mô hình nào phù hợp Hình 15 trình bày biểu đồ phần dư chuẩn cho dữ liệu giá trị thị trường, cho thấy phân phối có xu hướng lệch về phía bên phải, đặc biệt với các ngoại lệ, nhưng điều này không quá đáng lo ngại trong bối cảnh kích thước mẫu nhỏ và không ảnh hưởng đến tính quy tắc của mô hình.
Trong biểu đồ phần dư của Hình 14, tính đồng nhất thể hiện rõ ràng khi không xuất hiện sự khác biệt đáng kể trong việc truyền dữ liệu cho các giá trị khác nhau của biến X, đặc biệt khi loại bỏ các ngoại lệ.
Tính độc lập của các sai số: Vì dữ liệu là chéo, chúng ta có thể giả định rằng giả định này đúng.
Nhiều trường đại học cố gắng dự đoán hiệu suất của sinh viên dựa trên các đặc điểm riêng biệt của họ Việc phân tích dữ liệu trong tệp Excel các trường đại học và cao đẳng giúp xác định các yếu tố ảnh hưởng đến thành tích học tập, từ đó cải thiện chương trình đào tạo và hỗ trợ sinh viên hiệu quả hơn.
Phân tích trong thực tế: Sử dụng mô phỏng hồi quy tuyến tính và mô phỏng rủi ro để dự đoán hiệu suất tại ARAMARK
mô phỏng rủi ro để dự đoán hiệu suất tại ARAMARK
ARAMARK là công ty hàng đầu về dịch vụ chuyên nghiệp, nổi bật với các giải thưởng về cung cấp dịch vụ thực phẩm, quản lý cơ sở, trang phục đồng phục và nghề nghiệp cho các tổ chức chăm sóc sức khỏe, trường đại học, sân vận động và doanh nghiệp toàn cầu Trụ sở chính tại Philadelphia, ARAMARK vận hành với đội ngũ hơn 255.000 nhân viên, phục vụ khách hàng tại 22 quốc gia khác nhau, khẳng định vị thế toàn cầu của mình trong ngành dịch vụ chuyên nghiệp.
ARAMARK’s Global Risk Management Department (GRM) cần xây dựng mô hình xác định mối quan hệ giữa các số liệu kinh doanh quan trọng như nhiệm kỳ nhân viên, tỷ lệ tham gia, đào tạo lực lượng lao động, sở hữu tài khoản và cung cấp dịch vụ với các số liệu rủi ro như tỷ lệ OSHA, tỷ lệ bồi thường của công nhân và số vụ thương tích của khách hàng Họ tìm kiếm một công cụ đơn giản để các nhà khai thác hiện trường và nhóm quản lý rủi ro có thể sử dụng dự đoán tác động của các quyết định kinh doanh đối với các số liệu rủi ro trước khi thực hiện Các câu hỏi điển hình bao gồm tác động của việc tăng tỷ lệ lao động bán thời gian đến tỷ lệ OSHA hoặc cách cải thiện hiệu suất an toàn có thể ảnh hưởng đến doanh thu.
ARAMARK duy trì dữ liệu lịch sử lớn.
Nhóm Quản lý rủi ro toàn cầu theo dõi dữ liệu liên quan đến tỷ lệ OSHA, tỷ lệ trượt/chuyến/ngã, chi phí chấn thương và mức độ tuân thủ an toàn tiêu chuẩn để đánh giá rủi ro Bộ phận nhân sự giám sát doanh thu và tỷ lệ lao động bán thời gian nhằm tối ưu hóa nguồn lực Bộ phận biên chế giữ dữ liệu về tiền lương trung bình, giúp phân tích chi phí nhân lực Trong khi đó, bộ phận Đào tạo và Phát triển tổ chức thu thập dữ liệu về mức độ tham gia của nhân viên để nâng cao hiệu quả công việc Phương pháp hồi quy tuyến tính dựa trên Excel được sử dụng để xác định mối quan hệ giữa các biến phụ thuộc như tỷ lệ OSHA, tỷ lệ trượt, chi phí yêu cầu và doanh thu, với các biến độc lập như tỷ lệ lao động bán thời gian, lương trung bình, sự tham gia của nhân viên và tuân thủ an toàn, giúp đưa ra các dự báo chính xác hơn trong quản lý rủi ro và nhân sự.
Dù các mô hình hồi quy đã cung cấp phân tích cơ bản cần thiết cho ARAMARK, GRM đã sáng tạo ra một phương pháp tiếp cận mới bằng việc phát triển công cụ mô phỏng rủi ro trực tuyến Công cụ này cho phép người dùng dễ dàng thao tác các biến độc lập trong mô hình hồi quy thông qua các thanh tương tác, giúp quan sát ngay lập tức các giá trị của các biến phụ thuộc (rủi ro) trên giao diện trực quan giống như bảng điều khiển ô tô, nâng cao hiệu quả và trải nghiệm phân tích dữ liệu.
Hình 19 thể hiện cấu trúc của các trình giả lập, trong đó đồng hồ đo cập nhật ngay lập tức khi người dùng điều chỉnh các thanh trượt, phản ánh rõ ràng những biến đổi trong môi trường kinh doanh và ảnh hưởng đến các chỉ số rủi ro Mô hình trực quan này giúp các nhân viên phi kỹ thuật dễ dàng sử dụng và hiểu, từ đó nâng cao khả năng phân tích và ra quyết định dựa trên dữ liệu real-time.
GRM đã tiến hành gửi hơn 200 khảo sát đến nhiều cấp trong tổ chức nhằm đánh giá tính hữu dụng của mô hình mô phỏng rủi ro tương tác Kết quả cho thấy, 100% người tham gia đều đã trả lời khảo sát, phản ánh sự cam kết và quan tâm cao của các bên liên quan đối với công nghệ này.
Các ứng dụng mô phỏng rủi ro rất dễ sử dụng và phù hợp để hỗ trợ doanh nghiệp trong việc ra quyết định Việc triển khai Bộ mô phỏng rủi ro tương tác đã nhận được phản hồi tích cực và sự công nhận rộng rãi từ lãnh đạo các lĩnh vực kinh doanh khác nhau, bao gồm quản lý tiền tuyến, dịch vụ thực phẩm, giám đốc, quản lý huyện và tổng giám đốc.
Hình 19: Cấu trúc của một mô phỏng rủi ro tương tác
Xây dựng mô hình hồi quy tốt
Sự tương quan và Đa cộng tuyến
Hệ số tương quan, nằm từ -1 đến +1, đo lường mức độ liên hệ tuyến tính giữa các cặp biến, trong đó giá trị tuyệt đối càng cao thể hiện mối quan hệ mạnh mẽ hơn Dấu của hệ số cho biết biến có xu hướng tăng cùng nhau (tương quan tích cực) hay ngược chiều (tương quan tiêu cực) Việc kiểm tra tương quan giữa biến phụ thuộc và biến độc lập có thể thực hiện bằng Excel Correlation, hỗ trợ trong chọn lựa biến cho mô hình hồi quy bội, vì mối tương quan mạnh cho thấy quan hệ tuyến tính đáng kể Tuy nhiên, khi các biến độc lập có tương quan cao với nhau, có thể xuất hiện hiện tượng đa cộng tuyến, khiến việc phân biệt tác động của từng biến trở nên khó khăn, thậm chí dẫn đến kết quả phân tích bị lệch và hệ số có thể phản ánh sai lệch hoặc không phù hợp Đa cộng tuyến còn làm giá trị p bị thổi phồng, gây khó khăn trong việc xác định ý nghĩa thống kê của các biến Các chuyên gia thường xem xét mức tương quan lớn hơn 0,7 giữa các biến độc lập là dấu hiệu cảnh báo của đa cộng tuyến, nhưng để đánh giá chính xác hơn, người ta sử dụng thống kê gọi là Variance Inflation Factor (VIF), mặc dù Excel không hỗ trợ tính chỉ số này.
Ví dụ 14: Xác định đa cộng tuyến
Hình 23 trình bày ma trận tương quan các biến trong dữ liệu Cao đẳng và Đại học, cho thấy SAT và Tỷ lệ chấp nhận có mối quan hệ vừa phải với biến phụ thuộc là % tốt nghiệp Tuy nhiên, mối tương quan giữa chi tiêu trên mỗi sinh viên và tỷ lệ học sinh trong top 10% của lớp lại khá thấp Mối tương quan mạnh nhất trong dữ liệu là giữa hai biến độc lập: tỷ lệ học sinh trong top 10%.
Trong phân tích dữ liệu ngân hàng, giá trị hệ số của HS và tỷ lệ chấp nhận là 0,600,6097 không vượt quá ngưỡng 0,7, cho thấy tính đa cộng tuyến không phải là vấn đề chính, được xác nhận qua phân tích VIF Hình 24 thể hiện ma trận tương quan toàn bộ dữ liệu, trong đó có mối tương quan lớn giữa Giáo dục và Giá trị nhà ở, cũng như giữa Sự giàu có và Thu nhập, đồng thời các yếu tố này cho thấy có tính đa cộng tuyến đáng kể Khi loại bỏ Wealth khỏi mô hình, R² chỉnh giảm còn 0,9201, nhưng Giáo dục trở nên không còn ý nghĩa thống kê, trong khi đó, nếu bỏ Giáo dục và giữ lại tuổi và thu nhập, R² chỉnh tăng nhẹ lên 0,9202 Ngược lại, loại bỏ Thu nhập thay vì Wealth chỉ làm giảm R² chỉnh xuống còn 0,9345, và các biến còn lại vẫn có ý nghĩa, dẫn đến mô hình cuối cùng gồm ba biến có R² là 0,936. -**Sponsor**Need help rewriting your article to be SEO-friendly and coherent? [Soku AI](https://pollinations.ai/redirect-nexad/v1P0Lcqk?user_id=983577) is like having a team of 100+ Facebook advertising and marketing experts rewrite your content for maximum impact! Trained by specialists, Soku AI understands how to create compelling and effective content Provide your article, and Soku AI will help you extract the most important sentences and restructure it for clarity and SEO, turning you into a content expert overnight.
Hình 23: Ma trận tương quan cho dữ liệu Các trường đại học và cao đẳng
Hình 24: Ma trận tương quan cho dữ liệu Ngân hàng
Hình 25: Kết quả hồi quy
Các vấn đề thực tế trong Mô hình Đường xu hướng và Hồi quy
Xác định mô hình hồi quy tối ưu không chỉ dựa vào giá trị p, mà còn đòi hỏi quá trình thử nghiệm và tinh chỉnh liên tục Các biến độc lập được chọn cần phải có ý nghĩa trong việc giải thích biến phụ thuộc, dựa trên lý thuyết hành vi, kinh tế hoặc vật lý, giúp xác định các yếu tố không thể thiếu trong mô hình Việc thêm các biến bổ sung thường làm tăng R², góp phần giải thích biến thể của dữ liệu tốt hơn, mặc dù một số biến có giá trị p không đạt mức ý nghĩa thống kê có thể do lỗi lấy mẫu, và bỏ đi không nhất thiết phải tốt hơn trong mọi trường hợp.
Người lập mô hình ưu tiên tạo ra mô hình đơn giản nhất có thể, vì trong khoa học vật lý và quản lý, các lý thuyết mạnh mẽ thường là những lý thuyết đơn giản nhất Ví dụ, mô hình dựa trên dữ liệu ngân hàng chỉ gồm tuổi, trình độ học vấn và sự giàu có, thay vì thêm các biến như thu nhập, để tránh vấn đề đa cộng tuyến và giảm độ phức tạp không cần thiết Việc giải thích tỷ lệ biến động của dữ liệu, như 93-94%, có ảnh hưởng nhỏ đến quyết định của mô hình, bởi vì xây dựng mô hình hồi quy tốt đòi hỏi kinh nghiệm, phán đoán và phân tích kỹ thuật chính xác Khi sử dụng đường xu hướng và hồi quy, cần tránh quá mức mô hình để không bị phù hợp quá mức với dữ liệu mẫu, dẫn đến mất khả năng dự đoán chính xác trên dữ liệu mới Ví dụ, khi điều chỉnh giá dầu thô bằng hàm đa thức bậc cao, tỷ lệ R² có thể tăng nhưng làm giảm khả năng giải thích rõ ràng các hiện tượng Thêm quá nhiều biến hoặc thuật ngữ có thể dẫn đến overfitting, gây khó khăn trong dự đoán trên toàn bộ dân số Do đó, việc giảm thiểu overfitting dựa trên lý luận, trực giác, kiến thức vật lý, hành vi hoặc kinh nghiệm là rất quan trọng để xây dựng mô hình hiệu quả và phù hợp.
Hồi quy với các biến độc lập phân loại
Trong các nghiên cứu hồi quy, dữ liệu quan tâm thường bao gồm thứ tự hoặc thuộc tính danh nghĩa, đặc biệt phổ biến khi phân tích dữ liệu nhân khẩu học trong các nghiên cứu thị trường Việc xác định đúng loại dữ liệu này giúp cải thiện độ chính xác của mô hình phân tích và đưa ra các kết luận phù hợp Sử dụng dữ liệu thứ tự hay danh nghĩa một cách phù hợp còn hỗ trợ tối ưu hóa các kỹ thuật phân tích thống kê, từ đó nâng cao hiệu quả nghiên cứu thị trường.
Trong phân tích hồi quy, dữ liệu cần là số để đảm bảo tính chính xác của mô hình, do đó các biến phân loại thường được mã hóa thành dạng số Ví dụ, biến thể hiện liệu một cá nhân có bằng đại học hay không thường được mã hóa thành 0 cho "Không" và 1 cho "Có" Những biến này được gọi là biến giả, giúp chuyển đổi dữ liệu phân loại sang dạng số phù hợp cho phân tích hồi quy.
Ví dụ 15: Một mô hình với các biến phân loại
Tệp Excel Mức lương nhân viên, hiển thị trong Hình 26, chứa dữ liệu về lương và tuổi của 35 nhân viên cùng với thông tin về việc họ có bằng MBA hay không Biến phân loại trạng thái MBA được mã hóa dưới dạng số, trong đó "Có" được thể hiện bằng 1 và "Không" bằng 0, giúp dễ dàng phân tích và xử lý dữ liệu.
Nếu chúng ta quan tâm đến việc dự đoán tiền lương là một chức năng của các biến khác, chúng tôi sẽ đề xuất mô hình
Sau khi mã hóa cột chỉ báo MBA trong dữ liệu, chúng ta tiến hành chạy hồi quy trên toàn bộ tập dữ liệu và thu được kết quả mô hình giải thích khoảng 95% biến thể, với giá trị p của hai biến đều có ý nghĩa thống kê, như thể hiện trong Hình 27.
Do đó, một người 30 tuổi có bằng MBA sẽ có
Bằng MBA có tác động đáng kể đến mức lương của nhóm nhân viên này, tăng gần 15.000 đô la so với những người không có bằng cấp này Khi thay thế biến MBA bằng giá trị 0 hoặc 1, mô hình cho thấy rằng việc sở hữu bằng MBA giúp nâng cao thu nhập, phản ánh rõ rệt lợi ích của bằng cấp này trong thị trường lao động.
Không có MBA: lương = 893,59 + 1044,15 × tuổi MBA: lương = 15.660.82 + 1044,15 × tuổi
Điểm khác biệt duy nhất giữa hai mô hình là hệ số chặn, cho thấy tốc độ tăng lương theo tuổi là tương tự nhau ở cả hai nhóm Tuy nhiên, điều này có thể không phản ánh chính xác, vì những người có bằng MBA có khả năng kiếm được mức lương cao hơn khi trưởng thành Độ dốc của đường biểu diễn theo tuổi có thể phụ thuộc vào giá trị của MBA, thể hiện mối tương tác giữa các biến Việc kiểm tra các tương tác này thường được thực hiện bằng cách tạo ra biến mới là tích của hai biến ban đầu, ví dụ X3 = X1 × X2, để xác định xem ảnh hưởng của một biến có thay đổi theo giá trị của biến kia hay không.
* X2 và kiểm tra xem biến này có quan trọng hay không, dẫn đến một mô hình thay thế.
Hình 26: Dữ liệu lương nhân viên
Hình 27: Mô hình hồi quy ban đầu cho lương nhân viên
Trong mô hình hồi quy, việc kết hợp các biến độc lập thông qua thuật ngữ tương tác giúp đánh giá tác động kết hợp của các yếu tố Ví dụ về mức lương nhân viên, ta xác định thuật ngữ tương tác bằng cách nhân tuổi (X1) với MBA (X2), tạo thành biến X3 = X1 × X2 Mô hình hồi quy mới sẽ bao gồm cả các biến chính và biến tương tác này để phân tích sâu hơn về ảnh hưởng của các yếu tố đến mức lương.
Trong bảng tính, cần tạo một cột mới gọi là Tương tác bằng cách nhân MBA theo Tuổi cho mỗi quan sát, nhằm phân tích tác động của các biến này Các kết quả hồi quy ban đầu thể hiện ở Hình 29 cho thấy R² hiệu chỉnh tăng, nhưng giá trị p của biến MBA chỉ là 0,33, cho thấy biến này không có ý nghĩa thống kê đáng kể Do đó, biến MBA được loại khỏi mô hình và chỉ giữ lại tuổi cùng với thuật ngữ tương tác để chạy hồi quy mới, các kết quả của bước này được trình bày trong Hình 30.
R 2 hiệu chỉnh tăng nhẹ và cả độ tuổi và thời hạn tương tác đều đáng kể Mô hình cuối cùng là
Các mô hình cho nhân viên có và không có MBA là:
Lương của nhân viên không chỉ phụ thuộc vào việc có bằng MBA hay không mà còn liên quan đến tuổi tác, thể hiện rõ qua các công thức tính lương khác nhau Trong đó, mô hình không có MBA cho thấy lương dựa trên công thức 3.323,11 + 984,25 × tuổi, trong khi mô hình có MBA nâng cao tổng thu nhập với công thức 3.323,11 + 1.409,83 × tuổi, phản ánh mức độ ảnh hưởng của bằng MBA cộng với tuổi tác đến thu nhập thực tế của nhân viên.
Hình 28: Dữ liệu về Lương nhân viên
Hình 29: Kết quả hồi quy với thời hạn tương tác
Hình 30: Mô hình hồi quy cuối cùng cho Dữ liệu lương
Các biến phân loại có nhiều hơn hai cấp độ
Trong các mô hình phân loại, khi biến phân loại chỉ có hai cấp độ, chẳng hạn như mã hóa 0 và 1, chúng ta chỉ cần thêm một biến vào mô hình Tuy nhiên, với các biến phân loại có k > 2 cấp độ, cần thêm k - 1 biến phụ để đảm bảo mô hình phản ánh đúng đặc điểm của biến phân loại này.
Ví dụ 17: Mô hình hồi quy với nhiều cấp độ biến phân loại
Trong bài viết, tác giả trình bày việc thu thập dữ liệu về độ hoàn thiện bề mặt của 35 bộ phận gia công trên máy tiện, kèm theo thông số RPM và loại công cụ cắt sử dụng, nhằm dự đoán kết quả hoàn thiện bề mặt dựa trên các biến này Thay vì tạo biến giả cho từng loại công cụ, làm như vậy sẽ gây rối loạn dữ liệu và làm cho mô hình hồi quy bị sập, tác giả đề xuất sử dụng k - 1 = 3 biến giả cho ba cấp của biến phân loại công cụ, còn lại một cấp sẽ là tham chiếu Như vậy, mô hình hồi quy sẽ dựa trên 4 cấp loại công cụ để xác định mối liên hệ giữa các yếu tố này và kết quả hoàn thiện bề mặt, giúp dự đoán chính xác hơn dựa trên các điều kiện vận hành khác nhau.
Y = bề mặt hoàn thành X1 = RPM
X2 = 1 nếu là công cụ B và 0 nếu không phải X3 = 1 nếu là công cụ C và 0 nếu không phải X4 = 1 nếu là công cụ D và 0 nếu không phải
Khi X2 = X3 = X4 = 0, loại công cụ mặc định là A Các giá trị này được thay thế cho từng loại công cụ và nhập vào mô hình, giúp xác định ảnh hưởng của từng loại công cụ đến độ hoàn thiện bề mặt Đối với giá trị cố định của RPM (X1), các hệ số dốc thể hiện sự khác biệt giữa lớp hoàn thiện dùng công cụ đó và đường cơ sở là loại A Để tích hợp các biến giả này vào mô hình hồi quy, người ta thêm vào ba cột dữ liệu như trong Hình 32, và kết quả hồi quy cho kết quả mô hình: bề mặt hoàn thiện = 24,49 + 0,098 RPM - 13,31 loại B - 20,49 loại C - 26,04 loại D, phản ánh tác động của từng yếu tố đến chất lượng bề mặt.
Gần như 99% các biến thể trong quá trình hoàn thiện bề mặt có thể giải thích bằng mô hình, trong đó tất cả các biến đều mang ý nghĩa quan trọng Các mô hình dành riêng cho từng công cụ đều thể hiện rõ các yếu tố ảnh hưởng, giúp nâng cao hiệu quả và độ chính xác của quá trình hoàn thiện.
Hoàn thiện bề mặt = 24,49+0,098RPM-13,31(0)-20,49(0)-26,04 (0)= 24,49 + 0,098 RPM Công cụ B:
Hoàn thiện bề mặt = 24,49 + 0,098 RPM - 13,31(1) - 20,49(0) -26,04(0)
Hoàn thiện bề mặt = 24,49 + 0,098 RPM - 13,31 (0)- 20,49 (1) - 26,04 (0)
Hoàn thiện bề mặt = 24,49 + 0,098 RPM - 13,31 (0) - 20,49 (0) - 26,04 (1)
Các mô hình này chủ yếu khác nhau ở các hệ số chặn, trong khi các sườn liên kết với RPM vẫn giữ nguyên Điều này cho thấy khả năng kiểm tra sự tương tác giữa loại dụng cụ cắt và RPM, giúp tối ưu hóa quá trình gia công và nâng cao hiệu quả sản xuất.
Hình 31: Dữ liệu Hoàn thành bề mặt
Hình 32: Ma trận dữ liệu Hoàn thành bề mặt với biến giả
Hình 33: Kết quả hồi quy cho dữ liệu bề mặt