TRƯỜNG ĐẠI HỌC BÁCH KHOA THÀNH PHỐ HỒ CHÍ MINH BỘ MÔN TOÁN ỨNG DỤNG KHOA KỸ THUẬT HÓA HỌC oOo BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ ĐỀ TÀI 1 GVHD NGUYỄN KIỀU DUNG THỰC HIỆN NHÓM HH07 SINH VIÊN THỰC HI[.]
CƠ SỞ LÝ THUYẾT
Phân tích hồi quy
Hồi qui (regression) là phương pháp thống kê toán học dùng để ước lượng và kiểm định các mối quan hệ giữa các biến ngẫu nhiên, từ đó giúp đưa ra dự báo chính xác Các quan hệ này thường được biểu diễn dưới dạng hàm số hoặc phương trình Ý tưởng chính của phương pháp hồi qui là xác định một hàm số F(X₁, , Xₛ) nhằm mô tả gần đúng mối liên hệ giữa biến phụ thuộc Y và các biến độc lập X₁, , Xₛ Phương pháp này là công cụ quan trọng trong phân tích dữ liệu và dự đoán trong nghiên cứu khoa học và thực tiễn.
Trong mô hình phân tích, X₁, , Xₙ được gọi là biến tự do hoặc biến điều khiển, trong khi Y là biến phụ thuộc Khi chúng ta biết các giá trị của X₁, , Xₙ, mục đích là ước lượng giá trị của Y dựa trên các biến độc lập này Hàm số F mô tả mối quan hệ giữa Y và các biến điều khiển, có thể phụ thuộc vào một tập hợp các tham số β = (β₁, , βₙ), giúp xây dựng mô hình dự đoán chính xác.
Trong mô hình Y = F(X₁, , Xₛ) + ϵ, ϵ đại diện cho phần sai số là một biến ngẫu nhiên, và mục tiêu của chúng ta là chọn hàm F cùng các tham số β sao cho sai số này nhỏ nhất có thể Sai số chuẩn (|β̂|₂) được gọi là độ chính xác của mô hình hồi quy, và mô hình nào có sai số chuẩn thấp hơn thì được xem là càng chính xác hơn.
* Bản chất của biến phụ thuộc Y
Y được coi là một biến ngẫu nhiên và có thể được đo lường bằng bốn loại thước đo chính: thang đo tỷ lệ, thang đo khoảng, thang đo thứ bậc và thang đo danh nghĩa Việc lựa chọn thước đo phù hợp giúp phân tích dữ liệu chính xác và phù hợp với mục đích nghiên cứu Thang đo tỷ lệ cho phép đo lường chính xác các giá trị với điểm tuyệt đối, trong khi thang đo khoảng thể hiện sự chênh lệch giữa các giá trị rõ ràng Thang đo thứ bậc giúp xếp hạng các dữ liệu theo thứ tự ưu tiên hoặc mức độ, còn thang đo danh nghĩa chỉ phân loại dữ liệu thành các nhóm mà không thể so sánh về thứ tự hoặc khoảng cách Việc hiểu rõ đặc điểm của từng thước đo là yếu tố quan trọng để thực hiện phân tích dữ liệu hiệu quả.
Thang đo tỷ lệ (ratio scale) có ba đặc điểm quan trọng: bao gồm tỷ số giữa hai biến, khoảng cách giữa hai biến và xếp hạng các biến Với thang đo tỷ lệ, tỷ số của hai giá trị (ví dụ như ꢂ 1 và ꢂ 2) mang ý nghĩa thực tế, như ꢂ 1 / ꢂ 2, và sự khác biệt giữa chúng (ꢂ 2 - ꢂ 1) thể hiện khoảng cách rõ ràng Thang đo này cho phép so sánh các giá trị một cách chính xác và xếp thứ tự các biến dựa trên giá trị của chúng, phù hợp cho các phân tích thống kê cần độ chính xác cao.
Thang đo khoảng (interval scale): Thang đo khoảng không thỏa mãn tính chất đầu tiên của các biến có thang đo tỷ lệ.
Thang đo thứ bậc (ordinal scale) bao gồm các biến chỉ thể hiện tính chất xếp hạng, phù hợp với thang đo tỷ lệ về mặt xếp thứ tự Tuy nhiên, trong loại thang đo này, việc tính tỷ số hoặc khoảng cách giữa hai giá trị không có ý nghĩa hoặc không hợp lý Điều này làm cho thang đo thứ bậc thích hợp để xác định thứ tự của các dữ liệu, nhưng không thể sử dụng để đo lường chính xác khoảng cách hay sự khác biệt rõ ràng giữa các giá trị.
Thang đo danh nghĩa (nominal scale) bao gồm các biến không đáp ứng bất kỳ tiêu chí nào của thang đo tỷ lệ, như giới tính, tôn giáo, hoặc các nhóm phân loại khác Đây là loại thang đo dùng để phân chia dữ liệu thành các nhóm riêng biệt mà không có thứ tự hay giá trị số học phía trên Thang đo danh nghĩa giúp phân loại các biến theo thuộc tính mà không thể so sánh về mặt giá trị hay thứ tự, phù hợp cho các phân tích mô tả và phân loại dữ liệu.
* Bản chất của biễn ngẫu nhiên X
Các biến ngẫu nhiên có thể được đo theo bốn thang đo khác nhau, bao gồm thang đo thứ tự, thang đo khoảng, thang đo tỉ lệ và thang đo danh mục Trong các ứng dụng thực tế, các biến giải thích thường được đo theo thang đo tỷ lệ và thang đo khoảng, giúp phân tích dữ liệu chính xác và đáng tin cậy hơn Việc chọn đúng thang đo phù hợp đóng vai trò quan trọng trong quá trình thu thập và phân tích dữ liệu thống kê.
* Bản chất của sai số ngẫu nhiên (nhiễu) ꢁ
Sai số ngẫu nhiên phản ánh tất cả các biến không được đưa vào mô hình do thiếu dữ liệu hoặc lỗi đo lường, gây ra nhiễu trong quá trình phân tích Tuy nhiên, người ta thường giả định rằng tác động trung bình của sai số ngẫu nhiên lên biến phụ thuộc Y là không đáng kể, giúp đảm bảo tính ổn định và chính xác của mô hình phân tích dữ liệu.
Ta cũng giả định là hạng nhiễu có phân phối chuẩn với trung bình bằng 0 và phương sai không đổi là ꢃ 2 : ꢁ ~N(0; ꢃ 2 )
* Bản chất của tham số hồi quy ꢄ ꢅ
Tham số hồi quy toàn bộ, βS, là các con số cố định và không ngẫu nhiên, giúp xác định mối quan hệ giữa các biến trong mô hình Mặc dù các giá trị thực của các tham số này không thể biết chính xác, chúng đóng vai trò quan trọng trong phân tích thống kê và dự đoán dữ liệu Việc hiểu rõ về bản chất cố định của tham số hồi quy giúp người nghiên cứu đánh giá độ tin cậy và ý nghĩa của mô hình trong các ứng dụng thực tiễn.
3 Ý nghĩa của hồi quy tuyến tính:
Thuật ngữ tuyến tính trong mô hình hồi quy tuyến tính đề cập đến tính chất tuyến tính của các hệ số hồi quy (βS), giúp mô hình dễ dàng dự đoán và phân tích Tuy nhiên, mô hình này không yêu cầu các biến độc lập như Y và X phải theo dạng tuyến tính, mà chủ yếu tập trung vào sự tuyến tính của các hệ số để đảm bảo độ chính xác và hiệu quả trong quá trình hồi quy Việc hiểu rõ về tính tuyến tính trong hệ số hồi quy là yếu tố quan trọng để áp dụng đúng các kỹ thuật phân tích dữ liệu và tối ưu hóa mô hình dự đoán.
Mô hình hồi quy bội
Mô hình hồi quy bội là mô hình hồi quy trong đó: biến phụ thuộc Y phụ thuộc vào (k – 1) biến độc lập X ,X 2 3, X kkcó dạng như sau:
Hàm hồi quy tổng thể: E(Y| X ,X , X ) = + X + X + … + X
Mô hình hồi quy tổng thể: Y = 1 + 2 X 2 + 3 X 3 + … + X k k + ꢁ
ꢁ là sai số ngẫu nhiên.
1là hệ số tự do (hệ số chặn), bằng giá trị trung bình của Y khi X =0.j
Hệ số hồi quy riêng (hoặc hệ số góc) của biến Xj thể hiện mức độ ảnh hưởng của biến đó đối với trung bình của Y khi các biến độc lập khác giữ nguyên Cụ thể, mỗi đơn vị tăng hoặc giảm của Xj sẽ làm cho trung bình của Y thay đổi tương ứng với giá trị của hệ số βj, trong điều kiện các biến khác không đổi Có ba khả năng có thể xảy ra đối với các hệ số góc này, phản ánh các mối quan hệ khác nhau giữa biến Xj và Y.
Hệ số β > 0 cho thấy mối quan hệ thuận chiều giữa biến Y và biến Xj Điều này có nghĩa là khi Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác giữ nguyên, thì Y cũng sẽ tăng (hoặc giảm) Tương tự, hệ số dương phản ánh sự tác động tích cực của Xj đối với Y trong mô hình.
Hệ số βj < 0 thể hiện mối quan hệ ngược chiều giữa biến phụ thuộc Y và biến độc lập Xj Điều này có nghĩa là khi Xj tăng (hoặc giảm) trong điều kiện các biến độc lập khác không đổi, thì Y sẽ giảm (hoặc tăng).
Hệ số β_j = 0 cho thấy không có mối liên hệ giữa biến phụ thuộc Y và biến độc lập X_j, tức là Y không phụ thuộc vào X_j hoặc X_j không ảnh hưởng đáng kể đến Y, điều này giúp xác định các biến không có tác động rõ ràng trong mô hình phân tích dữ liệu.
Dựa vào kết quả ước lượng từ một mẫu dữ liệu cụ thể, chúng ta có thể đánh giá mối quan hệ giữa biến phụ thuộc và các biến độc lập trong mô hình một cách khách quan Việc phân tích này giúp xác định mức độ ảnh hưởng của từng biến độc lập đến biến phụ thuộc, từ đó hỗ trợ đưa ra các quyết định chính xác trong quá trình phân tích dữ liệu Đánh giá mô hình dựa trên dữ liệu thực tế góp phần nâng cao độ tin cậy và hiệu quả của các dự báo trong nghiên cứu hoặc ứng dụng thực tế.
Dù mô hình có nhiều biến độc lập, vẫn tồn tại các yếu tố tác động đến biến phụ thuộc nhưng không được đưa vào mô hình do thiếu dữ liệu hoặc ý định giữ đơn giản Điều này dẫn đến tồn tại sai số ngẫu nhiên trong mô hình, ảnh hưởng đến độ chính xác của dự đoán Việc xác định các yếu tố quan trọng để đưa vào mô hình là rất cần thiết để nâng cao hiệu quả phân tích và dự báo Tuy nhiên, các yếu tố không được đưa vào có thể gây ra sai lệch, làm giảm độ tin cậy của kết quả Do đó, việc kiểm soát và giảm thiểu sai số ngẫu nhiên giúp cải thiện chất lượng mô hình phân tích dữ liệu.
ꢁ đại diện cho các yếu tố khác ngoài các biến Xj (j = 2,3, ,k) có tác động đến
Y nhưng không đưa vào mô hình như là biến số.
2 Các giả thiết của mô hình hồi quy bội
Giả thiết 1: Việc ước lượng được dựa trên cơ sở mẫu ngẫu nhiên.
Giả thiết 2: Kỳ vọng của sai số ngẫu nhiên tại mỗi giá trị (X 2i,X 3i,, X ki) bằng 0:
Giả thiết 3: Phương sai của sai số ngẫu nhiên tại các giá trị (X 2i,X 3i,…, X ki) đều bằng nhau.
Từ giả thiết 2 và 3 ta có thể nói sai số ngẫu nhiên (u) tuân theo phân phối chuẩn.
Giả thiết 4: Giữa các biến độc lập Xj không có quan hệ cộng tuyến hoàn hảo, nghĩa là không tồn tại hằng số λ 2, λ ,, λ 3 k không đồng thời bằng 0 sao cho: λ X 2 2+ λ X 3 3+… + λ X k k= 0.
Trong phân tích thống kê, nếu tồn tại mối quan hệ cộng tuyến hoàn hảo giữa các biến Xj (j = 2, 3, , k), thì ít nhất một trong các biến này sẽ có thể dự đoán dựa trên các biến còn lại Điều này làm giảm tính khả thi của mô hình và gây ra vấn đề trong quá trình phân tích Vì vậy, giả thuyết 4 được đề xuất nhằm loại trừ tình huống có hiện tượng cộng tuyến hoàn hảo giữa các biến độc lập, đảm bảo mô hình hồi quy đạt hiệu quả và độ chính xác cao hơn.
3 Phương pháp ước lượng mô hình hồi quy bội – Phương pháp bình phương nhỏ nhất (OLS)
Sau khi xây dựng và hiểu rõ ý nghĩa của các hệ số hồi quy trong mô hình, điều quan trọng tiếp theo là đảm bảo có các ước lượng đáng tin cậy cho các hệ số βj Để đạt được điều này, chúng ta thường sử dụng phương pháp bình phương nhỏ nhất (OLS), phương pháp phổ biến và hiệu quả để ước lượng các hệ số trong mô hình hồi quy với nhiều biến (k biến) Phương pháp OLS giúp tìm ra các ước lượng tối ưu, tối thiểu hóa sai số dự đoán, từ đó nâng cao độ chính xác và độ tin cậy của mô hình hồi quy.
Giả sử có một mẫu quan sát với giá trị thực tế là (Y , i X 2i, …, X ki) với (i = 1,
Chúng tôi sẽ sử dụng dữ liệu từ mẫu để ước lượng các hệ số βj (j = 1, 2, , k), ký hiệu là β̂j để xây dựng hàm hồi quy mẫu Các giá trị ước lượng này giúp mô tả mối quan hệ giữa các biến độc lập và biến phụ thuộc, từ đó xác định tác động của từng yếu tố trong mô hình hồi quy Nhờ vào các ước lượng này, ta có thể viết thành hàm hồi quy mẫu, cung cấp công cụ dự đoán và phân tích các ảnh hưởng trong dữ liệu mẫu một cách chính xác.
Tại mỗi quan sát i, hàm hồi quy mẫu được viết thành:
Trong đó Y i là giá trị ước lượng cho Y và sai lệch giữa hai giá trị này được gọi là phần dư với cách tính:
ꢇ ꢇ e i Y i - Y Tương tự như mô hình hồi quy hai biến, phương pháp OLS nhằm xác định các giá trị ꢆ j(j = 1, 2, …, k) sao cho tổng bình phương các phần dư là bé nhất:
Khi đó, các giá trị = 1 + 2 + 3+…+ k sẽ là nghiệm của hệ gồm k phương trình sau:
Khi số quan sát trong mẫu lớn hơn số hệ số hồi quy cần ước lượng và giả thiết 4 được xác nhận, hệ phương trình sẽ có nghiệm duy nhất Việc giải hệ phương trình này khá đơn giản nhờ các phần mềm thống kê, đặc biệt khi số biến không quá nhiều Các ước lượng bằng phương pháp OLS dựa trên dữ liệu mẫu cụ thể được xem là các ước lượng điểm của các hệ số trong tổng thể, đảm bảo tính chính xác và độ tin cậy của phân tích thống kê.
Trong mô hình hồi quy bội với k > 2 biến, việc giải hệ phương trình để ước lượng các hệ số ꢆ j trở nên phức tạp hơn so với mô hình hồi quy hai biến Do đó, việc sử dụng các phần mềm thống kê sẽ hỗ trợ đắc lực trong việc tính toán và đưa ra các ước lượng chính xác Các phần mềm này giúp xử lý nhanh chóng và hiệu quả các bài toán phức tạp liên quan đến mô hình hồi quy nhiều biến, đảm bảo kết quả phù hợp với yêu cầu phân tích thống kê.
Dựa trên kết quả ước lượng từ phương pháp OLS, chúng ta có thể phân tích tác động của các biến độc lập đến biến phụ thuộc Ý nghĩa của các hệ số hồi quy cho phép đánh giá mức độ ảnh hưởng và mối liên hệ giữa các yếu tố này Việc này giúp hiểu rõ, dự báo xu hướng và đưa ra các quyết định phù hợp dựa trên dữ liệu thống kê Kết quả ước lượng từ OLS là công cụ quan trọng trong việc phân tích tác động của các yếu tố và tối ưu hóa mô hình nghiên cứu.
Khi các giả thiết từ 1 đến 4 được thỏa mãn, ước lượng thu được từ phương pháp OLS là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất trong lớp các ước lượng tuyến tính không chệch Điều này có nghĩa là, trong các giả thiết này, ước lượng OLS là phương pháp ước lượng tốt nhất, đảm bảo độ chính xác cao nhất so với các phương pháp khác trong cùng lớp Vì vậy, giả thiết từ 1 đến 4 đảm bảo tính hợp lý và tin cậy của kết quả ước lượng OLS trong phân tích hồi quy.
4 Đánh giá mức độ phù hợp của mô hình hồi quy bội
Khi đánh giá một mô hình dựa trên số liệu mẫu, việc chỉ tập trung vào các ước lượng hệ số và độ lệch chuẩn của chúng là chưa đủ để đánh giá chất lượng mô hình toàn diện Trong quá trình phân tích, hệ số xác định đóng vai trò quan trọng, giúp đo lường mức độ phù hợp của mô hình với dữ liệu thực tế Hệ số xác định cao cho thấy mô hình giải thích được phần lớn biến thiên của dữ liệu, từ đó nâng cao độ tin cậy của dự đoán Do đó, đánh giá mô hình một cách toàn diện cần xem xét cả các ước lượng thống kê và hệ số xác định để đảm bảo phân tích chính xác và hiệu quả.
Sau khi ước lượng mô hình hồi quy trong khoảng tin cậy, việc đánh giá độ phù hợp của hàm hồi quy mẫu với dữ liệu thống kê là rất quan trọng Hệ số xác định bội R² được sử dụng để đo lường mức độ phù hợp của mô hình, thể hiện tỉ lệ biến thiên của biến phụ thuộc được dự đoán chính xác bởi biến độc lập R² càng cao, mô hình càng phù hợp và phản ánh chính xác hơn mối quan hệ giữa các biến Việc phân tích hệ số R² giúp xác định khả năng dự đoán của mô hình và đảm bảo tính tin cậy trong các kết quả nghiên cứu thống kê.
Cách xác định hệ số xác định bội:
TSS (total sum of square): Tổng bình phương độ lệch toàn phần.
ESS (Explained sum of square): Tổng bình phương độ lệch phần hồi quy
RSS (Residual sum of square): Tổng bình phương phần dư.
Khi đó hệ số xác định bội của mô hình được xác định bởi công thức sau:
Do các thành phần TSS, ESS, RSS đều không âm, nên từ biểu thức trên có thể thấy 0 ≤ R 2 ≤ 1.