2.3 Phân tích phương sai2.3.1 Định nghĩa phương sai và phân tích phương sai ANOVA Phân tích phương sai ANOVA là một kỹ thuật thống kê được sử dụng để so sánh các nhóm dữ liệu dựa trên gi
Khoảng tin cậy
Ước lượng điểm
Phương pháp ước lượng thống kê sử dụng giá trị từ mẫu để xác định tham số trong tổng thể, ví dụ như giá trị trung bình mẫu ước lượng trung bình tổng thể Tuy nhiên, với kích thước mẫu quá lớn, phương pháp này có thể gây ra sai số đáng kể so với giá trị thực tế Mặc dù tất cả các phương pháp ước lượng đều có thể phát sinh sai số, ước lượng điểm lại không cung cấp thông tin về độ chính xác của nó.
Ước lượng khoảng
Phương pháp ước lượng qua khoảng tin cậy bao gồm việc xác định một khoảng ước lượng (G1, G2) cho tham số θ với xác suất tin cậy γ, tức là P(G1 < θ < G2) = γ Phương pháp này mang lại nhiều ưu điểm so với ước lượng điểm, không chỉ nâng cao độ chính xác mà còn cho phép đánh giá mức độ tin cậy của kết quả Mức độ sai lệch được biểu thị qua giá trị α = 1 − γ, trong đó α thường chỉ một xác suất nhỏ, và 1 − α đại diện cho độ tin cậy của khoảng ước lượng.
Bảng tóm tắt bài toán tìm khoảng tin cậy cho trung bình
Phân bố của tổng thể Sai số của khoảng tin cậy
1 Phân phối chuẩn, đã biết phương saiσ 2 ε= z √ α/2 n ×σ
Vớinlà độ lớn của mẫu,σlà độ lệch chuẩn tổng thể.
2 Phân phối chuẩn, chưa biết phương saiσ 2 ε= t α/2
√ n ×s Vớinlà độ lớn của mẫu,slà độ lệch chuẩn mẫu.
3 Phân phối tùy ý, mẫu lớn ε= z √ α/2 n ×σ
Vớinlà độ lớn của mẫu,σlà độ lệch chuẩn tổng thể, nếu không biếtσthì có thể dùngs.Bảng tóm tắt bài toán tìm cỡ mẫu
Dạng Điều kiện áp dụng Kích thước mẫu
Tỷ lệ đã biếtf n≥ z α/2 ε 2 ã0.25 chưa biếtf n≥ z α/2 ε 2 Trung bình
Phõn phối tựy ý, mẫu lớn (n≥30) n≥ z α/2 ε ãσ 2
Lưu ý: Đối với bài toán tìm cỡ mẫu với phân phối tùy ý, mẫu lớn, chưa biếtσ có thể thay bằng s.
Kiểm định
Định nghĩa
Giả thuyết thống kê đề cập đến các phát biểu liên quan đến tham số, quy luật phân phối và tính độc lập của các đại lượng ngẫu nhiên Kiểm định giả thuyết thống kê là quá trình tìm ra kết luận để bác bỏ hoặc chấp nhận một giả thuyết.
Các giả thuyết trong bài toán kiểm định
Trong bài toán kiểm định giả thuyết, giả thuyết cần được kiểm định gọi là Giả thuyết không(null hypothesis), ký hiệu làH 0 (hayH).
Mệnh đề đối lập vớiH 0 gọi làđối thuyết(hay còn gọi là giả thiết đối) (alternative hypothesis), ký hiệu làH1 (hayH).¯
Các sai lầm trong bài toán kiểm định
Trong bài toán kiểm định giả thuyết thống kê, ta có thể mắc phải các sai lầm sau:
Sai lầm loại I xảy ra khi chúng ta bác bỏ giả thuyết H0, mặc dù giả thuyết này thực sự đúng Mức ý nghĩa của bài toán kiểm định, ký hiệu là α, thể hiện xác suất xảy ra sai lầm loại I, được tính theo công thức α = P(Z ∈ RR | H0 đúng).
Sai lầm loại II xảy ra khi chúng ta chấp nhận giả thuyết H0 mặc dù thực tế giả thuyết này là sai Ký hiệu của sai lầm loại II là β, được định nghĩa là xác suất xảy ra sai lầm khi H0 không đúng, tức là β = P(Z /∈RR | H0 sai).
Các bước thực hiện kiểm định
1 Phát biểu giả thuyết và đối thuyết của bài toán.
2 Xác định miền bác bỏ (RR) tốt nhất cho bài toán.
3 Tính giá trị thống kê kiểm định “Z” (tiêu chuẩn kiểm định) cho bài toán.
• NếuZ ∈RR thì ta bác bỏ giả thuyếtH 0
• NếuZ /∈RR thì ta kết luận chưa đủ cơ sở để bác bỏH0.
Kiểm định 2 mẫu
Gt H 0 Gt H 1 Miền bác bỏ RR Tiêu chuẩn kiểm định
2 mẫu độc lập X 1 và X 2 có phân phối chuẩn; chưa biết σ 1 2 và σ 2 2 ; σ 2 1 = σ 2 2 = σ 2 à 1 = à 2 à 1 ̸= à 2 RR = (−∞; −t α/2;n 1 +n 2 −2 ) ∪ (t α/2;n 1 +n 2 −2 ; +∞) S 2 p = (n 1 −1)s
*Dấu hiệu quy ước để nhận biết từ mẫu: s 1 /s 2 ∈ 1
2 mẫu độc lập X 1 và X 2 có phân phối chuẩn; chưa biết σ 1 2 và σ 2 2 ; σ 2 1 ̸= σ 2 2 à 1 = à 2 à 1 ̸= à 2 RR = (−∞; −t α/2;v ) ∪ (t α/2;v ; +∞) v = s 2 1 n1 + s
2 2 n 2 à 1 < à 2 RR = (−∞; −t α;v ) t-test (làm trũn số nguyờn)
*Dấu hiệu quy ước để nhận biết từ mẫu: s 1 /s 2 ∈ / 1
2 mẫu độc lập: X 1 , X 2 có phân phối tùy ý; 2 mẫu lớn: n 1 , n 2 ≥ 30; đã biết hoặc chưa biết σ 2 1 và σ 2 2 à 1 = à 2 à 1 ̸= à 2 RR = (−∞; −z α/2 ) ∪ (z α/2 ; +∞) z qs = r x ¯ 1 −¯ x 2 σ 2 1 n 1 + σ
2 2 n 2 à 1 > à 2 RR = (z α ; +∞) t-test (làm tròn số nguyên) à 1 < à 2 RR = (−∞; −z α )
Phân tích phương sai
Định nghĩa phương sai và phân tích phương sai (ANOVA)
Phân tích phương sai (ANOVA) là một kỹ thuật thống kê quan trọng, được sử dụng để so sánh các nhóm dữ liệu thông qua giá trị trung bình của các mẫu quan sát Mục tiêu chính của ANOVA là kiểm tra giả thuyết về sự bằng nhau của các trung bình giữa các nhóm dữ liệu khác nhau Kỹ thuật này được phát triển bởi Ronald Fisher vào năm 1918, đóng góp to lớn cho lĩnh vực thống kê.
• ANOVA là một mở rộng của phương pháp kiểm địnht-test, cho phép so sánh trung bình của nhiều hơn hai nhóm.
ANOVA không đánh giá sự khác biệt giữa các phương sai mà tập trung vào phân tích biến động của dữ liệu nhằm kiểm tra giả thuyết về sự đồng nhất của các trung bình tổng thể.
Phân tích phương sai được dùng để:
• Kiểm định giả thuyết các tổng thể nhóm có giá trị trung bình bằng nhau.
• Tính toán mức độ biến thiên trong nội bộ các nhóm và giữa các nhóm.
Các loại phân tích phương saiCó hai loại phân tích phương sai chính:
• ANOVA một nhân tố (One-way ANOVA):Kiểm định sự bằng nhau của trung bình biến ngẫu nhiênX ở các tổng thể khác nhau.
• ANOVA hai nhân tố (Two-way ANOVA): Xem xét ảnh hưởng của hai yếu tố đến một biến phụ thuộc.
ANOVA một nhân tố
Mô hình ANOVA một nhân tố được sử dụng để kiểm định sự bằng nhau của trung bình biến ngẫu nhiên X giữa các nhóm khác nhau Phương pháp này dựa vào các mẫu ngẫu nhiên độc lập được lấy từ các tổng thể tương ứng, với các nhóm được phân loại theo các mức độ khác nhau của yếu tố định tính đang được xem xét.
Giả thiết của bài toán ANOVA một nhân tố
• Cỏc tổng thể cú phõn phối chuẩn N(à i , σ i 2 )với i= 1,2, , k, trong đú k là số tổng thể (k≥3).
• Cỏc phương sai của tổng thể bằng nhau:σ 2 1 =σ 2 2 =ã ã ã=σ k 2
• Các mẫu quan sát từ các tổng thể được lấy một cách độc lập.
Các bước thực hiện bài toán:
Nếu trung bình của các tổng thể được ký hiệu là à1 = à2 = = àk, thì khi các giả định trên được thỏa mãn, mô hình phân tích phương sai một yếu tố ảnh hưởng sẽ được giả thuyết kiểm định như sau:
• Giả thuyết đối H1:∃i, j:ài ̸=àj hoặc tồn tại ớt nhất một cặp trung bỡnh tổng thể khỏc nhau.
Tính các giá trị kiểm định thống kê:
Nhúm 1 Nhúm 2 ã ã ã Nhúm k x11 x21 ã ã ã xk1 x12 x22 ã ã ã xk2
• Kích thước từng mẫu: n1, n2, , nk
• Trung bình từng mẫu:x1, x2, , xk
• Trung bình gộp mẫu: xPk i=1niãxi
N Tính các độ lệch bình phương:
• SSB (SSTr): Tổng độ lệch bình phương giữa các nhóm (Sum of square between group)
• SSW (SSE): Tổng độ lệch bình phương trong nội bộ (Sum of square within group)
• SST: Tổng độ lệch bình phương toàn bộ tổng thể (Total sum of square)
Để tính các phương sai, bao gồm phương sai nội bộ nhóm và phương sai giữa các nhóm, chúng ta thực hiện bằng cách lấy tổng chênh lệch bình phương chia cho bậc tự do tương ứng.
Nguồn của sự biến thiên SS df MS F
Giữa các nhóm SSB k−1 MSB
Trong từng nhóm SSW N−k MSW
Khi bác bỏ H 0 , yếu tố đang xét được xem như có ảnh hưởng đến giá trị biến ngẫu nhiênX.
Hệ số xác định R² trong mô hình Phân tích phương sai (ANOVA) được sử dụng để đánh giá mức độ ảnh hưởng của yếu tố trong mô hình đối với sự biến động của các giá trị của biến ngẫu nhiên.
X quanh giá trị trung bình của nó R 2 càng lớn thì mô hình càng gọi là thích hợp.
Phân tích sâu ANOVA một yếu tố
Phân tích phương sai (ANOVA) nhằm kiểm định giả thuyết H0 rằng các trung bình của tổng thể là bằng nhau Sau khi thực hiện phân tích, có hai kết quả có thể xảy ra dựa trên dữ liệu đã phân tích và kết luận từ bài toán ANOVA.
• Chưa bác bỏ được giả thuyếtH 0 , hay là chưa có bằng chứng về sự khác biệt của các trung bình.
Khi bác bỏ giả thuyết H0 và chấp nhận giả thuyết H1, chúng ta kết luận rằng trung bình của các nhóm không bằng nhau, tức là có sự khác biệt có ý nghĩa thống kê Tuy nhiên, điều này không cho biết rõ ràng sự khác biệt đó đến từ nhóm nào Do đó, cần thực hiện phân tích bổ sung để xác định nhóm nào có trung bình lớn hơn, bằng hoặc nhỏ hơn so với các nhóm còn lại.
Có nhiều phương pháp đưa đến kết quả mong muốn Chúng ta còn gọi đó là các phương pháp so sánh bội (Multiple comparison methods).
Dùng LSD test: Kiểm định so sánh lần lượt tất cả các cặp trung bình của 2 nhóm khác nhau (C 2 cặp), với các giả thuyết tương ứng:
H 1 :à i ̸=à j , i̸=j Giá trị thống kê kiểm định:
Giả thiếtH0bị bác bỏ khi:
Sử dụng các khoảng tin cậy LSD để ước lượng chênh lệch trung bình giữa hai nhóm bất kỳ, giúp xác định các cặp nhóm có sự khác biệt về trung bình.
Khoảng ước lượng LSD với độ tin cậy1−αcho độ chờnh lệch(ài−àj)là:
Nếu khoảng tin cậy không chứa số 0, có sự khác biệt có ý nghĩa thống kê giữa hai giá trị trung bình i và j Cụ thể, nếu khoảng tin cậy chỉ chứa các số dương, thì i lớn hơn j Ngược lại, nếu khoảng tin cậy chỉ chứa các số âm, thì i nhỏ hơn j.
Nếu khoảng tin cậy chứa số 0 thỡ ta khụng kết luận được cú sự khỏc biệt giữa à i vàà j Số khoảng tin cậy cần tính:C k 2
Hồi quy
Hồi quy tuyến tính đơn
Mô hình hồi quy tuyến tính đơn giản được mô tả như sau:
• β0: Hệ số chặn (intercept), tham số chưa biết.
• β1: Hệ số góc (slope), tham số chưa biết.
• Y: Biến phụ thuộc (kết quả hoặc đầu ra).
• X: Biến độc lập (biến giải thích).
Trong mô hình hồi quy, thành phần sai số ε được giả định phân phối chuẩn với trung bình bằng 0 và phương sai σ², ký hiệu là ε∼ N(0, σ²) Tính tuyến tính trong mô hình không yêu cầu mối quan hệ giữa biến phụ thuộc Y và biến độc lập X phải là tuyến tính, mà chỉ yêu cầu phương trình hồi quy phải tuyến tính đối với các hệ số hồi quy β0 và β1.
Hồi quy tuyến tính bội
Mô hình hồi quy tuyến tính bội được biểu diễn như sau:
• Y: Biến phụ thuộc (kết quả hoặc đầu ra cần dự đoán).
• X i : Các biến độc lập (biến giải thích, đầu vào) vớii= 2,3, , k.
• β 1 : Hệ số tự do (hệ số chặn).
Hệ số hồi quy riêng βi của biến Xi thể hiện tác động riêng phần của biến này lên Y, trong khi các biến khác được giữ cố định Cụ thể, khi các biến khác không thay đổi, nếu Xi tăng thêm 1 đơn vị, kỳ vọng giá trị Y, E[Y], sẽ tăng lên βi đơn vị.
• ϵ: Thành phần sai số ngẫu nhiên, phản ánh các yếu tố không được mô hình hóa. Đặc điểm:
• Tínhtuyến tính yêu cầu mô hình tuyến tính ở các tham số β 1 , β 2 , , β k
• Phương pháp này phù hợp để dự đoán giá trị liên tục của biếnY, ví dụ:
– Dự đoán thời gian người dùng dừng lại trên một trang web.
Kiểm định ý nghĩa của mô hình
Trong mô hình hồi quy đa biến, giả thuyết “không” (H0) cho rằng tất cả các hệ số hồi quy riêng đều bằng 0, tức là mô hình không có ý nghĩa thống kê Để kiểm tra giả thuyết này, ứng dụng kiểm định Wald (hay còn gọi là kiểm định F) được thực hiện, với bước đầu tiên là thiết lập H0: β2 = β3 = = βk = 0.
Bước 2: Đầu tiên, tiến hành hồi quy biến Y dựa trên một hằng số và các biến X2, X3, , Xk Sau đó, tính toán tổng bình phương sai số cho cả hai mô hình, RSSU và RSSR Phân phối F được xác định là tỷ lệ giữa hai biến ngẫu nhiên có phân phối khi bình phương độc lập.
Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do(k−1)cho tử số và (n−k)cho mẫu số, và với mức ý nghĩaαcho trước.
Bước 4: Bác bỏ giả thuyếtH 0 ở mức ý nghĩa αnếu F > F(α, k−1, n−k) Đối với phương pháp giá trịp, tính giá trịp=P(F > F c |H 0 )và bác bỏ giả thuyếtH 0 nếup < α.
Kiểm tra các giả thuyết của mô hình hồi quy bội
Nhắc lại các giả định của mô hình hồi quy:
Giả thuyết 1: Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báoX và biến phụ thuộc
Y được giả sử là tuyến tính.
Giả thuyết 2: Sai số có phân phối chuẩn.
Giả thuyết 3: Phương sai của các sai số là hằng số.
Giả thuyết 4: Các sai số là độc lập.
Giả thuyết 5: Không có hiện tượng đa cộng tuyến, nghĩa làX2, X3, , Xk không tương quan tuyến tính hoàn toàn với nhau.
Độ phù hợp của mô hình hồi quy
Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động của biến phụ thuộc, người ta sử dụngR 2
X(yi−y)¯ 2 :SST – Total Sum of Squares
X(ˆy i −y)¯ 2 :SSE – Explained Sum of Squares
Xe 2 i :SSR – Residual Sum of Squares
SST=SSE+SSR Ý nghĩa của các thành phần:
• SST: Tổng bình phương của tất cả các sai lệch giữa các giá trị quan sátYi và giá trị trung bìnhy.¯
SSE, hay tổng bình phương sai lệch, là tổng của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y từ hàm hồi quy mẫu và giá trị trung bình của chúng Phần này giúp đánh giá độ chính xác của hàm hồi quy.
• SSR: Tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá trị nhận được từ hàm hồi quy.
SST được chia thành 2 phần: một phần do SSE và một phần do SSR gây ra Từ SST SSE+SSR, ta chia cả hai vế cho SST, ta có:
Hệ số xác định R 2 được định nghĩa:
Tỷ sốR 2 đo tỷ lệ phần trăm của toàn bộ sai lệchY so với giá trị trung bình được giải thích bởi mô hình Khi đó:
• R 2 cao nghĩa là mô hình ước lượng giải thích được một mức độ cao biến động của biến phụ thuộc.
• NếuR 2 = 1: Đường hồi quy giải thích 100% thay đổi củay.
• NếuR 2 = 0: Mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộcy.
Trong mô hình hồi quy đa biến, hệ số xác định bội, ký hiệu là R², thể hiện tỷ lệ toàn bộ sự khác biệt của biến phụ thuộc do tất cả các biến độc lập x₂, x₃, gây ra.
Phân tích tương quan
Phân tích tương quan (Correlation Analysis) là một kỹ thuật thống kê quan trọng nhằm đo lường và đánh giá mối quan hệ giữa hai hoặc nhiều biến số Mục tiêu chính của phương pháp này là xác định xem các biến số có xu hướng di chuyển đồng thời hay không, cũng như mức độ và hướng của mối quan hệ giữa chúng.
Hệ số tương quan (Correlation coefficient) của hai biến ngẫu nhiên X vàY, ký hiệu ρXY, được xác định như sau:
Cov(X, Y) =E(XY)−E(X)E(Y) ρXY = Cov(X, Y) pVar(X)ãVar(Y) Với mẫu ngẫu nhiên cỡ n: (Xi, Yi), i= 1, , n, hệ số tương quan mẫu, ký hiệu rXY, được xác định như sau: r XY = S XY
SST Ý nghĩa của hệ số tương quan mẫu rXY
Hệ số rXY là một ước lượng của hệ số tương quanρgiữaX vàY.
• Khi |rXY| ≤0.3: X vàY không có mối quan hệ tuyến tính hoặc mối quan hệ tuyến tính rất yếu.
• Khi0.3