Kiểm định độc lập với Chi-Square Test

Một phần của tài liệu Khai phá dữ liệu kiểm định thống kê trong excel (Trang 30 - 34)

Một vấn đề phổ biến trong kinh doanh là xác định xem hai biến phân loại có độc lập hay không. Chúng tôi đã giới thiệu khái niệm về các sự kiện độc lập trong Chương 5. Trong ví dụ khảo sát đồ uống gây nghiện (Ví dụ 5.9), chúng tôi đã sử dụng xác suất có điều kiện để xác định xem sở thích về thương hiệu có độc lập với giới tính hay không. Tuy nhiên, với dữ liệu mẫu, lỗi lấy mẫu có thể gây khó khăn cho việc đánh giá đúng tính độc lập của các biến phân loại. Kiểm tra tính độc lập rất quan trọng trong các ứng dụng về marketing

VÍ DỤ 1.15 Tính độc lập và chiến lược Marketing

Hình 1.15 cho thấy một phần dữ liệu mẫu được sử dụng trong Chương 5 cho các thương hiệu của nước tăng lực (File Excel Energy Drink Survey ) và lập bảng chéo các kết quả. Một câu hỏi trong marketing quan trọng là liệu tỷ lệ nam giới thích một nhãn hiệu cụ thể không khác biệt so với tỷ lệ nữ. Ví dụ, trong số 63 sinh viên nam, 25 (40%) thích nhãn hiệu 1. Nếu giới tính và sở thích thương hiệu thực sự độc lập, chúng tôi hi vọng rằng tỉ lệ này sẽ tương tự khi ta lấy dữ liệu về nữ giới về việc thích nhãn hiệu 1. Trong thực tế, chỉ có 9 trong số 37 (24%) thích nhãn hiệu 1. Tuy nhiên, chúng tôi không biết liệu điều này chỉ đơn giản là do lỗi lấy mẫu hay một sự khác biệt đáng kể. Biết được giới tính và sở thích thương hiệu có độc lập hay không có thể giúp các cá nhân tiếp cận các chiến dịch quảng cáo. Nếu giới tính là không độc lập, thì việc marketing nên được phân biệt khác nhau cho nam và nữ, trong khi nếu giới tính là độc lập, điều đó không đáng bận tâm.

Chúng ta có thể kiểm tra tính độc lập bằng cách sử dụng chi square test for independence. Chi square test kiểm tra tính độc lập kiểm tra các giả thuyết sau:

H0:2biến phân loại làđộc lập

H1 : 2biến phânloại là phụ thuộc

Kiểm định chi square test là một ví dụ của kiểm định phi tham số; tức là nó không phụ thuộc vào các giả thuyết thống kê, giống như 3 giả thuyết của ANOVA. Điều này làm cho nó trở thành một công cụ phổ biến và có thể áp dụng để hiểu mối quan hệ giữa các biến phân loại. Bước đầu tiên trong quy trình là tính tần số dự kiến trong mỗi ô của bảng chéo nếu hai biến độc lập. Điều này được thực hiện dễ dàng bằng cách sử dụng như sau:

tần suất mong đợi ở hàng i cột j=tổng hàng itổng cột j tổng số quan sát

2 ảnh

VÍ DỤ 1.16 Tính toán tần suất dự kiến

Đối với dữ liệu Energy Drink Survey, ta có thể tính toán các tần suất sử dụng bằng cách sử dụng dữ liệu từ bảng chéo và công thức (1.7). Ví dụ: tần suất dự kiến của phụ nữ thích nhãn hiệu 1 là (37)(34)/100 = 12,58. Điều này có thể dễ dàng thực hiện trong Excel. Hình 1.16 hiển thị kết quả (xem tệp Excel Chi-Square Test). Ví dụ, công thức trong ô F11 = $I5*F$7/$I$7, có thể được sao chép cho các ô khác để hoàn thành các phép tính

Tiếp theo, ta tính toán một kiểm định thống kê, được gọi là thống kê chi square, là tổng bình phương về sự khác biệt giữa tần số quan sát, f0 và tần suất dự kiến,fe được xác định bởi tần số dự kiến trong mỗi ô:

χ2=∑(f0−fe)

2

fe

Các tần số quan sát càng gần với tần số dự kiến, giá trị nhỏ hơn sẽ là giá trị của thống kê chi-square. Phân phối lấy mẫu của χ2 là một phân phối đặc biệt gọi là phân phối chi square (χ2¿. Phân phối chi-square được đặc trưng bởi bậc tự do, tương tự như phân phối t-distribution. Bảng A.3 trong Phụ lục A ở mặt sau của cuốn sách này cung cấp các giá trị quan trọng của phân phối chi-square cho các giá trị được chọn của . Ta so sánh giá trị của kiểm định chi square với mức ý nghĩa  từ phân phối chi-square có bậc tự do (r-1)(c-1), trong đó r và c là số hàng và số cột của bảng. Hàm Excel CHISQ.INV.RT(probability, deg_ freedom) trả về giá trị của χ2 có diện tích phía đuôi phải bằng với xác suất được cho bởi một bậc tự do nhất định. Đặt giá trị probability bằng với mức ý nghĩa , ta có giá trị tới hạn cho kiểm định giả thuyết này. Nếu giá trị của kiểm định vượt giá trị tới hạn ở một mức ý nghĩa , ta bác bỏ giả thuyết gốc H0. Hàm Excel CHISQ.TEST(actual_range, expected_range) tính toán giá trị p-value cho kiểm định chi-square

(hình 1.17)

VÍ DỤ 1.17 Kiểm định Chi-Square

Đối với dữ liệu Energy Drink Survey, hình 1.17 chỉ ra việc tính toán kiểm định chi- square sử dụng biểu thức (7.8). Ví dụ, công thức trong ô F17=(F5−F11)2/F11, có thể được sao chép sang ô khác. Tổng lớn trong ô dưới bên phải là giá trị của χ2. Trong trường hợp này, giá trị kiểm định của chi-square test = 6.4924. Vì bảng chéo có r = 2 hàng và c = 3 cột, ta có bậc tự do = (2−1)(3−1)=2 từ phân phối chi-square. Với  = 0.05, giá trị trong hàm Excel CHISQ.INV.RT(0.05,2) trả về giá trị tới hạn 5,99146. Vì giá trị kiểm định vượt quá giá trị tới hạn, chúng tôi bác bỏ giả thuyết không cho rằng hai biến phân loại là độc lập.

Ngoài ra, chúng ta chỉ đơn giản có thể sử dụng hàm CHISQ.TEST để tìm giá trị p cho thử nghiệm và dựa trên kết luận mà không cần tính toán thống kê chi-square. Trong ví dụ này, hàm CHISQ.TEST (F6: H7, F12: H13) trả về giá trị p-value là 0,0389, nhỏ hơn = 0,05; do đó, chúng tôi bác bỏ giả thuyết không.

a) Lưu ý khi sử dụng kiểm định Chi-Square

Đầu tiên, khi sử dụng PivotTable để xây dựng bảng chéo và thực hiện kiểm định chi-square trong Excel tương tự như Hình 1.17, hãy cực kỳ thận trọng với các ô trống trong PivotTable. Các ô trống sẽ không được tính trong các phép tính chi-square và sẽ dẫn đến lỗi. Nếu bạn có các ô trống trong PivotTable, chỉ cần thay thế chúng bằng các số 0 hoặc nhấp chuột phải vào PivotTable, chọn PivotTable Options và nhập 0 vào trường cho ô For empty cells show.

Thứ hai, kiểm định chi-square giả định tần suất các ô dự kiến đầy đủ . Một nguyên tắc nhỏ là không có quá 20% số ô có tần suất dự kiến nhỏ hơn 5 và không có tần suất dự kiến bằng không. Các thống kê nâng cao

hơn thường dùng để xử lý việc này, nhưng bạn có thể xem xét tổng hợp một số hàng hoặc cột theo kiểu logic để thực thi giả định này. Điều này, tất nhiên, dẫn đến ít hàng hoặc cột hơn.

Một phần của tài liệu Khai phá dữ liệu kiểm định thống kê trong excel (Trang 30 - 34)

Tải bản đầy đủ (DOCX)

(35 trang)
w