Phân tích phương sai (ANOVA)

Một phần của tài liệu Khai phá dữ liệu kiểm định thống kê trong excel (Trang 25 - 30)

Tới thời điểm này, ta đã thảo luận về các loại kiểm định giả thuyết so sánh các tham số mẫu với một hằng số hoặc so sánh hai giá trị trung bình mẫu. Thông thường, ta so sánh giá trị trung bình của một vài nhóm khác nhau để quyết định xem nếu tất cả các giá trị đó bằng nhau hoặc bất kì một giá trị nào khác với các giá trị còn lại

VÍ DỤ 1.13 Sự khác biệt trong dữ liệu về Insurance

Trong file Excel Insurance Data, ta quan tâm đến việc liệu có tồn tại sự sai khác giữa các mức độ hài lòng của các cá nhân ở các cấp độ giáo dục. Ta sẽ sắp xếp dữ liệu theo cấp độ giáo dục và tạo ra bảng tương ứng dưới đây:

Mặc dù trung bình các điểm đánh giá mức độ hài lòng của mỗi nhóm là khá khác nhau và nếu trung bình này ở Graduate Degree cao hơn các loại khác, ta không thể hoàn toàn khẳng định rằng liệu sự khác biệt này có ý nghĩa nghĩa hay không.

Trong thuật ngữ thống kê, biến quan tâm được gọi là một nhân tố. Trong ví dụ này, nhân tố là cấp độ giáo dục và chúng tôi có ba cấp độ phân loại của yếu tố này college graduate, graduate degree, và some college. Do đó, dường như chúng ta sẽ phải thực hiện ba kiểm định cặp đôi khác nhau để xác định xem có sự khác biệt đáng kể nào tồn tại giữa chúng hay không. Khi số lượng các nhân tố tăng lên, bạn có thể dễ dàng thấy rằng số lượng kiểm định cặp tăng lên rất nhanh

May mắn thay, Có một công cụ thống kê khác tồn tại mà loại bỏ sự cần thiết của một phương pháp mà phải thực hiện nhiều lần như vậy. Phân tích phương sai (ANOVA) là một trong số đó. Giả thuyết gốc cho ANOVA là trung bình mẫu của tất cả các nhóm đều bằng nhau; giả thuyết thay thế là ít nhất một giá trị trung bình khác với phần còn lại:

H0:μ1=μ2==μm

H1 : ít nhất một μk khác với các giá trị còn lại

ANOVA xuất phát từ tên của nó từ thực tế là ta đang phân tích phương sai trong dữ liệu; về cơ bản, ANOVA tính toán phương sai giữa giá trị trung bình của từng nhóm và thước đo phương sai trong các nhóm và kiểm tra một thống kê kiểm tra tỷ lệ của các biện pháp này. Thống kê kiểm tra này có thể được hiển thị là có phân phối F (tương tự như kiểm tra về sự bằng nhau của phương sai). Nếu thống kê F đủ lớn dựa trên mức ý nghĩa được chọn và vượt quá giá trị tới hạn, chúng tôi sẽ bác bỏ giả thuyết khống. Excel cung cấp công cụ Data Analysis tool, ANOVA:

Single Factor để tiến hành phân tích phương sai.

VÍ DỤ 1.14 Áp dụng Excel ANOVA Tool

Để kiểm tra giả thuyết không rằng mức độ hài lòng trung bình của tất cả các cấp giáo dục trong file Excel Insurance Survey đều bằng nhau với giả thuyết thay thế rằng ít nhất một trung bình là khác nhau, ta chọn ANOVA: Single Factor từ Data Analysis Tool. Trước tiên, bạn phải thiết lập bảng tính sao cho dữ liệu bạn muốn sử dụng được hiển thị trong các cột liền kề như trong ví dụ 1.13. Trong hộp thoại hiển thị trong hình 7.13, ta điền phạm vi đầu vào của dữ liệu (phải nằm trong các cột liền kề) và dữ liệu được lưu trữ trong các hàng hoặc cột (tức là, mỗi cấp độ hoặc nhóm yếu tố là một hàng hoặc cột trong phạm vi) . Kích thước mẫu cho từng cấp độ yếu tố không cần phải giống nhau, nhưng phạm vi đầu vào phải là một vùng hình chữ nhật chứa tất cả dữ liệu. Bạn cũng phải xác định mức ý nghĩa α

Các kết quả cho ví dụ này được đưa ra trong hình 1.14. Output bắt đầu với một báo cáo tóm tắt các số liệu thống kê cơ bản cho mỗi nhóm. Phần ANOVA báo cáo thoong tin chi tiết cho kiểm định giả thuyết. Bạn không cần lo lắng về tất cả các thông số toán học. Thông tin quan trọng để diễn giải kiểm định được đưa ra trong các cột có nhãn F (F-test statistic), giá trị P (p-value)F crit (giá trị tới hạn từ phân phối F) . Trong ví

dụ này, F = 3,92F crit3,4668. Ở đây F >F crit; do đó, chúng ta phải bác bỏ giả thuyết không và kết luận rằng có sự khác biệt đáng kể về giá trị trung bình của các nhóm; đó là, điểm đánh giá sự hài lòng về mặt trung bình không giống nhau giữa ba cấp độ giáo dục. Ngoài ra, chúng tôi thấy rằng p-value nhỏ hơn mức ý nghĩa được chọn, 0,05, dẫn đến kết luận tương tự.

Mặc dù ANOVA có thể xác định sự khác biệt giữa các giá trị trung bình mẫu, nó không thể kết luận rằng biến nào khác biệt với các biến còn lại. Để kiểm tra điều này,

ta có thể sử dụng Tukey-Kramer multiple comparison. Thật đáng tiếc, Excel không cung cấp công cụ này, nhưng ta có thể tìm thấy ở một số phần mềm khác

a) Các giả thuyết của ANOVA

ANOVA yêu cầu các giả thuyết rằng các nhóm m hoặc cấp độ yếu tố được nghiên cứu đại diện cho các quần thể có các kết quả đo:

1. được lấy ngẫu nhiên và độc lập, 2. có phân phối chuẩn, và

3. có phương sai bằng nhau.

Nếu những giả định này bị vi phạm, thì mức độ ý nghĩa và khả năng thực hiện của kiểm định có thể bị ảnh hưởng. Thông thường, giả định đầu tiên dễ dàng được xác nhận khi các mẫu ngẫu nhiên được chọn cho dữ liệu. ANOVA khá mạnh mẽ để khởi hành từ sự bình thường, vì vậy trong hầu hết các trường hợp, đây không phải là vấn đề nghiêm trọng.

Nếu cỡ mẫu bằng nhau, vi phạm giả định thứ ba không có ảnh hưởng nghiêm trọng đến kết luận thống kê; tuy nhiên, với kích thước mẫu không đồng đều, nó có thể.

Khi các giả định bên dưới ANOVA bị vi phạm, bạn có thể sử dụng nonparamet- ric test mà không yêu cầu các giả định này; chúng tôi giới thiệu cho bạn các tài liệu toàn diện hơn về thống kê để biết thêm thông tin và ví dụ

Cuối cùng, chúng tôi muốn chỉ ra rằng sinh viên thường sử dụng ANOVA để so sánh hai giá trị trung bình của 2 quần thể . Điều quan trọng là bằng cách làm điều này, bạn đang đưa ra giả định rằng các quần thể có phương sai bằng nhau (giả định 3). Do đó, bạn sẽ thấy rằng các giá trị p-value cho cả ANOVAt-Test hai mẫu với giả định Phương sai bằng nhau sẽ giống nhau và dẫn đến cùng một kết luận. Tuy nhiên, nếu các phương sai không đồng đều như thường xảy ra với dữ liệu mẫu, ANOVA có thể dẫn đến một kết luận sai lầm. Chúng tôi khuyên bạn

không nên sử dụng ANOVA để so sánh trung bình của hai quần thể, mà thay vào đó hãy sử dụng kiểm định t-test thích hợp với giả định phương sai không bằng nhau....

Một phần của tài liệu Khai phá dữ liệu kiểm định thống kê trong excel (Trang 25 - 30)

Tải bản đầy đủ (DOCX)

(35 trang)
w