Một số giả định khi phân tích ANOVA Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.. Trong số 50% các trường hợp được khảo sát đều có s phút kh i hành tr ngố ở ễ ắn hơn
PHÂN TÍCH PHƯƠNG SAI MỘT NHÂN TỐ (ANOVA)
Định nghĩa
Phân tích phương sai (ANOVA) là một trong những thuật toán quan trọng trong thống kê, được sử dụng để phân tích sự biến thiên của các biến số Phương pháp này giúp phân chia tổng biến thiên thành nhiều phần, mỗi phần tương ứng với sự biến thiên của một hoặc nhiều biến độc lập ANOVA được áp dụng để kiểm định giả thuyết H0, nhằm xác định xem các mẫu thu được có xuất phát từ cùng một tổng thể hay không Kết quả kiểm định cho phép chúng ta biết liệu các mẫu thu được có tương quan với nhau hay không.
ANOVA là một phương pháp thống kê dùng để phân tích các biến định lượng thông qua việc phân tích phương sai, nhằm xác định sự khác biệt hoặc tương đồng giữa các nhóm kỳ vọng.
Ví d : Phân tích y u tụ ế ố năng suất làm vi c c a 1 nhân viên ệ ủ nào đó ở trong công ty (yếu t nguyên nhân) ố ảnh hưởng đến kết quả công vi c ệ (yếu t k t qu ) ố ế ả
M ột số giả định khi phân tích ANOVA
Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên
Các nhóm so sánh phải có phân phối chuẩn or cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn
Phương sai của các nhóm so sánh phải đồng nhất
Nếu giả định tổng thể có phân phối chuẩn với phương sai bằng nhau không được đáp ứng, thì có thể sử dụng kiểm định phi tham số Kruskal-Wallis để thay thế cho ANOVA.
Phân tích sự khác biệt giữa các thuộc tính khách hàng như giới tính, tuổi, nghề nghiệp và thu nhập có thể giúp hiểu rõ hơn về các yếu tố ảnh hưởng đến sự hài lòng của họ Ví dụ, trong trường hợp so sánh giữa nam và nữ, việc xác định ai có điểm hài lòng cao hơn khi mua một sản phẩm cụ thể là một ứng dụng điển hình của phân tích ANOVA.
Mô hình toán học phân tích ANOVA m t nhân t 4 ộ ố II HỒI QUY TUY N TÍNH 8Ế HOẠT ĐỘNG 1
Giả thuyết H0: Ta đặt các giá tr trung bình (k v ng) c a các nhóm c n phân tích ị ỳ ọ ủ ầ lần lượt là 1 , 2 , , , 3 i Gi ảthiết H0 có công thức như sau:
Hay các kì vọng của các nhóm tương đương và bằng nhau
Giả thuyết H1(đối thuyết): các nhóm có sự khác bi t, tuy nhiên, các kì v ng không ệ ọ khác nhau hoàn toàn:
Levene test : kiểm định phương sai bằng nhau hay không giữa các nhóm ϭ (sigma) ≤ 0,05: bác bỏ Ho ϭ > 0,05: chấp nhận Ho → đủ điều kiện để phân tích tiếp anova
Kiểm định ANOVA cho thấy nếu giá trị p (ϭ) nhỏ hơn hoặc bằng 0,05, chúng ta bác bỏ giả thuyết không (Ho) và khẳng định có sự khác biệt giữa các nhóm đối với biến phụ thuộc Ngược lại, nếu ϭ lớn hơn 0,05, chúng ta chấp nhận Ho, điều này có nghĩa là chưa đủ điều kiện để xác định sự khác biệt giữa các nhóm đối với biến phụ thuộc.
Khi có sự khác biệt giữa các nhóm quan sát, có thể sử dụng các kiểm định như Tukey, LSD, Bonferroni và Duncan để phân tích sâu hơn Những kiểm định này thuộc loại kiểm định sâu ANOVA, còn được gọi là kiểm định Post-Hoc.
Sự bi n thiên trong d ế ữliệu phân tích là m u chấ ốt để ki m tra s khác bi t v kì v ng ể ự ệ ề ọ giữa các nhóm
Sự bi n thiên toàn ph n trong dế ầ ữ liệu, hay tổng bình phương toàn phần, b ng t ng ằ ổ các tổng bình phương nghiệm thức và t ng bìnổ h phương sai số
SST: Tổng bình phương toàn phần;
SSTr (SSW): Tổng bình phương nghiệm thức;
SSE (SSB): Tổng bình phương sai số;
I, J: kích thước các mẫu, hay kích thước bảng s u, l n ốliệ ầ lượt là c t và hàng ộ Để cho việc tính toán các tổng nhanh chóng, ta rút g n phép tính: ọ
Trung bình bình phương toàn phần
− Trung bình bình phương nghiệm thức
− Trung bình bình phương sai số
− Đại lượ ng th ố ng kê ki ểm đị nh
Với mức ý nghĩa , ta xác định được đại lượng kiểm định thống kê F o = F − , 1, ( I I J − 1) qua b ng tra Fisher ả
F F 0, ta bác b ỏgiảthuyết H0, ch p nh n gi thuy t H ấ ậ ả ế 1đề ra tương ứng;
F F 0, ta ch p nh n gi thuyấ ậ ả ết H0, bác b giỏ ả thuyết đề ra.
Thiết lập bảng phân tích phương sai để có cái nhìn trực quan hơn về thành phần:
Tác nhân B ậ c t ự do df T ổ ng bình phương SS
Trung bình bình phương MS Đại lượ ng ki ể m đị nh F
Nghi ệ m th c ứ I-1 SSTr MSTr MSTr
Ta ch so sánh b i hỉ ộ ậu phân tích phương sai khi ANOVA khi giả thuy t H b bác ế 0 ị bỏ, tức FF 0
Phép phân tích phương sai ANOVA chỉ ra sự khác biệt giữa các nhóm mà không xác định được nhóm nào gây ra sự khác biệt đó Để tìm hiểu nguyên nhân cụ thể của sự khác biệt, chúng ta sử dụng phương pháp so sánh bội Trong ANOVA một nhân tố, phương pháp so sánh đơn giản là độ lệch nhỏ nhất (LSD - least significant difference).
Ta s d ng LSD nh m so sánh t t c các c p kì v ng v i giử ụ ằ ấ ả ặ ọ ớ ả thuyết i j , qua thống kê
Với giả thuyết H1 cho 2 v , c p k v ng ế ặ ỳ ọ i j và có ý nghĩa khi X I − X J LSD , trong đó 1
II HỒI QUY TUYẾN TÍNH
Hồi quy tuyến tính đơn biến
Lý thuyết hồi quy đơn biến nghiên cứu mối quan hệ giữa biến ngẫu nhiên Y và biến ngẫu nhiên X đã biết Biến X được gọi là biến độc lập, trong khi Y là biến phụ thuộc Hồi quy giúp dự đoán giá trị của Y dựa trên giá trị của X.
Y là biến phụ thuộc, hay biến được giải thích Mục tiêu là tìm hàm f(X) sao cho chính xác nhất Trong mối liên hệ hàm số, với mỗi giá trị X ta tìm được duy nhất một giá trị Y Tuy nhiên, trong thống kê, một giá trị X có thể tương ứng với nhiều giá trị Y khác nhau, vì ngoài biến chính là X, biến Y còn chịu tác động bởi một số yếu tố khác.
Trong mối liên hệ hàm số, với mỗi giá trị X ta có thể tìm được duy nhất một giá trị Y Tuy nhiên, trong thống kê, một giá trị X có thể tương ứng với nhiều giá trị Y khác nhau, vì ngoài biến chính là X, biến Y còn chịu tác động bởi một số yếu tố khác Định nghĩa hồi quy: Hàm hồi quy của Y theo X chính là kênh dự đoán có điều kiện của Y.
Y đối với X, tức là E(Y|X) Hàm hồi quy có dạng f (X) = E(Y|X) = a + b.X gY ọi là hàm hồi quy tuyến tính đơn
Hồi quy tuyến tính đa biến
Hồi quy đa biến là phương pháp phân tích trong đó nhiều biến độc lập tác động đến một biến phụ thuộc Ví dụ, số dặm mà phương tiện giao thông di chuyển phụ thuộc vào khối lượng của phương tiện và dung tích động cơ Do đó, chúng ta có thể xây dựng mô hình hồi quy bội để thể hiện mối quan hệ này.
Phương trình hồi quy đa biến:
Tập tin flights.rda chứa thông tin về 162049 chuyến bay khởi hành từ hai sân bay lớn SEA ở Seattle và PDX ở Portland trong năm 2014 Dữ liệu này, được cung cấp bởi Văn phòng Thống kê Vận tải Mỹ, được sử dụng để phân tích nguyên nhân gây ra sự khởi hành trễ hoặc hoãn chuyến bay.
Các biến chính trong bộ dữ liệu:
1 year, month, day: ngày khởi hành của mỗi chuyến bay
2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v
3 origin và dest: tên sân bay đi và đến Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle) và PDX (Portland)
4 dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
5 dep_delay và arr_time: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé
6 distance: khoảng cách giữa hai sân bay (dặm)
1 Đọc dữ liệu (Import data): flights.rda
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3 Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay
5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_time) của các chuyến bay
Đọc dữ u (Import data) 11 liệ 2 Làm sạch dữ u (Data cleaning): NA (dliệ ữ liệ u khuy 12ết) 3 Làm rõ dữ u (Data visualization) 17liệ 4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay
2 Làm s ch d u (Data cleaning): NA (d ạ ữliệ ữliệu khuyết)
Trích xuất dữ liệu từ “flights” thành “newflights” giúp giảm kích thước dữ liệu, vì dữ liệu gốc quá lớn và chỉ hiển thị 20 dòng đầu trên màn hình Chúng ta sẽ sử dụng dữ liệu này để phân tích.
“newflights” để xử lý các bài toán về sau
INPUT: newflights ggplot(aes(x = carrier, y = dep_delay), data = newflights) + geom_boxplot(outlier.shape
= NA) + coord_cartesian(ylim = c(-20, 45)) + stat_summary(fun = "mean", geom = "point", color = "red")
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 10.59 phút trong t ng ế ổ số 7586 chuyến bay được khảo sát
Trong 50% các trường hợp được khảo sát, thời gian khởi hành sớm hơn so với thời gian khởi hành trễ trung bình, và các chuyến bay này thường được phân bố trong khoảng thời gian sớm hơn so với dự định.
6 phút và bay tr ễ hơn dự định 7 phút
Thời gian khởi hành trễ nhất của một chuyến bay hãng này là 1533 phút, trong khi thời gian khởi hành sớm nhất là 18 phút.
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 2.78 phút ế trong t ng s 62460 chuyổ ố ến bay được kh o sát ả
Trong 50% các trường hợp được khảo sát, thời gian khởi hành sớm hơn so với số phút khởi hành trễ trung bình, và thời gian này được phân bố trong khoảng bay sớm hơn dự định.
5 phút và bay tr ễ hơn dự định 2 phút
Thời gian kh i hành trễ c a một chuy n bay hãng này l n nh t là 866 phút, ở ủ ế ớ ấ thời gian khởi hành s m cớ ủa một chuy n bay hãng này l n nhế ớ ất là 25 phút.
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 8.46 phút trong t ng ế ổ số 3540 chuyến bay được khảo sát
Trong 50% trường hợp được khảo sát, hầu hết các chuyến bay có thời gian khởi hành trễ ngắn hơn so với thời gian khởi hành trễ trung bình Cụ thể, các chuyến bay này thường cất cánh sớm hơn 6 phút so với dự định và trễ hơn 9 phút so với lịch trình.
Thời gian kh i hành trễ c a một chuy n bay hãng này l n nh t là 365 phút, ở ủ ế ớ ấ thời gian khởi hành s m cớ ủa một chuy n bay hãng này l n nhế ớ ất là 20 phút.
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 4.82 phút trong t ng ế ổ số 16716 chuyến bay được khảo sát
Trong 50% trường hợp được khảo sát, thời gian khởi hành sớm hơn so với thời gian khởi hành trễ trung bình, và các chuyến bay này thường được phân bố trong khoảng thời gian sớm hơn so với dự định.
4 phút và bay tr ễ hơn dự định 4 phút
Thời gian kh i hành trễ c a một chuy n bay hãng này l n nh t là 866 phút, ở ủ ế ớ ấ thời gian khởi hành s m cớ ủa một chuy n bay hãng này l n nhế ớ ất là 19 phút.
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 10.15 phút trong t ng ế ổ số 2698 chuyến bay được khảo sát
Trong 50% các trường hợp được khảo sát, hầu hết có thời gian khởi hành trễ ngắn hơn so với thời gian khởi hành trễ trung bình Cụ thể, các chuyến bay được phân bố sớm hơn dự định 6 phút và trễ hơn dự định 11 phút.
Thời gian kh i hành trễ c a một chuy n bay hãng này l n nh t là 815 phút, ở ủ ế ớ ấ thời gian khởi hành s m cớ ủa một chuy n bay hãng này l n nhế ớ ất là 20 phút.
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 2.58 phút trong t ng ế ổ số 1095 chuyến bay được khảo sát
Trong năm 2014, 50% chuyến bay của hãng hàng không này đã khởi hành sớm, với thời gian khởi hành sớm hơn dự kiến từ 1 đến 7 phút.
Thời gian kh i hành trễ c a một chuy n bay hãng này l n nh t là 878 phút, ở ủ ế ớ ấ thời gian khởi hành s m cớ ủa một chuy n bay hãng này l n nhế ớ ất là 17 phút
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 4.43 phút trong t ng ế ổ số 18710 chuyến bay được khảo sát
Trong năm 2014, 50% chuyến bay của hãng này khởi hành sớm, trung bình sớm hơn 7 phút so với thời gian dự kiến.
Thời gian kh i hành trễ c a một chuy n bay hãng này l n nh t là 677 phút, ở ủ ế ớ ấ thời gian khởi hành s m cớ ủa một chuy n bay hãng này l n nhế ớ ất là 37 phút.
Số phút khởi hành tr trung bình cễ ủa một chuy n bay trong hãng là 9.795 phút trong t ng ế ổ số 16671 chuyến bay được khảo sát