Một số giả định khi phân tích ANOVA Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.. Các nhóm so sánh phải có phân phối chuẩn or cỡ mẫu phải đủ lớn để được xem như tiệm
Trang 1BÁO CÁO BÀI T P L N Ậ Ớ
Trang 2II HỒI QUY TUY N TÍNH 8 Ế HOẠT ĐỘNG 1: 10
giữa các hãng bay 23
Trang 3phân tích t ng quy mô bi n thiên c a bi n s ph ổ ế ủ ế ố ụ thuộ c (t ng quy mô bi n thiên ổ ế ở đây
có tương quan với nhau hay không
vọng
2 Một số giả định khi phân tích ANOVA
Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên
Các nhóm so sánh phải có phân phối chuẩn or cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn
Phương sai của các nhóm so sánh phải đồng nhất
Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng (giới tính, tuổi, nghề
Trang 4hài lòng) Như trường hợp giữa Nam và Nữ thì đối tượng nào có điểm Hài Lòng cao hơn khi mua một sản phẩm nào đó Đó chính là trường hợp dùng phân tích ANOVA
3 Mô hình toán học phân tích ANO VA mộ t nhân t ố
khác nhau hoàn toàn:
biến phụ thuộc
Trang 5ϭ > 0,05: chấp nhận Ho → chưa đủ điều kiện để khẳng định có sự khác biệt giữa các nhóm đối với biến phụ thuộc
Khi có sự khác biệt thì có thể phân tích sâu hơn để tìm ra sự khác biệt như thế nào giữa các nhóm quan sát bằng các kiểm định Tukey, LSD, Bonferroni, Duncan như hình
giữa các nhóm
SSE (SSB) : T ổng bình phương sai số ;
2 2
1 1
1
.
I J ij
i j I i i
Trang 6Trung bình bình phương
Trung bình bình phương toàn phần
1
SST MST IJ
=
Nếu
0
0
Trang 7=
Trang 8II HỒI QUY TUYẾN TÍNH Hồi quy tuy ến tính đơn biế n
hồi quy tuyến tính đơn
Ví dụ:
Trang 9Hồi quy tuy ến tính đa biế n
Hồi quy đa biến là nhiều biến độc lập cùng ảnh hưởng lên một biến phụ thuộc, chúng
ta có mô hình hồi quy bội (đa biến) Chẳng hạn, số dặm của phương tiện giao thông đi được
được mô hình hồi quy đa biến:
Phương trình hồi quy đa biến:
Ví dụ:
Trang 10ra sự khởi hành trễ hoặc hoãn các chuyến bay Chi tiết về bộ dữ liệu như sau:
Các biến chính trong bộ dữ liệu:
1 year, month, day: ngày khởi hành của mỗi chuyến bay
2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v
3 origin và dest: tên sân bay đi và đến Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle)
và PDX (Portland)
4 dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
5 dep_delay và arr_time: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé
6 distance: khoảng cách giữa hai sân bay (dặm) Các bước thực hiện:
1 Đọc dữ liệu (Import data): flights.rda
3 Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết)
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị
Trang 114 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay
5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu
tố ảnh hưởng đến việc lệch giờ đến (arr_time) của các chuyến bay
Trang 122 Làm s ch d u (Data cleaning): NA (d ạ ữ liệ ữ liệu khuyết)
“newflights” để xử lý các bài toán về sau INPUT:
newflights <- flights[,c(4,5,6,7,8,11)]
shortnewflights <- newflights[1:20,]
print(shortnewflights)
OUTPUT:
Trang 13Tìm dữ liệu NA (d u khuy t) và x ữ liệ ế ử lý:
INPUT:
> r_na <- colSums(is.na(newflights))/162049
> print(r_na)
OUTPUT:
arr_time, arr_delay có d ữ liệ u b ị khuyết l ần lượ t là 0.5288524%, 0.5288524%,
Sau đó ta sẽ tìm các chuyến bay có dữ liệu khuyết
Trang 14Nh ận xét: Ta chỉ xu ất 20 dòng đầ u tiên vì các chuy n bay có d ế ữ liệ u NA quá l n ớ
Trang 15INPUT:
>library(mice)
>md.pattern(newflights)
OUTPUT:
Trang 173 Làm rõ d u (Data visualization) ữ liệ
(carrier).
> library(dplyr)
> library(knitr)
> nF_summ <- newflights %>% group_by(carrier) %>%
summarize(size = n(), mean = mean(dep_delay, na.rm = TRUE),
sd = sd(dep_delay, na.rm = TRUE), min = min(dep_delay, na.rm = TRUE), first_quartile = quantile(dep_delay, 0.25, na.rm = TRUE), median = median(dep_delay, 0.75, na.rm = TRUE), third_quartile = quantile(dep_delay, 0.75, na.rm = TRUE), max = max(dep_delay, na.rm=TRUE))
> kable(nF_summ)
OUTPUT:
Trang 18b) Vẽ đồ thị boxplot cho th i gian kh i hành tr ờ ở ễ dep_delay tương ứ ng v ới
Nhận xét ta s quan sát th y r ng có r t nhi : ẽ ấ ằ ấ ều điểm outliers trên các đồ thị
boxplot v a v ừ ẽ (đố ớ i v i bi n dep_delay) ế Do đó ta sẽ ử ụ s d ng kho ng t phân v ả ứ ị (interquartile range) để loại bỏ các điể m outlier này và vẽ l ại các đồ thị boxplot cho dep_delay
Trang 19INPUT:
>ggplot(aes(x = carrier, y = dep_delay), data = newflights) + geom_boxplot(outlier.shape
= NA) + coord_cartesian(ylim = c(-20, 45)) + stat_summary(fun = "mean", geom = "point", color = "red")
OUTPUT:
Trang 20Nhận xét:
Hãng AA:
Hãng AS:
Hãng B6:
Hãng DL:
Trang 21Trong số 50% các trườ ng h ợp đượ c kh ảo sát đề u có s phút kh i hành tr ng n ố ở ễ ắ hơn so
Hãng F9:
Hãng HA:
Hãng OO:
Trang 22Hãng UA:
Hãng US:
Hãng VX:
Hãng WN:
Trang 23với số phút kh ởi hành trễ trung bình và đượ c phân b ố trong kho ng bay s ả ớm hơn dự đị nh
4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay
(dep_delay) giữa các hãng bay
INPUT:
Trang 25Sử d ng ki ụ ểm đị nh Shapiro - Wilk để ể ki m tra th ời gian khởi hành tr ễ có phân phối chuẩn hay không
INPUT:
> shapiro.test(khoi_hanh_tre[1:5000,1])
OUTPUT:
Trang 26Nhận xét Vì p - giá tr < 2.2e-16 < 0,05 nên bi n th i gian kh i hành tr t Portland : ị ế ờ ở ễ ừ
INPUT:
> qqnorm(khoi_hanh_tre$dep_delay, col = 'red')
> qqline(khoi_hanh_tre$dep_delay, col = 'green')
OUTPUT:
Trang 27Nhận xét : do đó , th i gian kh i hành tr ờ ở ễ giữa các chuyế n bay c a các hãng hàng ủ
Trang 28Phân tích phương sai bằng phân tích anova một nhân t ố và tóm tắ ại t l INPUT:
> khoi_hanh_tre_anova <- aov(dep_delay ~ carrier, data = khoi_hanh_tre)
MSW = SSW/(N-k) = 922 Thống kê ki ểm đị nh F = MSB/MSW = 109.3
Trang 29p-value < 2e-16 r t bé ấ
hàng không với chuyến bay khởi hành từ Portland
So sánh bội sau khi phân tích phương sai INPUT:
> TukeyHSD(khoi_hanh_tre_anova)
OUTPUT: