1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo bài tập lớn môn học xác suất thống kê đề tài 4

31 3 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn Môn Học: Xác Suất Thống Kê Đề Tài 4
Tác giả Lê Khả Quốc, Diệp Vĩnh Tài, Phan Minh Thy, Đặng Công Cường, Hoàng Đăng Duy, Phạm Tấn Huy, Nguyễn Hoàng Hưng
Người hướng dẫn PGS.TS Nguyễn Đình Huy
Trường học Trường đại học Bách Khoa TP.HCM
Chuyên ngành Xác suất Thống Kê
Thể loại Báo cáo bài tập lớn
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 31
Dung lượng 3,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một số giả định khi phân tích ANOVA Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên.. Các nhóm so sánh phải có phân phối chuẩn or cỡ mẫu phải đủ lớn để được xem như tiệm

Trang 1

BÁO CÁO BÀI T P L N Ậ Ớ

Trang 2

II HỒI QUY TUY N TÍNH 8 Ế HOẠT ĐỘNG 1: 10

giữa các hãng bay 23

Trang 3

phân tích t ng quy mô bi n thiên c a bi n s ph ổ ế ủ ế ố ụ thuộ c (t ng quy mô bi n thiên ổ ế ở đây

có tương quan với nhau hay không

vọng

2 Một số giả định khi phân tích ANOVA

Các nhóm so sánh phải độc lập và được chọn một cách ngẫu nhiên

Các nhóm so sánh phải có phân phối chuẩn or cỡ mẫu phải đủ lớn để được xem như tiệm cận phân phối chuẩn

Phương sai của các nhóm so sánh phải đồng nhất

Ví dụ: Phân tích sự khác biệt giữa các thuộc tính khách hàng (giới tính, tuổi, nghề

Trang 4

hài lòng) Như trường hợp giữa Nam và Nữ thì đối tượng nào có điểm Hài Lòng cao hơn khi mua một sản phẩm nào đó Đó chính là trường hợp dùng phân tích ANOVA

3 Mô hình toán học phân tích ANO VA mộ t nhân t

khác nhau hoàn toàn:

biến phụ thuộc

Trang 5

ϭ > 0,05: chấp nhận Ho → chưa đủ điều kiện để khẳng định có sự khác biệt giữa các nhóm đối với biến phụ thuộc

Khi có sự khác biệt thì có thể phân tích sâu hơn để tìm ra sự khác biệt như thế nào giữa các nhóm quan sát bằng các kiểm định Tukey, LSD, Bonferroni, Duncan như hình

giữa các nhóm

SSE (SSB) : T ổng bình phương sai số ;

2 2

1 1

1

.

I J ij

i j I i i

Trang 6

Trung bình bình phương

Trung bình bình phương toàn phần

1

SST MST IJ

=

Nếu

0

0

Trang 7

=

Trang 8

II HỒI QUY TUYẾN TÍNH Hồi quy tuy ến tính đơn biế n

hồi quy tuyến tính đơn

Ví dụ:

Trang 9

Hồi quy tuy ến tính đa biế n

Hồi quy đa biến là nhiều biến độc lập cùng ảnh hưởng lên một biến phụ thuộc, chúng

ta có mô hình hồi quy bội (đa biến) Chẳng hạn, số dặm của phương tiện giao thông đi được

được mô hình hồi quy đa biến:

Phương trình hồi quy đa biến:

Ví dụ:

Trang 10

ra sự khởi hành trễ hoặc hoãn các chuyến bay Chi tiết về bộ dữ liệu như sau:

Các biến chính trong bộ dữ liệu:

1 year, month, day: ngày khởi hành của mỗi chuyến bay

2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v

3 origin và dest: tên sân bay đi và đến Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle)

và PDX (Portland)

4 dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)

5 dep_delay và arr_time: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé

6 distance: khoảng cách giữa hai sân bay (dặm) Các bước thực hiện:

1 Đọc dữ liệu (Import data): flights.rda

3 Làm rõ dữ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

Trang 11

4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay

5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu

tố ảnh hưởng đến việc lệch giờ đến (arr_time) của các chuyến bay

Trang 12

2 Làm s ch d u (Data cleaning): NA (d ữ liệ ữ liệu khuyết)

“newflights” để xử lý các bài toán về sau INPUT:

newflights <- flights[,c(4,5,6,7,8,11)]

shortnewflights <- newflights[1:20,]

print(shortnewflights)

OUTPUT:

Trang 13

Tìm dữ liệu NA (d u khuy t) và x ữ liệ ế ử lý:

INPUT:

> r_na <- colSums(is.na(newflights))/162049

> print(r_na)

OUTPUT:

arr_time, arr_delay có d ữ liệ u b ị khuyết l ần lượ t là 0.5288524%, 0.5288524%,

Sau đó ta sẽ tìm các chuyến bay có dữ liệu khuyết

Trang 14

Nh ận xét: Ta chỉ xu ất 20 dòng đầ u tiên vì các chuy n bay có d ế ữ liệ u NA quá l n ớ

Trang 15

INPUT:

>library(mice)

>md.pattern(newflights)

OUTPUT:

Trang 17

3 Làm rõ d u (Data visualization) ữ liệ

(carrier).

> library(dplyr)

> library(knitr)

> nF_summ <- newflights %>% group_by(carrier) %>%

summarize(size = n(), mean = mean(dep_delay, na.rm = TRUE),

sd = sd(dep_delay, na.rm = TRUE), min = min(dep_delay, na.rm = TRUE), first_quartile = quantile(dep_delay, 0.25, na.rm = TRUE), median = median(dep_delay, 0.75, na.rm = TRUE), third_quartile = quantile(dep_delay, 0.75, na.rm = TRUE), max = max(dep_delay, na.rm=TRUE))

> kable(nF_summ)

OUTPUT:

Trang 18

b) Vẽ đồ thị boxplot cho th i gian kh i hành tr ờ ở ễ dep_delay tương ứ ng v ới

Nhận xét ta s quan sát th y r ng có r t nhi : ẽ ấ ằ ấ ều điểm outliers trên các đồ thị

boxplot v a v ừ ẽ (đố ớ i v i bi n dep_delay) ế Do đó ta sẽ ử ụ s d ng kho ng t phân v ả ứ ị (interquartile range) để loại bỏ các điể m outlier này và vẽ l ại các đồ thị boxplot cho dep_delay

Trang 19

INPUT:

>ggplot(aes(x = carrier, y = dep_delay), data = newflights) + geom_boxplot(outlier.shape

= NA) + coord_cartesian(ylim = c(-20, 45)) + stat_summary(fun = "mean", geom = "point", color = "red")

OUTPUT:

Trang 20

Nhận xét:

Hãng AA:

Hãng AS:

Hãng B6:

Hãng DL:

Trang 21

Trong số 50% các trườ ng h ợp đượ c kh ảo sát đề u có s phút kh i hành tr ng n ố ở ễ ắ hơn so

Hãng F9:

Hãng HA:

Hãng OO:

Trang 22

Hãng UA:

Hãng US:

Hãng VX:

Hãng WN:

Trang 23

với số phút kh ởi hành trễ trung bình và đượ c phân b ố trong kho ng bay s ả ớm hơn dự đị nh

4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay

(dep_delay) giữa các hãng bay

INPUT:

Trang 25

Sử d ng ki ụ ểm đị nh Shapiro - Wilk để ể ki m tra th ời gian khởi hành tr ễ có phân phối chuẩn hay không

INPUT:

> shapiro.test(khoi_hanh_tre[1:5000,1])

OUTPUT:

Trang 26

Nhận xét Vì p - giá tr < 2.2e-16 < 0,05 nên bi n th i gian kh i hành tr t Portland : ị ế ờ ở ễ ừ

INPUT:

> qqnorm(khoi_hanh_tre$dep_delay, col = 'red')

> qqline(khoi_hanh_tre$dep_delay, col = 'green')

OUTPUT:

Trang 27

Nhận xét : do đó , th i gian kh i hành tr ờ ở ễ giữa các chuyế n bay c a các hãng hàng ủ

Trang 28

Phân tích phương sai bằng phân tích anova một nhân t ố và tóm tắ ại t l INPUT:

> khoi_hanh_tre_anova <- aov(dep_delay ~ carrier, data = khoi_hanh_tre)

MSW = SSW/(N-k) = 922 Thống kê ki ểm đị nh F = MSB/MSW = 109.3

Trang 29

p-value < 2e-16 r t bé ấ

hàng không với chuyến bay khởi hành từ Portland

So sánh bội sau khi phân tích phương sai INPUT:

> TukeyHSD(khoi_hanh_tre_anova)

OUTPUT:

Ngày đăng: 07/09/2023, 23:07

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w