1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO CÁO BÀI TẬP LỚN MÔN HỌC XÁC SUẤT THỐNG KÊ

32 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Báo Cáo Bài Tập Lớn Môn Học Xác Suất Thống Kê
Tác giả Hoàng Phạm Minh Vũ, Nguyễn Ngọc Quốc Việt, Lâm Hải Đăng, Nguyễn Hà Anh Minh, Lê Tấn Phát
Người hướng dẫn ThS. Nguyễn Kiều Dung
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Cơ Khí
Thể loại bài tập lớn
Năm xuất bản 2021
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 32
Dung lượng 1,72 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hình 6: code R và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãnghàng không carrierHình 7: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của bi

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA CƠ KHÍ

BÁO CÁO BÀI TẬP LỚN

MÔN HỌC XÁC SUẤT THỐNG KÊ HỌC KỲ 211

NHÓM: CK04 - ĐỀ TÀI: 04

GIẢNG VIÊN HƯỚNG DẪN: ThS NGUYỄN KIỀU DUNG

DANH SÁCH NHÓM:

1 Hoàng Phạm Minh Vũ 2010796 L01/A Cơ Khí

2 Nguyễn Ngọc Quốc Việt 2015048 L04/C Cơ Khí

4 Nguyễn Hà Anh Minh 2010796 L14/A Cơ Khí

Tp Hồ Chí Minh, Tháng 01/11/2021

Trang 2

PHÂN CÔNG LÀM VIỆC

1 Hoàng Phạm Minh Vũ

2 Nguyễn Ngọc Quốc Việt

4 Nguyễn Hà Anh Minh

Trang 3

Mục lục

1.1 Đề bài 6

1.2 Cơ sở lý thuyết 6

1.3 Thực hiện 7

1.3.1 Đọc dữ liệu (Import data) 7

1.3.2 Làm sạch dữ liệu (Data cleaning) 7

1.3.3 Làm rõ dữ liệu: (Data visualization) 8

1.3.4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay 14

1.3.5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu tố ảnh hưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay 27 2 Hoạt động 2 30 2.1 Đề bài 30

Trang 4

Danh sách bảng

Trang 5

11 code R và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 11

12 code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng hàngkhông 11

13 code R khi ghép các dữ liệu lại với nhau và lưu lại vào new_DF3 11

14 code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA 11

15 code R và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từnghãng hàng không (carrier)

Trang 6

23 code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãnghàng không HA

30 code R và kết quả khi thực hiện ANOVA một nhân tố 26

31 code R và kết quả khi xây dựng mô hình hồi quy tuyến tính lm_model_1

Trang 7

• year, month, day: ngày khởi hành của mỗi chuyến bay

• carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA = United AirLines, AA = American Airlines, DL = Delta Airlines, v.v

• origin và dest: tên sân bay đi và đến Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle) vàPDX (Portland)

• dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)

• dep_delay và arr_delay: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thờigian cất cánh/hạ cánh in trong vé

• distance: khoảng cách giữa hai sân bay (dặm)

Các bước thực hiện:

1 Đọc dữ liệu (Import data): "flights.rda"

2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)

3 Làm rõ dữ liệu: (Data visualization)

(a) Chuyển đổi biến (nếu cần thiết)

(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị

4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay) giữa các hãng bay

5 Mô hình hồi quy tuyến tính: Sử dụng một mô hình hồi quy phù hợp để phân tích các yếu tố ảnhhưởng đến việc lệch giờ đến (arr_delay) của các chuyến bay

1.2 Cơ sở lý thuyết

Trang 8

1.3 Thực hiện

1.3.1 Đọc dữ liệu (Import data)

Đọc tệp tin "flights.rda"

Hình 1: code R và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin

1.3.2 Làm sạch dữ liệu (Data cleaning)

Tạo một tệp tin mới chỉ bao gồm các biến chính mà đề bài đưa ra, lưu với tên là new_DF

Hình 2: code R và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính

Kiểm tra dữ liệu khuyết trong tệp tin

Hình 3: code R và kết quả khi kiểm tra dữ liệu khuyết trong tệp tin

Nhận xét: Dựa vào kết quả thu được ở bảng thống kê tỷ lệ giá trị khuyết đối với từng biến, ta nhậnthấy có nhiều giá trị khuyết tại biến arr_delay, arr_time, dep_time, dep_delay Vì lượngkhuyết trong dữ liệu chỉ chiếm tối đa 4% lượng quan sát (dưới 10%), do đó ta lựa chọn phương phápxoá các quan sát của biến nào có giá trị khuyết trong tệp tin new_DF

Trang 9

Hình 4: code R khi xoá các quan sát chứa dữ liệu khuyết

Kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã xoá

Hình 5: code R và kết quả khi kiểm tra lại số lượng và tỉ lệ quan sát chứa dữ liệu khuyết đã xoá

Nhận xét: Ta nhận thấy số lượng quan sát sau khi xoá là 1301 quan sát, chiếm tỷ lệ 0.8% so với dữliệu ban đầu, có thể thấy việc xoá các quan sát của biến có giá trị khuyết trong tệp tin newDF khôngảnh hưởng nhiều đến kết quả của dữ liệu

1.3.3 Làm rõ dữ liệu: (Data visualization)

Tính các giá trị thống kê mô tả (cỡ mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phânvị) của chênh lệch giữa thời gian cất cánh thực tế và thời gian cất cánh/hạ cánh in trong vé (biếndep_delay) của từng hãng hàng không (carrier) Xuất kết quả dưới dạng bảng

Vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier)

Trang 10

Hình 6: code R và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãnghàng không (carrier)

Hình 7: code R và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từnghãng hàng không (carrier)

Nhận xét: Qua biểu đồ trên ta thấy rằng có rất nhiều điểm ngoại lai (outliers) ở biến dep_delay,điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau Do đó, ta sử dụng khoảng

tứ phân vị (interquartile range) để loại bỏ các điểm outlier

Trang 11

Ý tưởng cho bài toán: Ta sẽ chuyển các outliers của biến dep_delay ở từng hãng hàng không sang

NA Từ đó đề xuất phương pháp xử lý các NA đó

Ta tạo function xác định outliers, chuyển các outliers thành dạng NA Việc tạo function mới sẽ giúp

ta tối ưu code hơn

Hình 8: code R khi tạo function xác định outliers, chuyển các outliers thành dạng NA

Ta hiện hiện lọc các outliers tương ứng với từng hãng và chuyển thành NA

.Hình 9: code R và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA

Ghép các dữ liệu lại với nhau và lưu vào new_DF3

Hình 10: code R khi ghép các dữ liệu lại với nhau

Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 (sau khi chuyển outliers thành NA):

Trang 12

Hình 11: code R và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3

Nhận xét: Số lượng NA = 18732 và chiếm tỉ lệ 11.65% lượng quan sát của dữ liệu Trong trường hợpnày, ta không chọn phương pháp xoá các NA, vì lượng NA tương đối nhiều ( >10% dữ liệu) Do đó,

ta sẽ xử lý bằng phương pháp thay thế các NA bằng các giá trị trung bình tương ứng với từng hãnghàng không

Hình 12: code R khi thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng hàng không

Ghép các dữ liệu lại với nhau và lưu lại vào new_DF3

Hình 13: code R khi ghép các dữ liệu lại với nhau và lưu lại vào new_DF3

Kiểm tra lại NA trong data new_DF2 sau khi xử lý NA

Hình 14: code R khi kiểm tra lại NA trong data new_DF2 sau khi xử lý NA

Nhận xét: Sau khi thay thế các NA bằng các giá trị trung bình, dữ liệu đã không còn NA

Tính lại các giá trị thống kê mô tả cho biến dep_delay theo từng hãng hàng không (carrier

Trang 13

Hình 15: code R và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từnghãng hàng không (carrier)

Vẽ lại biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier)

Hình 16: code R và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theotừng hãng hàng không (carrier)

Trang 14

Nhận xét:

Đối với hãng hàng không AA:

+ Min = - 18 : Thời gian khởi hành sớm nhất: 18 phút

+ Max = 26 : Thời gian khởi hành trễ nhất: 26 phút

+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút

+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút

+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay

Đối với hãng hàng không AS:

+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút

+ Max = 12 : Thời gian khởi hành trễ nhất: 12 phút

+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút

+ Q2 = - 2.5563 : 50% chuyến bay có thời gian khởi hành sớm hơn 2.5563 phút

+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút

Đối với hãng hàng không B6:

+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút

+ Max = 31 : Thời gian khởi hành trễ nhất: 31 phút

+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút

+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút

+ Q3 = 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút

Đối với hãng hàng không DL:

+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút

+ Max = 16 : Thời gian khởi hành trễ nhất: 16 phút

+ Q1 = - 4 : 25% chuyến bay có thời gian khởi hành sớm hơn 4 phút

+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút

+ Q3 = 0 : 75% chuyến bay có thời gian khởi hành sớm hơn thời điểm dự kiến bay

Đối với hãng hàng không F9:

+ Min = - 20 : Thời gian khởi hành sớm nhất: 20 phút

+ Max = 36 : Thời gian khởi hành trễ nhất: 36 phút

+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút

+ Q2 = - 2 : 50% chuyến bay có thời gian khởi hành sớm hơn 2 phút

+ Q3 = 4 : 75% chuyến bay có thời gian khởi hành trễ từ 4 phút trở xuống

Đối với hãng hàng không HA:

+ Min = - 16 : Thời gian khởi hành sớm nhất: 16 phút

+ Max = 8 : Thời gian khởi hành trễ nhất: 8 phút

+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút

+ Q2 = - 4.5056 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.5056 phút

+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Đối với hãng hàng không OO:

+ Min = - 17 : Thời gian khởi hành sớm nhất: 17 phút

+ Max = 10 : Thời gian khởi hành trễ nhất: 10 phút

+ Q1 = - 7 : 25% chuyến bay có thời gian khởi hành sớm hơn 7 phút

+ Q2 = - 4.1136 : 50% chuyến bay có thời gian khởi hành sớm hơn 4.1136 phút

+ Q3 = - 2 : 75% chuyến bay có thời gian khởi hành sớm hơn 2 phút

Đối với hãng hàng không UA:

+ Min = - 19 : Thời gian khởi hành sớm nhất: 19 phút

+ Max = 27 : Thời gian khởi hành trễ nhất: 27 phút

+ Q1 = - 5 : 25% chuyến bay có thời gian khởi hành sớm hơn 5 phút

+ Q2 = - 1 : 50% chuyến bay có thời gian khởi hành sớm hơn 1 phút

+ Q3 = 2 : 75% chuyến bay có thời gian khởi hành trễ từ 2 phút trở xuống

Đối với hãng hàng không US:

+ Min = - 15 : Thời gian khởi hành sớm nhất: 15 phút

+ Max = 11 : Thời gian khởi hành trễ nhất: 11 phút

+ Q1 = - 6 : 25% chuyến bay có thời gian khởi hành sớm hơn 6 phút

Trang 15

+ Q2 = - 3.0085 : 50% chuyến bay có thời gian khởi hành sớm hơn 3.0085 phút.

+ Q3 = - 1 : 75% chuyến bay có thời gian khởi hành sớm 1 phút

Đối với hãng hàng không VX:

+ Min = -17 : Thời gian khởi hành sớm nhất: 17 phút

+ Max = 15 : Thời gian khởi hành trễ nhất: 15 phút

+ Q1 = -5 : 2% chuyến bay có thời gian khởi hành sớm hơn 5 phút

+ Q2 = -2.6272 : 5% chuyến bay có thời gian khởi hành sớm hơn 2.6272 phút

+ Q3 = -1 : 7% chuyến bay có thời gian khởi hành sớm hơn 1 phút

Đối với hãng hàng không WN:

+ Min = - 11 : Thời gian khởi hành sớm nhất: 11 phút

+ Max = 45 : Thời gian khởi hành trễ nhất: 45 phút

+ Q1 = - 2 : 2% chuyến bay có thời gian khởi hành sớm hơn 2 phút

+ Q2 = 3 : 50% chuyến bay có thời gian khởi hành trễ từ 3 phút trở xuống

+ Q3 = 11 : 75% chuyến bay có thời gian khởi hành trễ từ 11 phút trở xuống

1.3.4 ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay (dep_delay)

giữa các hãng bay

Ta quan tâm đến việc kiểm định rằng liệu có sự khác biệt về việc lệch giờ bay trung bình giữa cáchãng hàng không đối với các chuyến bay khởi hành từ Portland trong năm 2014 hay không?

Lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014:

Hình 17: code R và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm2014

Giải thích lý do sử dụng ANOVA một nhân tố:

Ta có 11 hãng hàng không có chuyến bay khởi hành từ Portland trong năm 2014 Để thực hiện sosánh trung bình của nhiều nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai Nếu chỉ sosánh 2 trung bình của 2 nhóm, ta có thể dùng t-test Vì vậy nếu dùng t-test cho bài toán này, ta phảithực hiện kiểm định rất nhiều lần Phương pháp phân tích phương sai cho ta kết luận sự bằng nhauhoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm định duy nhất

Như vậy ta sẽ sử dụng mô hình ANOVA một nhân tố: đánh giá sự khác biệt trong việc lệch giờ bay(dep_delay) giữa các hãng bay đối với các chuyến bay khởi hành từ Portland trong năm 2014.Trong đó:

Biến phụ thuộc: dep_delay

Các nhân tố (hay biến độc lập): carrier

Trang 16

Nguồn của sự biến thiên SS df MS FGiữa các nhóm SSB k - 1 MSB

F = M SB

M SW

Trong từng nhóm SSW N - k MSW

Các giả định cần kiểm tra trong ANOVA một nhân tố:

+ Giả định phân phối chuẩn: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởihành từ Portland tuân theo phân phối chuẩn

+ Tính đồng nhất của các phương sai: Phương sai việc lệch giờ bay ở các hãng hàng không đối vớicác chuyến bay khởi hành từ Portland bằng nhau

Kiểm tra giả định phân phối chuẩn:

Giả thuyết H0: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portlandtuân theo phân phối chuẩn

Giả thuyết H1: Việc lệch giờ bay ở các hãng hàng không đối với các chuyến bay khởi hành từ Portlandkhông tuân theo phân phối chuẩn

Hình 18: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãnghàng không AA

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kìvọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AA không tuân theo phân phốichuẩn

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác

bỏ giả thuyết H0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không AA không tuântheo phân phối chuẩn

Trang 17

Hình 19: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãnghàng không AS

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kìvọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không AS không tuân theo phân phốichuẩn

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác

bỏ giả thuyết H0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không AS không tuântheo phân phối chuẩn

Trang 18

Hình 20: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãnghàng không B6

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kìvọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không B6 không tuân theo phân phốichuẩn

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác

bỏ giả thuyết H0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không B6 không tuântheo phân phối chuẩn

Trang 19

Hình 21: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãnghàng không DL

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kìvọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không DL không tuân theo phân phốichuẩn

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác

bỏ giả thuyết H0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không DL không tuântheo phân phối chuẩn

Trang 20

Hình 22: code R và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãnghàng không F9

Nhận xét: Biểu đồ QQ-plot cho ta thấy có nhiều giá trị quan sát không nằm trên đường thẳng kìvọng của phân phối chuẩn do đó biến dep_delay ở hãng hàng không F9 không tuân theo phân phốichuẩn

Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05, nên ta bác

bỏ giả thuyết H0, nên cũng đưa ra kết luận là biến dep_delay ở hãng hàng không F9 không tuântheo phân phối chuẩn

Ngày đăng: 03/12/2022, 00:05

HÌNH ẢNH LIÊN QUAN

Hình 1: cod eR và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 1 cod eR và kết quả khi đọc tệp tên và xem 3 dòng đầu tiên của tệp tin (Trang 8)
Hình 2: cod eR và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 2 cod eR và kết quả khi tạo một tệp tin mới chỉ bao gồm các biến chính (Trang 8)
Hình 4: cod eR khi xoá các quan sát chứa dữ liệu khuyết - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 4 cod eR khi xoá các quan sát chứa dữ liệu khuyết (Trang 9)
Hình 6: cod eR và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 6 cod eR và kết quả khi tính các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) (Trang 10)
Hình 7: cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 7 cod eR và kết quả khi vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) (Trang 10)
Hình 8: cod eR khi tạo function xác định outliers, chuyển các outliers thành dạng NA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 8 cod eR khi tạo function xác định outliers, chuyển các outliers thành dạng NA (Trang 11)
Hình 9: cod eR và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 9 cod eR và kết quả khi lọc các outliers tương ứng với từng hãng và chuyển thành NA (Trang 11)
Hình 11: cod eR và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 11 cod eR và kết quả khi Kiểm tra tổng NA và tỷ lệ NA trong tệp tin new_DF3 (Trang 12)
Hình 16: cod eR và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 16 cod eR và kết quả khi lại vẽ biểu đồ boxplot thể hiện phân phối của biến dep_delay theo từng hãng hàng không (carrier) (Trang 13)
Hình 15: cod eR và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 15 cod eR và kết quả khi tính lại các giá trị thống kê mô tả cho biến dep_delay của từng hãng hàng không (carrier) (Trang 13)
Hình 17: cod eR và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014 - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 17 cod eR và kết quả khi lọc các chuyến bay các chuyến bay khởi hành từ Portland trong năm 2014 (Trang 15)
Hình 18: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 18 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AA (Trang 16)
Hình 19: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AS - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 19 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không AS (Trang 17)
Hình 20: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không B6 - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 20 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không B6 (Trang 18)
Hình 21: cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không DL - BÁO CÁO BÀI TẬP LỚN  MÔN HỌC XÁC SUẤT THỐNG KÊ
Hình 21 cod eR và kết quả khi kiểm định giả định phân phối chuẩn cho biến dep_delay ở hãng hàng không DL (Trang 19)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

🧩 Sản phẩm bạn có thể quan tâm