Dữ liệu này được dùng để phân tích các nguyên nhân gây ra sự khởi hành trễ hoặc hoãn các chuyến bay.. Dữ liệu này được dùng để phân tích các nguyên nhân gây ra sự khởi hành trễ hoặc hoãn
PHẦN CHUNG
Đề tài dựa trên tập tin flights.rda, chứa thông tin của 162.049 chuyến bay đã khởi hành trong năm 2014 từ hai sân bay lớn của vùng Tây Bắc Thái Bình Dương Mỹ, SEA (Seattle) và PDX (Portland) Dữ liệu do Văn phòng Thống kê Vận tải Mỹ (BTS) cung cấp Mục đích của dữ liệu là phân tích các nguyên nhân gây ra sự trễ hoặc hoãn chuyến bay, nhằm cải thiện hiệu suất khai thác, tối ưu lịch trình và quản lý rủi ro trong vận chuyển hàng không tại khu vực này.
1 Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả
2 Phân tích phương sai một nhân tố (one way ANOVA)
PHẦN RIÊNG
Đề tài dựa trên dữ liệu từ tập tin Data.xlsx, mô tả quá trình tái chế tro xỉ từ quá trình đốt than lắng đọng tại các bãi thải và chất thải dung dịch khoan (WDF) từ ngành khai thác dầu nhằm mục đích thay thế một phần đất sét trong vật liệu xây dựng đã được nghiên cứu Qua đó, nghiên cứu xác định cường độ chịu nén, mật độ và mật độ lỗ rỗng của vật liệu bằng các thí nghiệm tuân thủ các quy trình tiêu chuẩn, áp dụng cho các mẫu được sản xuất từ hỗn hợp hai vật liệu thải và đất sét ở các tỷ lệ khác nhau.
Dữ liệu được lấy từ: https://data.mendeley.com/datasets/z36mjhkr5n/1
1 Đọc dữ liệu (Import Data):
2 Làm sạch dữ liệu (Data Cleaning):
3 Làm rõ dữ liệu (Data visualization):
4 Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models):
PHẦN CHUNG: Tập tin flights.rda cung cấp thông tin về 162.049 chuyến bay đã khởi hành từ hai sân bay lớn ở khu vực Tây Bắc Thái Bình Dương của Mỹ, SEA (Seattle) và PDX (Portland), trong năm 2014 Dữ liệu do Văn phòng Thống kê Vận tải Mỹ (BTS) cung cấp qua trang https://www.transtats.bts.gov/ và được dùng để phân tích các nguyên nhân gây ra sự trễ hoặc hoãn chuyến bay Bộ dữ liệu này cho phép đánh giá mức độ hoạt động của các chuyến bay khu vực này và hỗ trợ các bài toán về tối ưu hóa lịch trình, quản lý rủi ro và cải thiện chất lượng dịch vụ hàng không Chi tiết về bộ dữ liệu được mô tả trong phần tiếp theo.
• Tổng chuyến bay được thống kê: 162049.
• Mô tả các biến chính:
1 year, month, day: ngày khởi hành của mỗi chuyến bay
2 carrier: tên của hãng hàng không, được mã hóa bằng 2 chữ cái in hoa Ví dụ: UA
= United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v.
3 origin và dest: tên sân bay đi và đến Đối với sân bay đi, ta chỉ có hai giá trị SEA (Seattle) và PDX (Portland)
4 dep_time và arr_time: thời gian cất cánh và hạ cánh (theo lịch dự kiến)
5 dep_delay và arr_time: chênh lệch (phút) giữa thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in trong vé
6 distance: khoảng cách giữa hai sân bay (dặm)
KHÁI NIỆM, PHÂN LOẠI ANOVA
Phân tích phương sai (ANOVA) là một phương pháp thử nghiệm hữu ích và quan trọng trong phân tích dữ liệu định lượng, cho phép so sánh sự khác biệt giữa nhiều nhóm và đánh giá tác động của các yếu tố độc lập lên biến phụ thuộc ANOVA giúp loại bỏ nhiễu từ biến ngẫu nhiên và cung cấp bằng chứng về sự khác biệt có ý nghĩa thống kê giữa các nhóm, từ đó hỗ trợ rút ra kết luận tin cậy trong nghiên cứu Ứng dụng của ANOVA rất rộng, đặc biệt trong các lĩnh vực sinh học, kinh tế và tâm lý học, nơi nó được dùng để đánh giá hiệu quả của các can thiệp, so sánh các chiến lược hay phân tích tác động của các yếu tố khác nhau lên kết quả đo lường Để diễn giải kết quả ANOVA một cách đúng đắn, người dùng cần lưu ý tổng phương sai, phân tích giữa nhóm và trong nhóm, cũng như các giả định về phân phối và đồng nhất phương sai, từ đó đưa ra quyết định dựa trên dữ liệu một cách vững chắc.
… Trong bài báo cáo này, chúng ta sẽ tìm hiểu khái niệm phân tích ANOVA và các bước phân tích ANOVA
Phân tích phương sai - ANOVA là gì ?
Phân tích phương sai (ANOVA) là một kỹ thuật kiểm định thống kê tham số được sử dụng để so sánh các bộ dữ liệu Nói một cách dễ hiểu, ANOVA đánh giá sự khác biệt tiềm ẩn trong một biến phụ thuộc ở mức quy mô được giải thích bởi một biến độc lập ở mức danh nghĩa có từ hai loại trở lên Các nhà phân tích sử dụng thử nghiệm ANOVA để xác định ảnh hưởng của các biến độc lập đối với biến phụ thuộc trong nghiên cứu hồi quy Kỹ thuật kiểm định ANOVA được phát triển bởi Ronald Fisher năm 1918.
Có nhiều hơn hai loại phân tích phương sai, tuy nhiên trong khuôn khổ nội dung bài báo cáo này chúng ta sẽ chỉ tìm hiểu hai loại thông dụng nhất là phân tích phương sai một nhân tố và phân tích phương sai hai nhân tố; a Phân tích phương sai một nhân tố là phương pháp so sánh trung bình của nhiều nhóm dựa trên một yếu tố độc lập, nhằm kiểm tra xem có sự khác biệt có ý nghĩa giữa các nhóm hay không bằng cách dùng thống kê F, kết quả cho biết mức độ tác động của yếu tố lên biến phụ thuộc và xác định nhóm nào khác biệt so với các nhóm còn lại; phân tích phương sai hai nhân tố sẽ cho phép kiểm tra đồng thời hai yếu tố và sự tương tác giữa chúng, giúp đánh giá ảnh hưởng riêng lẽ và sự kết hợp của hai yếu tố lên biến phụ thuộc và tối ưu hóa thiết kế thí nghiệm.
Phân tích phương sai một nhân tố là phân tích ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tố kết quả (định lượng).
Ví dụ: Thời gian tự học (yếu tố nguyên nhân – định tính) ảnh hưởng đến kết quả học tập (yếu tố kết quả - định lượng).
Giả sử ta có k nhóm, mỗi nhóm i có n_i phần tử được chọn từ tổng thể tương ứng Các tổng thể này có các giá trị trung bình μ_1, μ_2, , μ_k X_{ij} là giá trị quan sát thứ j của nhóm thứ i, với i = 1, , k và j = 1, , n_i.
Bảng giá trị quan sát k nhóm:
Giả sử k tổng thể có phân phối chuẩn, có phương sai bằng nhau và các mẫu là độc lập.
Bước 1: Tính giá trung bình cho từng nhóm và chung cho tất cả các nhóm.
Bước 2: Tính sự biến thiên (tổng bình phương độ lệch) giữa nội bộ nhóm.
Nhận xét: SSW hay tổng biến thiên nội bộ của các nhóm phản ánh mức độ biến thiên xảy ra bên trong mỗi nhóm do các yếu tố không liên quan đến yếu tố nghiên cứu gây ra Nói cách khác, SSW đo lượng biến thiên phát sinh từ các yếu tố phụ và sự ngẫu nhiên giữa các quan sát trong cùng một nhóm, trái với biến thiên giữa các nhóm mà ta đang phân tích Hiểu rõ SSW giúp so sánh với các thành phần biến thiên khác, như SSB, để hiểu tác động của yếu tố nghiên cứu và đánh giá mức độ nhiễu trong dữ liệu.
- Tính sự biến thiên giữa các nhóm.
Nhận xét: SSG (Sum of Squares Between Groups) phản ánh sự biến thiên của dữ liệu phát sinh từ sự khác nhau giữa các nhóm Nó đo lường phần biến thiên do các yếu tố ta đang nghiên cứu gây ra, đồng thời phân biệt với biến thiên ngẫu nhiên hoặc nội tại trong từng nhóm Do đó, SSG cho thấy mức độ ảnh hưởng của sự khác biệt giữa các nhóm lên tổng thể dữ liệu và là thành phần quan trọng trong phân tích phương sai (ANOVA).
Gọi SST là tổng biến thiên của 1 quan sát bất kỳ so với giá trị trung bình.
Tổng biến thiên = biến thiên do các yếu tố khác ( SSW) + biến thiên do yếu tố đang nghiên cứu (SSG)
Nhận xét cho thấy khi phần biến thiên do các yếu tố đang nghiên cứu tạo ra (SSG) lớn hơn phần biến thiên do các yếu tố khác tạo ra (SSW), điều này cho thấy yếu tố được nghiên cứu thực sự có ảnh hưởng đến biến kết quả, từ đó làm tăng khả năng bác bỏ H0 trong phân tích phương sai (ANOVA).
Bước 3: Tính các phương sai: phương sai do các yếu tố khác gây ra phương sai do các yếu tố nghiên cứu gây ra
Bước 4: Kiểm định giả thuyết: Xét tỉ số 2 phương sai:
Nhận xét: Nếu MSG lớn, MSW nhỏ => F lớn => bác bỏ H0
Bảng ANOVA: Kết quả phân tích phương sai thường được trình bày dưới dạng bảng sau đây.
Tổng các độ lệch bình phương
Trung bình của các độ lệch bình phương
Giá trị kiểm định F Giữa các nhóm SSG k-1
Trong nội bộ nhóm SSW n-k
Tổng cộng SST n-1 b Phân tích phương sai hai nhân tố:
ANOVA hai yếu tố là một phần mở rộng của phân tích phương sai một yếu tố, cho phép đánh giá ảnh hưởng của hai biến độc lập lên một biến phụ thuộc và xem xét cả tương tác giữa chúng Trong khi One Way ANOVA chỉ có một biến độc lập tác động lên biến phụ thuộc, thì Two-way ANOVA có hai biến độc lập và có thể xác định đồng thời tác động riêng lẽ cũng như tương tác giữa hai biến lên biến phụ thuộc.
Ví dụ: ta có thể sử dụng phân tích ANOVA hai yếu tố để xem xét có hay không sự tương tác giữa giới tính (nam/nữ) và trình độ học vấn (đại học/sau đại học) đối với sự lo lắng kiểm tra ở sinh viên đại học Trong mô hình này, giới tính và trình độ học vấn là các biến độc lập và sự lo lắng kiểm tra là biến phụ thuộc.
PHƯƠNG PHÁP PHÂN TÍCH SÂU ANOVA - KIỂM ĐỊNH TUKEY (PHÂN TÍCH HẬU ANOVA)
Kiểm định Tukey hay còn gọi là so sánh từng cặp trung bình tổng thể, với giả định
2 mẫu được lấy ngẫu nhiên độc lập từng cặp từ 2 tổng thể có phân phối chuẩn và phương sai bằng nhau.
Khi giả thuyết H0 trong kiểm định ANOVA bị bác bỏ (tức là có sự khác biệt giữa các trung bình của các tổng thể), câu hỏi tiếp theo là xác định cặp nhóm nào khác biệt và đánh giá ý nghĩa thực tế của sự khác biệt đó Nên thực hiện phân tích hậu kiểm (post-hoc) như Tukey, Bonferroni hoặc Scheffé để so sánh đôi một giữa các tổng thể và xác định nguồn gốc sự khác biệt một cách có kiểm soát sai số; đồng thời kiểm tra lại các giả định của ANOVA: phân phối chuẩn của từng nhóm, đồng nhất phương sai và sự độc lập của quan sát Kết quả cần được báo cáo đầy đủ với kích thước hiệu ứng (ví dụ eta-squared hoặc omega-squared) và khoảng tin cậy, trình bày ý nghĩa thực tế của sự khác biệt và đi kèm nhận xét về hạn chế mẫu hoặc đo lường Để tối ưu SEO, bài viết nên chứa các từ khóa như kiểm định ANOVA, giả thuyết H0, khác biệt giữa trung bình, phân tích hậu kiểm, hiệu ứng kích thước và khoảng tin cạy.
- Trung bình tổng thể nào khác nhau.
Để trả lời cho câu hỏi tổng thể nào có trung bình lớn hơn hay nhỏ hơn, ta áp dụng kiểm định Tukey để so sánh từng cặp tổng thể với nhau Phương pháp này cho phép xác định sự khác biệt giữa các trung bình một cách có kiểm soát lỗi Type I trên toàn bộ các cặp, từ đó nhận diện tổng thể có trung bình cao và tổng thể có trung bình thấp.
Giả sử cần kiểm định sự khác biệt của 3 trung bình tổng thể.
Gọi à , à , à lần lượt là trung bỡnh của 3 tổng thể tương ứng.1 2 3
Các bước kiểm định Tukey được thực hiện như sau:
Với k tổng thể thì số cặp trung bình cần so sánh
2 Tính tiêu chuẩn so sánh Tukey:
- q ; ; k n k là giá trị được tra từ bảng phân vị Tukey, với mức ý nghĩa , bậc tựα do và k n-k
- MSW là phương sai trong nội bộ nhóm.
- n i là số quan sát trong một nhóm của tổng thể, trong trường hợp mỗi nhóm có số quan sát khác nhau thì sử dụng n i n i nhỏ nhất.
3 Tính giá trị kiểm định D: là giá trị tuyệt đối chênh lệch giữa hai giá trị trung bình của mỗi nhóm.
4 Quy tắc kiểm định: Nếu D i T thì bác bỏ giả thuyết H0
Nhập và làm sạch dữ liệu, thực hiện các thống kê mô tả
Trong R, để đọc dữ liệu từ tập tin flights.txt, sử dụng hàm read.table Hàng đầu tiên được dùng để đặt tên các biến và dấu ngăn cách giữa các cột là dấu phẩy ',' chứ không phải khoảng trắng như mặc định Bạn có thể nắm bắt cấu trúc dữ liệu nhanh chóng bằng cách đặt tham số header = TRUE và sep = ',' khi gọi read.table.
Ta dùng lệnh sau: setwd( "c:/work/stats" ) flights