1 TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG KHOA QUẢN TRỊ KINH DOANH BÁO CÁO CUỐI KỲ 50% MÔN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ ĐỀ TÀI: DỰ ĐOÁN KH
Trang 11
TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM
TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG
KHOA QUẢN TRỊ KINH DOANH
BÁO CÁO CUỐI KỲ 50%
MÔN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ
ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG HỦY CHUYẾN BAY CỦA CÁC HÃNG HÀNG KHÔNG Ở HOA KỲ BẰNG CÔNG CỤ AZURE MACHINE LEARNING
Giảng viên hướng dẫn: Ths PHẠM NGỌC BẢO DUY Nhóm sinh viên thực hiện:
1 NGUYỄN THỊ THIỆT 71505338
2 MẠCH KHẢ TÚ 71506266
3 HỨA CHÍ HÙNG 71505164
4 VŨ MINH TẤN LỘC 71705364
5 NGUYỄN TRUNG QUỐC HÙNG 71705051
TP HCM, THÁNG 09 NĂM 2021 BẢNG ĐÁNH GIÁ MỨ C ĐỘ ĐÓNG GÓP TỪNG THÀNH VIÊN
Trang 22
STT Họ và tên Mã s sinh viên ố Công vi c thệ ực hiện Mức độ đóng
góp
1 Nguyễn Thị Thi t ệ 71505338 Nội dung Chương 1,2,3
Nghiên cứu và tham gia chạy mô hình
100%
71705051 Nội dung Chương 5
chạy mô hình
100%
5 Vũ Minh Tấn Lộc 71705364 Đóng gói sản phẩm
Azure Nghiên cứu và tham gia chạy mô hình
100%
Trang 3MỤC LỤC
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MÔ HÌNH NGHIÊN CỨU 6
2.2.4 Các thuật toán trong Azure Machine Learning 9
- Tên bài báo: A Classification Prediction Analysis of Flight Cancellation Based on Spark 10
Trang 4CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 13
3.3.2 Chuẩn bị dữ liệu (Data preparation) 17
Trang 5DANH M C B NG BI U, HÌNH V Ụ Ả Ể Ẽ
1.Biểu đồ:
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan số liệu và k Āt quả nghiên cứu trong báo cáo đề tài “Dự đoán khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ bằng công c甃⌀ Azure Machine Learning” là trung thực và không có bất kỳ sự sao chép hay sử d甃⌀ng để bảo vệ một học
vị nào Tất cả những sự giúp đỡ cho việc xây dựng cơ sở lý luận cho bài nghiên cứu đều được trích dẫn đầy đủ và ghi rõ nguồn gốc rõ ràng và được phép công bố
Trang 7Discover more
from:
702075
Document continues below
Applied Big Data
in Management
Đại học Tôn Đức…
71 documents
Go to course
Trang 8LỜI GI I THIỚ ỆU
Marketing VÀ TRUYỀN Thông CỦA IVY MODAApplied Big
Data in… 100% (1)
5
LUẬN CƯƠNG Chính TRỊ
Applied BigData in… 100% (1)
8
Tôi đang chia sẻ Scan
08 Th11 22 095815 vớ…Applied Big
Trang 9CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1 Lý do chọn đề tài
1.1.1 B ối c nh nghiên c u ả ứ
- Năm 2020, đại dịch Covid-19 đã khi Ān mức tăng trưởng của nhiều nền kinh t Ā trên toàn cầu bị suy giảm mạnh chưa từng thấy trong nhiều thập kỷ qua Dù các nền kinh t Ā đã có sự ph甃⌀c hồi mạnh mẽ trong quý III/2020, tuy nhiên con đường
-phối tại nhiều quốc gia, nhưng số ca mắc mới vẫn gia tăng vào dịp cuối năm, đặc biệt khi xuất hiện bi Ān thể của Covid 19 Hầu h Āt các tổ chức quốc t Ā đều có -chung nhận định, kinh t Ā toàn cầu khó có thể ph甃⌀c hồi trong ngắn hạn mà sẽ phải mất nhiều năm
- Theo số liệu của một số viện nghiên cứu kinh t Ā trên th Ā giới, mức độ tăng trưởng
-trung bình của kinh t Ā th Ā giới trong các năm trước và kinh t Ā th Ā giới cần thời gian ít nhất từ 2-3 năm để khôi ph甃⌀c lại được nhịp độ tăng trưởng ở thời trước khi dịch bệnh bùng phát và lây lan Những nền kinh t Ā lâu nay chưa giải quy Āt được các vấn đề và bất cập mang tính cơ cấu cũng như ph甃⌀ thuộc nhiều nhất vào ngành dịch v甃⌀ thì đều bị ảnh hưởng tiêu cực nặng nề nhất
- Các doanh nghiệp hàng không trên khắp th Ā giới bị ảnh hưởng nặng nề bởi
Covid-19 vì hầu h Āt các chuy Ān du lịch hàng không t Ā quốc đã ngừng hoạt động Tuy nhiên, một khi cơn bão k Āt thúc, nhu cầu đi lại bằng đường hàng không dự ki Ān
sẽ tăng cao khi mọi người đổ xô trở lại các kỳ nghỉ ở nước ngoài Các hãng hàng không có thể chuẩn bị những gì để tạo cho mình một lợi th Ā cạnh tranh khi đám đông cuối cùng đã đ Ān? Để giải đáp vấn đề kinh doanh này, một mô hình phân loại được tạo ra từ dữ liệu từ Kaggle để xác định các y Āu tố quan trọng dẫn đ Ān việc hủy chuy Ān bay của các hãng hàng không để có k Ā hoạch cho sự ph甃⌀c hồi kinh t Ā toàn cầu nói chung và ngành hàng không nói riêng
1.1.2 Lý do chọn đề tài
Dự đoán rằng hiện nay hiện tượng hoãn, hủy chuy Ān bay ngày càng trở nên nghiêm trọng Chuy Ān bay bị hoãn và việc hủy chuy Ān không chỉ gây lãng phí nguồn lực vận tải mà còn ảnh hưởng đ Ān k Ā hoạch đi lại của hành khách, làm tăng
sự bất mãn của hành khách và tỷ lệ phàn nàn Việc hành khách không hài lòng và không tin tưởng vào các hãng hàng không gây thiệt hại nghiêm trọng cho danh
ti Āng công ty của các hãng hàng không và sau đó ảnh hưởng đ Ān lòng trung thành của hành khách Do đó, dựa trên thông tin của bộ dữ liệu chuy Ān bay ở Hoa Kỳ
Trang 10vào năm 2016, nhóm đã chọn đề tài “Dự đoán khả năng hủy chuyến bay của
các hãng hàng không ở Hoa Kỳ bằng công cụ Azure Machine Learning”
1.2 M 甃⌀c tiêu nghiên cứu và ý nghĩa nghiên cứu
- Nghiên cứu này nhằm chỉ ra các y Āu tố chính dẫn đ Ān khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ Dựa vào thông tin, tính chất của bi Ān, xác định mức độ liên quan của chúng đ Ān hủy chuy Ān bay của hãng hàng không Đồng thời, thông qua việc khai thác dữ liệu, chạy bộ dữ liệu của hàng không Hoa
Kỳ, nhóm dự đoán một chuy Ān bay có khả năng bị hủy hay không trước khi thông tin đ Ān khách hàng
- So sánh và lựa chọn phương pháp dự đoán bằng công c甃⌀ Azure Machine Learning tối ưu nhất để sử d甃⌀ng dự báo
- Đưa ra k Āt luận và hàm ý quản trị nhằm giúp nhà hoạch định đưa ra các giải pháp tối ưu hóa cho các chuy Ān bay
1.3 Câu h i nghiên c u ứ
- Các y Āu tố nào ảnh hưởng đ Ān hủy chuy Ān bay của các hãng hàng không?
- Mức độ tác động của các y Āu tố gây hủy chuy Ān bay của các hãng hàng không?
- Mô hình, phương pháp dự đoán nào phù hợp xác định các y Āu tố ảnh hưởng khả năng hủy chuy Ān bay của các hãng hàng không?
1.4 Đối tưng và ph愃⌀m vi nghiên cứu
- Đối tượng nghiên cứu: Các hãng hàng không ở Hoa Kỳ và các y Āu tố ảnh hưởng
đ Ān hủy chuy Ān bay của các hãng hàng không
- Phạm vi nghiên cứu: Bộ dữ liệu các chuy Ān bay ở Hoa Kỳ năm 2016 gồm 1.048.576 mẩu dữ liệu
1.5 ngh a nghiên c u Ý ĩ ứ
- Ý nghĩa khoa học: Bằng nghiên cứu của bản thân và nghiên cứu mang tính chất khoa học, nhóm mong muốn chứng minh được y Āu tố có ảnh hưởng đ Ān việc hủy chuy Ān bay của hãng hàng không
- Ý nghĩa thực tiễn: Dự đoán được việc hủy chuy Ān bay của các hãng hàng không
có thể giúp các nhà hoạch định nắm được lịch trình, đánh giá khả năng đáp ứng, tần suất bay của các hãng hàng không giúp phản ứng kịp thời trước những tình huống bất ngờ Bên cạnh đó đưa ra các giải pháp và hoạch định chi Ān lược giúp giảm thiểu y Āu tố tác động gây ảnh hưởng chuy Ān bay
Trang 121.6 K t cĀ Āu đề à t i th ị trườ ng
K Āt cấu của đề tài bao gồm 5 chương:
● Chương 1: Tổng quan đề tài
● Chương 2: Cơ sở lý thuy Āt và mô hình nghiên cứu
● Chương 3: Mô tả dữ liệu và phương pháp nghiên cứu
● Chương 4: K Āt quả nghiên cứu
● Chương 5: K Āt luận và hàm ý quản trị
Trang 13CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MÔ HÌNH NGHIÊN CỨU
2.1 Azure Machine Learning
2.1.1 Định nghĩa
- Azure là một nền tảng điện toán đám mây và một cổng thông tin trực tuy Ān, cho phép bạn truy cập và quản lý các dịch v甃⌀, cũng như tài nguyên đám mây do Microsoft cung cấp Các dịch v甃⌀ và tài nguyên này bao gồm lưu trữ và chuyển đổi
dữ liệu, tùy thuộc vào yêu cầu Để có quyền truy cập vào các tài nguyên và dịch v甃⌀ này, tất cả những gì bạn cần là k Āt nối Internet đang hoạt động và khả năng k Āt nối với Azure Portal
- Azure Machine Learning Studio là một dịch v甃⌀ tiên đoán dựa trên ứng d甃⌀ng web qua Internet mà qua đó cung cấp một trải nghiệm tinh gọn cho các nhà khoa học
dữ liệu từ tất cả các cấp độ kỹ năng Nó có tính năng dễ sử d甃⌀ng, kéo và thả giao diện để xây dựng các mô hình Machine Learning
Trang 142.2.2 Các d ch vị 甃⌀ ủa Azure mang đ Ān c
- Computer services: Cung cấp sức mạnh xử lý cần thi Āt để dịch v甃⌀ đám mây có thể chạy
- Virtual machine: cho phép bạn tạo, triển khai và quản lý VM trên môi trường đám mây Azure
- Web sites: cung cấp khả năng quản lý website cho bạn bạn có thẻ tạo mới hoặc di chuyển 1 website có sẵn lên cloud
- Cloud services: cho phép bạn xây dựng và triển khai các ứng d甃⌀ng đảm bảo tính
HA và có khả năng mở rộng với hầu h Āt các ngôn ngữ lập trình
- Mobile service: cung cấp giải pháp chìa khóa trao tay cho phép bạn xây dựng, triển khai và lưu trữ dữ liệu cho thi Āt bị di động
- Network services: Cung cấp các tùy chọn khác nhau để Azure cung cấp giải pháp
- Data management: cho phép bạn lưu trữ dữ liệu kinh doanh trong SQL database
or với các VM SQL Server sử d甃⌀ng Azure SQL Database
- Business Analytics: cho phép dễ dàng phát hiện và làm giàu dữ liệu bằng cách sử d甃⌀ng Microsoft SQL Server Reporting và Analysis Services hoặc Microsoft
Trang 15SharePoint Server chạy trong một máy ảo, Windows Azure SQL Reporting, Windows Azure Marketplace, hoặc HDInsight, thực hiện Hadoop cho Big Data
- HDInsight: dựa trên Hadoop của Microsoft mang lại 100% khả năng giải pháp Apache Hadoop cho cloud
- Cache: giải pháp bộ nhớ đệm giúp tăng tốc ứng d甃⌀ng đám mây và giảm tải database
- Backup: bảo vệ máy chủ dữ liệu bằng cách thực hiện backup dữ liệu tới Azure
- Recovery Management: giúp bảo vệ dịch v甃⌀ kinh doanh quan trọng bằng cách phối hợp nhân rộng và ph甃⌀c hồi của System Center tới secondary location
- App services: Cung cấp cho bạn cách thức để nâng cao hiệu suất, an ninh, khả năng khám phá và tích hợp các dịch v甃⌀ đám mây đang chạy
- Media services: cho phép bạn xây dựng các quy trình công việc để tạo, quản lý và phân phối media sử d甃⌀ng Azure public cloud
- Messaging: (windows Azure service Bus và Windows Azure service Queue) cho phép các ứng d甃⌀ng k Āt nối giữa môi trường private cloud và Azure public cloud
- Notification Hubs: cung cấp khả năng mở rộng cao, phối hợp nhiều nền tảng ứng d甃⌀ng chạy trên thi Āt bị di động
- BizTalk services: cung cấp Business-to-Business và Enterprise Application Integration để cung cấp cloud và hybrid
- AD: cung cấp khả năng quản lý nhận dạng và điều khiển truy cập cho ứng d甃⌀ng đám mây
- Đa xác thực: cung cấp thêm 1 lớp xác thực, thêm các thông tin tài khoản để an toàn hơn cho cả truy cập tại chỗ và cloud
2.2.3 L i ích c a Azure Machine Learning ủ
- Microsoft Azure đã và đang được các công ty sử d甃⌀ng để gia tăng hiệu quả kinh doanh và tính cạnh tranh với nhiều lợi ích, tính năng vượt trội và khá linh hoạt
- Giúp chuyển đổi số giữa tất cả các doanh nghiệp, công ty và khách hàng trở nên
dễ dàng và nhanh hơn
- Các doanh nghiệp không cần lo lắng về mặt chi phí, chỉ cần khởi tạo và vận hành,
co giãn nhu cầu một cách linh hoạt, và chi trả đúng những gì mà doanh nghiệp sử d甃⌀ng
- Giúp cho việc sao lưu dữ liệu và lưu trữ những thông tin quan trọng nhất của công
ty một cách an toàn nhờ vào cách làm việc linh hoạt với các phần mềm và dịch v甃⌀ khác của Microsoft như: Windows Server, SQL Server, Exchange và Sharepoint
- Nhờ Microsoft Azure, doanh nghiệp sẽ nhanh chóng mang lại những sản phẩm và dịch v甃⌀ tốt nhất cho thị trường
Trang 16- Các doanh nghiệp có thể di dời các ứng d甃⌀ng nhanh chóng và dễ dàng từ máy chủ tại đơn vị lên đám mây nên giúp tránh được khoản chi phí đầu tư máy chủ mới
- Doanh nghiệp dễ dàng sao lưu dữ liệu và ứng d甃⌀ng một cách đảm bảo, đáng tin cậy
- Azure cung cấp việc sao lưu dễ dàng và đáng tin cậy cho dữ liệu và ứng d甃⌀ng
- Chi phí hạ tầng điển hình liên quan đ Ān việc lưu trữ được loại b và chi phí cho máy chủ và việc truyền tải dữ liệu cũng được cắt giảm đáng kể
- Azure hỗ trợ một loạt các hệ điều hành, ngôn ngữ lập trình, frameworks, cơ sở dữ liệu và các thi Āt bị, đây là công c甃⌀ hữu ích cho developers
- Việc phát triển ứng d甃⌀ng, quản lý và bảo mật, quản lý nhận dạng và phát triển nền tảng dữ liệu nhờ Microsoft Azure đảm bảo sự nhất quán
2.2.4 Các thuật toán trong Azure Machine Learning
- Thuật toán phân loại (Classification): Chúng được sử d甃⌀ng để phân loại dữ liệu thành các danh m甃⌀c khác nhau, sau đó có thể được sử d甃⌀ng để dự đoán một hoặc nhiều bi Ān rời rạc, dựa trên các thuộc tính khác trong tập dữ liệu
- Thuật toán hồi quy (Regression): Chúng được sử d甃⌀ng để dự đoán một hoặc nhiều
bi Ān liên t甃⌀c, chẳng hạn như lãi hoặc lỗ, dựa trên các thuộc tính khác trong tập dữ liệu
- Thuật toán phân nhóm (Clustering): Các thuật toán này xác định các nhóm và mẫu
tự nhiên trong tập dữ liệu và được sử d甃⌀ng để dự đoán phân loại nhóm cho một
bi Ān nhất định
- Thuật toán text mining: sử d甃⌀ng xử lí ngôn ngữ tự nhiên để chuyển văn bản tự do (không có cấu trúc), chuẩn hóa phù hợp để phân tích hoặc điều khiển máy
Trang 172.3 Cơ sở lý thuy Āt Key Paper
- Tên bài báo: A Classification Prediction Analysis of Flight Cancellation Based on
Spark
- Tác giả: Yu Yanying, Hai Mo, Li Haifeng
- Bài báo được đăng tải trên tạp chí Procedia Computer Science với độ xác thực uy tín Index: 76
Hình Cơ sở Key Paper
Bài báo này nghiên cứu mô hình hình Classification để dự đoán khả năng hủy chuy Ān bay của các hãng hàng không
Trang 182.4 Mô hình đề xu Āt lựa chọn
2.4.1 Decision Tree
- Decision Tree là một thuật toán học có giám sát Nó áp d甃⌀ng cho các danh m甃⌀c và đầu vào liên t甃⌀c (đặc điểm) và các bi Ān đầu ra (dự đoán) Phương pháp dựa trênkhông gian chia đối tượng thành một loạt các hình chữ nhật và sau đó gán một mô hình đơn giản cho mỗi hình chữ nhật Về mặt khái niệm, chúng đơn giản và hiệu quả
2.4.2 Logistic Regression
- Là phân tích hồi quy hậu cần, là một hồi quy tuy Ān tính tổng quát mô hình phân tích Hồi quy hậu cần là một mô hình hai lớp Trong tập dữ liệu này, nhãn bị HỦY, tức là, cho dù chuy Ān bay có bị hủy hay không, chỉ có 0 đại diện cho không hủy
và 1 đại diện cho hủy Vì th Ā, nó phù hợp với mô hình hồi quy hậu cần Hồi quy hậu cần được hỗ trợ bởi lý thuy Āt hồi quy tuy Ān tính
2.4.3 Naive Bayes
- Phương thức Naive Bayes được đơn giản hóa dựa trên thuật toán ayes, giả định Brằng các thuộc tính độc lập có điều kiện khi giá trị đích được cho Có nghĩa là, không có bi Ān thuộc tính nào có giá trị lớn hơn tỷ lệ k Āt quả quy Āt định và không
có bi Ān thuộc tính nào có tỷ trọng k Āt quả quy Āt định nh hơn Khi dữ liệu thể hiện các đặc điểm khác nhau, hiệu suất phân loại của Naive Bayes sẽ không khác nhiều Đối với các loại tập dữ liệu khác nhau, sẽ không có nhiều sự khác biệt Khi mối quan hệ giữa các thuộc tính của tập dữ liệu là tương đối độc lập, phân loại theo hướng ngây thơ thuật toán sẽ có một k Āt quả tốt hơn
2.4.4 Support Vector Machine (SVM)
- SVM là một loại bộ phân loại tuy Ān tính tổng quát phân loại dữ liệu bằng cách học
có giám sát M甃⌀c đích của SVM là tìm siêu phẳng tối ưu trong không gian n chiều
và phân tách các lớp âm và dương Các cách ti Āp cận tối ưu ở đây là tối đa hóa khoảng cách gần nhất giữa hai điểm mẫu và siêu phẳng
Trang 19CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU
quý I năm 2016, có 65 giá trị thuộc tính: Year, Quarter, Month, Day_Of_Month,
Day_Of_Week, Fl_Date, Unique_Carrier, Airline_Id, Carrier, Tail_Num, Fl_Num, Origin_Airport_Id Origin_Airport_Seq_Id, Origin_City_Market_Id, Origin, Origin_City_Name, Origin_State_Abr, Origin_State_Fips, Origin_State_Nm, Origin_Wac, Dest_Airport_Id, Dest_Airport_Seq_Id, Dest_City_Market_Id, Dest, Dest_City_Name, Dest_State_Abr, Dest_State_Fips, Dest_State_Nm, Dest_Wac, Crs_Dep_Time, Dep_Time, Dep_Delay, Dep_Delay_New, Dep_Del15, Dep Delay_Group, Dep_Time_Blk, Taxi_Out,Wheels_Off, Wheels_On, Taxi_In , Crs_Arr_Time, Arr_Time, Arr_Delay, Arr_Delay_New, Arr_Del15, Arr_Delay_Group, Arr_Time_Blk, Cancelled, Cancellation_Code, Diverted, Crs_Elapsed_Time, Actual_Elapsed_Time, Air_Time, Flights, Distance, Distance_Group, Carrier_Delay, Weather_Delay, Nas_Delay, Security_Delay, Late_Aircraft_Delay, First_Dep_Time, Total_Add_Gtime, Longest_Add_Gtime, Unnamed: 64
- Bộ dữ liệu có thể được chia đại khái thành 8 loại:
● Thời gian đ Ān dự báo
● Thông tin khởi hành và điểm đ Ān
● Nhật ký điều hướng, v.v
Trang 20- Theo nghiên cứu về việc liệu các chuy Ān bay có bị hủy trong bài báo này hay không, sự hiểu bi Āt cá nhân và lựa chọn tương quan, tập dữ liệu đã được chọn gồm các khía cạnh sau:
(1) Thời gian xuất hiện chuy Ān bay
(2) Thông tin bay của hãng hàng không
(3) Dự đoán thời gian cất cánh và hạ cánh thực t Ā của các hãng hàng không(4) Nơi đi và nơi đ Ān
(5) Lý do và thời gian của việc hoãn hoặc hủy chuy Ān
- Do đó, bộ dữ liệu đã chọn còn 15 cột, trong đó cột Cancellated được chọn làm nhãn và 0 đại diện không bị hủy, 1 đại diện bị hủy
2 DAY_OF_MONTH Ngày trong tháng mà chuy Ān
5 CRS_DEP_TIME Thời gian đi dự ki Ān bay
1= Chuy Ān bay bị hủy
10
TAXI_OUT Thời gian lăn bánh trước khi
cất cánh
Trang 2111 CARRIER_DELAY Hãng bay bị trì hoãn bay
12 WEATHER_DELAY Lý do thời ti Āt gây trì hoãn bay
13 NAS_DELAY Sự chậm trễ trong tầm kiểm
soát của hệ thống quốc gia
14 SECURITY_DELAY Lí do an ninh gây trì hoãn bay
15
LATE_AIRCRAFT_DELAY Chuỗi trì hoãn bay gây ra bởi
sự trì hoãn chuy Ān bay
- Đã thêm cột mới Origin taxi_out cho mỗi nhóm dữ liệu được nhóm lại theo Origin
- Đã thêm một cột mới Origin Delay to equal the Total_Delay cho mỗi nhóm dữ liệu được nhóm lại theo Nguồn gốc
- Đã thay đổi giá trị null thành 0
- Đã chuyển đổi các cột Origin, Des, Unique_Carrier thành các bi Ān danh m甃⌀c
- Đặt giá trị trong cột Đã hủy không phải là 1 hoặc 2 thành 1
- Dữ liệu đã làm sạch được xuất ở định dạng CSV
Sau khi làm sạch dữ liệu, loại b các bi Ān không liên quan thì còn 11 bi Ān cuối cùng trong bộ dữ liệu được sử d甃⌀ng:
diễn ra
Trang 224 CRS_DEP_TIME Thời gian đi dự ki Ān bay
8
ORIGIN_TAXIOUT Trung bình thời gian lăn bánh trước khi cất cánh
9 ORIGIN_DELAY Độ trễ trung bình ban đầu
Trong bài nghiên cứu này sử d甃⌀ng 4 thuật toán là Decision Tree, Logistics Regression, Support Vector Machine, Naive Bayes
Trang 233.3 Phương pháp xử lý
3.3.1 Thu th p d li u (Gathering Data) ậ ữ ệ
Trong bước này, nhóm xác định các nguồn dữ liệu khác nhau, vì dữ liệu có thể được thu thập từ nhiều nguồn khác nhau như tệp, cơ sở dữ liệu, internet hoặc thi Āt bị di động Nó
là một trong những bước quan trọng nhất của vòng đời Số lượng và chất lượng của dữ liệu thu thập được sẽ quy Āt định hiệu quả của đầu ra Dữ liệu càng nhiều thì dự đoán càng chính xác Dữ liệu này đã được thu thập trên Kaggle với các bi Ān liên quan theo key paper
3.3.2 Chu n b d li u (Data preparation) ẩ ị ữ ệ
Chuẩn bị dữ liệu là một bước mà nhóm đặt dữ liệu của mình vào một nơi thích hợp và chuẩn bị để sử d甃⌀ng trong quá trình đào tạo máy học
Công c甃⌀ sử d甃⌀ng trong Azure Machine Learning:
Select Columns in Dataset : Để chọn một tập hợp con các cột để sử d甃⌀ng trong các thao tác hạ nguồn Mô đun không loại b vật lý các cột khi tập dữ liệu nguồn; thay vào đó, -
nó tạo ra một tập hợp con các cột, giống như một dạng xem hoặc phép chi Āu cơ sở dữ liệu Mô-đun này đặc biệt hữu ích khi cần giới hạn các cột có sẵn cho thao tác xuôi dòng hoặc n Āu muốn giảm kích thước của tập dữ liệu bằng cách loại b các cột không cần thi Āt Các cột trong tập dữ liệu được xuất theo thứ tự như trong dữ liệu gốc, ngay cả khi chỉ định chúng theo một thứ tự khác
3.3.3 S p x p d li u (Data Wrangling) ắ Ā ữ ệ
Là quá trình làm sạch và chuyển đổi dữ liệu thô thành một định dạng có thể sử d甃⌀ng được Đây là quá trình làm sạch dữ liệu, chọn bi Ān để sử d甃⌀ng và chuyển đổi dữ liệu theo một định dạng thích hợp để phù hợp hơn cho việc phân tích trong bước ti Āp theo Đây là một
Trang 24trong những bước quan trọng nhất của quá trình hoàn chỉnh Làm sạch dữ liệu là cần thi Āt
để giải quy Āt các vấn đề liên quan đ Ān chất lượng dữ liệu
Clean Data là quy trình chuẩn bị dữ liệu trước khi phân tích thông qua xử lý hay loại b những dữ liệu không chính xác, không đầy đủ, không phù hợp về định dạng, bị trùng lặp, không có giá trị, không có thông tin, không liên quan, những dữ liệu có thể ảnh hưởng
đ Ān k Āt quả phân tích sau cùng
Từ đó xây dựng ra 1 bộ dữ liệu đầy đủ tiêu chuẩn lấy đó làm cơ sở tham chi Āu cho các dự
án nghiên cứu dữ liệu tạo điều kiện để các công c甃⌀ phân tích được hiệu quả
3.3.4 Phân tích d li u ữ ệ
Bây giờ dữ liệu đã được làm sạch và chuẩn bị được chuyển sang bước phân tích Bước này bao gồm:
● Lựa chọn các kỹ thuật phân tích: Mô hình Classifier
● Xây dựng mô hình: Decision Tree, Logistics Regression, Support Vector Machine, Naive Bayes
● Xem lại k Āt quả
M甃⌀c đích của bước này là xây dựng một mô hình học máy để phân tích dữ liệu bằng cách
sử d甃⌀ng các kỹ thuật phân tích khác nhau và xem xét k Āt quả Bắt đầu với việc xác định loại vấn đề, trong đó nhóm chọn các kỹ thuật học máy như Decision Tree, Logistics Regression, SVM, Naive Bayes sau đó xây dựng mô hình bằng cách sử d甃⌀ng dữ liệu đã chuẩn bị và đánh giá mô hình
Do đó, trong bước này, nhóm lấy dữ liệu và sử d甃⌀ng các thuật toán đã nêu để xây dựng
mô hình
Bài nghiên cứu khám phá dữ liệu bằng cách vẽ biểu đồ các bi Ān: