ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH UEH UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ Khoa Công nghệ thông tin Kinh doanh Công nghệ Thông tin Báo cáo đồ án KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN LỚP BỘ DỮ
GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI
G IỚI THIỆU VỀ KHOA HỌC DỮ LIỆU
Dữ liệu là giá trị thông tin định lượng hoặc định tính về các sự vật và hiện tượng trong cuộc sống Trong khoa học dữ liệu, dữ liệu được sử dụng để biểu diễn thông tin về các sự kiện và hiện tượng, phục vụ cho việc truyền nhận, thể hiện và xử lý bằng máy tính Có hai loại dữ liệu chính: dữ liệu có cấu trúc và dữ liệu không có cấu trúc.
Dữ liệu có cấu trúc Dữ liệu không có cấu trúc
Phân tích Định lượng Định tính
Lược đồ được viết trước (schema- on-write)
Lược đồ được đọc sau (schema-on- read)
Dễ dàng sử dụng các phương pháp tìm kiếm dựa trên SQL, nhưng có thể cần các công cụ đặc biệt để thực hiện Định dạng và định nghĩa trước là cần thiết, sử dụng ký tự chữ và số (alphanumeric) để tối ưu hóa kết quả tìm kiếm.
Thường là các biểu diễn kỹ thuật số không theo ký tự
Lưu trữ dữ liệu có thể yêu cầu dung lượng lớn hơn để phù hợp với cấu trúc dữ liệu đã xác định Một số loại dữ liệu có dung lượng nhỏ hơn, trong khi những loại khác có thể cần dung lượng lớn hơn để lưu trữ hiệu quả.
Hệ thống lưu trữ Hệ quản trị cơ sở dữ liệu quan hệ
Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS), kho dữ liệu ứng dụng, cơ sở dữ liệu NoSQL và hồ dữ liệu (data lakes) đều là những công nghệ quan trọng trong quản lý và xử lý dữ liệu Thông tin được định nghĩa là dữ liệu đã qua xử lý, phân tích và tổ chức, giúp người dùng hiểu rõ hơn về các hiện tượng, sự vật và sự việc từ một góc độ nhất định.
Khoa học dữ liệu là một lĩnh vực liên ngành kết hợp giữa kiến thức nghiệp vụ, khoa học máy tính và khả năng toán học, thống kê Nó sử dụng các thuật toán và quy trình để phân tích lượng lớn dữ liệu, nhằm khám phá các mẫu ẩn và tạo ra thông tin chuyên sâu Thông qua các phần mềm phân tích thống kê và thuật toán máy tính, khoa học dữ liệu giúp giải quyết và truy xuất dữ liệu hiệu quả, hỗ trợ quá trình ra quyết định.
Khoa học dữ liệu hỗ trợ tích cực trong việc:
Cho phép doanh nghiệp truyền tải câu chuyện của họ
Big Data là một lĩnh vực mới không ngừng phát triển
Những phát hiện và nghiên cứu của nó có thể áp dụng cho hầu hết mọi lĩnh vực như du lịch, giáo dục,
Hầu hết các lĩnh vực đều có thể tiếp cận khoa học dữ liệu
1.1.3 Ứng dụng tiêu biểu của Khoa học dữ liệu Ở thời đại 4.0, khoa học dữ liệu là một yếu tố không thể thiếu, nó sử dụng các thuật toán, quy trình để tổng hợp, tối ưu hóa và truy xuất dữ liệu Một số áp dụng vào thực tiễn tiêu biểu của Khoa học dữ liệu trong một số lĩnh vực:
Kinh doanh và thương mại điện tử:
Nghiên cứu lựa chọn người tiêu dùng giúp nhà sản xuất hiểu rõ hơn về mong muốn và xu hướng tiêu dùng, từ đó có thể đưa ra những gợi ý hữu ích cho khách hàng.
Hệ thống gợi ý: Amazon, Shopee, Tik Tok Shop, đề xuất những nội dung mà người dùng quan tâm đến
Chẩn đoán bệnh: dựa trên dữ liệu về triệu chứng của bệnh nhân, từ đó hỗ trợ quá trình đưa ra chẩn đoán bệnh một cách chính xác
Theo dõi sức khỏe ngày nay trở nên dễ dàng hơn với các ứng dụng như Google Fit và Sức khỏe của Apple Những ứng dụng này thu thập dữ liệu người dùng hàng ngày, phân tích cả sức khỏe thể chất và tinh thần, đồng thời cung cấp các gợi ý hữu ích để cải thiện sức khỏe.
Công nghiệp và sản xuất:
Tối ưu hóa: sử dụng dữ liệu để quản lý kho bãi, dự đoán nhu cầu và tối ưu hóa vận chuyển
Ngân hàng và tài chính:
Phân tích khách hàng: phân tích dữ liệu, các thuộc tính của các nhóm khách hàng để tiếp thị đến tệp khách hàng
Tối đa hóa lợi nhuận từ danh mục đầu tư: dựa vào dữ liệu để dự đoán xu hướng thị trường để đầu tư có hiệu quả.
G IỚI THIỆU ĐỀ TÀI
1.2.1 Lý do chọn đề tài
Thời đại ngày nay, người tiêu dùng ưu tiên sự linh hoạt và hiệu quả trong giao dịch, khiến các ngân hàng phải cải tiến quy trình để nâng cao trải nghiệm khách hàng Người dùng có quyền lựa chọn ngân hàng phù hợp với sở thích cá nhân hoặc dựa trên các dịch vụ mà ngân hàng cung cấp Trong bối cảnh cạnh tranh gay gắt, marketing ngân hàng trở thành yếu tố quyết định giúp kết nối ngân hàng với khách hàng Phân tích dữ liệu từ bộ dữ liệu Bank Marketing cho phép chúng ta khám phá hành vi khách hàng và xác định các yếu tố quan trọng ảnh hưởng đến lựa chọn sản phẩm, dịch vụ tài chính Dự án Bank Marketing không chỉ giải quyết các vấn đề cụ thể của ngân hàng mà còn mở ra hướng đi mới để tối ưu hóa việc ứng dụng khoa học dữ liệu trong marketing, từ đó nâng cao hiệu quả các chiến dịch tiếp thị và mang lại dịch vụ tốt nhất cho khách hàng.
Marketing ngân hàng bao gồm các chiến dịch quảng bá sản phẩm và dịch vụ tài chính đến các nhóm khách hàng mục tiêu, nhằm thúc đẩy nhu cầu trải nghiệm các dịch vụ này Đồng thời, marketing ngân hàng cũng tập trung vào việc xây dựng và duy trì sự nhận diện thương hiệu, truyền tải thông điệp của ngân hàng đến khách hàng, từ đó nâng cao trải nghiệm người dùng Điều này không chỉ giúp ngân hàng giữ kết nối lâu dài với khách hàng mà còn góp phần vào sự tăng trưởng ổn định của doanh nghiệp.
1 Đánh giá các thuộc tính của khách hàng như độ tuổi, giới tính, thu nhập, đến khả năng thành công của các chiến lược marketing
2 Dự báo tiềm năng phát triển của các công cụ số đối với việc marketing ngân hàng
3 Áp dụng các phương pháp dự đoán người dùng chọn sản phẩm, dịch vụ tài chính của doanh nghiệp như mô hình hồi quy, mô hình cây quyết định
4 Đưa ra những sự đổi mới trong tương lai để thu hút và giữ vững khách hàng của ngân hàng.
TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
C ÁC PHƯƠNG PHÁP CỦA E XCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU
2.1.1 Phương pháp thống kê mô tả
2.1.1.1 Thống kê bằng công cụ Descriptive Statistics
Hình 1 Số liệu bán hàng (thịt Heo, kg) trong tháng 03 tại siêu thị ABC và hộp thoại Descriptive Statistics
Hình 2.”Ví dụ thống kê mô tả cho biết lượng thịt Heo (kg) bán được trong tháng 03 tại siêu thị ABC”
2.1.1.2 Báo cáo tổng hợp của Subtotal
Hình 3 Bảng dữ liệu của nhân viên
Các bước thực hiện để thống kê tổng số tiền mà mỗi nhân viên đã thực hiện:
Bước 1: Sắp xếp các dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là Salesperson)
Để thực hiện tính toán tổng phụ trong Excel, trước tiên bạn cần nhấn chọn toàn bộ cơ sở dữ liệu hoặc nhấn chuột vào một ô bất kỳ trong dữ liệu Sau đó, vào tab Data, chọn Outline và nhấn vào lệnh Subtotal, một hộp thoại Subtotal sẽ xuất hiện để bạn thực hiện các thiết lập cần thiết.
Hình 4 Bảng tổng hợp số tiền
Hình 5 Hộp thoại Subtotal xuất hiện sau khi thống kế tổng số tiền của một công ty
2.1.1.3 Hợp nhất dữ liệu với Consolidate
Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau Consolidate có khả năng hợp nhất dữ liệu theo 2 hình thức:
Tổng hợp theo vị trí: Các bảng dữ liệu giống nhau về cấu trúc
Tổng hợp theo hạng mục (theo hàng và cột): Các bảng dữ liệu khác nhau về cấu trúc
Hình 6 Ví dụ tổng doanh thu năm 2014 công ty ABC của 3 cửa hàng
Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất
Bước 2: Nhấn nút Data Data Tools Consolidate, hộp thoại Consolidate sẽ xuất hiện
Để hợp nhất dữ liệu từ ba cửa hàng của công ty ABC, trong hộp thoại Consolidate, chọn chức năng Sum Vùng tham chiếu sẽ là nơi hiển thị kết quả, và cần thêm tất cả các vùng dữ liệu từ cửa hàng 1, cửa hàng 2 và cửa hàng 3 vào mục All references Sau khi thực hiện, chúng ta sẽ thu được kết quả hợp nhất.
Bảng 2.8 Bảng hợp nhất doanh thu 3 cửa hàng
2.1.1.4 Tổng hợp đa chiều với Pivot Table
Trong quy trình tổng hợp và phân tích dữ liệu, việc gom nhóm dữ liệu theo các tiêu chí nhất định giúp quản lý quan sát dễ dàng hơn Excel cung cấp công cụ Pivot Table để phân tích và tổng hợp dữ liệu từ nhiều cấp độ và góc độ khác nhau Để tạo Pivot Table, nguồn dữ liệu có thể đến từ cơ sở dữ liệu của Excel hoặc từ các nguồn bên ngoài như MS SQL Server, MS Access, v.v.
Hình 8 tổng hợp dữ liệu đa chiều với PivotTable
Cách thực hiện PivotTable trong Excel Bước 1: Nhấn chọn vào ô tùy chọn của bộ dữ liệu
Bước 3: Xuất hiện hộp thoại Create PivotTable, bấm vào dữ liệu nguồn và nơi chứa PivotTable, click nút OK
Hình 9 Hộp thoại Create PivotTable
Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: COLUMNS, FILTERS, ROWS, và VALUES
Hình 10 Kết quả tổng hợp đa chiều với Pivot Table
2.1.2.Phương pháp Phân tích dự báo
2.1.2.1 Phương pháp Trung bình trượt (Moving Average)
Ft: Giá trị dự báo của kỳ t
Dt: Giá trị thực tế kỳ t
N: Tổng số kỳ thực tế
W: Cửa sổ trượt của dữ liệu ( w