1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange

153 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân lớp bộ dữ liệu bank marketing dựa trên ứng dụng orange
Tác giả Phan Đình Ánh Nguyên, Phan Hồng Phúc, Đỗ Gia Nghi, Nguyễn Mai Anh, Lê Nguyễn Uyển Nh
Người hướng dẫn Dr. Quoc Hung Nguyen
Trường học Đại Học Kinh Tế Thành Phố Hồ Chí Minh
Chuyên ngành Khoa Công Nghệ Thông Tin
Thể loại Báo cáo đồ án
Năm xuất bản 2024
Thành phố Ho Chi Minh City
Định dạng
Số trang 153
Dung lượng 11,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI (13)
    • 1.1 G IỚI THIỆU VỀ KHOA HỌC DỮ LIỆU (13)
      • 1.1.1 Dữ liệu (13)
      • 1.1.3 Ứng dụng tiêu biểu của Khoa học dữ liệu (14)
    • 1.2 G IỚI THIỆU ĐỀ TÀI (15)
      • 1.2.1 Lý do chọn đề tài (15)
      • 1.2.2 Khái niệm Marketing Bank (16)
      • 1.2.3 Mục tiêu nghiên cứu (16)
  • CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG (17)
    • 2.1. C ÁC PHƯƠNG PHÁP CỦA E XCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU (18)
      • 2.1.1. Phương pháp thống kê mô tả (18)
      • 2.1.2. Phương pháp Phân tích dự báo (26)
      • 2.1.3 Phương pháp phân tích tối ưu (31)
      • 2.2.2. Các tính năng thông dụng (35)
      • 2.2.3. Phương pháp phân lớp dữ liệu (56)
      • 2.2.4. Phương pháp phân cụm dữ liệu (74)
  • CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP VÀO BÀI TOÁN THỰC TẾ (81)
    • 3.1 P HÂN TÍCH DỮ LIỆU B ANK M ARKETING (81)
      • 3.1.1 Tiền phân tích dữ liệu Bank Marketing (81)
      • 3.1.2 Mô tả dữ liệu Bank Marketing (83)
      • 3.1.3 Thống kê mô tả dữ liệu Bank marketing (87)
    • 3.2 P HÂN LỚP DỮ LIỆU (94)
      • 3.2.1 Một số phương pháp phân lớp (95)
      • 3.2.2 Kết quả mô hình (95)
  • CHƯƠNG 4: ĐÁNH GIÁ KẾT QUẢ MÔ HÌNH (110)
    • 4.1 N HỮNG CÔNG VIỆC ĐÃ THỰC HIỆN (111)
      • 4.1.1 Tóm tắt (111)
      • 4.1.2 Kết luận (111)
    • 4.2 H ƯỚNG PHÁT TRIỂN (112)

Nội dung

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH UEH UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ Khoa Công nghệ thông tin Kinh doanh Công nghệ Thông tin Báo cáo đồ án KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN LỚP BỘ DỮ

GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI

G IỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

Dữ liệu là giá trị thông tin định lượng hoặc định tính về các sự vật và hiện tượng trong cuộc sống Trong khoa học dữ liệu, dữ liệu được sử dụng để biểu diễn thông tin về các sự kiện và hiện tượng, phục vụ cho việc truyền nhận, thể hiện và xử lý bằng máy tính Có hai loại dữ liệu chính: dữ liệu có cấu trúc và dữ liệu không có cấu trúc.

Dữ liệu có cấu trúc Dữ liệu không có cấu trúc

Phân tích Định lượng Định tính

Lược đồ được viết trước (schema- on-write)

Lược đồ được đọc sau (schema-on- read)

Dễ dàng sử dụng các phương pháp tìm kiếm dựa trên SQL, nhưng có thể cần các công cụ đặc biệt để thực hiện Định dạng và định nghĩa trước là cần thiết, sử dụng ký tự chữ và số (alphanumeric) để tối ưu hóa kết quả tìm kiếm.

Thường là các biểu diễn kỹ thuật số không theo ký tự

Lưu trữ dữ liệu có thể yêu cầu dung lượng lớn hơn để phù hợp với cấu trúc dữ liệu đã xác định Một số loại dữ liệu có dung lượng nhỏ hơn, trong khi những loại khác có thể cần dung lượng lớn hơn để lưu trữ hiệu quả.

Hệ thống lưu trữ Hệ quản trị cơ sở dữ liệu quan hệ

Hệ quản trị cơ sở dữ liệu quan hệ (RDBMS), kho dữ liệu ứng dụng, cơ sở dữ liệu NoSQL và hồ dữ liệu (data lakes) đều là những công nghệ quan trọng trong quản lý và xử lý dữ liệu Thông tin được định nghĩa là dữ liệu đã qua xử lý, phân tích và tổ chức, giúp người dùng hiểu rõ hơn về các hiện tượng, sự vật và sự việc từ một góc độ nhất định.

Khoa học dữ liệu là một lĩnh vực liên ngành kết hợp giữa kiến thức nghiệp vụ, khoa học máy tính và khả năng toán học, thống kê Nó sử dụng các thuật toán và quy trình để phân tích lượng lớn dữ liệu, nhằm khám phá các mẫu ẩn và tạo ra thông tin chuyên sâu Thông qua các phần mềm phân tích thống kê và thuật toán máy tính, khoa học dữ liệu giúp giải quyết và truy xuất dữ liệu hiệu quả, hỗ trợ quá trình ra quyết định.

Khoa học dữ liệu hỗ trợ tích cực trong việc:

 Cho phép doanh nghiệp truyền tải câu chuyện của họ

 Big Data là một lĩnh vực mới không ngừng phát triển

 Những phát hiện và nghiên cứu của nó có thể áp dụng cho hầu hết mọi lĩnh vực như du lịch, giáo dục,

 Hầu hết các lĩnh vực đều có thể tiếp cận khoa học dữ liệu

1.1.3 Ứng dụng tiêu biểu của Khoa học dữ liệu Ở thời đại 4.0, khoa học dữ liệu là một yếu tố không thể thiếu, nó sử dụng các thuật toán, quy trình để tổng hợp, tối ưu hóa và truy xuất dữ liệu Một số áp dụng vào thực tiễn tiêu biểu của Khoa học dữ liệu trong một số lĩnh vực:

 Kinh doanh và thương mại điện tử:

Nghiên cứu lựa chọn người tiêu dùng giúp nhà sản xuất hiểu rõ hơn về mong muốn và xu hướng tiêu dùng, từ đó có thể đưa ra những gợi ý hữu ích cho khách hàng.

Hệ thống gợi ý: Amazon, Shopee, Tik Tok Shop, đề xuất những nội dung mà người dùng quan tâm đến

Chẩn đoán bệnh: dựa trên dữ liệu về triệu chứng của bệnh nhân, từ đó hỗ trợ quá trình đưa ra chẩn đoán bệnh một cách chính xác

Theo dõi sức khỏe ngày nay trở nên dễ dàng hơn với các ứng dụng như Google Fit và Sức khỏe của Apple Những ứng dụng này thu thập dữ liệu người dùng hàng ngày, phân tích cả sức khỏe thể chất và tinh thần, đồng thời cung cấp các gợi ý hữu ích để cải thiện sức khỏe.

 Công nghiệp và sản xuất:

Tối ưu hóa: sử dụng dữ liệu để quản lý kho bãi, dự đoán nhu cầu và tối ưu hóa vận chuyển

 Ngân hàng và tài chính:

Phân tích khách hàng: phân tích dữ liệu, các thuộc tính của các nhóm khách hàng để tiếp thị đến tệp khách hàng

Tối đa hóa lợi nhuận từ danh mục đầu tư: dựa vào dữ liệu để dự đoán xu hướng thị trường để đầu tư có hiệu quả.

G IỚI THIỆU ĐỀ TÀI

1.2.1 Lý do chọn đề tài

Thời đại ngày nay, người tiêu dùng ưu tiên sự linh hoạt và hiệu quả trong giao dịch, khiến các ngân hàng phải cải tiến quy trình để nâng cao trải nghiệm khách hàng Người dùng có quyền lựa chọn ngân hàng phù hợp với sở thích cá nhân hoặc dựa trên các dịch vụ mà ngân hàng cung cấp Trong bối cảnh cạnh tranh gay gắt, marketing ngân hàng trở thành yếu tố quyết định giúp kết nối ngân hàng với khách hàng Phân tích dữ liệu từ bộ dữ liệu Bank Marketing cho phép chúng ta khám phá hành vi khách hàng và xác định các yếu tố quan trọng ảnh hưởng đến lựa chọn sản phẩm, dịch vụ tài chính Dự án Bank Marketing không chỉ giải quyết các vấn đề cụ thể của ngân hàng mà còn mở ra hướng đi mới để tối ưu hóa việc ứng dụng khoa học dữ liệu trong marketing, từ đó nâng cao hiệu quả các chiến dịch tiếp thị và mang lại dịch vụ tốt nhất cho khách hàng.

Marketing ngân hàng bao gồm các chiến dịch quảng bá sản phẩm và dịch vụ tài chính đến các nhóm khách hàng mục tiêu, nhằm thúc đẩy nhu cầu trải nghiệm các dịch vụ này Đồng thời, marketing ngân hàng cũng tập trung vào việc xây dựng và duy trì sự nhận diện thương hiệu, truyền tải thông điệp của ngân hàng đến khách hàng, từ đó nâng cao trải nghiệm người dùng Điều này không chỉ giúp ngân hàng giữ kết nối lâu dài với khách hàng mà còn góp phần vào sự tăng trưởng ổn định của doanh nghiệp.

1 Đánh giá các thuộc tính của khách hàng như độ tuổi, giới tính, thu nhập, đến khả năng thành công của các chiến lược marketing

2 Dự báo tiềm năng phát triển của các công cụ số đối với việc marketing ngân hàng

3 Áp dụng các phương pháp dự đoán người dùng chọn sản phẩm, dịch vụ tài chính của doanh nghiệp như mô hình hồi quy, mô hình cây quyết định

4 Đưa ra những sự đổi mới trong tương lai để thu hút và giữ vững khách hàng của ngân hàng.

TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

C ÁC PHƯƠNG PHÁP CỦA E XCEL DÙNG ĐỂ KHAI PHÁ DỮ LIỆU

2.1.1 Phương pháp thống kê mô tả

2.1.1.1 Thống kê bằng công cụ Descriptive Statistics

Hình 1 Số liệu bán hàng (thịt Heo, kg) trong tháng 03 tại siêu thị ABC và hộp thoại Descriptive Statistics

Hình 2.”Ví dụ thống kê mô tả cho biết lượng thịt Heo (kg) bán được trong tháng 03 tại siêu thị ABC”

2.1.1.2 Báo cáo tổng hợp của Subtotal

Hình 3 Bảng dữ liệu của nhân viên

Các bước thực hiện để thống kê tổng số tiền mà mỗi nhân viên đã thực hiện:

Bước 1: Sắp xếp các dữ liệu theo cột muốn gom nhóm (Trong trường hợp này là Salesperson)

Để thực hiện tính toán tổng phụ trong Excel, trước tiên bạn cần nhấn chọn toàn bộ cơ sở dữ liệu hoặc nhấn chuột vào một ô bất kỳ trong dữ liệu Sau đó, vào tab Data, chọn Outline và nhấn vào lệnh Subtotal, một hộp thoại Subtotal sẽ xuất hiện để bạn thực hiện các thiết lập cần thiết.

Hình 4 Bảng tổng hợp số tiền

Hình 5 Hộp thoại Subtotal xuất hiện sau khi thống kế tổng số tiền của một công ty

2.1.1.3 Hợp nhất dữ liệu với Consolidate

Cho phép hợp nhất dữ liệu từ những bảng dữ liệu khác nhau Consolidate có khả năng hợp nhất dữ liệu theo 2 hình thức:

 Tổng hợp theo vị trí: Các bảng dữ liệu giống nhau về cấu trúc

 Tổng hợp theo hạng mục (theo hàng và cột): Các bảng dữ liệu khác nhau về cấu trúc

Hình 6 Ví dụ tổng doanh thu năm 2014 công ty ABC của 3 cửa hàng

Bước 1: Chọn vùng sẽ chứa dữ liệu được hợp nhất

Bước 2: Nhấn nút Data  Data Tools  Consolidate, hộp thoại Consolidate sẽ xuất hiện

Để hợp nhất dữ liệu từ ba cửa hàng của công ty ABC, trong hộp thoại Consolidate, chọn chức năng Sum Vùng tham chiếu sẽ là nơi hiển thị kết quả, và cần thêm tất cả các vùng dữ liệu từ cửa hàng 1, cửa hàng 2 và cửa hàng 3 vào mục All references Sau khi thực hiện, chúng ta sẽ thu được kết quả hợp nhất.

Bảng 2.8 Bảng hợp nhất doanh thu 3 cửa hàng

2.1.1.4 Tổng hợp đa chiều với Pivot Table

Trong quy trình tổng hợp và phân tích dữ liệu, việc gom nhóm dữ liệu theo các tiêu chí nhất định giúp quản lý quan sát dễ dàng hơn Excel cung cấp công cụ Pivot Table để phân tích và tổng hợp dữ liệu từ nhiều cấp độ và góc độ khác nhau Để tạo Pivot Table, nguồn dữ liệu có thể đến từ cơ sở dữ liệu của Excel hoặc từ các nguồn bên ngoài như MS SQL Server, MS Access, v.v.

Hình 8 tổng hợp dữ liệu đa chiều với PivotTable

Cách thực hiện PivotTable trong Excel Bước 1: Nhấn chọn vào ô tùy chọn của bộ dữ liệu

Bước 3: Xuất hiện hộp thoại Create PivotTable, bấm vào dữ liệu nguồn và nơi chứa PivotTable, click nút OK

Hình 9 Hộp thoại Create PivotTable

Bước 4: Drag các tên field từ PivotTable Fields vào 4 khu vực: COLUMNS, FILTERS, ROWS, và VALUES

Hình 10 Kết quả tổng hợp đa chiều với Pivot Table

2.1.2.Phương pháp Phân tích dự báo

2.1.2.1 Phương pháp Trung bình trượt (Moving Average)

 Ft: Giá trị dự báo của kỳ t

 Dt: Giá trị thực tế kỳ t

 N: Tổng số kỳ thực tế

 W: Cửa sổ trượt của dữ liệu ( w

Ngày đăng: 10/02/2025, 20:11

HÌNH ẢNH LIÊN QUAN

Hình 9. Hộp thoại Create PivotTable - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 9. Hộp thoại Create PivotTable (Trang 25)
Hình 12.”Dữ liệu bán thịt bò và hộp thoại Exponential Smoothing - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 12. ”Dữ liệu bán thịt bò và hộp thoại Exponential Smoothing (Trang 28)
Hình 37. Giao diện công cụ Hierarchical Clustering - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 37. Giao diện công cụ Hierarchical Clustering (Trang 54)
Hình 41. Quá trình phân lớp dữ liệu - Xây dựng mô hình - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 41. Quá trình phân lớp dữ liệu - Xây dựng mô hình (Trang 58)
Hình 58.Dữ liệu bank marketing trong data table - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 58. Dữ liệu bank marketing trong data table (Trang 82)
Hình 63. Biểu đồ tín dụng vỡ nợ, tình trạng vay nợ, tình trạng nhà ở - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 63. Biểu đồ tín dụng vỡ nợ, tình trạng vay nợ, tình trạng nhà ở (Trang 90)
Hình 68. Biểu đồ thay đổi việc làm và số lượng công nhân (báo cáo hàng quý) - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 68. Biểu đồ thay đổi việc làm và số lượng công nhân (báo cáo hàng quý) (Trang 93)
Hình 76. Mô hình các thuật toán - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 76. Mô hình các thuật toán (Trang 99)
Hình 77. Kết quả chia mẫu dữ liệu thành 5 phần - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 77. Kết quả chia mẫu dữ liệu thành 5 phần (Trang 100)
Hình 90. Kết quả Dự báo Thử nghiệm - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 90. Kết quả Dự báo Thử nghiệm (Trang 108)
Hình 76. Mô hình các thuật toán - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 76. Mô hình các thuật toán (Trang 135)
Hình 86.Đường cong của ROC với biến y là yes - Báo cáo Đồ Án khoa học dữ liệu Đề tài phân lớp bộ dữ liệu bank marketing dựa trên Ứng dụng orange
Hình 86. Đường cong của ROC với biến y là yes (Trang 142)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w