Hình 1: Công cụ lập kế hoạch 3 Hình 2.3: Active diagram về quy trình phân chia dữ liệu cho CTV 17 Hình 2.4: Active diagram về quy trình làm việc của CTV 18 Hình 3.1: Các nguồn dữ liệu đư
Trang 1TRƯỜNG ĐẠI HỌC LẠC HỒNG KHOA CÔNG NGHỆ THÔNG TIN
Trang 2KHOA CÔNG NGHỆ THÔNG TIN
Trang 3Nhận xét của giáo viên hướng dẫn:
………
………
………
………
………
………
………
………
………
………
Kết luận: o Được báo cáo o Không được báo cáo …………, ngày….tháng….năm……
Giảng viên hướng dẫn
(ký ghi rõ họ tên)
Trang 4Trong quá trình nghiên cứu, khó tránh khỏi sai sót, rất mong các Thầy, Cô
bỏ qua và giúp em hoàn thiện hơn Đồng thời do trình độ lý luận cũng như kinh nghiệm thực tiễn còn hạn chế nên bài luận văn không thể tránh khỏi những thiếu sót, em rất mong nhận được ý kiến đóng góp từ phía Thầy, Cô để em học thêm được nhiều kinh nghiệm và sẽ hoàn thành tốt hơn
Em xin chân thành cảm ơn!
Cam kết
Báo cáo tốt nghiệp này do chính Tôi viết và không sao chép từ bất cứ bài viết của bất cứ tổ chức và cá nhân nào khác (This report has been written by me and has not received any previous academic credit at this or any other institution)
Người thực hiện (Ký và ghi rõ họ tên)
Em xin gửi lời cảm ơn chân thành và sự tri ân sâu sắc đối với các thầy cô của trường, đặc biệt là các thầy cô khoa Công nghệ thông tin của trường Đại học
đã giúp đỡ Em về tài liệu tham khảo để Em có thể hoàn thành tốt Báo cáo tốt nghiệp Và Em cũng xin chân thành cám ơn thầy Nguyễn Minh Sơn đã nhiệt tình hướng dẫn Em trong việc lựa chọn đề tài nghiên cứu, hướng tiếp cận và giúp Em chỉnh sửa những thiếu sót trong quá trình nghiên cứu
Trang 5CHƯƠNG 2: MÔ HÌNH HÓA YÊU CẦU VÀ THIẾT KẾ HỆ THỐNG 15
Trang 63.8 Tiểu kết 59
Trang 7STT Từ viết tắt Giải thích
1 ETL Extract, Transform, Load: Trích xuất, chuyển đổi, tải
2 SQL Structured Query Language: là một ngôn ngữ truy vấn có cấu
trúc
3 DAX Data Analysis Expressions: Biểu thức phân tích dữ liệu
4 KPI Key Performance Indicator: Chỉ số đo lường hiệu quả công việc
6 Zalo OA Zalo Official Account: Tài khoản Zalo dành riêng cho doanh
nghiệp
7 ERD Entity Relationship Model: Mô hình thực thể liên kết
8 URL URL Uniform Resource Location: Hệ thống định vị tài nguyên thống nhất
Trang 8Hình 1: Công cụ lập kế hoạch 3
Hình 2.3: Active diagram về quy trình phân chia dữ liệu cho CTV 17 Hình 2.4: Active diagram về quy trình làm việc của CTV 18
Hình 3.1: Các nguồn dữ liệu được phép kết nối với Power BI 23 Hình 3.2: Loại nguồn dữ liệu được tác giả chọn là Web 24 Hình 3.3: Giao diện Power BI yêu cầu cung cấp đường dẫn Web 24
Hình 3.5: Đường dẫn URL cần lấy xuất hiện trong thẻ Đường liên kết 26 Hình 3.6: Sau khi dán đường dẫn vào ô URL thì chọn Ok để tiến hành kết nối
27
Hình 3.7: Chọn các bảng dữ liệu cần thiết rồi ấn Load để tải dữ liệu lên Power
Hình 3.8: Chọn tính năng Transform data để truy cập vào Power Query 29
Hình 3.12: Chức năng Manage Relationships cho phép tạo liên kết các bảng
Hình 3.13: Cửa sổ Manage Relationships cho phép người dùng có thể quản lý
Hình 3.17: Bảng ThongTinChamSoc sau khi được bổ sung 3 cột mới 37 Hình 3.18: Bảng HocSinh sau khi được bổ sung cột HoTenHS 39 Hình 3.19: Bảng CongTacVien sau khi được bổ sung cột HoTenCTV 39
Trang 9Hình 3.21: Giao diện Report View 41
Hình 3.24: Chọn Publish để xuất bản báo cáo lên Power BI Service 44
Hình 3.27: Nhập vào mật khẩu để hoàn tất quá trình đăng nhập 46 Hình 3.28: Chọn không gian lưu trữ trên Power BI Service 47
Hình 3.30: Nhập email xác nhận để truy cập vào Power BI Service 48
Hình 3.32: Giao diện Trung tâm dữ liệu của Power BI Service 49 Hình 3.33: Truy cập vào mục thiết đặt để tiến hành kết nối với bộ dữ liệu 50
Hình 3.37: Giao diện báo cáo khi xem trên Power BI Service 53 Hình 3.38: Truy cập vào Mobile layout trên Power BI Desktop 54
Hình 3.43: Giao diện không gian làm việc của Power BI Mobile 58 Hình 3.44: Progress Report khi được xem trên Power BI Mobile 59 Hình 3.45: Data Report khi được xem trên Power BI Mobile 60 Hình 4: Tìm kiếm từ khóa Power BI Microsoft trên trình duyệt Google 62
Hình 8: Giao diện cài đặt Power BI Desktop sau khi được chuyển hướng vào
Hình 9: Cài đặt Power BI Desktop với tùy chọn See download or language
Trang 10Hình 16: Xác minh thông tin 70
Hình 19: Tìm kiếm từ khóa App Power BI và chọn vào link được đề xuất đầu
Hình 20: Nhập tên tài khoản Power BI Pro đã đăng ký trước đó 73
Hình 25: Giao diện lần đầu đăng nhập của Power BI Service 76
Hình 27: Chọn Bắt đầu dùng thử để trải nghiệm Pro 60 ngày 77
Hình 29: Một số thông tin của người dùng bao gồm cả thời gian dùng thử 78 Hình 30: Các bước cài đặt Power BI Mobile cho người dùng IOS 79 Hình 31: Các bước cài đặt Power BI Mobile cho người dùng Android 80 Hình 32: Khởi động Power BI Mobile và điền thông tin đăng nhập 81 Hình 33: Giao diện lần đầu đăng nhập của Power BI Mobile 82
DANH MỤC BẢNG
Trang 11PHẦN MỞ ĐẦU
1 Lý do chọn đề tài
Hiện nay, việc phân tích dữ liệu đã trở thành một phần không thể thiếu trong các doanh nghiệp, phân tích dữ liệu được áp dụng như một biện pháp giúp doanh nghiệp đưa ra những quyết định kinh doanh thật chính xác dựa vào nguồn dữ liệu thu thập được
Ở Việt Nam việc phân tích dữ liệu đã và đang được ứng dụng một cách vô cùng rộng rãi trong các lĩnh vực như tài chính ngân hàng, bảo hiểm, chứng khoán, quản lý cung ứng và logistics… Chính vì vậy mà các doanh nghiệp luôn phải có cho mình một
hệ thống hay những báo cáo phân tích để có thể đưa ra các quyết định kinh doanh một cách hợp lý và có khoa học.
2 Mục tiêu nghiên cứu
Mục tiêu của đề tài là xây dựng được hệ thống các báo cáo phân tích dữ liệu thông qua các công cụ hỗ trợ phân tích (BI Tools) hiện trên thị trường Hệ thống bao gồm những biểu đồ báo cáo đa dạng và quy trình nhập, xuất, phân chia dữ liệu sao cho quá trình chăm sóc được tối ưu nhất
Nội dung chi tiết bao gồm:
- Tìm hiểu về phân tích dữ liệu cũng như là các công cụ hỗ trợ việc phân tích
- Tìm hiểu các tổ chức và lưu trữ dữ liệu sao cho hiệu quả
- Xây dựng quy trình hệ thống tuyển sinh
- Áp dụng quy trình ETL vào hệ thống
- Tạo báo cáo hỗ nhằm trực quan hóa nguồn dữ liệu đang có rồi từ đó cho ra được insight
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
- Data Analysis
- Power BI
- Cơ sở dữ liệu như SQL
Trang 12- Quy trình tư vấn tuyển sinh tại Đại Học Lạc Hồng
4 Phương pháp nghiên cứu
- Thu thập các kỹ năng xử lý và phân tích dữ liệu
- Nghiên cứu và tìm hiểu sâu về công cụ phân tích dữ liệu Power BI
- Có khả năng kể chuyện và trực quan hóa dữ liệu
06 01/2023 Lên kế hoạch triển khai
giai đoạn 2 của dự án
Trang 13Bảng 2: Kế hoạch chi tiết
Kế hoạch chi tiết
STT Nội dung công việc Thời gian Người thực hiện Kết quả
01 Lên ý tưởng, xác định đề tài 08/2022 Hùng Hoàn thành
02 Tìm hiểu quy trình hệ thống 08/2022 - 09/2022 Hùng Hoàn thành
03 Tiến hành khảo sát lần 1 08/2022 Hùng Hoàn thành
04 Thiết kế cơ sở dữ liệu 09/2022 Hùng Hoàn thành
05 Xây dựng đường đi dữ liệu 09/2022 Hùng Hoàn thành
06 Demo Dashboard KPI ngày 09/2022 - 10/2022 Hùng Hoàn thành
07 Tổng hợp thông tin khảo sát,
phân tích chức năng 09/2022 Hùng Hoàn thành
08 Mô hình hóa 09/2022 - 10/2022 Hùng Hoàn thành
09 Cải tiến Dashboard KPI ngày 11/2022 Hùng Hoàn thành
10 Xây dựng Dashboard KPI tháng 11/2022 Hùng Hoàn thành
11 Tổng kết giai đoạn 1 12/2022 Hùng Hoàn thành
12 Bắt đầu triển khai giai đoạn 2 01/20223 Hùng Hoàn thành
13 Khảo sát giai đoạn 2 02/2023 - 03-2023 Hùng Hoàn thành
14 Nắm rõ kế hoạch của quy trình
tuyển sinh năm 2023
02/2023 - 03-2023 Hùng Hoàn thành
15 Mô hình hóa 03/2023 - 04/2023 Hùng Hoàn thành
16 Xây dựng báo cáo bao gồm 2
trang:
- Báo cáo tiến
- Báo cáo dữ liệu
Trang 14với tất cả mọi người, độ hiệu quả cao, hơn nữa là còn dễ dàng tiếp cận và
sử dụng
6 Kết cấu của đề tài
Báo cáo được chia làm ba phần: phần mở đầu, phần nội dung và phần kết luận
Phần mở đầu
Nêu lý do chọn đề tài, tổng quan tình hình phát triển, mục tiêu nghiên cứu đề tài, đối tượng, phạm vi, phương pháp nghiên cứu cũng như những đóng góp mới của đề tài Bên cạnh đó cũng chỉ ra những mặt hạn chế mà đề tài chưa thực hiện được để mọi người có cái nhìn rõ hơn Thấy được tầm quan trọng của việc phân tích dữ liệu trong đời sống
Phần nội dung chính: gồm 3 chương
Chương 1: Khảo sát hiện trạng và phân tích yêu cầu
Trong chương này, tác giả sẽ trình bày xoay quanh việc khảo sát việc sử dụng hệ thống của các CTV sử dụng hệ thống và cũng như là những người tham gia vào quy trình vận hành hệ thống tuyển sinh - iTrail Ngoài bước khảo sát ra thì tác giả còn làm rõ những hiện trạng hiện nay của hệ thống rồi từ đó làm rõ và phân tích được những yêu cầu cần phải khắc phục quy trình tuyển được hoạt động một cách tối ưu nhất
Khảo sát sẽ bảo gồm 4 phần:
- Khảo sát hiện trạng: tác giả sẽ tập trung khảo sát những thành viên phát triển quy trình tuyển sinh và những CTV tham gia vào quá trình sử dụng hệ thống
- Hiện trạng hệ thống: Làm rõ được hiện trạng của thể thống hiện tại
- Hiện trạng tin học hóa của đơn vị: Phân tích những công cụ, hệ thống và những yếu tố mà đội ngũ tư vấn tuyển sinh dự định sẽ phát triển trong tương lai
- Phân tích yêu cầu: Tổng hợp thông tin từ những cuộc khảo sát trên, nếu ra vấn đề cần khắc phục rồi từ đó có được phương hướng giải quyết
Chương 2: Mô hình hóa yêu cầu và thiết kế hệ thống
Trang 15Chương 2 sẽ bắt đầu đi sâu vấn đề từ những yêu cầu khảo sát đã được phân tích ở chương 1 bằng cách mô hình hóa yêu cầu bao gồm: Lưu đồ quy trình, Active diagram, mô hình hóa dữ liệu
Chương 3: Xây Dựng Chương trình
Nêu cách xây dựng chương trình và các chức năng mà chương trình hỗ trợ Nêu cách tạo cơ sở dữ liệu, cách kết nối cơ sở dữ liệu câu hỏi trắc nghiệm có sẵn đến
chương trình và trình bày kết quả sau thời gian nghiên cứu
Phần kết luận
Đưa ra những kết luận và kiến nghị về chương trình đã xây dựng
Trang 16CHƯƠNG 1: KHẢO SÁT VÀ PHÂN TÍCH YÊU CẦU
Trang 17này đã gây khó khăn trong việc kiểm soát và cũng như là việc đưa ra các chiến lược chăm sóc phù hợp
- Việc lọc data vẫn chưa được tối ưu: Toàn bộ các thông tin của học viên đều được lưu trữ tại Google Sheets Sau khi đã nhận được số lượng data thì bạn Thành sẽ tiến hành lọc bằng cách dùng các hàm để tìm và loại bỏ những dữ liệu trùng nhau Ngoài việc loại bỏ dữ liệu trùng thì gần như không thể giải quyết được các tình trạng như thừa, thiếu thông tin,
Trang 181.1.2 Khảo sát nhân viên phát triển hệ thống
Hình 1.2: Khảo sát anh Trần Diệp Khánh Trình
Anh Khánh Trình và cộng sự đang đảm nhiệm vị trí phát triển hệ thống cho iTrail, tác giả cùng với anh Khánh Trình đã có khoảng thời gian trau đổi khá nhiều
Trang 19vì anh Khánh Trình là một trong những thành viên khởi đầu của iTrail và cũng là một trong những người phát triển quy trình chăm sóc tuyển sinh này
Anh Khánh Trình cho biết trước giờ việc kiểm soát và tổ chức dữ liệu đều được thao tác toàn bộ trên Google Sheets, kể cả việc các CTV chăm sóc cũng làm trực tiếp tại đây Chính vì vậy khi lượng data học viên ngày càng nhiều lên thì việc kiểm soát sẽ gặp rất nhiều khó khăn
Hình 1.3: Khảo sát thầy Nguyễn Minh Sơn
Ngoài những thông tin trên thì tác giả còn thực hiện khảo sát một số thành viên trong đội ngũ iTrail như anh Lữ Quốc Thịnh, anh Hồ Hoàng Việt, và đặc biệt
là thầy Nguyễn Minh Sơn - quản lý chính của đội ngũ iTrail để có được cái nhìn tổng quan về hệ thống
Trang 201.2 Hiện trạng
Thông qua việc khảo sát các thành viên trong đội ngũ, tác giả đã tìm hiểu được quy trình tuyển sinh cũng như là thực trạng hệ thống về việc tổ chức và quản lý dữ liệu học viên cũng như là quá trình cho ra những quyết định, kịch bản tư vấn
1.2.1 Hiện trạng hệ thống
Hình 1.4: Việc tổ chức và quản lý dữ liệu của iTrail
Giai đoạn bấy giờ đội ngũ tư vấn tuyển sinh đang thực hiện việc tổ chức và lưu trữ nguồn dữ liệu thu thập được ở Google Sheets, bao gồm cả thông tin nhân viên, thông tin học viên
Ngoài ra, Google Sheets cũng là nơi làm việc trực tiếp các nhân viên, tại đây
họ sẽ tiến hành chia đều số lượng data học viên thu thập được cho các CTV Sau đó CTV sẽ tiến hành chăm sóc các học viên dựa vào thông tin liên hệ vừa được phân
bổ bên trên
Trang 211.2.2 Hiện trạng con người trong hệ thống
Hình 1.5: Sơ đồ bộ phận trong hệ thống iTrail
Như đã đề cập ở trên, quy trình công việc sẽ bắt đầu từ Người quản lý, quản
lý sẽ tiến hành thu thập và cũng như là gửi data học viên về cho Leader, trước đó cần phải thông qua bộ phận phát triển để lọc và loại bỏ những dữ liệu trùng Sau khi đã nhận được dữ liệu thì leader sẽ bắt đầu chia về cho các CTV để tiến hành quá trình chăm sóc
Việc chăm sóc sẽ được thông qua Zalo để có được thông tin chi tiết và cũng như là trạng thái của học viên, sau đó các CTV sẽ tiến hành cập nhật toàn bộ các thông tin, trạng thái lên Google Sheets rồi Leader sẽ là người tổng kết và kiểm tra lại toàn bộ
Việc sử dụng Google Sheets thì gần như không quá khó khăn với chúng ta nhưng cần phải sử dụng như thế nào cho hiệu quá thì không dễ dàng gì
Trang 221.3 Hiện trạng tin học hóa của đơn vị
Giai đoạn 1 (03/2022 - 09/2022): Đội ngũ tư vấn tuyển sinh sử dụng Google Sheets
làm nơi lưu trữ và thao tác công việc trực tiếp tại đây Ngoài ra toàn bộ quá trình chăm sóc sẽ được thực hiện qua Zalo rồi sau đó các CTV sẽ tiến hành cập nhật lại thông tin học viên lên Google Sheets
Giai đoạn 2 (10/2022 - 02/2023): Bộ phận phát triển của iTrail đang bắt đầu xây
dựng hệ thống kiểm soát tiến độ công việc của các CTV Ngoài ra việc có một hệ thống riêng cũng giúp hạn chế được những thao tác không cần thiết của các CTV trên Google Sheets
Ở giai đoạn này quy trình được thay đổi so với giai đoạn 1 Từ đây CTV sẽ không còn thao tác lấy thông tin chăm sóc ở Google Sheets mà chuyển toàn bộ lên hệ thống iTrail
Hệ thống iTrail bao gồm:
+ Một ứng dụng mobile: (đang phát triển)
+ Một bản web:
Hình 1.6: Giao diện demo web iTrail
Một số tính năng tiêu biểu của hệ thống iTrail đó là việc lưu lại lịch sử chăm sóc của các CTV, giúp cho ban quản lý dễ dàng kiểm soát tiến độ và cũng như là
Trang 23đánh giá chất lượng làm việc so với trước Ngoài ra phân chia công việc trực tiếp trên hệ thống giúp bảo mật thông tin học viên tốt hơn vì CTV chỉ nhìn thấy thông tin chăm sóc của chính mình Ngoài ra thì còn một số tính năng khác như email đánh giá tự động, những bộ lọc theo tên, ngày, giờ
Như đã nói ở trên việc chăm sóc học viên sẽ được đội ngũ thực hiện thông qua Zalo Đây là một mạng xã hội không quá xa lạ với chúng, bằng cách tổ chức và thiết lập Zalo một cách có chủ đích như gắn nhãn, phân loại trạng thái, tạo các nhóm, Zalo OA thì Zalo hoàn toàn có thể là nơi tư vấn, chăm sóc khách hàng rất hiệu quả
Sau khi quá trình chăm sóc học viên tại Zalo hoàn tất thì các CTV sẽ tiến hành cập nhật lại trạng thái học viên lên hệ thống iTrail
Hình 1.7: Zalo
1.4 Phân tích yêu cầu
Đúc kết lại toàn bộ quá trình khảo sát, tác giả đã nhận thấy được một số vấn
đề bất cập mà hệ thống iTrail cần phải tối ưu để có thể mang lại một lượng thông tin học viên chính xác và hữu ích nhất
- Quy trình tổ chức và quản lý dữ liệu
- Quy trình làm sạch dữ liệu đầu vào
Trang 24- Phân chia dữ liệu học viên một cách tối ưu
- Quy trình đầu ra của dữ liệu
- Hạn chế việc thao tác trực tiếp không cần thiết của các CTV
- Việc phân loại CTV theo đúng vai trò
- Các báo cáo, thống kê hỗ trợ việc đưa ra quyết định
Từ những yêu cầu trên, nhằm góp phần tăng cao tỷ lệ chuyển đổi thành công cho iTrail cũng như là gia tăng số lượng học viên nhập học tại Đại Học Lạc Hồng Tác giả đã quyết định áp dụng những công cụ phân tích dữ liệu để có thể cho ra những hình ảnh báo cáo thiết thực rồi từ đó có thể có được những kịch bản, chiến lược chăm sóc một cách tốt nhất Ngoài ra, tác giả còn ứng dụng được quy trình ETL để giúp các CTV có được một nguồn dữ liệu tốt và chất lượng trước khi bắt đầu chăm sóc
Trang 25CHƯƠNG 2: MÔ HÌNH HÓA YÊU CẦU VÀ THIẾT KẾ HỆ THỐNG
2.1 Mô hình hóa chức năng hệ thống
2.1.1 Lưu đồ luồng đi của dữ liệu trong hệ thống
Hình 2.1: Lưu đồ luồng đi của dữ liệu trong hệ thống
Đặc tả
Quy trình dữ liệu di chuyển trong hệ thống sẽ bao gồm những bước sau:
- Bước 1: Thu thập dữ liệu từ nhiều nguồn
- Bước 2: Sau khi kiểm tra đánh giá thì dữ liệu sẽ được chuyển giao cho Leader
- Bước 3: Leader bắt đầu phân chia dữ liệu học viên cho các CTV
- Bước 4: CTV sẽ tiến hành quá trình chăm sóc học viên
- Bước 5: Sau khi chăm sóc thì bước cuối cùng là cập nhật thông tin lên hệ thống
2.1.2 Active diagram
Active diagram quy trình xử lý dữ liệu
Trang 26Hình 2.2: Active diagram về quy trình xử lý dữ liệu
Bản vẽ Active diagram mô tả về quy trình xử lý dữ liệu bao gồm những bước sau:
- Bước 1: Thu thập dữ liệu
- Bước 2: Tiến hành kiểm tra đánh giá
Trang 27Hình 2.3: Active diagram về quy trình phân chia dữ liệu cho CTV
Bản vẽ Active diagram mô tả về quy trình phân chia dữ liệu cho CTV bao gồm những bước sau:
Active diagram quy trình làm việc của CTV
Trang 28Hình 2.4: Active diagram về quy trình làm việc của CTV
Bản vẽ Active diagram mô tả về quy trình phân làm việc CTV bao gồm những bước sau:
- Bước 1: Nhận dữ liệu
- Bước 2: Tiến hành chăm sóc
- Bước 3: Cập nhật thông tin lên hệ thống
Trang 302.2.2 Lược đồ mức vật lý
Hình 2.6: Lược đồ mức vật lý
Trang 31CHƯƠNG 3 XÂY DỰNG CHƯƠNG TRÌNH
Từ những thông tin có được về quy trình chăm sóc tuyển sinh và luồng đi của dữ liệu trong hệ thống, tác giả đã bắt đầu xây dựng các báo cáo phân tích chỉ số
Hệ thống báo cáo phân tích được xây dựng trên công cụ Power BI Desktop, với
dữ liệu được lưu trữ trên Google Sheets Ngoài ra, sau khi hoàn tất, các báo cáo còn được lưu trữ trên một dịch vụ của Power BI có tên là Power BI Service để người dùng có thể chia sẻ các báo cáo với nhau và xem báo cáo trực tiếp trên thiết bị điện thoại di động của mình thông qua Power BI Mobile
3.1 Xây dựng và kết nối nguồn dữ liệu với Power BI
3.1.1 Xây dựng nguồn dữ liệu
Dữ liệu tuyển sinh được thu thập từ rất nhiều nguồn như được cung cấp
từ Trung tâm tuyển sinh của Trường Đại học Lạc Hồng, từ các trang mạng
xã hội như Facebook, Zalo… Sau đó toàn bộ dữ liệu sẽ được thu thập và lưu trữ trên Google Sheets
Tại đây, tác giả đã xây dựng các Sheets theo dạng bảng biểu để lưu trữ thông tin và kiểm soát cũng như ràng buộc các thuộc tính để tiện cho việc xây dựng mô hình dữ liệu trong Power BI về sau
Bảng 3: Cấu trúc nguồn dữ liệu
Tên Sheets Tên cột Loại định dạng Mô tả
HoHocSinh Text Họ và tên đệm của học sinh TenHocSinh Text Tên của học sinh
GioiTinh Text Giới tính của học sinh NgaySinh Short Date Ngày sinh của học sinh SDT Text Số điện thoại liên hệ của học sinh DiaChi Text Địa chỉ của học sinh
ThanhPho Text Thành phố của học sinh NgayThem Short Date Ngày thêm vào hệ thống Nguon Text Dữ liệu được đến từ nguồn nào
HoCTV Text Họ và tên đệm của CTV
GioiTinh Text Giới tính của CTV NgaySinh Short Date Ngày sinh của CTV SDT Text Số điện thoại liên hệ của CTV
Trang 32Email Text Địa chỉ email liên hệ của CTV
ThanhPho Text Thành phố của CTV
NgayThem Short Date Ngày thêm vào hệ thống
TenTrangThai Text Tên của trạng thái GhiChu Text Ghi chú mô tả trạng thái
NgayChamSoc Short Date Ngày chăm sóc IDTrangThai Text ID trạng thái hiện tại của học sinh
3.1.2 Kết nối nguồn dữ liệu với Power BI
Trên thanh Ribbon của Power BI, chọn thẻ Home rồi chọn Get Data Sau khi chọn sẽ hiển thị giao diện các nguồn dữ liệu mà Power BI cho phép kết nối vào
Trang 33Hình 3.1: Các nguồn dữ liệu được phép kết nối với Power BI
Ở đề tài này, vì sử dụng nguồn dữ liệu là Google Sheets (một dạng nguồn đặc biệt có dữ liệu được lưu trữ trên cloud của Google) nên trong phần Get Data sẽ chọn mục Other sau đó chọn loại nguồn là Web
Trang 34Hình 3.2: Loại nguồn dữ liệu được tác giả chọn là Web
Lúc này Powr BI sẽ yêu cầu câu cấp một đường dẫn của trang Web muốn kết nối đến
Hình 3.3: Giao diện Power BI yêu cầu cung cấp đường dẫn Web
Tại đây, mở tệp Sheets chứa dữ liệu muốn kết nối tới Power BI rồi chọn xuất bản ở dạng Web để tiến hành lấy URL
Chọn Tệp → Chọn Chia sẻ → Công bố lên web
Trang 35Hình 3.4: Các bước để lấy URL của tệp Google Sheets
Sau khi chọn công bố lên Web, một giao diện bao gồm đường dẫn URL của tệp Google Sheets sẽ xuất hiện trong thẻ Đường liên kết, lúc này chỉ cần
dùng tổ hợp phím Ctrl + C là có thể copy đường dẫn
Trang 36Hình 3.5: Đường dẫn URL cần lấy xuất hiện trong thẻ Đường liên kết
Lúc này chỉ việc quay trở lại Power BI và dán đường dẫn vừa copy được vào ô URL, sau đó chọn Ok
Trang 37Hình 3.6: Sau khi dán đường dẫn vào ô URL thì chọn Ok để tiến hành kết nối
Sẽ mất một ít thời gian để Power BI kết nối đến tệp Google Sheets Sau khi kết nối thành công, Power BI sẽ hiển thị giao diện các bảng dữ liệu có trong tệp Google Sheets, lúc này người dùng sẽ kiểm tra và tích chọn vào những bảng dữ liệu mình cần, sau đó chọn Load để bắt đầu quá trình tải dữ liệu từ Google Sheets vào trong bộ nhớ đệm của Power BI
Hình 3.7: Chọn các bảng dữ liệu cần thiết rồi ấn Load để tải dữ liệu lên Power BI
Ngoài các tệp dữ liệu đơn giản như Google Sheets hoặc Excel ra thì Power
BI cũng cho phép kết nối để lấy dữ liệu trực tiếp từ các CSDL lớn như
Trang 38SQLServer, Oracle, Azure, kể cả những tệp dữ liệu dạng bán cấu trúc như JSON hay CSV đều có thể kết nối được Điều đó cho thấy mức độ xử lý dữ liệu của Power BI là mạnh mẽ và linh hoạt đến mức nào
Ở đề tài này, tác giả quyết định chọn Google Sheets làm nguồn dữ liệu là
vì đội ngũ iTrail hiện đang thao tác công việc trên một ứng dụng có tên là iTrail Web App, tại đây mọi thao tác xử lý đều được lưu trữ vào Google Sheets Bên cạnh đó, việc sử dụng Google Sheets làm nguồn dữ liệu cũng tiết kiệm được rất nhiều chi phí Ngoài ra, lượng dữ liệu nhóm tuyển sinh đang
xử lý hiện tại chỉ thuộc quy mô nhỏ nên chưa cần thiết phải lưu trữ vào một CSDL cụ thể
Trong tương lai, khi hệ thống tuyển sinh của nhóm tuyển sinh đã bắt đầu
ổn định thì CSDL vẫn sẽ luôn là một giải pháp lưu trữ tối ưu về mặt bảo mật lẫn về hình thức, vì CSDL cho phép người dùng thực hiện các ràng buộc dữ liệu trước khi dữ liệu được lưu trữ nên sẽ đảm bảo về mặt độ chính xác và tránh được các sai sót như khi thực hiện ở Google Sheets hoặc Excel Lúc này, việc kết nối để đưa dữ liệu từ CSDL vào Power BI cũng được thức hiện tương tự như trên, chỉ cần chọn đúng nguồn dữ liệu cần kết nối và nhập vào một số thông tin được yêu cầu là người dùng có thể dễ dàng đưa dữ liệu của mình vào Power BI để tiến hành quá trình xử lý
3.2 Xử lý dữ liệu
Sau khi toàn bộ dữ liệu đã được tải vào Power BI thì bước quan trọng không thể thiếu đó chính là làm Transform Data hay còn được gọi là chuyển đổi dữ liệu Hiểu đơn giản thì Transform Data là quá trình chuyển đổi dữ liệu thô thành
dữ liệu tinh gọn và sẵn sàng cho việc phân tích
Để bắt đầu quá trình Transform Data thì chúng ta cần truy cập vào tính năng Power Query trong Power BI bằng cách chọn thẻ Home trên thành Ribbon sau
đó chọn Transform data
Trang 39Hình 3.8: Chọn tính năng Transform data để truy cập vào Power Query
Sau khi đã chọn Transform data, Power BI sẽ đưa người dùng đến một cửa
sổ mới, nơi này được gọi là Power Query
Hình 3.9: Giao diện của Power Query
Power Query sẽ được chia làm 4 phần chính
1 Thanh Ribbon: Nơi tổng hợp các tính năng giúp định dạng dữ liệu
2 Ngăn Queries: Hiển thị toàn bộ các bảng dữ liệu đã được tải từ dữ liệu nguồn vào Power BI
3 Không gian làm việc: Nơi làm việc và tương tác chính
4 Ngăn Query Settings: Cho phép lưu lại lịch sử các bước định dạng Trong Power Query, người dùng được phép biến đổi dữ liệu của mình thành định dạng như mong muốn Một số bước mà tác giả thực hiện trong đề
Trang 40tài bao gồm định dạng các cột dữ liệu, tìm và hiệu chỉnh các lỗi dữ liệu (thiếu
dữ liệu, dữ liệu sai chính tả, không đúng định dạng, )
Như đã được đề cập ở phần trên, dữ liệu học sinh của đội ngũ tuyển sinh toàn bộ đều được lưu trữ trên Google Sheets, điều này rất dễ dẫn đến những sai sót khi số lượng dữ liệu tăng lên rất nhiều và cũng sẽ rất khó để kiểm soát Ngoài ra dữ liệu còn đến từ rất nhiều nơi như Facebook, Zalo, nên tình trạng không đồng bộ hóa được dữ liệu cũng sẽ dẫn đến sai sót trong quá trình làm phân tích
Ví dụ: Một giá trị trong cột Thành Phố của bảng Học Sinh là TP Hồ Chí
Minh, dữ liệu từ trang Facebook mà CTV của nhóm tuyển sinh thu thập được lại có giá trị là Thành Phố HCM Đây là một ví dụ điển hình cho việc không đồng bộ hóa được khi dữ liệu đến từ rất nhiều nguồn, số lượng lại rất lớn nên việc không kiểm soát được là hoàn toàn có thể xảy ra
Ngoài ra còn rất nhiều vấn đề nan giải trong bước Transform data này, từ việc thiếu dữ liệu, sai chính tả, sai định dạng, toàn bộ những vấn đề trên cần phải được khắc phục ngay trong Power Query để khi kết thúc quá trình Transform thì dữ liệu phải ở mức “tinh gọn” và “sạch sẽ” nhất Từ đó mới đảm bảo được độ chính xác khi xây dựng các biểu đồ phân tích về sau
3.3 Xây dựng Data Model
Data Model hay còn được gọi là Mô hình dữ liệu trong Power BI là tập hợp các bảng dữ liệu được liên kết với nhau bằng các mối quan hệ (relationship)
Một mô hình dữ liệu tốt mang lại những lợi ích sau:
- Giúp cho báo cáo hoạt động nhanh hơn
- Các chỉ số được tính toán có độ chính xác cao
- Dễ dàng bảo trì và nâng cấp trong tương lai
Có 3 loại Data Model phổ biến là:
- Star Schema