Thực hành 2.1:Hướng dẫn thực hành PIVOT.Kiến thức nắm được sau khi thực hành: Làm quen với Pivot Table : Cách dùng Pivot Table trong Excel để thống kê dữ liệu, Tạo báo cáo tổng hợp bằ
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC
Báo cáo cá nhân:
KHO DỮ LIỆU VÀ KINH DOANH THÔNG MINH
Giảng viên hướng dẫn: Th.S Nguyễn Danh Tú
Hà Nội, 1/2021
Trang 2MỤC LỤC.
Tự đánh giá cá nhân 3
I Kết quả thực hành 4
1 Thực hành 1: ETL dữ liệu trong trong Excel 4
2 Thực hành 2.1:Hướng dẫn thực hành PIVOT 7
3 Thực hành 2.2: Hướng dẫn tùy chỉnh đồ thị (CHART) 8
4 Thực hành 2.3:Làm báo cáo dữ liệu bán hàng 9
5 Thực hành 3.1: Xây dựng Dashboard trên Excel 9
6 Thực hành 3.2: Làm Dashboard 2.0 10
7 Thực hành 4.1: ETL dữ liệu với PowerQuery 11
8 Thực hành 4.2: Lấy dữ liệu từ Google Sheet vào Excel 11
9 Thực hành 5: PowerQuery & Dash 11
10 Thực hành 6: Xây dựng Dashboard trên Power BI 12
11 Thực hành 7: Tìm hiểu các tính năng trên Power BI 13
12 Thực hành 8: Google Data Studio 19
II Kết quả thu được, đánh giá và góp ý cho môn học 20
1 Kết quả thu được: 20
2 Đánh giá và góp ý cho môn học: 21
Tài liệu tham khảo 25
Trang 3Tự đánh giá cá nhân.
Qua quá học tập và làm việc dưới sự hướng dẫn của thầy Nguyễn Danh Tú cùng sự giúp
đỡ của các bạn, em đã hoàn thành khá tốt bài tập hàng tuần Bài báo cáo này có đầy đủ các bàitập được giao Tuy nhiên thiếu xót là không thể tránh khỏi em mong nhận được sự góp ý nhiềuhơn nữa từ thầy và các bạn
Một lần nữa em xin được gửi lời cảm ơn đến thầy Nguyễn Danh Tú, bộ môn Toán- Tin,trường Đại học Bách Khoa Hà Nội, người đã nhiệt tình giảng dạy và hướng dẫn em thực hànhbài tập qua các tuần
Em xin chân thành cảm ơn!
Đầu tiên, em xin gửi lời cảm ơn tới thầy Nguyễn Danh Tú đã hướng dẫn em trong mônhọc “Kho dữ liệu và kinh doanh thông minh” giúp em hiểu hơn về môn học và những hiệu quảmang tính thực tiễn qua những bài thực hành và bài tập lớn
Trong quá trình học, em đã có được sự cố gắng và nghiêm túc với môn học và dướiđây là đánh giá về bản thân em trong môn học
Trang 4I Kết quả thực hành.
1 Thực hành 1: ETL dữ liệu trong trong Excel.
ETL là gì? ETL là viết tắt của Extract - Transform - Load (tạm dịch: Trích xuất - biến đổi - tải) Trong điện toán, trích xuất - biến đổi - tải (ETL) là quy trình chung sao chép dữ liệu từ một hoặc nhiều nguồn vào hệ thống đích đại diện cho dữ liệu khác với nguồn Quá trình ETL đã trở thành một khái niệm phổ biến trong những năm 1970 và thường được sử dụngtrong kho dữ liệu
Kiến thức nắm được sau khi thực hành: nắm được cách ETL (tiền xử lý dữ liệu ) để dữ liệu được chính xác, không bị dư thừa, phù hợp với yêu cầu của người sử dụng
Cụ thể:
Biết được cách định dạng dữ liệu có điều kiện
Sắp xếp: Sắp xếp dữ liệu theo 1 tiêu chí, nhiều tiêu chí, sắp xếp theo giá trị, theo màu, sắp xếp dữ liệu theo yêu cầu đặc thù, v.v
Lọc dữ liệu: Lọc dữ liệu theo 1 tiêu chí, theo nhiều tiêu chí, theo yêu cầu đặc thù: control&check, v.v
Bỏ vùng trộn:
Đóng băng tiêu đề dữ liệu:
Trang 5Nhân viên bộ phận kho có hộ khẩu tại Hà Nội để lên lịch trực tết:
Nhân viên bộ phận kho:
Nhân viên cần xác minh lại hộ khẩu:
5
Trang 6Nhân viên chưa có thông tin CMND:
Nhân viên có thu nhập từ 8 đến 10 triệu:
Trang 72 Thực hành 2.1:Hướng dẫn thực hành PIVOT.
Kiến thức nắm được sau khi thực hành:
Làm quen với Pivot Table :
Cách dùng Pivot Table trong Excel để thống kê dữ liệu, Tạo báo cáo tổng hợp bằngPivot với các thành phần, làm mới dữ liê ̣u, lấy dữ liê ̣u chi tiết từ báo cáo, định dạng dữliê ̣u trên PivotTable, thêm các cô ̣t/dòng tổng hợp, tùy chỉnh báo cáo dạng cổ điển, tùychỉnh công thức tính (count, sum,….), nhóm các loại dữ liê ̣u (dạng ngày tháng, dạng,số), thu gọn dữ liệu theo nhu cầu sử dụng và từ đó làm báo cáo
Các kiến thức nâng cao hơn như: Tiền xử lý dữ liệu, bổ sung các cột dữ liệu để làmbáo tổng hợp,.v.v
Tùy chỉnh vẽ đồ thị:
Cách xử lý dữ liệu để vẽ được đồ thị
Làm việc với dữ liệu( data)
Làm việc với mẫu đồ thị ( Chart Layout)
Làm đồ thị với Pivot Table
Cập nhật dữ liệu trên đồ thị khi bảng thay đổi
Làm báo cáo trên dữ liệu bán hàng: Cách làm việc với các mẫu biểu đồ trong excel
7
Trang 83 Thực hành 2.2: Hướng dẫn tùy chỉnh đồ thị (CHART).
Trang 9Làm việc với các mẫu biểu đồ:
9
Trang 104 Thực hành 2.3:Làm báo cáo dữ liệu bán hàng.
5 Thực hành 3.1: Xây dựng Dashboard trên Excel.
Bảng điều khiển Excel là một bảng trực quan (hầu hết, nhưng không phải lúc nào cũng cần thiết) giúp người quản lý và lãnh đạo doanh nghiệp theo dõi KPI hoặc số liệu chính và đưa ra quyết định dựa trên nó Nó chứa các biểu đồ / bảng / khung nhìn được hỗ trợ bởi dữ liệu
Bảng điều khiển thường được gọi là báo cáo, tuy nhiên, không phải tất cả các báo cáo đều là bảng điều khiển
Kiến thức nắm được sau khi thực hành:
Trang 11-Xây dựng Dashboard trên excel:
Trang 12Chủ đề: Doanh thu, sản phẩm và thị trường tiềm năng.
Mục đích: Phân tích sự thay đổi nhu cầu, sở thích của khách hàng, qua đấy thay đổi chiến
thuật kinh doanh để mang tới lợi nhuận cao nhất
Thông tin đọc được trong Dashboard:
- Doanh thu có sự tiến triển mạnh từ năm 2003-2004, nhưng có sự sụt giảm nghiêmtrọng trong giai đoạn 2005, nên cần phải đổi mới kinh doanh để tránh để doanh thu giảm sútnghiêm trọng như vậy
- Quy mô giao dịch lớn nhất của các tầng S-M-L đều là Classic Car Đặc biệt ở tầngM(Medium), số lượng Classic Car gấp 2 lần Vintage Cars (là dòng xe có số lượng đứng thứ2) Ở tầng L(large), dòng Ships gần như không có
- Trong 3 năm, dòng xe bán chạy nhất là Classic Car, dòng xe ế ẩm nhất là Trains
- Tổng doanh thu các năm từ 2003-2005, Classic Car luôn đứng đầu, đứng chót bảngdoanh thu các năm lại tiếp tục là Trains
- Thị trường lớn nhất là Hoa Kỳ và tây Canada Khu vực Tây Nam châu Âu cũng đã vàđang là thị trường tốt Các thị trường tiêu thụ mới nổi như Úc hay Canada cũng cho doanh thu
ở mức tạp chấp nhận được
7 Thực hành 4.1: ETL dữ liệu với PowerQuery.
Power Query lần đầu xuất hiện dưới dạng một Addin trong Excel cho phiên bản Excel 2010 Tới phiên bản Excel 2016 trở về sau và Excel 365, Power Query xuất hiện dưới cái tên “Get and Transform” Cái tên “Power Query” có ý nghĩa nói lên khả năng truy xuất dữ liệu một cách mạnh mẽ Cái tên “Get and Transform” thể hiện rõ ràng chức năng của Power Query hơnkhi làm việc với dữ liệu
Power Query được tích hợp sẵn trong Power BI Desktop, giúp cho việc chuẩn bị dữ liệu, truy vấn dữ liệu từ nhiều nguồn, về mặt chức năng Power Query trong Excel và Power Query trongPower BI Desktop giống nhau tới 99%
Power Query là một công cụ ETL: chữ ETL là viết tắt của Extract, Transform, Load ETL là một quy trình trong Business Intelligence, trước khi chúng ta đi tính toán các chỉ số cho business, lập ra những báo cáo thật đẹp thì thời gian và công sức chúng ta dành cho ETL lên tới 80%
ETL dữ liệu với Power Query:
Cách phân tích dữ liệu trong Excel, sắp xếp, lọc dữ liệu,v.v
Chuyển đổi Dữ liệu Excel sang Bảng Excel để đưa nó vào Power Query
Định hình dữ liê ̣u(chẳng hạn như loại bỏ cột, thay đổi kiểu dữ liê ̣u hoă ̣c sáp nhập bảng,tính toán, v.v)
Load dữ liệu về excel
Trang 13ETL dữ liệu trên Power Query, sau đó thống kê dữ liệu cần bằng Pivot Table :
8 Thực hành 4.2: Lấy dữ liệu từ Google Sheet vào Excel.
9 Thực hành 5: PowerQuery & Dash.
13
Trang 1410 Thực hành 6: Xây dựng Dashboard trên Power BI.
Power BI là một giải pháp phân tích kinh doanh cho phép bạn trực quan hóa dữ liệu
(visualization) và chia sẻ những hiểu biết sâu sắc (insights) trong tổ chức của bạn hoặc nhúng những báo cáo Dashboard này vào ứng dụng hoặc trang web của công ty bạn
Từ đó giúp cho Ban điều hành và các nhà quản trị doanh nghiệp đưa ra những quyết định kinh doanh và quản lý hiệu quả và kịp thời
Các công cụ của power BI:
- Kết nối và chuyển đổi dữ liệu một cách dễ dàng: Bạn có thể truy cập dữ liệu từ hàng trăm nguồn được hỗ trợ tại chỗ trên nền tảng Power BI như các nguồn Excel, hệ CSDL, Api, Thường thì việc chuẩn bị dữ liệu có thể mất phần lớn thời gian Vậy hãy trải nghiệm Power BI với hai công cụ Power Query và Power Pivot quen thuộc trong Excel Hoàn toàn giống từ chức năng đến giao diện, Power BI giúp người dùng chuẩn hóa dữ liệu và xây dựng nền tảng mô hình dữ liệu cho các báo cáo Dashboard rất hiệu quả
- Trực quan khám phá và phân tích dữ liệu nâng cao bằng hình ảnh tiện ích: Power BI tạo ấn tượng mạnh bởi việc dễ sử dụng Người dùng có thể tự tìm hiểu sâu hơn về
dữ liệu, tìm nhanh, nhóm, dự báo và phân cụm dữ liệu Người dùng nâng cao có toàn quyền kiểm soát mô hình dữ liệu (Data model) Đồng thời, nó cung cấp các tínhnăng nâng cao hơn như trực quan hóa bản đồ địa lý tương tác được cung cấp bởi Bing Maps và khả năng phân tích dự đoán thông qua các tập lệnh và hình ảnh R, Microsoft Azure Machine Learning và Azure Stream Analytics, nơi các doanh nghiệp có thể sử dụng dữ liệu của họ để dự đoán kết quả
Kiến thức thu được sau thực hành:
Trang 15 Nắm được những kiến thức cơ bản về Power BI: cách kết nối, chuyển đổi dữ liệu trên Power BI, phân tích dữ liệu bằng hình ảnh, làm báo cáo trên Dashboard,
Biết cách tạo một Dashborad trên Power BI và từ đó tựu làm một Dashboard 3.0 và phân tích
11 Thực hành 7: Tìm hiểu các tính năng trên Power BI.
Nghiên cứu chi tiết các tính năng trên Power BI :
15
Trang 1912 Thực hành 8: Google Data Studio.
19
Trang 21II Kết quả thu được, đánh giá và góp ý cho môn học.
1 Kết quả thu được:
- Lý thuyết:
o Khái niệm về Kho dữ liệu
o Kiến trúc Kho dữ liệu
o Mô hình hóa dữ liệu
o Lập chỉ mục
o Tối ưu hóa
o Phép toán truy vấn và OLAP
o Xây dựng Kho dữ liệu
- Thực hành :
Thực hành tuần 1: ETL dữ liệu
Kiến thức nắm được sau khi thực hành: nắm được cách ETL (tiền xử lý dữ liệu ) để dữ liệu được chính xác, không bị dư thừa, phù hợp với yêu cầu của người sử dụng
Cụ thể:
21
Trang 22 Biết được cách định dạng dữ liệu có điều kiện.
Sắp xếp: Sắp xếp dữ liệu theo 1 tiêu chí, nhiều tiêu chí, sắp xếp theo giá trị, theo màu, sắp xếp dữ liệu theo yêu cầu đặc thù, v.v
Lọc dữ liệu: Lọc dữ liệu theo 1 tiêu chí, theo nhiều tiêu chí, theo yêu cầu đặc thù: control&check, v.v
Thực hành tuần 2: Pivot table
Kiến thức nắm được sau khi thực hành:
Làm quen với Pivot Table :
Cách dùng Pivot Table trong Excel để thống kê dữ liệu, Tạo báo cáo tổng hợp bằngPivot với các thành phần, làm mới dữ liê ̣u, lấy dữ liê ̣u chi tiết từ báo cáo, định dạng dữliê ̣u trên PivotTable, thêm các cô ̣t/dòng tổng hợp, tùy chỉnh báo cáo dạng cổ điển, tùychỉnh công thức tính (count, sum,….), nhóm các loại dữ liê ̣u (dạng ngày tháng, dạng,số), thu gọn dữ liệu theo nhu cầu sử dụng và từ đó làm báo cáo
Các kiến thức nâng cao hơn như: Tiền xử lý dữ liệu, bổ sung các cột dữ liệu để làmbáo tổng hợp,.v.v
Tùy chỉnh vẽ đồ thị:
Cách xử lý dữ liệu để vẽ được đồ thị
Làm việc với dữ liệu( data)
Làm việc với mẫu đồ thị ( Chart Layout)
Làm đồ thị với Pivot Table
Cập nhật dữ liệu trên đồ thị khi bảng thay đổi
Làm báo cáo trên dữ liệu bán hàng: Cách làm việc với các mẫu biểu đồ trong excel
Thực hành tuần 3: Dashboard
Kiến thức nắm được sau khi thực hành:
Xây dựng Dashboard trên excel:
Cách làm Dashboard 2.0
Biết cách làm một báo cáo tổng hợp và từ đó tự xây dựng một bản Dashboard 2.0, phân tíchkết quả thu được từ Dashboard
Thực hành tuần 4: Power Query
ETL dữ liệu với Power Query:
Cách phân tích dữ liệu trong Excel, sắp xếp, lọc dữ liệu,v.v
Chuyển đổi Dữ liệu Excel sang Bảng Excel để đưa nó vào Power Query
Định hình dữ liê ̣u(chẳng hạn như loại bỏ cột, thay đổi kiểu dữ liê ̣u hoă ̣c sáp nhập bảng,tính toán, v.v)
Load dữ liệu về excel
Trang 23Lấy dữ liệu từ Google Sheet.
Thực hành tuần 5: Power Query and Dash
Sử dụng Power Query
Thực hành tuần 6: Xây dựng Dashboard trên Power BI
Kiến thức thu được sau thực hành:
Nắm được những kiến thức cơ bản về Power BI: cách kết nối, chuyển đổi dữ liệu trên Power BI, phân tích dữ liệu bằng hình ảnh, làm báo cáo trên Dashboard,
Biết cách tạo một Dashborad trên Power BI và từ đó tựu làm một Dashboard 3.0 và phân tích
Thực hành tuần 7: Tìm hiểu các tính năng trên Power BI
Thực hành tuần 8: Google Data Studio
Kiến thức thu được sau khi thực hành:
Cách làm báo cáo trên Google Data Studio: thêm biểu đồ vào báo cáo, thêm điều khiển tương tác ( lựa chọn thời gian hiển thị, bộ lọc,v.v.), thêm chữ, vẽ đường và hình khối vào báo cáo, thêm nguồn dữ liệu vào báo cáo, mở bảng chủ đề và bố cục, chỉnh sửa loại biểu đồ, v.v
2 Đánh giá và góp ý cho môn học:
Đánh giá cho môn học:
- Môn học có tính thực tế và thời đại
- Môn học đã cho tiếp cận được những dữ liệu minh họa tuy không phải là lón nhưng đủ
để hiểu được sự khổng lồ của dữ liệu, và đó có thể sẽ là những bước làm quen ban đầucho tương lai, đặc biệt là những bạn theo hướng Data Analysis
- Môn học yêu cầu những kiến thức căn bản rất chắc ( Cơ sở dữ liệu, cấu trúc dữ liệu vàgiải thuật, …)
- Môn học yêu cầu sự nhanh nhạy trong việc tiếp thu và sử dụng các công cụ phân tíchnhư Exel, Power BI, Google Data Studio
Góp ý cho môn học:
Môn học “ Kho dữ liệu và kinh doanh thông minh” là một môn học hay, bổ ích và nó thực sự quan trọng trong thời đại công nghệ hiện nay
Ngày nay, khi mà việc phân tích dữ liệu càng trở nên quan trọng đối với doanh nghiệp nhằm
hỗ trợ ra quyết định, gia tăng lợi thế cạnh tranh Tuy nhiên Database thông thường lại không thoả mãn các yêu cầu về phân tích dữ liệu, Database thông thường chỉ hỗ trợ tốt các nghiệp vụhàng ngày và điểm mạnh nhất của nó là bảo đảm toàn vẹn dữ liệu, xử lý giao dịch, truy cập song song Database thông thường đó được gọi là Database nghiệp vụ (Operational Database) hoặc hệ thống xử lý giao dịch thời gian thực (online transaction processing – OLTP) Thông thường các Database nghiệp vụ chỉ lưu trữ dữ liệu chi tiết cho thời điểm hiện tại, không lưu dữ
23
Trang 24liệu lịch sử, dữ liệu trong Database được thiết kế chuẩn hoá rất cao nên thường có hiệu năng kém khi truy vấn phức tạp (join nhiều bảng dữ liệu với nhau) hoặc khối lượng dữ liệu lớn Thêm nữa, việc truy vấn dữ liệu từ nhiều nguồn khác nhau là gần như không thể nếu chỉ dùng Database nghiệp vụ.
Vì vậy, Data Warehouse ( Kho dữ liệu) là một phần rất quan trọng của hệ thống báo cáo quản trị thông minh, là kho dữ liệu tập trung chuyên dùng cho tạo báo cáo và phân tích dữ liệu Data Warehouse hỗ trợ các truy vấn phức tạp, vừa là điểm tập trung dữ liệu từ nhiều nguồn khác nhau để có được thông tin phân tích đầy đủ nhất Theo đó Data Warehouse là một tập hợp dữ liệu hướng chủ đề, toàn vẹn, không bị rò rỉ mất mát và có giá trị lịch sử
Data Warehouse là yếu tố cơ bản, đóng vai trò then chốt trong việc tập hợp, xử lý dữ liệu thô trong doanh nghiệp Do lượng thông tin trong một doanh nghiệp có thể đến từ nhiều nguồn khác nhau, dẫn đến việc dữ liệu không đồng nhất, bên cạnh đó khối lượng dữ liệu sẽ tăng nhanh theo thời gian Điều này dẫn đến quá tải và giảm đáng kể khả năng truy xuất nếu đơn vị
chỉ dụng một database duy nhất Xây dựng Data Warehouse là công đoạn đầu tiên và cơ bản
trong quá trình tích hợp hệ thống báo cáo quản trị thông minh cho doanh nghiệp Từ đó hệ
thống báo cáo có thể truy xuất, xử lý dữ liệu một cách nhanh chóng và dễ dàng
Vì vậy, nắm được những kiến thức của môn học Kho dữ liệu và kinh doanh thông minh giúp
em có nền tảng vững chắc trong quá trình tích hợp hệ thống báo cáo quản trị thông minh cho
dự án và công việc sau này
Tuy nhiên, do đây là môn học trên lớp nên thời gian của môn học không nhiều, với thời lượng
3 tiết một tuần nên kiến thức của em về môn học chưa thực sự sâu Vì vậy nếu có thể, em rất mong được tăng thời lượng cho môn học nhiều hơn Môn học có tính thực tiễn cao, nên sẽ cầnnhiều hơn những thí dụ hay ví dụ trực tiếp từ những lý thuyết đang được học Các bài thực hành liên quan đến Excel cơ bản và quen thuộc ( bài thực hành 1 và 2) gộp chung, để các bài thực hành sau có tính mới mẻ hơn, khó hơn sẽ có thêm thời gian làm quen và học Mong muốn
cá nhân: Em mong muốn là thầy Nguyễn Danh Tú sẽ viết 1 cuốn sách về môn “Kho dữ liệu vàkinh doanh thông minh”, tổng hợp nhất và cho lớp sử dụng từ buổi học đầu tiên, để chúng em
có thể hiểu hơn những môn học qua những kiến thức từ nguồn chính thống, chứ không phải đọc những kiến thức trên Internet và lo lắng rằng nó có thực sự đúng và chính thống hay không