Bài viết Trình bày dữ liệu đồ thị trong trực quan hóa dữ liệu tập trung vào nội dung trình bày dữ liệu trong trực quan hóa dữ liệu. Đây là bước quan trọng của bất kì quy trình phân tích hay khai phá dữ liệu và là công cụ được sử dụng phổ biến và rộng rãi ở mọi tổ chức thuộc mọi lĩnh vực với mục đích truyền đạt, trình bày một cách đơn giản, hiệu quả, thu hút những thông tin, dữ liệu đến người đọc. Mời các bạn cùng tham khảo!
Trang 1TRÌNH BÀY DỮ LIỆU ĐỒ THỊ TRONG TRỰC QUAN HÓA DỮ LIỆU
Vũ Thị Thanh Hương
Khoa Công nghệ Thông tin Trường Đại học Tài chính - Marketing
Email: vtthuong@ufm.edu.vn
Tóm tắt: Trong nền kinh tế đang từng bước chuyển đổi số hiện nay, phân tích và thấu hiểu
những dữ liệu có sẵn giúp doanh nghiệp nhận thấy được nhưng sai xót, khiếm khuyết trong quá khứ và tìm ra phương án giải quyết, đồng thời khám phá ra những cơ hội mới để phát triển doanh nghiệp Một trong những bước quan trọng trong quá trình phân tích dữ liệu là trực quan hóa dữ liệu… Trực quan hóa dữ liệu là bước quan trọng của bất kì quy trình phân tích hay khai phá dữ liệu và là công cụ được sử dụng phổ biến và rộng rãi ở mọi tổ chức thuộc mọi lĩnh vực với mục đích truyền đạt, trình bày một cách đơn giản, hiệu quả, thu hút những thông tin, dữ liệu đến người đọc Bài viết tập trung vào nội dung trình bày dữ liệu trong trực quan hóa dữ liệu
Từ khóa: trực quan hóa dữ liệu, dữ liệu, phân tích dữ liệu
1 MỞ ĐẦU
Dữ liệu là tài sản quý giá của doanh nghiệp cần được chế biến để chuyển hóa thành giá trị sử dụng Hầu hết các nhà quản trị hiện nay đều quan tâm đến vấn đề xây dựng văn hóa đưa ra các quyết định kinh doanh dựa trên dữ liệu Hầu hết các bộ phận trong doanh nghiệp như sales & marketing, quản trị nhân sự, quản lý vận hành, quản lý tài chính, quản
lý rủi ro và kiểm toán…đều cần trực quan hóa dữ liệu nhằm cho mục đích báo cáo nội bộ, cung cấp các báo cáo cho khách hàng hoặc các ấn phẩm marketing, giúp người đọc những thông tin quan trọng khó nhìn thấy ngay lập tức trong dữ liệu thô Để chuyển hóa tạo ra giá trị từ dữ liệu thô ban đầu, thông thường cần có ba giai đoạn sau:
- Dữ liệu (Data): là những dữ liệu thô tạo ra từ thực tế, thường ở dạng số (number)
hoặc dạng văn bản (text) trích xuất từ cơ sở dữ liệu của doanh nghiệp Dữ liệu có thể là định lượng hoặc định tính
- Thông tin (Information): là ‘dữ liệu’ được xử lý, tổng hợp, sắp xếp thành một định
dạng có cấu trúc và cung cấp nhiều ngữ cảnh cụ thể để tạo ra thông tin có ý nghĩa Dữ liệu
mà không có ngữ cảnh thì ít có giá trị
Trang 2- Những hiểu biết giá trị (Insights): đây là kết quả từ việc phân tích thông tin và rút
ra kết luận, từ đó mang đến những hiểu biết có giá trị đối với doanh nghiệp để giúp nhà quản trị đưa ra những quyết định kinh doanh
Trực quan hóa dữ liệu (data vizualization) là kỹ thuật trình bày số liệu và thông tin bằng hình ảnh, thông thường là các biểu đồ, đồ thị hoặc dưới dạng các báo cáo dashboard Mục tiêu chính của trực quan hóa dữ liệu là truyền đạt thông tin hiệu quả đến người đọc thông qua các phương tiện đồ họa; minh họa bằng hình ảnh cung cấp cho người đọc những thông tin quan trọng khó nhìn thấy ngay lập tức trong dữ liệu thô
Việc thực hiện trực quan hóa dữ liệu và phân tích thông tin là các bước sau cùng của quy trình khai thác dữ liệu, sau khi đã thu thập, xử lý và tổ chức dữ liệu, và do đó, kết quả của việc trình bày dữ liệu phụ thuộc rất nhiều vào chất lượng của nguồn dữ liệu cũng như mức độ chuẩn hóa của các thông tin đầu vào Mục đích của trực quan hóa dữ liệu là biến các nguồn dữ liệu thành những thông tin được thể hiện một cách trực quan, dễ quan sát, dễ hiểu, để truyền đạt rõ ràng những hiểu biết đầy đủ từ dữ liệu đến người xem, người đọc Trực quan dữ liệu là công cụ hỗ trợ dành cho các chuyên gia, nhà phân tích để hiểu được
về xư liệu, tóm tắt được những thông tin có giá trị trong bộ dữ liệu một cách nhanh chóng Khái niệm của trực quan dữ liệu đơn giản, nhưng để hiểu được bản chất cỉa nó chúng ta phải tìm hiểu qua các dạng đồ thị, biểu đồ được trình bày ở mục sau của bài viết
2 PHƯƠNG PHÁP TÓM TẮT, TRÌNH BÀY DỮ LIỆU
Tóm tắt, trình bày dữ liệu là một phần nằm trong trực quan hóa dữ liệu vì nó liên quan đến việc thể hiện, mô tả dữ liệu định tính, định lượng dưới các dạng đồ thị phù hợp
2.1 Trình bày dữ liệu định tính
Dữ liệu định tính phản ánh tính chất, hay loại hình, không có biểu hiện trực tiếp bằng con số Ví dụ giới tính, nghề nghiệp, tình trạng hôn nhân, dân tộc, tôn giáo, học thức,… Với biến định tính chúng ta có thể đếm số quan sát cho từng loại (tần số) và tính % cho mỗi loại trong tổng thể (tần suất)
Để thể hiện dữ liệu định tính dướng dạng các đồ thị, biểu đồ thì trước hết dữ liệu định tính phải được tóm tắt, và sắp xếp dưới các bảng phân phối tần số gọi là Frequency Distributiob Table
Trang 3Phân tổ hoặc nhóm (class) là quá trình chúng ta căn cứ vào một hay một số biến đặc trưng cụ thể nào đó để sắp xếp các đơn vị quan sát vào các tổ, nhóm có đặc điểm khác nhau, tức là chia mẫu hoặc tổng thể thành các tổ nhóm có tính chất khác nhau
Ví dụ dữ liệu về loại nước giải khát được tiêu thụ phổ biến bởi 50 sinh viên một trường đại học tại Tp Hồ Chí Minh như sau:
Bảng 1 Dữ liệu về loại nước giải khát
1 Dasani 11 Sting 21 Pepsi 31 Dasani 41 C2
2 Dasani 12 Coca-cola 22 Pepsi 32 Pepsi 42 Sting
3 Sting 13 Dasani 23 Dasani 33 Twister 43 Pepsi
4 Coca-cola 14 Coca-cola 24 Sting 34 Dasani 44 C2
6 Dasani 16 Pepsi 26 Coca-cola 36 Coca-cola 46 Dasani
7 Sting 17 Pepsi 27 Dasani 37 Dasani 47 C2
8 Dasani 18 Dasani 28 Twister 38 Sting 48 Sting
9 Sting 19 Pepsi 29 Sting 39 Pepsi 49 Sting
10 Twister 20 Sting 30 Twister 40 Sting 50 C2
Chúng ta lấy thử một mẫu 50 quan sát như trên bảng trên, ta nhận thấy số loại nước ngọt không quá nhiều, gồm có 6 loại là: Dasani, Coca-cola, Pepsi, Sting, Twister, C2 Ta phân 6 tổ, mỗi tổ là 1 nhãn hiệu nước giải khát như sau:
Bảng 2 Phân phối tần suất của nước giải khát
Loại nước giải khát Tần số Tần số tương đối Tần suất Tần suất tích lũy
Trường hợp lấy mẫu lớn trên 50 hay xem xét tổng thể tất cả sinh viên trong trường thì dữ liệu loại nước giải khát sẽ rất đa dạng về nhãn hiệu không chỉ có 6 loại ở trên, do đó
Trang 4để thống kê hiệu quả, đồ thị, biểu đồ vẽ ra phù hợp, chúng ta có thể chia tổ theo những nhóm ví dụ cụ như sau:
- Nước khoáng (Dasani, Lavie, Aquafina,…)
- Nước giải khát có gas (Coca-cola, Pepsi, Sprite,…)
- Nước tăng lực (Sting, Wake-up 247, Rồng Đỏ, )
- Nước ép trái cây (Twister, Nutri Boost, Aloe Vera Juice,…)
- Các loại nước giải khát khác (C2, Ô long,…)
Lưu ý đối với dữ định lượng được chuyển đổi thành dữ liệu định tính đề khảo sát về phân phối tần số cũng có thể được chia tổ/ nhóm Ví dụ thu thập dữ liệu về thu nhập bình quân hàng tháng của 50 hộ gia đình rất đa dạng về phạm vi để tóm tắt đơn giản ta có thể chia tổ nhóm theo:
- Thu nhập dưới 5 triệu: 6 hộ
- Từ 5 triệu đến 10 triệu: 12 hộ
- Từ 10 triệu đến 15 triệu: 23 hộ
- Trên 15 triệu: 9 hộ
Trở lại với Bảng 2:
- Tần số (Frequenc/ Frequency of Class) là quan sát của một nhóm trong mẫu hoặc tổng thể
- Tần số tương đối (Relative Frequency) là tần số quan sát mà mỗi nhóm chiếm được trong mẫu hoặc tổng thể ,tức là lấy số quan sát của từng nhóm chia cho tổng đơn vị mẫu hoặc tổng thể
- Tần suất (Class Percentage): là tỷ lệ % mỗi nhóm chiếm trong mẫu, lấy tần số tương đối nhân cho 100
- Tần suất tích lũy (Cumulatove Percent) được tính bằng cách cộng dồn các tần suất theo thứ tự từ tổ nhóm đầu tiên đến cuối cùng Tần suất tích lũy được áp dụng chủ yếu cho các dữ liệu định lượng có phân tổ trên bảng phân phối tần số do nó có ý nghĩa phân tích còn đối với dữ liệu định tính (biến định danh) ta lấy ví dụ ở trên thì thường không được áp dụng
Trang 5Những dạng đồ thị sử dụng trong trực quan hóa dữ liệu được chia làm 5 loại chính, phụ thuộc vào mục đích, thông tin mà chúng ta muốn biết:
- Comparision: đồ thị cho biết sự hơn kém nhau giữa các đối tượng nghiên cứu
- Composition: đồ thị thể hiện cụ thể từng thành phần cấu tạo nên một nhóm, một vùng,… và mỗi thành phần ấy chiếm tỷ lệ như thế nào
- Distribution: đồ thị xem xét về phân phối dữ liệu, mức độ phân tán, mức độ tập trung của dữ liệu, hay xác định các điểm bất thường, giá trị ngoại lệ của dữ liệu
- Trend: đồ thị thể hiện về xu hướng biến động của đối tượng nghiên cứu trong dữ liệu
- Realtionship/ Correlation: đồ thị thể hiện về mối quan hệ, tương quan giữa 2 hay nhiều đối tượng nghiên cứu trong dữ liệu
Để trực quan dữ liệu định tính theo cách phân phối tần số, chúng ta cần vẽ các biểu
đồ cột đứng hoặc ngang (Bar chart/ Column chart), biểu đồ tròn (Pie Chart), biểu đồ Pareto Các biểu đồ được minh họa như sau:
• Bar chart/ Column chart:
Hình 1 Biểu đồ cột đứng thể hiện tần số của mỗi loại nước giải khát
Ở cột đứng, cột ngang “Tần số”, chúng ta có thể thay bằng “tần suất” với giá trị tần suất của mỗi loại nước giải khác để vẽ biểu đồ
Trang 6Hình 2 Biểu đồ cột ngang thể hiện tần số của mỗi loại nước giải khát
Biểu đồ cột đứng hay cột ngang thể hiện tần số của mỗi loại, mỗi đối tượng và thể hiện sự so sánh giữa chúng Biểu đồ cột là biểu đồ đơn giản, trực quan nhất, người xem dễ thấy rõ được cái nào giá trị lớn nhất, bé nhất, sự hơn kém giữa (thông thường được sắp xếp theo thứ tự)
• Pie chart
Biểu đồ hình tròn áp dụng cho trường hợp số lượng các thành phần riêng lẻ không quá nhiều, chỉ từ 5 thành phần, trường hợp có nhiều hơn 5 thành phần thì giá trị hay tỷ lệ
% giữa các thành phần phải khác biệt rõ rệt để dễ so sánh Biểu đồ tròn phải đảm bảo yếu
tố trực quan, nghĩa là người xem có thể thấy nhanh chóng thành phần nào chiếm tỷ lệ lớn nhất, bé nhất, thành phần nào hơn thành phần nào, và tốt hơn là để con số % đó lên đồ thị, đặc biệt tránh trường hợp gây nhầm lẫn, khó hiểu cho người xem ví dụ như phần có tỷ lệ 26% lại được vẽ giống như gần bằng phần có tỷ lệ 30% Biểu đồ tròn có rất nhiều ứng dụng nhưng không phải vì thế mà chúng ta có thể sử dụng tùy tiện mà cần xem xét đến tính hợp
lý và hiệu quả trong trực quan hóa dữ liệu
Biểu đồ hình tròn hay còn gọi là hình bánh thể hiện tốt tần suất, nhưng không thể hiện được tần số của từng loại nước giải khát Biểu đồ hình tròn giống như một cái bánh và mỗi lát bánh cho mỗi loại Kích thước của một lát tương ứng với tỷ lệ phần trăm số quan sát hay còn gọi là tần suất của nó trong tổng thể hoặc mẫu Biểu đồ tròn cũng thể hiện được sự hơn kém giữa các phần nhưng không rõ bằng biểu đồ cột
Trang 7Hình 3 Biểu đồ tròn thể hiện tần suất của mỗi loại nước giải khát
• Pareto chart
Là loại biểu đồ cột mà các cột của nó được sắp xếp theo thứ tự từ thấp đến cao theo tần số còn các giá trị tần suất tích lũy được biểu diễn bằng đường thẳng được đặt tên theo nhà kinh tế học người Ý Vilfredo Pareto (1848-1923)
Hình 4 Biểu đồ Pareto thể hiện sự sắp xếp tần số của các loại nước giải khát
Biểu đồ Pareto thường được sử dụng trong lĩnh vực kinh doanh để xác định các kết quả phổ biến nhất, chẳng hạn như xác định các sản phẩm có doanh số cao nhất hoặc xác định các loại khiếu nại phổ biến nhất mà trung tâm chăm sóc khách hàng nhận được Mục đích của biểu đồ Pareto đó là tìm ra trong một nhóm các nguyên nhân những nguyên nhân quan trọng nhất Trong kiểm soát chất lượng, biểu đồ này thường được dùng để biểu diễn những nguyên nhân gây ra lỗi phổ biến nhất, loại lỗi xuất hiện phổ biến nhất hoặc nguyên
Trang 8• Scatter plot
Biểu đồ phân tán Scatter plot thể hiện mối quan hệ giữa hai biến định lượng khác nhau hoặc nó có thể thể hiện xu hướng phân phối của dữ liệu, ngoài ra còn có thể tìm ra các giá trị ngoại lệ, và kiểm tra tính tương đồng của các bộ dữ liệu Với những ưu điểm của mình, biểu đồ phân tán được sử dụng phổ biến trong lĩnh vực khoa học dữ liệu từ khai mỏ
dữ liệu, phân tích dữ liệu đến học máy khi khối lượng dữ liệu phải phân tích là rất nhiều Tuy nhiên, nếu người xem, người đọc không am hiểu về lĩnh vực dữ liệu, hay chưa quen đọc biểu đồ phân tán sẽ không hiểu được mặc dù đây là một trong những biểu đồ trực quan
dữ liệu tốt nhất
Hình 5 Biểu đồ Scatter lot thể hiện mối liên hệ giữa chỉ số thể trọng (BMI) và lượng chất béo
của cơ thể (% fat)
Hình 6 Biểu đồ Scatter plot thể hiện mối liên hệ giữa mức độ hài lòng của khách hàng và
thời gian phản hồi khách hàng
Trang 9• Bubble chart
Biểu đồ Bubble chart giống như biểu đồ Scatter plot nhưng có thêm biến thứ 3, được thể hiện bằng các chấm tròn Biến thêm vào có thể là biến định lượng hoặc biến định tính Các chấm trên Scatter plot thường là các chấm nhỏ và ít thấy rõ sự khác biệt giữa chúng, còn trong đồ thị Bubble các chấm tròn phải khác biệt, có độ lớn hay bé quy ước dựa trên giá trị định lượng của biến thêm vào Chính vì thế trên đồ thị này chúng ta có thể thấy các chấm tròn to, chấm tròn nhỏ khác nhau như những bọt bong bóng, nên được đặt tên là Bubble chart
Mục đích sử dụng Bubble chart bao gồm cả mục đích sử dụng của Scatter plot, bên cạnh đó Bubble chart cho chúng ta thấy thêm mối liên hệ giữa các biến thêm vào so với 2 biến cố định của Scatter plot trước đó, hay so sánh trực tiếp giữa các giá trị của biến thêm vào, xem xét sự quan hệ của nhiều biến sẽ giúp tìm ra nhiều thông tin hữu ích hơn
• Area chart
Area chart giống biểu đồ đường là thể hiện xu hướng biến động của đối tượng dữ liệu theo thời gian, nhưng khác biệt ở chỗ Area chart có thể thể hiện giá trị định lượng giữa các đường vẽ của các biến dữ liệu hay các thành phần có trong một tổng, tập hợp nào đó bằng một dải màu sắc, các dải màu này sẽ chồng lên nhau để tạo thafnhn giá trị của một tổng, tập hợp nào đó Mục đích của Area chart chính là tìm hiểu về xu hướng biến động tổng thể, cả
xu hướng biến động của từng thành phần, và chênh lệch giữa chúng như thế nào theo thời gian, thành phần nào chiếm nhiều, hay chiếm ít trong tổng thể, hoặc thành phần nào hơn thành phần nào
Trang 10Trên hình là biểu đồ thể hiện biến động của tổng lợi nhuận từ chuỗi cửa hàng tạp hóa, trong đó bao gồm biến động của lợi nhuận của từng cửa hàng gộp lại thành tổng lợi nhuận
• Waterfall chart
Biểu đồ Waterfall là một biểu đồ trực quan thông tin được sử dụng để cho thấy giá trị ban đầu bị ảnh hưởng bới các giá trị trung gian như thế nào để dẫn đến giá trị cuối cùng Các giá trị có thể là âm hoặc dương
Hình 8 Waterfall chart mô tả quá trình Gross Revenue tăng giảm như thế nào bởi yếu tố gì
cho đến giá trị Net Income sau cùng
2.2 Trình bày dữ liệu định lượng
Trường hợp dữ liệu định lượng ít ví dụ độ tuổi của 30 sinh viên đang học tại trường Đại học X Thành phố Hồ Chí Minh (từ bậc đại học trở lên) như sau:
28 22 25 21 26 24 23 30 31 33 19 20 22 27 30 19 28 31 22 27 37 35 22 19 22 23 26 28 25 36
Để tóm tắt chúng ta sử dụng biểu đồ thân và lá, với lá là số liệu bên phải của các giá trị dữ liệu có thể là một hay hai chữ số hàng đơn vị hàng chục, còn nhánh lá là số liệu bên trái của các giá trị liệu phải là một hay hai chữ số hàng chục hàng trăm Tóm Tắt dữ liệu:
Số bên trái 1, 2, 3 là nhánh ở vị trí hàng chục, số bên phải là hàng đơn vị, là lá Biểu
đồ nhánh lá được thực hiện trong SPSS có kết quả như sau:
Trang 11Hình 5 Biểu đồ nhánh lá
Trường hợp dữ liệu định lượng được thu thập nhiều hơn (có nhiều đơn vị quan sát), phạm vi giá trị rộng hơn, đa dạng mà biểu đồ nhánh lá không thể hiện hết hay nói cách khác chúng ta khó nhận thấy được vấn đề, thông tin tổng quan từ dữ liệu, cảm thấy rối mắt, biểu
đồ nhánh và lá lúc này chưa trực quan dữ liệu tốt nhất mà chỉ dừng lại ở mức tóm tắt giá trị
từ dữ liệu mà thôi
Nếu muốn biến đổi dữ liệu định lượng thành dữ liệu định tính để xem xét phân phối tần số trường hợp số quan sát trong dữ liệu là rất lớn thì chúng ta cần phân bổ với mỗi tổ
có khoảng cách đều nhau Công thức như sau:
với h là trị số khoảng cách tổ/nhóm; K là số tổ; Xmax mà giá trị lớn nhất, Xmin là giá trị nhỏ nhất Công thức K=(2 x n)1/3 với n là tổng số quan sát
Bảng 3 Dữ liệu sản lượng lúa của 50 hộ dân
Chúng ta có số liệu về năng suất lúa của 50 hộ dân (tạ/ha), số liệu không thể trình bày dưới dạng biểu đồ nhánh, lá vì sẽ không hiệu quả Chúng ta tiến hành phân tổ theo công thức:
K=(2 x 50)1/3 = 4.64 xấp xỉ 5 tổ, tức 5 nhóm, h = (54 -30)/5 = 4.8 xấp xỉ 5 tổ
Chúng ta có bảng tần số như sau, và có thể tiến hành vẽ đồ thì Histogram (đồ thị phân phối tần số cho biến định lượng) với biểu đồ cột và biểu đồ tần suất tích lũy tương tự như