Trực quan dữ liệu

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 191 - 195)

CHƯƠNG 6: PHÂN TÍCH DỮ LIỆU THÔNG MINH

6.5. Trực quan và báo cáo phân tích dữ liệu

6.5.1. Trực quan dữ liệu

6.5.1.1. Giới thiệu về trực quan hóa dữ liệu

Trực quan hóa là một hình ảnh hoặc đồ họa hiển thị dữ liệu. Trực quan hóa dữ liệu phải được diễn giải một cách chính thức để đánh giá và trích xuất các quan điểm chuyên sâu hơn từ dữ liệu lớn. Trực quan hóa dữ liệu giúp kéo nhiều điểm dữ liệu lại với nhau, hiểu mối quan hệ dữ liệu thảo luận các vấn đề trong thời gian thực và dễ dàng xác định vị trí tập trung phân tích. Nó cho phép các nhà khoa học dữ liệu tìm ra các mẫu dữ liệu bí mật và cách chúng được lưu trữ. Các nhà phân tích kinh doanh cũng có thể sử dụng các kỹ thuật trực quan hóa dữ liệu để xác định các lĩnh vực cần thay đổi hoặc nâng cao, tập trung vào các biến số ảnh hưởng đến hành vi của người tiêu dùng và dự báo khối lượng doanh thu.

Trực quan hóa dữ liệu là biểu diễn dữ liệu thông qua việc sử dụng đồ họa thông thường, chẳng hạn như biểu đồ, hình vẽ, đồ họa thông tin và thậm chí cả hình ảnh động.

Những màn hình hiển thị thông tin trực quan này truyền đạt các mối quan hệ dữ liệu phức tạp và thông tin chi tiết theo hướng dữ liệu theo cách dễ hiểu.

Trực quan hóa dữ liệu là một bước quan trọng trong quy trình khoa học dữ liệu, giúp các nhóm và cá nhân truyền tải dữ liệu hiệu quả hơn đến đồng nghiệp và những người ra quyết định. Các nhóm quản lý hệ thống báo cáo thường tận dụng các chế độ xem mẫu đã xác định để theo dõi hiệu suất. Tuy nhiên, trực quan hóa dữ liệu không chỉ giới hạn ở trang tổng quan về hiệu suất. Ví dụ: trong khi khai thác văn bản, nhà phân tích có thể sử dụng đám mây từ để nắm bắt các khái niệm chính, xu hướng và các mối quan hệ ẩn trong dữ liệu phi cấu trúc này. Ngoài ra, họ có thể sử dụng cấu trúc đồ thị để minh họa mối quan hệ giữa các thực thể trong biểu đồ tri thức.

Trực quan hóa dữ liệu có thể được sử dụng cho nhiều mục đích khác nhau và điều quan trọng cần lưu ý là không chỉ dành riêng cho các nhóm dữ liệu. Ban quản lý cũng tận dụng nó để truyền đạt cấu trúc tổ chức và hệ thống phân cấp trong khi các nhà phân tích dữ liệu và nhà khoa học dữ liệu sử dụng nó để khám phá và giải thích các mẫu và xu hướng. Harvard Business Review phân loại trực quan hóa dữ liệu thành bốn mục đích chính: tạo ý tưởng, minh họa ý tưởng, khám phá trực quan và dữ liệu hàng ngày.

• Ý tưởng tạo ra: Trực quan hóa dữ liệu thường được sử dụng để thúc đẩy quá trình tạo ý tưởng giữa các nhóm. Họ thường được tận dụng trong các buổi trao đổi lên ý tưởng khi bắt đầu một dự án bằng cách hỗ trợ thu thập các quan điểm khác nhau và nêu bật những mối quan tâm chung của tập thể.

• Minh họa ý tưởng: Trực quan hóa dữ liệu để minh họa ý tưởng hỗ trợ truyền đạt một ý tưởng, chẳng hạn như một chiến thuật hoặc quy trình. Nó thường được sử dụng trong các môi trường học tập, chẳng hạn như hướng dẫn, khóa học chứng nhận, nhưng nó cũng có thể được sử dụng để đại diện cho cấu trúc hoặc quy trình của tổ chức, tạo điều kiện giao tiếp giữa các cá nhân phù hợp cho các nhiệm vụ cụ thể. Các nhà quản lý dự án thường sử dụng biểu đồ Gantt và biểu đồ thác nước để minh họa quy trình làm việc. Mô hình hóa dữ liệu cũng sử dụng tính trừu tượng để trình bày và hiểu rõ hơn về luồng dữ liệu trong hệ thống thông tin của doanh nghiệp, giúp các nhà phát triển, nhà phân tích kinh doanh, kiến trúc sư dữ liệu và những người khác hiểu các mối quan hệ trong cơ sở dữ liệu hoặc kho dữ liệu dễ dàng hơn.

• Khám phá trực quan và trực quan hóa dữ liệu hàng ngày được liên kết chặt chẽ hơn với các nhóm dữ liệu. Mặc dù khám phá trực quan giúp các nhà phân tích dữ liệu, nhà khoa học dữ liệu và các chuyên gia dữ liệu khác xác định các mẫu và xu hướng trong tập dữ liệu, nhưng dữ liệu hàng ngày hỗ trợ việc kể chuyện tiếp theo sau khi tìm thấy thông tin chi tiết mới.

Hình 6. 26: Quá trình trực quan hóa dữ liệu lớn 6.5.1.2. Quy trình trực quan hóa dữ liệu lớn

Như đã thấy trong hình quá trình trực quan hóa dữ liệu lớn, phương pháp trực quan bao gồm các bước sau:

• Bước đầu tiên trong phương pháp trực quan là truy xuất dữ liệu từ nhiều nguồn.

Có thể có dữ liệu phi cấu trúc/bán cấu trúc thu được từ các nguồn không đồng nhất, vì vậy dữ liệu đó cần được phân tích cú pháp ở định dạng có cấu trúc. Để dễ hình dung, tất cả dữ liệu có thể không cần thiết.

• Bước tiếp theo là loại bỏ những dữ liệu không quan trọng. Dưới dạng sơ đồ và biểu đồ, các mẫu hữu ích sau đó được suy ra và biểu diễn. Các mẫu hữu ích sau đó được trích xuất và mô tả trong các biểu đồ và đồ thị để thể hiện sự hiểu biết đơn giản của người dùng về kiến thức bí mật.

6.5.1.3. Các loại trực quan hóa dữ liệu

Hình thức trực quan hóa dữ liệu sớm nhất có thể bắt nguồn từ người Ai Cập trước thế kỷ 17, phần lớn được sử dụng để hỗ trợ điều hướng. Theo thời gian, mọi người tận

dụng trực quan hóa dữ liệu cho các ứng dụng rộng hơn, chẳng hạn như trong các lĩnh vực kinh tế, xã hội, y tế. Có lẽ đáng chú ý nhất, Edward Tufte đã xuất bản Hiển thị trực quan thông tin định lượng (liên kết nằm bên ngoài IBM), minh họa rằng các cá nhân có thể sử dụng trực quan hóa dữ liệu để trình bày dữ liệu theo cách hiệu quả hơn. Cuốn sách của ông tiếp tục đứng vững trước thử thách của thời gian, đặc biệt là khi các công ty chuyển sang trang tổng quan để báo cáo các chỉ số hiệu suất của họ trong thời gian thực. Trang tổng quan là công cụ trực quan hóa dữ liệu hiệu quả để theo dõi và trực quan hóa dữ liệu từ nhiều nguồn dữ liệu, cung cấp khả năng hiển thị về tác động của các hành vi cụ thể của một nhóm hoặc một nhóm liền kề đối với hiệu suất. Trang tổng quan bao gồm các kỹ thuật hình ảnh hóa phổ biến, chẳng hạn như:

• Bảng: Bao gồm các hàng và cột được sử dụng để so sánh các biến. Các bảng có thể hiển thị rất nhiều thông tin theo cách có cấu trúc.

• Biểu đồ hình tròn và biểu đồ thanh xếp chồng lên nhau: Những biểu đồ này được chia thành các phần đại diện cho các phần của tổng thể. Chúng cung cấp một cách đơn giản để tổ chức dữ liệu và so sánh kích thước của từng thành phần với nhau.

• Biểu đồ đường và biểu đồ khu vực: Những hình ảnh trực quan này cho thấy sự thay đổi ở một hoặc nhiều số lượng bằng cách vẽ một loạt các điểm dữ liệu theo thời gian và thường được sử dụng trong phân tích dự đoán. Biểu đồ đường sử dụng các đường để thể hiện những thay đổi này trong khi biểu đồ vùng kết nối các điểm dữ liệu với các đoạn đường, xếp chồng các biến lên nhau và sử dụng màu sắc để phân biệt giữa các biến.

• Biểu đồ: Biểu đồ này vẽ biểu đồ phân bố các số bằng biểu đồ thanh (không có khoảng cách giữa các thanh), đại diện cho số lượng dữ liệu nằm trong một phạm vi cụ thể. Hình ảnh trực quan này giúp người dùng cuối dễ dàng xác định các ngoại lệ trong một tập dữ liệu nhất định.

• Biểu đồ phân tán: Những hình ảnh trực quan này có lợi trong việc khám phá mối quan hệ giữa hai biến và chúng thường được sử dụng trong phân tích dữ liệu hồi quy. Tuy nhiên, đôi khi chúng có thể bị nhầm lẫn với biểu đồ bong bóng, được sử dụng để hình dung ba biến số thông qua trục x, trục y và kích thước của bong bóng.

• Bản đồ nhiệt: Các màn hình biểu diễn đồ họa này rất hữu ích trong việc trực quan hóa dữ liệu hành vi theo vị trí. Đây có thể là một vị trí trên bản đồ hoặc thậm chí là một trang web.

• Bản đồ dạng cây, hiển thị dữ liệu phân cấp dưới dạng một tập hợp các hình dạng lồng nhau, thường là hình chữ nhật. Biểu đồ dạng cây rất tuyệt vời để so sánh tỷ lệ giữa các danh mục thông qua kích thước khu vực của chúng.

6.5.1.4. Phương pháp trực quan hóa dữ liệu lớn

Một số phương pháp tiếp cận trực quan hóa dữ liệu lớn đã được sử dụng. Các phương pháp này được phân loại dựa trên: (1) kích thước dữ liệu, (2) sự đa dạng cho dữ liệu và (3) động lực của dữ liệu. Các phương pháp khác nhau để hiển thị dữ liệu là:

• Đóng gói vòng tròn: Đây là một phương pháp tiếp cận dạng bản đồ thay thế sử dụng các vòng tròn để đại diện cho các lớp phân cấp khác nhau. Vùng hình tròn xác định số lượng của một loại. Nó cũng sử dụng nhiều màu trong các nhóm khác nhau, bao gồm cả dạng treemap. Cách tiếp cận này không hiệu quả về không gian, trái ngược với sơ đồ dạng cây.

• Tọa độ song song: Phương pháp này là một phương tiện hiển thị dữ liệu lớn. Các thành phần dữ liệu có thể được ánh xạ riêng rẽ qua nhiều kích thước; cả rừng và cây đều có thể được nhìn thấy ở các tọa độ song song. Xu hướng đường được vẽ để thu thập kết quả nhất quán. Tuy nhiên, nhiều đối tượng dữ liệu góp phần vào việc ghi đè. Phương pháp này không được sử dụng để phân loại dữ liệu.

• Đồ thị luồng: Phương pháp này được sử dụng để hiển thị sự dịch chuyển của các giá trị dọc theo một dòng thời gian trung tâm khác nhau. Nó chỉ ra những cải tiến về dữ liệu từ nhiều danh mục theo thời gian. Kích thước của mỗi biểu mẫu luồng bằng giá trị của từng danh mục trong biểu đồ luồng. Lý tưởng để trình bày một tập dữ liệu lớn.

6.5.1.5. Các công cụ trực quan hóa dữ liệu

Các công cụ trực quan hóa dữ liệu sẽ nhanh chóng đạt được nhận thức từ một khối lượng lớn thông tin. Mọi người có thể khám phá những điều họ không biết (ngoại lệ, mô hình bí mật hoặc nhóm) bằng công cụ hoàn hảo để trực quan hóa dữ liệu. Những công cụ này cũng cho phép đào sâu vào các tập dữ liệu chuyển đổi nhanh chóng. Các tính năng chính cho các ứng dụng trực quan hóa dữ liệu lớn được nêu trong bảng sau:

Bảng 6. 1: Các công cụ trực quan hóa dữ liệu

Công cụ Ứng dụng Đặc tính

Tableau

Nền tảng trí tuệ thị trường để thu thập dữ liệu trực quan được sử dụng bởi các học giả và cơ quan công quyền

Có thể quản lý lượng dữ liệu khổng lồ, lọc nhiều tập dữ liệu đồng thời, người dùng có thể tạo và chia sẻ động và có thể chia sẻ, bảng điều khiển mô tả các mẫu và biến thể, phát triển bảng điều khiển tương tác, hỗ trợ R tích hợp, API truy vấn dữ liệu lớn của Google.

Plotly

Vẽ đồ thị trực tuyến, phân tích và các công cụ tĩnh trong cả thư viện đồ họa Python, R,

Framework truy cập mở mới dành cho phân tích dữ liệu và nghiên cứu thị trường

MATLAB, Perl, J Arduino và Restate

SAS Visual Analytics

Công cụ thiết kế; báo cáo, bảng điều khiển và phân phối phân tích

Công cụ nghiên cứu đầy đủ để cho phép người dùng nhận ra các xu hướng và mối quan hệ trong dữ liệu ban đầu không rõ ràng

Microsoft Power BI

Sử dụng các câu hỏi ngôn ngữ tự nhiên trên trang tổng quan để tạo đồ họa, biểu đồ và trang tổng quan phong phú

Đối với người dùng doanh nghiệp với các phép đo quan trọng nhất của họ ở một nơi duy nhất, được cập nhật gần như theo thời gian thực và khả dụng trên tất cả các thiết bị của họ, bảng điều khiển điện bao gồm chế độ xem 360 °

D3.js Sử dụng SVG, đặc tả CSS và HTML5 thường được áp dụng

Thư viện JavaScript để trực quan hóa trình duyệt web cộng tác, phong phú

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 191 - 195)

Tải bản đầy đủ (PDF)

(199 trang)