CHƯƠNG 1. TỔNG QUAN VỀ LƯU TRỮ VÀ PHÂN TÍCH DỮ LIỆU
1.3. Khái niệm về phân tích dữ liệu
Dữ liệu là yếu tố then chốt ngày nay. Nó bao gồm dữ liệu cá nhân, nghề nghiệp, xã hội và hơn thế nữa. Kỹ thuật số hóa và tính liên kết dẫn đến sự tăng trưởng dữ liệu ngoài mong đợi. Việc sử dụng ngày càng nhiều phương tiện và mạng vật lý thông qua mạng cảm biến cho các mục đích kinh doanh và cá nhân tạo ra một lượng lớn dữ liệu. Điều này nhằm thay đổi quy trình kinh doanh và mở ra cơ hội mới trên toàn thế giới. Internet là động lực chính để tăng trưởng dữ liệu. Dữ liệu được tạo trên toàn thế giới đã vượt quá bộ nhớ hiện có. Kể từ năm 2011, sự quan tâm đến một lĩnh vực được gọi là dữ liệu lớn đã tăng lên theo cấp số nhân. Không giống như phần lớn các nghiên cứu khoa học máy tính, dữ liệu lớn đã nhận được sự quan tâm đáng kể của công chúng và phương tiện truyền thông. Kỷ nguyên “dữ liệu lớn” đã mở ra nhiều cơ hội để nâng cấp khoa học, thúc đẩy dịch vụ chăm sóc sức khỏe, cải thiện tăng trưởng kinh tế, tái cấu trúc hệ thống giáo dục của chúng ta và chuẩn bị các loại hình dịch vụ giải trí và tương tác xã hội mới.
Lĩnh vực dữ liệu lớn đang phát triển nhanh chóng và có thể sẽ được cải tiến và sửa đổi trong tương lai.
Phân tích dữ liệu là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hình hóa dữ liệu với mục tiêu khám phá thông tin hữu ích, thông báo kết luận và hỗ trợ ra quyết định. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học tự nhiên và khoa học xã hội khác nhau. Trong thế giới ngày nay, phân tích dữ liệu đóng vai trò giúp đưa ra quyết định khoa học hơn và giúp các tổ chức, cá nhân hoạt động hiệu quả hơn.
Khai thác dữ liệu là một kỹ thuật phân tích dữ liệu cụ thể tập trung vào mô hình thống kê và khám phá tri thức cho mục đích dự đoán thay vì hoàn toàn mô tả, trong khi kinh doanh thông minh bao gồm phân tích dữ liệu dựa chủ yếu vào tổng hợp, tập trung chủ yếu vào thông tin kinh doanh. Trong các ứng dụng thống kê, phân tích dữ liệu có thể được chia thành thống kê mô tả, phân tích dữ liệu khám phá (EDA) và phân tích dữ liệu xác nhận (CDA). EDA tập trung vào việc khám phá các tính năng mới trong dữ liệu trong khi CDA tập trung vào xác nhận hoặc làm sai lệch các giả thuyết hiện có. Phân tích dự đoán tập trung vào việc áp dụng các mô hình thống kê để dự báo hoặc phân loại dự đoán, trong khi phân tích văn bản áp dụng các kỹ thuật thống kê, ngôn ngữ và cấu trúc để trích xuất và phân loại thông tin từ các nguồn văn bản, một loại dữ liệu phi cấu trúc. Tất cả các phương thức bên trên là các dạng khác nhau của phân tích dữ liệu.
Quy trình phân tích dữ liệu
Quá trình phân tích dữ liệu thường di chuyển qua một số giai đoạn lặp đi lặp lại.
Chúng ta hãy xem xét kỹ hơn từng cái.
• Xác định câu hỏi kinh doanh mà bạn muốn trả lời. Công ty đang cố gắng giải quyết vấn đề gì? Bạn cần đo những gì, và bạn sẽ đo lường nó như thế nào?
• Thu thập các tập dữ liệu thô mà bạn cần để giúp bạn trả lời câu hỏi đã xác định.
Việc thu thập dữ liệu có thể đến từ các nguồn nội bộ, chẳng hạn như phần mềm quản lý quan hệ khách hàng (CRM) của công ty hoặc từ các nguồn thứ cấp, như hồ sơ chính phủ hoặc giao diện lập trình ứng dụng truyền thông xã hội (API).
• Làm sạch dữ liệu để chuẩn bị cho phân tích. Điều này thường liên quan đến việc loại bỏ dữ liệu trùng lặp và bất thường, điều chỉnh sự không nhất quán, chuẩn hóa cấu trúc và định dạng dữ liệu cũng như xử lý khoảng trắng và các lỗi cú pháp khác.
• Phân tích dữ liệu. Bằng cách sử dụng các công cụ và kỹ thuật phân tích dữ liệu khác nhau, có thể bắt đầu tìm ra các xu hướng, mối tương quan, ngoại lệ và các biến thể kể một câu chuyện. Trong giai đoạn này, có thể sử dụng khai thác dữ
liệu để khám phá các mẫu trong cơ sở dữ liệu hoặc phần mềm trực quan hóa dữ liệu để giúp chuyển đổi dữ liệu sang định dạng đồ họa dễ hiểu.
Các loại phân tích dữ liệu
• Phân tích mô tả cho chúng ta biết điều gì đã xảy ra. Loại phân tích này giúp mô tả hoặc tóm tắt dữ liệu định lượng bằng cách trình bày các số liệu thống kê. Ví dụ: phân tích thống kê mô tả có thể cho thấy sự phân bổ doanh số bán hàng trong một nhóm nhân viên và số liệu bán hàng trung bình trên mỗi nhân viên. Phân tích mô tả trả lời câu hỏi, "điều gì đã xảy ra?"
• Phân tích chẩn đoán. Nếu phân tích mô tả xác định “cái gì” thì phân tích chẩn đoán xác định “tại sao”. Giả sử một phân tích mô tả cho thấy một lượng bệnh nhân bất thường trong bệnh viện. Đi sâu vào dữ liệu hơn nữa có thể tiết lộ rằng nhiều bệnh nhân trong số này có chung các triệu chứng của một loại virus cụ thể.
Phân tích chẩn đoán trả lời câu hỏi, "tại sao nó lại xảy ra?"
• Phân tích dự đoán. Phân tích dự đoán sử dụng dữ liệu để hình thành các dự báo về tương lai. Phân tích dự đoán trả lời câu hỏi, "điều gì có thể xảy ra trong tương lai?"
• Phân tích đề xuất. Phân tích đề xuất lấy tất cả những hiểu biết sâu sắc thu thập được từ ba loại phân tích đầu tiên và sử dụng chúng để hình thành các khuyến nghị về cách một công ty nên hành động.
Ngày nay, dữ liệu cần được phân tích không chỉ lớn mà còn bao gồm nhiều loại dữ liệu khác nhau, và thậm chí bao gồm cả dữ liệu trực tuyến. Vì dữ liệu lớn có các đặc điểm độc đáo là “khối lượng lớn, nhiều chiều, không đồng nhất, phức tạp, không có cấu trúc, không đầy đủ, nhiễu và sai sót”, điều này có thể thay đổi các phương pháp phân tích dữ liệu và thống kê. Mặc dù có vẻ như dữ liệu lớn giúp chúng ta có thể thu thập nhiều dữ liệu hơn để tìm kiếm thông tin hữu ích hơn, nhưng sự thật là nhiều dữ liệu hơn không nhất thiết có nghĩa là thông tin hữu ích hơn. Nó có thể chứa nhiều dữ liệu không rõ ràng hoặc bất thường hơn. Ví dụ: một người dùng có thể có nhiều tài khoản hoặc một tài khoản có thể được sử dụng bởi nhiều người dùng, điều này có thể làm giảm độ chính xác của kết quả khai thác. Do đó, một số vấn đề mới đối với phân tích dữ liệu xuất hiện, chẳng hạn như quyền riêng tư, bảo mật, lưu trữ, khả năng chịu lỗi và chất lượng của dữ liệu. Dữ liệu lớn có thể được tạo bởi thiết bị cầm tay, mạng xã hội, internet vạn vật, đa phương tiện và nhiều ứng dụng mới khác, tất cả đều có các đặc điểm về khối lượng, vận tốc và sự đa dạng. Do đó, toàn bộ phân tích dữ liệu phải được kiểm tra lại từ các khía cạnh sau:
• Từ góc độ khối lượng, vô số dữ liệu đầu vào là điều đầu tiên mà chúng ta cần phải đối mặt vì nó có thể làm cho việc phân tích dữ liệu bị vô tác dụng.
• Từ quan điểm vận tốc, dữ liệu thời gian thực hoặc truyền trực tuyến dẫn đến vấn đề số lượng lớn dữ liệu được đưa vào phân tích dữ liệu trong thời gian ngắn nhưng thiết bị và hệ thống có thể không xử lý được những dữ liệu đầu vào này.
Tình huống này tương tự như tình huống phân tích luồng mạng mà chúng ta thường không thể phản chiếu và phân tích mọi thứ chúng ta có thể thu thập được.
• Từ góc độ đa dạng, vì dữ liệu đến có thể sử dụng các loại khác nhau hoặc có dữ liệu không đầy đủ, cách xử lý chúng cũng đặt ra một vấn đề khác cho người vận hành đầu vào của phân tích dữ liệu.
Câu hỏi và bài tập
1. Trình bày sự tiến hóa của hệ thống lưu trữ dữ liệu.
2. Hãy giới thiệu và so sánh ưu, nhược điểm của một số hệ thống lưu trữ dữ liệu chính hiện nay.
3. Hãy trình bày khái niệm dữ liệu lớn (Big data) và công nghệ lưu trữ dữ liệu lớn hiện nay.
4. So sánh các hệ cơ sở dữ liệu SQL, No SQL và New SQL.
5. Điện toán đám mây là gì? Hãy trình bày khái niệm về lưu trữ đám mây.
6. Hãy cho biết khái niệm phân tích dữ liệu và quy trình phân tích dữ liệu.