Thách thức của xử lý dữ liệu

3.2.2.1. Thu thập dữ liệu

Thách thức đầu tiên trong xử lý dữ liệu nằm ở việc thu thập hoặc thu thập dữ liệu chính xác cho đầu vào. Có rất nhiều nguồn dữ liệu để thu thập dữ liệu như:

• Nguồn dữ liệu quản trị,

• Dữ liệu di động và trang web,

• Truyền thông xã hội,

• Khảo sát thống kê,

• Điều tra dân số,

• Mua dữ liệu từ bên thứ ba.

Có rất nhiều ví dụ khác. Đôi khi, nhân viên thu thập dữ liệu đi từng nhà để thu thập dữ liệu mà chúng ta cần, điều này rất hiếm nhưng vẫn xảy ra.

Thách thức ở đây là thu thập dữ liệu chính xác để có được kết quả thích hợp. Kết quả trực tiếp phụ thuộc vào dữ liệu đầu vào. Do đó, điều quan trọng là phải thu thập dữ liệu chính xác để có được kết quả mong muốn.

Giải pháp

Chọn kỹ thuật thu thập dữ liệu phù hợp có thể giúp vượt qua thách thức này. Dưới đây là 4 kỹ thuật thu thập dữ liệu khác nhau:

• Quan sát: Thực hiện quan sát trực tiếp là một cách nhanh chóng và hiệu quả để thu thập dữ liệu đơn giản với mức xâm nhập tối thiểu.

• Bảng câu hỏi: Các cuộc khảo sát có thể được thực hiện đến mọi nơi trên thế giới. Với chúng, nhà nghiên cứu có thể cấu trúc và hình thành chính xác kế hoạch thu thập dữ liệu.

• Phỏng vấn: Phỏng vấn là kỹ thuật phù hợp nhất để diễn giải và hiểu người trả lời.

• Phiên nhóm tập trung: Sự hiện diện của một số người có liên quan đồng thời đến tranh luận về chủ đề này giúp nhà nghiên cứu có cơ hội xem xét cả hai mặt của vấn đề và xây dựng một quan điểm cân bằng.

3.2.2.2. Sự trùng lặp của dữ liệu

Do dữ liệu được thu thập từ các nguồn dữ liệu khác nhau, nên thường xảy ra tình trạng trùng lặp dữ liệu. Các mục và thực thể giống nhau có thể xuất hiện một số lần trong giai đoạn mã hóa dữ liệu. Dữ liệu trùng lặp này là dư thừa và có thể tạo ra kết quả không chính xác. Do đó, chúng ta cần kiểm tra dữ liệu xem có trùng lặp không và chủ động loại bỏ dữ liệu trùng lặp.

Giải pháp

Bỏ trùng lặp dữ liệu được điều chỉnh để giảm chi phí và không gian lưu trữ miễn phí. Công nghệ nhân bản dữ liệu xác định các khối dữ liệu giống nhau và loại bỏ dữ liệu thừa. Kỹ thuật này làm giảm đáng kể kích thước sử dụng đĩa và cũng làm giảm lưu lượng của đĩa. Do đó, nó nâng cao hiệu suất xử lý và giúp đạt được dữ liệu chính xác và có độ chính xác cao.

3.2.2.3. Dữ liệu không nhất quán

Khi thu thập một lượng lớn dữ liệu, không có gì đảm bảo rằng dữ liệu sẽ đầy đủ hoặc tất cả các trường mà chúng ta cần được điền chính xác. Hơn nữa, dữ liệu có thể không rõ ràng. Vì dữ liệu đầu vào / dữ liệu thô có bản chất không đồng nhất và được thu thập từ các nguồn dữ liệu tự trị, nên dữ liệu có thể xung đột với nhau ở ba cấp độ khác nhau:

• Mức giản đồ: Các nguồn dữ liệu khác nhau có các mô hình dữ liệu khác nhau và các lược đồ khác nhau trong cùng một mô hình dữ liệu.

• Mức độ biểu diễn dữ liệu: Dữ liệu trong các nguồn khác nhau được biểu diễn bằng các cấu trúc, ngôn ngữ và phép đo khác nhau.

• Mức giá trị dữ liệu: Đôi khi, các đối tượng dữ liệu giống nhau có sự khác biệt thực tế giữa các nguồn dữ liệu khác nhau. Điều này xảy ra khi chúng ta nhận được hai đối tượng dữ liệu từ các nguồn khác nhau và chúng được xác định là phiên bản của nhau. Tuy nhiên, giá trị tương ứng với các thuộc tính của chúng khác nhau.

Giải pháp

Trong tình huống này, chúng ta cần kiểm tra tính đầy đủ của dữ liệu. Ngoài ra, chúng ta phải thấy sự phụ thuộc và tầm quan trọng của trường (trường không nhất quán)

đối với kết quả mong muốn. Hơn nữa, chúng ta cần chủ động tìm ra các lỗi để đảm bảo tính nhất quán trong cơ sở dữ liệu.

3.2.2.4. Dữ liệu đa dạng

Dữ liệu đầu vào được thu thập từ các nguồn khác nhau, có thể chứa các dạng khác nhau. Các hàng và cột của cơ sở dữ liệu quan hệ không giới hạn dữ liệu. Dữ liệu khác nhau giữa các ứng dụng và nguồn này sang nguồn khác. Phần lớn dữ liệu này không có cấu trúc và không thể phù hợp với bảng tính hoặc cơ sở dữ liệu quan hệ.

Có thể dữ liệu thu thập được ở dạng văn bản hoặc dạng bảng. Mặt khác, nó có thể là một bộ sưu tập ảnh và video và đôi khi có thể chỉ là âm thanh.

Đôi khi để có được kết quả mong muốn, cần phải xử lý hoàn toàn các dạng dữ liệu khác nhau.

Giải pháp

Có các kỹ thuật khác nhau để giải quyết và quản lý đa dạng dữ liệu, một số kỹ thuật như sau:

• Lập chỉ mục: Các kiểu dữ liệu khác nhau và không tương thích có thể được liên kết với nhau bằng kỹ thuật lập chỉ mục.

• Lập hồ sơ dữ liệu: Kỹ thuật này giúp xác định các bất thường và mối quan hệ qua lại giữa các nguồn dữ liệu khác nhau.

• Siêu dữ liệu: Mô tả siêu dữ liệu và việc quản lý dữ liệu giúp đạt được tính nhất quán theo ngữ cảnh trong dữ liệu.

• Chuyển đổi định dạng phổ quát: Trong kỹ thuật này, chúng ta có thể chuyển đổi dữ liệu đã thu thập thành định dạng được chấp nhận rộng rãi, chẳng hạn như ngôn ngữ đánh dấu có thể mở rộng (XML).

3.2.2.5. Tích hợp dữ liệu

Tích hợp dữ liệu có nghĩa là kết hợp dữ liệu từ nhiều nguồn khác nhau và trình bày nó trong một chế độ xem thống nhất. Với sự gia tăng đa dạng của dữ liệu và các định dạng dữ liệu khác nhau, thách thức để tích hợp dữ liệu trở nên lớn hơn. Việc tích hợp dữ liệu bao gồm nhiều thách thức khác nhau như sau:

• Cô lập: Phần lớn các ứng dụng được phát triển và triển khai một cách tách biệt, điều này gây khó khăn cho việc tích hợp dữ liệu giữa các ứng dụng khác nhau.

• Những tiến bộ về công nghệ: Với sự tiến bộ trong công nghệ, cách thức lưu trữ và truy xuất dữ liệu thay đổi. Vấn đề ở đây xảy ra trong việc tích hợp dữ liệu mới hơn với dữ liệu cũ.

• Vấn đề dữ liệu: Thách thức trong tích hợp dữ liệu tăng lên khi dữ liệu không chính xác, không đầy đủ hoặc có định dạng sai.

Sau đó, chúng ta phải tìm ra cách tiếp cận phù hợp để tích hợp dữ liệu sao cho dữ liệu vẫn nhất quán.

Giải pháp

Chủ yếu có ba kỹ thuật để tích hợp dữ liệu:

• Hợp nhất: Nắm bắt dữ liệu từ nhiều nguồn và tích hợp nó vào một kho lưu trữ dữ liệu liên tục duy nhất.

• Liên kết: Cung cấp một chế độ xem ảo duy nhất của nhiều nguồn dữ liệu. Khi nó kích hoạt một truy vấn, nó sẽ trả về dữ liệu từ nguồn dữ liệu thích hợp nhất.

• Truyền dữ liệu: Các ứng dụng truyền dữ liệu sao chép dữ liệu từ nguồn này sang nguồn khác. Hơn nữa, nó đảm bảo trao đổi dữ liệu hai chiều bất kể kiểu đồng bộ hóa dữ liệu.

3.2.2.6. Khối lượng và lưu trữ dữ liệu

Hình 3. 5: Khối lượng và lưu trữ

Khi xử lý dữ liệu lớn, khối lượng dữ liệu lớn đáng kể. Dữ liệu lớn bao gồm cả dữ liệu có cấu trúc và không có cấu trúc. Điều này bao gồm dữ liệu có sẵn trên các trang mạng xã hội, hồ sơ của các công ty, dữ liệu từ các nguồn giám sát, dữ liệu nghiên cứu và phát triển,... Đây là thách thức để lưu trữ và quản lý khối lượng dữ liệu tuyệt đối này.

Một thách thức khác là lượng dữ liệu phải hiển thị trên RAM để quá trình xử lý nhanh hơn và việc sử dụng tài nguyên thông minh.

Ngoài ra, cần sao lưu dữ liệu để đảm bảo nó được bảo vệ khỏi bất kỳ hình thức mất mát nào. Việc mất dữ liệu có thể xảy ra do sự cố phần mềm hoặc phần cứng, thiên tai hoặc lỗi của con người. Bây giờ, bản thân dữ liệu có dung lượng rất lớn và chúng ta cần sao chép hoặc sao lưu dữ liệu để đảm bảo an toàn. Điều này làm tăng lượng dữ liệu được lưu trữ lên đến 150% hoặc thậm chí nhiều hơn.

Giải pháp

• Lưu trữ đối tượng: với cách tiếp cận này, việc lưu trữ các tập dữ liệu rất lớn trở nên dễ dàng hơn. Nó là một sự thay thế cho hệ thống tệp truyền thống, giống như cây.

• Bộ nhớ mở rộng: có khả năng mở rộng dung lượng của bộ lưu trữ. Nó thường có hệ thống tệp phân tán hoặc phân cụm riêng.

• Các nút phân tán: hầu hết các hạng mục chi phí thấp đều thực hiện điều này. Nó gắn trực tiếp vào máy chủ máy tính hoặc thậm chí bộ nhớ máy chủ.

3.2.2.7. Mô tả dữ liệu nghèo nàn

Một trong những nguồn chính của dữ liệu đầu vào là dữ liệu được lưu trữ theo thời gian trong cơ sở dữ liệu quan hệ. Nhưng dữ liệu này không được định dạng đúng và không có mô tả Metavề lưu trữ, cấu trúc và mối quan hệ của các thực thể dữ liệu với nhau. Nó càng trở nên tồi tệ hơn khi lượng dữ liệu lớn và bản thân cơ sở dữ liệu này liên kết với các cơ sở dữ liệu khác. Nếu không có tài liệu thích hợp về cơ sở dữ liệu, rất khó để trích xuất dữ liệu đầu vào chính xác từ cơ sở dữ liệu.

Giải pháp

• Khử chuẩn hóa cơ sở dữ liệu cho mục đích truy vấn.

• Sử dụng quy trình được lưu trữ để cho phép các tác vụ quản lý dữ liệu phức tạp.

• Sử dụng cơ sở dữ liệu NoSQL để lưu trữ dữ liệu 3.2.2.8. Sửa đổi dữ liệu mạng

Dữ liệu được phân phối và đồng thời liên quan đến nhau trong một cấu trúc phức tạp. Thách thức ở đây là sửa đổi cấu trúc của dữ liệu hoặc thêm một số dữ liệu vào đó.

Internet là một mạng bao gồm nhiều loại dữ liệu, rất nhiều ứng dụng và các trang web tạo ra dữ liệu ở tất cả các dạng và đặc điểm khác nhau. Lược đồ kết nối tất cả chúng.

Lược đồ là định nghĩa của các chỉ mục, gói, bảng/hàng và siêu dữ liệu của cơ sở dữ liệu.

Giải pháp

Công cụ dữ liệu máy chủ (SDT-Server Data Tools) bao gồm một tiện ích so sánh giản đồ mà chúng ta có thể sử dụng để so sánh hai định nghĩa cơ sở dữ liệu. SDT có thể so sánh bất kỳ sự kết hợp nào giữa cơ sở dữ liệu nguồn và cơ sở dữ liệu đích. Hơn nữa, nó cũng báo cáo bất kỳ sự khác biệt nào giữa các lược đồ và phát hiện các loại dữ liệu không khớp và các giá trị mặc định của các cột.

3.2.2.9. Bảo mật

Hình 3. 6: Bảo mật dữ liệu

Bảo mật đóng vai trò quan trọng nhất trong lĩnh vực dữ liệu. Việc hack dữ liệu có thể dẫn đến rò rỉ dữ liệu. Do đó, nó có thể phải trả giá cao cho việc xử lý dữ liệu. Tin tặc thậm chí có thể thay đổi hoặc xóa dữ liệu mà chúng ta đã thu thập và xử lý sau rất nhiều khó khăn và nỗ lực để chống lại cuộc tấn công.

Các lý do cho vi phạm bảo mật trong cơ sở dữ liệu chủ yếu là do những lý do sau:

• Hầu hết các hệ thống xử lý dữ liệu đều có một mức bảo vệ duy nhất

• Không mã hóa dữ liệu thô hoặc dữ liệu kết quả/đầu ra

• Quyền truy cập dữ liệu của các chuyên gia CNTT không có đạo đức dẫn đến nguy cơ mất dữ liệu

Giải pháp

Để đảm bảo tính bảo mật của dữ liệu, chúng ta nên thực hiện theo các phương pháp được đề cập dưới đây:

• Không kết nối với các mạng công cộng

• Giữ thông tin cá nhân an toàn và bảo mật bằng mật khẩu mạnh

• Hạn chế sự truy cập của con người vào dữ liệu

• Mã hóa và sao lưu dữ liệu 3.2.2.10. Chi phí

Giá thành là một vấn đề cần cân nhắc. Khi số lượng dữ liệu tăng lên, thì chi phí trong mỗi giai đoạn xử lý dữ liệu sẽ tăng dần. Chi phí xử lý dữ liệu phụ thuộc vào các yếu tố sau:

• Loại dữ liệu đã xử lý

• Xoay quanh thời gian để hoàn thành việc xử lý dữ liệu và nhận được kết quả cần thiết

• Tính chính xác của dữ liệu

• Lực lượng lao động làm việc về xử lý dữ liệu Giải pháp

Các bên liên quan hoặc ban quản lý xem xét xử lý dữ liệu phải xem xét ngân sách và chi phí. Nén dữ liệu làm giảm kích thước của nó và do đó dữ liệu chiếm ít không gian lưu trữ hơn.

Khái niệm về phân tích dữ liệu

Cấu trúc dữ liệu hướng đối tượng