Đánh giá các cấu trúc khả thi

CHƯƠNG 2. CẤU TRÚC DỮ LIỆU HƯỚNG ĐỐI TƯỢNG

2.3. Đánh giá các cấu trúc khả thi

Khi chọn giải pháp lưu trữ dữ liệu nào phù hợp thì điều quan trọng là phải xem xét mọi thứ từ chi phí, thời gian thiết lập và vị trí cũng như tốc độ truyền dữ liệu cộng với tiềm năng về khả năng mở rộng. Giữ cho dữ liệu an toàn và có tổ chức sẽ giúp dễ dàng thực hiện các thay đổi và khôi phục dữ liệu trước đây khi cần thiết.

Dữ liệu được lưu trữ ở định dạng gốc của nó được coi là dữ liệu phi cấu trúc, có nghĩa là nó thiếu mô hình hoặc lược đồ dữ liệu được xác định trước và không thể được lưu trữ trong cơ sở dữ liệu quan hệ truyền thống (sẽ nói thêm về điều này sau). Bởi vì loại dữ liệu không được tổ chức này không thể đơn giản được lưu trữ trong một tập hợp các bảng sử dụng cột và hàng, các doanh nghiệp theo truyền thống đã phải vật lộn với thách thức cơ bản là quản lý, phân tích và tận dụng dữ liệu phi cấu trúc của họ theo cách có ý nghĩa, do sự phức tạp và các quy trình phân tích dữ liệu tốn thời gian cần thiết để trích xuất thông tin chi tiết có giá trị.

Các nhà phân tích tại Gartner ước tính rằng dữ liệu phi cấu trúc đại diện cho 80 đến 90% dữ liệu doanh nghiệp mới. Điều này nghe có vẻ đáng ngạc nhiên, nhưng thực tế là dữ liệu doanh nghiệp chủ yếu được tạo thành từ dữ liệu phi cấu trúc trong nhiều thập kỷ nay. Trên thực tế, vào năm 1998 Merrill Lynch đã tuyên bố, “Dữ liệu phi cấu trúc bao gồm phần lớn dữ liệu được tìm thấy trong một tổ chức, một số ước tính cao tới 80%”. Về cơ bản, khi khối lượng dữ liệu tạo ra trên toàn thế giới tiếp tục tăng qua từng

năm, thì các giải pháp quản lý dữ liệu doanh nghiệp có khả năng mở rộng cao sẽ càng trở nên quan trọng hơn có thể tận dụng hiệu quả dữ liệu này một cách có ý nghĩa.

“Sự bùng nổ dữ liệu phi cấu trúc” này đang được tạo ra từ máy quay video, thiết bị ghi âm, vệ tinh, cảm biến, dữ liệu bộ gen, hình ảnh trên không và các công nghệ kết nối IoT khác và đại diện cho một mỏ vàng tiềm năng về thông tin chi tiết.

Để đánh giá cấu trúc khả thi thì cần hiểu được những vấn đề sau:

• Cấu trúc dữ liệu là gì?

• Dữ liệu lớn tới mức nào?

• Quá trình nào là cần thiết?

• Đỗ trễ dự kiến bao nhiêu?

• Muốn trả lời loại truy vấn nào?

Xét về các đặc điểm liên quan đến dữ liệu

• Cấu trúc: Loại dữ liệu là gì?

+ Có cấu trúc: Lược đồ, kiểu dữ liệu được xác định rõ ràng, có thể hiểu được bằng máy.

+ Không có cấu trúc: Văn bản, hình ảnh.

+ Bán cấu trúc: Hỗn hợp có cấu trúc và không cấu trúc, lược đồ được xác định rõ, nhưng một số thuộc tính không có cấu trúc.

• Kích thước của dữ liệu là gì? S: Megabyte, M: Gigabyte, L: Tera Byte, XL: 100 Tera Bytes, XXL: Peta Bytes.

• Tỷ lệ, tốc độ: Dữ liệu đến nhanh như thế nào (Vận tốc)?

+ Rất cao:lớn hơn hàng trăm bản cập nhật mỗi giây.

+ Cao: lớn hơn hàng chục bản cập nhật mỗi giờ.

+ Trung bình: một vài cập nhật mỗi giờ.

+ Thấp: Cập nhật hàng ngày hoặc ít thường xuyên hơn.

• Lớp lập chỉ mục/ tốc độ được cập nhật như thế nào?

+ Cao: được cập nhật trong thời gian thực khi dữ liệu đến.

+ Trung bình: Cập nhật hàng giờ.

+ Thấp: Cập nhật hàng ngày hoặc ít thường xuyên hơn.

• Chất lượng. Hệ thống xử lý tốt như thế nào với lỗi hoặc dữ liệu chất lượng thấp?

+ Cao: có thể bù đắp và xử lý theo một cách làm tự động.

+ Trung bình: có thể xử lý nhưng kết quả có thể không đáng tin cậy.

+ Thấp: không thể xử lý dữ liệu xấu hoặc chất lượng thấp, sẽ không cung cấp bất kỳ kết quả nào.

• Tính hoàn chỉnh: Hệ thống xử lý tốt như thế nào với dữ liệu không đầy đủ?

+ Chưa đầy đủ: Có thể làm phong phú và hoàn thiện dữ liệu một cách hiệu quả.

+ Bán hoàn chỉnh: Cung cấp một số khả năng để hoàn thiện và làm giàu dữ liệu.

+ Hoàn thành: Yêu cầu dữ liệu phải hoàn chỉnh trước khi xử lý.

Xử lý các đặc điểm liên quan

• Tính chọn lọc của truy vấn. Tốt hơn ở các tình huống chọn lọc truy vấn cao hay thấp? (Trong tình huống có tính chọn lọc cao, vị từ (là biểu thức đánh giá là TRUE, FALSE hoặc UNKNOWN).

+ Cao: mong đợi <20% dữ liệu được chọn.

+ Trung bình: mong đợi 20-80% dữ liệu được chọn.

+ Thấp: mong đợi >80% dữ liệu được chọn.

• Thời gian thực hiện truy vấn. Hệ thống được thiết kế để đáp ứng thời gian phản hồi truy vấn nào?

+ Ngắn: ms hoặc ít hơn vài giây.

+ Trung bình: Tốc độ tối đa là 30 giây.

+ Dài: đến phút hoặc hành chục phút.

• Thời gian xử lý. Thời gian xử lý dự kiến cho các công việc hàng loạt là bao nhiêu? (24h là một giới hạn quan trọng đối với nhiều ứng dụng).

+ Ngắn < 1h.

+ Trung bình < 12h + Dài > 24h

• Kết: Mức độ biểu đạt và khả năng tính toán của phép kết như thế nào? Kết là một một hoạt động có nhiều liên kết phù hợp với các phân phối dữ liệu, kích thước dữu liệu khác nhau,…

+ Nâng cao: Một loại các phép kết cho các trường hợp chức năng và tối ưu hóa khác nhau.

+ Cơ bản: Giới hạn khả năng phép kết + None: Không hỗ trợ kết

• Độ chính xác: Độ chính xác đầu ra mong đợi là bao nhiêu? (Có thể bị ảnh hưởng bởi khả năng mất dữ liệu, tính gần đúng, lấy mẫu, ...)

+ Chính xác: Luôn chính xác, bao gồm toàn bộ dữ liệu + Gần đúng: Kết quả gần đúng, ví dụ thông qua lấy mẫu

+ Mất mát: Có thể bỏ lỡ một số dữ liệu vì lợi ích của tốc độ hoặc quy mô.

Hoặc có thể đếm dữ liệu hai lần trong trường hợp khôi phục

Câu hỏi và bài tập

1. Trình bày khái niệm và phân loại cấu trúc dữ liệu.

2. Hãy so sánh ba loại cấu trúc dữ liệu: Dữ liệu có cấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.

3. Thế nào là cấu trúc dữ liệu hướng đối tượng?

4. Trình bày các bước khai thác thiết kế theo dịnh hướng đối tượng.

5. Hãy giới thiệu mô hình tham chiếu cho cho giải pháp tổ chức theo hướng dữ liệu.

6. Trình bày các giải pháp cấu trúc lưu trữ dữ liệu.

7. Hãy cho biết lợi ích và khó khăn của việc lưu trữ dữ liệu hướng đối tượng.

Khái niệm về phân tích dữ liệu

Cấu trúc dữ liệu hướng đối tượng