CHƯƠNG 4: KIẾN TRÚC CƠ SỞ DỮ LIỆU LỚN
4.3. Kiến trúc hồ dữ liệu
4.3.2. Kiến trúc hồ dữ liệu
4.3.2.2. Kiến trúc hồ dữ liệu Hadoop
Phần mềm hồ dữ liệu như Hadoop và Amazon Simple Storage Service (Amazon S3) khác nhau về cấu trúc và chiến lược. Phần mềm kiến trúc hồ dữ liệu tổ chức dữ liệu trong hồ dữ liệu và giúp truy cập và sử dụng dễ dàng hơn. Các tính năng sau đây nên được kết hợp trong kiến trúc hồ dữ liệu để ngăn chặn sự phát triển của đầm dữ liệu và đảm bảo chức năng của hồ dữ liệu.
• Việc sử dụng các công cụ lập hồ sơ dữ liệu cung cấp thông tin chi tiết về việc phân loại các đối tượng dữ liệu và thực hiện kiểm soát chất lượng dữ liệu
• Phân loại phân loại dữ liệu bao gồm các tình huống người dùng và các nhóm người dùng có thể có, nội dung và kiểu dữ liệu
• Phân cấp tệp với các quy ước đặt tên
• Cơ chế theo dõi quyền truy cập của người dùng trong hồ dữ liệu cùng với tín hiệu cảnh báo được tạo tại điểm và thời điểm truy cập
• Chức năng tìm kiếm danh mục dữ liệu
• Bảo mật dữ liệu bao gồm mã hóa dữ liệu, kiểm soát truy cập, xác thực và các công cụ bảo mật dữ liệu khác để ngăn truy cập trái phép
• Đào tạo và nhận thức về việc sử dụng hồ dữ liệu Kiến trúc hồ dữ liệu Hadoop
Hadoop sử dụng một cụm máy chủ phân tán để lưu trữ dữ liệu. Hệ sinh thái Hadoop bao gồm ba yếu tố cốt lõi chính:
• Hệ thống tệp phân tán Hadoop (HDFS) - Lớp lưu trữ có chức năng lưu trữ và sao chép dữ liệu trên nhiều máy chủ.
• YARN- Công cụ quản lý tài nguyên
• MapReduce - Mô hình lập trình để chia nhỏ dữ liệu thành các phần nhỏ hơn trước khi xử lý trong máy chủ
Các công cụ bổ trợ của Hadoop bao gồm Pig, Hive, Sqoop và Kafka. Các công cụ hỗ trợ trong quá trình nhập, chuẩn bị và trích xuất. Hadoop có thể được kết hợp với các nền tảng doanh nghiệp đám mây để cung cấp cơ sở hạ tầng hồ dữ liệu dựa trên đám mây.
Hadoop là một công nghệ mã nguồn mở nên ít tốn kém hơn khi sử dụng. Một số công cụ ETL có sẵn để tích hợp với Hadoop. Nó dễ dàng mở rộng quy mô và cung cấp khả năng tính toán nhanh hơn do vị trí dữ liệu của nó, điều này đã làm tăng tính phổ biến và quen thuộc của nó đối với hầu hết người dùng công nghệ.
Hình 4. 25: Kiến trúc hồ dữ liệu hadoop 4.3.2.2. Các khái niệm chính trong hồ dữ liệu
Sau đây là các khái niệm Key Data Lake mà người ta cần hiểu để hiểu hoàn toàn về Kiến trúc hồ dữ liệu
Hình 4. 26: Các khái niệm chính trong hồ dữ liệu
• Nhập dữ liệu: Nhập dữ liệu cho phép trình kết nối lấy dữ liệu từ các nguồn dữ liệu khác nhau và tải vào hồ dữ liệu. Nhập dữ liệu hỗ trợ: Tất cả các loại dữ liệu có cấu trúc, bán cấu trúc và không có cấu trúc; nhiều lần nhập như theo lô, thời gian thực, tải một lần; nhiều loại nguồn dữ liệu như Cơ sở dữ liệu, Máy chủ trang web, Email, IoT và FTP.
• Lưu trữ dữ liệu: Lưu trữ dữ liệu phải có khả năng mở rộng, cung cấp khả năng lưu trữ hiệu quả về chi phí và cho phép truy cập nhanh để khám phá dữ liệu. Nó sẽ hỗ trợ các định dạng dữ liệu khác nhau.
• Quản trị dữ liệu: Quản trị dữ liệu là một quá trình quản lý tính sẵn có, khả năng sử dụng, bảo mật và tính toàn vẹn của dữ liệu được sử dụng trong một tổ chức.
• Bảo mật: Bảo mật cần được thực hiện trong mọi lớp của hồ dữ liệu. Nó bắt đầu với lưu trữ, khai thác và tiêu thụ. Nhu cầu cơ bản là ngăn chặn truy cập đối với những người dùng trái phép. Nó sẽ hỗ trợ các công cụ khác nhau để truy cập dữ liệu với GUI và Dashboards. Xác thực, ủy quyền và bảo vệ dữ liệu là một số tính năng quan trọng của bảo mật hồ dữ liệu.
• Chất lượng dữ liệu: Chất lượng dữ liệu là một thành phần thiết yếu của kiến trúc hồ dữ liệu. Dữ liệu được sử dụng để xác định giá trị kinh doanh. Trích xuất thông tin chi tiết từ dữ liệu chất lượng kém sẽ dẫn đến thông tin chi tiết chất lượng kém.
• Tìm thấy dữ liệu: Tìm thấy dữ liệu là một giai đoạn quan trọng khác trước khi bạn có thể bắt đầu chuẩn bị dữ liệu hoặc phân tích. Trong giai đoạn này, kỹ thuật
gắn thẻ được sử dụng để thể hiện sự hiểu biết về dữ liệu, bằng cách tổ chức và diễn giải dữ liệu được nhập vào hồ dữ liệu.
• Kiểm tra dữ liệu: Kiểm tra dữ liệu giúp đánh giá rủi ro và tuân thủ. Hai nhiệm vụ kiểm tra dữ liệu chính là theo dõi các thay đổi đối với tập dữ liệu chính.
+ Theo dõi các thay đổi đối với các phần tử quan trọng của tập dữ liệu + Ghi lại cách thức/khi nào/và ai thay đổi các yếu tố này.
• Dòng dữ liệu: Thành phần này đề cập đến nguồn gốc của dữ liệu. Nó chủ yếu giải quyết nơi nó di chuyển theo thời gian và những gì xảy ra với nó. Nó giúp giảm bớt việc sửa lỗi trong quá trình phân tích dữ liệu từ điểm xuất phát đến điểm đến.
• Khám phá dữ liệu: Đây là giai đoạn bắt đầu của phân tích dữ liệu. Nó giúp xác định đúng tập dữ liệu là rất quan trọng trước khi bắt đầu Khám phá dữ liệu. Tất cả các thành phần nhất định cần phải làm việc cùng nhau để đóng một phần quan trọng trong việc xây dựng Data lake dễ dàng phát triển và khám phá môi trường.