Kiến trúc hồ dữ liệu

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 111 - 114)

CHƯƠNG 4: KIẾN TRÚC CƠ SỞ DỮ LIỆU LỚN

4.3. Kiến trúc hồ dữ liệu

4.3.2. Kiến trúc hồ dữ liệu

4.3.2.1. Kiến trúc hồ dữ liệu

Các thành phần chính của kiến trúc hồ dữ liệu được hiển thị trong sơ đồ bên dưới.

Tất cả các công nghệ chính đều là một phần của hệ sinh thái hồ dữ liệu. Các công cụ ETL chuyển đổi dữ liệu sang dạng có cấu trúc hoặc không có cấu trúc, kho dữ liệu giữ dữ liệu để lưu trữ lâu dài và trình lý giải giải quyết các truy vấn đối với kho dữ liệu để có được kết quả cuối cùng.

Hình 4. 24: Kiến trúc hồ dữ liệu

Kiến trúc hồ dữ liệu là một quy trình từng bước hướng dẫn tổ chức thiết kế và duy trì hồ dữ liệu. Các hồ dữ liệu cho phép các tổ chức giữ lại rất nhiều công việc thường được đầu tư vào việc tạo cấu trúc dữ liệu. Dưới đây là một số khía cạnh chính của mô hình Kiến trúc hồ dữ liệu mạnh mẽ và hiệu quả:

• Điều quan trọng là phải theo dõi và giám sát các hoạt động của hồ dữ liệu để đo lường hiệu suất và cải thiện hồ dữ liệu thông qua theo dõi và giám sát.

• Khi xác định cách tiếp cận giai đoạn đầu của một kiến trúc, bảo mật phải là một khía cạnh quan trọng. Điều này khác với bảo mật cơ sở dữ liệu quan hệ.

• Dữ liệu được liên kết với siêu dữ liệu được gọi là siêu dữ liệu. Ví dụ, tải lại các khoảng thời gian, cấu trúc,...

• Một tổ chức có thể có nhiều vai trò quản lý. Những cá nhân giữ những vai trò này được gọi là người quản lý.

• Điều quan trọng là có thể theo dõi và quản lý các quy trình ELT để thực hiện các phép biến đổi trên dữ liệu thô trước khi nó đến không gian sạch và lớp ứng dụng.

Các thành phần chính của Kiến trúc hồ dữ liệu

Hồ dữ liệu là một hệ sinh thái nơi các yếu tố chính hoạt động cùng nhau để giúp việc lưu trữ và phân tích khối lượng lớn dữ liệu có cấu trúc trở nên dễ dàng nhất có thể.

Có nhiều loại hồ dữ liệu khác nhau, bao gồm hồ dữ liệu công cộng, hỗn hợp và hồ dữ liệu riêng tư. Một hồ dữ liệu công khai được mở cho tất cả mọi người xem và sử dụng.

Một hồ dữ liệu riêng tư chỉ có sẵn cho những người có thông tin xác thực bảo mật cần thiết. Một hồ dữ liệu kết hợp có dữ liệu từ toàn bộ tổ chức và rất có thể thuộc sở hữu của nhóm Tiếp thị, mặc dù tất cả các đơn vị kinh doanh sẽ có thể truy cập được trong

bản sao doanh nghiệp của riêng họ. Một tổ chức nên xác định cấu trúc hồ dữ liệu của riêng họ dựa trên khái niệm sau. Một hồ dữ liệu thường bao gồm năm bộ phận:

Lớp nhập: Lớp nhập của Kiến trúc hồ dữ liệu chịu trách nhiệm lấy dữ liệu thô và biến nó thành dữ liệu bên trong hồ dữ liệu. Dữ liệu thô không được sửa đổi trong lớp này. Lớp nhập là lớp đầu tiên và quan trọng nhất trong đường dẫn dữ liệu để lấy dữ liệu và xử lý. Layer có thể là front-end hoặc back-end, tùy thuộc vào yêu cầu của ứng dụng. Khi dữ liệu được xử lý, thông tin phải được chuyển đổi thành một thứ mà ứng dụng yêu cầu. Ví dụ: Nền tảng truyền thông xã hội phải chuyển đổi dữ liệu truyền thông xã hội thô thành nội dung tiếp thị và thiết bị đeo phải chuyển đổi dữ liệu thành dữ liệu cảm biến có thể được sử dụng để cải thiện trải nghiệm người dùng.

Lớp chưng cất: Lớp chưng cất của Kiến trúc hồ dữ liệu chịu trách nhiệm chuyển đổi dữ liệu có cấu trúc thành dạng có thể nuốt được trong Lớp nhập. Quá trình chuyển đổi dữ liệu còn được gọi là làm sạch hoặc lọc dữ liệu để đáp ứng các nhu cầu về quy định, tuân thủ hoặc kinh doanh nhất định. Khi dữ liệu ở trạng thái có thể dễ dàng nhập vào, dữ liệu sẽ được định dạng rõ ràng và sẵn sàng cho người dùng doanh nghiệp làm việc. Trong quá trình chuyển đổi dữ liệu, làm sạch dữ liệu là một bước quan trọng; nó là một quy trình chính phải được thực hiện trước bất kỳ quy trình nào khác trong quy trình làm việc dữ liệu. Quá trình chuyển đổi dữ liệu phải có khả năng chuyển đổi dữ liệu theo cách có ý nghĩa đối với người dùng doanh nghiệp. Để đáp ứng nhu cầu này, quá trình chuyển đổi dữ liệu phải được mô tả dưới dạng những gì nó làm, chứ không phải những gì nó không làm.

Chúng ta sẽ thảo luận chi tiết các giai đoạn khác nhau của quá trình chuyển đổi dữ liệu trong các phần sau. Chuyển đổi dữ liệu là một quá trình lặp đi lặp lại và giai đoạn đầu tiên là thu thập dữ liệu.

Lớp xử lý: Người thiết kế hồ dữ liệu trước tiên đặt nền móng bằng cách thiết kế kiến trúc của các kho lưu trữ dữ liệu và các công cụ phân tích sẽ xử lý nó. Sau đó, người thiết kế hồ dữ liệu xác định phần nào của hệ thống thông tin sẽ thực hiện các truy vấn phân tích phức tạp nhất và thiết lập cấu trúc logic của dữ liệu.

Các công cụ phân tích và truy vấn được sử dụng để chuyển đổi dữ liệu có cấu trúc thành thông tin có thể sử dụng được. Quá trình quản lý dữ liệu kiểm soát dữ liệu và quá trình phân tích phân tích dữ liệu. Để sử dụng dữ liệu, trước tiên nó được trích xuất và sau đó đưa vào biểu mẫu cần thiết cho quá trình phân tích để sử dụng nó. Dữ liệu được xác nhận và sau đó được tải vào các bảng có liên quan.

Quá trình kiểm soát xác nhận dữ liệu và sau đó ghi lại những thay đổi trong quá trình kiểm soát. Quá trình phân tích sử dụng dữ liệu đã được xác thực để tạo ra kết quả mong muốn. Khi quá trình hoàn tất, dữ liệu cuối cùng sẽ bị xóa khỏi hệ thống và hệ thống được khởi động lại theo yêu cầu để duy trì trạng thái mong muốn.

Lớp thông tin chi tiết: Dữ liệu thường được lưu trữ trong cơ sở dữ liệu và sau đó được cung cấp thông qua các nguồn dữ liệu khác nhau. Giao diện truy vấn của

hồ dữ liệu được sử dụng để lấy dữ liệu từ hồ dữ liệu. Các truy vấn SQL và NoSQL được sử dụng để lấy dữ liệu từ hồ dữ liệu. Người dùng công ty thường được phép sử dụng dữ liệu nếu họ muốn. Sau khi dữ liệu được lấy từ hồ dữ liệu, nó chính là lớp hiển thị dữ liệu đó cho người dùng. Tuy nhiên, có thể khó hiểu dữ liệu khi nó được trình bày ở định dạng phân tích phẳng này. Hình ảnh và đồ thị cung cấp cho người dùng cách hiểu dữ liệu theo cách trực quan hơn và chúng có thể hữu ích trong việc truyền đạt các xu hướng và dữ liệu phức tạp. Trang tổng quan và báo cáo có thể được sử dụng để cung cấp cho người dùng thông tin chi tiết về tình trạng của kiến trúc dữ liệu của công ty và hiệu quả mà các truy vấn được xử lý.

Chúng cũng có thể được sử dụng để giám sát việc sử dụng một dịch vụ hoặc ứng dụng và xác định các điểm nghẽn.

Lớp hoạt động hợp nhất: Lớp quản lý quy trình làm việc chịu trách nhiệm giám sát và kiểm tra hiệu suất của các hệ thống khác nhau trong hồ dữ liệu. Nó thu thập dữ liệu, xử lý và lưu trữ kết quả trong hồ dữ liệu. Hồ dữ liệu cũng có một lớp kiểm tra giám sát trạng thái của hồ dữ liệu và nghiên cứu hiệu suất của các hệ thống khác nhau trong hồ dữ liệu. Nó thu thập dữ liệu, xử lý, phân tích kết quả để nghiên cứu trạng thái của hồ dữ liệu và tạo báo cáo để trợ giúp trong quá trình ra quyết định. Bên cạnh quản lý dữ liệu, các chức năng quan trọng khác của lớp quản lý dòng công việc là hệ thống và cấu hình dữ liệu, cấu hình dữ liệu và đảm bảo chất lượng dữ liệu. Hộp cát là một môi trường phân tích dữ liệu mở, nơi các nhà khoa học dữ liệu có thể thử nghiệm với dữ liệu mới, khám phá mối quan hệ giữa các tập dữ liệu và xác thực các dự đoán với dữ liệu lịch sử. Hộp cát có thể được sử dụng để mô hình hóa các hiện tượng phức tạp trong thế giới thực như biến đổi khí hậu, dịch bệnh hoặc chu kỳ kinh tế và chúng có thể được sử dụng để giúp giải quyết các vấn đề kinh doanh bằng cách cung cấp cho các nhà khoa học dữ liệu một nơi để thử nghiệm các mô hình mới và thu thập phản hồi.

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 111 - 114)

Tải bản đầy đủ (PDF)

(199 trang)