Kiến trúc kho dữ liệu

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 101 - 109)

CHƯƠNG 4: KIẾN TRÚC CƠ SỞ DỮ LIỆU LỚN

4.2. Kiến trúc kho dữ liệu

4.2.2. Kiến trúc kho dữ liệu

Kiến trúc kho dữ liệu dựa trên một máy chủ hệ quản trị cơ sở dữ liệu quan hệ có chức năng như kho lưu trữ trung tâm cho dữ liệu thông tin. Dữ liệu hoạt động và xử lý được tách biệt hoàn toàn với xử lý kho dữ liệu. Kho lưu trữ thông tin trung tâm này được bao quanh bởi một số thành phần chính được thiết kế để làm cho toàn bộ môi trường hoạt động, có thể quản lý và có thể truy cập được bởi cả hệ thống vận hành nguồn dữ liệu vào kho và bằng các công cụ phân tích và truy vấn của người dùng cuối. Thông thường, dữ liệu nguồn cho kho đến từ các ứng dụng hoạt động. Khi dữ liệu vào kho, nó sẽ được dọn dẹp và chuyển đổi thành một cấu trúc và định dạng tích hợp. Quá trình chuyển đổi có thể bao gồm chuyển đổi, tóm tắt, lọc và cô đọng dữ liệu. Vì dữ liệu chứa một thành phần lịch sử, nên kho phải có khả năng lưu giữ và quản lý khối lượng lớn dữ liệu cũng như các cấu trúc dữ liệu khác nhau cho cùng một cơ sở dữ liệu theo thời gian.

4.2.2.1. Kiến trúc đầy đủ của kho dữ liệu

Hình 4. 19: Các thành phần của kho dữ liệu Thành phần chính kho dữ liệu:

1. Cơ sở dữ liệu Kho dữ liệu

Cơ sở dữ liệu trung tâm là nền tảng của môi trường kho dữ liệu. Cơ sở dữ liệu này được thực hiện trên công nghệ RDBMS. Mặc dù, kiểu triển khai này bị hạn chế bởi thực tế là hệ thống RDBMS truyền thống được tối ưu hóa để xử lý cơ sở dữ liệu giao dịch chứ không phải để lưu trữ dữ liệu. Ví dụ: truy vấn đặc biệt, liên kết nhiều bảng, tổng hợp tiêu tốn nhiều tài nguyên và làm chậm hiệu suất.

Do đó, các phương pháp tiếp cận thay thế cho Cơ sở dữ liệu được sử dụng như được liệt kê sau:

• Trong một datahouse, các cơ sở dữ liệu quan hệ được triển khai song song để cho phép khả năng mở rộng. Cơ sở dữ liệu quan hệ song song cũng cho phép bộ nhớ được chia sẻ hoặc mô hình không chia sẻ gì trên các cấu hình đa xử lý khác nhau hoặc các bộ xử lý song song lớn.

• Các cấu trúc chỉ mục mới được sử dụng để bỏ qua quá trình quét bảng quan hệ và cải thiện tốc độ.

• Sử dụng cơ sở dữ liệu đa chiều (MDDBs) để khắc phục bất kỳ hạn chế nào được đặt ra do mô hình kho dữ liệu quan hệ. Ví dụ: Essbase từ Oracle.

2. Nguồn, làm sạch và các công cụ chuyển đổi (ETL)

Nguồn, các công cụ chuyển đổi và di chuyển dữ liệu được sử dụng để thực hiện tất cả các chuyển đổi, tóm tắt và tất cả các thay đổi cần thiết để chuyển đổi dữ liệu thành một định dạng thống nhất trong kho dữ liệu. Chúng còn được gọi là Công cụ trích xuất, biến đổi và tải (ETL).

Chức năng của chúng bao gồm:

• Ẩn danh dữ liệu theo quy định của pháp luật.

• Loại bỏ dữ liệu không mong muốn trong cơ sở dữ liệu hoạt động khi tải vào kho dữ liệu.

• Tìm kiếm và thay thế các tên và định nghĩa phổ biến cho dữ liệu đến từ các nguồn khác nhau.

• Tính toán tóm tắt và dữ liệu dẫn xuất

• Trong trường hợp thiếu dữ liệu, hãy điền chúng bằng các giá trị mặc định.

• Khử trùng lặp dữ liệu lặp lại đến từ nhiều nguồn dữ liệu.

Nguồn dữ liệu:

• Dữ liệu bên ngoài: Để thu thập dữ liệu, hầu hết các giám đốc điều hành và nhà phân tích dữ liệu dựa vào thông tin đến từ các nguồn bên ngoài để có rất nhiều thông tin mà họ sử dụng. Họ sử dụng các tính năng thống kê liên quan đến tổ chức của họ được đưa ra bởi một số nguồn và bộ phận bên ngoài.

• Dữ liệu nội bộ: Trong mọi tổ chức, người tiêu dùng giữ các bảng tính, báo cáo, hồ sơ khách hàng và thậm chí cả cơ sở dữ liệu phòng ban “riêng tư”.

• Dữ liệu hệ thống hoạt động: Các hệ thống hoạt động về cơ bản có nghĩa là để điều hành công việc. Trong mỗi hệ thống hoạt động, chúng ta định kỳ lấy dữ liệu cũ và lưu trữ trong các tệp đã đạt được.

• Tệp phẳng: Tệp phẳng không là gì ngoài một cơ sở dữ liệu văn bản lưu trữ dữ liệu ở định dạng văn bản thuần túy. Tệp phẳng thường là tệp văn bản đã loại bỏ tất cả quá trình xử lý dữ liệu và đánh dấu cấu trúc. Tệp phẳng chứa một bảng với một bản ghi trên mỗi dòng.

Trích xuất-biến đổi-tải (ETL)

Đề cập đến quá trình trong đó dữ liệu được trích xuất từ hệ thống nguồn, được chuyển đổi và sau đó được tải vào hệ thống đích để xử lý và phân tích thêm. Các chuyển đổi có thể bao gồm chuyển đổi dựa trên các yêu cầu kinh doanh, kết hợp dữ liệu với các nguồn dữ liệu khác hoặc xác thực/từ chối dữ liệu dựa trên một số tiêu chí. Một kiểu xử lý phổ biến khác là giải nén-tải-biến đổi (ELT). Trong mô hình ELT, dữ liệu được tải vào một hệ thống đích, nói chung là một tập hợp các bảng tạm thời, và sau đó được chuyển đổi. Các công cụ ETL này phải đối mặt với các thách thức về tính không đồng nhất của cơ sở dữ liệu & dữ liệu.

3. Meta data

Meta data là một tập hợp dữ liệu mô tả và cung cấp thông tin về dữ liệu khác.

Tên gọi Metadata gợi ý một số khái niệm về kho dữ liệu công nghệ cấp cao. Tuy nhiên, nó khá đơn giản. Meta data là dữ liệu về dữ liệu xác định kho dữ liệu. Nó được sử dụng để xây dựng, duy trì và quản lý kho dữ liệu. Trong kiến trúc kho dữ liệu, siêu dữ liệu đóng một vai trò quan trọng vì nó chỉ định nguồn, cách sử dụng, giá trị và tính năng của dữ liệu kho dữ liệu. Nó cũng xác định cách dữ liệu có thể được thay đổi và xử lý. Nó được kết nối chặt chẽ với kho dữ liệu. Do đó, dữ liệu siêu dữ liệu là thành phần thiết yếu trong việc chuyển đổi dữ liệu thành kiến thức.

Siêu dữ liệu giúp trả lời các câu hỏi sau:

• Kho dữ liệu chứa những bảng, thuộc tính và khóa nào?

• Dữ liệu đến từ đâu?

• Dữ liệu được tải lại bao nhiêu lần?

• Sự biến đổi nào đã được áp dụng với sự làm sạch?

Siêu dữ liệu có thể được phân thành các loại sau:

• Dữ liệu siêu dữ liệu kỹ thuật: Loại siêu dữ liệu này chứa thông tin về kho được sử dụng bởi các nhà thiết kế và quản trị kho dữ liệu.

• Dữ liệu siêu dữ liệu doanh nghiệp: Loại siêu dữ liệu này chứa thông tin chi tiết giúp người dùng cuối hiểu được thông tin được lưu trữ trong kho dữ liệu một cách dễ dàng.

4. Công cụ truy vấn

Một trong những đối tượng chính của kho dữ liệu là cung cấp thông tin cho doanh nghiệp để đưa ra các quyết định chiến lược. Các công cụ truy vấn cho phép người dùng tương tác với hệ thống kho dữ liệu.

Các công cụ này được chia thành bốn loại khác nhau:

• Công cụ truy vấn và báo cáo

• Các công cụ phát triển ứng dụng

• Các công cụ khai thác dữ liệu

• Công cụ OLAP

Công cụ truy vấn và báo cáo

Các công cụ truy vấn và báo cáo có thể được chia thành

• Công cụ báo cáo: Các công cụ báo cáo có thể được chia thành công cụ báo cáo sản xuất và trình viết báo cáo trên máy tính để bàn.

+ Người viết báo cáo: Loại công cụ báo cáo này là những công cụ được thiết kế cho người dùng cuối để phân tích.

+ Báo cáo sản xuất: Loại công cụ này cho phép các tổ chức tạo ra các báo cáo hoạt động thường xuyên. Nó cũng hỗ trợ các công việc hàng loạt khối lượng lớn như in ấn và tính toán. Một số công cụ báo cáo phổ biến là Brio, Business Objects, Oracle, PowerSoft, SAS Institute.

• Các công cụ truy vấn được quản lý: Các công cụ truy vấn được quản lý bảo vệ người dùng cuối khỏi sự phức tạp của SQL và cấu trúc cơ sở dữ liệu bằng cách chèn meta-layer giữa người dùng và cơ sở dữ liệu. Các công cụ này được thiết kế cho các thao tác trỏ và nhấp dễ sử dụng, chấp nhận SQL hoặc tạo các truy vấn cơ sở dữ liệu SQL. Thông thường, nhu cầu phân tích của cộng đồng người dùng kho dữ liệu vượt quá khả năng tích hợp của các công cụ truy vấn và báo cáo. Trong những trường hợp này, các tổ chức thường sẽ dựa vào cách tiếp cận đã được thử nghiệm của việc phát triển ứng dụng nội bộ bằng cách sử dụng các môi trường phát triển đồ họa như PowerBuilder, Visual Basic và Forte. Các nền tảng phát triển ứng dụng này tích hợp tốt với các công cụ OLAP phổ biến và truy cập vào tất cả các hệ thống cơ sở dữ liệu chính bao gồm Oracle, Sybase và Informix.

Các công cụ phát triển ứng dụng:

Đôi khi các công cụ đồ họa và phân tích tích hợp sẵn không thỏa mãn nhu cầu phân tích của một tổ chức. Trong những trường hợp như vậy, các báo cáo tùy chỉnh được phát triển bằng cách sử dụng các công cụ phát triển Ứng dụng.

Các công cụ khai thác dữ liệu:

Khai thác dữ liệu là một quá trình khám phá các mối tương quan, xu hướng và xu hướng mới có ý nghĩa bằng cách khai thác dữ liệu số lượng lớn. Các công cụ khai thác dữ liệu được sử dụng để làm cho quá trình này tự động.

Các công cụ OLAP:

Xử lý phân tích trực tuyến (OLAP) bao gồm các ứng dụng như dự báo, lập hồ sơ, báo cáo tóm tắt và phân tích xu hướng. Các công cụ này dựa trên các khái niệm về cơ sở dữ liệu đa chiều. Nó cho phép người dùng phân tích dữ liệu bằng cách sử dụng các quan điểm đa chiều phức.

5. Data mart

Data mart là một lớp truy cập được sử dụng để đưa dữ liệu ra ngoài cho người dùng.

Nó được trình bày như một tùy chọn cho kho dữ liệu kích thước lớn vì nó tốn ít thời gian và tiền bạc hơn để xây dựng. Tuy nhiên, không có định nghĩa tiêu chuẩn nào về data mart là khác nhau tùy từng người. Nói một cách đơn giản Data mart là một thành phần con của kho dữ liệu. Data mart được sử dụng cho phân vùng dữ liệu được tạo cho nhóm người dùng cụ thể. Data mart có thể được tạo trong cùng một cơ sở dữ liệu với kho dữ liệu hoặc một cơ sở dữ liệu riêng biệt về mặt vật lý.

Khái niệm Data mart đang gây ra rất nhiều sự thu hút nhiều sự chú ý trong ngành công nghiệp kho dữ liệu. Hầu hết, data mart được trình bày như một giải pháp thay thế cho một kho dữ liệu tốn ít thời gian và tiền bạc hơn đáng kể để xây dựng. Tuy nhiên, thuật ngữ Data mart có nghĩa là những thứ khác nhau đối với những người khác nhau.

Một định nghĩa chặt chẽ của thuật ngữ này là một kho lưu trữ dữ liệu là công ty con của một kho dữ liệu tích hợp dữ liệu. Data mart hướng đến một phân vùng dữ liệu (thường được gọi là một vùng chủ đề) được tạo ra để sử dụng cho một nhóm người dùng chuyên dụng. Trên thực tế, một data mart có thể là một tập hợp các dữ liệu không chuẩn hóa, tóm tắt hoặc tổng hợp. Đôi khi, một tập hợp như vậy có thể được đặt trên kho dữ liệu hơn là một kho dữ liệu riêng biệt về mặt vật lý.

Tuy nhiên, trong hầu hết các trường hợp, data mart là một nơi lưu trữ dữ liệu riêng biệt về mặt vật lý và nằm trên máy chủ cơ sở dữ liệu riêng biệt, thường là một mạng cục bộ phục vụ một nhóm người dùng chuyên dụng. Đôi khi kho dữ liệu chỉ đơn giản bao gồm công nghệ OLAP, công nghệ này tạo ra mô hình chiều không chuẩn hóa cao (ví dụ: giản đồ hình sao) được triển khai trên cơ sở dữ liệu quan hệ. Các siêu khối dữ liệu kết quả được sử dụng để phân tích bởi các nhóm người dùng có chung mối quan tâm trong một phần hạn chế của cơ sở dữ liệu. Các loại data mart này, được gọi là data mart phụ thuộc vì dữ liệu của chúng được lấy từ kho dữ liệu, có giá trị cao bởi vì bất kể chúng được triển khai như thế nào và sử dụng bao nhiêu công nghệ cho phép khác nhau, những người dùng khác nhau đều đang truy cập vào các chế độ xem thông tin bắt nguồn từ phiên bản tích hợp duy nhất của dữ liệu.

4.2.2.2. Các loại kiến trúc của kho dữ liệu Có 3 loại kiến trúc kho dữ liệu:

Kiến trúc một tầng

Kiến trúc hai tầng

Kiến trúc ba tầng a. Kiến trúc một tầng

Các kiến trúc một tầng không được triển khai trong các hệ thống thời gian thực.

Chúng được sử dụng để xử lý hàng loạt và thời gian thực. Đầu tiên, dữ liệu được chuyển sang kiến trúc một tầng, nơi nó được chuyển đổi thành một định dạng phù hợp để xử lý theo thời gian thực. Kiến trúc này được gọi là "đơn luồng". Sau đó, dữ liệu được chuyển sang hệ thống thời gian thực. Kiến trúc một tầng hiện là cách được ưu tiên nhất để xử lý dữ liệu hoạt động. Điều quan trọng cần lưu ý là các kiến trúc một tầng không được thực hiện trong các hệ thống thời gian thực.

Phần mềm trung gian lưu trữ và xử lý dữ liệu phải có thể xác định chất lượng của dữ liệu trước khi dữ liệu được chấp nhận bởi bộ máy phân tích và chuyển đổi thành thông tin có liên quan. Nếu các bước này không được thực hiện, thì phần mềm trung gian có thể bị xâm nhập bởi mã độc hại hoặc bị lỗi. Ví dụ, hãy xem xét một phép tính điểm tín dụng. Nếu một tin tặc độc hại kiểm soát phần mềm trung gian, thì tin tặc có thể sửa đổi điểm số và trích xuất dữ liệu có giá trị.

Hình 4. 20: Kiến trúc một tầng b. Kiến trúc 2 tầng

Trong kho dữ liệu hai tầng, một quy trình phân tích được tách ra khỏi quy trình kinh doanh. Điều này cho phép mức độ kiểm soát và hiệu quả cao hơn. Hệ thống hai cấp cũng cung cấp sự hiểu biết tốt hơn về dữ liệu và cho phép đưa ra các quyết định sáng suốt hơn.

Hình 4. 21: Kiến trúc 2 tầng

Kiến trúc hai lớp mô tả luồng dữ liệu bốn giai đoạn, trong đó các nguồn vật lý được phân tách khỏi kho dữ liệu bằng kiến trúc hai lớp.

• Nguồn dữ liệu rất quan trọng đối với tính toàn vẹn của kho dữ liệu. Tính toàn vẹn của dữ liệu được lưu trữ trong kho dữ liệu phải được đảm bảo. Tính toàn vẹn của dữ liệu là mức độ mà các giá trị dữ liệu trong bản ghi cơ sở dữ liệu là đúng hoặc chính xác. Kho dữ liệu là một hệ thống lưu trữ thông tin trong cơ sở dữ liệu để có thể tìm kiếm và phân tích.

• Giai đoạn dữ liệu là một quy trình quan trọng trong quy trình ETL và là quy trình có thể giảm đáng kể thời gian trích xuất, chuyển đổi và tải (ETL) một tập dữ liệu lớn. Các công cụ ETL có thể trích xuất dữ liệu từ các nguồn lưu trữ khác nhau, chuyển đổi dữ liệu với các chức năng dành riêng cho công ty và tải dữ liệu vào kho dữ liệu. Các chức năng của kho dữ liệu như giám sát hệ thống, cung cấp dữ liệu mới và đưa ra quyết định trên cơ sở dữ liệu đều được thực hiện thông qua các chức năng của kho dữ liệu như ETL. Các chức năng của kho dữ liệu như ETL có thể được thực hiện thông qua một kho dữ liệu.

• Siêu dữ liệu kho dữ liệu là một thành phần quan trọng của kho dữ liệu. Đây là thông tin giúp người quản trị kho dữ liệu quyết định dữ liệu nào cần xóa, dữ liệu nào giữ lại và dữ liệu nào sẽ sử dụng trong các báo cáo sau này. Điều quan trọng

nữa là duy trì tính nhất quán của kho dữ liệu. Bộ quản lý kho dữ liệu phải xác định dữ liệu nào nên được cập nhật hoặc xóa khi dữ liệu mới đến và dữ liệu nào nên được giữ nguyên. Khi tính nhất quán của kho dữ liệu không được đảm bảo, các nhà phát triển ứng dụng và người dùng phải cẩn thận về việc họ tạo bảng và báo cáo nào.

• Cấu hình dữ liệu cũng rất quan trọng đối với cấp độ này vì nó giúp xác nhận tính toàn vẹn của dữ liệu và các tiêu chuẩn trình bày. Nó cũng đi kèm với các phân tích nâng cao như báo cáo hàng loạt và thời gian thực, lập hồ sơ và trực quan hóa dữ liệu cũng như các chức năng xếp hạng. Điều quan trọng cần lưu ý là đây không chỉ là một kho dữ liệu mà còn là một nền tảng dữ liệu trực tiếp nhận và phân tích một lượng lớn dữ liệu. Đây là lý do tại sao điều quan trọng là phải theo dõi các thay đổi dữ liệu, khả năng mở rộng và hiệu suất của hệ thống.

c. Kiến trúc 3 tầng

Hình 4. 22: Kiến trúc 3 tầng

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 101 - 109)

Tải bản đầy đủ (PDF)

(199 trang)