Phương pháp trích xuất

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 148 - 154)

CHƯƠNG 6: PHÂN TÍCH DỮ LIỆU THÔNG MINH

6.2. Trích xuất dữ liệu

6.2.2. Phương pháp trích xuất

Trích xuất dữ liệu là giai đoạn đầu tiên của quá trình ETL (Trích xuất, Biến đổi và Tải).

Chỉ sau quá trình xuất dữ liệu đúng cách, bạn có thể chuyển đổi và tải dữ liệu đó vào các đích dữ liệu mong muốn để phân tích thêm dữ liệu. Cho dù nguồn là cơ sở dữ liệu hay nền tảng SaaS (là một cách phân phối các ứng dụng qua Internet-như một dịch vụ, Thay vì cài đặt và bảo trì phần mềm, bạn chỉ cần truy cập nó qua Internet, giải phóng bản thân khỏi việc quản lý phần mềm và phần cứng phức tạp. ), quá trình trích xuất dữ liệu bao gồm các bước sau:

• Kiểm tra các thay đổi đối với cấu trúc của dữ liệu, bao gồm cả việc bổ sung các bảng và cột mới. Các cấu trúc dữ liệu đã thay đổi phải được xử lý theo chương trình.

• Chỉ định dữ liệu sẽ được trích xuất: Chọn và chỉ định các phần dữ liệu cần được trích xuất.

• Quá trình trích xuất dữ liệu: Trích xuất dữ liệu thích hợp, nếu có. Trong giai đoạn này, hoàn thành tất cả các giai đoạn tiên quyết và sẵn sàng thực hiện trích xuất dữ liệu bằng cách sử dụng công cụ trích xuất dữ liệu tự động hoặc các tập lệnh được viết thủ công.

Hình 6. 1: Các bước trích xuất dữ liệu

Dữ liệu đã trích xuất được tải vào một điểm đến đóng vai trò là nền tảng cho báo cáo BI, chẳng hạn như kho dữ liệu đám mây như Amazon Redshift, Microsoft Azure SQL Data Warehouse, Snowflake hoặc Google BigQuery. Quá trình tải cần cụ thể cho đích.

Các loại dữ liệu trích xuất:

• Dữ liệu phi cấu trúc: Dữ liệu phi cấu trúc không được lưu trong cơ sở dữ liệu ở định dạng có cấu trúc hoặc tiêu chuẩn hóa. Dữ liệu phi cấu trúc do con người và máy móc tạo ra rất phong phú. Dữ liệu âm thanh, email, không gian địa lý, cảm biến và giám sát đều là những ví dụ phổ biến và chúng thường đến từ Internet of Things (IoT). Trước tiên, các công ty phải thực hiện các hoạt động chuẩn bị và làm sạch dữ liệu như loại bỏ các kết quả trùng lặp, xóa các ký hiệu thừa và thiết lập cách xử lý các giá trị bị thiếu trước khi trích xuất dữ liệu phi cấu trúc.

• Dữ liệu có cấu trúc: Dữ liệu có cấu trúc được lưu trữ và quản lý trong hệ thống giao dịch theo cách thức chuẩn hóa. Các hàng trong bảng cơ sở dữ liệu SQL đại diện cho dữ liệu có cấu trúc. Các doanh nghiệp thường trích xuất thông tin từ hệ thống nguồn khi làm việc với dữ liệu có cấu trúc.

Hình 6. 2: Dữ liệu có cấu trúc và dữ liệu phi cấu trúc Phương pháp trích xuất dữ liệu

Trong quy trình Trích xuất dữ liệu, dữ liệu được thu thập từ nhiều nguồn dữ liệu để phân tích tiếp theo bằng các Công cụ trích xuất dữ liệu khác nhau. Các nguồn dữ liệu có thể là kỹ thuật số như các trang web, cơ sở dữ liệu hoặc các nguồn vật lý tồn tại trong bản in/phương tiện vật lý như sách, báo, hóa đơn, bảng tính,... Nhiều Công cụ trích xuất dữ liệu sử dụng một hoặc tất cả các nguồn để tiến hành phân tích. Trích xuất dữ liệu từ các nguồn vật lý thường có thể liên quan đến việc sử dụng các phương tiện thủ công, tốn kém và mất thời gian nhưng các công nghệ ngày nay như Nhận dạng ký tự quang học (OCR) đã giúp tự động hóa quá trình trích xuất từ các nguồn vật lý.

Có hai loại phương pháp trích xuất

• Phương pháp trích xuất logic

• Phương pháp trích xuất vật lý a. Phương pháp trích xuất logic Trích xuất đầy đủ

Dữ liệu được lấy đầy đủ từ hệ thống nguồn. Không cần theo dõi các thay đổi của nguồn dữ liệu vì phần trích xuất này phản ánh tất cả thông tin được lưu trên hệ thống nguồn sau lần trích xuất thành công cuối cùng.

Dữ liệu nguồn sẽ được phân phối ở trạng thái hiện tại mà không cần thêm thông tin logic nào (chẳng hạn như dấu thời gian) trên trang web nguồn. Một tệp xuất của một bảng cụ thể hoặc một truy vấn SQL từ xa quét toàn bộ bảng nguồn là hai ví dụ về phép trích xuất đầy đủ.

Lần đầu tiên sao chép bất kỳ nguồn nào, phải thực hiện trích xuất đầy đủ và một số nguồn dữ liệu không có cách nào để xác định dữ liệu đã bị thay đổi, vì vậy tải lại toàn bộ bảng có thể là cách duy nhất để lấy dữ liệu từ nguồn đó. Vì trích xuất toàn bộ liên quan đến khối lượng truyền dữ liệu cao, có thể tải trên mạng, nên đây không phải là lựa chọn tốt nhất nếu có thể tránh được.

Trích xuất gia tăng

Chỉ dữ liệu đã thay đổi kể từ một lần xảy ra cụ thể trong quá khứ sẽ được trích xuất tại một thời điểm nhất định. Sự kiện này có thể là sự kết thúc của quá trình trích xuất hoặc một sự kiện kinh doanh phức tạp hơn, chẳng hạn như ngày cuối cùng của các yêu cầu đặt trước của kỳ tài chính. Để phát hiện sự thay đổi đồng bằng này, phải có một cách để xác định tất cả các thông tin đã thay đổi kể từ sự kiện thời gian chính xác này.

Thông tin này có thể được cung cấp bởi chính dữ liệu nguồn, chẳng hạn như cột ứng dụng cho biết dấu thời gian được thay đổi lần cuối hoặc bởi một bảng thay đổi, trong đó một cơ chế riêng biệt theo dõi các sửa đổi ngoài các giao dịch gốc. Sử dụng tùy chọn thứ hai, trong hầu hết các tình huống, đòi hỏi phải thêm logic trích xuất vào hệ thống nguồn.

Là một phần của quá trình trích xuất, nhiều kho dữ liệu không áp dụng bất kỳ thuật toán thay đổi nào. Thay vào đó, các bảng đầy đủ từ hệ thống nguồn được trích xuất vào kho dữ liệu hoặc khu vực tổ chức và các bảng này được so sánh với bản trích xuất hệ thống nguồn trước đó để phát hiện dữ liệu đã thay đổi. Mặc dù chiến lược này có thể có ít ảnh hưởng đến các hệ thống nguồn, nhưng nó làm căng thẳng các quy trình của kho dữ liệu, đặc biệt nếu có khối lượng dữ liệu lớn.

Một số nguồn dữ liệu không thể cung cấp thông báo rằng bản cập nhật đã xảy ra, nhưng họ có thể xác định bản ghi nào đã được sửa đổi và cung cấp bản trích xuất của các bản ghi đó. Trong các bước ETL tiếp theo, mã trích xuất dữ liệu cần xác định và lan truyền các thay đổi. Một nhược điểm của việc trích xuất gia tăng là nó có thể không phát hiện được các bản ghi đã xóa trong dữ liệu nguồn, vì không có cách nào để xem một bản ghi không còn ở đó nữa.

Cập nhật thông báo

Cách dễ nhất để trích xuất dữ liệu từ hệ thống nguồn là yêu cầu hệ thống đó đưa ra thông báo khi một bản ghi đã được thay đổi. Hầu hết các cơ sở dữ liệu đều cung cấp cơ chế cho việc này để chúng có thể hỗ trợ sao chép cơ sở dữ liệu (thay đổi ghi dữ liệu hoặc nhật ký nhị phân) và nhiều ứng dụng SaaS cung cấp webhook, cung cấp chức năng tương tự về mặt chức năng.

b. Phương pháp trích xuất vật lý

Hình 6. 3: Hai phương pháp trích xuất vật lý

Việc trích xuất vật lý dữ liệu có thể được thực hiện theo hai cách, tùy thuộc vào phương pháp trích xuất hợp lý đã chọn và khả năng và giới hạn của trang nguồn. Dữ liệu có thể được trích xuất trực tuyến từ hệ thống nguồn hoặc ngoại tuyến từ cơ sở dữ liệu. Một cấu trúc ngoại tuyến như thế này có thể đã tồn tại hoặc được tạo ra bởi một quy trình trích xuất.

Trích xuất vật lý có thể được thực hiện theo những cách sau:

Trích xuất trực tuyến

Thông tin được lấy trực tiếp từ hệ thống nguồn. Quy trình trích xuất có thể liên kết trực tiếp với hệ thống nguồn để truy cập các bảng nguồn hoặc kết nối với một hệ thống trung gian để lưu trữ dữ liệu ở định dạng xác định trước (ví dụ: nhật ký ảnh chụp nhanh hoặc thay đổi bảng). Cần lưu ý rằng hệ thống trung gian không cần phải khác biệt về mặt vật lý với hệ thống nguồn. Tốt nhất là đánh giá xem liệu các giao dịch phân tán có sử dụng các đối tượng nguồn hay các đối tượng nguồn đã chuẩn bị khi sử dụng tính năng khai thác trực tuyến hay không.

Trích xuất ngoại tuyến

Trong phương pháp này, dữ liệu được sắp xếp một cách rõ ràng bên ngoài nguồn gốc thay vì được lấy trực tiếp từ nó. Dữ liệu trong quá trình này có cấu trúc hoặc có thể được cấu trúc bằng cách sử dụng các quy trình trích xuất. Một số cấu trúc tệp mà nó coi là tệp phẳng, tệp kết xuất hoặc trích xuất từ xa từ nhật ký giao dịch cơ sở dữ liệu

Các cấu trúc sau đây nên được xem xét:

• Tệp phẳng là tệp có định dạng chung, được xác định trước. Để xử lý thêm, cần có thêm thông tin về mục nguồn.

• Định dạng dành riêng cho Oracle cho tệp kết xuất Thông tin chứa các mục được bao gồm.

• Nhật ký để làm lại và lưu trữ

• Một tệp kết xuất bổ sung, riêng biệt chứa thông tin.

• Các không gian bảng có thể được di chuyển c. Công cụ trích xuất dữ liệu

Dữ liệu lớn chứa rất nhiều dữ liệu tiềm năng và thông tin chi tiết cần được khám phá bởi công ty. Đối với Kho dữ liệu, thiết kế và thiết lập một quy trình trích xuất thường là hoạt động tiêu tốn nhiều thời gian và quan trọng nhất. Vì nhiều nguồn thiếu chất lượng hoặc số lượng dữ liệu cần thiết, nên việc xác định tính đủ điều kiện để trích xuất là một nhiệm vụ đầy thách thức.

Đối với bất kỳ tổ chức nào, “Thời gian là Tiền bạc”. Do đó, các Công cụ trích xuất dữ liệu có thể giúp nâng cao quy trình làm việc và tiết kiệm thời gian nên được xem xét. Công cụ trích xuất dữ liệu, khi được tận dụng một cách thích hợp, có thể tiết kiệm thời gian.

Để xác định Công cụ trích xuất dữ liệu tốt nhất cho một công ty, loại dịch vụ mà công ty cung cấp và mục đích của việc trích xuất dữ liệu là thông số rất quan trọng. Để hiểu điều này, tất cả các công cụ được phân loại thành 3 loại và được đưa ra dưới đây:

• Công cụ xử lý hàng loạt

• Công cụ nguồn mở

• Công cụ dựa trên đám mây Công cụ xử lý hàng loạt

Có những lúc các công ty cần chuyển dữ liệu đến một vị trí khác nhưng lại gặp phải những thách thức vì những dữ liệu đó được lưu trữ ở dạng lỗi thời, hoặc là dữ liệu kế thừa. Trong những trường hợp như vậy, di chuyển dữ liệu theo lô là giải pháp tốt nhất. Điều này có nghĩa là các nguồn có thể liên quan đến một hoặc một vài đơn vị dữ liệu và có thể không quá phức tạp. Xử lý hàng loạt cũng có thể hữu ích khi di chuyển dữ liệu trong một cơ sở hoặc môi trường đóng. Để tiết kiệm thời gian và giảm thiểu sức mạnh tính toán, việc này có thể được thực hiện trong giờ làm việc.

Công cụ nguồn mở

Công cụ trích xuất dữ liệu nguồn mở thích hợp hơn khi các công ty đang làm việc với ngân sách vì họ có thể mua các ứng dụng nguồn mở để trích xuất hoặc sao chép dữ liệu được cung cấp. Nhân viên của công ty có các kỹ năng và kiến thức cần thiết để làm việc này. Một số nhà cung cấp trả phí cũng cung cấp miễn phí các phiên bản giới hạn của sản phẩm của họ, do đó, điều này có thể được đề cập trong cùng khung với các công cụ nguồn mở.

Công cụ dựa trên đám mây

Công cụ trích xuất dữ liệu dựa trên đám mây là các sản phẩm trích xuất chủ yếu hiện nay. Chúng loại bỏ sự căng thẳng trong việc tính toán logic và loại bỏ các thách

thức bảo mật khi tự xử lý dữ liệu. Chúng cho phép người dùng kết nối các nguồn và đích dữ liệu trực tiếp mà không cần viết bất kỳ mã nào, giúp mọi người trong cơ sở dữ liệu dễ dàng truy cập nhanh vào dữ liệu mà sau đó có thể được sử dụng để phân tích.

Một phần của tài liệu Bài Giảng Lưu Trữ Và Phân Tích Dữ Liệu (Trang 148 - 154)

Tải bản đầy đủ (PDF)

(199 trang)