1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu xây dựng giải pháp làm sạch và tích hợp dữ liệu lớn TT

25 12 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 1,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để xây dựng các kho dữ liệu lớn và sạch đòi hỏi nghiên cứu các công nghệ làm sạch, tích hợp dữ liệu và lưu trữ trong hệ thống dữ liệu lớn phục vụ khai thác sau này.. Các thử thách về quy

Trang 1

Nguyễn Hữu Tuyên

NGHIÊN CỨU XÂY DỰNG GIẢI PHÁP LÀM SẠCH

Trang 2

Người hướng dẫn khoa học: PGS.TS HÀ HẢI NAM

Phản biện 1: ……… Phản biện 2: ………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Internet và các công nghệ số ngày càng phát triển như hiện nay, dữ liệu được tạo

ra với dung lượng rất lớn Đối với mỗi tổ chức, doanh nghiệp dữ liệu được tạo ra từ các nguồn khác nhau như dữ liệu khách hàng, dữ liệu nghiệp vụ, dữ liệu nhân sự, dữ liệu điều tra từ các mạng xã hội v.v Tổ chức càng lớn thì dữ liệu càng đa dạng Do

dữ liệu được thu thập từ các nguồn khác nhau dẫn đến các định dạng dữ liệu cũng rất

đa dạng và không tuân thủ theo tiêu chuẩn nhất quán Dữ liệu có thể ở dạng có cấu trúc, phi cấu trúc và bán cấu trúc Điều này dẫn đến các khó khăn trong việc chuẩn hóa và lưu trữ dữ liệu phục vụ khai thác sau này Dữ liệu thu thập từ các nguồn khác nhau cũng dẫn đến sự trùng lặp về nội dung, lỗi chính tả, lỗi ngữ nghĩa v.v

Với sự phát triển các công nghệ phân tích dữ liệu tiên tiến và việc áp dụng trí tuệ nhân tạo vào giải quyết các vấn để liên quan đến mọi tổ chức, đòi hỏi cần có dữ liệu sạch để phát huy hiệu quả các công nghệ mới này Để xây dựng các kho dữ liệu lớn và sạch đòi hỏi nghiên cứu các công nghệ làm sạch, tích hợp dữ liệu và lưu trữ trong hệ thống dữ liệu lớn phục vụ khai thác sau này Đây là bài toán lớn, khó và phức tạp đang được nghiên cứu trên thế giới [1]

Tại Việt Nam, chiến lược chuyển đổi số quốc gia đã xác định việc xây dựng các

cơ sở dữ liệu lớn quốc gia phục vụ chuyển đổi số quốc gia Đây là xu hướng tất yếu khi xây dựng chính phủ điện tử hướng tới chính phủ số Chính phủ số là chính phủ ra quyết định dựa trên dữ liệu Nghị định 47/2020/NĐ-CP ngày 09/04/2020 về quản lý, kết nối và chia sẻ dữ liệu số của cơ quan nhà nước đã cho thấy tầm quan trọng của việc tích hợp và chia sẻ dữ liệu Các thử thách về quy trình, công nghệ làm sạch, tích hợp

và lưu trữ dữ liệu lớn vẫn đang chưa được giải quyết triệt để

Với chiến lược dữ liệu mở[2], trong tương lai Việt Nam sẽ có các nguồn dữ liệu phong phú khổng lồ từ các khu vực công và tư được mở cho cộng đồng Để tận dụng nguồn dữ liệu này cho phát triển kinh tế xã hội, năng lực làm sạch và tích hợp dữ liệu lớn là rất cần thiết

Các doanh nghiệp lớn ở Việt Nam như VNPT, Viettel hiện nay có nguồn dữ liệu

Trang 4

đa dạng, phong phú và khổng lồ như dữ liệu về khách hàng, lịch sử sử dụng của khách hàng, ý kiến phản hồi khách hàng…Đây là nguồn nhiên liệu quan trọng đối với các doanh nghiệp nếu khai thác hiệu quả

Tích hợp dữ liệu đưa ra một khung nhìn ảo thống nhất tất cả các dữ liệu trong cùng phạm vi, cho phép người dùng có thể truy vấn dữ liệu thông qua lược đồ tích hợp hoàn chỉnh Việc xây dựng các hệ thống tích hợp dữ liệu rất quan trọng trong các ứng dụng thực tế Các công ty ứng dụng tích hợp dữ liệu để lấy báo cáo số liệu của các chi nhánh con Trong an ninh chúng ta sử dụng tích hợp để điều tra tội phạm, tìm kiếm Các tổ chức quy mô lớn cần lấy thông tin từ các đơn vị trực thuộc Hay là việc so sánh, kiểm định các thông tin từ nhiều hệ thống khác nhau

Nội dung luận văn này tập trung vào giới thiệu các vấn đề xung quanh việc làm sạch và tích hợp dữ liệu lớn Các nội dung chính trong luận văn bao gồm: tổng quan

về dữ liệu, làm sạch và tích hợp dữ liệu lớn Giới thiệu một số kỹ thuật, công nghệ tích hợp dữ liệu điển hình thường được sử dụng và phần cuối tôi xin trình bày thực nghiệm

về làm sạch và tích hợp dữ liệu lớn tại trường Đại học Đại Nam

Trang 5

1.1.2 Các dạng dữ liệu

 Dữ liệu có cấu trúc (Structured Data)

 Dữ liệu phi cấu trúc (Unstructured Data)

 Dữ liệu bán cấu trúc (Semi-structured Data)

1.1.3 Làm sạch dữ liệu

Làm sạch dữ liệu là quá trình phát hiện và sửa đổi đối với những dữ liệu bị thiếu,

bị nhiễu hoặc không nhất quán trong cơ sở dữ liệu v.v Qua đó chúng ta sẽ có được một bộ dữ liệu sạch mà dựa vào đó có thể phân tích, đánh giá, dự đoán các sự vật sự việc được chính xác

1.1.4 Dữ liệu lớn

Dữ liệu lớn (BigData ) là tập hợp dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp đến nỗi không một công cụ quản lý dữ liệu truyền thống nào có thể lưu trữ hoặc xử lý nó một cách hiệu quả

Dữ liệu lớn có 5 đặc trưng cơ bản như sau[5]:

Trang 6

Hình 1.1: Năm đặc trưng của dữ liệu lớn

Các công nghệ sử dụng trong dữ liệu lớn

Thứ nhất, dữ liệu lớn sử dụng các hệ thống quản lý dữ liệu phân tán mà điển hình là hệ thống tệp tin phân tán Hadoop (Hadoop Distributed File System), hệ thống quản lý cơ sở dữ liệu không quan hệ (NoSQL Databases) Hệ thống tệp tin phân tán Hadoop có kiến trúc chủ/tớ (master/slave) với một nút quản lý tên (cùng một nút sao lưu dự phòng) và nhiều nút quản lý dữ liệu và làm việc theo chế độ xử lý theo lô Dung lượng dữ liệu trong một hệ thống tệp tin phân tán Hadoop lên tới vài Texabytes

Thứ hai, tồn tại một số nền tảng phân tích dữ liệu lớn mà bốn nền tảng điển hình là MapReduce, Apache Hadoop, Spark và Cụm tính toán hiệu năng cao (High Performance Computing Cluster: HPCC)

1.2 Tích hợp dữ liệu

1.2.1 Lịch sử phát triển

Đầu những năm 1980, các nhà khoa học máy tính bắt đầu thiết kế các hệ thống cho khả năng tương tác của các cơ sở dữ liệu không đồng nhất Hệ thống tích hợp dữ liệu đầu tiên được điều khiển bởi siêu dữ liệu có cấu trúc được thiết kế tại Đại học

Trang 7

Minnesota vào năm 1991, dành cho Sê-ri Microdata sử dụng công cộng tích hợp (Integrated Public Use Microdata Series) IPUMS đã sử dụng phương pháp lưu trữ dữ liệu, trích xuất, chuyển đổi và tải dữ liệu từ các nguồn không đồng nhất vào một lược

đồ xem đơn để dữ liệu từ các nguồn khác nhau trở nên tương thích

Ngày nay, tích hợp dữ liệu không còn là điều mới với mọi người Tích hợp dữ liệu được triển khai trong nhiều đơn vị ở nhiều cấp độ trong kiến trúc của cơ sở dữ liệu

1.2.2 Khái niệm tích hợp dữ liệu

Tích hợp dữ liệu là quá trình kết hợp từ nhiều nguồn dữ liệu khác nhau vào một lược đồ duy nhất và từ đó có thể truy vấn, cung cấp cho người sử dụng một cái nhìn tổng thể về các dữ liệu đó

1.2.3 Vai trò của tích hợp dữ liệu

Tích hợp CSDL đã trở thành một công nghệ mà được nhiều công ty đầu tư, xây dựng đặc biệt khi số lượng và khả năng kết nối dữ liệu tăng lên Khi con người cần truy cập nhiều dữ liệu và chia sẽ dữ liệu giữa các phòng ban, các công ty nhận thức rõ rằng tất cả các dữ liệu được tích hợp trong một CSDL là một sự tiết kiệm thời gian và công sức rất lớn Tích hợp dữ liệu là cần thiết để đạt được giá trị gia tăng từ những tài nguyên, thành phần đang tồn tại và lưu trữ phân tán

Trang 8

CHƯƠNG II: XÂY DỰNG QUY TRÌNH LÀM SẠCH VÀ TÍCH

HỢP DỮ LIỆU LỚN

2.1 Mô hình làm sạch và tích hợp dữ liệu lớn

Ngày nay, cùng với cách mạng 4.0 là sự bùng nổ về dữ liệu trong mọi lĩnh vực của cuộc sống Ví dụ, dữ liệu hành chính, dữ liệu từ hoạt động thương mại, dữ liệu từ các thiết bị cảm biến v.v Dữ liệu được thu thập từ nhiều nguồn dữ liệu có thể ở nhiều định dạng khác nhau hay sự thiếu sót trong quá trình tổng hợp dữ liệu, v.v Việc bùng

nổ dữ liệu đã dẫn đến dữ liệu ngày càng trở nên phức tạp khiến cho quá trình xử lý, lưu trữ và phân tích dữ liệu trở nên đầy thách thức

Mô hình tổng quát của quá trình làm sạch và tích hợp dữ liệu được trình bày trong hình sau:

Hình 2.1: Quá trình làm sạch và tích hợp dữ liệu

2.2 Quy trình làm sạch dữ liệu

2.2.1 Các yêu cầu nguyên lý đối với làm sạch, tích hợp dữ liệu lớn

Làm sạch dữ liệu là quy trình chuẩn bị dữ liệu trước khi phân tích thông qua

xử lý hay loại bỏ những dữ liệu không chính xác, không đầy đủ, không phù hợp về định dạng, bị trùng lắp, không có giá trị, không đủ thông tin, không liên quan,… những dữ liệu có thể ảnh hưởng đến kết quả phân tích sau cùng Mục đích chính của

Trang 9

làm sạch dữ liệu hướng đến không chỉ đơn thuần là loại bỏ dữ liệu, tạo không gian

để thêm vào dữ liệu mới thay thế, mà phải tìm cách tăng tối đa độ chính xác của dữ liệu trong khi cố gắng hạn chế tối đa việc loại bỏ dữ liệu

Dưới đây là một số tính chất của dữ liệu cần quan tâm:

 Tính chính xác của dữ liệu

 Khối lượng dữ liệu

 Tính nhất quán của dữ liệu

 Tính vẹn toàn của dữ liệu

 Tính hợp lệ của dữ liệu

 Tính độc nhất

 Tính liên quan và tính kịp thời

2.2.2 Nghiên cứu các công đoạn làm sạch

Hình sau trình bày bốn bước chính này trong quá trình làm sạch dữ liệu

Hình 2.2: Các bước trong quá trình làm sạch dữ liệu

Trang 10

2.2.3 Đề xuất quy trình làm sạch

Quá trình làm sạch dữ liệu bao gồm năm giai đoạn; (1) phân tích dữ liệu, (2) định nghĩa quy tắc dữ liệu chuyển đổi, (3) xác minh, (4) chuyển đổi và (5) luồng dữ liệu đã được làm sạch trở lại

Hình 2.3: Quy trình làm sạch dữ liệu

Bước đầu tiên trong quá trình làm sạch dữ liệu là phân tích dữ liệu để xác định các lỗi và sự không nhất quán đã xảy ra trong cơ sở dữ liệu đó Nói cách khác, giai đoạn này được gọi là kiểm toán dữ liệu, trong đó giai đoạn này sẽ tìm thấy tất cả các loại bất thường bên trong cơ sở dữ liệu Bên cạnh đó, siêu dữ liệu về các thuộc tính dữ liệu sẽ được thu thập thông qua phân tích dữ liệu để phát hiện các vấn đề về chất lượng dữ liệu Có hai cách tiếp cận trong phân tích dữ liệu là lập hồ sơ dữ liệu và khai thác dữ liệu Hồ sơ dữ liệu là sự nhấn mạnh vào phân tích cá thể của các thuộc tính riêng lẻ Trong khi đó, khai thác dữ liệu tập trung vào việc khám phá mẫu dữ liệu cụ thể trong tập dữ liệu lớn Kết quả từ bước đầu tiên là dấu hiệu cho mỗi trường hợp bất thường có thể xảy ra bên trong cơ sở dữ liệu hay không

Tiếp theo, quy trình chuyển đổi xác định việc phát hiện và loại bỏ các dị thường được thực hiện bởi một chuỗi các hoạt động trên dữ liệu Nó được chỉ định sau khi

Trang 11

phân tích dữ liệu để có được thông tin về các dị thường hiện có Số lượng các bước chuyển đổi cần thiết phụ thuộc vào số lượng nguồn dữ liệu, mức độ không đồng nhất

và độ "bẩn" của dữ liệu Để cho phép tạo mã chuyển đổi tự động, phép chuyển đổi liên quan đến giản đồ và các bước làm sạch phải được chỉ định bằng một ngôn ngữ ánh xạ

và truy vấn khai báo Một trong những thách thức chính trong giai đoạn này là đặc tả quy trình làm việc và các quy tắc ánh xạ sẽ được áp dụng cho dữ liệu bẩn

Bước thứ ba là giai đoạn xác minh Trong giai đoạn này, tính đúng đắn và hiệu quả của quy trình chuyển đổi được đánh giá Giai đoạn này bao gồm nhiều lần lặp lại

để xác minh tất cả các lỗi đang được sửa và nó yêu cầu sự tương tác với các chuyên gia miền Vì một số lỗi chỉ có thể nhìn thấy sau khi chuyển đổi, do đó, một chu trình phân tích, thiết kế và xác minh mới là cần thiết

Sau khi dữ liệu được xác minh và xác thực, các bước chuyển đổi sẽ được thực hiện để làm mới dữ liệu trong kho dữ liệu Quá trình chuyển đổi yêu cầu một lượng lớn siêu dữ liệu như đặc điểm dữ liệu cấp độ cá thể và lược đồ, ánh xạ chuyển đổi và định nghĩa quy trình làm việc Thông tin chi tiết về quá trình chuyển đổi phải được ghi lại để hỗ trợ chất lượng dữ liệu

Cuối cùng, sau khi tất cả các lỗi đã được loại bỏ, dữ liệu bẩn nên được thay thế bằng dữ liệu đã được làm sạch

2.3 Phương pháp tích hợp dữ liệu

Có 3 phương pháp chính được sử dụng trong tích hợp dữ liệu là kỹ thuật hợp nhất (consolidation), liên hiệp (federation) và lan truyền (propagation)

2.3.1 Kỹ thuật hợp nhất dữ liệu

2.3.2 Kỹ thuật liên hiệp dữ liệu

2.3.3 Kỹ thuật lan truyền dữ liệu

2.4 Các công nghệ trong tích hợp dữ liệu

Hiện nay để thực hiện các kỹ thuật tích hợp dữ liệu như trên đã trình bày có rất nhiều giải pháp công nghệ Ở phần này sẽ trình bày ba trong số các công nghệ phổ biến

Trang 12

thường được sử dụng trong việc tích hợp dữ liệu: ETL (extract, transform and load); EII (enterprise information integration) và EAI (enterprise application integration)

2.4.1 Công nghệ ETL (Extract, Transform and Load)

2.4.2 Công nghệ EII (Enterprise Information Integration)

2.4.3 Công nghệ EAI (Enterprise Application Integration)

2.4.4 Nhận xét và đánh giá

2.5 Kết luận chương

Sau khi tìm hiểu tổng quan các khái niệm, vai trò của việc làm sạch và tích hợp

dữ liệu lớn Chương 2 đề xuất một quy trình làm sạch dữ liệu, tìm hiểu các công nghệ,

kỹ thuật làm sạch và tích hợp dữ liệu lớn Từ đó làm cơ sở cho việc tiến hành thực nghiệm ở chương 3

Trang 13

CHƯƠNG III: THỰC NGHIỆM VÀ KẾT QUẢ

3.1 Thực trạng về dữ liệu trường Đại học Đại nam

Trường Đại học có rất nhiều dữ liệu quan trọng như thông tin tổ chức, thông tin đào tạo, thông tin sinh viên, … Để quản trị dữ liệu tốt cũng như sử dụng và khai thác giá trị từ các dữ liệu trên, trường Đại học Đại Nam đã xây dựng kho dữ liệu tập trung gồm nhiều phân hệ như sau:

Phân hệ quản lý bộ máy tổ chức, cơ sở vật chất

Phân hệ quản lý đào tạo, tuyển sinh

Phân hệ quản lý sinh viên

Phân hệ quản lý nghiên cứu khoa học, hoạt động hướng nghiệp

Phân hệ khảo thí và đảm bảo chất lượng đào tạo

V.v…

Nhằm nâng cao chất lượng cũng như uy tín trường Đại học Đại Nam trong các trường đại học, cao đẳng Mỗi một học kỳ nhà trường sẽ tổ chức lấy ý kiến của các đối tượng liên quan để phân tích, đánh giá kết quả hoạt động của từng cá nhân, bộ phận trong nhà trường Một trong những việc đó là việc lấy ý kiến phản hồi của sinh viên về hoạt động giảng dạy

Tuy nhiên, để đảm bảo tính khách quan và chính xác việc đánh giá về một giảng viên trong kỳ đó hoàn thành nhiệm vụ ở mức độ nào lại cần xem xét từ nhiều khía cạnh như kết quả từ khảo sát ý kiến phản hồi của sinh viên về hoạt động giảng dạy, đánh giá của lãnh đạo khoa về giảng viên, của lãnh đạo nhà trường…Có một vấn đề đặt ra đó

là, có rất nhiều dữ liệu để đánh giá về giảng viên trong học kỳ

Từ những vấn đề trên, tích hợp dữ liệu cần được đưa ra để giải quyết bài toán trên nhằm quản lý và phân tích dữ liệu khi cần thiết

3.2 Môi trường cài đặt phục vụ thực nghiệm

Để chuẩn bị môi trường phục vụ thực nghiệm cho luận văn, tôi thực hiện cài đặt các phần mềm được liệt kê trong bảng sau

Trang 14

STT Tên phần mềm, công cụ Mục đích

1 Python 3.9 Sử dụng ngôn ngữ lập trình python và các

thư viện python để thực hiện làm sạch dữ liệu

2 Java 8 Môi trường để chạy các ứng dụng Java

Quy trình thực hiện thực nghiệm gồm các bước như sau:

Hình 3.1: Quy trình thực hiện thực nghiệm

• Cài đặt môi trường, công cụ

Trang 15

3.3.1 Chuẩn bị dữ liệu

Dữ liệu đầu vào để tiến hành thực nghiệm gồm 2 phần:

CSDL Khảo sát sinh viên: Là CSDL lưu thông tin sinh viên và các thông tin khảo sát sinh viên/cựu sinh viên dùng cho mục đích đánh giá, đảm bảo chất lượng

Thông tin khảo sát sinh viên: Kết quả khảo sát sinh viên từ file, cloud form,…

(a) Chuẩn bị CSDL Khảo sát sinh viên

Thiết kế Cơ sở dữ liệu “Khảo sát sinh viên” để chứa các dữ liệu khảo sát, đánh giá về chất lượng giảng dạy với trình tự thực hiện như sau:

Thiết kế sơ đồ thực thể

Tạo CSDL và các bảng trên hệ quản trị CSDL SQL Server 2019

Thiết kế luồng ETL để đồng bộ thông tin sinh viên từ kho CSDL của trường Đại học Đại Nam đến CSDL Khảo sát sinh viên

Thiết kế sơ đồ thực thể liên kết giữa các bảng trong CSDL Khảo sát sinh viên như hình sau

Hình 3.2: Sơ đồ liên kết thực thể trong CSDL Khảo sát sinh viên

Ngày đăng: 15/04/2022, 11:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w