Tổng quan về ứng dụng dữ liệu lớn Big Data trong hoạt động của cơ quan nhà nước Trong những năm gần đây, Dữ liệu lớn Big Data là một trong số các lĩnh vực của công nghệ thông tin CNTT đa
Trang 1Tổng quan về ứng dụng dữ liệu lớn (Big Data) trong hoạt động của cơ quan nhà nước
Trong những năm gần đây, Dữ liệu lớn (Big Data) là một trong số các lĩnh vực của công nghệ thông tin (CNTT) đang và sẽ có tầm ảnh hưởng rộng khắp Trong doanh nghiệp, dữ liệu lớn đã được khai thác sử dụng phục vụ việc dự đoán xu hướng thị trường, nâng cao chất lượng sản phẩm hoặc dịch vụ hiện có, tạo ra sản phẩm mới hoặc tìm hiểu về hành vi khách hàng Trong cơ quan nhà nước, việc khai thác sử dụng dữ liệu lớn cũng là xu thế của Chính phủ nhiều nước để phục vụ công tác quản lý và nâng cao chất lượng phục vụ người dân và doanh nghiệp Bài viết này sẽ giới thiệu tổng quan về việc triển khai khai thác sử dụng dữ liệu lớn trong hoạt động của cơ quan nhà nước
Khái niệm dữ liệu lớn
Theo Công ty IBM, dữ liệu lớn được xác định theo 3 chiều là Khối lượng (Volume), Tốc độ cập nhật (Velocity) và Đa dạng (Variety) Trong đó, Khối lượng chỉ độ lớn của dữ liệu ở mức terabytes trở lên; Tốc độ cập nhật chỉ tính chất chuyển động liên tục của dòng dữ liệu rất lớn cần xử lý, xử lý dòng dữ liệu động theo thời gian; Đa dạng chỉ tất cả loại dữ liệu từ
dữ liệu có cấu trúc tới dữ liệu phi cấu trúc như văn bản, âm thanh, hình ảnh, video, dữ liệu cảm biến, dữ liệu nhật ký (log files),
Theo Công ty Gartner, dữ liệu lớn là thông tin, dữ liệu có độ lớn cao, tốc độ cập nhật nhanh và có độ đa dạng lớn đòi hỏi phải có phương thức xử lý mới để giúp các cơ quan
có thể đưa ra các quyết định nâng cao, khám phá ra các nội dung sâu sắc bên trong và tối
ưu hóa quy trình
Theo ITU, bên cạnh các đặc tính trên, dữ liệu lớn còn thêm đặc tính Sự chính xác (Veracity) Dữ liệu lớn có xu hướng giữ rất nhiều sự không chắc chắn do dữ liệu không thống nhất, không đầy đủ, không rõ ràng và có độ trễ Sự chính xác thể hiện chất lượng
và nguồn gốc dữ liệu, thể hiện qua các thuộc tính: tính nhất quán, tính đầy đủ, tính toàn vẹn, tính đa nghĩa Độ chính xác của kết quả phân tích dữ liệu lớn phụ thuộc vào sự chính xác của các dữ liệu gốc thu được
Như vậy, hiểu một cách tổng quát, dữ liệu lớn là các tập dữ liệu rất lớn và/hoặc rất phức tạp đòi hỏi phải có phương thức xử lý mới để đem lại lợi ích cao cho cơ quan
Vai trò của của dữ liệu lớn trong các cơ quan nhà nước
Ngày nay, các cơ quan nhà nước ngày càng thu thập được khối lượng lớn dữ liệu từ nhiều nguồn như điều tra thống kê, tiếp nhận, xử lý dịch vụ trực tuyến, các dữ liệu này theo thời gian sẽ trở thành kho dữ liệu lớn của các cơ quan Việc khai thác sử dụng dữ liệu lớn trong cơ quan nhà nước sẽ ngày càng có vai trò quan trọng phục vụ cho hoạt động của cơ quan nhà nước, một số lợi ích chính như sau:
Hỗ trợ việc ra quyết định nhanh hơn: Qua việc xác định được các xu thế và khám phá ra các nội dung sâu sắc bên trong của dữ liệu, các cơ quan sẽ cải thiện được
Trang 2việc ra quyết định Đồng thời qua việc xử lý, phân tích dữ liệu được tạo ra trong thời gian thực, việc ra quyết định của các cơ quan sẽ nhanh hơn
Nâng cao kết quả công việc: Khai thác dữ liệu lớn mang lại khả năng dự đoán kết quả và các kịch bản có thể xảy ra từ đó giúp việc giải quyết công việc được hiệu quả hơn
Xác định và giảm thiểu sự không hiệu quả: Bằng cách khai thác dữ liệu lớn được tạo
ra trong quá trình xử lý, các cơ quan có thể tìm ra các khâu không cần thiết của quy trình xử lý hiện tại, từ đó giúp cho việc cải tiến quy trình được hiệu quả hơn
Loại bỏ được sự vô dụng, gian lận và lạm dụng: Bằng cách xác định được các khâu không hiệu quả, các cơ quan có thể loại bỏ được các khâu xử lý thừa, các nhân viên, đối tác hay khách hàng gian lận, lạm quyền
Nâng cao năng suất: Với những công cụ tốt, những cán bộ bình thường cũng có thể làm việc với các tập dữ liệu lớn để tìm kiếm thông tin, đưa ra các quyết định tốt hơn cho công việc được giao
Nâng cao việc phục vụ và tính minh bạch: Với việc quản lý và xử lý dữ liệu lớn một cách đúng đắn, các cơ quan có thể cung cấp thông tin cho các công chúng một cách rộng rãi Điều này giúp cho người dân hiểu được những thông tin nào được chính phủ thu thập Việc xử lý, chia sẻ dữ liệu lớn cũng cho phép các cơ quan cung cấp thông tin như một dịch vụ để phục vụ người dân (ví dụ như thông tin về thuế thu nhập, số liệu điều tra thống kê, dữ liệu về thời tiết, )
Giảm tội phạm và các mối đe dọa an ninh: Phân tích dữ liệu lớn là chìa khóa để giúp các cơ quan an ninh xác định được các thông tin ẩn, các thông tin nguy cơ, để từ
đó phát hiện ra các mối đe dọa cụ thể đối với an ninh
Thách thức, rào cản trong việc triển khai ứng dụng dữ liệu lớn
Bên cạnh các lợi ích thu được từ dữ liệu lớn, việc khai thác sử dụng dữ liệu lớn cũng tồn tại những thách thức, rào cản nhất định Một số rào cản chính là:
Bảo vệ dữ liệu, tính riêng tư và an ninh mạng:
Tính riêng tư là vấn đề nhạy cảm nhất, bao gồm cả về nguyên tắc, pháp lý và công nghệ triển khai Việc khai thác sử dụng dữ liệu lớn nhiều khi phải đối mặt với vấn đề bảo vệ dự liệu và bảo vệ sự riêng tư cá nhân Dữ liệu lớn cho phép theo dõi sự chuyển động, hành vi
và sở thích của người dân, qua đó có thể dự đoán hành vi của một cá nhân với độ chính xác cao mà không cần sự đồng ý của cá nhân Ví dụ như việc lưu trữ hồ sơ sức khỏe theo thời gian thực của một người dân có thể giúp đoán chính xác đơn thuốc, kế hoạch ăn kiêng hay chế độ tập luyện của người này, tuy nhiên các dữ liệu cá nhân này được nhiều người biết, khai thác và sử dụng thì lại là một vấn đề nhạy cảm
Một vấn đề liên quan nữa tới dữ liệu lớn là vấn đề an ninh mạng Trong bối cảnh nguy cơ
an toàn an ninh thông tin mạng ngày càng gia tăng như hiện nay, việc bảo vệ an toàn mạng là rất quan trọng Các giải pháp kỹ thuật (ví dụ như mã hóa, mạng riêng ảo, tường
Trang 3lửa, giám sát mối đe dọa, kiểm toán an toàn) có thể giúp cho việc quản lý bảo mật dữ liệu
và giảm thiểu các rủi ro an ninh có thể xảy ra Tuy nhiên với dữ liệu lớn, các mối đe dọa
và rủi ro cần phải được đánh giá lại theo quan điểm của dữ liệu lớn để phù hợp với giải pháp kỹ thuật tương ứng, đồng thời phải xem sửa đổi lại các chính sách bảo mật thông tin, bảo vệ tính riêng tư, bảo vệ dữ liệu
Quản lý và chia sẻ dữ liệu:
Một thách thức đối với việc sử dụng dữ liệu lớn là sự miễn cưỡng của các cơ quan trong việc chia sẻ dữ liệu về khách hàng, người dùng cũng như các thông tin về hoạt động của
cơ quan Những trở ngại bao gồm cả khía cạnh pháp lý hoặc uy tín, nhu cầu để bảo vệ khả năng cạnh tranh của cơ quan, văn hóa bí mật cũng như việc thiếu cấu trúc thông tin Bên cạnh đó cũng có những thách thức về kỹ thuật - khi dữ liệu được lưu trữ ở nhiều nơi với nhiều cách thức khác nhau làm cho việc truy cập và chia sẻ dữ liệu rất khó khăn
Phân tích dữ liệu lớn
Việc khai thác, phân tích dữ liệu lớn hiện nay cũng còn nhiều thách thức Những thách thức trong phân tích dữ liệu lớn có thể được chia thành ba loại: (1) Nhận diện được hình ảnh đúng, nghĩa là tóm tắt được dữ liệu; (2) Giải thích, hoặc tạo ra được ý nghĩa của dữ liệu thông qua các suy luận; (3) Xác định và phát hiện ra các dị thường
Thay lời kết
Qua thực tế, các chuyên gia, tổ chức nghiên cứu đều xác định, mặc dù còn nhiều thách thức, nhưng việc khai thác tốt dữ liệu lớn thu được qua các cơ quan cung cấp dịch vụ công sẽ giúp chính phủ làm cho các hoạt động/công việc hiện của mình tại được rẻ hơn, tốt hơn và có thể làm thêm được nhiều việc mới mà hiện tại không làm được, từ đó giúp các cơ quan nâng cao hiệu quả quản lý, tiết kiệm ngân sách, xác định được các mặt còn hạn chế, nâng cao hiệu quả và chất lượng phục vụ người dân và doanh nghiệp Bên cạnh
đó việc khai thác sử dụng tốt dữ liệu lớn còn góp phần vào việc bảo vệ môi trường, đảm bảo an toàn, an ninh xã hội
Tài liệu tham khảo:
[1] GanG-hoon Kim, siLVana tRimi, anD Ji-hYonG chunG, Big Data applications in the
Government sector, Communications of the ACM, Vol 57, No 3, 3/2014.
[2] Raj Nigam, Saurabh Srivastava, Government and Big Data for Policy Making, 2/2015 [3] ITU, Big Data: Big today, normal tomorrow, ITU-T Technology Watch Report, 11/2013 [4] UN Global Pulse, Big Data for Development: Challenges & Opportunities, 5/2012