Ứng dụng Dữ liệu lớn góp phần hỗ trợ đắc lực trong quản lý thư viện bao gồm quản lý, tối ưu hóa nguồn lực thông tin, quản trị cơ sở dữ liệu người dùng tin, thống kê, kiểm tra, đánh giá[r]
Trang 1Trung tam Thong tin Thu vien, DHQGHN
Hoàng Văn Dưỡng
Tóm tắt: Khái lược về Dữ liệu lớn (Big Data), phân tích các đặc trưng
cơ bản của dữ liệu lớn; khái niệm thư viện thông minh Các phân tích, gợi ý, đề xuất về ứng dụng dữ liệu lớn trong các hoạt động của các thư viện như: Chia sẻ/liên thông nguồn lực thông tin; cung cấp cho người dùng tin các sản phẩm, dịch vụ thông tin nhanh chóng, tiện lợi, thân thiện, thông minh; truyền thông, quảng bá, marketing thông tin-thư viện
và quản lý thư viện thông minh.
Từ khóa: Dữ liệu lớn; Big Data; Thư viện thông minh.
Đặt vấn đề
“Cuộc cách mạng công nghiệp lần thứ tư (CMCN 4.0) đang nảy
nở từ cuộc cách mạng lần thứ ba, nó kết hợp các công nghệ lại với nhau, làm mờ ranh giới giữa vật lý, kỹ thuật số và sinh học” Klaus Schwab, người sáng lập và Chủ tịch điều hành Diễn đàn Kinh tế Thế giới định nghĩa [4]
Điểm khác biệt của cuộc CMCN 4.0 so với các cuộc cách mạng công nghiệp trước đây, đó là CMCN 4.0 không gắn với sự ra đời của một công nghệ nào cụ thể mà là kết quả hội tụ của nhiều công nghệ khác nhau, trong đó trọng tâm là công nghệ nano, công nghệ sinh học
và công nghệ thông tin - truyền thông Nó sẽ diễn ra trên ba lĩnh vực chính gồm Công nghệ sinh học, Kỹ thuật số và Vật lý Nền tảng của Kỹ thuật số trong CMCN 4.0 sẽ là: Trí tuệ nhân tạo (AI), Vạn vật kết nối (IoT) và dữ liệu lớn (Big Data)
* Thạc sĩ, Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà Nội.
Trang 2Trung tam Thong tin Thu vien, DHQGHN
Dữ liệu lớn, phân tích dữ liệu lớn (Big Data Analyst) là yếu tố cốt lõi
để sử dụng và phát triển Vạn vật kết nối (IoT) và Trí tuệ nhân tạo (AI) Chúng ta đã từng tiếp cận công nghệ nhận dạng chữ viết tay, nhận dạng giọng nói; hay “trò chuyện” với các “trợ lý ảo” như Siri của Apple, Cortana của Microsoft, Google Assistant,… thông qua những câu nói tưởng chừng như bình thường, các trợ lý này có thể “học” và nắm bắt tâm trạng, ý muốn của người dùng để đưa ra những đề nghị, hành động hợp lý Khi hoạt động, AI cần rất nhiều thông tin để nhận biết chính xác, đầy đủ những điều kiện thực tế môi trường xung quanh, yêu cầu công việc,… thông qua quá trình “máy học”, AI đưa ra quyết định hành động chuẩn xác Những dữ liệu này phải đến từ rất nhiều cảm biến, các hệ thống phụ trợ Các thông tin này cần phải được lưu trữ và phân tích xử
lý, lượng thông tin, dữ liệu càng nhiều AI sẽ hoạt động càng chính xác thậm chí có khả năng tư duy, suy luận như dự báo thời tiết, động đất, núi lửa [3]
Trong một cuộc cách mạng ngang tầm với Internet hoặc thậm chí lớn hơn, Dữ liệu lớn sẽ tác động mạnh mẽ, làm thay đổi trên nhiều lĩnh vực như kinh doanh, y tế, chính trị, giáo dục… và đặc biệt là các hoạt động trong lĩnh vực thông tin - thư viện Nó tạo cơ hội phát triển và cũng đặt ra những thách thức, từ tính bảo mật thông tin cá nhân cho đến rủi ro vì những thứ chúng ta thậm chí còn chưa làm, dựa trên khả năng của Dữ liệu lớn có thể dự đoán được hành vi tương lai của chúng ta
1 Khái niệm về Dữ liệu lớn
Theo Wikipedia Dữ liệu lớn “là một thuật ngữ cho việc xử lý một
tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được” Tác giả (McGuire, 2012) mô tả đơn
giản “dữ liệu lớn” như những kho chứa dữ liệu lớn (Large pools of data) [2] Trong khi đó, Viện Nghiên cứu toàn cầu McKinsey (McKinsey
Global Institute-MGI) cũng đưa ra định nghĩa “đó là dữ liệu có độ lớn
vượt quá khả năng các công cụ phần mềm cơ sở dữ liệu tiêu biểu có thể nắm bắt, lưu trữ, quản trị và phân tích” Nhưng có lẽ định nghĩa được
chấp nhận rộng rãi là của nhà phân tích Doug Laney của hãng META
Trang 3Trung tam Thong tin Thu vien, DHQGHN
Group (giờ là công ty nghiên cứu Gartne, 2013), theo đó dữ liệu lớn
là “ các tài sản thông tin có dung lượng lớn, vận tốc cao và/hoặc đa
dạng cao đòi hỏi các hình thức xử lý thông tin có hiệu quả về chi phí để nâng cao việc đưa ra quyết định và tối ưu hóa quy trình” [2]
Dữ liệu lớn có thể chuyển vô số - từ giá vé máy bay đến văn bản của hàng triệu cuốn sách - thành dạng có thể tìm kiếm, khai thác và sử dụng sức mạnh tính toán ngày càng tăng để khám phá ra những điều chúng ta chưa bao giờ có thể nhìn thấy trước [13]
Nhìn chung, chúng ta có thể hiểu Dữ liệu lớn như một tập dữ liệu rất lớn không thể phân tích được bằng các công cụ và phần mềm thông thường Hơn thế nữa, dữ liệu lớn yêu cầu phải có năng lực xử lý đáng kể (như một siêu máy tính); bao gồm nhiều loại dữ liệu như văn bản, hình ảnh, video; có thể qua nhiều nền tảng dữ liệu như mạng xã hội, các tệp nhật ký web, cảm biến, dữ liệu vị trí từ điện thoại thông minh, các tài liệu được số hóa Dữ liệu lớn ngày càng tăng, đòi hỏi tăng cường khả năng tính toán và các công cụ phân tích mới
2 Đặc trưng của Dữ liệu lớn
Theo khái niệm mới về Dữ liệu lớn - Big Data (2014) của Gartner
về mô hình “5Vs”, năm đặc trưng quan trọng là:
+ Số lượng lưu trữ (Volume): là tập hợp dữ liệu có dung lượng lưu
trữ vượt mức đảm đương của những ứng dụng và công cụ truyền thống Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì
nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) có thể lớn hơn lên đến exabyte hoặc zettabyte chỉ cho một tập hợp dữ liệu Theo báo cáo năm 2015 của Deloitte (tổ chức chuyên về tư vấn doanh nghiệp, kiểm toán và dịch vụ tài chính lớn nhất thế giới) ước tính mỗi phút có 300 giờ video được tải lên YouTube; Google xử lý trung bình 2,4 triệu yêu cầu tìm kiếm; mỗi ngày cả thế giới gửi và nhận 294 tỉ email, 1 tỉ chia sẻ nội dung trên Facebook, 200 triệu ‘tweets’ (chia sẻ nội dung ngắn) trên Twitter Và chắc chắn tại thời điểm hiện tại, các số liệu này đã tăng lên [8]
Trang 4Trung tam Thong tin Thu vien, DHQGHN
+ Tốc độ xử lý (Velocity): Dung lượng gia tăng của dữ liệu rất
nhanh và tốc độ xử lý đang tiến tới thời gian thực (real-time) Các ứng dụng phổ biến trên lĩnh vực Tài chính, Ngân hàng, Giao thông, Hàng không, Quân sự, Y tế - Sức khỏe, Giáo dục ngày hôm nay phần lớn
dữ liệu lớn được xử lý real-time Công nghệ xử lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu
+ Đa dạng chủng loại (Variety): Hình thức lưu trữ và chủng loại dữ
liệu ngày một đa dạng hơn Trước đây chúng ta hay nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, voice ) [11] Công nghệ Dữ liệu lớn cho phép liên kết và phân tích đa dạng chủng loại dữ liệu với nhau
Hình 1: Mô hình 5Vs đặc trưng của Dữ liệu lớn [10]
+ Độ chính xác (Veracity): Một trong những tính chất phức tạp
nhất của Big Data là độ chính xác của dữ liệu Với xu hướng truyền thông xã hội (Social Media) và mạng xã hội (Social Network) ngày nay cùng sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng
Trang 5Trung tam Thong tin Thu vien, DHQGHN
Mobile làm cho bức tranh xác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Dữ liệu lớn
+ Giá trị thông tin (Value): Giá trị thông tin là tính chất, đặc điểm
quan trọng nhất của Dữ liệu lớn Phải hoạch định, xem xét được những giá trị thông tin hữu ích của Dữ liệu lớn mang lại như thế nào, khi đó mới quyết định triển khai Dữ liệu lớn
Một số nhà phân tích Dữ liệu còn bổ sung các đặc điểm khác của dữ liệu lớn (các chữ V khác) như: Biến đổi (Variability), Hợp lệ (Validity), Lỗ hổng (Vulnerability), Biến động (Volatility), Biểu diễn (Visualization) [10]
Dữ liệu lớn khác với dữ liệu truyền thống ở các đặc điểm: i) Dữ liệu đa dạng hơn; ii) Lưu trữ dữ liệu lớn hơn; iii) Truy vấn nhanh hơn; iv) Độ chính xác cao hơn
3 Ứng dụng Dữ liệu lớn cho thư viện thông minh
Thư viện thông minh được hiểu như cách tiếp cận theo từng “ngữ cảnh” [13]; nếu trước đây, các hoạt động trong thư viện đều thủ công; với sự xuất hiện của máy tính thế hệ đầu, phần mềm CDS/ISIS để biên mục và tra cứu tài liệu in; khi đó thư viện đã “thông minh” hơn giai đoạn trước
Trong bối cảnh cuộc CMCN 4.0, thư viện thông minh được phát triển trên nền tảng Kỹ thuật số hiện đại như: Kết nối vạn vật; Trí tuệ nhân tạo; Dữ liệu lớn; Điện toán đám mây Thư viện thông minh cung cấp cho người dùng tin các sản phẩm và dịch vụ thư viện (gồm không gian vật lý và không gian số) nhanh chóng, tiện lợi, thân thiện, thông minh Được hệ thống công nghệ trí tuệ nhân tạo hỗ trợ tối đa, người dùng tin tương tác với thư viện thông minh như giao tiếp với người thực sự
Trong thư viện thông minh nhấn mạnh vai trò trung tâm/chính của các dịch vụ thông tin và người dùng tin, đề cao tính tương tác [13] Mục đích chính của một thư viện thông minh là sử dụng công nghệ
Trang 6Trung tam Thong tin Thu vien, DHQGHN
thông tin hiện đại, thông minh để “thỏa mãn” các yêu cầu thông tin của người dùng
Dữ liệu lớn và phân tích Dữ liệu lớn sẽ đóng vai trò cốt lõi, nền tảng của ứng dụng IoT, AI đối với mọi hoạt động trong đời sống xã hội, kinh tế và thư viện thông minh cũng không là ngoại lệ
Hình 2: Robot trả sách chuyên dụng tại thư viện thông minh
̉ Singapore [5]
3.1 ́ng dụng Dữ liệu lớn trong tích ḥp/liên thông/chia s̉ ngùn lực thông tin (thư viện số d̀ng chung)
Dữ liệu trong Dữ liệu lớn được phân loại bao gồm:
- Dữ liệu có cấu trúc (structured database): có nghĩa là cơ sở dữ liệu được định hình theo một cấu trúc xác định từ trước Cơ sở dữ liệu có cấu trúc được xây dựng sẽ dễ dàng quản lý và truy cập thông tin
- Dữ liệu phi cấu trúc (unstructured database): là cơ sở dữ liệu không được xác định cấu trúc thông tin từ trước Các thành phần của
cơ sở dữ liệu không có đặc điểm chung Có thể hình dung cơ sở dữ liệu này là tập hợp các thông tin, dữ liệu bao gồm: thư điện tử, dữ liệu ảnh, video, âm thanh, các bài viết,… Dữ liệu phi cấu trúc có mặt ở khắp mọi nơi và được sản sinh ra từ các nguồn khác nhau Để quản lý, dữ liệu phi
Trang 7Trung tam Thong tin Thu vien, DHQGHN
cấu trúc cần được chuyển đổi thành dữ liệu có cấu trúc qua quá trình chuẩn hóa
- Dữ liệu bán cấu trúc (semi-structured database): thường là dữ liệu
có cấu trúc nhưng không đồng nhất Cấu trúc của dữ liệu phụ thuộc vào chính nội dung của dữ liệu ấy
Dữ liệu trong thư viện thông minh có thể là các dữ liệu có cấu trúc hoặc phi cấu trúc thậm chí là bán cấu trúc như thành phần dữ liệu trong
Dữ liệu lớn Nguồn lực thông tin của thư viện, ngoài tài liệu in truyền thống còn có các tài liệu/bộ sưu tập số: i) Tài nguyên điện tử, xuất bản điện tử (E-resources); ii) Tài nguyên số nội sinh (Digital Repository); iii) Học liệu/bài giảng điện tử (e-Learning); iv) Cơ sở dữ liệu sách, tạp chí điện tử miễn phí/trả phí (Database); v) Tài nguyên mở (Open Resources) Các dữ liệu/bộ sưu tập sẽ được tích hợp dữ liệu ‘Mash-up’ [14] trong mỗi thư viện hoặc giữa các thư viện trong nhóm/liên hiệp/ quốc gia; hoặc có thể tích hợp dữ liệu của thư viện với các hệ thống dữ liệu khác
- Thông qua Dữ liệu lớn, thư viện thông minh tích hợp/liên kết/chia
sẻ nhiều dữ liệu thuộc các lĩnh vực khác nhau nhằm đảm bảo cung cấp thông tin đa dạng, tiện ích, nhanh chóng và thông minh nhất (ví dụ Dữ liệu lớn giúp Thư viện công cộng có thể tích hợp cơ sở dữ liệu thông tin về thủ tục hành chính, văn hóa, du lịch, kinh tế, ngân hàng tại địa phương/vùng/miền; hoặc thư viện đại học có thể tích hợp cơ sở dữ liệu
về khóa học, chương trình, môn học, việc làm, hỗ trợ khởi nghiệp )
- Trong các thư viện có thể liên kết/chia sẻ/kết nối nguồn lực thông tin, hình thành Dữ liệu lớn về nguồn tin trong quốc gia/ nhóm/liên hiệp; hoặc ở mức đơn giản là mục lục liên hợp quốc tế, quốc gia hoặc các nhóm/liên hiệp thư viện:
+ Đối với các CSDL/Bộ sưu tập tài nguyên số nội sinh, ở mức độ đơn giản là tạo lập một “Mục lục liên hợp Thư viện số chung” của các thư viện cả nước/vùng/hệ thống/nhóm tùy theo mức độ và chính sách
Trang 8Trung tam Thong tin Thu vien, DHQGHN
Thư viện số đại học dùng chung là sáng kiến của VNU - LIC với
sự tham gia của 28 thư viện trường đại học trong cả nước thống nhất kết nối/chia sẻ (bước đầu) là “Mục lục liên hợp Thư viện số dùng chung” Tiếp sau là kết nối/chia sẻ dữ liệu toàn văn và tích hợp dữ liệu người dùng tin [12]
+ Đối nguồn tin trong nước, quốc tế: Sách, báo, tạp chí khoa học (mua/tài trợ); cơ sở dữ liệu sách, tạp chí khoa học điện tử (miễn phí và trả phí) Tạo lập một cơ sở dữ liệu điện tử dùng chung Đây là điều
mà các thư viện thông minh đều hướng tới bởi tính cập nhật, đầy đủ, tiết kiệm kinh phí cũng như khả năng chia sẻ và khai thác sử dụng cao Liên hiệp chia sẻ nguồn tin Khoa học công nghệ và kỹ thuật - STE Consortium được liên kết bởi 22 trường đại học khối kỹ thuật với chủ tịch là Trường Đại học Bách khoa Hà Nội Liên hiệp trên đã cùng
bổ sung và chia sẻ các nguồn tin CSDL điện tử chuyên ngành phục vụ hoạt động học tập và nghiên cứu khoa học của người dùng tin cũng như tạo sự gắn kết, trao đổi thông tin giữa các thư viện trong khối [9] + Dữ liệu lớn hỗ trợ mạnh mẽ cho các liên kết/tích hợp nguồn tin truy cập mở, tài nguyên mở cho người dùng tin
Thông qua liên kết/chia sẻ/kết nối nguồn lực thông tin nhằm tạo lập Dữ liệu lớn dùng chung Người dùng tin trong thư viện thông minh
có thể truy cập/tìm kiếm/khai thác đơn giản và thuận lợi hơn tới bất cứ tài nguyên thông tin số nào trong thư viện thành viên Liên kết/chia sẻ xóa mờ ranh giới giữa các thư viện độc lập Người dùng tin đều có sự bình đẳng trong truy cập và khai thác nguồn tài nguyên thông tin
- Ứng dụng Dữ liệu lớn trong thư viện thông minh còn có thể hỗ trợ, kiểm soát các hành vi, chỉ rõ các tài liệu “đạo văn” Hiện nay, để thực hiện bản quyền và đạo đức trong nghiên cứu, các thư viện đã có hệ thống phần mềm chống “đạo văn”; Tuy nhiên, hệ thống phần mềm sẽ chỉ kiểm tra trùng lặp tại các dữ liệu đơn lẻ trong phạm vi nội bộ Ứng dụng Dữ liệu lớn sẽ phát hiện trùng lặp, “đạo văn” trong toàn bộ dữ liệu
đã được tích hợp theo quy mô, phạm vi dữ liệu tích hợp/liên kết
Trang 9Trung tam Thong tin Thu vien, DHQGHN
- Thư viện thông minh xây dựng cơ sở dữ liệu người dùng tin không chỉ dừng ở thư viện đơn lẻ; ứng dụng Dữ liệu lớn sẽ hỗ trợ xây dựng cơ sở dữ liệu người dùng tin tích hợp liên hiệp/nhóm thư viện thậm chí quốc gia, khu vực và quốc tế Tùy theo chính sách, người dùng tin có thể được sử dụng các sản phẩm, dịch vụ tại tất cả các thư viện
3.2 ́ng dụng Dữ liệu lớn trong cung cấp các sản ph̉m, dịch vụ thông tin nhanh chóng, tiện ḷi, thân thiện, thông minh cho ngừi d̀ng tin
Ngày nay “Hiển diện số” [16] đã trở nên phổ biến, 80% dân số hiển diện số trên Internet Giờ đây hiển diện số của con người được nhìn nhận như tương tác số cá nhân họ trên nhiều nền tảng và ứng dụng trực tuyến Nhiều người có nhiều hơn một hiển diện số như trang Facebook, tài khoản Twitter, hồ sơ LinkedIn, Blog Tumblr, tài khoản Instagram và còn nhiều hơn thế
- Các dữ liệu phi cấu trúc về người dùng tin như thư điện tử, dữ liệu ảnh, video, âm thanh/giọng nói; comments/post của một cá nhân/ nhóm người dùng trên Facebook với thông tin video được chia sẻ từ Youtube, Twitter được ghi nhận, cảm biến lưu vết; đồng thời được phân tích (Data Analyse) Thư viện thông minh sẽ có dữ liệu cá nhân, thói quen, sở thích, lịch sử truy cập, tìm kiếm, khai thác thông tin, nghiên cứu, học tập của người dùng tin Người dùng tin sử dụng các dịch vụ thư viện không cần phải xuất trình thẻ Với công nghệ sinh trắc học (Quét mống mắt, nhận diện khuôn mặt, giọng nói, vân tay ) [16]
và hồ sơ phân tích dữ liệu đầy đủ của người dùng tin, thư viện thông minh sẽ tự động nhận diện người dùng tin, đồng thời sẽ cung cấp các dịch vụ thông tin nhanh chóng, tiện ích mang tính tương tác cao theo thói quen, sở thích thậm chí là gợi ý (chính xác hoặc tương tự) các loại/ chủ đề tài liệu mà người dùng tin quan tâm
- Bằng cách phân tích dữ liệu đến từng cá nhân người dùng tin, hệ thống Dữ liệu lớn tạo dữ liệu hồ sơ của người đọc, sở thích, thời gian học tập của cá nhân cho các chủ đề khác nhau, dữ liệu riêng tư và nhiều
dữ liệu khác Khi một người dùng tin bắt đầu tìm kiếm, khai thác nghiên
Trang 10Trung tam Thong tin Thu vien, DHQGHN
cứu một chủ đề, hệ thống sẽ tìm kiếm cơ sở dữ liệu cho người dùng tin với các nội dung tương tự Thông qua lịch sử nghiên cứu, học tập của những người dùng tin tương tự, hệ thống có thể ước tính thời gian để người dùng tin hoàn thành chủ đề, tài liệu nào của thư viện thông minh
có thể hữu ích cho người dùng, hỗ trợ của các thư viện khác sẽ hữu ích cho người dùng tin
- Dữ liệu lớn hỗ trợ các dịch vụ thư viện thông minh hướng tới người dùng tin có thể tìm kiếm, khai thác thông tin, sử dụng thư viện số trên các thiết bị di động (mọi nơi, mọi lúc)
- Dữ liệu lớn mang nhiều cơ hội cho thư viện thông minh giúp thấu hiểu người dùng tin hơn qua các kênh tương tác Thư viện thông minh đảm bảo tính liền mạch của những tương tác với người dùng tin Thông qua việc phân tích dữ liệu về người dùng tin ở nhiều cấp độ tương tác khác nhau như điện thoại, website, hỗ trợ trực tuyến, quầy dịch vụ thông tin thư viện có thể xác định/đánh giá dịch vụ thông tin cung cấp
có làm hài lòng/thỏa mãn người dùng tin và họ đang chia sẻ, nhận xét
gì về dịch vụ thông tin [15]
- Dữ liệu lớn cùng với hệ thống hỗ trợ sẽ giúp người dùng tin tiếp cận, sử dụng ứng dụng trong trích dẫn; gợi ý đọc bài báo và xu hướng nghiên cứu dựa trên mức độ sử dụng và di chuyển trong các nguồn thông tin nghiên cứu cấp độ toàn cầu trong môi trường điện toán đám mây (Hot article)
- Thông qua Dữ liệu lớn, thư viện có thể phát triển số lượng người dùng tin trực tuyến, và tham gia vào việc cung cấp các khóa e-learning không bị giới hạn về thời gian và địa điểm sinh sống/học tập/nghiên cứu Người dùng tin có nhu cầu ngày càng tăng về tốc độ, đầy đủ và sự sẵn có ngay tức thì khả năng phát hiện, truy cập thông tin tại một điểm duy nhất tới mọi dịch vụ thông tin tích hợp (không chỉ trong phạm vi/ giới hạn của thư viện), khả năng cá nhân hóa dịch vụ, quy trình chuyển giao thông tin/tài liệu ngay tới màn hình người dùng Dữ liệu lớn cùng các công nghệ hỗ trợ sẽ giúp thư viện thông minh đáp ứng yêu cầu trên nhanh chóng, thông minh