Để sử dụng một định dạng chuẩn như là SDMX-EDI hoặc SDMX-ML có thể thỏa thuận song phương; trong các quá trình trao đổi bằng cổng, người gửi có thể sử dụng một định dạng chuẩn để trao đổ
Trang 1Công ty luật Minh Khuê www.luatminhkhue.vn
TIÊU CHUẨN QUỐC GIA TCVN 7981-1 : 2008 ISO/TS 17369 - 1: 2005
TRAO ĐỔI SIÊU DỮ LIỆU VÀ DỮ LIỆU THỐNG KÊ - PHẦN 1: KHUNG TỔNG QUÁT VỀ CÁC TIÊU
CHUẨN SDMX
Statistical data and metadata exchange - Section 1: Framework for SDMX standards
Lời nói đầu
TCVN 7981-1 : 2008 hoàn toàn tương đương với ISO 17369 - 1 : 2005
TCVN 7981-1 : 2008 do Ban Kỹ thuật Tiêu chuẩn quốc gia TCVN/TC 154 "Quá trình, các yếu tố dữ
liệu và tài liệu trong thương mại, công nghiệp và hành chính" biên soạn, Tổng cục Tiêu chuẩn Đo
lường Chất lượng đề nghị, Bộ Khoa học và Công nghệ công bố
Bộ tiêu chuẩn TCVN 7981 Trao đổi siêu dữ liệu và dữ liệu thống kê gồm các phần sau:
- TCVN 7981-1 : 2008 (ISO/TS 17369 - 1: 2005); Phần 1:Khung tổng quát về các tiêu chuẩn SDMX
- TCVN 7981-2 : 2008 (ISO/TS 17369 - 2 : 2005); Phần 2: Mô hình thông tin: Thiết kế khái niệm UML
Bộ tiêu chuẩn ISO/TS 17369 :2005 còn các phần sau:
- ISO/TS 17369 : 2005 Section 3: ML schema and documentation (Tài liệu và lược đồ
SDMX-ML).
- ISO/TS 17369 : 2005 Section 4: EDI syntax and documentation (Tài liệu và cú pháp
SDMX-EDI).
- ISO/TS 17369 : 2005 Section 5: An implementer’s guide for SDMX (Hướng dẫn người thực thi
SDMX).
- ISO/TS 17369 : 2005 Section 6: SDMX guideline for use of web services (Hướng dẫn sử dụng các
dịch vụ web trong SDMX).
TRAO ĐỔI SIÊU DỮ LIỆU VÀ DỮ LIỆU THỐNG KÊ - PHẦN 1: KHUNG TỔNG QUÁT VỀ CÁC TIÊU
CHUẨN SDMX
Statistical data and metadata exchange - Section 1: Framework for SDMX standards
1 Giới thiệu
Bộ tiêu chuẩn này được xây dựng dựa trên sáng kiến về trao đổi siêu dữ liệu và dữ liệu thống kê Việc thiết lập các tiêu chuẩn này nhằm tạo thuận lợi cho việc trao đổi siêu dữ liệu và dữ liệu thống kê
sử dụng công nghệ thông tin hiện đại, tập trung chủ yếu vào dữ liệu tập hợp
Đặc tả kỹ thuật SDMX gồm một số phần tài liệu sau:
1 Tiêu chuẩn về mô hình thông tin SDMX: Mô hình thông tin SDMX là mô hình thông tin cơ sở nhằm thực hiện về mặt cú pháp các mô tả trong các phần SDMX khác Tiêu chuẩn này bao gồm các phần tham khảo như: phụ lục, hướng dẫn về UML và hướng dẫn cho người chưa quen với phương pháp
mô tả cấu trúc dữ liệu thống kê bằng tập khóa
2 Tiêu chuẩn về SDMX-EDI: SDMX-EDI là định dạng EDIFACT về trao đổi siêu dữ liệu và dữ liệu có cấu trúc SDMX Tiêu chuẩn này bao gồm các phần quy định mô tả cách thức sử dụng cú pháp của UN/EDIFACT trong các thông điệp SDMX
3 Tiêu chuẩn về SDMX-ML: SDMX-ML là định dạng XML về trao đổi siêu dữ liệu và dữ liệu có cấu trúc SDMX Tiêu chuẩn này gồm các phần quy định mô tả cách thức sử dụng cú pháp XML trong các thông điệp SDMX và được bổ sung bằng tập lược đồ XML và các trường hợp tài liệu XML mẫu
4 Tiêu chuẩn về đặc tả sổ đăng ký SDMX mang tính tham khảo Tiêu chuẩn này cung cấp cho sổ đăng ký chính thông tin về dữ liệu sẵn có và siêu dữ liệu tham chiếu, cùng với kho siêu dữ liệu cấu trúc và thông tin cung cấp Tiêu chuẩn này xác định các dịch vụ cơ bản do sổ đăng ký SDMX đưa ra như: việc đăng ký dữ liệu và siêu dữ liệu, truy vấn về dữ liệu và siêu dữ liệu, đặt hàng/thông báo liên quan đến các cập nhật sổ đăng ký
5 Tiêu chuẩn về hướng dẫn cho người thực hiện SDMX - đây là một cuốn cẩm nang hỗ trợ cho
Trang 2Công ty luật Minh Khuê www.luatminhkhue.vn
người sử dụng các đặc tả của SDMX Nó bao gồm tài liệu tham chiếu về việc sử dụng mô hình thông tin SDMX; một phần mô tả sự khác biệt của các thông điệp và các cú pháp, cung cấp một số phương pháp thực hành hiệu quả nhất về việc gán các thẻ định danh và thiết kế các tập khóa Tiêu chuẩn này mang tính tham khảo
6 Tiêu chuẩn về hướng dẫn sử dụng các dịch vụ web - Đây là một cuốn cẩm nang cho người thực hiện SDMX sử dụng các công nghệ dịch vụ - web (bao gồm một sổ đăng ký SDMX phù hợp) không phụ thuộc vào môi trường phát triển hoặc nền tảng được sử dụng để tạo nên các dịch vụ web đó và các giới thiệu sử dụng đặc tả WS-I phiên bản 1.1 Tiêu chuẩn này mang tính tham khảo
2 Các thay đổi so với phiên bản 1.0
Các thay đổi có thể được tóm tắt ngắn gọn như sau:
Ngoài việc mô tả và đặc tả các cấu trúc và định dạng dữ liệu (cùng với các siêu dữ liệu liên quan), phiên bản 2.0 cũng cung cấp trao đổi siêu dữ liệu khác với siêu dữ liệu cấu trúc trong phiên bản 1.0 Siêu dữ liệu này bao gồm siêu dữ liệu “tham chiếu” (liên quan đến chất lượng dữ liệu, hệ phương pháp và các kiểu tương tự - có thể được định dạng bởi người sử dụng bao gồm mọi khái niệm yêu cầu báo cáo); siêu dữ liệu liên quan đến việc cung cấp dữ liệu (thông tin lịch biểu ấn bản, mô tả dữ liệu và siêu dữ liệu được cung cấp, v.v); và siêu dữ liệu liên quan tới việc trao đổi của các lược đồ phân loại
Thực hiện việc cung cấp dữ liệu trong phiên bản 2.0 chủ yếu đề cập đến truyền thông với các dịch vụ của sổ đăng ký, hỗ trợ mô hình chia sẻ dữ liệu trao đổi thống kê Các dịch vụ này bao gồm việc đăng
ký dữ liệu và siêu dữ liệu, truy vấn dữ liệu và siêu dữ liệu, đặt hàng/thông báo
Việc hỗ trợ trao đổi dữ liệu thống kê và siêu dữ liệu được mở rộng Một số hỗ trợ được cung cấp cho
dữ liệu hạn định, cấu trúc dữ liệu mô tả; danh sách mã phân cấp được hỗ trợ; quan hệ giữa các cấu trúc dữ liệu có thể trình bày, hỗ trợ cho khả năng mở rộng các cấu trúc dữ liệu và mô tả sự phụ thuộc chức năng giữa các khối hộp được hỗ trợ
3 Quá trình và phạm vi áp dụng trong thương mại
3.1 Mẫu quá trình
SDMX định danh 3 mẫu quá trình cơ bản liên quan đến việc trao đổi dữ liệu và siêu dữ liệu thống kê Các mẫu này có thể được mô tả như sau:
1 Trao đổi song phương: Toàn bộ các khía cạnh về quá trình trao đổi được thỏa thuận giữa các đối
tác, bao gồm cơ chế trao đổi dữ liệu và siêu dữ liệu, các định dạng, tần suất hoặc lịch biểu và phương thức truyền thông được sử dụng liên quan đến trao đổi, đây là mẫu quá trình phổ biến nhất
2 Trao đổi bằng cổng: Các trao đổi bằng cổng là một tập các trao đổi song phương, trong đó các tổ
chức hoặc cá nhân gửi dữ liệu và siêu dữ liệu đồng ý trao đổi các thông tin thu thập với nhau ở định dạng đơn nhất đã biết theo một quá trình đơn nhất biết trước Mẫu này có tác dụng giảm tải việc quản
lý nhiều trao đổi song phương (trong tập hợp dữ liệu và siêu dữ liệu) qua việc chia sẻ cho các tổ chức/ cá nhân Đây cũng là mẫu quá trình rất thông dụng trong lĩnh vực thống kê, trong đó cộng đồng các cơ quan nhất trí với các cách thức có hiệu quả trong phạm vi chịu trách nhiệm của họ
3 Trao đổi thông qua việc chia sẻ dữ liệu: Các định dạng dữ liệu và các mẫu quá trình mở, miễn phí,
chuẩn đã biết Do đó, mọi tổ chức hoặc cá nhân đều thể sử dụng dữ liệu và siêu dữ liệu của bất kỳ đối tác nào (giả sử họ được cho phép truy cập tới nó) Mô hình này không yêu cầu sự nhất trí của hai bên, mà yêu cầu người cung cấp dữ liệu, siêu dữ liệu và người sử dụng dữ liệu tuân thủ theo các tiêu chuẩn
Các tiêu chuẩn SDMX được thiết kế nhằm tạo thuận lợi cho các trao đổi dựa trên các mẫu quá trình trên và chỉ ra cách thức SDMX mang lại lợi ích trong tất cả các trường hợp Để sử dụng một định dạng chuẩn (như là SDMX-EDI hoặc SDMX-ML) có thể thỏa thuận song phương; trong các quá trình trao đổi bằng cổng, người gửi có thể sử dụng một định dạng chuẩn để trao đổi với nhau hoặc với mọi người cung cấp dữ liệu đồng ý thực hiện như vậy, có thể sử dụng toàn bộ các chuẩn SDMX để hỗ trợ cho việc chia sẻ dữ liệu chung khi trao đổi bất kể việc này dựa trên sổ đăng ký phù hợp với SDMX hoặc dựa trên cấu trúc khác
Các tiêu chuẩn được quy định ở đây đặc biệt hỗ trợ quá trình trao đổi thông qua chia sẻ dữ liệu dựa trên việc sử dụng các dịch vụ của sổ đăng ký chính Các dịch vụ của sổ đăng ký quy định tính minh bạch của dữ liệu và siêu dữ liệu trong cộng đồng và hỗ trợ việc truy cập và cách thức sử dụng dữ liệu
và siêu dữ liệu đó bằng cách cung cấp một tập các “lẫy” tự động xử lý Bản thân dữ liệu đó không được lưu trữ trong sổ đăng ký chính - các dịch vụ này chỉ cung cấp một tập siêu dữ liệu hữu ích về dữ liệu (và siêu dữ liệu bổ sung) tại vị trí đã biết, do đó người sử dụng các ứng dụng có thể định vị một cách dễ dàng và thu được dữ liệu và/hoặc siêu dữ liệu được đăng ký Việc sử dụng toàn bộ các tiêu
Trang 3Công ty luật Minh Khuê www.luatminhkhue.vn
chuẩn về dữ liệu, siêu dữ liệu và dịch vụ của sổ đăng là rất phổ biến, cho phép mức độ tự động cao trong cộng đồng chia sẻ dữ liệu
Các mô hình quá trình khác nhau ở trên không loại ngoại trừ lẫn nhau - Một hệ thống đơn có khả năng biểu thị dữ liệu và siêu dữ liệu ở các định dạng phù hợp với SDMX có thể hỗ trợ cả ba kịch bản trên Các tiêu chuẩn khác nhau có thể sử dụng cho các quá trình khác nhau (ví dụ: nhiều giao diện dịch vụ đăng ký chỉ được sử dụng một kịch bản chia sẻ dữ liệu) nhưng hầu hết có nền tảng chung trong mô hình thông tin chia sẻ
Ngoài việc thu thập và báo cáo, cần lưu ý đến việc phổ biến dữ liệu Dữ liệu và siêu dữ liệu được trao đổi giữa các đối tác theo quá trình thiết lập và phát triển nào được cung cấp cho người sử dụng cuối dưới dạng một số mô tả Thông thường qua các ứng dụng cụ thể bên trong tổ chức Dữ liệu và siêu
dữ liệu được công bố trên các trang web dưới nhiều định dạng khác nhau Trọng tâm của các chuẩn SDMX là phổ biến dữ liệu và siêu dữ liệu kèm theo trên trang web Các tiêu chuẩn về dữ liệu và siêu
dữ liệu thống kê cho phép cải thiện việc công bố dữ liệu - định dạng chuẩn có thể xử lý một cách dễ dàng khi dữ liệu được thu thập và được liên kết với siêu dữ liệu, dễ dàng lĩnh hội và xử lý thêm đối với dữ liệu đó
Trong các cuộc thảo luận về dữ liệu thống kê đã đề cập đến nhiều khía cạnh về sự phổ biến dữ liệu thống kê tác động đến chất lượng dữ liệu: việc phát hiện dữ liệu, tính dễ sử dụng và tính kịp thời của
dữ liệu Các chuẩn SDMX hỗ trợ toàn bộ các khía cạnh về phổ biến dữ liệu Các định dạng dữ liệu chuẩn làm cho việc sử dụng dễ dàng hơn và cung cấp các liên kết đến siêu dữ liệu liên quan Khái niệm về dịch vụ sổ đăng ký có nghĩa rằng dữ liệu và siêu dữ liệu có thể được phát hiện một cách dễ dàng hơn Tính kịp thời được cải thiện trong suốt vòng đời của dữ liệu thông qua việc nâng cao hiệu quả và được thúc đẩy thông qua tính sẵn có của siêu dữ liệu và thông qua việc sử dụng dễ dàng
SDMX tập trung chủ yếu vào việc trao đổi và phổ biến dữ liệu và siêu dữ liệu thống kê Tuy nhiên,
cũng có thể có nhiều cách thức sử dụng mô hình chuẩn và các định dạng được quy định trong ngữ cảnh của quá trình xử lý dữ liệu nội bộ, không liên quan tới việc trao đổi giữa các tổ chức và người sử dụng Có thể thấy rằng việc định dạng rõ ràng và theo tiêu chuẩn đối với dữ liệu và siêu dữ liệu nhằm mục đích trao đổi và phổ biến cũng tạo thuận lợi cho việc xử lý nội bộ của các tổ chức và người sử dụng, nhưng nó không phải là trọng tâm của tiêu chuẩn này
3.2 SDMX và tự động hóa quá trình
Các trao đổi dữ liệu và siêu dữ liệu thống kê sử dụng các quá trình tự động khác nhau, một số quá trình trong đó hữu ích hơn các quá trình khác Một số công nghệ thông tin chung thường gặp trong các hệ thống thông tin ngày nay SDMX tập trung vào việc cung cấp các tiêu chuẩn hữu ích nhất cho các công nghệ và quá trình tự động này
Việc tự động hóa quá trình được mô tả vắn tắt như sau:
1 Trao đổi dữ liệu và siêu dữ liệu theo lô: Truyền toàn bộ hoặc từng phần cơ sở dữ liệu giữa các đối
tác, bao gồm cả dữ liệu mới cập nhật
2 Cung cấp dữ liệu và siêu dữ liệu có thể xử lý dễ dàng trên Internet: Công nghệ Internet - bao gồm
việc sử dụng mạng TCP/IP riêng hoặc nửa riêng là rất phổ biến Công nghệ này bao gồm XML và các dịch vụ web như: các cơ chế chính cho việc cung cấp tự động dữ liệu và siêu dữ liệu, cũng như HTML tĩnh truyền thống và việc công bố hướng vào cơ sở dữ liệu
3 Các quá trình chung : Trong khi nhiều ứng dụng và quá trình đặc trưng cho một số tập dữ liệu và
siêu dữ liệu thì các kiểu dịch vụ và quá trình tự động khác được thiết kế để xử lý mọi kiểu dữ liệu và siêu dữ liệu thống kê Điều này đặc biệt đúng trong trường hợp các trang cổng điện tử và việc cung cấp dữ liệu luôn sẵn có trên Internet
4 Trình bày và biến đổi dữ liệu: Để tạo dữ liệu và siêu dữ liệu hữu ích cho người sử dụng thì phải hỗ
trợ các quá trình tự động để biến đổi dữ liệu và siêu dữ liệu đó thành các định dạng xử lý các ứng dụng cụ thể, các định dạng tiêu chuẩn khác và các định dạng trình bày Mặc dù kiểu xử lý dữ liệu này không quá nghiêm ngặt về khía cạnh trao đổi nhưng nó phải được hỗ trợ nếu trao đổi thông tin giữa các đối tác tự hỗ trợ
Các tiêu chuẩn SDMX quy định ở đây được thiết kế để hỗ trợ các yêu cầu của tất cả các quá trình và công nghệ tự động ở trên
3.3 Dữ liệu và siêu dữ liệu thống kê
Để tránh nhầm lẫn giữa “dữ liệu” và “siêu dữ liệu” nào là nội dung của các định dạng SDMX được quy định ở đây, cần đưa ra một tuyên bố về phạm vi áp dụng “Dữ liệu” thống kê là tập các bản điều tra thường xuyên, dưới dạng số, thường được kết hợp với thời gian Chúng được kết hợp với một tập các giá trị siêu dữ liệu, thể hiện các khái niệm cụ thể, hoạt động như các thẻ định danh và mô tả dữ
Trang 4Công ty luật Minh Khuê www.luatminhkhue.vn
liệu đó Các giá trị và khái niệm siêu dữ liệu này có thể được hiểu như các chiều kích thước đã đặt tên của hệ chiều kích thước đa chiều, việc mô tả một vấn đề được gọi là “khối hộp” dữ liệu
SDMX xác định kỹ thuật tiêu chuẩn để lập mô hình, thể hiện và thông hiểu cấu trúc của “khối hộp” đa chiều này, cho phép xử lý dữ liệu tự động từ nhiều nguồn khác nhau Phương pháp tiếp cận này áp dụng rộng rãi cho các kiểu dữ liệu liên lĩnh vực và đưa ra kỹ thuật có thể nhận thức một cách dễ dàng
và đơn giản nhất, kỹ thuật này hỗ trợ cho trao đổi tập rất rộng các dữ liệu và siêu dữ liệu liên quan Các tiêu chuẩn SDMX đưa ra một mô hình và các định dạng chung, hỗ trợ trao đổi của mọi kiểu dữ liệu thống kê đáp ứng định nghĩa ở trên, việc thử nghiệm đã được tiến hành nhằm tối ưu hóa các định dạng dựa trên các yêu cầu cụ thể của mỗi quá trình thực thi, như được mô tả trong phần SDMX-ML Thuật ngữ “siêu dữ liệu” có nghĩa rất rộng Có thể phân biệt giữa siêu dữ liệu “cấu trúc” - các khái niệm này được sử dụng trong việc mô tả và định danh các dữ liệu và siêu dữ liệu thống kê - siêu dữ liệu “tham chiếu” - là một tập rộng các khái niệm để mô tả, hạn định các tập dữ liệu thống kê và việc
xử lý khái quát hơn Thông thường, kiểu siêu dữ liệu này không được kết hợp với các chuỗi dữ liệu hoặc các điều tra khảo sát cụ thể, mà kết hợp với toàn bộ các tập hợp dữ liệu hoặc với các cơ quan cung cấp dữ liệu đó
Mô hình thông tin SDMX không chỉ đưa ra việc lập cấu trúc dữ liệu, mà còn đưa ra việc lập cấu trúc siêu dữ liệu “ tham chiếu” Các cấu trúc siêu dữ liệu tham chiếu này thường được liên kết mặc dù chúng tồn tại độc lập với dữ liệu và siêu dữ liệu cấu trúc Mô hình thông tin SDMX đưa ra dữ liệu kèm theo của siêu dữ liệu tham chiếu đối với mọi phần dữ liệu hoặc siêu dữ liệu cấu trúc, cũng như đối với việc báo cáo và trao đổi siêu dữ liệu tham chiếu và các mô tả cấu trúc của nó Chức năng này của các tiêu chuẩn SDMX nhằm hỗ trợ nhiều khía cạnh của các sáng kiến về chất lượng dữ liệu, cho phép nó tiến hành việc trao đổi siêu dữ liệu theo nghĩa rộng nhất, trong đó siêu dữ liệu liên quan đến chất lượng là một phần quan trọng
Siêu dữ liệu không chỉ được liên kết với dữ liệu mà còn được liên kết với quá trình cung cấp và quản
lý luồng dữ liệu Mô hình thông tin SDMX cung cấp một tập siêu dữ liệu liên quan tới “việc cung cấp
dữ liệu”- siêu dữ liệu này rất hữu ích cho các đối tượng cần hiểu nội dung và biểu mẫu các kết xuất của người cung cấp dữ liệu Mỗi người cung cấp dữ liệu có thể mô tả nội dung và các phụ thuộc của tập dữ liệu và siêu dữ liệu theo một dạng tiêu chuẩn mà họ tạo ra và cung cấp thông tin về việc lập lịch biểu và cơ chế cung cấp dữ liệu và siêu dữ liệu đó Điều này cho phép tự động hóa một số chức năng kiểm soát và kiểm tra tính hợp lệ, cũng như hỗ trợ quản lý việc báo cáo dữ liệu
SDMX thừa nhận ý nghĩa quan trọng của các lược đồ phân loại trong việc tổ chức, quản lý trao đổi và phổ biến dữ liệu, siêu dữ liệu Có thể trình bày thông tin về các lược đồ phân loại và các loại lĩnh vực theo SDMX, cùng với các quan hệ của chúng với các tập dữ liệu và siêu dữ liệu
Tiêu chuẩn này trình bày vắt tắt về các đối tượng chính thức trong mô hình thông tin và thông tin chi tiết hơn xem các phần tiêu chuẩn SDMX khác
3.4 Quan điểm SDMX về trao đổi thống kê
Phiên bản 1.0 của ISO/TS 17369 SDMX bao gồm các tập dữ liệu và siêu dữ liệu thống kê liên quan đến cấu trúc của các tập dữ liệu này - “các tập khóa” Phạm vi áp dụng này rất hữu ích cho việc hỗ trợ các mô hình trao đổi thống kê khác nhau (trao đổi song phương, trao đổi bằng cổng và trao đổi thông qua việc chia sẻ dữ liệu) nhưng phiên bản này không hỗ trợ các mô hình một cách thức đầy đủ Tiêu chuẩn này đưa ra quan điểm trao đổi thống kê đầy đủ hơn rất nhiều so với phiên bản trước, để mô hình chia sẻ dữ liệu mở có thể được hỗ trợ một cách thức đầy đủ và các mô hình trao đổi khác có thể được tự động hóa một cách thức đầy đủ hơn Mô hình thông tin SDMX cung cấp tập các đối tượng hình thức rộng hơn như: tác nhân, quá trình và các tài nguyên trong các trao đổi thống kê nhằm đưa
ra các tiêu chuẩn kỹ thuật hỗ trợ cho phạm vi áp dụng được mở rộng đó
Điều quan trọng là phải hiểu tập các đối tượng hình thức không chỉ trong ý nghĩa kỹ thuật mà còn trong các thuật ngữ sử dụng biểu diễn khi trao đổi dữ liệu và siêu dữ liệu thống kê trong thế giới thực Phiên bản đầu tiên của SDMX cung cấp các tập dữ liệu - dữ liệu thống kê cụ thể được báo cáo theo một cấu trúc cụ thể, trong dải thời gian cụ thể - đối với các tập khóa (định nghĩa cấu trúc dữ liệu) - siêu dữ liệu mô tả cấu trúc của các tập dữ liệu thống kê đó Đây là các đối tượng quan trọng trong trao đổi thống kê, được giữ lại và nâng cao trong tiêu chuẩn này theo dạng tương thích ngược Một đối tượng liên quan trong trao đổi thống kê là “luồng dữ liệu” - đây là việc công bố tập dữ liệu đang tiến hành, khi các bản điều tra khảo sát mới được bổ sung vào các tập dữ liệu hiện có hoặc khi các tập dữ liệu tiếp theo với cùng cấu trúc và chủ đề đã công bố Các “luồng dữ liệu” có thể được hiểu như các tập dữ liệu không bị giới hạn bởi thời gian Các cấu trúc dữ liệu được các cơ quan sở hữu và duy trì - theo một kiểu tương tự, các luồng dữ liệu được “người cung cấp dữ liệu” công bố và được các cơ quan sở hữu
Trang 5Công ty luật Minh Khuê www.luatminhkhue.vn
Phiên bản 2.0 tương tự với phiên bản 1.0 - cho phép công bố dữ liệu thống kê (và siêu dữ liệu cấu trúc liên quan) đồng thời cũng cung cấp tiêu chuẩn, cách thức biểu diễn có hệ thống siêu dữ liệu tham chiếu Siêu dữ liệu tham chiếu là siêu dữ không được báo cáo như một phần của tập dữ liệu, nhưng độc lập với dữ liệu thống kê SDMX cung cấp các “tập siêu dữ liệu” tham chiếu về các “định nghĩa cấu trúc siêu dữ liệu” và các “luồng siêu dữ liệu” Các đối tượng này rất giống với các tập dữ liệu, các tập khóa (định nghĩa cấu trúc dữ liệu) và các luồng dữ liệu, nhưng chúng liên quan đến các siêu dữ liệu tham chiếu hơn dữ liệu thống kê Người cung cấp dữ liệu có thể công bố dữ liệu thống kê với phương pháp tương tự để công bố siêu dữ liệu tham chiếu, các định nghĩa cấu trúc siêu dữ liệu được các cơ quan duy trì theo một cách thức tương tự khi duy trì các tập khóa và đối với các định nghĩa cấu trúc của các tập dữ liệu
Các định nghĩa cấu trúc của dữ liệu và siêu dữ liệu tham chiếu liên kết các khái niệm thống kê cụ thể với việc biểu diễn của chúng ở dạng nguyên bản hoặc dạng mã, v.v Trong tiêu chuẩn này, các khái niệm được lấy từ ”lược đồ khái niệm” được duy trì bởi cơ quan cụ thể Các lược đồ khái niệm nhóm các tập khái niệm, cung cấp các tên và định nghĩa cho các lược đồ đó và giải thích các quan hệ về ngữ nghĩa khi một số khái niệm là dạng chuyên biệt của các khái niệm khác Một lược đồ khái niệm đơn có thể được sử dụng cho cả cấu trúc dữ liệu - các tập khóa - và cho các cấu trúc siêu dữ liệu tham chiếu
Đặc tính cố hữu trong mọi trao đổi thống kê và trong nhiều hoạt động phổ biến là khái niệm “thỏa thuận về các mức dịch vụ” mặc dù điều này không chính thức hoặc không được tạo ra một cách thức
rõ ràng SDMX kết hợp quan điểm này trong các đối tượng gọi là các “Thỏa thuận cung cấp” Người cung cấp dữ liệu có thể cung cấp dữ liệu cho nhiều luồng dữ liệu khác nhau Khái niệm tương tự cũng đúng đối với các luồng siêu dữ liệu
Các thỏa thuận cung cấp đưa ra nhiều thông tin đa dạng sẵn có như: Lịch biểu để báo cáo và công bố
dữ liệu hoặc siêu dữ liệu thống kê, các chủ đề cụ thể về dữ liệu hoặc siêu dữ liệu được báo cáo trong tập dữ liệu về mặt lý thuyết (như được mô tả bởi tập khóa hoặc định nghĩa cấu trúc siêu dữ liệu tham chiếu) và khoảng thời gian mà dữ liệu và siêu dữ liệu thống kê được lấy Tập thông tin này được gọi
là “các ràng buộc” trong mô hình thông tin SDMX Các ràng buộc được liên kết với người cung cấp dữ liệu (điển hình là lịch biểu và khoảng thời gian về dữ liệu của họ), được liên kết với các luồng dữ liệu (điển hình là chủ đề dữ liệu đó bao trùm) và thể hiện trên các thỏa thuận cung cấp (ở đây đưa ra một
mô tả đầy đủ các ràng buộc liên quan đến thời gian và phạm vi chủ đề)
Các đối tượng đó bao gồm:
• Tập dữ liệu: Dữ liệu được tổ chức thành các tập rời rạc, bao gồm các các bản điều ra khảo sát
riêng trong khoảng thời gian cụ thể Tập dữ liệu có thể được hiểu như một tập hợp dữ liệu tương tự,
có cùng cấu trúc, bao hàm trong một khoảng thời gian cố định
• Tập khóa (Định nghĩa cấu trúc dữ liệu): Mỗi tập dữ liệu có một tập siêu dữ liệu cấu trúc Các mô
tả này được đề cập trong SDMX như “các tập khóa”, bao gồm thông tin về cách thức các khái niệm được kết hợp với các phép đo, các chiều kích thước và các thuộc tính của một dữ liệu “khối hộp” cùng với thông tin về cách thức biểu diễn dữ liệu, việc định danh liên quan và siêu dữ liệu (cấu trúc)
mô tả
• Danh sách mã: Danh sách mã là một danh sách các mã được duy trì, có thể được sử dụng trong
tập khóa hoặc định nghĩa cấu trúc siêu dữ liệu Các danh sách mã liệt kê một tập các giá trị được sử dụng trong việc biểu diễn các chiều kích thước, các thuộc tính và các phần cấu trúc khác của SDMX Chúng có thể được bổ sung bởi siêu dữ liệu chỉ ra cách thức các mã được tổ chức thành các hệ phân cấp
• Tập siêu dữ liệu: Tập siêu dữ liệu tham chiếu là một tập thông tin phần lớn liên quan tới đối tượng
theo quan điểm SDMX về trao đổi thống kê: các tập siêu dữ liệu có thể mô tả người duy trì dữ liệu hoặc các định nghĩa cấu trúc; có thể mô tả lịch biểu phát hành dữ liệu, v.v Trong SDMX, tác giả siêu
dữ liệu tham chiếu có thể sử dụng mọi khái niệm liên quan hoặc phải báo cáo và cung cấp tập siêu dữ liệu tham chiếu chứa thông tin đó
• Định nghĩa cấu trúc siêu dữ liệu: Tập siêu dữ liệu tham chiếu cũng có một tập siêu dữ liệu cấu
trúc mô tả cách thức tổ chức siêu dữ liệu Siêu dữ liệu này định danh các khái niệm siêu dữ liệu tham chiếu đang được báo cáo, cách thức các khái niệm này liên quan đến các khái niệm khác (điển hình như các hệ phân cấp), cấu trúc trình diễn của các khái niệm đó, cách thức các khái niệm được biểu diễn (như văn bản tự do, giá trị được mã hóa, v.v.) và kiểu đối tượng SDMX chính thức mà siêu dữ liệu đó liên kết
• Cơ quan duy trì: Trong SDMX, tổ chức tạo ra và duy trì các định nghĩa cấu trúc về dữ liệu và siêu
dữ liệu được gọi là cơ quan duy trì Ví dụ: mỗi tập khóa và danh sách mã có một cơ quan duy trì
Trang 6Công ty luật Minh Khuê www.luatminhkhue.vn
• Định nghĩa luồng dữ liệu: Trong SDMX, các tập dữ liệu được báo cáo hoặc phổ biến theo định
nghĩa luồng dữ liệu Định nghĩa luồng dữ liệu đó xác định tập khóa và có thể được kết hợp với một hoặc nhiều lĩnh vực chủ đề (điều này tạo thuận lợi cho việc tìm kiếm dữ liệu theo các lược đồ phân loại được tổ chức) Các ràng buộc, dưới dạng báo cáo định kỳ hoặc tập con của các khóa có thể được cho phép trong một tập dữ liệu, có thể được đính kèm với định nghĩa luồng dữ liệu
• Định nghĩa luồng siêu dữ liệu: Định nghĩa luồng siêu dữ liệu tương tự với định nghĩa luồng dữ
liệu, nhưng mô tả, phân loại và quy định các tập siêu dữ liệu
• Người cung cấp dữ liệu: Tổ chức đưa ra dữ liệu hoặc các siêu dữ liệu tham chiếu được gọi là
người cung cấp dữ liệu
• Thỏa thuận cung cấp: Tập thông tin mô tả cách thức các tập dữ liệu và siêu dữ liệu được cung cấp
bởi người cung cấp dữ liệu Thỏa thuận cung cấp có thể được quy định như định nghĩa luồng dữ liệu hoặc siêu dữ liệu Do đó, người cung cấp dữ liệu thể hiện thực tế rằng họ cung cấp một luồng dữ liệu
cụ thể gồm một tập các quốc gia và chủ đề, theo một lịch biểu công bố cụ thể Quan trọng hơn, nguồn
dữ liệu hoặc siêu dữ liệu đăng ký thực tế được đính kèm với thỏa thuận cung cấp (dưới dạng một URL) Thuật ngữ “thỏa thuận” được sử dụng bởi thông tin này có thể hiểu như cơ sở của một “thỏa thuận mức dịch vụ” Tuy nhiên, trong SDMX, đây là siêu dữ liệu mang tính thông tin tài liệu hỗ trợ các
hệ thống kỹ thuật, trái với các thông tin theo hợp đồng (ngoài phạm vi của tiêu chuẩn này)
• Ràng buộc: Các ràng buộc mô tả một tập con của tập dữ liệu hoặc tập siêu dữ liệu, có thể cung cấp
thông tin về lịch biểu phát hành dữ liệu được ghi trong danh mục Chúng được kết hợp với người cung cấp dữ liệu, các thỏa thuận cung cấp và các luồng dữ liệu
• Lược đồ phân loại: Các lược đồ phân loại được xây dựng bởi một hệ phân cấp loại cấu thành,
trong đó SDMX có thể bao gồm mọi kiểu phân loại hữu ích đối với việc tổ chức dữ liệu và siêu dữ liệu
• Lược đồ khái niệm: Lược đồ khái niệm là một danh sách các khái niệm được duy trì, sử dụng trong
tập khóa và các định nghĩa cấu trúc siêu dữ liệu Có rất nhiều lược đồ khái niệm Có thể quy định một cách thức biểu diễn “chính” của khái niệm (ví dụ: một danh sách mã chính hoặc biểu diễn khác như
“ngày tháng”) Chú ý rằng việc biểu diễn chính này có thể được ghi đè trong tập khóa hoặc định nghĩa cấu trúc siêu dữ liệu sử dụng khái niệm đó Trên thực tế, các tổ chức mong muốn duy trì các đặc tả lược đồ của tập khóa trong phiên bản 1.0 vẫn tiếp tục khai báo cách thức biểu diễn trong định nghĩa tập khóa đó
• Tập cấu trúc: Các tập cấu trúc cung cấp cơ chế để nhóm các siêu dữ liệu cấu trúc với nhau để tạo
ra một mô tả đầy đủ các quan hệ giữa các tập dữ liệu và siêu dữ liệu đặc trưng liên quan Có thể sử dụng các tập cấu trúc để ánh xạ các chiều kích thước và các thuộc tính với một chiều kích thước và thuộc tính khác, ánh xạ các khái niệm, các danh sách mã và các lược đồ phân loại Có thể sử dụng tập cấu trúc để mô tả “khối hộp” của dữ liệu, thậm chí khi dữ liệu trong khối hộp không chia sẻ một chiều kích thước đơn
• Việc báo cáo nguyên tắc phân loại: Việc báo cáo nguyên tắc phân loại cho phép một tổ chức liên
kết (có thể theo một cách thức phân cấp) một số khối hộp hoặc định nghĩa luồng dữ liệu cùng nhau để tạo ra một “báo cáo” đầy đủ về dữ liệu và siêu dữ liệu Điều này hỗ trợ việc báo cáo chính, bao gồm nhiều khối hộp dữ liệu không đồng nhất, cũng có thể hỗ trợ các chức năng báo cáo và tập hợp khác
• Quá trình: Lớp quá trình cung cấp cách thức mô hình hóa các quá trình thống kê như một tập các
bước quá trình tương kết Mặc dù không tập trung vào trao đổi và phổ biến dữ liệu và siêu dữ liệu thống kê, nhưng có một mô tả xử lý cho phép trao đổi và phổ biến các tập siêu dữ liệu tham chiếu mô
tả các khái niệm liên quan đến các quá trình có thể hoạt động tương tác
3.4.1 Chú thích về cấu trúc hóa dữ liệu
Khối hộp có cấu trúc đa chiều kích thước, được quan sát dọc theo các trục của nó Mặc dù cấu trúc đầy đủ của dữ liệu khối hộp được mô tả trong SDMX, nhưng đối với việc định dạng dữ liệu để truyền thì đặc tả thực tế về “dữ liệu” của SDMX có quan điểm hẹp hơn đáng kể so với các yêu cầu trong các đặc tả phiên bản 2.0 Quan điểm dữ liệu trong hầu hết các định dạng SDMX chủ yếu giống như các chuỗi thời gian - đó là, như một tập các bản điều tra khảo sát được tổ chức theo đại lượng thời gian sao cho mỗi bản điều tra khảo sát xảy ra tăng dần từng nấc theo thời gian Đây là cách thức rõ ràng
để tổ chức dữ liệu thống kê của nhiều kiểu dữ liệu và đã chứng minh là rất hữu ích trong việc tổ chức
dữ liệu để trao đổi giữa các đối tác
Tuy nhiên, một số kiểu dữ liệu thống kê không được tổ chức theo cách thức đó để trao đổi, được gọi
là dữ liệu “phần giao”, trong đó, dữ liệu được tổ chức theo một số dữ liệu khác, chiều kích thước phi thời gian của khối hộp SDMX cung cấp các quan niệm về phần giao của các khối hộp dữ liệu Nếu
mô tả kiểu cấu trúc dữ liệu này và nếu thời gian là một chiều kích thước trong khối hộp - thì dữ liệu đó
có thể trình bày trong các định dạng SDMX, được tổ chức theo chiều kích thước phi thời gian đã chọn
Trang 7Công ty luật Minh Khuê www.luatminhkhue.vn
hoặc theo chiều kích thước thời gian cách thức tiếp cận này đưa ra các hệ thống trên cơ sở chuỗi thời gian có khả năng xử lý nhiều tập dữ liệu phần giao cũng như các chuỗi thời gian
Một kiểu cấu trúc khác thường xuất hiện trong “các khối hộp” thống kê của dữ liệu là sự phân loại theo cấp, được sử dụng để mô tả các điểm dọc theo mọi chiều kích thước của nó (hoặc các trục) Trong phiên bản 1.0, các tiêu chuẩn SDMX không cung cấp đầy đủ các hỗ trợ cho chức năng này Trong tiêu chuẩn này có giới thiệu về các phân loại theo cấp
Ngoài ra, có hỗ trợ đối với việc thể hiện các phụ thuộc chức năng giữa các chiều kích thước khác nhau của một khối hộp, việc đưa ra các hỗ trợ để xử lý tốt hơn các “khối hộp thưa” Đây là một khía cạnh của các “ràng buộc”, cho phép lập khung một vùng khối hộp hoặc cho phép cung cấp một tập các khóa hợp lệ trong một tập toàn bộ các khóa được mô tả bởi tập khóa đó
3.4.2 Chú thích về cấu trúc hóa siêu dữ liệu tham chiếu
Các cấu trúc siêu dữ liệu dựa trên cơ sở quan niệm rằng các khái niệm được tổ chức thành các hệ phân cấp trình diễn và ngữ nghĩa, các hệ phân cấp này có thể tạo cơ sở cho việc lập cấu trúc các định dạng việc báo cáo XML Có ba kiểu thông điệp trong SDMX-ML cho mục đích này: thông điệp cấu trúc (cung cấp định nghĩa cấu trúc siêu dữ liệu), thông điệp siêu dữ liệu khái quát (cung cấp một định dạng đơn cho mọi định nghĩa cấu trúc siêu dữ liệu) và thông điệp báo cáo siêu dữ liệu (cung cấp một định dạng cụ thể về định nghĩa siêu dữ liệu) Thông thường, cơ chế này phù hợp để hỗ trợ việc phổ biến và báo cáo siêu dữ liệu tham chiếu
Định nghĩa cấu trúc siêu dữ liệu lấy mọi khái niệm từ các lược đồ khái niệm và mô tả cách thức chúng
có thể tạo thành cấu trúc trình diễn - giống một danh sách phẳng hoặc một hệ phân cấp Các khái niệm được ấn định bởi các biểu diễn (mã, nguyên bản, v.v…) “Đích” của siêu dữ liệu đó là: lớp quá trình, thông tin, tổ chức, trao đổi, v.v… là chủ đề của siêu dữ liệu được mô tả đó Do mô hình thông tin SDMX đưa ra một dạng hình thức hóa của việc phổ biến và trao đổi thống kê, nên mô hình đó có thể được sử dụng như hệ thống kiểu hình của các tác nhân và tài nguyên khác nhau trong các hoạt động thống kê Do đó, các “đích” (chủ đề) của tập siêu dữ liệu tham chiếu và các luồng siêu dữ liệu có thể được mô tả tương ứng với một số lớp chuẩn bằng cách tham chiếu tới mô hình này
Cùng với các cấu trúc dữ liệu, có một định dạng chung về các tập siêu dữ liệu và một tập thực hiện kiểm tra mức độ cao hơn, bắt nguồn từ định nghĩa cấu trúc siêu dữ liệu
3.5 Các dịch vụ của sổ đăng ký SDMX
Để cung cấp tính minh bạch cho một lượng lớn dữ liệu và siêu dữ liệu tồn tại trong mô hình trao đổi thống kê SDMX, thì kiến trúc dựa trên tập các dịch vụ đăng ký là rất hữu ích “Sổ đăng ký” (hiểu theo thuật ngữ web) là: ứng dụng lưu trữ siêu dữ liệu để truy vấn và được sử dụng bởi mọi ứng dụng khác trong mạng đó với các đặc quyền truy cập Sổ đăng ký có thể được hiểu như chỉ mục cơ sở dữ liệu phân tán hoặc kho siêu dữ liệu của tất cả các tập dữ liệu của nhà cung cấp và tất cả các tập siêu dữ liệu tham chiếu trong cộng đồng thống kê, được truy cập thông qua Internet hoặc mạng tương tự Các dịch vụ đăng ký SDMX không liên quan đến lưu trữ dữ liệu hoặc siêu dữ liệu tham chiếu Giả định rằng dữ liệu và siêu dữ liệu tham chiếu nằm tại các trang của người cung cấp dữ liệu của dữ liệu
và siêu dữ liệu tham chiếu đó Bản thân các dịch vụ sổ đăng ký liên quan đến việc cung cấp tính minh bạch của dữ liệu và siêu dữ liệu tham chiếu đó và thông tin cần thiết để truy cập dữ liệu và siêu dữ liệu tham chiếu Do đó, mỗi tập dữ liệu được đăng ký sẵn có một URL của nó trong sổ đăng ký, nhưng đó không phải là dữ liệu của tập dữ liệu đó Ứng dụng mong muốn dữ liệu sẽ truy vấn URL trong một sổ đăng ký, sau đó phải vào ỦL đó và truy lục dữ liệu từ người cung cấp dữ liệu
SDMX không yêu cầu việc thực thi sổ đăng ký theo công nghệ cụ thể - SDMX chỉ quy định các giao diện chuẩn có thể được hỗ trợ bởi một sổ đăng ký Do đó, người sử dụng có thể thực thi một sổ đăng
ký SDMX phù hợp theo mọi kiểu cách thức mà họ chọn, nếu các giao diện đó được hỗ trợ như đã quy định ở đây Các giao diện này được trình bày như các tài liệu XML và tạo thành một phần ngôn ngữ SDMX-ML mới
Các dịch vụ đăng ký có thể được tóm tắt như sau:
• Đăng ký/Đệ trình siêu dữ liệu cấu trúc: Dịch vụ đăng ký này cho phép người sử dụng có các đặc
quyền truy cập ghi thông báo cho sổ đăng ký đó rằng các tập dữ liệu, các tập siêu dữ liệu tham chiếu, siêu dữ liệu cấu trúc hoặc thông tin về việc cung cấp dữ liệu là tồn tại Sổ đăng ký lưu trữ một dải rộng các siêu dữ liệu về các đối tượng này Các đối tượng trong sổ đăng ký được tổ chức và phân loại theo một hoặc nhiều lược đồ phân loại
• Truy vấn: Các dịch vụ đăng ký có các giao diện truy vấn siêu dữ liệu được chứa trong một sổ đăng
ký, vì vậy, các ứng dụng và người sử dụng có thể phát hiện sự tồn tại của các tập dữ liệu và các tập siêu dữ liệu tham chiếu, siêu dữ liệu cấu trúc, tổ chức/người cung cấp tương ứng với các đối tượng
Trang 8Công ty luật Minh Khuê www.luatminhkhue.vn
đó và các thỏa thuận của người cung cấp mô tả cách thức dữ liệu và siêu dữ liệu được tạo sẵn và phân loại
• Đặt hàng / Thông báo: Có thể “đặt hàng” các đối tượng cụ thể trong sổ đăng ký, thông báo sẽ gửi
đến tất cả những người đặt hàng khi các đối tượng đó được cập nhật
4 Mô hình thông tin SDMX
SDMX cung cấp cách thức mô hình hóa dữ liệu thống kê và xác định các cấu trúc siêu dữ liệu được
sử dụng cho mục đích này Do SDMX quy định các định dạng theo hai cú pháp để thể hiện dữ liệu và siêu dữ liệu cấu trúc, nên mô hình thông tin SDMX được sử dụng như một cơ chế để đảm bảo rằng phép biến đổi giữa các định dạng khác nhau không bị mất mát Tất cả định dạng này là các biểu thức trong khuôn khổ cú pháp của mô hình thông tin chung Bản thân SDMX phiên bản 1.0 dựa trên GESMES/TS như đầu vào mô hình và các định dạng đó, chúng được xây dựng dựa trên mô hình trao đổi dữ liệu theo chuỗi thời gian và đảm bảo tính tương thích ngược với các hệ thống được dựa trên GESMES/TS hiện có Tiêu chuẩn này mở rộng phiên bản 1.0 nhằm cung cấp mô hình thông minh hơn
SDMX thừa nhận rằng dữ liệu thống kê có cấu trúc, trong SDMX cấu trúc này được đặt tên là “tập khóa” Các “tập dữ liệu” do một hoặc nhiều “nhóm” mức thấp hơn tạo nên, trên cơ sở các mức độ tương tự Mỗi nhóm lần lượt bao gồm một hoặc nhiều “chuỗi ” dữ liệu (hoặc các “phần” dữ liệu chuỗi phi thời gian) Mỗi chuỗi hoặc phần có một “khóa” - các giá trị đối với mỗi cụm khái niệm, được gọi là các “chiều kích thước” - định danh nó và một hoặc nhiều “bản điều tra khảo sát”, thông thường được kết hợp với thời gian trong bản điều tra khảo sát và giá trị của bản điều tra khảo sát đó (ví dụ: đại lượng đo lường) Ngoài ra, siêu dữ liệu có thể được đính kèm tại mọi mức cấu trúc này như các
“thuộc tính” mô tả Các danh sách mã (liệt kê) và các mẫu khác để biểu diễn dữ liệu và siêu dữ liệu cũng được đưa ra, trong đó, chúng có thể được biểu diễn theo các định dạng cú pháp cụ thể
Có một số điểm giống nhau giữa các cấu trúc “khối hộp” được sử dụng chung để xử lý dữ liệu thống
kê và quan niệm “tập khóa” trong mô hình thông tin SDMX Chú ý rằng dữ liệu được cấu trúc theo mô hình thông tin SDMX được tối ưu để trao đổi, có khả năng đối với các đối tác không thể xử lý “khối hộp” dữ liệu từ các hệ thống thống kê phức tạp Các chuỗi thời gian SDMX có thể được hiểu như các
“phần chia nhỏ” của khối hộp Phần chia nhỏ đó được định danh bởi khóa của nó Một khóa bao gồm toàn bộ các giá trị về chiều kích thước đã biết bởi tập khóa ngoại trừ thời gian Có thể cấu trúc lại và
mô tả các khối hộp dữ liệu từ dữ liệu có cấu trúc SDMX và trao đổi các cơ sở dữ liệu như vậy theo các tiêu chuẩn được đề xuất Trong tiêu chuẩn này, cấu trúc của các khối hộp được mô tả đầy đủ hơn, cùng với các danh sách mã phân cấp, các ràng buộc và các quan hệ giữa các tập khóa
Tiêu chuẩn này cũng cung cấp một quan điểm về siêu dữ liệu tham chiếu: cơ chế tham chiếu các “đối tượng” có nghĩa theo quan điểm SDMX về các quá trình trao đổi thống kê (người cung cấp dữ liệu, cấu trúc, thỏa thuận cung cấp, luồng dữ liệu, luồng siêu dữ liệu, v.v) tới siêu dữ liệu được đính kèm;
cơ chế mô tả tập khái niệm có nghĩa, tổ chức chúng thành một cấu trúc trình diễn và chỉ ra cách thức biểu diễn các giá trị của chúng Điều này dựa trên một quan điểm đơn giản, phân cấp về siêu dữ liệu tham chiếu, chung cho nhiều hệ thống siêu dữ liệu và các lược đồ phân loại/chia loại SDMX cung cấp một mô hình (và các định dạng XML) cho cả việc mô tả các cấu trúc siêu dữ liệu tham chiếu và việc báo cáo siêu dữ liệu tham chiếu theo các cấu trúc đó
Tiêu chuẩn này giới thiệu việc hỗ trợ siêu dữ liệu liên quan đến các khía cạnh trao đổi thống kê của quá trình Có thể mô hình hóa quá trình từng bước một (step-by-step); thông tin về người cung cấp
dữ liệu, siêu dữ liệu tham chiếu và cách thức họ cung cấp có thể được thể hiện; các khía cạnh kỹ thuật của các thỏa thuận mức dịch vụ (các kiểu thỏa thuận cung cấp tương tự) có thể được biểu diễn
Mô hình thông tin SDMX mô tả toàn bộ các đối tượng đã liệt kê ở trên, vì vậy thể hiện một dạng chuẩn về quá trình trao đổi thống kê
Mô hình thông tin SDMX được thể hiện bằng cách sử dụng UML và được mô tả theo văn xuôi Mặc
dù mô hình thông tin này mang tính tham khảo, nhưng nó là một công cụ có giá trị để thông hiểu và
sử dụng các đặc tả qui định về định dạng
5 SDMX-EDI
Định dạng SDMX-EDI được lấy từ hướng dẫn thực thi GESMES/TS phiên bản 3.0, được công bố như tiêu chuẩn SDMX
1 Định nghĩa cấu trúc: Toàn bộ SDMX-EDI thể hiện dữ liệu và siêu dữ liệu cấu trúc, được bao hàm
bởi mô hình thông tin SDMX theo định dạng UN/EDIFACT
2 Dữ liệu cô đọng: Được tối ưu hóa đối với trao đổi số lượng lớn chuỗi thời gian theo lô giữa các đối
tác, dữ liệu cô đọng cho phép thể hiện rất cô đọng lượng lớn các tập thành phần hoặc toàn bộ dữ liệu
Trang 9Công ty luật Minh Khuê www.luatminhkhue.vn
và siêu dữ liệu cấu trúc cần thiết để thông hiểu chúng Dữ liệu về các chuỗi phi thời gian như phần giao, có thể được hỗ trợ nếu dữ liệu đó được biểu diễn như các chuỗi thời gian được đóng gói lại
Mô hình thông tin SDMX cung cấp các kết cấu trong cú pháp của EDIFACT được sử dụng cho SDMX- EDI và trong cú pháp XML được sử dụng cho SDMX-ML Do cả hai thực thi cú pháp này đều phản ánh các kết cấu logic giống nhau, nên các thông điệp dữ liệu và siêu dữ liệu SDMX-EDI có thể được biến đổi thành các định dạng SDMX-ML tương ứng và ngược lại Vì vậy, các tiêu chuẩn này cung cấp tính liên tác trong việc xử lý và trao đổi dữ liệu và siêu dữ liệu thống kê giữa các hệ thống dựa trên XML và EDIFACT
6 SDMX-ML
Trong khi định dạng SDMX-EDI được thiết kế chủ yếu để hỗ trợ trao đổi lô, thì SDMX- ML phải hỗ trợ một dải các yêu cầu rộng hơn Các định dạng XML được sử dụng cho nhiều kiểu xử lý tự động khác nhau, do đó phải hỗ trợ nhiều kịch bản xử lý khác nhau hơn Đây là lý do có nhiều kiểu thông điệp sẵn
có theo định dạng SDMX-ML Mỗi định dạng được phù hợp để hỗ trợ một tập các yêu cầu xử lý cụ thể
1 Định nghĩa cấu trúc: Toàn bộ các kiểu thông điệp SDMX-ML cùng chia sẻ một thể hiện XML chung
về siêu dữ liệu cần thiết để thông hiểu và xử lý một tập dữ liệu hoặc siêu dữ liệu và chứa siêu dữ liệu
bổ sung về các lược đồ phân loại và các tổ chức Ngoài ra, các khía cạnh về cấu trúc của việc cung cấp dữ liệu và siêu dữ liệu - các luồng dữ liệu và luồng siêu dữ liệu - có thể được mô tả bằng cách sử dụng định dạng này
2 Dữ liệu chung: Toàn bộ dữ liệu thống kê trình bày trong SDMX-ML có thể được biểu thị theo định
dạng dữ liệu này, phù hợp với nội dung của thông điệp định nghĩa cấu trúc Nó được thiết kế để cung cấp dữ liệu trên các trang web và trong mọi kịch bản mà tại đó các ứng dụng nhận dữ liệu có thể không hiểu một cách chi tiết về cấu trúc của tập dữ liệu trước khi đạt được tập dữ liệu đó Dữ liệu được biểu thị theo định dạng này không đặc biệt cô đọng, nhưng chúng làm cho mọi khía cạnh của tập dữ liệu luôn dễ dàng sẵn có Định dạng này không kiểm tra tính hợp lệ một cách nghiêm ngặt giữa tập dữ liệu và định nghĩa cấu trúc của tập dữ liệu đó bằng cách sử dụng bộ phân tích XML chung
3 Dữ liệu cô đọng: Định dạng này đặc trưng cho tập khóa của tập dữ liệu nó mã hóa và được tạo ra
bằng việc ánh xạ giữa các kết cấu siêu dữ liệu được xác định trong thông điệp định nghĩa cấu trúc và định dạng cô đọng Dữ liệu cô đọng hỗ trợ việc trao đổi các tập dữ liệu lớn theo định dạng XML (tương tự SDMX- EDI) và cho phép truyền các tập dữ liệu thành phần (cập nhật mới) cũng như tập
dữ liệu toàn bộ
4 Dữ liệu tiện ích: Nhiều công nghệ và công cụ XML có các chức năng được thực hiện bởi lược đồ
XML, một trong số đó là quan hệ trực tiếp giữa các kết cấu XML được mô tả trong lược đồ XML và dữ liệu được gắn thẻ trong một thể hiện XML Kiểu dữ liệu mạnh được xem là chuẩn nhằm hỗ trợ đầy đủ việc kiểm tra tính hợp lệ dữ liệu được gắn thẻ Kiểu thông điệp này giống thông điệp dữ liệu cô đọng, đặc trưng cho tập khóa của tập siêu dữ liệu, nhưng được thiết kế để hỗ trợ cho việc kiểm tra tính hợp
lệ các chức năng mong muốn khác của lược đồ XML Dữ liệu tiện ích được tạo ra từ thông điệp định nghĩa cấu trúc thông qua việc thực thi tập các ánh xạ chuẩn Nó yêu cầu một tập dữ liệu đầy đủ để kiểm tra tính hợp lệ với bộ phân tích XML
5 Dữ liệu phần giao: Khác với các dữ liệu định hướng vào việc xử lý các chuỗi thời gian, một số dữ
liệu thống kê bao gồm một lượng lớn các bản điều tra khảo sát tại một điểm đơn theo thời gian Kiểu thông điệp này, giống như thông điệp dữ liệu cô đọng, đặc trưng cho tập khóa của tập dữ liệu đó, nhưng được định hướng cho việc đóng gói dữ liệu khác nhau Định dạng phần giao được dựa trên cùng một mô tả cấu trúc tập dữ liệu giống như định dạng các (chuỗi thời gian) khác, do đó các nghiên cứu có thể được hình thành qua dữ liệu chuỗi thời gian và sau đó được định dạng cho kiểu xử lý này nếu cần
6 Siêu dữ liệu chung: Toàn bộ siêu dữ liệu tham chiếu trình bày theo định dạng SDMX-ML có thể
được thể hiện theo lược đồ này Nó chỉ thực hiện việc kiểm tra tính hợp lệ ở mức tối thiểu và đôi chút dài dòng, nhưng không hỗ trợ việc tạo ra các công cụ phần mềm chung và các dịch vụ đối với việc xử
lý siêu dữ liệu tham chiếu
7 Báo cáo siêu dữ liệu: Đối với mỗi định nghĩa cấu trúc siêu dữ liệu, có một lược đồ XML đặc trưng
cho cấu trúc có thể được tạo ra, để tiến hành kiểm tra tính hợp lệ trên các tập siêu dữ liệu được báo cáo Cấu trúc này ngắn gọn và dễ sử dụng hơn định dạng siêu dữ liệu chung, bởi vì việc đánh dấu XML liên quan trực tiếp đến các khái niệm được báo cáo Nó tương ứng với định dạng dữ liệu tiện ích
đó theo phương pháp tiếp cận sử dụng XML
8 Truy vấn: Dữ liệu và siêu dữ liệu thường được công bố trong các cơ sở dữ liệu sẵn có trên trang
web Do đó, cần có một tài liệu truy vấn chuẩn, cho phép truy vấn các cơ sở dữ liệu và trả lại một
Trang 10Công ty luật Minh Khuê www.luatminhkhue.vn
thông điệp SDMX-ML Tài liệu truy vấn đó là phần mềm thực thi của mô hình thông tin SDMX để sử dụng các dịch vụ web và các ứng dụng hướng vào cơ sở dữ liệu, cho phép một yêu cầu chuẩn được gửi tới người cung cấp dữ liệu bằng cách sử dụng các công nghệ này
9 Sổ đăng ký: Tất cả các tương tác có thể ảnh hưởng tới các dịch vụ của sổ đăng ký SDMX được hỗ
trợ bằng cách sử dụng các giao diện SDMX-ML Hầu hết các tiêu chuẩn này dựa trên việc trao đổi đồng bộ các tài liệu - một thông điệp “yêu cầu” được trả lời bởi một thông điệp “đáp ứng” Có hai kiểu yêu cầu cơ bản - một là “Đệ trình”, ghi siêu dữ liệu vào các dịch vụ của sổ đăng ký và một là “Truy vấn”, được sử dụng để phát hiện siêu dữ liệu đó Các tương tác của sổ đăng ký cung cấp định dạng cho tất cả các kiểu cung cấp siêu dữ liệu, cũng như đặt hàng/thông báo, siêu dữ liệu cấu trúc và việc đăng ký dữ liệu và siêu dữ liệu
Do toàn bộ các định dạng SDMX-ML là các thực thi của cùng một mô hình thông tin và toàn bộ các thông điệp dữ liệu và siêu dữ liệu có thể tạo ra từ thông điệp định nghĩa cấu trúc mô tả tập dữ liệu hoặc siêu dữ liệu, nên nó có thể có các ánh xạ chuẩn giữa mỗi định dạng tương tự Các ánh xạ này
có thể được thực thi theo các công cụ biến đổi chung, hữu ích cho tất cả người sử dụng SDMX-ML và không quy định tập khóa của tập dữ liệu hoặc định nghĩa cấu trúc của tập siêu dữ liệu cụ thể (thậm chí có thể là một số định dạng chúng xử lý) Một phần của gói SDMX-ML là tập các ánh xạ giữa các định dạng dữ liệu tập khóa cụ thể và định dạng định nghĩa cấu trúc từ các nguồn có thể nhận được
7 Sự phù hợp
Điều này quy định các yêu cầu phải thực hiện để phù hợp với các đặc tả SDMX phiên bản 2.0 đối với các ứng dụng Điều này hướng vào các chức năng phải được hỗ trợ của ứng dụng và các nội dung tuyên bố phù hợp của người thực thi liên quan đến sự phù hợp của SDMX
7.1 Phù hợp với các đặc tả SDMX
SDMX tiêu chuẩn hóa việc trao đổi dữ liệu và siêu dữ liệu thống kê giữa các đối tác Do đó, sự phù hợp chỉ có nghĩa đối với các ứng dụng có chức năng trao đổi giữa các đối tác
7.2 Tuyên bố phù hợp của người thực thi
Để phù hợp với SDMX, thì ứng dụng đó phải có một tuyên bố phù hợp của người thực thi (ICS), quy định các chi tiết phù hợp ICS trình bày các kiểu thông điệp được hỗ trợ và cách thức hỗ trợ
Mỗi “Kiểu thông điệp” được xác định như một mục trong danh sách sau đây và nhóm được chỉ ra trong các đề mục in nghiêng:
Các kiểu thông điệp cấu trúc
Tập khóa SDMX-EDI (SDMX-EDI Key Family)
Khái niệm SDMX-EDI (SDMX-EDI Concept)
Danh sách mã SDMX-EDI (SDMX-EDI Codelist)
Tập khóa SDMX-ML (SDMX-ML Key Family)
Khái niệm SDMX-ML (SDMX-ML Concept)
Danh sách mã SDMX-ML (SDMX-ML Codelist)
Định nghĩa cấu trúc siêu dữ liệu SDMX-ML (SDMX-ML Metadata Structure Definition)
Lược đồ tổ chức SDMX-ML (thay đổi cơ quan)(SDMX-ML OrganisationScheme (replaces Agency)) Danh sách mã phân cấp SDMX-ML (SDMX-ML Hierarchical Codelist)
Tập cấu trúc SDMX-ML (SDMX-ML Structure Set)
Báo cáo nguyên tắc phân loại SDMX-ML (SDMX-ML Reporting Taxonomy)
Quá trình SDMX-ML (SDMX-ML Process)
Các kiểu thông điệp dữ liệu
Dữ liệu SDMX-EDI (SDMX-EDI Data)
Dữ liệu chung SDMX-ML (SDMX-ML Generic Data)
Dữ liệu tiện ích SDMX-ML (SDMX-ML Utility Data)
Dữ liệu cô đọng SDMX-ML (SDMX-ML Compact Data)
Dữ liệu phần giao SDMX-ML (SDMX-ML Cross-Sectional Data)