Thử nghiệm phần mềm quản lý dữ liệu vi mô vào lưu trữ và quản lý dữ liệu của tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2006. Thử nghiệm phần mềm quản lý dữ liệu vi mô vào lưu trữ và quản lý dữ liệu của tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2006
Trang 1BỘ KẾ HOẠCH VÀ ĐẦU TƯ
TỔNG CỤC THỐNG KÊ
CHUYÊN ĐỀ KHOA HỌC
THỬ NGHIỆM PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ VÀO LƯU TRỮ VÀ QUẢN LÝ DỮ LIỆU CỦA TỔNG ĐIỀU TRA NÔNG THÔN, NÔNG NGHIỆP VÀ THUỶ SẢN NĂM 2006
Người thực hiện: CN Lê Trung Hiếu
Ths Đặng Văn Phẩm Đơn vị công tác: Vụ TK Nông, lâm nghiệp và thủy sản
Hà Nội, tháng 11 năm 2008
Trang 2ĐẶT VẤN ĐỀ
Những năm gần đây, cùng với sự phát triển mạnh mẽ của nền kinh tế thị trường, xã hội ngày càng đòi hỏi nhiều thông tin thống kê cả về số lượng, chất lượng và chu kỳ Để đáp ứng yêu cầu này, bên cạnh việc thực hiện chế độ báo cáo thống kê, Tổng cục Thống kê còn tập trung thực hiện tốt các cuộc điều tra ở nhiều các lĩnh vực như: Công nghiệp và xây dựng; nông, lâm nghiệp và thủy sản; thương mại, dịch vụ và giá cả; xã hội và môi trường; tài khoản quốc gia… Với mục đích nâng cao chất lượng thông tin, phục vụ tốt hơn yêu cầu của các đối tượng dùng tin đòi hỏi các cuộc điều tra thống kê cần tăng số lượng các chỉ tiêu thống kê, mở rộng số lượng mẫu thích hợp Bên cạnh các cuộc điều tra mẫu được tiến hành hàng năm, Tổng cục còn tiến hành các cuộc tổng điều tra như: Tổng điều tra dân số và nhà ở tiến hành theo chu kỳ 10 năm 1 lần; 2 cuộc tổng điều tra nông thôn, nông nghiệp và thủy sản cùng cuộc tổng điều tra các cơ sở kinh tế được tiến hành theo chu kỳ 5 năm 1 lần Với số lượng lớn các cuộc điều tra, cùng rất nhiều các chỉ tiêu thống kê của mỗi cuộc điều tra như vậy thì công tác xử
lý, lưu trữ và quản lý số liệu là đặc biệt quan trọng, đòi hỏi phải có các phần mềm chuyên dụng cũng như chương trình quản trị dữ liệu thống nhất giữa các cuộc điều tra để giúp cho người dùng tin dễ dàng truy cập, khai thác, sử dụng số liệu ở cấp vĩ mô cũng như vi mô
Công tác lưu trữ và quản lý số liệu thống kê là một hoạt động khá quan trọng của công tác thống kê, kết quả của các cuộc điều tra thống kê rất cần được lưu trữ theo thời gian để giúp cho việc thiết kế các cuộc điều tra khác tốt hơn đồng thời cũng cho phép so sánh kết quả thu được của các cuộc điều tra ở các thời điểm khác nhau Hiện nay trên thế giới có rất nhiều các phần mềm được xây dựng để phục vụ cho công tác lưu trữ và quản lý
số liệu, trong chuyên đề này chúng tôi xin được giới thiệu một công cụ quản lý số liệu vi mô mới được phát triển bởi bộ phận dữ liệu của Ngân hàng Thế giới cho hệ thống các cuộc điều tra hộ gia đình quốc tế Phần mềm này nhằm mục đích thúc đẩy các ứng dụng của tiêu chuẩn quốc tế vào việc lập các tài liệu hướng dẫn, phổ biến và lưu trữ dữ liệu giúp cho người
sử dụng thông tin có thể biết rõ về cuộc điều tra cũng như hiểu rõ nội dung các chỉ tiêu thống kê của cuộc điều tra
Trang 3I Tiếp cận phần mềm quản lý số liệu vi mô (Microdata Management toolkit)
Để thiết lập và quản lý các bản siêu dữ liệu, bộ phận dữ liệu của Ngân hàng Thế giới cho hệ thống các cuộc điều tra hộ gia đình quốc tế đã nghiên cứu, phát triển phần mềm quản lý dữ siêu dữ liệu Phần mềm này được viết
ra nhằm mục đích thúc đẩy các ứng dụng của tiêu chuẩn quốc tế cho việc lập tài liệu hướng dẫn, phổ biến và lưu trữ dữ liệu
Phần mềm này được chia làm 3 công cụ sau:
(1) Công cụ thứ nhất được gọi là “Metadata Editor” được sử dụng để chuẩn hóa các tài liệu có liên quan theo tiêu chuẩn quốc tế về dữ liệu vi mô (DDI và Dublin Core), công cụ này cho phép người dùng có thể dưa vào số liệu vi mô của cuộc điều tra cùng các hướng dẫn, giải thích qui trình, quá trình điều tra; giải thích các chỉ tiêu trong phiếu điều tra cùng những tài liệu có liên quan khác Đồng thời với công cụ này có thể cho ra được báo cáo đầy đủ những nội dung đã khai báo về cuộc điều tra dưới dạng file Acrobat
(2) Công cụ thứ hai được gọi là “Nesstar Explor” được dùng để đọc các file do “Metadata Editor” tạo ra, công cụ này có thể cho phép người sử dụng có thể xem được số liệu vi mô và các tài liệu liên quan đến hệ thống
số liệu đồng thời nó cũng có thể chiết xuất dữ liệu ra các định dạng file phổ biến như Stata, SPSS… Hai công cụ “Metadata Editor” và “Nesstar Explor” hình thành dựa trên công nghệ Nesstar và được phát triển bởi Trung tâm dịch vụ số liệu khoa học xã hội Na Uy (NSD)
(3) Công cụ thứ 3 là “CD-ROM Builder” được sử dụng để tạo ra các sản phẩm số liệu đầu ra thân thiện với người sử dụng như là đĩa CD-Rom, đĩa DVD, trang WEB…
Metadata Editor là công cụ tạo lập các bảng siêu số liệu hoàn hảo, nó
được sử dụng để chuyển đổi, giải thích, biên tập và phổ biến số liệu vi mô cả hai công cụ CD-ROM Builder và Metadata Editor có thể sử dụng để phổ biến
số liệu cùng những tài liệu giải thích của cuộc điều tra mẫu và những tài liệu liên quan thông qua đĩa CD, DVD hoặc trang thông tin điện tử Nó cũng có thể sử dụng để phổ biến số liệu vi mô cùng với những tài liệu đi kèm lưu trữ trên Server của Nesstar và thông qua hệ thống mạng Internet người sử dụng
có thể tạo các bảng biểu và phân tích số liệu trực tuyến
Ngày nay, nguồn tài liệu điện tử phát triển nhanh chóng và phân tán nên không thể xử lý được một cách thủ công Để xử lý được hết tài liệu điện tử phân tán, người ta phải áp dụng các phương pháp tự động, sử dụng các chương
Trang 4trình đặc biệt Do tài liệu điện tử được tạo ra, thông thường không tuân thủ những quy định xuất bản truyền thống, không có những quy tắc nhất định giúp cho phép nhận dạng tự động được các yếu tố mô tả thông thường như tác giả, địa chỉ về xuất bản, thông tin về khối lượng nên cần thiết phải có những quy định thống nhất để các chương trình tự động nhận dạng và xử lý chúng theo các yêu cầu nghiệp vụ Những quy định như vậy được gọi là những quy định về siêu dữ liệu Có thể thấy hiện nay, do nhiều chương trình máy tính chỉ định chỉ
số dựa vào một số thành phần hạn chế như nhan đề hoặc toàn văn nên không
hỗ trợ những tìm kiếm đặc thù (ví dụ theo tác giả, theo chủ đề, theo lĩnh vực )
Vì thế để tạo điều kiện cho các chương trình có thể đinh chỉ số tự động theo một số yếu tố xác định, người ta phải đưa thêm vào tài liệu điện tử những thuộc tính bổ sung để tăng cường mô tả tài nguyên thông tin Các công cụ định chỉ số
tự động sẽ được lập trình để nhận dạng các thuộc tính này và định chỉ số chúng,
từ đó hỗ trợ tìm kiếm những thuộc tính đặc thù Như vậy một bản ghi metadata bao gồm một tập hợp những thuộc tính hoặc tập hợp những phần tử cần thiết để
mô tả các tài nguyên thông tin theo yêu cầu nghiệp vụ Thông thường trong hoạt động nghiệp vụ thông tin, thư viện bao gồm các yếu tố như: Nhan đề tài liệu, tác giả, thông tin về xuất bản, nơi/vị trí lưu giữ, kiểu/dạng tài liệu Công
cụ Metadata Editor được sử dụng để tạo ra các bảng siêu dữ liệu cùng với các khai báo, các tài liệu có liên quan đã được chuẩn hóa theo tiêu chuẩn quốc tế về
dữ liệu vi mô, như Data Documentation Initiative và Dublin Core (DDI và DC) Đây là hai sơ đồ chuẩn về siêu dữ liệu hiện nay trên thế giới trong việc thiết lập các siêu dữ liệu chuẩn Nội dung của việc chuẩn hóa các siêu dữ liệu theo tiêu chuẩn quốc tế có những ưu điểm sau:
+ Tạo lập và sử dụng dễ dàng: cho phép những người không chuyên
nghiệp có thể tạo các bản ghi mô tả đơn giản cho các tài nguyên thông tin và truy xuất chúng trên môi trường mạng một cách dễ dàng
+ Ngữ nghĩa dễ hiểu, sử dụng đơn giản: Việc khai thác thông tin trên
mạng internet diện rộng thường gặp trở ngại bởi những sự khác nhau về thuật ngữ và sự mô tả thực tế Việc chuẩn hóa trong tạo lập bảng siêu dữ liệu sẽ giúp những người dò tìm thông tin không chuyên có thể tìm thấy vấn đề mình quan tâm bằng cách hỗ trợ một tập hợp các phần tử thông dụng mà ngữ nghĩa của chúng được hiểu phổ biến
+ Phạm vi phổ biến: Tập hợp các phần tử được chuẩn hóa lúc đầu được
phát triển bằng tiếng Anh, nhưng hiện nay nó được câp nhật thêm với khoảng
25 ngôn ngữ khác nhau (Nhưng chưa có tiếng Việt)
+ Tính mở rộng: Những nhà phát triển đã cung cấp một cơ chế cho việc
mở rộng tập các phần tử chuẩn hóa, phục vụ nhu cầu khai thác các tài nguyên
Trang 5bổ sung Các phần từ Metadata từ những tập các phần tử khác nhau có thể liên kết với metadata chuẩn hóa Điều này cho phép các tổ chức khác nhau có thể dùng các phần tử đã chuẩn hóa để mô tả thông tin thích hợp cho việc sử dụng tài nguyên trên Internet
+ Giúp nâng cao độ chính xác của định chỉ số
+ Có khả năng liên tác (Interoperability), sử dụng lẫn nhau
+ Mở rộng thuận lợi
Mỗi yếu tố chuẩn thường được đặt tên (Element Name) và quy định nhãn (label) để sử dụng ghi vào trong thẻ meta Mỗi yếu tố được định nghĩa
cụ thể để mô tả đối tượng và có chú thích rõ ràng
Các yếu tố chuẩn trong việc khai báo tạo bảng siêu dữ liệu gồm:
1 Nhan đề (Title): Nhan đề của tài liệu
2 Tác giả (Creator): Tác giả của tài liệu, bao gồm cả tác giả cá nhân và tác giả tập thể
3 Chủ đề (Subject): Chủ đề tài liệu đề cập dùng để phân loại tài liệu
Có thể thể hiện bằng từ, cụm từ/(Khung chủ đề), hoặc chỉ số phân loại/ (Khung phân loại)
4 Tóm tắt (Description): Tóm tắt, mô tả nội dung tài liệu Có thể bao gồm tóm tắt, chú thích, mục lục, đoạn văn bản để làm rõ nội dung
5 Nhà xuất bản (Publisher): Nhà xuất bản, nơi ban hành tài liệu có thể
là tên cá nhân, tên cơ quan, tổ chức, dịch vụ
6 Tác giả phụ (Contributor): Tên những người cùng tham gia cộng tác đóng góp vào nội dung tài liệu, có thể là cá nhân, tổ chức
7 Ngày tháng (Date): Ngày, tháng ban hành tài liệu Có thể dùng chuẩn ISO 8601
8 Loại (kiểu) (Type): Mô tả bản chất của tài liệu Dùng các thuật ngữ
mô tả phạm trù kiểu: trang chủ, bài báo, báo cáo, từ điển
9 Khổ mẫu (Format): Mô tả sự trình bày vật lý của tài liệu, có thể bao gồm; vật mang tin, kích cỡ độ dài, kiểu dữ liệu (.doc, html, jpg, xls, phần mềm )
10 Định danh (Identifier): Các thông tin về định danh tài liệu, các nguồn tham chiếu đến, hoặc chuỗi ký tự để định vị tài nguyên: URL (Uniform Resource Locators) (bắt đầu bằng http://), URN (Uniform Resource Name), ISBN (International Standard Book Number),
Trang 6ISSN (International Standard Serial Number), SICI (Serial Item & Contribution Identifier),
11 Nguồn (Resource): Các thông tin về xuất xứ của tài liệu, tham chiếu đến nguồn mà tài liệu hiện mô tả được trích ra/tạo ra, nguồn cũng có thể là: đường dẫn (URL), URN, ISBN, ISSN
12 Ngôn ngữ (Language): Các thông tin về ngôn ngữ, mô tả ngôn ngữ chính của tài liệu
13 Liên kết (Relation): Mô tả các thông tin liên quan đến tài liệu khác
có thể dùng đường dẫn (URL), URN, ISBN, ISSN
14 Diện bao quát (Coverage): Các thông tin liên quan đến phạm vi, quy
mô hoặc mức độ bao quát của tài liệu Phạm vi đó có thể là địa điểm, không gian hoặc thời gian, tọa độ
15 Bản quyền (Right): Các thông tin liên quan đến bản quyền của tài liệu Công cụ tạo lập siêu dữ liệu (Metadata Editor) sẽ ghi các dữ liệu hoặc siêu dữ liệu ở các file đơn lẻ với định dạng file Nesstar, file này không thể mở được bởi các phần mềm tiêu chuẩn hiện có, bởi vậy đi kèm với phần mềm tạo lập siêu dữ liệu là một modul đọc file Nesstar miễn phí gọi là Nesstar Explorer Modul này cung cấp cho người sử dụng để xem các bảng siêu dữ liệu và có thể xuất siêu dữ liệu ra các định dạng file thống kê phổ biến như SPSS, STATA, SAS… Công cụ không cho phép người sử dụng sửa đổi dữ liệu hoặc siêu dữ liệu Nhưng người sản xuất dữ liệu lại muốn có sự thân thiện hơn với người dùng số liệu vì vậy sản phẩm không chỉ có dữ liệu hoặc siêu dữ liệu mà cần có các các tài liệu liên quan đến việc hình thành dữ liệu, các bản giải thích các chỉ tiêu của bảng dữ liệu… Để giải quyết vấn đề này cùng với phần mềm sẽ có thêm một modul là CD-ROM Builder
CD-ROM Builder như là một công cụ để người sản xuất số liệu đóng gói toàn bộ sản phẩm tạo ra qua Metadata Editor Từ những khai báo cho bảng dữ liệu hoặc siêu dữ liệu theo chuẩn Dublin Core Metadata, công cụ này sẽ tổng hợp các khai báo đó và tạo ra siêu văn bản (HTML), cùng với bảng siêu dữ liệu sẽ được phổ biến đến người sử dụng dữ liệu thông qua đĩa CD-ROM, DVD, intranet hoặc Internet Mặc dù ban đầu nó được thiết kế như một công
cụ cho phổ biến số liệu vi mô, nhưng nó cũng có thể sử dụng cho việc lưu trữ
dữ liệu và siêu dữ liệu
Trang 7II Đánh giá thực trạng việc quản lý dữ liệu vi mô của một số cuộc điều tra trong Tổng cục Thống kê
Hiện nay, mối quan hệ giữa sản xuất thông tin thống kê và người dùng tin không chỉ là quan hệ phiến diện, một chiều, trong đó người sản xuất chỉ sản xuất mà không quan tâm thông tin đó được sử dụng như thế nào, hoặc
có được sử dụng hay không, hay người dùng tin chỉ biết đưa ra yêu cầu đòi hỏi phải được đáp ứng mà không cần biết khả năng và điều kiện hiện có của người sản xuất Thông tin thống kê trở thành một loại hàng hoá công cộng, có cung và cầu xác định Do đó, chất lượng thông tin được xác định bởi mức độ phù hợp, tính chính xác, tính kịp thời, tính đầy đủ, tính chặt chẽ, sự minh bạch và khả năng tiếp cận thông tin Để có những thông tin thống kê có chất lượng, phục vụ tốt cho đa dạng các đối tượng dùng tin thì đòi hỏi Tổng cục Thống kê cần cải thiện và nâng cao chất lượng, hiệu quả của việc cung cấp thông tin cho người sử dụng trên phạm vi toàn quốc Những năm gần đây, Tổng cục thống kê đã có những bước đi quan trọng theo hướng đẩy mạnh ứng dụng các kỹ thuật tin học vào việc xây dựng các cơ sở dữ liệu (CSDL) cho ngành ở các lĩnh vực và từng bước đưa các CSDL này phục vụ cho các yêu cầu về thông tin thống kê đang ngày một đa dạng của các đối tượng dùng tin
Từ năm 1997, Trung tâm Tin học thống kê đã phối hợp với các đơn vị thuộc Tổng cục Thống kê từng bước xây dựng và phát triển các cơ sở dữ liệu thống kê chạy trong mạng LAN thuộc mạng GSOnet Hiện tại trên GSOnet có 2 loại cơ sở dữ liệu vi mô là:
1 Cơ sở dữ liệu vi mô của các cuộc tổng điều tra: Cơ sở này sẽ lưu trữ
dữ liệu gốc của các cuộc Tổng điều tra sau khi thông tin đã được làm sạch, hiện tại các CSDL này được lưu trữ trên mạng nội bộ của Tổng cục Thống
kê, bao gồm:
- Số liệu mẫu 3% tổng điều tra dân số và nhà ở thời điểm 1-4 - 1999
- Số liệu tổng điều tra dân số và nhà ở thời điểm 1-4 - 1999
- Số liệu tổng điều tra nông thôn nông nghiệp và thủy sản năm 2001
- Số liệu tổng điều tra cơ sở kinh tế-hành chính sự nghiệp năm 2002
2 Cơ sở dữ liệu ban đầu từ một số cuộc điều tra được lưu trữ ở Tổng cục hoặc các vụ dưới dạng file SPSS hoặc STATA, như dữ liệu của các cuộc điều tra:
- Điều tra Y tế Quốc gia 2001-2002
Trang 8- Điều tra biến động dân số hàng năm (2001, 2002, 2003, 2004)
- Điều tra khảo sát mức sống hộ gia đình (2002, 2004, 2006)
Cơ sở dữ liệu vi mô lưu giữ dữ liệu chi tiết của từng phiếu điều tra nên
để khai thác các CSDL vi mô này có thể thông qua chương trình ứng dụng viết trên ngôn ngữ lập trình, phần mềm phân tích thống kê hoặc tạo kết nối ODBC và có thể khai thác qua 3 cách sau:
+ Cách 1: Khai thác bằng Excel
+ Cách 2: Khai thác bằng SPSS
+ Cách 3: Khai thác bằng Query analyzer
Ở các Cục Thống kê tỉnh, thành phố trực thuộc Trung ương thì việc xử
lý số liệu các cuộc điều tra thống kê hàng năm hầu như đều làm thủ công bằng Exel trong công tác nhập tin, suy rộng kết quả điều tra, có 1 số ít các cục tự thiết kế phần mềm nhập tin, suy rộng kết quả điều tra bằng ngôn ngữ lập trình Fox hoặc Acess Kết quả điều tra mới chỉ dừng ở giai đoạn làm số liệu tổng hợp gửi cho Tổng cục Thống kê, còn số liệu gốc của các cuộc điều tra không được các đơn vị xây dựng thành CSDL mà hầu như nằm phân tán trên các máy PC ở các phòng nghiệp vụ của cục thống kê hoặc phòng thống kê cấp huyện, một số cục Thống kê lưu trữ trên Server của mạng nội bộ Nhiều cục thống kê không có cán bộ chuyên trách công nghệ thông tin (CNTT), cán bộ quản lý số liệu doanh nghiệp hàng năm thay đổi Nền tảng CNTT của các cục thống kê còn yếu, máy PC hư hỏng thường xuyên Do vậy hiện tại số liệu các cuộc điều tra hàng năm không lưu trữ được đầy đủ Việc khai thác chuyên sâu số liệu điều tra mới chỉ phát huy hiệu quả đối với các Cục TK có cán bộ CNTT chuyên trách, ở các địa phương này cán bộ CNTT có thể sử dụng thành thạo SPSS, Excel, , hoặc phát triển các phần mềm ứng dụng để khai thác số liệu, còn lại các cục thống kê khác chỉ dừng lại ở mức sử dụng kết quả tổng hợp, bởi trình độ CNTT của cán bộ còn thấp chưa thể tiếp cận hoặc chưa biết cách khai thác sâu vào số liệu gốc Mặt khác CSDL các cuộc điều tra do Tổng cục xây dựng chung cho toàn quốc thì lại chỉ lưu trữ trên mạng nội bộ của Tổng cục, các Cục thống kê chưa thể tiếp cận, khai thác được
Thực trạng quản lý dữ liệu vi mô của cuộc Tổng điều tra Nông thôn, nông nghiệ và thủy sản năm 2006:
Cuộc tổng điều tra Nông nghiệp, Nông thôn và Thủy sản năm 2006 được tiến hành nhằm thu thập những thông tin cơ bản về Nông nghiệp, Nông thôn và Thủy sản, nhằm phục vụ yêu cầu của các ngành, các cấp
Trang 9trong việc đánh giá thực trạng, xu hướng biến đổi trong những năm qua và xây dựng chỉ đạo chiến lược, kế hoạch phát triển Nông nghiệp, Nông thôn
và Thủy sản của cả nước cũng như từng địa phương Kết quả Tổng điều tra còn là căn cứ để đánh giá tình hình thực hiện các chương trình mục tiêu quốc gia trong quá trình đẩy mạnh công nghiệp hóa hiện và đại hóa Nông nghiệp, Nông thôn
Để phục vụ các thuận tiện cho mọi đối tượng dùng tin trong và ngoài ngành có thể khai thác hiệu hiệu quả số liệu Tổng điều tra NT, NN và TS năm 2006 Được Tổng cục giao nhiệm vụ, Trung tâm tin học Thống kê đã phối hợp với Vụ Thống kê Nông, lâm và thuỷ sản, xây dựng các CSDL vi
mô như sau :
- Đĩa CD Rom vi mô dữ liệu điều tra;
- CSDL vi mô dữ liệu điều tra: Gồm CSDL đầy đủ và CSDL rút gọn
1 Đĩa CD Rom vi mô số liệu điều tra
Đây là đĩa CD Rom lưu giữ toàn bộ các chỉ tiêu điều tra của 13 loại phiếu cho từng tỉnh, cùng với ứng dụng khai thác số liệu thông qua phần mềm IMPS, cho phép người dùng tin tự động chiết suất lập các biểu tổng hợp chéo giữa các chỉ tiêu theo lựa chọn của người dùng tin mà không phụ thuộc vào mẫu biểu tổng hợp cố định
Giao diện của đĩa CD Rom như sau :
Trang 10* Ứng dụng có hai chức năng chính:
- Từ điển dữ liệu : Nhằm cung cấp cho người sử dụng bộ từ điển dữ liệu cho tất cả các các chỉ tiêu trong phiếu điều tra Mỗi phiếu điều tra được thiết kế thành các bảng dữ liệu theo từng mục của từng phần qua các mô tả: Tên chỉ tiêu, tên biến, kiểu dữ liệu, độ dài , số dấu phẩy
Mỗi chỉ tiêu đã được định nghĩa sẵn các giá trị số theo từng câu hỏi, hoặc định nghĩa thêm về qui mô chỉ tiêu theo từng nhóm giá trị Người sử dụng có thể sửa đổi lại hoặc bổ sung thêm các định nghĩa này tùy theo yêu cầu khai thác thông tin
- Khai thác: Nhằm cung cấp cho người sử dụng công cụ tự lập các bảng biểu tổng hợp theo lựa chọn của mình Chức năng này cho phép lập ra
1 bảng biểu tối đa 5 chỉ tiêu chéo nhau gồm : 2 chỉ tiêu cho dòng, 2 chỉ tiêu cho cột và 1 chỉ tiêu để tổng hợp giá trị, đồng thời cho phép lựa chọn điều kiện, phạm vi của chỉ tiêu cần tổng hợp thông qua lựa chọn <điều kiện> trên Form Biểu tổng hợp cũng cho phép tính toán tỷ lệ % theo hàng hoặc theo cột tùy theo sự lựa chọn
2 Cơ sở dữ liệu vi mô số liệu điều tra
Đây là CSDL được thiết kế và xây dựng trên mạng của Tổng cục Thống kê về số liệu gốc của 63 tỉnh cho 13 loại phiếu với số lượng 14,5 triệu đơn vị điều tra như sau :
Nội dung của CSDL được xây dựng trên hệ quản trị CSDL SQL server
và cài đặt trên mạng của Tổng cục Thống kê Dữ liệu trong CDSL là dữ liệu gốc các chỉ tiêu điều tra của các hộ, các cơ sở Nông, lâm, thuỷ sản trong cả nước bao gồm các chỉ tiêu định danh (tên chủ cơ sở, địa chỉ) và các chỉ tiêu số liệu về tình hình hoạt động trong lĩnh vực Nông, lâm, thuỷ sản
Dung lượng thông tin được lưu giữ trong CSDL (khoảng 15 GB)
Trang 11Trung tâm Tin học Thống kê đã xây dựng thành 2 CSDL nhằm phục
vụ người dùng tin khai thác CSDL thuận tiện, đồng thời bảo đảm tính bảo mật thông tin các cơ sở điều tra theo luật Thống kê đã ban hành: CSDL đầy
đủ và CSDL rút gọn
- CSDL đầy đủ được lưu giữ toàn bộ các chỉ tiêu điều tra từ 14,5 triệu
cơ sở (bao gồm cả các chỉ tiêu định danh) CSDL này được cài đặt trên mạng GSO và chỉ phân quyền khai thác CSDL này cho Lãnh đạo Tông cục Thống kê và Vụ Thống kê Nông, lâm và thuỷ sản
- CSDL rút gọn được lưu giữ toàn bộ các chỉ tiêu điều tra từ 14,5 triệu
cơ sở (không bao gồm các chỉ tiêu định danh) CSDL này cũng được cài đặt trên mạng GSO và phân quyền khai thác CSDL cho toàn bộ cán bộ trong TCTK và cán bộ thống kê của các địa phương Ngoài ra các đối tượng nghiên cứu của các Viện, Bộ, Ban, ngành ở Trung ương và địa phương khi
có nhu cầu khai thác CSDL rút gọn này cũng sẽ được cung cấp một ID, Password để có thể truy cập vào CDSL
Phần mềm khai thác CSDL được xây dựng trên nền tảng công nghệ NET Frame work 2.0 (ngôn ngữ lập trình Visual Studio.Net - VB.NET) CSDL chạy trên hệ điều hành Windows server 2003
Ứng dụng khai thác CSDL được phát triển trên nền giao diện Webside
và trực tiếp khai thác từ cổng vào Internet qua đường Link:
http://www.thongke\CSDL_VIMO\Default.htm
Nội dung CSDL vi mô số liệu điều tra gồm 3 phần :
- Phần giới thiệu : Quyết định điều tra của Thủ tướng Chính phủ, phương án, mẫu phiếu điều tra do TCTK biên soạn nhằm giúp cho người dùng tin tham khảo nội dung chi tiết các chỉ tiêu điều tra được thiết kế trên từng loại phiếu, qua đó có thể dễ dàng tham chiếu tới chỉ tiêu của phiếu điều tra để truy vấn thông tin
- Phần dữ liệu: Là dữ liệu gốc của 14.5 triệu đơn vị điều tra của 63 tỉnh được lưu giữ tại các bảng dữ liệu được thiết kế trong CSDL với dung lượng hơn 15 GM
- Phần khai thác:
+ Khai thác trực tiếp tới từng chỉ tiêu điều tra của từng đơn vị điều tra (kể cả chỉ tiêu định danh của đơn vị nếu như người khai thác được phân quyền khai thác CSDL)
+ Lập các bảng biểu tổng hợp từ các chỉ tiêu lưu giũ trong CSDL
Trang 12+ Khai thác các chỉ tiêu hoặc lập bảng biểu tổng hợp theo điều kiện tuỳ thuộc vào yêu cầu của người khai thác (Phạm vi dữ liệu, điều kiện của
dữ liệu thông qua dấu phép toán như: dấu = , > , < , hoặc các quan hệ của
dữ liệu thông qua phép toán Logic OR, AND)
+ Kết quả khai thác hoặc lập bảng biểu tổng hợp sẽ hiện trên màn hình + Chiết xuất kết quả khai thác hoặc lập bảng biểu tổng hợp ra file Excel
Từ thực trạng việc quản lý, lưu trữ, khai thác dữ liệu các cuộc điều tra thống kê hàng năm hiện nay tại Tổng cục Thống kê và các cục thống kê địa phương Với yêu cầu ngày càng cao về thông tin thu thập từ các cuộc điều tra ở nhiều các lĩnh vực khác nhau của Chính phủ và các Bộ, ban ngành, các địa phương, các đối tượng dùng tin khác, cùng việc phục vụ trực tiếp các công việc chuyên môn của các đơn vị trong Tổng cục ở các thời điểm khác nhau Thực tế khi thực hiện các công việc chuyên sâu của các chuyên ngành trong Tổng cục đã đòi hỏi các cán bộ của Tổng cục phải hiểu rõ về
bộ số liệu như: các chỉ tiêu, cách thức, phạm vi thu thập để có thể tự lập các bảng biểu tổng hợp từ số liệu gốc trong thời gian ngắn nhất
III Thử nghiệm phần mềm quản lý dữ liệu vi mô cho cuộc Tổng điều tra nông thôn, nông nghiệp và thuỷ sản năm 2006
Phần mềm quản lý dữ liệu vi mô (Microdata Management toolkit) được phát triển bởi bộ phận dữ liệu của Ngân hàng Thế giới cho hệ thống các cuộc điều tra hộ gia đình quốc tế Ưu điểm của phần mềm này các dữ liệu vi mô của cuộc điều tra có thể được lưu trữ một cách khoa học trên mạng và có thể khai thác qua Internet hoặc cũng có thể lưu trữ trên các sản phẩm đĩa CD, DVD Các sản phẩm được dữ liệu đầu ra tạo ra từ phần mềm cơ bản đã đáp ứng yêu cầu của các đối tượng sử dụng Các sản phẩm này đã được chuẩn hóa và đây là cơ sở cho việc xác định đầu vào thể hiện trên các chỉ tiêu thống kê cần thu thập Việc chuẩn hóa sản phẩm đầu ra là một biện pháp tích cực nhằm nâng cao hiệu quả của việc thu thập thông tin tránh được tình trạng phổ biến hiện nay trong ngành Thống kê là không khai thác hết thông tin đầu vào qua các cuộc điều tra gây nên một sự lãng phí quá lớn do không căn cứ vào yêu cầu của thông tin đầu ra nhưng lại nhiều khi không thu thập đủ thông tin để đáp ứng yêu cầu sản xuất thông tin đầu ra Việc chuẩn hoá các thông tin qua phần mềm này sẽ giúp cho người sử dụng thông tin hiểu biết được cặn kẽ về cuộc điều tra như phạm
vi, đối tượng điều tra, hiểu rõ được các chỉ tiêu thống kê mà mình dùng Để
có thể hiểu rõ hơn chúng tôi xin trình bày việc thử nghiệm phần mềm này
Trang 13Hiện tại phần mềm này chưa có phiên bản tiếng Việt nên trong quá trình thử nghiệm phần mềm trong công tác quản lý dữ liệu vi mô của cuộc Tổng điều tra Nông thôn, nông nghiệp và thuỷ sản năm 2006, chúng tôi sẽ khai báo các thông tin liên quan bằng tiếng Anh Sau đây, bằng những kết quả thực tế trong việc ứng dụng chúng tôi xin đưa ra các bước thực hiện để đưa ra một sản phẩm dữ liệu vi mô hoàn chỉnh:
(1) Metadata Editor: Sau khi đã cài đặt xong phần mềm này với các
thông số mặc định, bạn có thể nhìn thấy công cụ quản lý số liệu vi mô và biểu tượng của Metadata Editor trong menu của chương trình Để dễ dàng cho việc sử dụng bạn có thể đưa biểu tượng của công cụ ra màn hình nền Khi ứng dụng được khởi động, người sử dụng có thể thấy được giao diện của công cụ này như sau:
Phía dưới “My Project” bạn có thể tạo các nhóm, dưới nhóm là các nghiên cứu của từng nhóm Để tạo một nhóm mới ta có thể kích chuột vào
vào label để đổi tên nhóm Khi đã tạo được một nhóm mới, dưới mỗi nhóm
ta có thể tạo một hoặc nhiều các nghiên cứu, mỗi nghiên cứu sẽ là một cuộc điều tra mẫu hoặc tổng điều tra trong lĩnh vực của nhóm Để tạo một nghiên cứu mới ta có thể vào thư mục file trên thanh công cụ, vào add new
nghiên cứu mới
Thực tế ứng dụng: Kích chuột và biểu tượng add group ta tạo ra một nhóm với tên Agricultural data, dưới nhóm ta tạo ra một nghiên cứu với tên AC2006_V1.0 bằng cách kích chuột vào biểu tượng add new study Trong