1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và đề xuất giải pháp ứng dụng phần mềm quản lý dữ liệu vi mô (Microdata management) vào việc lưu trữ và khai thác số liệu các cuộc điều tra của Tổng cục Thống kê.

68 593 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 859,39 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

(Liệt kê và mô tả những nội dung cần nghiên cứu, nêu bật được những nội dung mới và phù hợp để giải quyết vấn đề đặt ra, kể cả những dự kiến hoạt động phối hợp để chuyển giao kết quả nghiên cứu). Nghiên cứu phần mềm Quản lý dữ liệu vi mô, nghiên cứu khả năng ứng dụng phần mềm này vào việc lưu trữ thông tin của các cuộc điều tra của Tổng cục Thống kê. Đánh giá việc quản lý dữ liệu vi mô của một số cuộc điều tra trong Tổng cục Thống kê; Thử nghiệm phần mềm Quản lý dữ liệu vi mô cho Khảo sát mức sống hộ gia đình năm 2006 và Tổng điều tra Nông thôn, Nông nghiệp và Thủy sản năm 2006

Trang 1

BỘ KẾ HOẠCH VÀ ĐẦU TƢ

TỔNG CỤC THỐNG KÊ

BÁO CÁO TỔNG HỢP ĐỀ TÀI KHOA HỌC

NGHIÊN CỨU KHẢ NĂNG ỨNG DỤNG PHẦN MỀM QUẢN LÝ

DỮ LIỆU VI MÔ (MICRODATA MANAGEMENT) VÀO VIỆC

LƯU TRỮ, QUẢN LÝ VÀ CÔNG BỐ SỐ LIỆU

Đơn vị chủ trì : Viện Khoa học Thống kê

Đơn vị quản lý : Đoàn Thanh niên Cộng sản Hồ Chí Minh

Cơ quan Tổng cục Thống kê Chủ nhiệm đề tài : CN Nguyễn Quang Phương

Thư ký khoa học : CN Nguyễn Phương Anh

Thư ký hành chính : Ths Phạm Xuân Lượng

Hà Nội, năm 2008

Trang 2

MỤC LỤC

Lời nói đầu 3

Phần I TIẾP CẬN PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ 6

I Module quản trị Metadata Editor và ứng dụng 7

1 Đưa một bộ dữ liệu của một cuộc điều tra vào lưu trữ trong Microdata Management 9

2 Đưa các thông tin chung về một cuộc điều tra vào cơ sở dữ liệu: 10

3 Đưa các văn bản, tài liệu liên quan vào quản lý chung với database: 13

II Nesstar Explorer xem và khai thác cơ sở dữ liệu 14

1 Xem database 15

2 Chiết suất/export data: 17

3 Chiết suất/export metadata: 18

III Sử dụng CD-ROM Builder để tạo đĩa CD 19

Phần II THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU VI MÔ CỦA MỘT SỐ CUỘC ĐIỀU TRA TRONG TỔNG CỤC THỐNG KÊ 23

1 Hiện trạng về thiết bị tin học, hạ tầng truyền thông, phần mềm hệ thống và ứng dụng CNTT trong ngành Thống kê 24

2 Hiện trạng việc quản lý CSDL vi mô của một số cuộc điều tra tại ngành Thống kê 27

3 Đánh giá hiện trạng 35

Phần III THỬ NGHIỆM PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ VÀO TỔNG ĐIỀU TRA NÔNG THÔN, NÔNG NGHIỆP, THỦY SẢN 2006 VÀ KHẢO SÁT MỨC SỐNG HỘ GIA ĐÌNH 2006 38

I Tổng điều tra Nông thôn, Nông nghiệp Thủy sản năm 2006 38

II Khảo sát Mức sống hộ gia đình Việt Nam năm 2006 45

1 Mô tả cơ sở dữ liệu vi mô và các tài liệu liên quan của Khảo sát mức sống hộ gia đình 2006 45

2 Thử nghiệm Microdata Managerment để lưu trữ và quản lý cơ sở dữ liệu của Khảo sát mức sống hộ gia đình 2006 51

III Các khó khăn gặp khi ứng dụng phần mềm Microdata management 63

KẾT LUẬN VÀ KIẾN NGHỊ 64

Trang 3

Lời nói đầu

Trong những năm trước đây Ngành Thống kê và một số Bộ/ngành khác

đã tiến hành rất nhiều cuộc điều tra thống kê về các chuyên đề Nhiều cuộc điều tra công tác lưu trữ thông tin chưa thực sự tốt, một số khác việc lưu trữ thông tin tương đối tốt nhưng vẫn chưa thực sự đầy đủ và khoa học vì khối lượng thông tin liên quan là rất nhiều và được lưu trữ dưới nhiều dạng khác nhau, một số tài liệu được lưu ở dạng bản in, một số lưu ở phần mềm word, excel, epiinfo, lotus, spss, stata v.v…

Các thông tin liên quan đến quản lý của các cuộc điều tra chưa được quản

lý và lưu trữ, các thông tin này chưa được chia sẻ và việc tra cứu đôi khi gặp khó khăn và thường được lưu trữ ở các đơn vị nghiệp vụ chịu trách nhiệm tiến hành các cuộc điều tra nói trên

Việc công bố số liệu hiện nay cũng là một vấn đề lớn đối với những nhà sản xuất ra số liệu, làm cách nào để số liệu đến được với người dùng tin và bằng cách nào nhanh và dễ dàng nhất cũng đang được quan tâm

Cơ sở dữ liệu vi mô mới được xây dựng cho một số cuộc điều tra lớn của ngành như Tổng điều tra Dân số và Nhà ở, Tổng điều tra Nông thôn, Nông nghiệp và Thủy sản, Điều tra Biến động dân số và Kế hoạch hóa gia đình, Khảo sát Mức sống Hộ gia đình Các cuộc điều tra này có được thông tin đầy đủ và hệ thống hóa nên xây dựng được cơ sở dữ liệu vi mô

Trong thực trạng như vậy việc có một phần mềm quản lý dữ liệu mang tính đầy đủ và hệ thống là rất cần thiết

Trước đây đã có một số phần mềm lưu trữ được thông tin siêu dữ liệu, trong đó điển hình có phần mềm VietInfo được phát triển từ phần mềm DevInfo nhưng phần mềm cũng chưa đáp ứng được yêu cầu về lưu trữ dữ liệu vi mô Trong phần mềm này mới chỉ lưu trữ được các thông tin siêu dữ liệu về các chỉ

số được lưu trữ trong bộ số liệu, không lưu trữ được số liệu thô và các thông tin liên quan đến cuộc điều tra

Việc công bố số liệu kết quả của các cuộc điều tra đôi khi chưa đủ đáp ứng được nhu cầu phân tích sâu của người dùng tin, nhất là các nhà nghiên cứu

Vì vậy, việc công bố thông tin đầy đủ về cuộc điều tra là rất cần thiết để đáp ứng được nhu cầu đó và phát huy tối đa hiệu quả của các cuộc điều tra thống kê

Trang 4

Phần mềm Microdata Managerment có ưu thế hơn một số phần mềm khác

và đáp ứng tốt nhất công việc quản lý dữ liệu vi mô Đây là phần mềm giúp chúng ta lưu trữ, quản lý và công bố số liệu thống kê, đặc biệt phù hợp với quản

lý dữ liệu vi mô của các cuộc điều tra

Tất cả các thông tin đều được lưu trữ trên cùng một hệ thống sẽ giúp đơn giản hóa công tác quản lý và giúp chúng ta dễ dàng khai thác Đặc biệt hơn, phần mềm này cung cấp công cụ xuất số liệu thô ra các định dạng file khác nhau tùy thuộc nhu cầu của người sử dụng số liệu

Phần mềm này mới đây đã có hỗ trợ phiên bản web nên càng phát huy tính ưu việt trong việc công bố số liệu, đưa số liệu đến tay người dùng tin trong nước cũng như ngoài nước nhanh nhất và đầy đủ nhất

Về nhân lực, dự án Hỗ trợ giám sát phát triển kinh tế-xã hội do UNDP tài trợ cho Tổng cục Thống kê đã giới thiệu cho nhiều cán bộ thuộc hầu hết các đơn

vị trong Tổng cục về phần mềm quản lý dữ liệu vi mô này Vì vậy, việc ứng dụng vào thực tế quản lý dữ liệu vi mô các cuộc điều tra là có cơ sở

Mục tiêu nghiên cứu của đề tài là ứng dụng phần mềm Quản lý dữ liệu vi

mô vào việc lưu trữ số liệu và các thông tin liên quan đến một số cuộc điều tra

do Tổng cục Thống kê tiến hành Qua đó đề xuất ứng dụng phần mềm này trong lưu trữ và quản lý thông tin của các cuộc điều tra có dữ liệu vi mô trong ngành Thống kê

Đề tài sử dụng phương pháp nghiên cứu các tài liệu liên quan đến đề tài, tình hình ứng dụng trong nước và ngoài nước của phần mềm ứng dụng Sau đó nghiên cứu tiếp cận phần mềm và ứng dụng cho 2 cuộc điều tra là Khảo sát Mức sống hộ gia đình Việt Nam năm 2006 và Tổng điều tra Nông thôn, nông nghiệp

và thủy sản

Sau đó tổ chức hội thảo tiếp thu ý kiến của các chuyên gia và các đoàn viên, thanh niên trong cơ quan Tổng cục, các chuyên gia thuộc Viện Khoa học Thống kê và các vụ nghiệp vụ trong Tổng cục Thống kê góp ý hoàn thiện đề tài

Nội dung của báo cáo tổng hợp được chia làm 3 phần:

Phần I Tiếp cận phần mềm Quản lý dữ liệu vi mô

Phần II Thực trạng công tác quản lý dữ liệu vi mô của một số cuộc điều tra trong Tổng cục Thống kê

Trang 5

Phần III Thử nghiệm phần mềm Quản lý dữ liệu vi mô vào lưu trữ, quản

lý dữ liệu của Tổng điều tra Nông thôn, Nông nghiệp và Thủy sản năm 2006 và Khảo sát Mức sống hộ gia đình năm 2006

Các thành viên thực hiện chính của đề tài gồm:

- Nguyễn Quang Phương – chủ nhiệm đề tài;

- Nguyễn Phương Anh – thư ký khoa học;

- Phạm Xuân Lượng – thư ký hành chính;

- Lê Trung Hiếu – thành viên;

- Đặng Văn Phẩm – thành viên;

- Cao Quang Thành – thành viên;

- Nguyễn Thế Quân – thành viên;

- Đỗ Thị Thúy – thành viên;

- Phạm Văn Cần – thành viên

Trang 6

Phần I TIẾP CẬN PHẦN MỀM QUẢN LÝ DỮ LIỆU VI MÔ

Phần mềm Microdata Managerment là phần mềm được phát triển bởi bộ phận số liệu của Ngân hàng Thế giới nhằm lưu trữ thông tin về các cuộc điều tra

hộ gia đình cho các quốc gia

Đây là phần mềm được thiết kế riêng cho việc lưu trữ các thông tin về các cuộc điều tra hộ gia đình và tư liệu hóa các bộ số liệu Nó không cung cấp các chức năng tổng hợp, phân tích số liệu mà chỉ đơn thuần lưu trữ thông tin một cách khoa học và đầy đủ nhất

Phần mềm này cũng cung cấp một số công cụ để người sử dụng có thể dễ dàng chiết suất dữ liệu thô được lưu trong phần mềm ra các định dạng file khác nhau để từ đó sử dụng các chương trình phân tích thích hợp, quen thuộc cho người sử dụng

Phần mềm Microdata Managerment có ưu thế hơn một số phần mềm khác

và đáp ứng tốt nhất công việc quản lý dữ liệu vi mô Đây là phần mềm giúp chúng ta lưu trữ, quản lý và công bố số liệu thống kê, đặc biệt phù hợp với quản

lý dữ liệu vi mô của các cuộc điều tra

Tất cả các thông tin đều được lưu trữ trên cùng một hệ thống sẽ giúp đơn giản hóa công tác quản lý và giúp chúng ta dễ dàng khai thác Đặc biệt hơn, phần mềm này cung cấp công cụ xuất số liệu thô ra các định dạng file khác nhau tùy thuộc nhu cầu của người sử dụng số liệu

Phần mềm này mới đây đã có hỗ trợ phiên bản web nên càng phát huy tính ưu việt trong việc công bố số liệu, đưa số liệu đến tay người dùng tin trong nước cũng như ngoài nước nhanh nhất và đầy đủ nhất

Microdata Management là một bộ công cụ bao gồm 4 module:

1 Metadata Editor là module cho nhà quản trị dữ liệu để xây dựng cơ sở

dữ liệu vi mô về các cuộc điều tra, các tài liệu có liên quan đầu vào sẽ được chuẩn hóa theo tiêu chuẩn quốc tế về dữ liệu vi mô (DDI và Dublin Core), các thông tin đầu vào là các thông tin đầy đủ, từ các công văn liên quan, bảng câu

Trang 7

hỏi, các tài liệu hướng dẫn, bộ số liệu thô đến các chương trình nhập tin, làm sạch số liệu và các chương trình phân tích, các báo cáo kết quả đầu ra v.v

2 Nesstar Explorer là module dành cho người sử dụng cơ sở dữ liệu,

công cụ này dùng để đọc các file do Metadata Editor tạo ra, cho phép người sử

dụng có thể xem được số liệu vi mô và các tài liệu liên quan đến bộ số liệu đồng thời cung cấp chức năng chiết xuất dữ liệu ra các định dạng file phổ biến như Stata, SPSS… tùy theo sở trường của người sử dụng

3 CD-ROM Builder module này cho phép ta tạo ra các sản phẩm số liệu

đầu ra thân thiện với người sử dụng như là đĩa CD-Rom, đĩa DVD, … người sử dụng có thể khai thác trực tiếp trên đĩa mà không cần cài đặt phần mềm

Metadata Editor hoặc Nesstar Explorer

4 NADA Cũng có nhiệm vụ tạo ra sản phẩm đầu ra giống như CD-Rom Builer, phần mềm NADA là module công cụ tạo nên sản phẩm trên các trang

Web Nhà quản trị có thể lựa chọn các quyền truy cập và sử dụng số liệu

Yêu cầu cài đặt của phần mềm:

Microsoft Windows NT hoặc XP;

Bộ nhớ hệ thống tối thiểu (RAM) 256Mb;

Dung lượng trống của ổ đĩa cứng tối thiểu 300Mb;

Độ phân giải màn hình 1024x768;

Tuy nhiên để phần mềm chạy tốt hơn khuyến khích dùng máy cấu hình cao hơn như: RAM từ 512Mb đến 1Gb; dung lượng trống của ổ đĩa cứng phù hợp với bộ dữ liệu muốn lưu trữ và độ phân giải màn hình cao hơn, tốt nhất là màn hình rộng (16:9)

I Module quản trị Metadata Editor và ứng dụng

Hiện nay Việt Nam cũng như phổ biến trên thế giới công nghệ thông tin

đã đi sâu vào trong đời sống nên hầu hết các công việc đã được điện tử hóa Tại Tổng cục Thống kê các tài liệu điều tra cũng được điện tử hóa gần như toàn bộ

Trang 8

Việc lưu trữ thông tin của các cuộc điều tra này chưa được tập trung và quản lý theo hệ thống, mỗi đơn vị chịu trách nhiệm của các cuộc điều tra quản lý

dữ liệu của cuộc điều tra đó theo cách riêng Vì vậy, nhất thiết các thông tin cần phải được quản lý đồng bộ hóa

Metadata Editor cho phép người quản trị dữ liệu đưa các dữ liệu ở các dạng khác nhau vào và đồng bộ hóa trong hệ thống này Các tài liệu đó được chuẩn hóa theo một chuẩn chung Quốc tế có định dạng Data Documentation Initiative và Dublin Core – chuẩn về siêu dữ liệu hiện nay trên thế giới

Module này có giao diện thân thiện, dễ dàng cho người nhập dữ liệu đưa

dữ liệu vào và khai báo thông tin Hay nói cách khác

Trước khi tiến hành nhập dữ liệu của một cuộc điều tra nào đó ta phải tập hợp được toàn bộ các yếu tố đầu vào

Trang 9

1 Đưa một bộ dữ liệu của một cuộc điều tra vào lưu trữ trong Microdata Management

Toàn bộ cơ sở dữ liệu và các siêu dữ liệu đầu vào liên quan đến cuộc điều

tra sẽ được ghi lại trong một file có phần mở rộng là nesstar Metadata Editor

gọi đây là một Project, hay 1 cơ sở dữ liệu

Mỗi một Project lưu trữ thông tin của một bộ dữ liệu của một cuộc điều

vào label để đổi tên Mỗi tên này sẽ lưu trữ thông tin về dữ liệu vi mô của một cuộc điều tra mẫu hoặc tổng điều tra

Một project có thể được tạo ra bằng 2 cách, nếu ta chưa có data file, ta có

Nếu ta đã có data files, ta có thể tạo một cơ sở dữ liệu mới bằng cách kích chuột

SPSS (.sav, por), Stata 7 and Stata 8 (.dta), Statistica (.sta), SAS (.sp1), ASCII delimited (.txt, csv), and others (.dbf, dif, nsf)

Chọn File > Import Study từ thanh công cụ chính hoặc kích và biểu tượng

tương tự phần trên Khi cửa sổ chứa file dữ liệu dạng Stata hiện ra, chọn các file cần đưa vào project, ta có thể chọn tất cả hoặc chọn từng file

Trang 10

2 Đưa các thông tin chung về một cuộc điều tra vào cơ sở dữ liệu:

Khi thiết kế một cơ sở dữ liệu về một cuộc điều tra nào đó, Metadata Editor yêu cầu khai báo các thông tin chung nhất mô tả về cuộc điều tra đó Từ việc thiết

kế điều tra, lên kế hoạch, xây dựng phương án điều tra, thiết kế bảng hỏi, điều tra thử, tập huấn, chọn mẫu, thu thập, xử lý số liệu đến khâu phân tích và ra kết quả cuối cùng

Việc mô tả thông tin chung này giúp cho người sử dụng dữ liệu có thể hiểu sâu hơn về cuộc điều tra, về chọn mẫu, sai số chọn mẫu, về tính đại diện để có thể

sử dụng bộ số liệu một cách hiệu quả nhất

Từ những mô tả này người sử dụng thông tin có thể sử dụng bộ số liệu một cách đúng nhất, tránh được các trường hợp sử dụng số liệu không đủ đại diện, nhất

là các phân tổ của các chỉ tiêu được lồng ghép trong cuộc điều tra đó

Ngoài ra có thể lưu trữ các thông tin để tra cứu và để làm mốc so sánh cho các cuộc điều tra tiếp theo

Trong phần này người quản trị dữ liệu phải khai báo và nhập các thông tin sau:

Trang 11

1 Mô tả tài liệu - Document description: Phần này dùng để khai báo các thông

tin liên quan đến bộ cơ sở dữ liệu vi mô như:

- Tên của bộ dữ liệu (thường gắn với tên cuộc điều tra để thuận tiện tra cứu và công bố ấn phẩm) Cơ quan thực hiện cuộc điều tra này, địa chỉ mail liên hệ

- Ngày, tháng, năm tiến hành nhập cơ sở dữ liệu vi mô: Ghi ngày, tháng, năm sản phẩm hoàn thành, công bố cho người sử dụng

- Phiên bản của tài liệu theo chuẩn quốc tế DDI: Phiên bản 1.04 (study)

- Mã số nhận dạng của tài liệu theo chuẩn DDI: DDI-VNM

2 Mô tả nghiên cứu - Study description gồm có:

- Nhận dạng (Identification): Nhóm này gồm các thông tin cần khai báo như: tên cuộc điều tra, tên khác của cuộc điều tra, thông tin về tần suất thực hiện điều tra, tên tiếng Việt của cuộc điều tra, mã nhận dạng

- Phiên bản (Version): mô tả ngắn gọn về phiên bản như số cùng nhãn phiên bản, ngày ra sản phẩm theo định dạng chuẩn ISO (yyyy-mm-dd) cho ngày xuất bản hiện tại và cuối cùng

- Tổng quan (Overview) gồm: Tóm tắt mục đích, nội dung của cuộc điều tra, loại số liệu, hệ thống phiếu điều tra, các nhóm chỉ tiêu điều tra

- Phạm vi (Scope): Mô tả phạm vi điều tra là mô tả các chủ đề bao phủ toàn bộ cuộc điều tra Có thể đưa ra cái nhìn tổng quát của các loại phiếu, từng chủ

đề của từng loại phiếu Phạm vi không liên quan đến mức độ bao phủ về mặt địa lý; phân lớp chủ đề nên theo từ điển chuyên đề chuẩn quốc tế; từ then chốt của cuộc điều tra cần được đưa ra để cho người sử dụng có thể dễ dàng tìm kiếm qua mạng các thông tin về cuộc điều tra qua bảng danh mục

- Mức độ bao phủ (Coverage): Nhập vào tên nước, thậm chí cả trường hợp nơi cuộc điều tra không bao phủ toàn bộ đất nước Trong phần "Abbreviation" (chữ viết tắt) chúng ta được khuyến cáo vào 3 ký tự theo mã chuẩn ISO của đất nước (Như Việt Nam ký hiệu theo chuẩn ISO là VNM) Nếu như bộ số liệu được dẫn chứng bằng tài liệu bao phủ ngoài một quốc gia (ở nhiều đất nước) thì ta có thể vào bằng nhiều dòng riêng biệt; Mức độ bao phủ về mặt

Trang 12

địa lý; phạm vi điều tra về dân số như đối tượng ở độ tuổi nào thì điều tra, độ tuổi nào không điều tra…

- Nhà sản xuất và nhà tài trợ (Producers and sponsors) bao gồm: người chịu trách nhiệm điều tra chính của cuộc điều tra, nhà đồng tổ chức, nhà tài trợ hoặc có các công việc liên quan; chi phí cho cuộc điều tra, nguồn chi phí lấy

từ đâu trong nước hay quốc tế, các đơn vị khác có liên quan

- Chọn mẫu (Sampling): Phần này cần đưa vào các thông tin về cách chọn mẫu, cỡ mẫu; sai số của thiết kế mẫu; xác định số lượng mẫu theo lý thuyết chọn mẫu; quyền số suy rộng của từng chỉ tiêu

- Thu thập số liệu (Data collection): Mô tả các thông tin cơ bản về cuộc điều tra về ngày bắt đầu, ngày kết thúc, chu trình điều tra; kỳ lấy số liệu; phương pháp thu thập số liệu; quá trình tổ chức thực hiện thu thập số liệu từ khâu chuẩn bị địa bàn điều tra, tập huấn điều tra viên các cấp, tổ chức điều tra, kiểm tra, thanh tra quá trình thực hiện điều tra ở cơ sở…; các loại phiếu dùng trong điều tra, nêu rõ các loại dùng cho từng đối tượng, phạm vi điều tra; đơn

vị tổ chức thực hiện điều tra; giám sát viên các cấp được tổ chức thế nào…

- Xử lý số liệu (Data processing): làm sạch số liệu được tổ chức theo một qui trình gồm nhiều bước xử lý từ đầu đến khi có được bộ số liệu chính thức, bao gồm:

a) Làm sạch thô, bằng tay và mã hóa

b) Làm sạch trong suốt quá trình nhập số liệu

c) Kiểm tra cấu trúc tập tin và sự đầy đủ của thông tin

- Đánh giá số liệu (Data appraisal): Các cuộc điều tra mẫu cần có tính toán, ước lượng, công bố sai số chọn mẫu

- Truy cập số liệu (Data access): Phần này cần cung cấp một loạt những thông tin, địa chỉ của người có trách nhiệm về số liệu cũng như những quyền được truy cập số liệu bao gồm tên, người hoặc tổ chức có trách nhiệm, email, chuỗi định danh tài nguyên trên Internet (URI); bảo mật số liệu, cung cấp những điều kiện của người sử dụng được truy cập vào sử dụng số liệu, còn số liệu không cần bảo mật thì phần này có thể để trống; truy cập số liệu, mỗi bộ

số liệu nên có một chính sách truy cập đính kèm nó, IHSN khuyến nghị nên

Trang 13

có 3 mức độ truy cập số liệu gồm: (1) Mức độ thứ nhất là loại số liệu có thể truy cập rộng rãi với mọi người sử dụng, (2) Mức độ thứ hai là bộ số liệu có bản quyền, nếu muốn truy cập phải được phép của người quản lý số liệu, (3) Mức độ thứ ba là những bộ số liệu chỉ có thể truy cập ở số liệu thứ cấp, dùng cho những loại số liệu mật và số liệu không công bố; yêu cầu trích dẫn cần được được ra đối với người sử dụng số liệu, mỗi người dùng số liệu cần trích dẫn số liệu được điều tra từ cơ quan, tổ chức nào là người chịu trách nhiệm

3 Đưa các văn bản, tài liệu liên quan vào quản lý chung với database:

Điểm khác biệt nhất so với các phần mềm lưu trữ số liệu và dữ liệu vi mô trước đây của Metadata Editor là nó cho phép chúng ta lưu trữ và quản lý các tài liệu liên quan dạng siêu dữ liệu trong cùng một thư mục và việc tra cứu được thể hiện ở dạng đường dẫn tới các file điện tử liên quan

Các phần mềm lưu trữ dữ liệu vi mô trước đây chủ yếu quan tâm đến việc lưu trữ thông tin của bộ dữ liệu thô, chưa chú trọng đến dữ liệu vi mô

Trong phần mềm VietInfo của Unicef tài trợ và Tổng cục Thống kê phát triển cũng đã đưa thông tin dữ liệu vi mô vào quản lý Nhưng thông tin ở đây chỉ

mô tả về các chỉ tiêu được đưa vào phần mềm và dữ liệu chỉ lưu kết quả đầu ra của các chỉ tiêu trong cuộc điều tra đó

Qua cách thiết kế này ta thấy người dùng tin có thể tra cứu toàn bộ thông tin liên quan khác đến cuộc điều tra như: Quyết định, phương án điều tra, bảng câu hỏi, phần mềm nhập tin, kiểm tra số liệu, biểu đầu ra, sách công bố kết quả cực kỳ dễ dàng Đặc biệt là các mô tả về mẫu điều tra, ước lượng sai số mẫu và

Trang 14

Toàn bộ các tài liệu liên quan đến cuộc điều tra khác chưa được đưa vào lưu trữ trong phần Metadata Editor ở trên sẽ được đưa vào quản lý chung trong một thư mục với cơ sở dữ liệu chính và trong mỗi tiêu đề mục quản lý dữ liệu đều đưa đường dẫn để mở file nguồn

Metadata Editor cho phép ta quản lý các tài liệu liên quan khác đến cuộc điều tra này theo dạng quản lý thư mục, mỗi thư mục là một loại tài liệu liên quan khác nhau theo tên thư mục

Từ trong môi trường của Nesstar Explorer khi ta mở bộ cơ sở dữ liệu trên

ra, từ các đường dẫn của các tài liệu liên quan khác đến cuộc điều tra ta có thể

mở được chúng bằng cách click chuột vào đó

II Nesstar Explorer xem và khai thác cơ sở dữ liệu

Module Nesstar Explorer cho phép người sử dụng xem và khai thác các

dữ liệu và siêu dữ liệu về định dạng thống kê chung được thiết lập từ module Metadata Editor

Dữ liệu được đưa vào để sử dụng trong Nesstar explorer rất đa dạng, cốt lõi là bộ số liệu thô mà dựa vào các chức năng chiết suất dữ liệu trong module này người sử dụng có thể xuất dữ liệu thô của các cuộc điều tra đã được chuẩn

Trang 15

hóa theo nesstar ra các định dạng file ưa thích để từ đó có thể khai thác sâu hơn

Ví dụ người dùng tin muốn sử dụng chương trình SPSS để tính toán một chỉ tiêu nào đó trong Tổng điều tra Nông thôn, nông nghiệp và thủy sản, họ chỉ cần xuất

số liệu thô từ Nesstar explorer ra định dạng file của SPSS

Metadata editor lưu lại tất cả data và tài liệu liên quan khác (metadata) trong 1 file duy nhất có định dạng là *.nesstar

File này không thể đọc được bằng các phần mềm thông thường mà phải

sử dụng phần mềm chuyên dụng có tên là Nesstar explorer Phần mềm này chỉ cho phép người sử dụng xem data và metadata mà không cho phép chỉnh sửa, thay đổi; ngoài ra nó còn cho phép chiết suất data ra thành các định dạng thống

kê thông thường khác như SAS, SPSS, STATA,…

1 Xem database

Phần mềm này có giao diện hiển thị dưới dạng 2 khung, khung bên trái là cây thư mục thiết kế giống như chuẩn Metadata editor sử dụng để tạo ra nesstar file, khung bên phải là phần hiển thị nội dung chi tiết các mục đã lựa trọn ở khung bên trái

Trang 16

Mở một project/nghiên cứu ta chọn File > Open ở thư mục chính hoặc

kích vào biểu tượng

Ngôn ngữ/font chữ hiển thị trong Nesstar explorer có thể thay đổi mà không làm ảnh hưởng đến metadata hoặc định dạng chuẩn đã được lưu trữ trong

Nesstar file Để thay đổi ngôn ngữ/font chữ: chọn File > language > chọn một

ngôn ngữ đang hiển thị

Khi đang xem 1 file data ta có thể chọn xem 1 biến dưới dạng có nhãn biến và không có nhãn biến bằng cách kích vào biểu tượng

VD: xem không có nhãn biến

Trang 17

xem có nhãn biến

2 Chiết suất/export data:

Chúng ta không thể sử dụng các phần mềm phân tích thống kê thông thường như SPSS, STATA hoặc SAS để phân tích data đang được lưu trữ dưới dạng nesstar file Tuy nhiên Nesstar Explorer cho phép người sử dụng chiết suất

ra thành các định dạng file phù hợp với SPSS, STATA hoặc SAS để sau đó sử dụng các phần mềm phân tích database đó

Trang 18

Để chiết suất 1 file data: chọn File > Export Dataset hoặc kích vào biểu tượng phần Export Dataset sẽ được mở ra, sau đó chọn định dạng file muốn chiết suất và kích vào nút Save

Nesstar Explorer còn cho phép chiết suất toàn bộ các file trong 1 cơ sở dữ

liệu lưu trữ trong 1 file *.nesstar: chọn File > Export All Dataset, cửa sổ Export

All Datasset sẽ hiện ra

3 Chiết suất/export metadata:

Nesstar Explorer cho phép người sử dụng chiết suất các văn bản/tài liệu liên quan sang các định dạng siêu văn bản hoặc định dạng phù hợp để sử dụng

Trang 19

Để chiết suất tất cả DDI metadata liên quan đến nghiên cứu, ta chọn File

> Export DDI (hoặc File > Export all to Dublin Core) hoặc kích vào biểu tượng phần Export all to Dublin Core sẽ được mở ra

III Sử dụng CD-ROM Builder để tạo đĩa CD

CD-ROM Builder là một gói công cụ, nó xuất dữ liệu ra định dạng HTML

cơ bản có thể lưu trữ trên CD-ROM, DVD, mạng intranet hay mạng internet Mặc dù nó được thiết kế chủ yếu là công cụ để phổ biến vi dữ liệu, nó cũng còn được sử dụng lưu trữ dữ liệu và siêu dữ liệu

Tạo đĩa CD

Việc tạo đĩa CD hầu như được tiến hành 1 cách tự động Đầu vào duy nhất cần thiết là bộ dữ liệu ở định dạng của Nessta và lựa chọn tên chủ đề Các tùy chọn được cung cấp để chỉnh sửa nội dung và mẫu thiết kế của sản phẩm đầu ra

Một file Nessta là file kết quả lưu trữ bộ dữ liệu sử dụng Metadata Editor Nhãn hiệu bao gồm những tựa đề lớn được thiết kế tuỳ biến sẽ xuất hiện trên đầu mỗi trang của CD-ROM Nhãn hiệu có thể bao gồm logo, tên và các phần tử đặc trưng khác mà nó đại diện

Để tạo 1 CD-ROM

1 Trên thanh thực đơn chính, chon File > New CD-ROM Project

2 Chọn file Nessta chứa bộ dữ liệu, chọn nhãn hiệu Chọn Household Survey trong hộp Type sau đó chọn Finish

Trang 20

ứng dụng sẽ tự động tạo những nét phác thảo của CD-ROM Những nét phác thảo này trình bày cấu trúc của CD-ROM (hoặc website) sẽ được tạo

ra

3 Chọn Tool > Export to CD-ROM từ thanh thực đơn chính hoặc click vào

Ứng dụng không tự động ghi ra đĩa CD-ROM, thay vào đó nó sẽ tạo ra

“bản gốc CD-ROM” để sau này chuyển ghi sang đĩa CD-ROM, DVD hoặc đưa lên web

Các tuỳ chọn:

Creat Autorun CD-ROM gồm những file trên CD-ROM sẽ tự động tải

về trang chủ khi người sử dụng đưa đĩa CD-ROM vào trong máy

Include Data File để sao chép vi dữ liệu (ví dụ file Nessta) trên

CD-ROM Không đánh dấu tuỳ chọn này nếu muốn CD-ROM không có vi

dữ liệu

Include Other Resources để sao chép các nguồn bên ngoài chẳng hạn

như tài liệu dạng PDF, các ảnh, bản đồ, trên CD-ROM

Include Nessta Data Explorer để sao chép các file cài đặt và hướng dẫn

Nessta Explorer lên ROM Tuỳ chọn này luôn được chọn khi ROM có chữa vi dữ liệu Nó sẽ cho phép người sử dụng xuất các file dữ

Trang 21

CD-liệu sang các định dạng khác (SPSS, STATA, SAS, Statistica, DBF, ASCII, )

Open generated output in external browser sẽ làm cho ứng dụng mở

trình duyệt web và hiển thị trang chủ của CD-ROM ngay sau khi ứng dụng kết thúc việc tạo CD-ROM Nếu không chọn tuỳ chọn này, có thể xem CD-ROM bằng cách click đúp chuột vào file index.html trên thư mục đã chọn để lưu CD-ROM

4 Nếu thư thư mục để lưu CD-ROM chưa có, bạn sẽ được yêu cầu xác nhận việc tạo ra thư mục đó

5 Bạn sẽ được nhắc rằng những nét phác thảo chính của CD-ROM chưa được lưu Lưu phác thảo cho phép bạn tạo ra CD-ROM sau này File lưu có phần

mở rộng [.Outline] Chọn Yes hoặc No, CD-ROM sẽ được tạo ra

Trang 22

Chú ý: nếu file Nessta dùng để tạo CD-ROM đang được mở bởi 1 ứng dụng khác (ví dụ Metadata Editor), 1 thông báo lỗi sẽ hiện ra Đóng các chương trình đang chạy file Nessta, và thử lại

6 Nếu tùy chọn Open generated output in external browser được chọn, trình

duyệt web sẽ mở ra và hiển thị trang chủ của CD-ROM

Phần mềm cho phép tạo ra phiên bản CD-Rom trên đĩa cứng, sau đó ta sẽ dùng các ứng dụng ghi đĩa của windows để sao chép thành đĩa CD-Rom VHLSS 2006

Trang 23

Phần II THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU

VI MÔ CỦA MỘT SỐ CUỘC ĐIỀU TRA TRONG

TỔNG CỤC THỐNG KÊ

Với tốc độ phát triển mang tính bùng nổ của CNTT, việc ứng dụng Tin học đã chuyển từ vai trò thúc đẩy “cách mạng quản lý” sang làm nền tảng cho nền kinh tế xã hội mới – “xã hội thông tin” Nhất là từ khi mạng Internet ra đời liên kết hàng triệu máy tính trên toàn cầu, tăng khả năng khai thác các nguồn thông tin trên khắp mọi nơi, tại mọi thời điểm cho hàng trăm triệu người dùng thì CNTT không chỉ còn là phương tiện kỹ thuật đơn thuần nữa, mà nó đã trở thành một môi trường mới cho mọi hoạt động kinh tế, văn hoá, xã hội

Trong ngành Thống kê, số liệu đã trở thành nguồn lực (tin lực) có vai trò

to lớn trong việc thúc đẩy sự phát triển của nền kinh tế Quốc gia Do vậy việc xây dựng CSDL tập trung là hết sức quan trọng và cần thiết Nằm trong khuôn khổ xây dựng các CSDL Quốc gia của nhà nước, CSDL vi mô của các cuộc điều tra trở thành một công cụ rất hữu hiệu trong hỗ trợ công tác quản lý, điều hành,

ra quyết định của các cấp lãnh đạo, các nhà hoạch định chính sách, các nhà nghiên cứu trong ngành Thống kê và các cơ quan đơn vị liên quan

Cơ sở dữ liệu vi mô là CSDL lưu trữ và tạo các công cụ khai thác thông tin từ các phiếu điều tra, chế độ ban đầu phát sinh từ đơn vị kinh tế cơ sở

Cơ sở dữ liệu vi mô mới được triển khai cho các cuộc Tổng điều tra và điều tra do Tổng cục tổ chức ở tầm quốc gia (tổng điều tra dân số năm 1999, Tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2001, Tổng điều tra cơ

sở kinh tế - hành chính sự nghiệp năm 2002, Điều tra doanh nghiệp từ

2002-2005, Điều tra biến động dân số hàng năm, Điều tra khảo sát mức sống hộ gia

Trang 24

đình…) Các cuộc điều tra này có được nguồn thông tin đầy đủ, có hệ thống và

đã được tin học hóa nên đã xây dựng được CSDL vi mô

Tuy nhiên, thông tin về các cuộc điều tra nói trên mới phản ánh được một

số linh vực kinh tế -xã hội ở thời điểm nhất định (thời điểm điều tra) Nhưng những thông tin thường xuyên phục vụ việc lập các báo cáo thống kê hàng tháng, quý, năm về các hoạt động kinh tế-xã hội phục vụ các nhu cầu của người dùng tin thì chưa được tin học hóa cả ở hệ thống thống kê tập trung (Hệ thống thống kê do Tổng cục Thống kê thực hiện) và hệ thống thống kê do các Bộ, ngành thực hiện do vậy chưa xây dựng được các CSDL (từ năm 2005, Tổng cục mới giao cho các Trung tâm Tin học phối hợp với các Vụ triển khai tin học hóa

hệ thống này ở hệ thống thống kê tập trung)

Trong khuôn khổ đề tài này, chúng tôi chỉ đề cập đến việc đánh giá được hiện trạng và nhu cầu cho công tác lưu trữ và quản lý dữ liệu vi mô của các đơn

vị thực hiện một số cuộc điều tra trong Tổng cục thống kê Phân tích được hiện trạng và đánh giá được sự cần thiết phải lưu trữ và quản lý dữ liệu vi mô

1 Hiện trạng về thiết bị tin học, hạ tầng truyền thông, phần mềm hệ thống và ứng dụng CNTT trong ngành Thống kê

a Cơ sở hạ tầng công nghệ thông tin ngành Thống kê

Ngành Thống kê có hệ thống cơ sở hạ tầng về CNTT rất tốt Các máy tính

có cấu hình mạnh, đã có mạng LAN tại TCTK và mạng WAN toàn ngành Phần mềm hệ thống được sử dụng của Microsoft

- Máy chủ

Cache 512, DDR 1GB, HDD 4 x 18,2GB

2

Cache 512, DDR 1GB, HDD 4 x

2

Trang 25

36GB

Cache 512, DDR 2GB, HDD 6 x 73GB

1

Cache 512, DDR 1GB, HDD 6 x 73GB

1

Cache 512, DDR 1GB, HDD 4 x 73GB

1

Cache 512, DDR 1GB, HDD 4 x 143GB

3

- Máy trạm

GHz; RAM: 256MB DDR PC3200; Chipset: Intel 845GV;

Trang 26

Tổng cục Thống kê có 2 đường truyền internet tốc độ cao đó là: đường cáp quang và đường SHSL 2M được thuê từ nhà cung cấp dịch vụ Cục bưu điện Trung ương

- Phần mềm hệ thống:

Máy chủ : Microsoft Windows Server 2003 64bit

Máy trạm: Microsoft Windows XP và Microsoft Windows Vista

- Phần mềm văn phòng: Microsoft Office 2003 và Microsoft Office XP

- Phần mềm diệt virus: Symantec Antivirus 10.1 Net

- Hệ thống thư tín điện tử (E-Mail): MDeamon

- Hệ thống truyền và nhận file (Ftp): ServerU và Ftp của Microsoft

b Ứng dụng công nghệ thông tin trong việc truyền số liệu

Việc tin học hoá công tác xử lý và truyền đưa số liệu của một số lĩnh vực công tác thống kê được duy trì, hoàn thiện và phát triển đã góp phần nâng cao hiệu quả công tác, chất lượng số liệu và rút ngắn thời gian báo cáo Mạng GSO phát huy tác dụng trong việc truyền đưa số liệu, phổ biến nhanh các văn bản, tài liệu hướng dẫn của Tổng cục đến các địa phương Thư tín điện tử đã được sử dụng, tạo điều kiện để giải quyết nhanh và hiệu quả các công việc Trang WEB thống kê được duy trì trên mạng intranet, tiến hành công tác quản trị mạng và cập nhật thông tin trên trang WEB

c Ứng dụng công nghệ thông tin trong xử lý số liệu điều tra

điều tra từ 12,4 triệu hộ gia đình

cho 2,3 triệu đơn vị kinh tế - hành chính, sự nghiệp

Trang 27

 Xử lý số liệu chọn mẫu nhân khẩu học nhiều vòng với trên 1,5 triệu nhân khẩu và 200 ngàn hộ gia đình Xử lý số liệu điều tra chọn mẫu hộ gia đình đa mục tiêu với 40 ngàn hộ gia đình được chọn mẫu cho mỗi năm

đình chọn mẫu cho mỗi năm

hộ gia đình và trên 76 triệu nhân khẩu

d Ứng dụng công nghệ thông tin trong xây dựng cơ sở dữ liệu và phổ biến số liệu

Ứng dụng công nghệ thông tin trong xử lý và lưu giữ số liệu các cuộc điều tra: đã thí điểm xây dựng CSDL cho 4 phân hệ sau: thống kê giá cả, thống

kê công nghiệp, thống kê thương mại, thống kê nông nghiệp Trong năm 2000, các CSDL vi mô TĐTDS và Nhà ở cũng đã được xây dựng để lưu giữ dữ liệu gốc 3%, lưu giữ dữ liệu gốc 100% và khai thác qua hệ quản trị CSDL quan hệ SQL Server Hoàn thành việc xử lý và xây dựng cơ sơ dữ liệu Tổng điều tra nông thôn, nông nghiệp và thuỷ sản Cùng với báo cáo tổng hợp được xuất bản dưới dạng ấn phẩm, đã sản xuất các đĩa CD-ROM về kết quả tổng điều tra của

cả nước và của các địa phương

Cùng với báo cáo tổng hợp được xuất bản dưới dạng ấn phẩm, Tổng cục Thống kê cũng như các Cục Thống kê đã sản xuất các đĩa CD-ROM về niên giám, kết quả các cuộc tổng điều tra, điều tra của cả nước và của các địa phương Đã có nhiều số liệu được đưa lên mạng intranet để sử dụng

2 Hiện trạng việc quản lý CSDL vi mô của một số cuộc điều tra tại ngành Thống kê

Nguồn số liệu:

Trang 28

Thông tin thống kê định kỳ: tháng, quí, năm tổng hợp từ hệ thống báo cáo thống kê Tại TCTK, các thông tin này được tổng hợp từ hệ thống báo cáo thống

kê của các Cục Thống kê tỉnh/thành phố và báo cáo thống kê thu thập được từ các Bộ, ngành

Thông tin tổng hợp, phân tích, dự báo từ các cuộc điều tra thống kê hoặc

từ một số hệ cơ sở dữ liệu vi mô của một vài ngành khác (số liệu thuế của Bộ Tài chính, số liệu xuất nhập khẩu của Hải quan…)

a Số liệu Tổng điều tra Dân số và Nhà ở năm 1999

Tổng điều tra Dân số và nhà ở (TĐTDS&NƠ) 1-4-1999 thu thập số liệu của gần 17 triệu hộ với trên 76 triệu nhân khẩu Phiếu điều tra gồm 26 câu hỏi cho phiếu dài (điều tra mẫu) và 18 câu hỏi cho phiếu ngắn (điều tra toàn bộ)

Việc xử lý số liệu được thực hiện trên các hệ thống máy tính PC nối mạng nội bộ Chương trình nhập, kiểm tra và sửa dữ liệu được phát triển bằng phần mềm ISSA, chương trình hiệu đính và tổng hợp phát triển trong phần mềm IMPS (CONCOR và CENTS) Các chương trình này được tích hợp chung trong một hệ thống thống nhất quản lý toàn bộ luồng dữ liệu, công việc, người dùng

Dữ liệu vi mô là các tệp ký tự ASCII với nhiều loại bản ghi trong cùng một tệp Hiện tại các tệp dữ liệu này vẫn được tiếp tục lưu giữ và sử dụng để tổng hợp các biểu, chỉ tiêu đặc biệt khi có các yêu cầu đột xuất của ngành Dung lượng tệp dữ liệu vi mô dạng ký tự ASCII của điều tra mẫu 3% là 162 MB, còn điều tra toàn bộ là 4860 MB

Sau khi hoàn thành việc xử lý tổng hợp, dữ liệu vi mô được ghi trên các đĩa CD-ROM kèm theo các công cụ khai thác, chuyển đổi, tổng hợp Có nhiều loại đĩa CD-ROM đã được phát hành: đĩa của phần điều tra mẫu 3% chung toàn quốc, đĩa 100% theo từng tỉnh (mỗi tỉnh một đĩa riêng) phục vụ cho việc cung cấp số liệu cho các người dùng trong và ngoài ngành Dữ liệu vi mô trên các đĩa CD-ROM này là các dạng tệp ký tự ASCII nhưng có kèm theo công cụ cho phép

Trang 29

chuyển đổi sang SPSS, ACCESS và dạng tệp ký tự phẳng (tách riêng các loại bản ghi khác nhau) và tùy chọn khuôn thức theo yêu cầu của người dùng để thuận tiện cho việc chuyển đổi vào các môi trường / phần mềm khác

Dữ liệu vi mô toàn quốc cũng được chuyển đổi và quản lý trong cơ sở dữ liệu mô hình quan hệ trong hệ quản trị CSDL SQL Server, gồm một CSDL vi

mô mẫu 3% và một CSDL vi mô toàn bộ 100% Cơ sở dữ liệu bao gồm dữ liệu

và siêu dữ liệu về cấu trúc, tên biến, các danh mục liên quan cùng với những hướng dẫn về việc chiết xuất, khai thác dữ liệu CSDL hiện đang lưu giữ tại Trung tâm tích hợp dữ liệu TCTK và cho phép truy cập trong mạng nội bộ của TCTK

Kết quả tổng hợp kết quả TĐTDS&NƠ 1999 cũng hai hệ thống: 1) hệ thống gồm 21 biểu của điều tra mẫu tổng hợp cho các cấp toàn quốc, vùng và tỉnh; và 2) hệ thống biểu cho điều tra toàn bộ gồm 56 biểu tổng hợp cho các cấp toàn quốc, vùng, tỉnh, huyện, xã Các hệ thống biểu tổng hợp cũng đã được xây dựng thành các cơ sở dữ liệu vĩ mô thiết kế trong môi trường SQL Server Công

cụ khai thác, tìm kiếm dữ liệu là ứng dựng Windows

Các hệ thống biểu tổng hợp này cũng được xây dựng thành các đĩa ROM để cung cấp cho những người sử dụng khác nhau: đĩa CD-ROM kết quả toàn diện cho cấp toàn quốc, đĩa số liệu và kết quả mẫu cấp toàn quốc và các đĩa CD-ROM cấp tỉnh (chung cả dữ liệu vi mô và vĩ mô), đĩa CD-ROM với hệ thống thông tin địa địa lý (GIS) với bản đồ và các thông tin tổng hợp đến cấp huyện Trên các đĩa CD-ROM này có cả các siêu dữ liệu tham chiếu (reference metadata) như: các tài liệu, văn bản liên quan đến cuộc tổng điều tra, mẫu phiếu điều tra, sổ tay hướng dẫn điều tra, báo cáo phân tích,…

CD-Các biểu tổng hợp cho điều tra mẫu 3% có nội dung tương tự, ngoài ra có một số biểu liên quan đến sinh, chết như:

- Các tỷ suất sinh, chết, tăng tự nhiên dân số

Trang 30

- Tỷ lệ giới tính khi sinh và tỷ suất sinh đặc trưng

Tóm lại, với dữ liệu TĐTDS&NƠ 1999, có thể lựa chọn một trong những nguồn / hệ thống dưới đây để chuyển vào kho dữ liệu:

b Số liệu Tổng điều tra Nông thôn, Nông nghiệp và thủy sản năm 2001

TĐTNTNN&TS có thể coi là một nguồn dữ liệu phong phú và chi tiết cho thống

kê xã hội với những thông tin về cơ sở hạ tầng kinh tế xã hội khu vực nông thôn, điều kiện môi trường sống, mức sống, lao động nông nghiệp

Dữ liệu vi mô và vĩ mô của hai cuộc TĐTNTNN&TS các năm 2001 và 2006 được lưu giữ đầy đủ với nhiều dạng khuôn mẫu, vật lưu tin khác nhau

Dữ liệu TĐTNTNN&TS năm 2001 hiện có các dang lưu giữ sau:

 Các tệp dữ liệu vi mô ngay sau nhập tin, hiệu chỉnh dạng FoxPro của tất

cả các loại phiếu điều tra;

 Đĩa CD-ROM dữ liệu vi mô phiếu “Cơ sở hạ tầng xã” toàn quốc dạng tệp

ký tự ASCII có kèm theo công cụ chuyển đổi sang các dạng phổ biến khác như ACCESS, tệp phẳng;

 Đĩa CD-ROM kết quả tổng hợp gồm hệ thống các biểu tổng hợp các cấp;

Trang 31

 Đĩa CD-ROM cấp tỉnh (mỗi tỉnh một đĩa) dữ liệu và kết quả TĐTNTNN&TS có chứa dữ liệu vi mô của hai loại phiếu điều tra: phiếu

hộ và phiếu xã có thể chuyển đổi dang các khuôn dạng khác, hệ biểu tống hợp kết quả của tỉnh;

 CSDL dạng SQL Server toàn quốc lưu giữ dữ liệu vi mô của hai loại phiếu điều tra hộ và xã

Dữ liệu TĐTNTNN&TS năm 2006 cũng được lưu giữ, phân phát dưới các dạng tương tự như năm 2001 như; các tệp dữ liệu gốc FoxPro, các tệp dữ liệu ký

tự ASCII, các loại đĩa CD-ROM dữ liệu và kết quả, CSDL dạng SQL Server quản lý tại TTTHDL TCTK Khác biệt chính giữa dữ liệu của hai cuộc tổng điều tra này là: nếu năm 2001 các sản phẩm CD-ROM và CSDL vi mô chỉ được phát triển cho hai loại phiếu hộ và xã thì năm 2006, dữ liệu vi mô của tất cả các loại phiếu điều tra đều được xây dựng CSDL SQL Server và đĩa CD-ROM Ngoài ra trong TĐTNTNN&TS năm 2006, công cụ khai thác dữ liệu trong môi trường web còn được phát triển tạo điều kiện thuận tiện cho người dùng tạo lập các thống kê từ nguồn dữ liệu này

c Số liệu Tổng điều tra Cơ sở kinh tế - hành chính sự nghiệp năm 2002

Cuộc Tổng điều tra các cơ sở kinh tế, hành chính, sự nghiệp 2002 đã được Tổng cục Thống kê tiến hành trên phạm vi cả nước Đối tượng của Tổng điều tra

là toàn bộ các cơ sở đang hoạt động tại thời điểm 1/7/2002 ở cả hai lĩnh vực: sản xuất kinh doanh và hành chính sự nghiệp Kết quả điều tra có 10.793.376 lao động làm việc trong 2.880.004 cơ sở

Dữ liệu tổng điều tra cơ sở kinh tế-hành chính sự nghiệp năm 2002 hiện có các dạng lưu giữ sau:

 Các tệp dữ liệu vi mô ngay sau nhập tin, hiệu chỉnh dạng FoxPro của tất

cả các loại phiếu điều tra;

Trang 32

 Đĩa CD-ROM dữ liệu vi mô toàn quốc dạng tệp ký tự ASCII có kèm theo công cụ chuyển đổi sang các dạng phổ biến khác như ACCESS, tệp phẳng;

 Đĩa CD-ROM kết quả tổng hợp gồm hệ thống các biểu tổng hợp các cấp;

 Đĩa CD-ROM cấp tỉnh (mỗi tỉnh một đĩa) dữ liệu và kết quả có chứa dữ liệu vi mô của các loại phiếu điều tra, có thể chuyển đổi sang các khuôn dạng khác, hệ biểu tống hợp kết quả của tỉnh;

 CSDL dạng SQL Server lưu giữ dữ liệu vi mô toàn quốc

d Số liệu điều tra Biến động dân số và Kế hoạch hóa gia đình hàng năm

Trước năm 1999, trong một số năm, các chỉ tiêu biến dân số dân số và kế hoạch hóa gia đình được tính toán dựa trên điều tra nhiều vòng Nguyên tắc của điều tra này là giữ cố định dàn mẫu với các địa bàn điều tra, mã số hộ không thay đổi Vòng cơ bản điều tra đầy đủ các chỉ tiêu thuộc phạm vi, các vòng tiếp theo thực hiện ba tháng một lần, vẫn sử dụng phiếu cũ và thu thập tiếp các thông tin cấp nhật: thay đổi tình trạng hôn nhân, mang thai, sinh chết, di chuyển đi và đến, sử dụng / ngừng sử dụng các biện pháp tránh thai Hệ thống được phát triển với cơ sở dữ liệu FoxPro Tuy nhiên dữ liệu trước đây lưu giữ trên các đĩa mềm hiện tại cũng ít có khả năng sử dụng được

Từ năm 2000, điều tra dân số nhiều vòng được chuyển thành điều tra Biến động dân số thực hiện vào 1-4 hàng năm Đây là điều tra có cỡ mẫu khá lớn, khoảng 400 nghìn hộ với trên 1,6 triệu dân số (năm 2007 là 402 nghìn hộ, 1,63 triệu dân số, năm 2008 là trên 378 nghìn hộ với 1,47 trệu dân số) Thiết kế phiếu

và các câu hỏi có sự thay đổi nhất định theo từng năm Những số liệu thu thập chủ yếu về giới tính, tuổi, hình hình đi học, trình độ văn hóa và chuyên môn kỹ thuật, hôn nhân, di cư, hoạt động kinh tế, sinh, chết, kế hoạch hóa gia đình, nạo phá thai Một vài năm điều tra này được kết hợp cùng với điều tra về lao động việc làm với mức độ khác nhau như các năm 2006 và 2008

Trang 33

Các chương trình nhập tin và kiểm tra, hiệu đính số liệu được thiết kế bằng phần mềm ISSA (năm 2000 và 2001) và sau đó chuyển sang phần mềm CSPro, còn phần mềm IMPS (CENTS) được sử dụng để lập trình tính toán các biểu tổng hợp Dữ liệu vi mô là các tệp ký tự ASCII “không phẳng”, nghĩa là một tệp dữ liệu chứa tất cả các loại bản ghi (tương tự như cấu trúc của dữ liệu vi

mô TĐTDS 1989), được lưu trữ theo từng năm, mỗi năm một tệp gồm nhiều loại bản ghi Dung lượng dữ liệu mỗi năm trên dưới 100 MB Loại dữ liệu vẫn lưu trữ tại TTTH Thống kê và tiếp tục phục vụ cho các nhu cầu lập biểu tổng hợp đặc biệt khi có yêu cầu phát sinh

Hàng năm, sau khi xử lý xong điều tra BĐDS&KHHGĐ, dữ liệu vi mô đều được chuyển đổi sang dạng SPSS và gửi đến Vụ TK DSLD và các CTK tỉnh, thành phố Số liệu vĩ mô với các biểu tổng hợp các cấp dưới dạng EXCEL cũng được lưu giữ tại TTTHTK đồng thời gửi cho Vụ TK DS LĐ và các CTK Loại dữ liệu này đáp ứng được yêu cầu kiểm tra số liệu và kết quả, tổng hợp, phân tích theo các nhu cầu đặc biệt của các cán bộ thống kê tại Vụ DS-LĐ và các Cục

Ngoài các dạng dữ liệu trên, riêng các năm 2005 và 2006, số liệu vi mô và

vĩ mô điều tra BĐDS&KHHGĐ còn được thiết kế trong CSDL mô hình quan hệ (SQL Server) Ngoài các dữ liệu vi mô và các biểu kết quả tổng hợp, CSDL bao gồm cả siêu dữ liệu như: mô tả dữ liệu, cấu trúc dữ liệu, sơ đồ quan hệ, tất cả các danh mục, phân loại, các siêu dữ liệu tham chiếu (tài liệu liên quan: sổ tay điều tra viên, phương án, mẫu phiếu,…) Các công cụ khai thác dữ liệu hướng người sử dụng cũng được thiết kế dưới dạng khai thác trong giao diện Web cung cấp các chức năng tìm kiếm dữ liệu, trích xuất dữ liệu sang các dạng khác nhau, lập biểu phân tổ tần xuất, lập bảng tổng hợp chéo tuỳ chọn (cross-tabulation), các thuộc tính áp dụng hệ số gia quyền/suy rộng hoặc không gia quyền, v.v… Đây có thể coi như những thử nghiệm tốt để xây dựng các CSDL tích hợp chung

Trang 34

phục vụ nhu cầu khai thác của người dùng tin trên bước đường đi tới xây dựng kho dữ liệu của TCTK

e Số liệu Khảo sát Mức sống hộ gia đình

Trong những năm 1990, TCTK có một số điều tra Đa mục tiêu có thể coi như tiền thân của khảo sát Mức sống hộ gia đình hiện nay Theo từng năm, phụ thuộc vào phần mềm được chọn để xử lý mà dữ liệu vi mô được lưu giữ dưới dạng tệp ký tự ASCII, FoxPro hay Stata

Từ năm 2002, TCTK tiến hành khảo sát Mức sống hộ gia đình hai năm một lần Đây là một điều tra có cỡ mẫu không lớn, khoảng 46000 hộ mỗi năm nhưng có lượng câu hỏi rất lớn và phức tạp và do đó cấu trúc dữ liệu vi mô cũng cực kỳ phức tạp

Các điều tra 2002 được xử lý bằng phần mềm FoxPro và do vậy, dữ liệu

vi mô cũng dưới dạng CSDL FoxPro Từ năm 2004 (2004, 2006 và 2008) phần mềm xử lý được chọn là CSPro và dữ liệu là các tệp ký tự ASCII Các tệp ASCII này là tệp ký tự “không phẳng”, có cấu trúc gồm rất nhiều bản ghi khác nhau Ví dụ: năm 2006 có 5 loại phiếu điều tra: phiếu phỏng vấn hộ Thu nhập và chi tiêu, phiếu phỏng vấn hộ Thu nhập, phiếu Xã, phiếu trường hoc và phiếu Trạm Y tế Chỉ riêng phiếu phỏng vấn hộ Thu nhập và chi tiêu thì tệp dữ liệu ban đầu (tệp dữ liệu nhập tin gốc) đã có tới 76 loại bản ghi với tổng số biến lên tới 1186 biến (câu) Dung lượng dữ liệu vi mô mỗi năm khoảng trên 300 MB

Dữ liệu vi mô của mỗi điều tra đều được chuyển đổi dưới dạng Stata phục

vụ cho việc kiểm tra, tổng hợp chi tiết của vụ TK XHMT và các Cục Thống kê Các biểu tổng hợp các cấp dưới dạng EXCEL cũng được cung cấp cho những người dùng khác nhau và lưu giữ tại TTTHTK và vụ TK XHMT

f Số liệu điều tra Doanh nghiệp

Ngày đăng: 25/12/2014, 14:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Sổ tay hướng dẫn điều tra viên Khảo sát Mức sống hộ gia đình 2006 Khác
2. Sổ tay hướng dẫn Tổng điều tra Nông thôn, Nông nghiệp và thủy sản 2006 Khác
3. Kết quả Khảo sát Mức sống hộ gia đình 2006 Khác
4. Báo cáo kết quả Tổng điều tra Nông thôn, Nông nghiệp và thủy sản 2006 Khác
5. Phương án điều tra Khảo sát Mức sống hộ gia đình và Tổng điều tra Nông thôn, Nông nghiệp và thủy sản 2006 Khác
6. Bảng câu hỏi Khảo sát Mức sống hộ gia đình và Tổng điều tra Nông thôn, Nông nghiệp và thủy sản 2006 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w