Để quản lý và sử dụng số liệu thống kê một cách có hiệu quả thì cần phải xây dựng một mô hình cơ sở dữ liệu hợp lý để tập hợp các số liệu kinh tế-xã hội thành một hệ thống, đảm bảo vừa p
Trang 1BÙI THỊ HỒNG ĐÀO
ỨNG DỤNG GIS TRONG QUẢN LÝ
SỐ LIỆU THỐNG KÊ KINH TẾ - XÃ HỘI CHUYÊN NGÀNH: BẢN ĐỒ, VIỄN THÁM - GIS
LUẬN VĂN THẠC SĨ
Tp HCM, Tháng 6/2009
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2009
Trang 3TP.HCM, Ngày tháng 07 năm 2009
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Bùi Thị Hồng Đào
Sinh ngày : 20/11/1982
Nơi sinh : Long An
Chuyên ngành : Bản đồ - Viễn thám GIS
I Tên đề tài: Ứng dụng GIS trong quản lý số liệu thống kê kinh tế - xã hội
II Nhiệm vụ và nội dung:
1 Tìm hiểu hiện trạng quản lý số liệu thống kê kinh tế - xã hội tại thành phố Hồ Chí Minh
2 Nghiên cứu đề xuất mô hình quản lý
3 Thiết kế cơ sở dữ liệu:
Thiết kế một hệ cơ sở dữ liệu theo chuẩn GeoDataBase phục vụ cho quá trình quản lý
Thiết kế cơ sở dữ liệu phù hợp với quá trình quản lý số liệu theo thời gian
4 Xây dựng cơ sở dữ liệu mẫu khu vực thành phố Hồ Chí Minh
5 Nghiên cứu ngôn ngữ lập trình VBA trong ArcGIS để xây dựng modul khai thác cơ
sở dữ liệu đã xây dựng
III Ngày giao nhiệm vụ : tháng 2 năm 2009
IV Ngày hoàn thành nhiệm vụ : tháng 7 năm 2009
V Họ và tên cán bộ hướng dẫn : TS Trần Trọng Đức
Cán bộ hướng dẫn Bộ môn quản lý chuyên ngành
Nội dung và đề cương luận văn thạc sỹ đã được hội Hội đồng chuyên ngành thông qua
Tp HCM, Ngày tháng năm 2009
Trang 4TP.HCM, Ngày tháng 07 năm 2009
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Bùi Thị Hồng Đào
Sinh ngày : 20/11/1982
Nơi sinh : Long An
Chuyên ngành : Bản đồ - Viễn thám GIS
I Tên đề tài: Ứng dụng GIS trong quản lý số liệu thống kê kinh tế - xã hội
II Nhiệm vụ và nội dung:
1 Tìm hiểu hiện trạng quản lý số liệu thống kê kinh tế - xã hội tại thành phố Hồ Chí Minh
2 Nghiên cứu đề xuất mô hình quản lý
3 Thiết kế cơ sở dữ liệu:
Thiết kế một hệ cơ sở dữ liệu theo chuẩn GeoDataBase phục vụ cho quá trình quản lý
Thiết kế cơ sở dữ liệu phù hợp với quá trình quản lý số liệu theo thời gian
4 Xây dựng cơ sở dữ liệu mẫu khu vực thành phố Hồ Chí Minh
5 Nghiên cứu ngôn ngữ lập trình VBA trong ArcGIS để xây dựng modul khai thác cơ
sở dữ liệu đã xây dựng
III Ngày giao nhiệm vụ : tháng 2 năm 2009
IV Ngày hoàn thành nhiệm vụ : tháng 7 năm 2009
V Họ và tên cán bộ hướng dẫn : TS Trần Trọng Đức
Cán bộ hướng dẫn Bộ môn quản lý chuyên ngành
Nội dung và đề cương luận văn thạc sỹ đã được hội Hội đồng chuyên ngành thông qua
Tp HCM, Ngày tháng năm 2009
PHÒNG ĐÀO TẠO SAU ĐẠI HỌC KHOA QUẢN LÝ NGÀNH
Trang 5
LỜI CẢM ƠN
Tôi xin gởi lời cảm ơn chân thành nhất đến TS Trần Trọng Đức, người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực hiện luận văn và tạo điều kiện để tôi có thể hoàn thành luận văn này
Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu và sự hỗ trợ tốt nhất
Xin chân thành cảm ơn
Tp Hồ Chí Minh, tháng 07 năm 2009
Bùi Thị Hồng Đào
Trang 6TÓM TẮT
Số liệu thống kê về kinh tế - xã hội là cơ sở quan trọng trong quá trình đánh giá mức độ phát triển về mọi mặt của xã hội, bên cạnh đó nó cũng là cơ sở để các nhà quản lý đề ra những chính sách hợp lý thúc đẩy xã hội ngày càng phát triển Với tình hình đất nước ngày càng phát triển như hiện nay, số lượng về số liệu thống kê ngày càng nhiều Để quản lý và sử dụng số liệu thống kê một cách có hiệu quả thì cần phải xây dựng một mô hình cơ sở dữ liệu hợp lý để tập hợp các
số liệu kinh tế-xã hội thành một hệ thống, đảm bảo vừa phân tích, cung cấp đầy
đủ số liệu hiện tại đồng thời cho phép khai thác các số liệu quá khứ phục vụ đánh giá quá trình phát triển kinh tế xã hội của địa phương
Với công nghệ GIS thì các vấn đề trên sẽ được giải quyết một cách đơn giản,
dễ dàng Những khả năng của GIS cùng với sự hoàn thiện của các phần mềm đi kèm về quản lý và phân tích dữ liệu thì việc ứng dụng nó trong quản lý số liệu thống kê KT-XH là lựa chọn tối ưu CSDL xây dựng đáp ứng lưu trữ số liệu theo thời gian càng làm tăng giá trị sử dụng của các số liệu thống kê
Luận văn này trình bày một giải pháp quản lý số liệu thống kê kinh tế - xã hội dựa trên nền tảng GIS kết hợp mô hình lưu trữ dữ liệu theo thời gian Cơ sở dữ liệu được xây dựng theo mô hình GeoDatabase Chức năng được xây dựng sử dụng ngôn ngữ lập trình ArcOjbect và hoạt động trên nền của phần mềm ArcGIS Chương trình có khả năng phân tích, cung cấp cho người sử dụng, nhà quản lý những số liệu về thống kê một cách nhanh chóng, trực quan
Trang 7SUMMARY
The socio-economic statiscal data is an important basic on process assessing development level in all aspects of the society Besides it is also basic for managers proposing many rational policies to impulse the society development
In the pesent circumstances, the more developing the country is, the more statiscal data amount has to manage and use statiscal data effectively, we have to build a reasonable database model to gather socio-economic datum into a system
It guarantees to analyze, supply the recent datum completely and to allow to exploit the past datum to serve appreciation of the socioeconomic development process in localities
With GIS technology, these problems will be solved simply with the abilities
of GIS along with improvement of enclosed softwares in managing and analyzing data, applying them in managing the socio-economic statiscal data is
an optimal choice Database which is built to satisfy a temporal data storage is more increasing use value of statiscal data
This essay presents one solution to manage the socio-economic statistic on the combination between GIS and temporal data storage model Database is built using the Geodatabase model, the function is built using the ArcObject programming language and operating on ArcGis software background The program can analyze, supply users, managers with statistic datum quickly and visually
Trang 8DANH MỤC HÌNH
Hình II.1: Sơ đồ tổ chức quản lý nhà nước về số liệu thống kê 8
Hình II.2: Sơ đồ mô tả các hình thức và phương pháp thu thập số liệu thống
Hình II.3: Mối quan hệ giữa dữ liệu không gian và thông tin về dân số 11
Hình II.4: Từ thông tin dân số tìm ra vị trí không gian 11
Hình II.5: Phân tích không gian theo số liệu dân số 11
Hình II.6: Tìm những bang có hơn 45% dân số dưới 15 tuổi 12
Hình II.7: Tìm những Bang có dân số lớn hơn 4,5 triệu người vào năm 2010 12
Hình II.8: Tìm những Bang có tỷ lệ dân số biết chữ cao (> 60 %) 12
Hình II.9: Tìm những Bang có tỷ lệ biết chữ ít hơn 40 % dân số 12
Hình II.10: Bản đồ phân loại theo tỷ lệ dân số nam năm 1991 ở Malaysia
Hình II.11: Bản đồ phân loại thể hiện tỷ lệ người Trung Quốc năm 1991 ở
Hình II.12: Tìm những vùng có tỷ lệ người Hồi Giáo lớn hơn 60% 14
Hình II.13: Biểu đồ Scatter thể hiện mối quan hệ giữa người Hồi Giáo và
Hình II.14: Phần trăm dân số có độ tuổi từ 0-14 15
Hình II.15: Phần trăm dân số có độ tuổi từ 18 trở lên 15
Hình II.16: Mật độ dân số ở các vùng vào năm 2025 15
Hình II.17: Tỷ lệ dân số người nước ngoài ở các khu vực 15
Hình II.18: Tỷ lệ sách được mượn từ mỗi thư viện 15
Hình II.19: Khu vực phục vụ của các thư viện 15 Hình II.20: Chức năng cung cấp thông tin kinh tế - xã hội của phần mềm
Hình III.1: Các bước tính toán trong thuật toán K-Means 33
Hình III.2: Biểu diễn số liệu bằng hình vẽ 34 Hình III.3: Kết quả phân nhóm ở lần lặp thứ nhất 36
Hình III.4: Kết quả phân nhóm ở lần lặp thứ hai 37
Hình III.5: Biểu diễn số liệu qua các năm bằng biểu đồ hình cột 39
Hình III.6: Biểu đồ hình tròn biểu diễn cơ cấu dân số chia theo độ tuổi 40
Hình III.7 : Biểu diễn số liệu dân số qua các năm bằng đồ thị đường gấp
Hình III.8: Biểu đồ Scatter minh họa mối quan hệ giữa 2 biến cân nặng và
Hình III.9: Kết quả phân loại theo phương pháp Natural Breaks 42
Hình III.10: Kết quả phân loại theo phương pháp Equal Interval 42
Hình III.11:Kết quả phân loại theo phương pháp Quantile 42
Hình III.12: Kết quả phân loại theo phương pháp Standard deviation 42
Hình III.13: Mô hình các thành phần của ArcGis 46
Trang 9Hình III.15: Biểu tượng shape file trong ArcCatalog 49
Hình III.19: Minh họa mối quan hệ topology giữa vùng và điểm 51
Hình III.21: Mô hình các đối tượng trong thư viện của Arcobject 54
Hình IV.1: Sơ đồ tổng quát quy trình xây dựng cơ sở dữ liệu 56
Hình IV.2: Các thực thể trong mô hình cơ sở dữ liệu 60
Hình IV.4: Dữ liệu không gian và thông tin thuộc tính liên hệ thông qua
Hình IV.6: Sơ đồ dữ liệu điều tra dân số 65
Hình IV.10: Tạo bảng mới 68 Hình IV.11: Cách đưa dữ liệu từ shapefile vào GeodataBase 69
Hình V.1: Sơ đồ mô tả các chức năng của hệ thống 71
Hình V.2: Quy trình hiển thị số liệu thống kê hàng năm và giao diện thiết kế 74
Hình V.3: Quy trình chọn đối tượng 75
Hình V.4: Quy trình hiển thị thông tin của các cuộc tổng điều tra dân số và
Hình V.5: Quy trình phân loại đơn biến và giao diện thiết kế 77
Hình V.6: Quy trình phân loại kết hợp các phép toán đơn giản, giao diện
Hình V.7: Quy trình phân loại theo chỉ số bình quân nhiều chiều, giao diện
Hình V.8: Quy trình tính toán theo chỉ số bình quân nhiều chiều 80
Hình V.9: Quy trình phân loại bằng thuật toán K-Means, giao diện thiết kế 81
Hình V.10: Quy trình chức năng hiển thị số liệu bằng biểu đồ, giao diện
Hình V.13: Giao diện biểu diễn dữ liệu theo thời gian kết hợp nhiều tiêu chí 84
Hình V.14: Quy trình mô tả chức năng thống kê đơn biến, giao diện thiết kế 85
Hình V.15: Quy trình thực hiện chức năng thống kê đa biến, giao diện thiết
Trang 10Hình V.17: Menu của chương trình 86
Hình V.18: Menu “Dữ liệu” 86 Hình V.19: Menu “Quản lý số liệu thống kê KT-XH” 87
Hình V.20: Các chức năng trong menu “Quản lý số liệu thống kê KT-XH” 87
Hình VI.1: Hình minh họa chức năng hiển thị thông tin thống kê hàng năm 90
Hình VI.2: Hiển thị thông tin kết hợp biểu diễn số liệu qua biểu đồ 90
Hình VI.3: Minh họa chức năng hiển thị thông tin của các cuộc tổng điều tra
Hình VI.4: Kết quả phân loại theo tiêu chí học sinh phổ thông 92
Hình VI.5: Kết quả phân loại theo tiêu chí (số học sinh phổ thông/ số giáo
Hình VI.6: Kết quả phân loại theo chỉ số bình quân nhiều chiều theo 3 tiêu
Hình VI.7: Kết quả phân loại thể hiện bằng cách liệt kê theo từng nhóm 93
Hình VI.8: Kết quả thể hiện dưới dạng bảng xếp hạng 93
Hình VI.9: Phân loại đa biến theo thuật toán K-Means theo 3 tiêu chí:
trường phổ thông, học sinh phổ thông, giáo viên phổ thông 94
Hình VI.10: Kết quả chức năng biểu diễn số liệu theo thời gian qua tiêu chí
Hình VI.11: Kết quả tỷ lệ tăng của học sinh phổ thông 95
Hình VI.12: Số liệu học sinh phổ thông qua các năm của quận Gò Vấp 95
Hình VI.13: Diện tích trồng lúa qua các năm của quận Thủ Đức 95
Hình VI.14: Tổng dân số của quận Gò Vấp qua các năm 96
Hình VI.15: Cơ cấu dân số theo độ tuổi được biểu diễn qua biểu đồ hình
Hình VI.17: Kết quả chức năng thống kê đa biến 98
Trang 11DANH MỤC BẢNG
Bảng III.1: Bảng số liệu 20 Bảng III.2: Bảng kết quả phân loại theo khoảng bằng nhau 21
Bảng III.3: Bảng kết quả phân loại theo tần số bằng nhau 22
Bảng III.4: Bảng kết quả phân loại theo phân bố chuẩn 23
Bảng III.5: Kết quả phân loại theo phương pháp Natural Breaks 25
Bảng III.6: Các giá trị tối đa và tối thiểu của các chỉ tiêu liên quan 27
Bảng III.7: Số liệu tính chỉ số HDI của một số địa phương 28
Bảng III.8: Bảng kết quả 28 Bảng III.9: Các giá trị tối đa và tối thiểu dùng để tính chỉ số TAI 29
Bảng III.10: Cách tính trọng số Pi trong phương pháp chỉ số bình quân
Bảng III.11: Kết quả tính theo chỉ số bình quân nhiều chiều của các tiêu
Bảng III.12: Bảng số liệu minh họa cho thuật toán K-Means 34
Bảng III.13: Số liệu tổng dân số quận Bình Thạnh qua các năm 39
Bảng III.14: Số liệu cơ cấu dân số chia theo độ tuổi của quận Bình Thạnh 40
Bảng III.15: Bảng số liệu tổng dân số của Quận 2 qua các năm 45
Bảng III.16: Bảng kết quả tính tốc độ phát triển dân số của Quận 2 45
Bảng IV.1: Các chỉ tiêu thu thập trong các cuộc tổng điều tra dân số 58
Bảng IV.2: Thuộc tính của ranh giới hành chính 62
Bảng IV.3: Thuộc tính của bảng số liệu qua các năm 63
Bảng IV.4: Thuộc tính của bảng điều tra dân số năm 2004 63
Bảng IV.5: Mô tả các thành phần trong Geodatabase 70
Bảng V.1: Bảng chia các chỉ tiêu kinh tế – xã hội thành các nhóm thông
Trang 12DANH MỤC CHỮ VIẾT TẮT
CSDL: Cơ sở dữ liệu
KHCN: Khoa học công nghệ
KT – XH: Kinh tế – Xã hội
GIS: Geography Information System - Hệ thống thông tin địa lý
ESRI - Enviroment System Research Institute
Trang 13CHÚ GIẢI CÁC SƠ ĐỒ
Quá trình (process) Quyết định (Decision)
Kho dữ liệu (Stored data)
Dữ liệu nhập (manual input)
Dữ liệu (Data) Hiển thị (Display)
Thực thể (Object)
Trang 14CHƯƠNG I: MỞ ĐẦU
I.1 ĐẶT VẤN ĐỀ:
Ngày nay, số liệu thống kê đã trở nên phổ biến và được sử dụng rộng rãi
Không chỉ các cơ quan nhà nước, các cơ quan lập kế hoạch, chính sách, nghiên
cứu, mà các nhà đầu tư, sản xuất kinh doanh trong nước, ngoài nước, đến cả
người dân cũng có nhu cầu hiểu biết và được cung cấp con số thống kê Đối với
mỗi ngành nghề khác nhau thì loại số liệu thống kê quan tâm cũng khác nhau
Thông tin về số liệu kinh tế xã hội càng nhiều, càng chính xác và đầy đủ sẽ
thuận lợi cho những nhà lãnh đạo trong việc theo dõi, so sánh, đánh giá sự phát
triển của địa phương mình quản lý so với với những địa phương khác từ đó sẽ
đưa ra những chính sách hợp lý
Để quản lý và sử dụng số liệu thống kê một cách có hiệu quả thì cần phải
xây dựng một mô hình cơ sở dữ liệu hợp lý để tập hợp các số liệu kinh tế-xã hội
thành một hệ thống, đảm bảo vừa phân tích, cung cấp đầy đủ số liệu hiện tại
đồng thời cho phép khai thác các số liệu quá khứ phục vụ đánh giá quá trình phát
triển kinh tế xã hội của địa phương
Cùng với sự phát triển của công nghệ thông tin thì công nghệ GIS
(Geograhic Information System) bắt đầu hình thành từ những năm 60 của thế kỷ
20 cũng đã có được những bước tiến dài trên toàn thế giới, được ứng dụng ở đa
lĩnh vực, đa ngành nghề và đã trở thành một công cụ trợ giúp ra quyết định trong
nhiều hoạt động kinh tế xã hội, quốc phòng của nhiều quốc gia trên thế giới
Thông qua chức năng thu thập, quản lý, truy vấn phân tích và tích hợp các thông
tin được gắn liền với một nền hình học bản đồ nhất quán, GIS thậm chí còn được
coi là một công cụ trợ giúp quyết định cực kỳ hiệu quả cho các cơ quan chính
phủ, các nhà quản lý và hoạch định chính sách, các doanh nghiệp và cả từng cá
nhân
Trang 15Thành phố Hồ Chí Minh là một thành phố lớn trong cả nước số lượng dân
số đông, các vấn đề về kinh tế xã hội cũng rất phức tạp Trong những năm gần
đây cùng với sự phát triển của thành phố thì các vấn đề liên quan đến kinh tế xã
hội cũng tăng lên rất nhiều Vì vậy, cần phải có một phương pháp để quản lý số
liệu thống kê kinh tế xã hội hợp lý Với các chức năng đa dạng của hệ thống
thông tin địa lý (GIS), với yêu cầu của việc quản lý thông tin kinh tế xã hội của
thành phố hiện nay, thì việc ứng dụng GIS vào quản lý thông tin kinh tế xã hội là
một việc làm vô cùng cần thiết Hệ thống GIS giúp lưu trữ, sử dụng cơ sở dữ liệu
thông tin kinh tế xã hội hiệu quả hơn, đặc biệt chức năng trợ giúp ra quyết định là
một công cụ mạnh của một hệ GIS
Xuất phát từ nhu cầu thực tế đã phân tích ở trên, luận văn này được thực
hiện nhằm nghiên cứu và xây dựng một hệ thống GIS cho phép quản lý và khai
thác hiệu quả số liệu thống kê kinh tế xã hội phục vụ cho các nhà quản lý trong
quá trình lập quyết định liên quan đến các vấn đề kinh tế - xã hội
I.2 MỤC TIÊU CỦA LUẬN VĂN
I.2.1 Mục tiêu chung
Nghiên cứu và xây dựng 1 hệ thống GIS cho phép quản lý và khai thác hiệu
quả số liệu thống kê kinh tế xã hội phục vụ cho các nhà quản lý trong quá trình
lập quyết định liên quan đến các vấn đề kinh tế - xã hội
I.2.2 Mục tiêu cụ thể
- Nghiên cứu xây dựng mô hình CSDL không gian và thuộc tính để quản lý số
liệu thống kê về kinh tế - xã hội
- Thiết lập các modul để khai thác cơ sở dữ liệu đã xây dựng, gồm một số chức
năng cụ thể sau:
Xem thông tin quản lý theo từng quận, từng nhóm chỉ tiêu (dân số - lao
động, công nghiệp, nông nghiệp…)
Thực hiện bài toán phân loại đơn biến, đa biến
Trang 16Thể hiện dữ liệu thông qua các loại biểu đồ: hình cột, hình tròn
Biểu diễn dữ liệu theo thời gian: dạng biểu đồ, dạng bảng dữ liệu
Chức năng thống kê số liệu: từ số liệu của các quận sẽ tính ra được số liệu
của toàn thành phố, hay tính ra được các giá trị thống kê: giá trị lớn nhất, nhỏ
nhất, trung bình,…
I.3 NỘI DUNG NGHIÊN CỨU
- Tìm hiểu hiện trạng quản lý số liệu thống kê kinh tế - xã hội tại thành phố Hồ
Chí Minh
- Nghiên cứu đề xuất mô hình quản lý
- Thiết kế cơ sở dữ liệu:
9 Thiết kế một hệ cơ sở dữ liệu theo chuẩn GeoDataBase phục vụ cho quá
trình quản lý
9 Thiết kế cơ sở dữ liệu phù hợp với quá trình quản lý số liệu theo thời gian
- Xây dựng cơ sở dữ liệu mẫu khu vực thành phố Hồ Chí Minh
- Nghiên cứu ngôn ngữ lập trình VBA trong ArcGis để xây dựng modul khai
thác cơ sở dữ liệu đã xây dựng
I.4 PHƯƠNG PHÁP NGHIÊN CỨU
- Nghiên cứu theo tài liệu: Tìm hiểu hiện trạng quản lý, sử dụng số liệu thống
kê kinh tế xã hội tại các quận ở thành phố hồ chí minh, thu thập tất cả các loại số
liệu thống kê, các tài liệu trong và ngoài nước liên quan đến đề tài
- Phương pháp tính toán thống kê: nghiên cứu các phương pháp tính toán
thống kê ứng dụng trong quản lý kinh tế và xã hội
- Phương pháp chuyên gia: tham khảo ý kiến chuyên gia về các số liệu thống
kê kinh tế xã hội trong đánh giá sự phát triển của địa phương
Trang 17- Phân tích thiết kế hệ thống: thiết kế dữ liệu phù hợp với ứng dụng quản lý
kinh tế xã hội Sử dụng công nghệ GIS, thiết kế CSDL không gian và thuộc tính
phù hợp với mô hình dữ liệu Geodatabase
I.5 GIỚI HẠN PHẠM VI
I.5.1 Giới hạn về nội dung nghiên cứu
- Luận văn sẽ tập trung nghiên cứu xây dựng hệ thống GIS phục vụ cho công
tác quản lý thông tin kinh tế - xã hội ở mức độ máy đơn không đi vào nghiên cứu
giải pháp cho nhiều người sử dụng
- Mục đích phục vụ cho các nhà quản lý ở cấp Quận/ Huyện
- Luận văn cũng chỉ đề cập đến các số liệu kinh tế - xã hội được thu thập ở cấp
độ Quận/ Huyện
I.5.2 Giới hạn về phạm vi nghiên cứu
Phạm vi nghiên cứu của luận văn là khu vực thành phố Hồ Chí Minh (có tất cả
24 Quận/ Huyện)
Trang 18CHƯƠNG II: QUẢN LÝ THÔNG TIN KINH TẾ - XÃ HỘI
II.1 NỘI DUNG VỀ QUẢN LÝ THÔNG TIN KINH TẾ - XÃ HỘI
II.1.1 Giới thiệu về thông tin kinh tế - xã hội:
Thông tin kinh tế - xã hội là tất cả các thông tin liên quan đến các lĩnh vực: khí tượng – thủy văn, dân số, lao động, các chỉ tiêu tổng hợp và mức sống, đầu tư, doanh nghiệp, công nghiệp, nông nghiệp, thương mại, giá cả, vận tải, bưu điện, văn hóa, giáo dục, y tế Các thông tin này được thu thập thông qua các cuộc tổng điều tra và các cuộc điều tra Theo qui định của luật thống kê [24] có các cuộc tổng điều tra và điều tra thống kê như sau:
a) Tổng điều tra dân số và nhà ở: thu thập số liệu về dân số, lao động toàn
xã hội và nhà ở phục vụ công tác nghiên cứu, phân tích qui mô, cơ cấu phân bố
và tốc độ phát triển dân số, nguồn lao động và nhà ở của dân cư Đối với các cuộc tổng điều tra dân số và nhà ở tiến hành điều tra theo chu kỳ 10 năm Ở nước
ta từ năm 1975 đến nay đã tiến hành 3 cuộc tổng điều tra dân số lớn vào các năm
1979, 1989 và 1999 Hiện nay, đang tiến hành cuộc tổng điều tra dân số và nhà ở năm 2009, căn cứ vào số liệu điều tra được để đánh giá chiến lược phát triển kinh
tế - xã hội 10 năm 2001 – 2010; đồng thời để hoạch định chiến lược phát triển mới cho giai đoạn 2011 – 2020 gắn với dân số và chất lượng cuộc sống của người dân Nội dung các cuộc điều tra gồm những vấn đề sau:
- Dân số chia theo giới tính, tuổi, dân tộc, tôn giáo, tình trạng đi học, trình
độ học vấn, trình độ chuyên môn kỹ thuật…
Trang 19b) Điều tra dân số giữa kỳ: thu thập thông tin về dân số và nguồn lao động làm cơ sở để lập kế hoạch và xây dựng chính sách dân số, tiến hành theo chu kỳ
10 năm một lần Nội dung là thu thập thông tin về qui mô, cơ cấu, phân bố và tốc
độ phát triển dân số, nguồn lao động, mức độ sinh chết, kế hoạch hóa gia đình c) Các cuộc điều tra về đầu tư, tài khoản quốc gia, tài chính tiền tệ
d) Điều tra nông nghiệp, lâm nghiệp, thủy sản
e) Điều tra về công nghiệp, xây dựng
f) Điều tra về thương mại, du lịch, giao thông vận tải, bưu chính viễn thông, công nghệ thông tin
g) Điều tra về giá cả
h) Điều tra về khoa học công nghệ, bảo vệ môi trường
i) Điều tra về y tế, giáo dục, văn hóa, trật tự an toàn xã hội, mức sống dân
cư
Nhà nước ban hành một hệ thống chỉ tiêu thống kê Quốc gia [23] phục vụ các
cơ quan lãnh đạo Đảng và Nhà nước, các cấp trong việc đánh giá, dự báo tình hình, hoạch định chiến lược, chính sách, xây dựng kế hoạch phát triển kinh tế -
xã hội từng thời kỳ và kiểm tra thực hiện, đồng thời đáp ứng nhu cầu thông tin thống kê của các tổ chức, cá nhân khác
Tổng cục thống kê căn cứ vào hệ thống chỉ tiêu thống kê Quốc gia và yêu cầu đặc thù của các địa phương để quy định hệ thống chỉ tiêu cấp tỉnh, huyện, xã Sau đây là những chỉ tiêu cơ bản phản ảnh thực trạng tình hình kinh tế - xã hội thành phố Hồ Chí Minh:
- Dân số - Lao động: dân số nam, dân số nữ, tổng dân số, mật độ dân số
- Các chỉ tiêu tổng hợp và mức sống: thu ngân sách nhà nước, chi ngân sách nhà nước
Trang 20- Công nghiệp: Giá trị sản xuất công nghiệp ngoài nhà nước, giá trị sản xuất công nghiệp cá thể
- Nông nghiệp: diện tích trồng lúa, diện tích trồng rau, diện tích trồng cây công nghiệp ngắn ngày, năng suất trồng lúa, năng suất trồng rau, năng suất trồng cây công nghiệp ngắn ngày, sản lượng lúa, sản lượng rau, sản lượng cây công nghiệp ngắn ngày
- Thương mại: cơ sở thương nghiệp, khách sạn, nhà hàng
- Văn hóa – Giáo dục: số trường mẫu giáo, số giáo viên mẫu giáo, số học sinh mẫu giáo, số trường phổ thông, số học sinh phổ thông, số giáo viên phổ thông
- Một số chỉ tiêu khác: số phường, diện tích
II.1.2 Quản lý nhà nước về thông tin kinh tế - xã hội:
Tổng cục Thống kê là cơ quan thuộc Chính phủ có nhiệm vụ tổ chức thực hiện hoạt động thống kê và cung cấp thông tin thống kê kinh tế - xã hội cho các cơ quan, tổ chức và cá nhân theo quy định của pháp luật
Ở Trung ương có cơ quan Tổng cục Thống kê, ở tỉnh, thành phố trực thuộc Trung ương có Cục Thống kê trực thuộc Tổng cục Thống kê, ở huyện, quận, thị
xã, thành phố thuộc tỉnh có Phòng Thống kê trực thuộc Cục Thống kê tỉnh, thành phố trực thuộc Trung ương
Trang 21Trong cả nước có tất cả 64 cục thống kê của các tỉnh, thành phố Cục thống kê đóng vai trò vừa là một đơn vị báo cáo thống kê tổng hợp, vừa là đầu mối triển khai chế độ báo cáo, điều tra và thu thập, xử lý thông tin từ các đơn vị cơ sở Một mặt phải đáp ứng nhu cầu thông tin phục vụ cho việc tính toán và tổng hợp chung của cả hệ thống chỉ tiêu thống kê quốc gia, mặt khác phải đáp ứng nhu cầu thông tin về tình hình kinh tế - xã hội trên địa bàn cho các đối tượng dùng tin Cả hai mặt công tác này đều là nhiệm vụ trọng tâm của các Cục Thống kê địa phương Thông tin kinh tế - xã hội là thông tin do tổng cục thống kê tiến hành điều tra, thu thập số liệu từ các cuộc điều tra thường xuyên, điều tra định kỳ và các cuộc tổng điều tra; sau bước thu thập thông tin, xử lý và tổng hợp kết quả điều tra Số liệu được cung cấp cho các cấp, các ngành ở địa phương
Hiện nay, ngành thống kê cung cấp thông tin về kinh tế - xã hội dưới 2 hình thức: thông qua trang web của cục thống kê, và niên giám thống kê xuất bản hàng năm, các thông tin kinh tế - xã hội này được lưu trữ dưới dạng các bảng biểu, mỗi một tiêu chí sẽ được lưu trữ ở một bảng biểu riêng biệt Với cách cung
Tổng cục thống kê
Cục thống kê
(tỉnh/thành phố)
Cục thống kê (tỉnh/thành phố)
Cục thống kê (tỉnh/thành phố)
Trang 22cấp thông tin này cũng có những lợi ích như giúp cho người sử dụng tiếp cận với thông tin nhanh chóng, bên cạnh đó thì cũng gặp nhiều khó khăn trong quá trình
sử dụng
9 Cách thức thu thập số liệu thống kê về kinh tế – xã hội
Trong thu thập số liệu thường áp dụng hai hình thức chủ yếu: Báo cáo thống
kê định kỳ và điều tra thống kê
Báo cáo thống kê định kỳ là hình thức thu thập số liệu thống kê được tiến hành thường xuyên, định kỳ theo nội dung, phương pháp cũng như hệ thống biểu mẫu thống nhất, được quy định thành chế độ báo cáo do cơ quan có thẩm quyền quyết định và áp dụng cho nhiều năm
Điều tra thống kê là hình thức thu thập số liệu được tiến hành theo phương án quy định cụ thể cho từng cuộc điều tra Trong phương án điều tra quy định rõ mục đích, nội dung, đối tượng, phạm vi, phương pháp và kế hoạch tiến hành điều tra Điều tra thống kê được áp dụng ngày càng rộng rãi trong điều kiện nền kinh
tế thị trường có nhiều thành phần kinh tế
Điều tra thống kê được phân thành điều tra toàn bộ và điều tra không toàn bộ Điều tra toàn bộ nhằm tiến hành thu thập số liệu ở tất cả các đơn vị của tổng thể Trong khi đó điều tra không toàn bộ chỉ tiến hành thu thập số liệu của một bộ
Thu thập số liệu thống kê
Điều tra toàn bộ Điều tra không toàn bộ
Điều tra trọng điểm chuyên đềĐiều tra chọn mẫu Điều tra
Hình II.2: Sơ đồ mô tả các hình thức và phương pháp thu
thập số liệu thống kê
Trang 23phận các đơn vị trong tổng thể Trong điều tra không toàn bộ còn chia ra điều tra trọng điểm, điều tra chuyên đề và điều tra chọn mẫu
Điều tra trọng điểm và điều tra chuyên đề khác với điều tra chọn mẫu ở chỗ kết quả của nó không dùng để suy rộng cho tổng thể chung Kết quả của điều tra chọn mẫu được dùng để mô tả đặc điểm của tổng thể chung
9 Giới thiệu cấu trúc của niên giám thông kê:
Niên giám thống kê có 2 loại: niên giám thống kê do tổng cục thống kê phát hành gồm các thông tin kinh tế - xã hội của cả nước, niên giám thống kê do cục thống kê (tỉnh/ thành phố) phát hành gồm những thông tin kinh tế - xã hội phản ánh tình trạng phát triển của tỉnh/ thành phố đó
Niên giám thống kê thành phố Hồ Chí Minh là một ấn phẩm chuyên ngành của Cục thống kê thành phố Hồ Chí Minh, mô tả chi tiết các thông tin về đặc điểm kinh tế -xã hội phục vụ cho công tác quản lý nhà nước về các chính sách kinh tế - xã hội Nội dung niên giám là tổng hợp các số liệu trên tất cả các lĩnh vực của thành phố Hồ Chí Minh
Niên giám thống kê sắp xếp thông tin kinh tế - xã hội theo từng nhóm như sau: khí tượng – thủy văn, dân số và lao động, các chỉ tiêu tổng hợp và mức sống, đầu
tư, doanh nghiệp qua kết quả điều tra, công nghiệp và xây lắp, nông nghiệp, thương mại và giá cả, vận tải và bưu điện, văn hóa – giáo dục – y tế Trong mỗi nhóm gồm các thông tin liên quan đến nhóm đó, ví dụ nhóm dân số và lao động gồm một số tiêu chí như sau: dân số nam, dân số nữ, tình trạng hôn nhân, lao động đang làm việc trong khu vực nhà nước, số người được giới thiệu việc làm trong độ tuổi lao động Mỗi một tiêu chí được biểu diễn dưới dạng 1 bảng số liệu
II.2 TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
II.2.1 Tình hình nghiên cứu ngoài nước:
Trên thế giới đã có nhiều chương trình nghiên cứu về việc ứng dụng hệ thống thông tin địa lý (GIS) trong quản lý thông tin kinh tế - xã hội Ví dụ như:
Trang 24[2] Trung Quốc là một đất nước rộng lớn, có số lượng dân số lớn nhất trên thế giới vì vậy quản lý dân số là một vấn đề quan trọng, phương pháp quản lý truyền thống vẫn được sử dụng nhưng nó không còn thích hợp nữa Sự phát triển của khoa học kỹ thuật, cùng với sự gia tăng nhanh dân số các tác giả Chengming LI, Zhongjian LIN, Jie YIN đã xây dựng phần mềm PGIS để phục
vụ cho quá trình quản lý dân số ở Trung Quốc Trong bài báo này đề cập đến một số nội dung chính như sau:
- Hướng dẫn cách xây dựng nền tảng dữ liệu không gian
- Kết hợp giữa số liệu dân số và thông tin không gian
- Một số ứng dụng của phần mềm PGIS để phân tích không gian về dân số, tỉnh Hebei, thành phố Langfang (gần Bắc Kinh) là khu vực được chọn để minh họa
Dữ liệu quan tâm của nghiên cứu này là số liệu về dân số, chỉ sử dụng công
cụ tìm kiếm để tìm ra vùng theo thông tin dân số, và ngược lại từ thông tin không gian tìm ra thông tin về dân số Nhìn chung, PGIS đang còn ở mức đơn giản,
Population
Hình II.3: Mối quan hệ giữa dữ liệu không gian và thông tin về dân số
Hình II.4: Từ thông tin dân số tìm ra
vị trí không gian
Hình II.5: Phân tích không gian theo
số liệu dân số
Trang 25chưa sử dụng các phương pháp phân loại giúp cho người sử dụng có cái nhìn tổng quát về dữ liệu, chưa đánh giá được khu vực nào phát triển, khu vực nào chưa phát triển Không thấy được sự thay đổi của số liệu qua các năm
[8] Đối với nghiên cứu ứng dụng GIS quản lý thông tin dân số ở Nigeria, tác giả sử dụng phần mềm ArcView 3.1 để minh họa Trong bài báo này tác giả
đã dùng chức năng truy vấn trong GIS, sử dụng số liệu dân số để thể hiện lên bản
đồ, ví dụ như một số câu truy vấn như sau: tìm những Bang có hơn 45% dân số dưới 15 tuổi, tìm các Bang có tỷ lệ dân số biết chữ cao hoặc tỉ lệ dân số biết chữ thấp
Hình II.9: Tìm những Bang có tỷ lệ biết chữ ít hơn 40 % dân số
Hình II.8: Tìm những Bang có tỷ lệ dân
số biết chữ cao (> 60 %)
Hình II.6: Tìm những bang có hơn
45% dân số dưới 15 tuổi
Hình II.7: Tìm những Bang có dân số lớn hơn 4,5 triệu người vào năm 2010
Trang 26Số liệu quan tâm chủ yếu là số liệu về dân số Chỉ mới sử dụng chức năng truy vấn đơn giản để tìm ra những khu vực thỏa mãn một yêu cầu nào đó Tạo ra một cái nhìn tổng quát về dân số, so sánh dân số giữa các bang trong khu vực nghiên cứu thông qua các vùng được chọn Nhưng với những kết quả như trình bày thì bài báo này chỉ mới ở mức độ ứng dụng GIS để truy vấn số liệu dân số, chưa sử dụng cách thể hiện số liệu thông qua biểu đồ ví dụ như các dạng biểu đồ hình tròn, hình cột…, hay tạo bản đồ phân loại…
[20] Ở Malaysia, để tìm hiểu về đặc tính dân số, Internet GIS (Web GIS or Web-based GIS) đã được xây dựng Trong nghiên cứu này, khu vực nghiên cứu
là bán đảo Malaysia, số liệu thống kê dân số từ năm 1991 với các đặc tính như sau: giới tính, tôn giáo, trường học, lực lượng lao động, công việc, tổng dân số… Các số liệu này được tích hợp trong GIS để tạo ra các bản đồ Choropleth, đồ thị Scatter từ đó giúp cho nhà quản lý trong việc đánh giá tình hình phát triển kinh tế
- xã hội của khu vực Chương trình được xây dựng với nhiều cấp độ hành chính khác nhau tương tự như cấp Quận/ huyện, phường/ xã, trước khi sử dụng thì người dùng phải chọn cấp đơn vị hành chính mà mình quan tâm
Hình II.10: Bản đồ phân loại theo tỷ lệ
dân số nam năm 1991 ở Malaysia theo 7
khoảng bằng nhau
Hình II.11: Bản đồ phân loại thể hiện tỷ
lệ người Trung Quốc năm 1991 ở Kuala Lumpur theo khoảng bằng nhau
Trang 27Ö Nhận xét: Nghiên cứu này sử dụng số liệu thống kê về dân số ở Malaysia, dùng các phương pháp phân loại, truy vấn, biểu đồ trong hệ thông tin địa lý (GIS) quản lý dân số Tuy nhiên, phương pháp phân loại chỉ ở mức độ phân loại đơn biến, các câu lệnh truy vấn đơn giản, chưa sử dụng các loại biểu đồ
để thể hiện sự thay đổi của các loại dữ liệu theo thời gian, làm cho người dùng không thấy được sự thay đổi của dữ liệu qua các năm
[6] Ở LosAngeles, tác giả Marc Futtermen đã nghiên cứu sử dụng GIS phân tích, đánh giá số liệu về dân số để lên kế hoạch cho tương lai tại thành phố Glendale (đây là thành phố lớn thứ ba của LosAngeles) Nội dung chính của nghiên cứu này là dựa vào số liệu dân số xác định vị trí thích hợp để xây dựng các thư viện công cộng, từ vị trí muốn đặt thư viện sẽ dự đoán có bao nhiêu độc giả đến thư viện đó
Tác giả đã dùng phương pháp phân loại để thể hiện số liệu thống kê về dân
số lên trên bản đồ: thể hiện phần trăm về dân số từ 0-14 tuổi, phần trăm dân số từ
18 tuổi trở lên, mật độ dân số ở các vùng …, từ các thông tin đó sẽ tìm được vị trí thích hợp để xây dựng thư viện Sau đây là một số hình minh họa việc ứng dụng GIS để thể hiện số liệu
Hình II.12: Tìm những vùng có tỷ lệ người
Hồi Giáo lớn hơn 60%
Hình II.13: Biểu đồ Scatter thể hiện mối quan hệ giữa người Hồi Giáo và nông dân
Trang 28Qua bài báo này, tác giả đã thể hiện cách dùng GIS để quản lý và phân tích
số liệu thống kê Tuy nhiên, do nghiên cứu này chỉ quan tâm đến mục đích tìm vị trí thích hợp để xây dựng thư viện công cộng nên các phương pháp thể hiện chỉ phục vụ cho mục đích này
[9] Quỹ tiền tệ quốc tế IMF xây dựng phần mềm Common Gis phục vụ việc đánh giá mức độ phát triển về kinh tế xã hội của các nước trên thế giới Sử
Hình II.14: Phần trăm dân
Hình II.19: Khu vực phục vụ của các thư viện
Trang 29dụng chỉ số GDP để vẽ biểu đồ sự phát triển kinh tế của các nước, dùng các hình thức phân loại bản đồ và đồ thị để thể hiện giá trị dân số, tỉ lệ gia tăng dân số, tỉ
lệ sinh, tỉ lệ chết… của các nước trên thế giới, từ đó có sự so sánh giữa các quốc gia với nhau
II.2.2 Tình hình nghiên cứu trong nước:
Tại Việt Nam, GIS được biết đến từ khá sớm và đã có nhiều nghiên cứu trong nhiều lĩnh vực như: ứng dụng GIS trong quản lý tài nguyên môi trường, quản lý đất đai, quản lý du lịch… Trong lĩnh vực quản lý số liệu thống kê về kinh
tế - xã hội thì việc ứng dụng GIS trong công tác quản lý vẫn là một vấn đề mới Sau đây là một số nghiên cứu trong nước về vấn đề ứng dụng GIS quản lý
số liệu thống kê kinh tế - xã hội:
CiMapT1M [22]
Trung tâm Thông tin - Bộ Tài nguyên và Môi trường đã nghiên cứu và phát triển phần mềm “Bản đồ nền địa hình, tỷ lệ 1:1.000.000” - CiMapT1M, phần mềm này được xây dựng trên nền sản phẩm ESRI Bản đồ và các thông tin tư liệu
đi kèm là một công cụ giao tiếp có thể tra cứu tìm kiếm những yếu tố tự nhiên, kinh tế, xã hội của toàn quốc và từng tỉnh Với phần mềm này, người sử dụng có thể xem trực tiếp bản đồ của khu vực quan tâm, tìm kiếm các thông tin tư liệu trên các lớp của bản đồ Chức năng cung cấp thông tin thuộc tính của phần mềm
đã cung cấp cho người sử dụng các thông tin liên quan đến vấn đề về kinh tế - xã hội như: dân số nam, dân số nữ, dân số thành thị, nông thôn, mật độ dân số, số giáo viên mẫu giáo, số học sinh mẫu giáo, số giáo viên phổ thông, số học sinh phổ thông, số cán bộ ngành y (bác sĩ, y sĩ, y tá), số cán bộ ngành dược, các loại cây trồng chính: lúa, cà phê, cao su, tiêu, điều, các loại vật nuôi…
Trang 30Phần mềm chỉ dừng lại ở mức độ cung cấp thông tin tương ứng với một đơn
vị hành chính cấp tỉnh/ thành phố được chọn, việc cung cấp thông tin này chỉ thể hiện qua các con số, không sử dụng được các dạng biểu đồ để thể hiện dữ liệu Chưa thể hiện được dãy số liệu thống kê theo thời gian, đây cũng là một điểm quan trọng trong thông tin thống kê về kinh tế - xã hội
CiMapAC [22]
Ngoài ra, Tổng cục thống kê phối hợp với Trung tâm thông tin – Bộ tài nguyên và Môi trường xây dựng ra phần mềm “Danh mục và mã đơn vị hành chính Việt Nam” nhằm cung cấp một bộ bản đồ hành chính và mã số các đơn vị hành chính, thông tin về kinh tế - xã hội của các tỉnh, thành phố nhằm phục vụ tra cứu tiện lợi và trực quan trên nền bản đồ số Phần mềm cung cấp các công cụ tìm kiếm giúp cho người sử dụng thuận tiện trong quá trình tra cứu thông tin Ứng dụng GIS trong quản lý số liệu thống kê về kinh tế - xã hội vẫn là một vấn đề mới ở nước ta Tuy đã có một số nghiên cứu và ứng dụng nhưng đây chỉ
là bước khởi đầu, các nghiên cứu này chỉ dừng lại ở việc cung cấp thông tin kinh
tế - xã hội ứng với một đơn vị hành chính nào đó Chưa thể hiện được dữ liệu theo thời gian, chưa có sự so sánh số liệu giữa các đơn vị hành chính với nhau hay thể hiện số liệu thông qua biểu đồ…
Hình II.20: Chức năng cung cấp thông tin kinh tế - xã hội của phần mềm
CiMapT1M
Trang 31Đánh giá
Với các ứng dụng trong nước như nêu trên, thì việc nghiên cứu để đưa ra một giải pháp thích hợp nhất về việc thiết kế, xây dựng mô hình cơ sở dữ liệu có khả năng lưu trữ và cung cấp thông tin thống kê kinh tế - xã hội đáp ứng nhu cầu của các nhà quản lý là vấn đề cần thiết và cấp bách
Nếu không sử dụng phần mềm tìm kiếm thông tin, khi người sử dụng cần tìm thông tin nào đó thì phải căn cứ vào tiêu chí mình muốn tìm, từ đó sẽ tìm ra được bảng biểu chứa số liệu của tiêu chí đó, điều này gây khó khăn và mất nhiều thời gian để tìm kiếm
Ví dụ: các nhà lãnh đạo của quận A muốn biết số lượng học sinh hoặc số
lượng giáo viên của quận mình qua các năm như thế nào? Với cách cung cấp thông tin như hiện tại thì họ phải tìm đến các bảng biểu lưu trữ các tiêu chí số học sinh hoặc số giáo viên, từ các số liệu đó họ tự so sánh chúng với nhau để đi đến kết luận số liệu tăng hay giảm như thế nào qua các năm Nhưng nếu đánh giá
1 hiện tượng nào đó mà chỉ dựa 1 tiêu chí độc lập đôi khi mang lại kết quả không chính xác, vì trên thực tế 1 hiện tượng kinh tế - xã hội chịu ảnh hưởng của rất nhiều yếu tố
Theo ví dụ trên, nếu ta đánh giá mức độ phát triển giáo dục của một quận
mà chỉ dựa vào yếu tố số học sinh hoặc số giáo viên, điều này rõ ràng sẽ cho những kết quả không đúng Khi đó có thể người sử dụng muốn kết hợp một vài yếu tố lại với nhau chẳng hạn số lượng học sinh trên 1 giáo viên thay đổi qua các năm như thế nào? Với yêu cầu này thì các phần mềm cung cấp thông tin của Bộ Tài nguyên và Môi trường hoàn toàn không thể đáp ứng được, hay dựa vào việc tra cứu thông tin trong niên giám thông kê cũng không có ngay được kết quả
Vì vậy, cần phải xây dựng một CSDL GIS phù hợp giúp cho người sử dụng truy cập thông tin một cách dễ dàng cũng như phải có các chức năng thể hiện, phân tích số liệu một cách trực quan kết hợp thông tin thuộc tính, biểu đồ, bản
đồ
Trang 32CHƯƠNG III: CƠ SỞ LÝ THUYẾT LIÊN QUAN
III.1 CÁC PHƯƠNG PHÁP PHÂN TÍCH DỮ LIỆU
III.1.1 Khái niệm về phân loại trong thống kê
Phân loại trong thống kê là căn cứ vào một (hay một số) tiêu chí nào đó để
phân chia tổng thể thống kê thành các nhóm có tính chất khác nhau Ví dụ, phân chia nhân khẩu trong nước thành các nhóm nam và nữ (căn cứ vào giới tính), thành các nhóm có độ tuổi khác nhau (căn cứ vào độ tuổi), v.v Một ví dụ khác: Phân chia chỉ tiêu giá trị tăng thêm của sản xuất công nghiệp thành các nhóm là kinh tế nhà nước và kinh tế ngoài nhà nước (căn cứ vào hình thức sở hữu), thành các ngành công nghiệp riêng biệt (căn cứ vào hoạt động sản xuất công nghiệp), v.v
Phân nhóm thống kê là phương pháp cơ bản của tổng hợp thống kê, là một trong những phương pháp quan trọng của phân tích thống kê, đồng thời là cơ sở
để vận dụng các phương pháp phân tích thống kê khác như phương pháp chỉ số, phương pháp tương quan, phương pháp cân đối,
Tiêu chí thống kê (đặc điểm của đơn vị tổng thể để nhận thức hiện tượng nghiên cứu) được chọn làm căn cứ để phân nhóm thống kê gọi là tiêu chí phân nhóm Tiêu chí phân nhóm thống kê được chia thành 2 loại: Tiêu chí số lượng và tiêu chí thuộc tính
Tiêu chí định lượng là tiêu chí có thể biểu diễn được bằng con số, ví dụ độ
tuổi, thu nhập bình quân của hộ gia đình, trình độ văn hoá, mức năng suất lao động, tiền lương bình quân,
Tiêu chí định tính là tiêu chí không thể biểu hiện được bằng con số, ví dụ
giới tính, nghề nghiệp, dân tộc, tôn giáo,
Trong thống kê, có thể phân nhóm theo một tiêu chí (gọi là phân nhóm đơn biến hay phân loại đơn biến) hoặc phân nhóm theo hai hay nhiều tiêu chí (gọi là phân nhóm kết hợp hay phân loại đa biến)
Trang 33III.1.2 Phân loại đơn biến
Phân loại đơn biến là dựa vào một tiêu chí để nhóm các đối tượng vào các nhóm khác nhau
Phân loại đơn biến là cách thức phân loại đơn giản nhất và cũng thường được sử dụng nhất trong phân tích số liệu thống kê Các phương pháp thường sử dụng trong phân loại đơn biến là khoảng bằng nhau, tần số bằng nhau, độ lệch chuẩn, Natural breaks
III.1.2.1 Các phương pháp phân loại đơn biến
9 Phân loại khoảng bằng nhau (Equal Interval): chia giá trị thuộc tính thành
những khoảng bằng nhau, số khoảng sẽ do người sử dụng xác định trước
Phương pháp tính: giới hạn của các nhóm được tính theo công thức sau:
Trong đó: Zmax = giá trị thuộc tính cực đại
Zmin = giá trị thuộc tính cực tiểu
n = số nhóm, k = 1→ n
Ví dụ: Ta có số liệu về tổng dân số của các quận, huyện trong thành phố Hồ Chí
Minh như bảng III.1 Hãy phân nhóm các quận, huyện theo tiêu chí tổng dân số
n
Z Z k Z n
Z Z k
min min max
Trang 34Kết quả phân nhóm như sau:
Bảng III.2: Bảng kết quả phân loại theo khoảng bằng nhau
3
65865 449678
65865
; 0 65865
3
65865 449678
2 65865
; 3
65865 449678
3 65865
; 3
65865 449678
2 65865
Trang 35- Sắp xếp đối tượng theo giá trị tăng hay giảm
- Chia tổng số đối tượng bởi số lớp cần phân loại
Ví dụ: Sử dụng số liệu ở bảng III.1, phân nhóm các quận, huyện theo tần số bằng
nhau thành 3 nhóm
Bảng III.3: Bảng kết quả phân loại theo tần số bằng nhau
Trang 369 Phân loại theo phân bố chuẩn (Standard Deviation): là phương pháp phân
loại dựa trên giá trị trung bình và độ lệch chuẩn
Khoảng của nhóm được sắp xếp như sau:
μ: giá trị trung bình
σ: độ lệch chuẩn
Ví dụ: Sử dụng số liệu bảng III.1, tiến hành phân loại theo phân bố chuẩn
Bảng III.4: Bảng kết quả phân loại theo phân bố chuẩn
Trang 379 Phân loại Natural Breaks:
Phân loại Natural breaks là một phương pháp dùng để sắp xếp giá trị vào trong các nhóm bằng cách lặp đi lặp lại quá trình so sánh sự khác nhau của tổng bình phương độ lệch giữa giá trị quan sát trong mỗi nhóm với giá trị trung bình của nhóm đó Các bước thực hiện:
- Bước 1: xác định thuộc tính cần phân loại, xác định số nhóm k
- Bước 2: lấy k-1 giá trị biên ngẫu nhiên nằm trong khoảng [min; max]
- Bước 3: phân các đối tượng vào các giá trị biên này, tính giá trị trung bình của mỗi nhóm, sau đó tính tổng bình phương độ lệch của từng nhóm (SSD), tính tổng của tổng bình phương độ lệch của tất cả các nhóm (TSSD)
Trang 38- Bước 4: chia giá trị cho mỗi nhóm, điều chỉnh lại giá trị biên của mỗi nhóm, tính lại giá trị TSSD
- Bước 5: lặp lại bước 3, 4 cho đến khi gí trị TSSD nhỏ hơn 1 ngưỡng cho phép hoặc các đối tượng trong cùng một nhóm có sự mâu thuẫn nhỏ nhất
Ví dụ: sử dụng số liệu ở bảng III.1 ta tiến hành thực hiện phân loại theo Natural
Breaks, với số nhóm bằng 3, kết quả như sau:
Bảng III.5: Kết quả phân loại theo phương pháp Natural Breaks
Trang 39III.1.2.2 Các bước tiến hành phân loại đơn biến
- Chọn tiêu chí phân loại: Chọn tiêu chí để phân loại là vấn đề mang tính cốt
lõi của phân loại thống kê, vì phân loại theo các tiêu thức khác nhau sẽ đáp ứng những mục đích nghiên cứu khác nhau, biểu hiện các khía cạnh khác nhau của tập hợp thông tin Phải căn cứ vào mục đích nghiên cứu và bản chất của hiện tượng để xác định tiêu chí phân nhóm cho phù hợp, đồng thời cần phải xét đến điều kiện cụ thể của hiện tượng
- Xác định số nhóm cần phân loại và phương pháp chia nhóm: Số lượng
nhóm phụ thuộc vào số lượng thông tin và phạm vi biến động của tiêu chí nghiên cứu Lượng thông tin càng nhiều, phạm vi biến động của tiêu chí càng lớn thì càng phải phân làm nhiều nhóm Phương pháp chia nhóm có thể sử dụng một trong các phương pháp: phân loại khoảng bằng nhau, tần số bằng nhau, độ lệch chuẩn, Natural Breaks
- Phân các đơn vị vào các nhóm tương ứng
III.1.3 Phân loại đa biến
Phân loại đa biến (còn gọi là phân loại kết hợp) cũng được tiến hành giống như phân loại đơn biến Trước tiên phải xác định cần phân loại theo những tiêu chí nào Muốn chọn tiêu chí phân nhóm phù hợp phải căn cứ vào mục đích nghiên cứu, vào bản chất của hiện tượng, vào mối liên hệ giữa các tiêu chí
Có thể phân loại theo 2, 3, 4 tiêu chí hoặc nhiều hơn nữa Song khi phân loại phải căn cứ vào mục đích nghiên cứu và điều kiện số liệu để chọn bao nhiêu tiêu chí phân nhóm cho phù hợp và chọn những tiêu chí nào cho có ý nghĩa nhất Trong nghiên cứu, phân tích số liệu thống kê thì phân loại đa biến là một bài toán thường gặp Nhờ vào phân loại đa biến mà ta có thể sắp xếp các cá thể (có thể là quận/ huyện, tỉnh/ thành phố, quốc gia ) theo một trật tự nhất định về một lĩnh vực nghiên cứu nào đó Chẳng hạn như, để so sánh mức độ phát triển về giáo dục của các Quận thì ta phải quan tâm đến các biến như: số lượng trường học, số lượng giáo viên, tỷ lệ học sinh vào đại học …, với nhiều biến số như vậy
Trang 40) HDI HDI
HDI ( 3
1 HDI = 1+ 2 + 3
min) lg(GDP -
max) lg(GDP
min) lg(GDP -
tÕ) thùc lg(GDP HDI1 =
thì nhất thiết phải có một chỉ tiêu phản ánh chung nhất hay một cách phân nhóm thích hợp nhất để sắp xếp các đơn vị lại với nhau
Để giải quyết bài toán trên, các nhà thống kê học đưa ra nhiều phương pháp nhưng phổ biến nhất là các phương pháp sau
III.1.3.1 Tính toán theo các chỉ tiêu cố định
a Chỉ số phát triển con người (HDI)
Chỉ số phát triển con người (viết tắt theo tiếng Anh là HDI - Human
development index) là thước đo tổng hợp về sự phát triển kinh tế xã hội của một
diện thu nhập (thể hiện qua GDP bình quân đầu người); tri thức (thể hiện qua chỉ
số học vấn) và sức khoẻ (thể hiện qua tuổi thọ bình quân tính từ lúc sinh) của con người HDI được tính theo công thức:
HDI3- chỉ số tuổi thọ bình quân tính từ lúc sinh (kỳ vọng sống tính từ lúc sinh)
HDI nhận giá trị từ 0 đến 1 HDI càng gần 1 có nghĩa là trình độ phát triển con người càng cao, trái lại càng gần 0 nghĩa là trình độ phát triển con người càng thấp
Công thức tính các chỉ số thành phần (HDI1, HDI2, HDI3) như sau: