1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trong thành lập bản đồ chuyên đề

113 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 113
Dung lượng 2,05 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hiện nay, có nhiều phương pháp thể hiện dữ liệu trong bản đồ chuyên đề, có những phương pháp sử dụng trực tiếp số liệu ban đầu, có những phương pháp phải phân nhóm dữ liệu trước khi thể

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

Công trình được hoàn thành tại: Trường Đại học Bách Khoa – ĐHQG - TP.HCM

Cán bộ hướng dẫn khoa học: TS LÊ MINH VĨNH

Cán bộ chấm nhận xét 1: TS VŨ XUÂN CƯỜNG

Cán bộ chấm nhận xét 2: TS NGUYỄN VĂN LUYỆN

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 05 tháng 03 năm 2013

Thành phần hội đồng đánh giá luận văn thạc sĩ gồm:

1 PGS.TS TRẦN TRỌNG ĐỨC - Chủ tịch hội đồng

2 PGS.TS NGUYỄN KIM LỢI

3 TS LÊ MINH VĨNH

4 TS VŨ XUÂN CƯỜNG

5 TS NGUYỄN VĂN LUYỆN

Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Bộ môn quản lý chuyên ngành sau khi luận văn được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG BỘ MÔN

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: TRẦN THỊ MỸ HẠNH MSHV: 10100377 Ngày, tháng, năm sinh: 31-01-1987 Nơi sinh: Vĩnh Long Chuyên ngành : Bản đồ, viễn thám và hệ thông tin địa lý Mã số: 604476

I TÊN ĐỀ TÀI

Nghiên cứu xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trong thành lập bản

đồ chuyên đề

II NHIỆM VỤ VÀ NỘI DUNG

Nghiên cứu cơ sở lý luận và trên cơ sở đó xây dựng công cụ hỗ trợ việc phân nhóm

dữ liệu trong thành lập bản đồ chuyên đề, gồm các nhiệm vụ sau:

1 Tìm hiểu về nội dung phương pháp phân nhóm dữ liệu

2 Nghiên cứu các tiêu chí đánh giá kết quả phân nhóm đã đề xuất

3 Nghiên cứu thực nghiệm trên cơ sở các tiêu chí được lựa chọn và đưa ra

nhận xét, kiến nghị để hỗ trợ việc xây dựng công cụ thích hợp

4 Thiết kế giao diện và lập trình công cụ hỗ trợ việc phân nhóm dữ liệu

III NGÀY GIAO NHIỆM VỤ: 06-02-2012

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 30-11-2012

V CÁN BỘ HƯỚNG DẪN: TS LÊ MINH VĨNH

Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

Tp.HCM, ngày tháng năm 2013

CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký ) (Họ tên và chữ ký )

Trang 4

Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp đã động viên và tạo mọi điều kiện tốt nhất để tôi hoàn thành luận văn này

Trang 5

TÓM TẮT

Trong xây dựng bản đồ chuyên đề, do tính đa dạng và phức tạp của nội dung, mục đích sử dụng mà việc lựa chọn giải pháp thể hiện phù hợp là một vấn đề cần được quan tâm Hiện nay, có nhiều phương pháp thể hiện dữ liệu trong bản đồ chuyên đề, có những phương pháp sử dụng trực tiếp số liệu ban đầu, có những phương pháp phải phân nhóm dữ liệu trước khi thể hiện như phương pháp đồ giải, nền số lượng, biểu đồ… Trong những trường hợp này, nội dung bản đồ chuyên đề

có ý nghĩa và khách quan hay không phụ thuộc rất nhiều vào kết quả phân nhóm dữ liệu Như vậy, phân nhóm dữ liệu là một trong những vấn đề cần quan tâm của người làm bản đồ Vậy làm sao để lựa chọn cách phân nhóm thích hợp? Đây là câu hỏi cần được quan tâm giải quyết

Luận văn trình bày cơ sở lý luận của việc phân nhóm dữ liệu: ý nghĩa của việc phân nhóm, những vấn đề cần quan tâm khi phân nhóm dữ liệu, cách lựa chọn giải pháp phân nhóm phù hợp nhất Bằng phương pháp nghiên cứu so sánh và thực nghiệm, luận văn đề xuất việc lựa chọn tiêu chí đánh giá kết quả phân nhóm dựa trên những công thức cụ thể và hướng giải quyết để tìm ra giải pháp phân nhóm dữ liệu phù hợp nhất Trên cơ sở lý luận và những đề xuất được đưa ra, luận văn đã xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trên phần mềm GIS, cụ thể là phần mềm ArcGis 9.3

Kết quả đạt được của luận văn là đưa ra một công cụ hỗ trợ phân nhóm dữ liệu với các chức năng hiển thị thông tin phân nhóm dữ liệu, hỗ trợ việc xác định số nhóm (thông qua đồ thị mối tương quan giữa số nhóm và chỉ số độ phù hợp của kết quả phân nhóm), hỗ trợ việc lựa chọn phương pháp phân nhóm (thông qua các chỉ

số đánh giá) và những kiến nghị cụ thể giúp cho người làm bản đồ chuyên đề đưa ra quyết định lựa chọn giải pháp phân nhóm phù hợp nhất cho các dữ liệu cụ thể

Trang 6

to be solved

The thesis presents the theoretical basics of data classification: the significances

of classifications, different aspects to be considered when classifying data, the selection of the most appropriate solution to classify data By means of comparison and empirical research, this thesis proposes evaluation criteria using specific formulas and solution to classify data most appropriately Based on the theoretical basics and suggestions made, the thesis has developed the tool to support the classification of data on GIS software, specifically in ArcGIS 9.3

The outcome of the thesis is the offer of a tool that supports users to classify data with following functionalities: displaying classified data, supporting to define the number of groups (through the correlation graph between the number of groups and goodness of absolute deviation fit –GADF- index), supporting method selection (through indicators) and giving specific recommendations to help the mapmakers select classification solution best suited for the particular data

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài “Nghiên cứu xây dựng công cụ hỗ trợ việc phân nhóm

dữ liệu trong thành lập bản đồ chuyên đề” do TS Lê Minh Vĩnh hướng dẫn là công

trình nghiên cứu của riêng tôi Tất cả các tài liệu tham khảo đều có nguồn gốc xuất

xứ rõ ràng Tôi xin cam đoan những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của giáo viên hướng dẫn Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước Hội đồng

Trang 8

MỤC LỤC

CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1

1.1 ĐẶTVẤNĐỀ 2

1.2 TỔNGQUANTÌNHHÌNHNGHIÊNCỨU 4

1.2.1 Trong nước 4

1.2.2 Ngoài nước 4

1.3 MỤCTIÊU-NỘIDUNGĐỀTÀI 7

1.3.1 Mục tiêu đề tài 7

1.3.2 Nội dung đề tài 7

1.4 GIỚIHẠNĐỀTÀI 7

1.5 PHƯƠNGPHÁPTHỰCHIỆN 8

1.6 KẾTCẤULUẬNVĂN 8

CHƯƠNG 2: BẢN ĐỒ CHUYÊN ĐỀ VÀ PHÂN NHÓM DỮ LIỆU 10

2.1 BẢNĐỒCHUYÊNĐỀ 11

2.1.1 Khái niệm 11

2.1.2 Nội dung thể hiện 11

2.1.3 Phương pháp thể hiện nội dung 11

2.2 PHÂNNHÓMDỮLIỆU 17

2.2.1 Khái niệm 17

2.2.2 Phân nhóm hay không phân nhóm 17

2.2.3 Số nhóm cần phân chia 20

2.2.4 Các công cụ trợ giúp phân nhóm 21

2.2.5 Các phương pháp phân nhóm: 22

2.3 TIỂUKẾT 29

CHƯƠNG 3: ĐÁNH GIÁ KẾT QUẢ PHÂN NHÓM DỮ LIỆU 30

3.1 ĐẶTVẤNĐỀ 31

3.2 CÁCTIÊUCHÍTHƯỜNGĐƯỢCSỬDỤNGĐỂĐÁNHGIÁKẾT QUẢPHÂNNHÓM 31

Trang 9

3.2.1 Tiêu chí đánh giá theo nhà bản đồ học George Jenks năm 1971 [2,

trang 7] 31

3.2.2 Tiêu chí đánh giá theo Terry Slocum [2, trang 71] 34

3.2.3 Tiêu chí đánh giá theo chỉ số độ lệch tuyệt đối của George Jenks 36

3.2.4 Tiêu chí đánh giá theo chỉ số độ lệch phương sai của Robinson 38 3.2.5 Hệ số tương quan 39

3.2.6 Chỉ số phân mảnh (fragmentation index) [7, trang 146] 40

3.3 LỰACHỌNCÁCTIÊUCHÍVÀXÂYDỰNGCÔNGTHỨCCHI TIẾT…… 40

3.3.1 Cơ sở lựa chọn các tiêu chí 40

3.3.2 Xây dựng công thức chi tiết 41

3.4 TIỂUKẾT 46

CHƯƠNG 4: NGHIÊN CỨU THỰC NGHIỆM VÀ NHẬN XÉT 47

4.1 MỐIQUANHỆGIỮACÁCCHỈSỐ 48

4.2 CÁCYẾUTỐẢNHHƯỞNGĐẾNKẾTQUẢPHÂNNHÓMDỮ LIỆU………… 50

4.2.1 Số lượng nhóm 50

4.2.2 Phương pháp phân nhóm 55

4.3 TIỂUKẾT 58

CHƯƠNG 5: XÂY DỰNG CÔNG CỤ HỖ TRỢ VIỆC PHÂN NHÓM DỮ LIỆU 60

5.1 GIỚITHIỆUCÔNGCỤ 61

5.2 GIẢIPHÁPXÂYDỰNGCÔNGCỤ 62

5.3 THIẾTKẾGIAODIỆNCÔNGCỤ 63

5.3.1 Nhóm công cụ hiển thị thông tin dữ liệu 63

5.3.2 Nhóm công cụ hiển thị kết quả phân nhóm 64

5.3.3 Nhóm công cụ đánh giá kết quả 64

5.3.4 Nhóm công cụ thực hiện chức năng lệnh 66

5.4 HƯỚNGDẪNSỬDỤNGCÔNGCỤ 67

Trang 10

5.4.1 Các bước thực hiện công cụ 67

5.4.2 Minh họa cụ thể 67

5.5 TIỂUKẾT 77

CHƯƠNG 6: KẾT LUẬN 78

6.1 KẾTLUẬN 79

6.2 HẠNCHẾCỦAĐỀTÀI 79

6.3 HƯỚNGPHÁTTRIỂN 80

TÀI LIỆU THAM KHẢO 81

PHỤ LỤC 1 83

Diện tích, dân số và mật độ dân số phân theo địa phương năm 2011 83

PHỤ LỤC 2 85

Tỷ suất chết thô phân theo địa phương năm 2011 85

PHỤ LỤC 3 87

Mã lệnh chương trình thiết kế công cụ 87

LÝ LỊCH TRÍCH NGANG 100

Trang 11

DANH MỤC HÌNH

Hình 2.1 Phương pháp ký hiệu theo điểm 12

Hình 2.2 Phương pháp biểu đồ định vị 12

Hình 2.3 Phương pháp đường chuyển động 13

Hình 2.4 Phương pháp đường đồng mức 13

Hình 2.5 Phương pháp chấm điểm 14

Hình 2.6 Phương pháp khoanh vùng 14

Hình 2.7 Phương pháp nền chất lượng 15

Hình 2.8 Phương pháp nền số lượng 15

Hình 2.9 Phương pháp biểu đồ bản đồ 16

Hình 2.10 Phương pháp đồ giải 16

Hình 2.11 Bản đồ phân nhóm theo phương pháp tối ưu (a) và bản đồ không phân nhóm (b) : mật độ dân số các tỉnh miền Nam 20

Hình 2.12 Biểu đồ phân bố dữ liệu 20

Hình 2.13 Biểu đồ giá trị dữ liệu dân số các tỉnh miền Nam 21

Hình 2.14 Biểu đồ phân bố dữ liệu dân số 21

Hình 2.15 Biểu đồ phân bố theo nhóm với các giá trị khoảng bằng nhau 22

Hình 2.16 Biểu đồ histogram 22

Hình 2.17 Kết quả phân nhóm dữ liệu theo phương pháp chia khoảng bằng nhau: a)biểu đồ histogram, b)bản đồ 24

Hình 2.18 Kết quả phân nhóm dữ liệu theo phương pháp chia số đối tượng bằng nhau: a)biểu đồ histogram, b) bản đồ 25

Hình 2.19(a,b) Kết quả phân nhóm dữ liệu theo phương pháp dùng độ lệch chuẩn: a)biểu đồ histogram, b) bản đồ 26

Hình 2.20(a,b) Kết quả phân nhóm dữ liệu theo phương pháp tối ưu: a)biểu đồ histogram, b) bản đồ 28

Hình 3.1 Bản đồ khối lăng trụ thể hiện mật độ dân số của Việt Nam năm 2011 35

Hình 3.2 Đồ thị giá trị GADF ứng với từng số nhóm 37

Hình 4.1 Đồ thị GADF ứng với phương pháp Natural Breaks (dữ liệu mật độ dân số Việt Nam-phụ lục 1) 54

Hình 5.1 Giao diện chính của công cụ 63

Hình 5.2 Nhóm công cụ hiển thị thông tin dữ liệu 63

Hình 5.3 Nhóm công cụ hiển thị kết quả phân nhóm 64

Hình 5.4 Công cụ giúp lựa chọn số nhóm 64

Hình 5.5 Đồ thị GADF ứng với từng số nhóm 65

Hình 5.6 Giao diện đánh giá kết quả phân nhóm 65

Trang 12

Hình 5.7 Công cụ thực hiện chức năng lệnh 66

Hình 5.8 Giao diện thực hiện phân nhóm dữ liệu 66

Hình 5.9 Hiển thị kết quả sau khi phân nhóm dữ liệu 67

Hình 5.10 Khởi động công cụ hỗ trợ phân nhóm 68

Hình 5.11 Nút công cụ hỗ trợ phân nhóm 68

Hình 5.12 Hiển thị thông tin dữ liệu 69

Hình 5.13 Đồ thị GADF ứng với phương pháp Equal Interval 70

Hình 5.14 Đồ thị GADF ứng với phươg pháp Quantile 71

Hình 5.15 Đồ thị GADF ứng với phương pháp Natural Breaks 72

Hình 5.16 Đồ thị GADF ứng với phương pháp Geometrical Interval 73

Hình 5.17 Đồ thị histogram 74

Hình 5.18 Kết quả phân nhóm của phương pháp Equal Interval 74

Hình 5.19 Kết quả phân nhóm của phương pháp Quantile 75

Hình 5.20 Kết quả phân nhóm của phương pháp Natural Breaks (Jenks) 75

Hình 5.21 Kết quả phân nhóm của phương pháp Geometrical Interval 76

Hình 5.22 Phương pháp Manual 76

Hình 5.23 Mật độ dân số Việt Nam theo phương pháp đồ giải 77

Trang 13

DANH MỤC BẢNG

Bảng 2.1 Đánh giá chung các phương pháp phân nhóm dữ liệu thông dụng 29Bảng 3.1 Kết quả độ sai lệch theo phương pháp chia số đối tượng bằng nhau 32Bảng 3.2 Kết quả độ sai lệch theo phương pháp chia tối ưu 33Bảng 4.1 Kết quả đánh giá phân nhóm theo phương pháp chia khoảng bằng nhau (Equal Interval) 49Bảng 4.2 Kết quả đánh giá phân nhóm theo phương pháp Natural Breaks (Jenks) 49Bảng 4.3(a,b) So sánh chỉ số GADF của từng phương pháp ứng với từng số lượng nhóm 52Bảng 4.4(a,b) So sánh chỉ số GADF của từng phương pháp ứng với từng số lượng nhóm 53Bảng 4.5 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 6 56Bảng 4.6 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 7 56Bảng 4.7 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 7 57Bảng 4.8 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 8 57

Trang 14

CHƯƠNG 1

TỔNG QUAN ĐỀ TÀI

Đặt vấn đề

Tổng quan tình hình nghiên cứu

Mục tiêu - Nội dung đề tài

Giới hạn đề tài

Phương pháp thực hiện

Kết cấu luận văn

Trang 15

1.1 ĐẶT VẤN ĐỀ

Bản đồ chuyên đề là các bản đồ thể hiện rất chi tiết một mặt, một bộ phận của đối tượng, hiện tượng Những đối tượng hiện tượng này rất đa dạng, tồn tại trên mặt đất, trong lòng đất, trong bầu khí quyển hoặc trong xã hội loài người Do đó, nội dung và hình thức sẽ rất phong phú, khó có thể được biên tập theo những qui định

có sẵn Vì vậy, việc thành lập bản đồ chuyên đề đòi hỏi người làm bản đồ phải giải quyết nhiều vấn đề, trong đó vấn đề thể hiện nội dung bản đồ sao cho hiệu quả là vấn đề cần được quan tâm

Việc lựa chọn giải pháp thể hiện nội dung bản đồ sẽ bao gồm:

- Lựa chọn phương pháp thể hiện nội dung bản đồ

- Xác định phương pháp xử lý số liệu (chuẩn hóa, phân nhóm, nội suy…)

- Chọn lựa hình thức (ký hiệu, kích thước màu sắc)

Tùy thuộc vào yêu cầu thể hiện nội dung bản đồ, ta chọn cách xử lý dữ liệu sao cho phù hợp đối với dữ liệu định lượng Trong một số phương pháp thể hiện, ta cần phải phân nhóm dữ liệu:

- Trong phương pháp ký hiệu theo điểm, phương pháp ký hiệu theo tuyến, phương pháp biểu đồ, kích thước các ký hiệu có thể tỷ lệ với từng giá trị

cụ thể của hiện tượng hoặc có thể dùnggiá trị đã phân nhóm

- Trong phương pháp đồ giải, phân vùng số lượng… do khả năng phân biệt màu của mắt người rất hạn chế nên thường không thể hiện giá trị của mỗi vùng mà sẽ thể hiện theo giá trị đã phân nhóm để bản đồ dễ nhìn và trực quan hơn

Như vậy, để thể hiện một cách hiệu quả nội dung bản đồ chuyên đề, một trong

những vấn đề cần quan tâm là phân nhóm dữ liệu Khi tiến hành phân nhóm dữ

liệu, người làm bản đồ phải trả lời những câu hỏi sau:

- Có cần phân nhóm hay không?

Trang 16

- Có những phép phân nhóm nào?

- Phép phân nhóm nào là phù hợp nhất?

- Số nhóm cần phải phân ra?

- Phân nhóm như thế nào là tốt nhất?

- Làm sao để đánh giá kết quả phép phân nhóm?

Đến nay, những vấn đề này vẫn chưa được trả lời một cách rõ ràng mà thường

là dựa vào kiến thức, kinh nghiệm và ý kiến chủ quan của người làm bản đồ Trước đây, khi việc xây dựng các bản đồ chuyên đề được thực hiện bởi những người làm bản đồ chuyên nghiệp thì vấn đề này cũng không gây nhiều trở ngại Tuy nhiên, ngày nay, với sự hỗ trợ của công nghệ thông tin và các phần mềm làm bản đồ tự động thì ai cũng có thể tiếp cận và tự mình làm ra bản đồ chuyên đề Vấn đề này dẫn đến kết quả là có rất nhiều bản đồ chuyên đề được làm ra không đúng yêu cầu, không đảm bảo chất lượng do người xây dựng bản đồ không có nhiều kinh nghiệm

và kiến thức liên quan đến bản đồ

Để giải quyết vấn đề này, các kiến thức và nguyên tắc làm bản đồ cần được

nghiên cứu xây dựng một cách hệ thống, giảm bớt những nội dung mơ hồ, giảm bớt sự phụ thuộc vào kinh nghiệm chủ quan Những kết quả nghiên cứu lý thuyết

này sẽ được đưa vào máy tính để hỗ trợ người làm bản đồ không chuyên xây dựng bản đồ theo các nguyên tắc đúng đắn, đảm bảo kết quả phù hợp Đây là một trong những hướng nghiên cứu chính của bản đồ học ngày nay Trong những nội dung này, vấn đề phân nhóm dữ liệu là một trong những vấn đề cần đặt ra như đã nêu ở trên

Chính vì vậy luận văn chọn đề tài: “Nghiên cứu xây dựng công cụ hỗ trợ việc

phân nhóm dữ liệu trong thành lập bản đồ chuyên đề”

Trang 17

1.2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

1.2.1 Trong nước

Nhận thấy được tầm quan trọng của vấn đề phân nhóm dữ liệu, một số cá nhân,

tổ chức trong nước cũng đã nghiên cứu về vấn đề này Đặc biệt là đề tài “ Cơ sở lý

luận trong xây dựng Atlas điện tử phục vụ quản lý hành chính cấp Tỉnh/Thành” của

tiến sĩ Lê Minh Vĩnh - trường Đại học Khoa Học Xã Hội và Nhân Văn (2007) [1] Tác giả đã đưa ra quan điểm rằng không có một kết quả phân nhóm tốt nhất duy nhất đúng cho mọi trường hợp, chỉ có thể hiểu là phù hợp nhất với yêu cầu, đặc điểm của bản đồ, đối tượng sử dụng Trong đề tài này, tác giả đã vận dụng lý thuyết phân tích cụm trong bài toán phân chia dữ liệu xây dựng bản đồ Theo lý thuyết phân tích cụm : các đối tượng trong cùng một nhóm càng giống nhau càng tốt và các đối tượng thuộc hai nhóm khác nhau càng khác nhau càng tốt Tiêu chí này đã được cụ thể hóa bằng công thức để đưa vào tính toán Ngoài ra, tác giả cũng nhấn mạnh vai trò ý nghĩa của các giá trị ngưỡng đặc biệt khi phân nhóm và đưa ra quan

niệm về một phép phân nhóm tốt “Phép phân nhóm tốt nhất là phép phân chia đảm

bảo các ngưỡng có ý nghĩa sẽ là biên của nhóm; các đối tượng trong nhóm sẽ tập trung đều quanh các giá trị đại diện (nếu có) và đồng thời, cho ra chỉ số độ phù hợp cao nhất có thể trong một số giới hạn về số nhóm (từ 4-9)

Đây là quan điểm cơ bản sẽ được tham khảo để xây dựng những công cụ đánh giá kết quả phép phân nhóm

1.2.2 Ngoài nước

Bài toán phân nhóm dữ liệu luôn là vấn đề được quan tâm của rất nhiều người trên thế giới ở nhiều lĩnh vực

Về vấn đề, có nên phân nhóm dữ liệu hay không? Muller (1979),

MacEachren (1982), Gilmartin và Shelton (1989), Mersey (1990), Mark và Coulson (1991) [2, trang 75] là những người đã làm nghiên cứu thực nghiệm để đánh giá khả năng nhận biết của con người đối với bản đồ phân nhóm và không phân nhóm hay những loại bản đồ với số nhóm khác nhau Kết quả cho thấy: để nhận biết thông tin

Trang 18

riêng biệt của các đối tượng thì dùng bản đồ phân nhóm tốt hơn, vì nếu dùng bản đồ không phân nhóm thì rất khó nhận thấy sự khác biệt màu của các đối tượng, nhưng đôi khi trên bản đồ phân nhóm nếu các đối tượng cần so sánh rơi vào cùng một nhóm thì chúng ta sẽ không thể thấy được sự khác biệt giữa các đối tượng này Để nhận biết thông tin chung (tổng quát) thì bản đồ không phân nhóm sẽ cho ta cái nhìn sát với thực tế hơn Đây chỉ là nghiên cứu thực nghiệm nên chỉ mang tính chất định tính, chưa được giải thích trên cơ sở khoa học Trong nhiều trường hợp, người ta phải thử làm với cả hai trường hợp: phân nhóm và không phân nhóm, rồi so sánh xem cái nào phù hợp hơn

Về các phương pháp phân nhóm: hiện nay có rất nhiều phương pháp phân

nhóm dữ liệu đã được sử dụng và đề xuất như: khoảng bằng nhau (equal interval),

số luợng bằng nhau (quantitle), độ lệch chuẩn (standard deviation), khoảng hình học (geometrical interval), độ lệch giá trị (natural break) Mỗi phương pháp đều có

ưu, nhược điểm riêng, không có phương pháp tối ưu duy nhất Nhà bản đồ học Jenk

đã kết hợp với nhà toán học Fisher xây dựng một phương pháp chia “tối ưu”

(Optimal) Phép chia tối ưu là phép chia dữ liệu mà các đối tượng thuộc cùng một

nhóm càng giống nhau càng tốt và các đối tượng thuộc hai nhóm càng khác nhau càng tốt Và Jenk (1974) đã đưa ra chỉ số “độ phù hợp theo độ lệch tuyệt đối”

(Goodness of absolute deviation fit – GADF) và sau đó Robinson (1984) đưa ra chỉ

số “độ phù hợp theo phương sai” (Goodness of variancenfit GVF) [2]

Những nghiên cứu này là cơ sở để đưa ra phương pháp phân nhóm phù hợp

Về những hỗ trợ của phần mềm:

Trong bài báo “Data classification from cartographic point of view”, tác giả

Katarzyna Galant - Viện Đo Đạc, Đại học Khoa học Môi Trường và Đời Sống, Ba Lan [3], đã so sánh các công cụ phân nhóm dữ liệu được cung cấp bởi ArcInfo, MapInfo, GeoMedia và CommonGIS Theo bài báo này, CommonGIS cung cấp nhiều loại đồ thị nhất (biểu đồ, đường cong tích lũy, đồ thị phân tán, phân bố dao động (ranged distribution)), trong khi ArcInfo và MapInfo có hai loại: biểu đồ và biểu đồ tán xạ, GeoMedia không có tạo ra đồ thị nào Điều này dẫn đến kết luận

Trang 19

rằng CommonGIS là phần mềm tốt nhất trong số những phần mềm nghiên cứu hỗ trợ việc phân nhóm dữ liệu, sau đó ArcInfo, MapInfo và kế tiếp là GeoMedia Hơn nữa, tác giả nhận thấy rằng mặc dù các phần mềm áp dụng cùng một tên phương pháp phân nhóm, nhưng kết quả phân nhóm của từng phần mềm vẫn có đôi chút khác biệt

Bài báo cho ta thấy, hầu hết các phần mềm đều đã có quan tâm đến việc phân nhóm dữ liệu, nhưng đa số chỉ dừng lại ở mức đưa ra các phương pháp phân nhóm

mà ít quan tâm đến việc hỗ trợ đánh giá kết quả phân nhóm này

Một bài báo khác “Choropleth maps: Classification revisited”, tác giả Gennady andrienko el al, trung tâm nghiên cứu quốc gia về công nghệ thông tin của Đức [4],

đã có phát triển xây dựng công cụ cho việc phân nhóm dữ liệu Trong công cụ này

có 2 chỉ tiêu đánh giá chất lượng của việc phân nhóm: độ chính xác kết quả của phân nhóm (tổng độ lệch tuyệt đối của G.F.Jenks) và tỷ lệ giữa giá trị đầu tiên với giá trị phân nhóm tối ưu trong cùng một nhóm Để tìm ra thuật toán tối ưu tác giả dùng thuật toán phân tích cụm của Fisher Công cụ này bao gồm các điều khiển trực tiếp để xác định ranh giới nhóm, đồ thị phân bố dữ liệu, một thanh trượt cho phép chỉnh sửa việc hiển thị màu sắc của các nhóm đang được sử dụng, tính toán và trình bày trực quan các số liệu thống kê của các nhóm: số đối tượng, giá trị tối thiểu, tối

đa, giá trị trung bình… Khi người dùng thao tác thì công cụ sẽ lập tức cập nhật ngay các màn hình có liên quan Công cụ này được xây dựng bằng ngôn ngữ lập trình Java

Qua bài báo, ta thấy được chức năng đánh giá kết quả phân nhóm bắt đầu được quan tâm Do không thể tiếp cận trực tiếp với công cụ nên ta không thể đánh giá được chi tiết các chức năng của công cụ Tuy nhiên, công cụ chưa hỗ trợ được việc xác định số nhóm

Trang 20

1.3 MỤC TIÊU - NỘI DUNG ĐỀ TÀI

1.3.1 Mục tiêu đề tài

Nghiên cứu cơ sở lý luận và trên cơ sở đó xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trong thành lập bản đồ chuyên đề

1.3.2 Nội dung đề tài

Đề tài tập trung nghiên cứu 3 nội dung sau:

§ Tìm hiểu về nội dung phương pháp phân nhóm dữ liệu:

- Thế nào là phân nhóm dữ liệu?

- Có nên phân nhóm dữ liệu hay không?

- Có những phương pháp phân nhóm dữ liệu nào? Ưu, nhược điểm của từng phương pháp

- Thế nào là một phép phân nhóm tốt?

§ Nghiên cứu các tiêu chuẩn đánh giá kết quả phân nhóm đã đề xuất:

- Cách tiếp cận các tiêu chuẩn đánh giá kết quả phân nhóm

- Bản chất, ý nghĩa của các tiêu chuẩn đánh giá kết quả phân nhóm

- Xây dựng công thức tính toán một cách hoàn chỉnh các tiêu chuẩn đánh giá kết quả phân nhóm

§ Nghiên cứu thực nghiệm để tìm ra giải pháp phân nhóm phù hợp và đề xuất những chức năng cần có của công cụ giúp cho việc xây dựng công cụ hỗ trợ phân nhóm được hiệu quả

§ Thiết kế giao diện và lập trình công cụ

1.4 GIỚI HẠN ĐỀ TÀI

Đề tài xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trong thành lập bản đồ chuyên đề trên một phần mềm cụ thể (ArcGis 9.3)

Trang 21

1.5 PHƯƠNG PHÁP THỰC HIỆN

Đề tài được thực hiện bằng các phương pháp nghiên cứu sau:

- Phương pháp thu thập và tổng hợp dữ liệu: tìm hiểu về nội dung phương pháp phân nhóm và cách đánh giá kết quả phân nhóm dữ liệu

- Phương pháp nghiên cứu so sánh: so sánh và lựa chọn ra những chỉ số thích hợp sử dụng trong việc đánh giá kết quả phân nhóm

- Phương pháp thực nghiệm: thực nghiệm để xác định những vấn đề cần quan tâm và đưa ra các kiến nghị giúp xây dựng công cụ hỗ trợ hiệu quả

- Phương pháp phân tích thiết kế: phân tích và thiết kế chức năng giao diện của công cụ

- Phương pháp lập trình: sử dụng ngôn ngữ lập trình VBA của ArcGis 9.3 được tích hợp sẵn trong phần mềm

1.6 KẾT CẤU LUẬN VĂN

Luận văn gồm có 6 chương:

Chương 1: Tổng quan đề tài: Giới thiệu chung về bối cảnh, mục tiêu và

phương pháp thực hiện của đề tài Cấu trúc, nội dung của luận văn được trình bày ở

cuối chương

Chương 2: Bản đồ chuyên đề và phân nhóm dữ liệu: Giới thiệu các khái

niệm cơ bản về bản đồ chuyên đề (nội dung và các phương pháp thể hiện) và các lý

luận cơ bản về phân nhóm

Chương 3: Đánh giá kết quả phân nhóm dữ liệu: Trình bày lý do tại sao phải

đánh giá kết quả phân nhóm dữ liệu, và đưa ra các tiêu chí để đánh giá kết quả phân nhóm, sau đó lựa chọn các tiêu chí, chỉ số để đưa vào lập trình công cụ đánh giá kết

quả phân nhóm

Chương 4: Nghiên cứu thực nghiệm và nhận xét: Thực nghiệm trên dữ liệu

cụ thể từ đó đưa ra các nhận xét, kiến nghị giúp tìm ra giải pháp phân nhóm phù

hợp và đề xuất những chức năng cần có trong công cụ hỗ trợ phân nhóm dữ liệu

Trang 22

Chương 5: Xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu: Trình bày chi

tiết giao diện, chức năng của công cụ hỗ trợ việc phân nhóm dữ liệu và hướng dẫn

người dùng sử dụng công cụ sao cho hiệu quả

Chương 6: Kết luận: Tổng kết lại những công việc đã làm được, sau đó nêu ra

những đóng góp và hướng phát triển của luận văn

Trang 23

Ø Nội dung thể hiện

Ø Phương pháp thể hiện nội dung

Trang 24

2.1 BẢN ĐỒ CHUYÊN ĐỀ

2.1.1 Khái niệm

“ Bản đồ chuyên đề là những bản đồ thể hiện chi tiết và thật đầy đủ một yếu tố

hoặc một vài yếu tố của bản đồ địa lý chung, hoặc một vài hiện tượng, quá trình địa

lý mà không thể hiện trên bản đồ địa lý chung Bản đồ chuyên đề về một yếu tố nào

đó sẽ được đề cập đầy đủ các khía cạnh của yếu tố đó, ví dụ như vấn đề dân cư thì phải phản ánh dân số, mật độ, thành phần xã hội, nghề nghiệp, độ tuổi ” [5, trang 8]

2.1.2 Nội dung thể hiện

Bản đồ chuyên đề thể hiện rất chi tiết một mặt, một bộ phận của đối tượng hiện tượng Những đối tượng hiện tượng này tồn tại trên mặt đất, trong lòng đất, trong bầu khí quyển hoặc trong xã hội loài người

Trong bản đồ chuyên đề có sự phân chia nội dung chính và nội dung phụ Nội dung chính là nội dung chuyên đề, còn nội dung phụ là các yếu tố cơ sở địa lý Bản đồ chuyên đề đi sâu vào nội dung bên trong của hiện tượng, đi xa hơn những đặc điểm địa lý đơn thuần như hiện tượng địa chất, địa vật lý trọng trường…

Để thể hiện nội dung chuyên đề, bản đồ chuyên đề thường sử dụng nhiều phương pháp thể hiện nội dung khác nhau Tuỳ theo đặc điểm phân bố hiện tượng

và đặc điểm số liệu thống kê mà ta chọn phương pháp thích hợp Sau đây chúng ta

sẽ tìm hiểu một số phương pháp thể hiện nội dung cơ bản [5, trang 82]

2.1.3 Phương pháp thể hiện nội dung

§ Phương pháp ký hiệu theo điểm:

Phương pháp ký hiệu theo điểm là phương pháp thể hiện các đối tượng định vị theo điểm, xác định cụ thể trên bản đồ như xí nghiệp, trường học, vùng dân cư… Mỗi ký hiệu gồm 3 thành phần: dạng ký hiệu, kích thước ký hiệu và màu sắc ký hiệu Dạng ký hiệu và màu sắc ký hiệu dùng để nêu lên đặc tính chất lượng, còn

Trang 25

kích thước ký hiệu phản ánh định lượng của hiện tượng Ký hiệu có thể có dạng tượng hình hay dạng hình học

Hình 2.1 Phương pháp ký hiệu theo điểm

§ Phương pháp biểu đồ định vị:

Phương pháp biểu đồ định vị là phương pháp dùng các biểu đồ đặt tại một điểm hay tại một số điểm mà đặc tính của hiện tượng không chỉ có tại những điểm đó mà cho cả vùng rộng lớn Biểu đồ định vị thể hiện giá trị của hiện tượng theo tháng hoặc theo chu kỳ khác nhau (nhiệt độ, mưa, gió, v.v… ) nhằm nêu lên những đặc trưng như tiến trình, tần suất, cường độ, xác suất của hiện tượng Biểu đồ định vị có các dạng như: đồ thị, biểu đồ cột, biểu đồ bánh, hoa gió…

Hình 2.2 Phương pháp biểu đồ định vị

Trang 26

§ Phương pháp đường chuy

Phương pháp đường chuy

tượng như: dòng chảy, dòng

chuyển hành khách và hàng h

Hình 2.3 Ph

§ Phương pháp đường đ

Phương pháp đường đồng m

có cùng giá trị Hiện tượng đư

liên tục còn đặc tính của hiệ

Trang 27

§ Phương pháp chấm điểm:

Phương pháp chấm điểm là phương pháp biểu diễn sự phân bố của hiện tượng bằng các điểm chấm trên bản đồ Mỗi điểm chấm biểu diễn một giá trị nhất định của hiện tượng

Hình 2.5 Phương pháp chấm điểm

§ Phương pháp khoanh vùng:

Phương pháp khoanh vùng biểu diễn một hiện tượng nào đó phát triển trên một diện tích không lớn, phân bố của hiện tượng thường là phân tán, phát triển thành cụm, phân bố không đều khắp trên lãnh thổ mà chỉ có ở từng vùng nhất định

Hình 2.6 Phương pháp khoanh vùng

Trang 28

§ Phương pháp nền chất lượng:

Phương pháp nền chất lượng là phương pháp thể hiện tượng phân bố trên toàn lãnh thổ, phân biệt nhau bởi tiêu chuẩn định tính Ví dụ: các quần thể thực vật khác nhau trên bản đồ thực vật, các loại đất khác nhau trên bản đồ thổ nhưỡng, các vùng

cư trú của các dân tộc khác nhau trên bản đồ dân cư - dân tộc, các vùng sản xuất nông nghiệp khác nhau trên bản đồ kinh tế …

Trang 29

§ Phương pháp biểu đồ bản đồ:

Phương pháp biểu đồ bản đồ là phương pháp biểu hiện các đối tượng, hiện tượng bằng các biểu đồ đặt trong các đơn vị phân chia lãnh thổ Mỗi biểu đồ có giá trị tổng lượng theo số lượng thống kê của đối tượng phân bố trong lãnh thổ đó

Hình 2.9 Phương pháp biểu đồ bản đồ

§ Phương pháp đồ giải:

Phương pháp đồ giải là phương pháp biểu diễn cường độ trung bình của hiện tượng trong từng đơn vị phân chia lãnh thổ Ví dụ như mật độ dân số, tỷ lệ diện tích trồng trọt so với tổng diện tích của đơn vị diện tích của lãnh thổ, số bác sĩ trên 1000 dân…

Hình 2.10 Phương pháp đồ giải

Trang 30

2.2 PHÂN NHÓM DỮ LIỆU

2.2.1 Khái niệm

“ Phân nhóm dữ liệu là việc chia dãy dữ liệu ta cần thể hiện thành từng nhóm và sau đó, tất cả những đối tượng nằm chung nhóm sẽ được gán một giá trị chung” [1] Với cùng một dãy dữ liệu, khi áp dụng phương pháp phân nhóm khác nhau sẽ cho

- Có cần phân nhóm hay không?

- Số nhóm cần phải phân ra là bao nhiêu?

- Có những phương pháp phân nhóm dữ liệu nào?

- Phân nhóm theo cách nào là tốt nhất?

- Làm sao để đánh giá kết quả phân nhóm?

Chúng ta lần lượt tìm các câu trả lời cho các câu hỏi được đặt ra ở trên

2.2.2 Phân nhóm hay không phân nhóm

Vấn đề thường gặp là người làm bản đồ có nên phân nhóm dữ liệu hay không? Phương pháp phân nhóm nào sẽ được sử dụng? Người làm bản đồ đã đưa ra lập luận cho bản đồ phân nhóm dựa trên hai lý do: độc giả không có khả năng phân biệt

sự khác nhau giữa các ký hiệu (hay màu sắc của nhiều khu vực), và sự khó khăn trong việc tạo ra bản đồ không phân nhóm bằng cách sử dụng các phương pháp truyền thống

Trang 31

Trước đây, việc thể hiện dữ liệu không phân nhóm (unclassed) trên bản đồ là một việc rất khó khăn, mất thời gian và có thể sẽ không thực hiện được do hạn chế của thiết bị (bút, màu, máy in…) không phản ánh được sự chênh lệch quá nhỏ giữa các đối tượng Vì thế, các dữ liệu số khi đưa vào xây dựng bản đồ đều được phân nhóm Với sự phát triển của công nghệ thông tin, các phần mềm làm bản đồ tự động

ra đời thì khó khăn này cơ bản được giải quyết Bên cạnh đó, khi phân nhóm dữ liệu, một mặt, dữ liệu sẽ được đơn giản hóa Mặt khác, ta đã làm mất tính chi tiết của dữ liệu Vậy vấn đề đặt ra là có nên phân nhóm dữ liệu hay không? Chính vì vậy, từ những năm 80 của thế kỷ vừa qua, đã có những tranh luận và nhiều nghiên cứu về vấn đề này

Muller (1979), MacEachren (1982), Gilmartin và Shelton (1989), Mersey (1990), Mark và Coulson (1991) [2, trang 75] là những người đã làm nghiên cứu thực nghiệm để đánh giá khả năng nhận biết của con người đối với bản đồ phân nhóm (classed) và không phân nhóm (unclassed) hay những loại bản đồ với số nhóm khác nhau Kết quả cho thấy: để nhận biết thông tin riêng biệt của các đối tượng thì dùng bản đồ phân nhóm tốt hơn, vì nếu dùng bản đồ không phân nhóm thì rất khó nhận thấy sự khác biệt màu của các đối tượng, nhưng khi đó trên bản đồ phân nhóm nếu các đối tượng cần so sánh rơi vào cùng một nhóm thì chúng ta sẽ không thể thấy được sự khác biệt giữa các đối tượng này Để nhận biết thông tin chung (tổng quát) thì bản đồ không phân nhóm sẽ cho ta cái nhìn sát với thực tế hơn Mặt khác, khi xem xét khả năng nhớ lại thông tin giá trị một đối tượng: MacEachren cho rằng bản đồ với số nhóm càng ít thì sẽ càng hiệu quả hơn, trong khi Mersey thì cho rằng bản đồ phân ra 5-7 nhóm thì không hiệu quả bằng bản đồ phân 9 nhóm; khi xét đến khả năng nhớ lại thông tin chung của đối tượng: MacEachren cho rằng không có sự khác biệt giữa bản đồ phân nhóm và không phân nhóm, trong khi Mersey lại cho rằng bản đồ với số nhóm càng ít sẽ càng dễ nhớ Đây chỉ là nghiên cứu thực nghiệm nên chỉ mang tính chất định tính, vẫn còn có nhiều mâu thuẫn và chưa được giải thích trên cơ sở khoa học

Trang 32

Trước khi quyết định có phân nhóm dữ liệu hay không, chúng ta cần phải xem xét 2 tiêu chuẩn sau [2, trang 75]:

- Cần phải đảm bảo chính xác mức độ tương quan giá trị (numerical data

relation) giữa các đối tượng (dùng cách không phân nhóm) hay chỉ cần cho thấy sự khác biệt giữa chúng (dùng cách phân nhóm)

- Cần hiển thị dữ liệu (presentation) hay cần khai thác dữ liệu (exploration)

Để minh họa cho khái niệm mức độ tương quan giá trị (numerical data relation),

ta xem xét bản đồ phân nhóm (hình 2.11a) và bản đồ không phân nhóm (hình 2.11b) đối với mật độ dân số các tỉnh miền Nam Rõ ràng, có sự khác biệt giữa hai cặp bản

đồ này Ta xem xét biểu đồ phân bố dữ liệu (hình 2.12), dữ liệu phân bố tập trung

về bên trái, chỉ riêng TP.HCM mật độ dân số 3589 người/ km2 về biên bên phải Trên bản đồ không phân nhóm, số lượng giá trị thấp rất nhiều, với tông màu tương ứng là khá gần nhau, trong khi với tông màu cho TP.HCM là rất khác nhau Trái lại, Trên bản đồ phân nhóm, TP.HCM không thấy sự khác biệt lớn về dữ liệu với các khu vực còn lại Mặc dù, bản đồ không phân nhóm mô tả chính xác mối tương quan

dữ liệu hơn bản đồ phân nhóm, nhưng bên cạnh đó, nếu muốn so sánh mật độ dân

số của hai tỉnh Kiên Giang và Bạc Liêu thì rất khó xác định sự khác biệt này Khi

đó, trên bản đồ phân nhóm sự khác biệt này lại rất rõ ràng Nhưng nếu hai tỉnh này lại rơi vào cùng một nhóm thì ta không thể nào so sánh được Trong nhiều trường hợp, người ta phải thử làm với cả hai trường hợp: phân nhóm và không phân nhóm, rồi so sánh xem cái nào phù hợp hơn để quyết định

Trang 33

a) b)

Hình 2.11 Bản đồ phân nhóm theo phương pháp tối ưu (a) và bản đồ không

phân nhóm (b) : mật độ dân số các tỉnh miền Nam

Hình 2.12 Biểu đồ phân bố dữ liệu

2.2.3 Số nhóm cần phân chia

Nếu đã quyết định phân nhóm dữ liệu thì việc tiếp theo là phải phân ra thành mấy nhóm? Số nhóm cần phân chia phụ thuộc vào những yếu tố như: khả năng phân biệt của mắt, khả năng diễn đạt của thiết bị, yêu cầu riêng trong mục đích sử dụng bản đồ, sự tồn tại các mốc ý nghĩa phân cấp, loại ký hiệu được sử dụng, sự phân bố của dữ liệu…

Dựa trên khả năng nhận biết của mắt, các nhà nghiên cứu thực nghiệm đã đưa ra

đề nghị về số nhóm nên chia để người đọc có thể phân biệt được là [6, trang 141]: + Bản đồ đơn sắc: không quá 5-7 nhóm

+ Bản đồ nhiều màu sắc: không quá 9 nhóm

Tuy nhiên không có một cơ sở khoa học nào có thể giúp xác định con số chính xác này là bao nhiêu Vì vậy, việc xác định số nhóm chia cho đến nay vẫn còn chủ quan

Trang 34

2.2.4 Các công cụ trợ giúp phân nhóm

Ta có thể dùng một số phương pháp để hỗ trợ việc phân nhóm như là phương pháp biểu đồ Từ biểu đồ phân bố dữ liệu, ta có thể thấy được những điểm không liên tục của dữ liệu Từ đó có thể đưa ra dự đoán số nhóm và phương pháp phân nhóm thích hợp

§ Biểu đồ giá trị dữ liệu: giá trị của tất cả các đối tượng được xếp theo thứ tự

tăng dần

Hình 2.13 Biểu đồ giá trị dữ liệu dân số các tỉnh miền Nam

§ Biểu đồ phân bố dữ liệu: là biểu đồ mà trục ngang thể hiện giá trị dữ liệu,

trên đó có các chấm tròn đại diện cho mỗi đối tượng sẽ được đặt đúng vị trí

có giá trị tương ứng Biểu đồ phân bố dữ liệu cho ta một các nhìn cụ thể về

sự phân bố của dữ liệu trên trục số Tuy nhiên, trong trường hợp tại những vị trí tập trung nhiều đối tượng sẽ rất khó nhìn vì những đối tượng này sẽ che

lấp lên nhau

Hình 2.14 Biểu đồ phân bố dữ liệu dân số

§ Biểu đồ phân bố theo nhóm (chồng chất): chia dãy dữ liệu thành từng

khoảng, những đối tượng thuộc cùng một khoảng sẽ nằm chồng lên nhau Biểu đồ phân bố theo nhóm này sẽ tránh được trường hợp những điểm bị che

lấp nhau trong biểu đồ phân bố dữ liệu

Trang 35

Hình 2.15 Biểu đồ phân bố theo nhóm với các giá trị khoảng bằng nhau

§ Biểu đồ histogram: là công cụ trực quan để kiểm tra sự phân bố dữ liệu

Trục ngang thể hiện giá trị dữ liệu, trục đứng thể hiện tần suất xuất hiện của

Chúng ta sẽ lấy một bộ dữ liệu mẫu: mật độ dân số các tỉnh miền Nam (phụ lục 1) để minh họa cho từng phương pháp

2.2.5.1 Phương pháp chia khoảng bằng nhau (Equal Interval)

§ Nguyên tắc: chia các đối tượng theo số nhóm đã định trước với các giá trị

khoảng cách đều nhau

Trang 36

§ Cách thực hiện:

- Xác định độ lớn khoảng bằng nhau của nhóm:

Độ lớn khoảng = (max – min) / số nhóm

- Xác định giá trị chặn trên, chặn dưới của mỗi nhóm

- Xác số đối tượng trong mỗi nhóm

§ Đánh giá

- Ưu điểm:

+ Đơn giản, dễ tính toán

+ Dễ đọc, dễ hiểu và bảng chú giải không có khoảng hở giữa các khoảng giá trị

+ Thích hợp cho dữ liệu có phân bố dạng hình chữ nhật

- Nhược điểm:

+ Một số nhóm có thể không có đối tượng nào, hay có thể có quá nhiều đối tượng, vì vậy không thấy được sự phân hoá dữ liệu

a)

Trang 37

Hình 2.17 Kết quả phân nhóm dữ liệu theo phương pháp chia khoảng bằng

nhau: a)biểu đồ histogram, b)bản đồ

2.2.5.2 Phương pháp chia số đối tượng bằng nhau (Quantile):

§ Nguyên tắc: chia các đối tượng trong mỗi nhóm bằng nhau

§ Các thực hiện:

- Xác định số đối tượng trong một nhóm:

Số đối tượng trong 1 nhóm = tổng số đối tượng / số nhóm

- Phân bố các đối tượng vào các nhóm, điều chỉnh lại sao cho những đối tượng

có cùng giá trị phải thuộc cùng một nhóm

- Xác định ranh giới của các nhóm, có thể chọn ranh giới liên tục hay ranh giới không liên tục

§ Đánh giá:

- Ưu điểm:

+ Đơn giản, dễ tính toán

+ Dễ dàng so sánh trong trường hợp các đơn vị có diện tích tương đương nhau trên bản đồ

+ Phù hợp với dữ liệu định thứ tự (ordinal)

- Nhược điểm:

Trang 38

+ Không phản ánh được phân bố thật của dữ liệu, các điểm ranh giới giữa các lớp có vẻ tùy ý (có những khoảng rất dài hoặc rất ngắn khi số liệu có đột biến –outlier)

.a)

b)

Hình 2.18 Kết quả phân nhóm dữ liệu theo phương pháp chia số đối tượng bằng

nhau: a)biểu đồ histogram, b) bản đồ

2.2.5.3 Phương pháp chia độ lệch chuẩn (Standard deviation):

§ Nguyên tắc: chia các khoảng cách nhau độ lệch chuẩn, tính từ giá trị trung bình của dữ liệu

§ Cách thực hiện:

Tính giá trị trung bình m và độ lệch chuẩn s của tập dữ liệu

- Xác định giá trị của từng khoảng bằng cách cộng thêm hay trừ bớt một giá trị bằng độ lệch chuẩn tính từ giá trị trung bình

[…;m-s; m; m+s…]

Trang 39

- Phân bố các đối tượng vào trong các nhóm

Trang 40

2.2.5.4 Phương pháp dùng độ chênh lệch dữ liệu (Maximum Break):

§ Nguyên tắc: lấy những chỗ chênh lệch giá trị nhiều để làm mốc chia nhóm

§ Cách thực hiện:

- Sắp xếp các đối tượng theo thứ tự tăng dần

- Tính hiệu số giữa các giá trị cạnh nhau

- Lấy những chỗ có hiệu số cao nhất làm mốc chia nhóm

- Phân bố các đối tượng vào trong các nhóm

+ Ranh giới giữa các nhóm trong phần ghi chú không liên tục làm cho người đọc khó nắm bắt

2.2.5.5 Phương pháp tối ưu Natural Break (Jenks):

§ Nguyên tắc: đặt các giá trị gần giống nhau vào chung một nhóm bằng cách

tối thiểu hoá sai số của phép phân nhóm (tổng độ lệch tuyệt đối của từng đối tượng trong nhóm với giá trị trung bình hoặc trung vị của nhóm)

§ Cách thực hiện (Theo Jenk-Caspall):

- Phân nhóm tạm theo một phương pháp nào đó, ví dụ như chia số đối tượng bằng nhau

- Tính giá trị trung bình (hay giá trị trung vị của từng nhóm), sau đó tính độ lệch của từng đối tượng trong nhóm so với giá trị trung bình (hay trung vị) của nhóm ấy, cuối cùng là tính tổng độ lệch

Ngày đăng: 29/01/2021, 13:25

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Lê Minh Vĩnh .“ Cơ sở lý luận trong xây dựng Atlas điện tử phục vụ quản lý hành chính cấp Tỉnh/Thành”, luận án tiến sĩ, trường Đại học Bách Khoa TP.HCM, 2006 Sách, tạp chí
Tiêu đề: Cơ sở lý luận trong xây dựng Atlas điện tử phục vụ quản lý hành chính cấp Tỉnh/Thành
[2] Terry A. Slocum. Thematic cartography and visualization, Prentice Hall, 1999 Sách, tạp chí
Tiêu đề: Thematic cartography and visualization
[3] Katarzyna Galant. “Data classification from cartographic point of view”, Institute of Geodesy and Geoinformatics, Wrocław University of Environmental and Life Sciences, Poland, 2006 Sách, tạp chí
Tiêu đề: Data classification from cartographic point of view”
[4] Gennady Andrienko el al, “Choropleth maps: Classification Revisited”, German National Research Center for Information Technology, 2002 Sách, tạp chí
Tiêu đề: el al", “"Choropleth maps: Classification Revisited
[5] Trần Tấn Lộc, Nguyễn Tiến Thuần. Bản đồ học chuyên đề , NXB Đại học Quốc Gia TP. HCM. 2004 Sách, tạp chí
Tiêu đề: Bản đồ học chuyên đề
Nhà XB: NXB Đại học Quốc Gia TP. HCM. 2004
[6] Kraak M. J., Ormeling F.J.. Cartography- visualization of spatial data, Longman, 1995 Sách, tạp chí
Tiêu đề: Cartography- visualization of spatial data
[7] Yue-Hong Chou. Exploring spatial Analysis in Geographic Information Systems, OnWord Press. 2530 Camino Entrada. Santa Fe, NM 87505-4835 USA, 1997 Sách, tạp chí
Tiêu đề: Exploring spatial Analysis in Geographic Information Systems
[12] Robert G. Cromley and Richard D. Mrozinski. An evaluation of classification schemes based on the statistical versus the spatial structure properties of geographic distributions in choropleth mapping, Department of Geography University of Connecticut Storrs, CT 06268-2148 USA, 1996 Sách, tạp chí
Tiêu đề: An evaluation of classification schemes based on the statistical versus the spatial structure properties of geographic distributions in choropleth mapping

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm