Hiện nay, có nhiều phương pháp thể hiện dữ liệu trong bản đồ chuyên đề, có những phương pháp sử dụng trực tiếp số liệu ban đầu, có những phương pháp phải phân nhóm dữ liệu trước khi thể
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2Công trình được hoàn thành tại: Trường Đại học Bách Khoa – ĐHQG - TP.HCM
Cán bộ hướng dẫn khoa học: TS LÊ MINH VĨNH
Cán bộ chấm nhận xét 1: TS VŨ XUÂN CƯỜNG
Cán bộ chấm nhận xét 2: TS NGUYỄN VĂN LUYỆN
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 05 tháng 03 năm 2013
Thành phần hội đồng đánh giá luận văn thạc sĩ gồm:
1 PGS.TS TRẦN TRỌNG ĐỨC - Chủ tịch hội đồng
2 PGS.TS NGUYỄN KIM LỢI
3 TS LÊ MINH VĨNH
4 TS VŨ XUÂN CƯỜNG
5 TS NGUYỄN VĂN LUYỆN
Xác nhận của Chủ tịch Hội đồng đánh giá luận văn và Bộ môn quản lý chuyên ngành sau khi luận văn được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG BỘ MÔN
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: TRẦN THỊ MỸ HẠNH MSHV: 10100377 Ngày, tháng, năm sinh: 31-01-1987 Nơi sinh: Vĩnh Long Chuyên ngành : Bản đồ, viễn thám và hệ thông tin địa lý Mã số: 604476
I TÊN ĐỀ TÀI
Nghiên cứu xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trong thành lập bản
đồ chuyên đề
II NHIỆM VỤ VÀ NỘI DUNG
Nghiên cứu cơ sở lý luận và trên cơ sở đó xây dựng công cụ hỗ trợ việc phân nhóm
dữ liệu trong thành lập bản đồ chuyên đề, gồm các nhiệm vụ sau:
1 Tìm hiểu về nội dung phương pháp phân nhóm dữ liệu
2 Nghiên cứu các tiêu chí đánh giá kết quả phân nhóm đã đề xuất
3 Nghiên cứu thực nghiệm trên cơ sở các tiêu chí được lựa chọn và đưa ra
nhận xét, kiến nghị để hỗ trợ việc xây dựng công cụ thích hợp
4 Thiết kế giao diện và lập trình công cụ hỗ trợ việc phân nhóm dữ liệu
III NGÀY GIAO NHIỆM VỤ: 06-02-2012
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 30-11-2012
V CÁN BỘ HƯỚNG DẪN: TS LÊ MINH VĨNH
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua
Tp.HCM, ngày tháng năm 2013
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký ) (Họ tên và chữ ký )
Trang 4
Cuối cùng, tôi xin cảm ơn gia đình, bạn bè, đồng nghiệp đã động viên và tạo mọi điều kiện tốt nhất để tôi hoàn thành luận văn này
Trang 5TÓM TẮT
Trong xây dựng bản đồ chuyên đề, do tính đa dạng và phức tạp của nội dung, mục đích sử dụng mà việc lựa chọn giải pháp thể hiện phù hợp là một vấn đề cần được quan tâm Hiện nay, có nhiều phương pháp thể hiện dữ liệu trong bản đồ chuyên đề, có những phương pháp sử dụng trực tiếp số liệu ban đầu, có những phương pháp phải phân nhóm dữ liệu trước khi thể hiện như phương pháp đồ giải, nền số lượng, biểu đồ… Trong những trường hợp này, nội dung bản đồ chuyên đề
có ý nghĩa và khách quan hay không phụ thuộc rất nhiều vào kết quả phân nhóm dữ liệu Như vậy, phân nhóm dữ liệu là một trong những vấn đề cần quan tâm của người làm bản đồ Vậy làm sao để lựa chọn cách phân nhóm thích hợp? Đây là câu hỏi cần được quan tâm giải quyết
Luận văn trình bày cơ sở lý luận của việc phân nhóm dữ liệu: ý nghĩa của việc phân nhóm, những vấn đề cần quan tâm khi phân nhóm dữ liệu, cách lựa chọn giải pháp phân nhóm phù hợp nhất Bằng phương pháp nghiên cứu so sánh và thực nghiệm, luận văn đề xuất việc lựa chọn tiêu chí đánh giá kết quả phân nhóm dựa trên những công thức cụ thể và hướng giải quyết để tìm ra giải pháp phân nhóm dữ liệu phù hợp nhất Trên cơ sở lý luận và những đề xuất được đưa ra, luận văn đã xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trên phần mềm GIS, cụ thể là phần mềm ArcGis 9.3
Kết quả đạt được của luận văn là đưa ra một công cụ hỗ trợ phân nhóm dữ liệu với các chức năng hiển thị thông tin phân nhóm dữ liệu, hỗ trợ việc xác định số nhóm (thông qua đồ thị mối tương quan giữa số nhóm và chỉ số độ phù hợp của kết quả phân nhóm), hỗ trợ việc lựa chọn phương pháp phân nhóm (thông qua các chỉ
số đánh giá) và những kiến nghị cụ thể giúp cho người làm bản đồ chuyên đề đưa ra quyết định lựa chọn giải pháp phân nhóm phù hợp nhất cho các dữ liệu cụ thể
Trang 6to be solved
The thesis presents the theoretical basics of data classification: the significances
of classifications, different aspects to be considered when classifying data, the selection of the most appropriate solution to classify data By means of comparison and empirical research, this thesis proposes evaluation criteria using specific formulas and solution to classify data most appropriately Based on the theoretical basics and suggestions made, the thesis has developed the tool to support the classification of data on GIS software, specifically in ArcGIS 9.3
The outcome of the thesis is the offer of a tool that supports users to classify data with following functionalities: displaying classified data, supporting to define the number of groups (through the correlation graph between the number of groups and goodness of absolute deviation fit –GADF- index), supporting method selection (through indicators) and giving specific recommendations to help the mapmakers select classification solution best suited for the particular data
Trang 7LỜI CAM ĐOAN
Tôi xin cam đoan đề tài “Nghiên cứu xây dựng công cụ hỗ trợ việc phân nhóm
dữ liệu trong thành lập bản đồ chuyên đề” do TS Lê Minh Vĩnh hướng dẫn là công
trình nghiên cứu của riêng tôi Tất cả các tài liệu tham khảo đều có nguồn gốc xuất
xứ rõ ràng Tôi xin cam đoan những nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của giáo viên hướng dẫn Nếu sai tôi xin hoàn toàn chịu trách nhiệm trước Hội đồng
Trang 8MỤC LỤC
CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1
1.1 ĐẶTVẤNĐỀ 2
1.2 TỔNGQUANTÌNHHÌNHNGHIÊNCỨU 4
1.2.1 Trong nước 4
1.2.2 Ngoài nước 4
1.3 MỤCTIÊU-NỘIDUNGĐỀTÀI 7
1.3.1 Mục tiêu đề tài 7
1.3.2 Nội dung đề tài 7
1.4 GIỚIHẠNĐỀTÀI 7
1.5 PHƯƠNGPHÁPTHỰCHIỆN 8
1.6 KẾTCẤULUẬNVĂN 8
CHƯƠNG 2: BẢN ĐỒ CHUYÊN ĐỀ VÀ PHÂN NHÓM DỮ LIỆU 10
2.1 BẢNĐỒCHUYÊNĐỀ 11
2.1.1 Khái niệm 11
2.1.2 Nội dung thể hiện 11
2.1.3 Phương pháp thể hiện nội dung 11
2.2 PHÂNNHÓMDỮLIỆU 17
2.2.1 Khái niệm 17
2.2.2 Phân nhóm hay không phân nhóm 17
2.2.3 Số nhóm cần phân chia 20
2.2.4 Các công cụ trợ giúp phân nhóm 21
2.2.5 Các phương pháp phân nhóm: 22
2.3 TIỂUKẾT 29
CHƯƠNG 3: ĐÁNH GIÁ KẾT QUẢ PHÂN NHÓM DỮ LIỆU 30
3.1 ĐẶTVẤNĐỀ 31
3.2 CÁCTIÊUCHÍTHƯỜNGĐƯỢCSỬDỤNGĐỂĐÁNHGIÁKẾT QUẢPHÂNNHÓM 31
Trang 93.2.1 Tiêu chí đánh giá theo nhà bản đồ học George Jenks năm 1971 [2,
trang 7] 31
3.2.2 Tiêu chí đánh giá theo Terry Slocum [2, trang 71] 34
3.2.3 Tiêu chí đánh giá theo chỉ số độ lệch tuyệt đối của George Jenks 36
3.2.4 Tiêu chí đánh giá theo chỉ số độ lệch phương sai của Robinson 38 3.2.5 Hệ số tương quan 39
3.2.6 Chỉ số phân mảnh (fragmentation index) [7, trang 146] 40
3.3 LỰACHỌNCÁCTIÊUCHÍVÀXÂYDỰNGCÔNGTHỨCCHI TIẾT…… 40
3.3.1 Cơ sở lựa chọn các tiêu chí 40
3.3.2 Xây dựng công thức chi tiết 41
3.4 TIỂUKẾT 46
CHƯƠNG 4: NGHIÊN CỨU THỰC NGHIỆM VÀ NHẬN XÉT 47
4.1 MỐIQUANHỆGIỮACÁCCHỈSỐ 48
4.2 CÁCYẾUTỐẢNHHƯỞNGĐẾNKẾTQUẢPHÂNNHÓMDỮ LIỆU………… 50
4.2.1 Số lượng nhóm 50
4.2.2 Phương pháp phân nhóm 55
4.3 TIỂUKẾT 58
CHƯƠNG 5: XÂY DỰNG CÔNG CỤ HỖ TRỢ VIỆC PHÂN NHÓM DỮ LIỆU 60
5.1 GIỚITHIỆUCÔNGCỤ 61
5.2 GIẢIPHÁPXÂYDỰNGCÔNGCỤ 62
5.3 THIẾTKẾGIAODIỆNCÔNGCỤ 63
5.3.1 Nhóm công cụ hiển thị thông tin dữ liệu 63
5.3.2 Nhóm công cụ hiển thị kết quả phân nhóm 64
5.3.3 Nhóm công cụ đánh giá kết quả 64
5.3.4 Nhóm công cụ thực hiện chức năng lệnh 66
5.4 HƯỚNGDẪNSỬDỤNGCÔNGCỤ 67
Trang 105.4.1 Các bước thực hiện công cụ 67
5.4.2 Minh họa cụ thể 67
5.5 TIỂUKẾT 77
CHƯƠNG 6: KẾT LUẬN 78
6.1 KẾTLUẬN 79
6.2 HẠNCHẾCỦAĐỀTÀI 79
6.3 HƯỚNGPHÁTTRIỂN 80
TÀI LIỆU THAM KHẢO 81
PHỤ LỤC 1 83
Diện tích, dân số và mật độ dân số phân theo địa phương năm 2011 83
PHỤ LỤC 2 85
Tỷ suất chết thô phân theo địa phương năm 2011 85
PHỤ LỤC 3 87
Mã lệnh chương trình thiết kế công cụ 87
LÝ LỊCH TRÍCH NGANG 100
Trang 11DANH MỤC HÌNH
Hình 2.1 Phương pháp ký hiệu theo điểm 12
Hình 2.2 Phương pháp biểu đồ định vị 12
Hình 2.3 Phương pháp đường chuyển động 13
Hình 2.4 Phương pháp đường đồng mức 13
Hình 2.5 Phương pháp chấm điểm 14
Hình 2.6 Phương pháp khoanh vùng 14
Hình 2.7 Phương pháp nền chất lượng 15
Hình 2.8 Phương pháp nền số lượng 15
Hình 2.9 Phương pháp biểu đồ bản đồ 16
Hình 2.10 Phương pháp đồ giải 16
Hình 2.11 Bản đồ phân nhóm theo phương pháp tối ưu (a) và bản đồ không phân nhóm (b) : mật độ dân số các tỉnh miền Nam 20
Hình 2.12 Biểu đồ phân bố dữ liệu 20
Hình 2.13 Biểu đồ giá trị dữ liệu dân số các tỉnh miền Nam 21
Hình 2.14 Biểu đồ phân bố dữ liệu dân số 21
Hình 2.15 Biểu đồ phân bố theo nhóm với các giá trị khoảng bằng nhau 22
Hình 2.16 Biểu đồ histogram 22
Hình 2.17 Kết quả phân nhóm dữ liệu theo phương pháp chia khoảng bằng nhau: a)biểu đồ histogram, b)bản đồ 24
Hình 2.18 Kết quả phân nhóm dữ liệu theo phương pháp chia số đối tượng bằng nhau: a)biểu đồ histogram, b) bản đồ 25
Hình 2.19(a,b) Kết quả phân nhóm dữ liệu theo phương pháp dùng độ lệch chuẩn: a)biểu đồ histogram, b) bản đồ 26
Hình 2.20(a,b) Kết quả phân nhóm dữ liệu theo phương pháp tối ưu: a)biểu đồ histogram, b) bản đồ 28
Hình 3.1 Bản đồ khối lăng trụ thể hiện mật độ dân số của Việt Nam năm 2011 35
Hình 3.2 Đồ thị giá trị GADF ứng với từng số nhóm 37
Hình 4.1 Đồ thị GADF ứng với phương pháp Natural Breaks (dữ liệu mật độ dân số Việt Nam-phụ lục 1) 54
Hình 5.1 Giao diện chính của công cụ 63
Hình 5.2 Nhóm công cụ hiển thị thông tin dữ liệu 63
Hình 5.3 Nhóm công cụ hiển thị kết quả phân nhóm 64
Hình 5.4 Công cụ giúp lựa chọn số nhóm 64
Hình 5.5 Đồ thị GADF ứng với từng số nhóm 65
Hình 5.6 Giao diện đánh giá kết quả phân nhóm 65
Trang 12Hình 5.7 Công cụ thực hiện chức năng lệnh 66
Hình 5.8 Giao diện thực hiện phân nhóm dữ liệu 66
Hình 5.9 Hiển thị kết quả sau khi phân nhóm dữ liệu 67
Hình 5.10 Khởi động công cụ hỗ trợ phân nhóm 68
Hình 5.11 Nút công cụ hỗ trợ phân nhóm 68
Hình 5.12 Hiển thị thông tin dữ liệu 69
Hình 5.13 Đồ thị GADF ứng với phương pháp Equal Interval 70
Hình 5.14 Đồ thị GADF ứng với phươg pháp Quantile 71
Hình 5.15 Đồ thị GADF ứng với phương pháp Natural Breaks 72
Hình 5.16 Đồ thị GADF ứng với phương pháp Geometrical Interval 73
Hình 5.17 Đồ thị histogram 74
Hình 5.18 Kết quả phân nhóm của phương pháp Equal Interval 74
Hình 5.19 Kết quả phân nhóm của phương pháp Quantile 75
Hình 5.20 Kết quả phân nhóm của phương pháp Natural Breaks (Jenks) 75
Hình 5.21 Kết quả phân nhóm của phương pháp Geometrical Interval 76
Hình 5.22 Phương pháp Manual 76
Hình 5.23 Mật độ dân số Việt Nam theo phương pháp đồ giải 77
Trang 13DANH MỤC BẢNG
Bảng 2.1 Đánh giá chung các phương pháp phân nhóm dữ liệu thông dụng 29Bảng 3.1 Kết quả độ sai lệch theo phương pháp chia số đối tượng bằng nhau 32Bảng 3.2 Kết quả độ sai lệch theo phương pháp chia tối ưu 33Bảng 4.1 Kết quả đánh giá phân nhóm theo phương pháp chia khoảng bằng nhau (Equal Interval) 49Bảng 4.2 Kết quả đánh giá phân nhóm theo phương pháp Natural Breaks (Jenks) 49Bảng 4.3(a,b) So sánh chỉ số GADF của từng phương pháp ứng với từng số lượng nhóm 52Bảng 4.4(a,b) So sánh chỉ số GADF của từng phương pháp ứng với từng số lượng nhóm 53Bảng 4.5 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 6 56Bảng 4.6 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 7 56Bảng 4.7 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 7 57Bảng 4.8 So sánh kết quả phân nhóm của các phương pháp với số nhóm bằng 8 57
Trang 14CHƯƠNG 1
TỔNG QUAN ĐỀ TÀI
Đặt vấn đề
Tổng quan tình hình nghiên cứu
Mục tiêu - Nội dung đề tài
Giới hạn đề tài
Phương pháp thực hiện
Kết cấu luận văn
Trang 151.1 ĐẶT VẤN ĐỀ
Bản đồ chuyên đề là các bản đồ thể hiện rất chi tiết một mặt, một bộ phận của đối tượng, hiện tượng Những đối tượng hiện tượng này rất đa dạng, tồn tại trên mặt đất, trong lòng đất, trong bầu khí quyển hoặc trong xã hội loài người Do đó, nội dung và hình thức sẽ rất phong phú, khó có thể được biên tập theo những qui định
có sẵn Vì vậy, việc thành lập bản đồ chuyên đề đòi hỏi người làm bản đồ phải giải quyết nhiều vấn đề, trong đó vấn đề thể hiện nội dung bản đồ sao cho hiệu quả là vấn đề cần được quan tâm
Việc lựa chọn giải pháp thể hiện nội dung bản đồ sẽ bao gồm:
- Lựa chọn phương pháp thể hiện nội dung bản đồ
- Xác định phương pháp xử lý số liệu (chuẩn hóa, phân nhóm, nội suy…)
- Chọn lựa hình thức (ký hiệu, kích thước màu sắc)
Tùy thuộc vào yêu cầu thể hiện nội dung bản đồ, ta chọn cách xử lý dữ liệu sao cho phù hợp đối với dữ liệu định lượng Trong một số phương pháp thể hiện, ta cần phải phân nhóm dữ liệu:
- Trong phương pháp ký hiệu theo điểm, phương pháp ký hiệu theo tuyến, phương pháp biểu đồ, kích thước các ký hiệu có thể tỷ lệ với từng giá trị
cụ thể của hiện tượng hoặc có thể dùnggiá trị đã phân nhóm
- Trong phương pháp đồ giải, phân vùng số lượng… do khả năng phân biệt màu của mắt người rất hạn chế nên thường không thể hiện giá trị của mỗi vùng mà sẽ thể hiện theo giá trị đã phân nhóm để bản đồ dễ nhìn và trực quan hơn
Như vậy, để thể hiện một cách hiệu quả nội dung bản đồ chuyên đề, một trong
những vấn đề cần quan tâm là phân nhóm dữ liệu Khi tiến hành phân nhóm dữ
liệu, người làm bản đồ phải trả lời những câu hỏi sau:
- Có cần phân nhóm hay không?
Trang 16- Có những phép phân nhóm nào?
- Phép phân nhóm nào là phù hợp nhất?
- Số nhóm cần phải phân ra?
- Phân nhóm như thế nào là tốt nhất?
- Làm sao để đánh giá kết quả phép phân nhóm?
Đến nay, những vấn đề này vẫn chưa được trả lời một cách rõ ràng mà thường
là dựa vào kiến thức, kinh nghiệm và ý kiến chủ quan của người làm bản đồ Trước đây, khi việc xây dựng các bản đồ chuyên đề được thực hiện bởi những người làm bản đồ chuyên nghiệp thì vấn đề này cũng không gây nhiều trở ngại Tuy nhiên, ngày nay, với sự hỗ trợ của công nghệ thông tin và các phần mềm làm bản đồ tự động thì ai cũng có thể tiếp cận và tự mình làm ra bản đồ chuyên đề Vấn đề này dẫn đến kết quả là có rất nhiều bản đồ chuyên đề được làm ra không đúng yêu cầu, không đảm bảo chất lượng do người xây dựng bản đồ không có nhiều kinh nghiệm
và kiến thức liên quan đến bản đồ
Để giải quyết vấn đề này, các kiến thức và nguyên tắc làm bản đồ cần được
nghiên cứu xây dựng một cách hệ thống, giảm bớt những nội dung mơ hồ, giảm bớt sự phụ thuộc vào kinh nghiệm chủ quan Những kết quả nghiên cứu lý thuyết
này sẽ được đưa vào máy tính để hỗ trợ người làm bản đồ không chuyên xây dựng bản đồ theo các nguyên tắc đúng đắn, đảm bảo kết quả phù hợp Đây là một trong những hướng nghiên cứu chính của bản đồ học ngày nay Trong những nội dung này, vấn đề phân nhóm dữ liệu là một trong những vấn đề cần đặt ra như đã nêu ở trên
Chính vì vậy luận văn chọn đề tài: “Nghiên cứu xây dựng công cụ hỗ trợ việc
phân nhóm dữ liệu trong thành lập bản đồ chuyên đề”
Trang 171.2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
1.2.1 Trong nước
Nhận thấy được tầm quan trọng của vấn đề phân nhóm dữ liệu, một số cá nhân,
tổ chức trong nước cũng đã nghiên cứu về vấn đề này Đặc biệt là đề tài “ Cơ sở lý
luận trong xây dựng Atlas điện tử phục vụ quản lý hành chính cấp Tỉnh/Thành” của
tiến sĩ Lê Minh Vĩnh - trường Đại học Khoa Học Xã Hội và Nhân Văn (2007) [1] Tác giả đã đưa ra quan điểm rằng không có một kết quả phân nhóm tốt nhất duy nhất đúng cho mọi trường hợp, chỉ có thể hiểu là phù hợp nhất với yêu cầu, đặc điểm của bản đồ, đối tượng sử dụng Trong đề tài này, tác giả đã vận dụng lý thuyết phân tích cụm trong bài toán phân chia dữ liệu xây dựng bản đồ Theo lý thuyết phân tích cụm : các đối tượng trong cùng một nhóm càng giống nhau càng tốt và các đối tượng thuộc hai nhóm khác nhau càng khác nhau càng tốt Tiêu chí này đã được cụ thể hóa bằng công thức để đưa vào tính toán Ngoài ra, tác giả cũng nhấn mạnh vai trò ý nghĩa của các giá trị ngưỡng đặc biệt khi phân nhóm và đưa ra quan
niệm về một phép phân nhóm tốt “Phép phân nhóm tốt nhất là phép phân chia đảm
bảo các ngưỡng có ý nghĩa sẽ là biên của nhóm; các đối tượng trong nhóm sẽ tập trung đều quanh các giá trị đại diện (nếu có) và đồng thời, cho ra chỉ số độ phù hợp cao nhất có thể trong một số giới hạn về số nhóm (từ 4-9)
Đây là quan điểm cơ bản sẽ được tham khảo để xây dựng những công cụ đánh giá kết quả phép phân nhóm
1.2.2 Ngoài nước
Bài toán phân nhóm dữ liệu luôn là vấn đề được quan tâm của rất nhiều người trên thế giới ở nhiều lĩnh vực
Về vấn đề, có nên phân nhóm dữ liệu hay không? Muller (1979),
MacEachren (1982), Gilmartin và Shelton (1989), Mersey (1990), Mark và Coulson (1991) [2, trang 75] là những người đã làm nghiên cứu thực nghiệm để đánh giá khả năng nhận biết của con người đối với bản đồ phân nhóm và không phân nhóm hay những loại bản đồ với số nhóm khác nhau Kết quả cho thấy: để nhận biết thông tin
Trang 18riêng biệt của các đối tượng thì dùng bản đồ phân nhóm tốt hơn, vì nếu dùng bản đồ không phân nhóm thì rất khó nhận thấy sự khác biệt màu của các đối tượng, nhưng đôi khi trên bản đồ phân nhóm nếu các đối tượng cần so sánh rơi vào cùng một nhóm thì chúng ta sẽ không thể thấy được sự khác biệt giữa các đối tượng này Để nhận biết thông tin chung (tổng quát) thì bản đồ không phân nhóm sẽ cho ta cái nhìn sát với thực tế hơn Đây chỉ là nghiên cứu thực nghiệm nên chỉ mang tính chất định tính, chưa được giải thích trên cơ sở khoa học Trong nhiều trường hợp, người ta phải thử làm với cả hai trường hợp: phân nhóm và không phân nhóm, rồi so sánh xem cái nào phù hợp hơn
Về các phương pháp phân nhóm: hiện nay có rất nhiều phương pháp phân
nhóm dữ liệu đã được sử dụng và đề xuất như: khoảng bằng nhau (equal interval),
số luợng bằng nhau (quantitle), độ lệch chuẩn (standard deviation), khoảng hình học (geometrical interval), độ lệch giá trị (natural break) Mỗi phương pháp đều có
ưu, nhược điểm riêng, không có phương pháp tối ưu duy nhất Nhà bản đồ học Jenk
đã kết hợp với nhà toán học Fisher xây dựng một phương pháp chia “tối ưu”
(Optimal) Phép chia tối ưu là phép chia dữ liệu mà các đối tượng thuộc cùng một
nhóm càng giống nhau càng tốt và các đối tượng thuộc hai nhóm càng khác nhau càng tốt Và Jenk (1974) đã đưa ra chỉ số “độ phù hợp theo độ lệch tuyệt đối”
(Goodness of absolute deviation fit – GADF) và sau đó Robinson (1984) đưa ra chỉ
số “độ phù hợp theo phương sai” (Goodness of variancenfit GVF) [2]
Những nghiên cứu này là cơ sở để đưa ra phương pháp phân nhóm phù hợp
Về những hỗ trợ của phần mềm:
Trong bài báo “Data classification from cartographic point of view”, tác giả
Katarzyna Galant - Viện Đo Đạc, Đại học Khoa học Môi Trường và Đời Sống, Ba Lan [3], đã so sánh các công cụ phân nhóm dữ liệu được cung cấp bởi ArcInfo, MapInfo, GeoMedia và CommonGIS Theo bài báo này, CommonGIS cung cấp nhiều loại đồ thị nhất (biểu đồ, đường cong tích lũy, đồ thị phân tán, phân bố dao động (ranged distribution)), trong khi ArcInfo và MapInfo có hai loại: biểu đồ và biểu đồ tán xạ, GeoMedia không có tạo ra đồ thị nào Điều này dẫn đến kết luận
Trang 19rằng CommonGIS là phần mềm tốt nhất trong số những phần mềm nghiên cứu hỗ trợ việc phân nhóm dữ liệu, sau đó ArcInfo, MapInfo và kế tiếp là GeoMedia Hơn nữa, tác giả nhận thấy rằng mặc dù các phần mềm áp dụng cùng một tên phương pháp phân nhóm, nhưng kết quả phân nhóm của từng phần mềm vẫn có đôi chút khác biệt
Bài báo cho ta thấy, hầu hết các phần mềm đều đã có quan tâm đến việc phân nhóm dữ liệu, nhưng đa số chỉ dừng lại ở mức đưa ra các phương pháp phân nhóm
mà ít quan tâm đến việc hỗ trợ đánh giá kết quả phân nhóm này
Một bài báo khác “Choropleth maps: Classification revisited”, tác giả Gennady andrienko el al, trung tâm nghiên cứu quốc gia về công nghệ thông tin của Đức [4],
đã có phát triển xây dựng công cụ cho việc phân nhóm dữ liệu Trong công cụ này
có 2 chỉ tiêu đánh giá chất lượng của việc phân nhóm: độ chính xác kết quả của phân nhóm (tổng độ lệch tuyệt đối của G.F.Jenks) và tỷ lệ giữa giá trị đầu tiên với giá trị phân nhóm tối ưu trong cùng một nhóm Để tìm ra thuật toán tối ưu tác giả dùng thuật toán phân tích cụm của Fisher Công cụ này bao gồm các điều khiển trực tiếp để xác định ranh giới nhóm, đồ thị phân bố dữ liệu, một thanh trượt cho phép chỉnh sửa việc hiển thị màu sắc của các nhóm đang được sử dụng, tính toán và trình bày trực quan các số liệu thống kê của các nhóm: số đối tượng, giá trị tối thiểu, tối
đa, giá trị trung bình… Khi người dùng thao tác thì công cụ sẽ lập tức cập nhật ngay các màn hình có liên quan Công cụ này được xây dựng bằng ngôn ngữ lập trình Java
Qua bài báo, ta thấy được chức năng đánh giá kết quả phân nhóm bắt đầu được quan tâm Do không thể tiếp cận trực tiếp với công cụ nên ta không thể đánh giá được chi tiết các chức năng của công cụ Tuy nhiên, công cụ chưa hỗ trợ được việc xác định số nhóm
Trang 201.3 MỤC TIÊU - NỘI DUNG ĐỀ TÀI
1.3.1 Mục tiêu đề tài
Nghiên cứu cơ sở lý luận và trên cơ sở đó xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trong thành lập bản đồ chuyên đề
1.3.2 Nội dung đề tài
Đề tài tập trung nghiên cứu 3 nội dung sau:
§ Tìm hiểu về nội dung phương pháp phân nhóm dữ liệu:
- Thế nào là phân nhóm dữ liệu?
- Có nên phân nhóm dữ liệu hay không?
- Có những phương pháp phân nhóm dữ liệu nào? Ưu, nhược điểm của từng phương pháp
- Thế nào là một phép phân nhóm tốt?
§ Nghiên cứu các tiêu chuẩn đánh giá kết quả phân nhóm đã đề xuất:
- Cách tiếp cận các tiêu chuẩn đánh giá kết quả phân nhóm
- Bản chất, ý nghĩa của các tiêu chuẩn đánh giá kết quả phân nhóm
- Xây dựng công thức tính toán một cách hoàn chỉnh các tiêu chuẩn đánh giá kết quả phân nhóm
§ Nghiên cứu thực nghiệm để tìm ra giải pháp phân nhóm phù hợp và đề xuất những chức năng cần có của công cụ giúp cho việc xây dựng công cụ hỗ trợ phân nhóm được hiệu quả
§ Thiết kế giao diện và lập trình công cụ
1.4 GIỚI HẠN ĐỀ TÀI
Đề tài xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu trong thành lập bản đồ chuyên đề trên một phần mềm cụ thể (ArcGis 9.3)
Trang 211.5 PHƯƠNG PHÁP THỰC HIỆN
Đề tài được thực hiện bằng các phương pháp nghiên cứu sau:
- Phương pháp thu thập và tổng hợp dữ liệu: tìm hiểu về nội dung phương pháp phân nhóm và cách đánh giá kết quả phân nhóm dữ liệu
- Phương pháp nghiên cứu so sánh: so sánh và lựa chọn ra những chỉ số thích hợp sử dụng trong việc đánh giá kết quả phân nhóm
- Phương pháp thực nghiệm: thực nghiệm để xác định những vấn đề cần quan tâm và đưa ra các kiến nghị giúp xây dựng công cụ hỗ trợ hiệu quả
- Phương pháp phân tích thiết kế: phân tích và thiết kế chức năng giao diện của công cụ
- Phương pháp lập trình: sử dụng ngôn ngữ lập trình VBA của ArcGis 9.3 được tích hợp sẵn trong phần mềm
1.6 KẾT CẤU LUẬN VĂN
Luận văn gồm có 6 chương:
Chương 1: Tổng quan đề tài: Giới thiệu chung về bối cảnh, mục tiêu và
phương pháp thực hiện của đề tài Cấu trúc, nội dung của luận văn được trình bày ở
cuối chương
Chương 2: Bản đồ chuyên đề và phân nhóm dữ liệu: Giới thiệu các khái
niệm cơ bản về bản đồ chuyên đề (nội dung và các phương pháp thể hiện) và các lý
luận cơ bản về phân nhóm
Chương 3: Đánh giá kết quả phân nhóm dữ liệu: Trình bày lý do tại sao phải
đánh giá kết quả phân nhóm dữ liệu, và đưa ra các tiêu chí để đánh giá kết quả phân nhóm, sau đó lựa chọn các tiêu chí, chỉ số để đưa vào lập trình công cụ đánh giá kết
quả phân nhóm
Chương 4: Nghiên cứu thực nghiệm và nhận xét: Thực nghiệm trên dữ liệu
cụ thể từ đó đưa ra các nhận xét, kiến nghị giúp tìm ra giải pháp phân nhóm phù
hợp và đề xuất những chức năng cần có trong công cụ hỗ trợ phân nhóm dữ liệu
Trang 22Chương 5: Xây dựng công cụ hỗ trợ việc phân nhóm dữ liệu: Trình bày chi
tiết giao diện, chức năng của công cụ hỗ trợ việc phân nhóm dữ liệu và hướng dẫn
người dùng sử dụng công cụ sao cho hiệu quả
Chương 6: Kết luận: Tổng kết lại những công việc đã làm được, sau đó nêu ra
những đóng góp và hướng phát triển của luận văn
Trang 23Ø Nội dung thể hiện
Ø Phương pháp thể hiện nội dung
Trang 242.1 BẢN ĐỒ CHUYÊN ĐỀ
2.1.1 Khái niệm
“ Bản đồ chuyên đề là những bản đồ thể hiện chi tiết và thật đầy đủ một yếu tố
hoặc một vài yếu tố của bản đồ địa lý chung, hoặc một vài hiện tượng, quá trình địa
lý mà không thể hiện trên bản đồ địa lý chung Bản đồ chuyên đề về một yếu tố nào
đó sẽ được đề cập đầy đủ các khía cạnh của yếu tố đó, ví dụ như vấn đề dân cư thì phải phản ánh dân số, mật độ, thành phần xã hội, nghề nghiệp, độ tuổi ” [5, trang 8]
2.1.2 Nội dung thể hiện
Bản đồ chuyên đề thể hiện rất chi tiết một mặt, một bộ phận của đối tượng hiện tượng Những đối tượng hiện tượng này tồn tại trên mặt đất, trong lòng đất, trong bầu khí quyển hoặc trong xã hội loài người
Trong bản đồ chuyên đề có sự phân chia nội dung chính và nội dung phụ Nội dung chính là nội dung chuyên đề, còn nội dung phụ là các yếu tố cơ sở địa lý Bản đồ chuyên đề đi sâu vào nội dung bên trong của hiện tượng, đi xa hơn những đặc điểm địa lý đơn thuần như hiện tượng địa chất, địa vật lý trọng trường…
Để thể hiện nội dung chuyên đề, bản đồ chuyên đề thường sử dụng nhiều phương pháp thể hiện nội dung khác nhau Tuỳ theo đặc điểm phân bố hiện tượng
và đặc điểm số liệu thống kê mà ta chọn phương pháp thích hợp Sau đây chúng ta
sẽ tìm hiểu một số phương pháp thể hiện nội dung cơ bản [5, trang 82]
2.1.3 Phương pháp thể hiện nội dung
§ Phương pháp ký hiệu theo điểm:
Phương pháp ký hiệu theo điểm là phương pháp thể hiện các đối tượng định vị theo điểm, xác định cụ thể trên bản đồ như xí nghiệp, trường học, vùng dân cư… Mỗi ký hiệu gồm 3 thành phần: dạng ký hiệu, kích thước ký hiệu và màu sắc ký hiệu Dạng ký hiệu và màu sắc ký hiệu dùng để nêu lên đặc tính chất lượng, còn
Trang 25kích thước ký hiệu phản ánh định lượng của hiện tượng Ký hiệu có thể có dạng tượng hình hay dạng hình học
Hình 2.1 Phương pháp ký hiệu theo điểm
§ Phương pháp biểu đồ định vị:
Phương pháp biểu đồ định vị là phương pháp dùng các biểu đồ đặt tại một điểm hay tại một số điểm mà đặc tính của hiện tượng không chỉ có tại những điểm đó mà cho cả vùng rộng lớn Biểu đồ định vị thể hiện giá trị của hiện tượng theo tháng hoặc theo chu kỳ khác nhau (nhiệt độ, mưa, gió, v.v… ) nhằm nêu lên những đặc trưng như tiến trình, tần suất, cường độ, xác suất của hiện tượng Biểu đồ định vị có các dạng như: đồ thị, biểu đồ cột, biểu đồ bánh, hoa gió…
Hình 2.2 Phương pháp biểu đồ định vị
Trang 26§ Phương pháp đường chuy
Phương pháp đường chuy
tượng như: dòng chảy, dòng
chuyển hành khách và hàng h
Hình 2.3 Ph
§ Phương pháp đường đ
Phương pháp đường đồng m
có cùng giá trị Hiện tượng đư
liên tục còn đặc tính của hiệ
Trang 27§ Phương pháp chấm điểm:
Phương pháp chấm điểm là phương pháp biểu diễn sự phân bố của hiện tượng bằng các điểm chấm trên bản đồ Mỗi điểm chấm biểu diễn một giá trị nhất định của hiện tượng
Hình 2.5 Phương pháp chấm điểm
§ Phương pháp khoanh vùng:
Phương pháp khoanh vùng biểu diễn một hiện tượng nào đó phát triển trên một diện tích không lớn, phân bố của hiện tượng thường là phân tán, phát triển thành cụm, phân bố không đều khắp trên lãnh thổ mà chỉ có ở từng vùng nhất định
Hình 2.6 Phương pháp khoanh vùng
Trang 28§ Phương pháp nền chất lượng:
Phương pháp nền chất lượng là phương pháp thể hiện tượng phân bố trên toàn lãnh thổ, phân biệt nhau bởi tiêu chuẩn định tính Ví dụ: các quần thể thực vật khác nhau trên bản đồ thực vật, các loại đất khác nhau trên bản đồ thổ nhưỡng, các vùng
cư trú của các dân tộc khác nhau trên bản đồ dân cư - dân tộc, các vùng sản xuất nông nghiệp khác nhau trên bản đồ kinh tế …
Trang 29§ Phương pháp biểu đồ bản đồ:
Phương pháp biểu đồ bản đồ là phương pháp biểu hiện các đối tượng, hiện tượng bằng các biểu đồ đặt trong các đơn vị phân chia lãnh thổ Mỗi biểu đồ có giá trị tổng lượng theo số lượng thống kê của đối tượng phân bố trong lãnh thổ đó
Hình 2.9 Phương pháp biểu đồ bản đồ
§ Phương pháp đồ giải:
Phương pháp đồ giải là phương pháp biểu diễn cường độ trung bình của hiện tượng trong từng đơn vị phân chia lãnh thổ Ví dụ như mật độ dân số, tỷ lệ diện tích trồng trọt so với tổng diện tích của đơn vị diện tích của lãnh thổ, số bác sĩ trên 1000 dân…
Hình 2.10 Phương pháp đồ giải
Trang 302.2 PHÂN NHÓM DỮ LIỆU
2.2.1 Khái niệm
“ Phân nhóm dữ liệu là việc chia dãy dữ liệu ta cần thể hiện thành từng nhóm và sau đó, tất cả những đối tượng nằm chung nhóm sẽ được gán một giá trị chung” [1] Với cùng một dãy dữ liệu, khi áp dụng phương pháp phân nhóm khác nhau sẽ cho
- Có cần phân nhóm hay không?
- Số nhóm cần phải phân ra là bao nhiêu?
- Có những phương pháp phân nhóm dữ liệu nào?
- Phân nhóm theo cách nào là tốt nhất?
- Làm sao để đánh giá kết quả phân nhóm?
Chúng ta lần lượt tìm các câu trả lời cho các câu hỏi được đặt ra ở trên
2.2.2 Phân nhóm hay không phân nhóm
Vấn đề thường gặp là người làm bản đồ có nên phân nhóm dữ liệu hay không? Phương pháp phân nhóm nào sẽ được sử dụng? Người làm bản đồ đã đưa ra lập luận cho bản đồ phân nhóm dựa trên hai lý do: độc giả không có khả năng phân biệt
sự khác nhau giữa các ký hiệu (hay màu sắc của nhiều khu vực), và sự khó khăn trong việc tạo ra bản đồ không phân nhóm bằng cách sử dụng các phương pháp truyền thống
Trang 31Trước đây, việc thể hiện dữ liệu không phân nhóm (unclassed) trên bản đồ là một việc rất khó khăn, mất thời gian và có thể sẽ không thực hiện được do hạn chế của thiết bị (bút, màu, máy in…) không phản ánh được sự chênh lệch quá nhỏ giữa các đối tượng Vì thế, các dữ liệu số khi đưa vào xây dựng bản đồ đều được phân nhóm Với sự phát triển của công nghệ thông tin, các phần mềm làm bản đồ tự động
ra đời thì khó khăn này cơ bản được giải quyết Bên cạnh đó, khi phân nhóm dữ liệu, một mặt, dữ liệu sẽ được đơn giản hóa Mặt khác, ta đã làm mất tính chi tiết của dữ liệu Vậy vấn đề đặt ra là có nên phân nhóm dữ liệu hay không? Chính vì vậy, từ những năm 80 của thế kỷ vừa qua, đã có những tranh luận và nhiều nghiên cứu về vấn đề này
Muller (1979), MacEachren (1982), Gilmartin và Shelton (1989), Mersey (1990), Mark và Coulson (1991) [2, trang 75] là những người đã làm nghiên cứu thực nghiệm để đánh giá khả năng nhận biết của con người đối với bản đồ phân nhóm (classed) và không phân nhóm (unclassed) hay những loại bản đồ với số nhóm khác nhau Kết quả cho thấy: để nhận biết thông tin riêng biệt của các đối tượng thì dùng bản đồ phân nhóm tốt hơn, vì nếu dùng bản đồ không phân nhóm thì rất khó nhận thấy sự khác biệt màu của các đối tượng, nhưng khi đó trên bản đồ phân nhóm nếu các đối tượng cần so sánh rơi vào cùng một nhóm thì chúng ta sẽ không thể thấy được sự khác biệt giữa các đối tượng này Để nhận biết thông tin chung (tổng quát) thì bản đồ không phân nhóm sẽ cho ta cái nhìn sát với thực tế hơn Mặt khác, khi xem xét khả năng nhớ lại thông tin giá trị một đối tượng: MacEachren cho rằng bản đồ với số nhóm càng ít thì sẽ càng hiệu quả hơn, trong khi Mersey thì cho rằng bản đồ phân ra 5-7 nhóm thì không hiệu quả bằng bản đồ phân 9 nhóm; khi xét đến khả năng nhớ lại thông tin chung của đối tượng: MacEachren cho rằng không có sự khác biệt giữa bản đồ phân nhóm và không phân nhóm, trong khi Mersey lại cho rằng bản đồ với số nhóm càng ít sẽ càng dễ nhớ Đây chỉ là nghiên cứu thực nghiệm nên chỉ mang tính chất định tính, vẫn còn có nhiều mâu thuẫn và chưa được giải thích trên cơ sở khoa học
Trang 32Trước khi quyết định có phân nhóm dữ liệu hay không, chúng ta cần phải xem xét 2 tiêu chuẩn sau [2, trang 75]:
- Cần phải đảm bảo chính xác mức độ tương quan giá trị (numerical data
relation) giữa các đối tượng (dùng cách không phân nhóm) hay chỉ cần cho thấy sự khác biệt giữa chúng (dùng cách phân nhóm)
- Cần hiển thị dữ liệu (presentation) hay cần khai thác dữ liệu (exploration)
Để minh họa cho khái niệm mức độ tương quan giá trị (numerical data relation),
ta xem xét bản đồ phân nhóm (hình 2.11a) và bản đồ không phân nhóm (hình 2.11b) đối với mật độ dân số các tỉnh miền Nam Rõ ràng, có sự khác biệt giữa hai cặp bản
đồ này Ta xem xét biểu đồ phân bố dữ liệu (hình 2.12), dữ liệu phân bố tập trung
về bên trái, chỉ riêng TP.HCM mật độ dân số 3589 người/ km2 về biên bên phải Trên bản đồ không phân nhóm, số lượng giá trị thấp rất nhiều, với tông màu tương ứng là khá gần nhau, trong khi với tông màu cho TP.HCM là rất khác nhau Trái lại, Trên bản đồ phân nhóm, TP.HCM không thấy sự khác biệt lớn về dữ liệu với các khu vực còn lại Mặc dù, bản đồ không phân nhóm mô tả chính xác mối tương quan
dữ liệu hơn bản đồ phân nhóm, nhưng bên cạnh đó, nếu muốn so sánh mật độ dân
số của hai tỉnh Kiên Giang và Bạc Liêu thì rất khó xác định sự khác biệt này Khi
đó, trên bản đồ phân nhóm sự khác biệt này lại rất rõ ràng Nhưng nếu hai tỉnh này lại rơi vào cùng một nhóm thì ta không thể nào so sánh được Trong nhiều trường hợp, người ta phải thử làm với cả hai trường hợp: phân nhóm và không phân nhóm, rồi so sánh xem cái nào phù hợp hơn để quyết định
Trang 33a) b)
Hình 2.11 Bản đồ phân nhóm theo phương pháp tối ưu (a) và bản đồ không
phân nhóm (b) : mật độ dân số các tỉnh miền Nam
Hình 2.12 Biểu đồ phân bố dữ liệu
2.2.3 Số nhóm cần phân chia
Nếu đã quyết định phân nhóm dữ liệu thì việc tiếp theo là phải phân ra thành mấy nhóm? Số nhóm cần phân chia phụ thuộc vào những yếu tố như: khả năng phân biệt của mắt, khả năng diễn đạt của thiết bị, yêu cầu riêng trong mục đích sử dụng bản đồ, sự tồn tại các mốc ý nghĩa phân cấp, loại ký hiệu được sử dụng, sự phân bố của dữ liệu…
Dựa trên khả năng nhận biết của mắt, các nhà nghiên cứu thực nghiệm đã đưa ra
đề nghị về số nhóm nên chia để người đọc có thể phân biệt được là [6, trang 141]: + Bản đồ đơn sắc: không quá 5-7 nhóm
+ Bản đồ nhiều màu sắc: không quá 9 nhóm
Tuy nhiên không có một cơ sở khoa học nào có thể giúp xác định con số chính xác này là bao nhiêu Vì vậy, việc xác định số nhóm chia cho đến nay vẫn còn chủ quan
Trang 342.2.4 Các công cụ trợ giúp phân nhóm
Ta có thể dùng một số phương pháp để hỗ trợ việc phân nhóm như là phương pháp biểu đồ Từ biểu đồ phân bố dữ liệu, ta có thể thấy được những điểm không liên tục của dữ liệu Từ đó có thể đưa ra dự đoán số nhóm và phương pháp phân nhóm thích hợp
§ Biểu đồ giá trị dữ liệu: giá trị của tất cả các đối tượng được xếp theo thứ tự
tăng dần
Hình 2.13 Biểu đồ giá trị dữ liệu dân số các tỉnh miền Nam
§ Biểu đồ phân bố dữ liệu: là biểu đồ mà trục ngang thể hiện giá trị dữ liệu,
trên đó có các chấm tròn đại diện cho mỗi đối tượng sẽ được đặt đúng vị trí
có giá trị tương ứng Biểu đồ phân bố dữ liệu cho ta một các nhìn cụ thể về
sự phân bố của dữ liệu trên trục số Tuy nhiên, trong trường hợp tại những vị trí tập trung nhiều đối tượng sẽ rất khó nhìn vì những đối tượng này sẽ che
lấp lên nhau
Hình 2.14 Biểu đồ phân bố dữ liệu dân số
§ Biểu đồ phân bố theo nhóm (chồng chất): chia dãy dữ liệu thành từng
khoảng, những đối tượng thuộc cùng một khoảng sẽ nằm chồng lên nhau Biểu đồ phân bố theo nhóm này sẽ tránh được trường hợp những điểm bị che
lấp nhau trong biểu đồ phân bố dữ liệu
Trang 35Hình 2.15 Biểu đồ phân bố theo nhóm với các giá trị khoảng bằng nhau
§ Biểu đồ histogram: là công cụ trực quan để kiểm tra sự phân bố dữ liệu
Trục ngang thể hiện giá trị dữ liệu, trục đứng thể hiện tần suất xuất hiện của
Chúng ta sẽ lấy một bộ dữ liệu mẫu: mật độ dân số các tỉnh miền Nam (phụ lục 1) để minh họa cho từng phương pháp
2.2.5.1 Phương pháp chia khoảng bằng nhau (Equal Interval)
§ Nguyên tắc: chia các đối tượng theo số nhóm đã định trước với các giá trị
khoảng cách đều nhau
Trang 36§ Cách thực hiện:
- Xác định độ lớn khoảng bằng nhau của nhóm:
Độ lớn khoảng = (max – min) / số nhóm
- Xác định giá trị chặn trên, chặn dưới của mỗi nhóm
- Xác số đối tượng trong mỗi nhóm
§ Đánh giá
- Ưu điểm:
+ Đơn giản, dễ tính toán
+ Dễ đọc, dễ hiểu và bảng chú giải không có khoảng hở giữa các khoảng giá trị
+ Thích hợp cho dữ liệu có phân bố dạng hình chữ nhật
- Nhược điểm:
+ Một số nhóm có thể không có đối tượng nào, hay có thể có quá nhiều đối tượng, vì vậy không thấy được sự phân hoá dữ liệu
a)
Trang 37Hình 2.17 Kết quả phân nhóm dữ liệu theo phương pháp chia khoảng bằng
nhau: a)biểu đồ histogram, b)bản đồ
2.2.5.2 Phương pháp chia số đối tượng bằng nhau (Quantile):
§ Nguyên tắc: chia các đối tượng trong mỗi nhóm bằng nhau
§ Các thực hiện:
- Xác định số đối tượng trong một nhóm:
Số đối tượng trong 1 nhóm = tổng số đối tượng / số nhóm
- Phân bố các đối tượng vào các nhóm, điều chỉnh lại sao cho những đối tượng
có cùng giá trị phải thuộc cùng một nhóm
- Xác định ranh giới của các nhóm, có thể chọn ranh giới liên tục hay ranh giới không liên tục
§ Đánh giá:
- Ưu điểm:
+ Đơn giản, dễ tính toán
+ Dễ dàng so sánh trong trường hợp các đơn vị có diện tích tương đương nhau trên bản đồ
+ Phù hợp với dữ liệu định thứ tự (ordinal)
- Nhược điểm:
Trang 38+ Không phản ánh được phân bố thật của dữ liệu, các điểm ranh giới giữa các lớp có vẻ tùy ý (có những khoảng rất dài hoặc rất ngắn khi số liệu có đột biến –outlier)
.a)
b)
Hình 2.18 Kết quả phân nhóm dữ liệu theo phương pháp chia số đối tượng bằng
nhau: a)biểu đồ histogram, b) bản đồ
2.2.5.3 Phương pháp chia độ lệch chuẩn (Standard deviation):
§ Nguyên tắc: chia các khoảng cách nhau độ lệch chuẩn, tính từ giá trị trung bình của dữ liệu
§ Cách thực hiện:
Tính giá trị trung bình m và độ lệch chuẩn s của tập dữ liệu
- Xác định giá trị của từng khoảng bằng cách cộng thêm hay trừ bớt một giá trị bằng độ lệch chuẩn tính từ giá trị trung bình
[…;m-s; m; m+s…]
Trang 39- Phân bố các đối tượng vào trong các nhóm
Trang 402.2.5.4 Phương pháp dùng độ chênh lệch dữ liệu (Maximum Break):
§ Nguyên tắc: lấy những chỗ chênh lệch giá trị nhiều để làm mốc chia nhóm
§ Cách thực hiện:
- Sắp xếp các đối tượng theo thứ tự tăng dần
- Tính hiệu số giữa các giá trị cạnh nhau
- Lấy những chỗ có hiệu số cao nhất làm mốc chia nhóm
- Phân bố các đối tượng vào trong các nhóm
+ Ranh giới giữa các nhóm trong phần ghi chú không liên tục làm cho người đọc khó nắm bắt
2.2.5.5 Phương pháp tối ưu Natural Break (Jenks):
§ Nguyên tắc: đặt các giá trị gần giống nhau vào chung một nhóm bằng cách
tối thiểu hoá sai số của phép phân nhóm (tổng độ lệch tuyệt đối của từng đối tượng trong nhóm với giá trị trung bình hoặc trung vị của nhóm)
§ Cách thực hiện (Theo Jenk-Caspall):
- Phân nhóm tạm theo một phương pháp nào đó, ví dụ như chia số đối tượng bằng nhau
- Tính giá trị trung bình (hay giá trị trung vị của từng nhóm), sau đó tính độ lệch của từng đối tượng trong nhóm so với giá trị trung bình (hay trung vị) của nhóm ấy, cuối cùng là tính tổng độ lệch