1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam luận văn

64 447 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 1,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trên cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào chương trình thực hiện thuật toán phân cụm dữ liệu không gian, chúng tôi sẽ thử áp dụng với các dữ liệ

Trang 1

CÁC ĐỊA PHƯƠNG Ở VIỆT NAM

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480101

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Nguyễn Đình Hóa

Hà Nội - 2015

Trang 2

LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của tôi và không sao chép của bất kỳ ai Những kiến thức trình bày trong luận văn là do tôi tìm hiểu, nghiên cứu và trình bày lại theo cách hiểu Trong quá trình làm luận văn, tôi có tham khảo các tài liệu

có liên quan và đã ghi rõ nguồn tài liệu tham khảo

Hà Nội, ngày tháng năm 2015

Học viên

Nguyễn Thị Khánh Linh

Trang 3

LỜI CẢM ƠN Lời đầu tiên, em xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo PGS.TS Nguyễn Đình Hóa – Viện CNTT – Trường Đại học Quốc gia Hà Nội và thầy giáo TS

Lê Hoàng Sơn – ĐH Khoa học Tự nhiên đã trực tiếp hướng dẫn và tận tình giúp đỡ em trong suốt thời gian thực hiện luận văn

Thứ hai, em xin bày tỏ lòng biết ơn chân thành tới toàn thể các thầy cô giáo trong khoa Công nghệ thông tin, trường Đại học Công nghệ Hà Nội, Đại học Quốc gia

Hà Nội đã dạy bảo tận tình em trong suốt quá trình em học tập tại khoa

Trong quá trình thực hiện luận văn, em cũng nhận được sự giúp đỡ rất nhiều từ các thầy cô, các anh chị và các bạn tại Trung tâm Tính toán Hiệu năng cao, trường Đại học Khoa học tự nhiên Luận văn này được thực hiện dưới sự tài trợ của đề tài cấp ĐHQG, mã số: QG.14.60

Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp, những người đã luôn bên cạnh em để động viên, giúp đỡ và tạo điều kiện tốt nhất để em có thể hoàn thành luận văn

Hà Nội, ngày tháng năm 2015

Học viên

Nguyễn Thị Khánh Linh

Trang 4

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

MỤC LỤC 3

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT 5

DANH MỤC CÁC HÌNH VẼ 7

DANH MỤC CÁC BẢNG BIẾU 8

MỞ ĐẦU 9

CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU ĐỊA LÝ 10

1.1 GIS và dữ liệu địa lý 10

1.1.1 GIS 10

1.1.2 Dữ liệu địa lý 11

1.1.2.1 Dữ liệu không gian 11

1.1.2.2 Dữ liệu thuộc tính 12

1.2 Tổng quan về phân cụm dữ liệu địa lý 14

1.2.1 Khái niệm về phân cụm dữ liệu 14

1.2.2 Ứng dụng của phân cụm dữ liệu địa lý 15

1.2.3 Các thuật toán phân cụm dữ liệu địa lý 15

1.2.3.1 Thuật toán FCM 16

1.2.3.2 Thuật toán NE 18

1.2.3.3 Thuật toán FGWC 19

1.2.3.4 Thuật toán CFGWC 21

1.2.3.5 Thuật toán CFGWC 2 22

1.2.3.6 Thuật toán IPFGWC 26

1.2.3.7 Thuật toán MIPFGWC 27

1.3 Kết luận 29

CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOW 30

2.1 MapWindow và các plug-in để mở rộng chức năng 30

Trang 5

2.1.1 Các phần mềm GIS 30

2.1.2 Phần mềm GIS MapWindow 31

2.1.3 Xây dựng và sử dụng plug-in với MapWindow 32

2.1.3.1 Quy tắc chung 32

2.1.3.2 Các bước cụ thể 33

2.2 Phân tích thiết kế plug-in để thực hiện các thuật toán phân cụm 34

2.2.1 Mô hình ca sử dụng 35

2.2.1.1 Mô hình ca sử dụng tổng thể của plug-in 35

2.2.1.2 Mô hình ca sử dụng chức năng phân cụm dữ liệu 35

2.2.2 Mô tả ca sử dụng 36

2.2.3 Biểu đồ lớp phân tích 37

2.2.4 Thiết kế lớp 37

2.2.4.1 Lớp giao diện 37

2.2.4.2 Lớp điều khiển 39

2.3 Kết luận 40

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 41

3.1 Dữ liệu thực nghiệm 41

3.1.1 Chuẩn bị dữ liệu không gian 41

3.1.2 Chuẩn bị bộ dữ liệu phân cụm 41

3.2 Các kịch bản chạy thử 44

3.3 Một số kết quả khi chạy chương trình 45

3.3.1 Kết quả khi chạy các thuật toán phân cụm khác nhau cho cùng một tập dữ liệu chuyên đề 46

3.3.2 Kết quả khi chạy nhiều chuyên đề với một thuật toán 52

3.3.3 Kết quả khi chạy phân cụm đồng thời nhiều thuộc tính 56

3.4 Kết luận 59

KẾT LUẬN 61

TÀI LIỆU THAM KHẢO 62

Trang 6

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

STT Từ viết tắt/thuật

ngữ

Geographically Weight Clustering

Thuật toán phân cụm địa lý kết hợp ngữ cảnh

8 IPFGWC Intuitionistic Possiblistic

Fuzzy Geographically Weighted Clustering

Thuật toán phân cụm địa lý trên tập mờ trực cảm

9 MIPFGWC Modification Intuitionistic

Possiblistic Fuzzy Geographically Weighted Clustering

Thuật toán phân cụm địa lý hiệu chỉnh trên tập mờ trực cảm

10 KMIPFGWC Kernel-based Modification

Intuitionistic Possiblistic Fuzzy Geographically Weighted Clustering

Thuật toán phân cụm địa lý hiệu chỉnh trên tập mờ trực cảm sử dụng hàm nhân

Trang 7

13 SIM Spatial Interaction Model Mô hình tương tác

không gian

Modification Model

Mô hình tương tác - hiệu chỉnh không gian

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Ví dụ về dữ liệu thuộc tính 13

Hình 1.2 Dữ liệu địa lý 14

Hình 2.1 Mô hình ca sử dụng tổng quan của plug-in 35

Hình 2.2 Mô hình usecase chức năng phân cụm 35

Hình 2.3: Biểu đồ lớp của plug-in 37

Hình 2.4 Lớp giao diện chính của plug-in 38

Hình 2.5 Lớp giao diện của chức năng phân cụm 38

Hình 2.6 Lớp giao diện tải chuyên đề 38

Hình 2.7 Lớp giao diện nhập tham số thuật toán 39

Hình 2.8 Lớp điều khiển tính toán phân cụm 39

Hình 2.9 Lớp điều khiển cập nhật dữ liệu vào bảng thuộc tính 40

Hình 2.10 Lớp điều khiển Reset bảng thuộc tính 40

Hình 3.1 Dữ liệu chuyên đề ở dạng file csv 42

Hình 3.2 Dữ liệu chuyên đề ở dạng file txt 42

Hình 3.3 Giao diện chương trình khi tải layer và bật plug-in 45

Hình 3.4 Giao diện in bản đồ 46

Hình 3.5 Kết quả khi chạy thuật toán MIPFGWC trên dữ liệu “Tổng mức bán lẻ hàng hóa và dịch vụ” với số cụm bằng 4 52

Trang 9

DANH MỤC CÁC BẢNG BIẾU Bảng 3.1: Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức bán lẻ hàng hóa và dịch vụ” 49

Bảng 3.2: Thời gian chạy các thuật toán trên các bộ dữ liệu với tham

Bảng 3.5: Kết quả phân cụm thuật toán MIPFGWC chạy trên 3 chuyên đề:

“Tổng mức bán lẻ hàng hóa và dịch vụ”, “Giá trị sản xuất xây dựng”, “Giá trị sản xuất công nghiệp” giai đoạn 2005-2013 55

Bảng 3.6: Kết quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa các trọng số 59

Trang 10

MỞ ĐẦU

Hệ thống thông tin địa lý (GIS) là một ứng dụng rất có giá trị và làcông cụ trợ giúp quyết định trong nhiều hoạt động kinh tế - xã hội, quốc phòng của nhiều quốc gia trên thế giới Hiện nay, GIS được phát triển và ứng dụng ngày càng nhiều tại Việt Nam Trong sự phát triển của đất nước ta hiện nay, việc tổ chức quản lý thông tin địa

lý một cách tổng thể có có vai trò rất quan trọng trong việc sử dụng có hiệu quả hơn nguồn tài nguyên của đất nước GIS giúp các cơ quan chính phủ có cái nhìn khách quan hơn về hiện trạng các thực thể tự nhiên, kinh tế xã hội thông qua việc xử lý các

dữ liệu không gian và dữ liệu thuộc tính

Các dữ liệu về kinh tế, xã hội, môi trường… đều gắn với các địa phương, tức là các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá những dữ liệu này

Có nhiều phương pháp khai phá dữ liệu, trong đó phân cụm là một phương pháp được

sử dụng khá nhiều Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau như: dựa trên phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ, dựa trên mô hình, dựa trên đồ thị… Phân cụm dữ liệu địa lý là một hướng nghiên cứu nhiều triển vọng

Đề tài nghiên cứu hướng tới các thuật toán phân cụm dữ liệu không gian Trên

cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào chương trình thực hiện thuật toán phân cụm dữ liệu không gian, chúng tôi sẽ thử áp dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm

Bố cục của luận văn gồm 3 chương:

Chương 1: Trình bày các khái niệm chung về GIS và dữ liệu địa lý, các thuật toán sử dụng trong phân cụm dữ liệu địa lý

Chương 2: Trình bày cách thức xây dựng ứng dụng phân cụm dữ liệu và thể hiện một số chỉ tiêu kinh tế xã hội của các địa phương ở Việt Nam dựa trên phần mềm

mã nguồn mở MapWindow

Chương 3: Chạy chương trình trên số liệu thực tế thu thập được với từng thuật toán, so sánh kết quả từng thuật toán Đánh giá, phân tích một số kết quả đầu ra của các thuật toán phân cụm

Trang 11

CHƯƠNG 1: DỮ LIỆU ĐỊA LÝ VÀ PHÂN CỤM DỮ LIỆU

ĐỊA LÝ 1.1 GIS và dữ liệu địa lý

1.1.1 GIS

Từ lâu bản đồ luôn là một công cụ thông tin quen thuộc đối với loài người Trong quá trình phát triển kinh tế kĩ thuật, bản đồ luôn được cải tiến sao cho ngày càng đầy đủ thông tin và chính xác hơn Với sự đa dạng của các loại bản đồ trong việc thể hiện các đối tượng khác nhau trên bề mặt trái đất, các nhà quy hoạch nhận thức được sự cần thiết trong xử lý đồng thời nhiều hơn một bản đồ Các mô hình đồ họa cổ điển xử lý thông tin bản đồ gặp rất nhiều khó khăn trong xử lý đồng thời dữ liệu không gian và dữ liệu thuộc tính Điều này đã dẫn đến sự phát triển các phương pháp và kỹ thuật xử lý tổng hợp thông tin nhằm phục vụ tốt hơn cho công tác quy hoạch và ra quyết định [1]

Trong những năm đầu thập kỉ 60 (1963-1964) các nhà khoa học ở Canada đã cho ra đời hệ thông tin địa lý Hệ thống thông tin địa lý kế thừa mọi thành tựu trong ngành bản đồ cả về ý tưởng lẫn thành tựu của kỹ thuật bản đồ Hệ thông tin địa lý bắt đầu hoạt động bằng việc thu thập dữ liệu theo định hướng tuỳ thuộc vào mục tiêu đặt

ra

Cùng với Canada, các trường đại học tại Mỹ cũng tiến hành nghiên cứu và xây dựng hệ thống thông tin địa lý và càng ngày nhu cầu sử dụng, nghiên cứu hệ thống thông tin địa lý càng được quan tâm nhiều hơn

Hệ thông tin địa lý (Geographical Information System – GIS) là tập hợp các công cụ để thu thập, lưu trữ, chỉnh sửa, truy cập, phân tích và cập nhật các thông tin địa lý cho một mục đích chuyên biệt

Ngoài ra cũng có nhiều định nghĩa khác về GIS [1]:

GIS là công cụ trên cơ sở nền máy tính để lập bản đồ và phân tích những hiện

tượng đang tồn tại và các sự kiện xảy ra trên trái đất (Environmental System Research Institute ESRI – Mỹ).

GIS là hệ thống phần cứng, phần mềm và các thủ tục được thiết kế nhằm thu thập, quản lý, xử lý, phân tích, mô hình hóa và hiển thị các dữ liệu quy chiếu không

gian để giải quyết các vấn đề quản lý và lập kế hoạch (National Center for Geography Information and Analysis NCGIA – Mỹ).

Trang 12

GIS là một tập hợp các nguyên lý, phương pháp, dụng cụ và dữ liệu quy chiếu không gian được sử dụng để nhập, lưu trữ, chuyển đổi, phân tích, lập mô hình, mô phỏng và lập bản đồ các hiện tượng, sự kiện trên trái đất, nhằm sản sinh các thông tin

thiết thực hổ trợ cho việc ra quyết định (Thériault – Canada)

Hệ thống thông tin địa lý bao gồm các phần chính sau:

1 Hệ thống thiết bị phần cứng bao gồm máy tính hoặc hệ mạng máy tính, các thiết bị đầu vào, các thiết bị đầu ra

2 Hệ thống phần mềm bao gồm phần mềm vẽ bản đồ, phần mềm quản trị, phần mềm ứng dụng

3 Hệ thống thông tin đầu vào và hệ thống cập nhật thông tin

4 Hệ thống cơ sở dữ liệu bao gồm các dữ liệu địa lý và các dữ liệu thuộc tính (các dữ liệu chữ - số, dữ liệu multimedia, v.v.) và mối quan hệ giữa hai loại dữ liệu này

5 Hệ thống hiển thị thông tin và giao diện với người sử dụng đòi hỏi những đặc thù riêng về độ chính xác (hệ tọa độ, quy chiếu không gian)

1.1.2.1 Dữ liệu không gian

Dữ liệu không gian là những mô tả số của các đối tượng thực tế được thể hiện

hình ảnh bản đồ Đó có thể là thửa đất, con đường, sông ngòi, hồ ao, rừng núi, tòa nhà, sân bay, bến cảng … Chúng bao gồm toạ độ, quy luật và các ký hiệu dùng để thể hiện thành một hình ảnh cụ thể trên bản đồ Hệ thống thông tin địa lý dùng các dữ liệu không gian để tạo ra một bản đồ hay hình ảnh bản đồ trên màn hình hoặc trên giấy thông qua thiết bị ngoại vi, v.v

Có hai mô hình dữ liệu không gian được sử dụng đồng thời trong hệ thống thông tin địa lý, là mô hình vector và mô hình raster Mỗi mô hình có những ưu điểm

và nhược điểm riêng

Mô hình raster: Có thể hiểu đơn giản là một “ảnh” chứa các thông tin về một

chuyên đề Nó mô hình hóa bề mặt trái đất và các đối tượng trên đó bằng một lưới (đều hoặc không đều) gồm các hàng và cột Những phần tử nhỏ này gọi là những pixel

Trang 13

hay cell Giá trị của pixel là thuộc tính của đối tượng Kích thước pixel càng nhỏ thì đối tượng càng được mô tả chính xác Một mặt phẳng chứa đầy các pixel tạo thành raster Mô hình này thường được áp dụng để mô tả các sự vật, hiện tượng phân bố liên tục trong không gian, dùng để lưu giữ thông tin dạng ảnh (ảnh mặt đất, hàng không, vũ trụ ) Một số dạng mô hình biểu diễn bề mặt như DEM (Digital Elevation Model), DTM (Digital Terrain Model), TIN (Triangulated Irregular Network) trong CSDL cũng thuộc dạng raster

Ưu điểm của dữ liệu dạng raster là dễ thực hiện các chức năng xử lý và phân tích Tốc độ tính toán nhanh, thực hiện các phép toán bản đồ dễ dàng Dễ dàng liên kết với dữ liệu viễn thám Mô hình raster có nhược điểm là kém chính xác về vị trí không gian của đối tượng Khi độ phân giải càng thấp (kích thước pixel lớn) thì sự sai lệch này càng tăng

Mô hình vector: mô tả vị trí và phạm vi của các đối tượng không gian bằng tọa

độ cùng các kết hợp hình học gồm các điểm nút, các cung trên đường biên, các vùng mặt phẳng và quan hệ giữa chúng Về mặt hình học, các đối tượng được phân biệt thành 3 dạng: đối tượng dạng điểm (point), đối tượng dạng đường (line) và đối tượng dạng vùng (region hay polygon) Điểm được xác định bằng một cặp tọa độ X,Y Đường là một chuỗi các cặp tọa độ X,Y liên tục Vùng là khoảng không gian được giới hạn bởi một tập hợp các cặp tọa độ X,Y trong đó điểm đầu và điểm cuối trùng nhau Với đối tượng vùng, mô hình vector phản ảnh đường bao

Dữ liệu vector có ưu điểm là vị trí của các đối tượng được định vị chính xác (nhất là các đối tượng điểm, đường và đường bao) Điều này giúp cho người sử dụng

dễ dàng biên tập bản đồ, chỉnh sửa, in ấn Tuy nhiên mô hình dữ liệu vector có nhược điểm là phức tạp khi thực hiện các phép chồng xếp bản đồ

Dữ liệu vector có thể được lưu trữ trong máy tính theo các khuôn dạng tệp khác nhau và các hệ thông tin địa lý có thể hỗ trợ/ không hỗ trợ một số khuôn dạng dữ liệu

không gian nhất định Tuy nhiên, khuôn dạng shape (*.shp) được coi như chuẩn thực

tế và mọi hệ thông tin địa lý đều hỗ trợ khuôn dạng này

1.1.2.2 Dữ liệu thuộc tính

Dữ liệu thuộc tính diễn tả các đặc tính của các đối tượng thực tế được thể hiện

trên bản đồ Dữ liệu thuộc tính có thể là định tính - mô tả chất lượng (qualitative) hay

là định lượng (quantative) Dữ liệu định lượng ví dụ như chiều dài đoạn đường, diện

Trang 14

tích thửa đất, độ sâu hồ nước, dân số của một đơn vị hành chính (xã, huyện, tỉnh ) cụ thể Dữ liệu định tính ví dụ như xếp hạng độ màu mỡ của thửa đất, mức độ phát triển kinh tế một tỉnh

Về nguyên tắc, số lượng các thuộc tính của một đối tượng là không có giới hạn

Để quản lý dữ liệu thuộc tính của các đối tượng địa lý trong CSDL, GIS đã sử dụng phương pháp gán các giá trị thuộc tính cho các đối tượng thông qua các bảng số liệu Mỗi bản ghi (record) đặc trưng cho một đối tượng địa lý, mỗi cột của bảng tương ứng với một kiểu thuộc tính của đối tượng đó

Thông thường hệ thống thông tin địa lý có 4 loại số liệu thuộc tính:

 Đặc tính của đối tượng: liên kết chặt chẽ với các thông tin không gian có thể thực hiện câu lệnh truy vẫn và phân tích

 Số liệu hiện tượng, tham khảo địa lý: miêu tả những thông tin, các hoạt động thuộc vị trí xác định

 Chỉ số địa lý: tên, địa chỉ, khối, phương hướng định vị, …liên quan đến các đối tượng địa lý

 Quan hệ giữa các đối tượng trong không gian, có thể đơn giản hoặc phức tạp (sự liên kết, khoảng tương thích, mối quan hệ đồ hình giữa các đối tượng)

Hình 1.1 Ví dụ về dữ liệu thuộc tính

Hình 1.2 là ví dụ về một số tệp dữ liệu địa lý gồm 4 tệp chính:

 VNM_adm2.dbf: Dữ liệu thuộc tính lưu trong cơ sở dữ liệu dạng bdf, có thể

mở file này bằng excel

 VNM_adm2.prj: File mô tả về lưới chiếu sử dụng cho bộ dữ liệu này

Trang 15

 VNM_adm2.shp: File dữ liệu không gian dạng shape

 VNM_adm2.shx: Đây là dữ liệu để ánh xạ mỗi vùng không gian trong file shp tương ứng với từng bản ghi trong file shx

Hình 1.2 Dữ liệu địa lý

1.2 Tổng quan về phân cụm dữ liệu địa lý

1.2.1 Khái niệm về phân cụm dữ liệu

Phân cụm dữ liệu là một kỹ thuật khai phá dữ liệu (data mining) nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định

Phân cụm dữ liệu là sự phân chia một tập dữ liệu lớn thành các nhóm dữ liệu

mà các đối tượng trong cùng nhóm là tương tự nhau “Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự nhau theo một tính chất nào đó, những đối tượng có tính chất không tương tự sẽ ở nhóm khác.” [2]

Dữ liệu địa lý ngày một phát triển với lượng dữ liệu ngày càng lớn và phức tạp hơn, đòi hỏi các nhà nghiên cứu cần có những phương pháp, kỹ thuật để phân tích và khai phá dữ liệu hiệu quả hơn

Trong những năm gần đây, việc nghiên cứu và khai phá dữ liệu đã có xu hướng chuyển từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ liệu không gian Khám phá tri thức từ dữ liệu không gian có thể được thực hiện dưới nhiều hình

Trang 16

thức khác nhau như sử dụng các quy tắc đặc trưng và quyết định, trích rút và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian

1.2.2 Ứng dụng của phân cụm dữ liệu địa lý

Phân cụm dữ liệu địa lý được ứng dụng trong nhiều lĩnh vực khác nhau như:

 Y tế: Xác định và khoanh vùng các ổ dịch giúp cho việc điều trị, quản lý, phòng chống lây lan sang các khu vực khác

 Nông – lâm nghiệp: Nhận dạng các vùng đất, điều kiện địa lý phù hợp với loại cây trồng tương ứng

 Sinh học: Phân loại động – thực vật thông qua các Gen tương đồng của chúng

 Kinh tế: Phân cụm các nhóm khách hàng quan trọng theo từng vùng miềm

 Xã hội – phòng chống tội phạm: Khoanh vùng các khu vực là điểm nóng về tội phạm

1.2.3 Các thuật toán phân cụm dữ liệu địa lý

Bài toán phân cụm dữ liệu địa lý được định nghĩa như sau:

Định nghĩa 1.Cho tập dữ liệu thuộc tính X gồm N điểm dữ liệu trong không gian r chiều Mỗi điểm dữ liệu tương ứng với một kiểu đối tượng điểm của hệ thống Vector Hãy phân chia tập dữ liệu thuộc tính này thành C cụm sao cho thỏa mãn hàm mục tiêu [2]:

, min

j

j k

) (

] , [

j j j

j kj kj

C

j kj kj

W V V

W u u u u

1 1

1 0

Trong đó:

u kj 0,1 là độ thuộc của điểm dữ liệu thứ k vào cụm j, j1,C,

Trang 17

X k là điểm dữ liệu thứ k (k 1 ,N),

V j là tâm cụm không gian thứ j (j1,C),

W j là trọng số không gian của cụm j (j1,C)

Khoảng cách giữa hai đối tượng xy được tính thông qua các độ đo khoảng cách sau:

n

i

q i

x y

x d

1

1

|

| ) ,

x d

1

2 ) ( )

, ( , đây là trường hợp đặc biệt của khoảng cách Minskowski trong trường hợp q2

x d

1

|

|),( , đây là trường hợp đặc biệt của khoảng cách Minskowski trong trường hợp q1

 Khoảng cách Chenbysev: d(x,y) maxn1| i i|,

j

j k m

u

Trang 18

Đầu ra:

- ccụm dữ liệu sao cho hàm mục tiêu trong (a) đạt giá trị cực tiểu

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t)với t 0

 Bước 2: Tính ma trận tâm V (t)bởi công thức:

C i u

X u

k

m ki

N

k

k m ki

V X

V X

u

m C

i k

Ưu điểm [3] của thuật toán này là đơn giản, dễ thực hiện Nhược điểm [3] của thuật toán là nhạy cảm với các nhiễu và phần tử ngoại lai trong dữ liệu, chưa sử dụng đến các yếu tố địa lý

Trang 19

1.2.3.2 Thuật toán NE

Thuật toán NE [10] là thuật toán phân cụm dữ liệu có tính đến yếu tố địa lý đầu tiên, được đưa ra bởi Feng và Flowerdew vào năm 1998 Thuật toán này sẽ tích hợp thêm các đặc trưng địa lý thông qua mô hình tương tác không gian (SIM) Mô tả của thuật toán:

Đầu vào:

- Tập dữ liệu đầu vào X, số mờ m

- Số điểm dữ liệu N, số cụm C , số chiều r

j

j k m

u

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t)với t 0

 Bước 2: Tính ma trận tâm V (t) bởi công thức:

, 1

; 1

u

X u

k

m ki

N

k

k m ki

V X

V X

u

m C

i k

Trang 20

1

'

, 1 , , 1

Do có kết hợp các yếu tố địa lý nên chất lượng phân cụm của thuật toán NE tốt hơn so với thuật toán FCM Tuy nhiên, thuật toán vẫn còn một số nhược điểm [10] như:

- Thuật toán bỏ qua các tác động của các khu vực mà không có biên chung

- Thuật toán loại trừ ảnh hưởng của yếu tố dân số - là một yếu tố quan trọng trong bài toán phân cụm dữ liệu địa lý

- Việc hiệu chỉnh địa lý được thực hiện ở bước cuối cùng (ngoài vòng lặp) nên các cụm không gắn chặt với yếu tố không gian

1.2.3.3 Thuật toán FGWC

Thuật toán FGWC [4] do Mason và Jacobson xây dựng vào năm 2007 nhằm khắc phục những hạn chế của thuật toán NE Ý tưởng của thuật toán là tích hợp thêm yếu tố dân cư và đưa việc cập nhật địa lý bằng mô hình SIM vào trong vòng lặp thuật toán

Đầu vào:

- Số cụm c và các tham số m, cho hàm mục tiêu J;

- Tập dữ liệu đầu vào X, số mờ m

- Số điểm dữ liệu N, số cụm C , số chiều r

Trang 21

j k m

u

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t)với t 0

 Bước 2: Tính ma trận tâm V (t) bởi công thức:

, 1

; 1

u

X u

k

m ki

N

k

k m ki

V X

V X

u

m C

i k

; 1

1

'

N k C i u w A u

b j i ij

d

m m

w ( )

(14)

Trong đó, m i là dân số hay số lượng phần tử thuộc của cụm i, d ij là khoảng cách tâm cụm i và cụm j, A là hệ số để giới hạn tổng độ thuộc của một phần tử vào tất cả các cụm luôn bằng 1

 Bước 5: Nếu U'(t1)U(t)  thì dừng thuật toán, ngược lại thì quay lại bước 2

Trang 22

FGWC [4] là thuật toán được sử dụng rộng rãi nhất hiện nay do nó khắc phục được nhược điểm của thuật toán NE như xem xét các tác động của những khu vực không có biên chung, kết hợp dân cư vào các bước thực hiện của nó và các cụm được gắn chặt với quan hệ không gian

Nhược điểm của thuật toán này là [4]:

- Thời gian thực hiện thuật toán chậm

- Chất lượng phân cụm thu được là không cao

1.2.3.4 Thuật toán CFGWC

Thuật toán CFGWC do nhóm nghiên cứu của Tiến sỹ Lê Hoàng Sơn cùng cộng

sự đưa ra để khắc phục nhược điểm về tốc độ tính toán của thuật toán FGWC (Mason

và Jacobson)

Ý tưởng của thuật toán [7]:

Thuật toán sẽ đưa thêm một biến ngữ cảnh để thu hẹp dữ liệu gốc theo một số điều kiện cho trước Biến ngữ cảnh sẽ tăng tốc độ tính toán đưa ra kết quả chính xác hơn

Đầu vào:

- Tập dữ liệu đầu vào X, số mờ m

- Số điểm dữ liệu N, số cụm C , số chiều r

j

j k m

u

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo ma trận U (t) với t 0

 Bước 2: Tính ma trận tâm V (t) bởi công thức:

Trang 23

, 1

; 1

u

X u

k

m ki

N

k

k m ki

V X

V X

f u

m C

i k

; 1

1

A u

b j i ij

d

m m

Trong đó, m ilà số lượng phần tử thuộc của cụm i, d ij là khoảng cách tâm cụm

i và cụm j, A là hệ số để giới hạn tổng độ thuộc của một phần tử thứ i vào tất cả các cụm luôn bằng f i

 Bước 5: Nếu U'(t1)U(t) thì dừng thuật toán, ngược lại thì quay lại bước

Đầu vào:

Trang 24

- Tâm khởi tạo V(0), tập mẫu X, khoảng mờ m1, m2

- Số phần tử (số cụm) –N, số chiều của tập dữ liệu r

Các bước thực hiện thuật toán:

 Bước 1: Tính khoảng ma trận độ thuộc U(x)  [U(x) ,U(x)] từ ma trận tâm cụm khởi tạo ( 0 )

V và tập mẫu X bởi các công thức:

N k U

}

; , 1

; , 1

| ) 1 , 0 ( { ) (

U x

j k

C

i

m

i k

j k

V X

V X

V X

V X

1

1 2

) 0 (

) 0 ( 1

1 2

) 0 (

) 0 (

2 1

j k

C

i

m

i k

j k

V X

V X

V X

V X

1

1 2

) 0 (

) 0 ( 1

1 2

) 0 (

) 0 (

2 1

X

C

j k

X

C

j k

Trang 25

 Bước 2: Gán V(A) V(0) và thực hiện phương pháp hiệu chỉnh Kanik [9] để tính tâm phải V R và tâm trái V L từ ( A)

VU (x) Sắp xếp X theo các đặc trưng

),

j

A jl l

1

) (

X U

k

m m l kj

N

k

ki

m m l kj

1

2 ) )(

1 ( 1

2 ) )(

1 ( )

1 (

2 1

2 1

U U

1

) )(

1 ( )

 Bước 7: Tính ma trân tâm trái V L và ma trận độ thuộc ( 2 )

U giống như ở Bước 2 đến Bước 6 với hai thay đổi ở bước 4 và bước 6 là:

U

U ( 2 )( )

(29) Nếu k  k0

, ngược lại , j1,C,k1,N

, Nếu k  k0

, ngược lại , j1,C,k1,N

Trang 26

U U

1

) )(

2 ( )

U U

Và tìm số lượng phần tử của mỗi cụm pop i bởi luật: Nếu ( ) (C)

ki C

, 1 , , 1 , , )

( )

) (

G

A U

U

1

) 2 ( )

G

A U

U

1

) 1 ( )

/

a kj b j k

W

pop i là số lượng phần tử của cụm i, d ji là khoảng cách giữa cụm i và cụm

j, A là tham số giới hạn tổng độ thuộc của một phần tử vào tất cả các cụm luôn bằng

1, a, b là các tham số người dùng định nghĩa

 Bước 10: Thực hiện giảm kiểu để tính U GT (x)

X U

k

m m GT kj

N

k

ki

m m GT kj

1

2 ) ( 1

2 ) ( )

2 (

2 1

2 1

Trang 27

 Bước 12: Gán V BV 2 rồi thực hiện tương tự từ bước 2 đến bước 7 để tính

L

V

V V V V nêu V

) 0 ( )

0 ( )

3

 Bước 14: lặp lại cho đến khi ||V 3 V 0 || hoặc số vòng lặp là MaxStep

Ưu điểm: Chất lượng phân cụm thu được cao hơn so với thuật toán FGWC Nhược điểm: Thời gian chạy thuật toán lâu

1.2.3.6 Thuật toán IPFGWC

Thuật toán được đề xuất bởi Lê Hoàng Sơn và các cộng sự vào năm 2012 [8] dựa trên ý tưởng kết hợp lý thuyết tập mờ trực cảm, phân cụm mờ xác suất vào trong

mô hình của bài toán nhằm cải thiện chất lượng phân cụm so với các thuật toán khác

Các bước thực hiện thuật toán:

 Bước 1: Khởi tạo tâm cụm V j, j 1 ,Ctại t 0

 Bước 2: Tính giá trị độ thuộc, mức độ do dự và giá trị đặc trưng bởi công thức:

C j N k

V X

V X

u

m C

i k

j k

Trang 28

C j N k V

X

V X

h

C

j k

X a t

j

j k

A u

X h a t a u a

k

kj kj m kj

N

k

k kj kj m kj

1

3 2 1

1

3 2 1

1.2.3.7 Thuật toán MIPFGWC

Thuật toán MIPFWC [6] là thuật toán cải tiến cho thuật toán IPFCWC bằng cách tích hợp thêm mô hình tương tác - hiệu chỉnh không gian (SIM2) [6]

Đầu vào:

- Tập dữ liệu đầu vào X

- Số thuộc tính N, số cụm C, số chiều r

- Các tham số địa lý a,b,c,d,,,

Trang 29

 Bước 1: Khởi tạo tâm cụm (t)

V , với t 0

 Bước 2: Tính giá trị độ thuộc, mức độ do dự và giá trị đặc trưng:

C j N k

V X

V X

u

m C

i k

j k

X

V X

h

C

j k

X a t

j

j k

j kj k

j

j kj k

A u

w u

1

1

' '

j k d

IM p pop pop

kj

d kj c

kj b j k

kj

; 0

; )

kj

kj kj

C

k k

pop pop

IM

d p

N pop

Trang 30

Trong đó, pop kpop j là số phần tử của cụm thứ k và cụm thứ j, d kj là khoảng cách giữa cụm thứ k và cụm thứ j, p kj là khoảng cách lớn nhất giữa các điểm trong phần biên chung của hai cụm kj, trong trường hợp hai cụm không có biên chung hoặc có một điểm dữ liệu chung thì p kj 1 IM kj là tổng số điểm dữ liệu di cư từ cụm thứ k sang cụm thứ j và ngược lại, trong trường hợp không có sự di cư nào giữa hai cụm thì IM kj 1 Các biến a,b,c,d là hằng số

X h a t a u a

k

kj kj m kj

N

k

k kj kj m kj

1

3 2 1

1

3 2 1

và quay lại bước 2

Ưu điểm: Chất lượng phân cụm tốt hơn các thuật toán khác

Nhược điểm: Thời gian chạy thuật toán lâu hơn các thuật toán khác

1.3 Kết luận

Chương này đã trình bày một cách khái quát các khái niệm về GIS và dữ liệu địa lý, đồng thời trình bày lý thuyết một số thuật toán phân cụm mờ dữ liệu địa lý sẽ cài đặt thực nghiệm

Trang 31

CHƯƠNG 2: XÂY DỰNG ỨNG DỤNG PHÂN CỤM DỮ LIỆU ĐỊA LÝ VỚI PHẦN MỀM MÃ NGUỒN MỞ MAPWINDOW 2.1 MapWindow và các plug-in để mở rộng chức năng

Mục tiêu của luận văn là ứng dụng phân cụm dữ liệu địa lý để nghiên cứu một

số chỉ tiêu kinh tế - xã hội ở Việt Nam:

 Sử dụng các thuật toán đã trình bày ở chương trước để thực hiện phân cụm

 Dữ liệu nghiên cứu lấy từ nguồn website của Tổng cục thống kê Việt Nam Đây

là các dữ liệu của từng địa phương trong cả nước về nhiều chỉ tiêu khác nhau và trong các khoảng thời gian khác nhau, ví dụ như: diện tích rừng bị chặt; diện tích rừng bị cháy; diện tích rừng trồng mới; lực lượng lao động; giá trị sản xuất công nghiệp; giá trị sản xuất xây dựng; FDI được cấp phép, v.v…

 Kết quả phân cụm cần được lưu giữ vào CSDL địa lý đồng thời hiển thị trực quan trên bản đồ, dễ hiểu, tiện cho người sử dụng không chuyên CNTT (các nhà quản lý, hoạc định chính sách …) khai thác sử dụng

Phần lớn các phần mềm GIS đều cho phép bổ sung mở rộng thêm chức năng mong muốn bằng các plug-in Chọn giải pháp này cho bài toán đặt ra ở trên là cách làm hợp lý Dưới đây sẽ giới thiệu khái quát về các hệ thống GIS và lý do chọn MapWindow để thực hành

2.1.1 Các phần mềm GIS

GIS ngày càng phát triển và được ứng dụng vào nhiều lĩnh vực của đời sống kinh tế - xã hội, kéo theo là sự ra đời của các phần mềm GIS Hiện nay có rất nhiều phần mềm GIS được xây dựng cả trên nền desktop và nền web Một số phần mềm GIS gồm có:

 Phần mềm viết trên nền Desktop:

o GRASS GIS – Do U.S Army Corps of Engineers phát triển

gvSIG – Viết bằng ngôn ngữ JAVA, có thể chạy trên HĐH Linux, Mac,Window

o ILWIS (Integrated Land and Water Information System) – Tích hợp hình ảnh, vector và dữ liệu chuyên đề

o JUMP GIS / OpenJUMP ((Open) Java Unified Mapping Platform)

Trang 32

o MapWindow GIS – Ứng dụng desktop mã nguồn mở

o QGIS (previously known as Quantum GIS) – Chạy trên hệ điều hành Linux, Unix, Mac OS X và Windows

o SAGA GIS (System for Automated Geoscientific Analysis)

o uDig – API

 Ngoài ra có một số tool GIS mã nguồn mở khác:

o Capaware – A C++ 3D GIS Framework: Có cấu trúc đa plugin để phân tích một cách trực quan biểu đồ địa lý

o FalconView – Hệ thống bản đồ do viện nghiên cứu kỹ thuật Georgia tạo ra

o Kalypso – Uses Java and GML3

o TerraView – Handles

o Whitebox GAT – Cross-platform

 Phần mềm GIS viết trên nền web:

o GeoServer – Written in Java and relies on GeoTools Allows users to share and edit geospatial data

o MapGuide Open Source – Runs on Linux or Windows, supports Apache and IIS web servers, and has APIs (PHP, NET, Java, and JavaScript) for application development

o Mapnik – C++/Python library for rendering - used by OpenStreetMap

o MapServer – Written in C Developed by the University of Minnesota

o Spatial database management systems[edit]

o PostGIS – Spatial extensions for the open source PostgreSQL database, allowing geospatial queries

o SpatiaLite – Spatial extensions for the open source SQLite database, allowing geospatial queries

o TerraLib – Provides advanced functions for GIS analysis

2.1.2 Phần mềm GIS MapWindow

MapWindow GIS là một ứng dụng GIS mã nguồn mở tập hợp các thành phần lập trình lập bản đồ, do nhóm phát triển MapWindow OSS Team xây dựng

Ngày đăng: 19/12/2015, 03:20

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Ví dụ về dữ liệu thuộc tính - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 1.1. Ví dụ về dữ liệu thuộc tính (Trang 14)
Hình 2.2. Mô hình usecase chức năng phân cụm - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 2.2. Mô hình usecase chức năng phân cụm (Trang 36)
Hình 2.1. Mô hình ca sử dụng tổng quan của plug-in - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 2.1. Mô hình ca sử dụng tổng quan của plug-in (Trang 36)
Hình 2.3: Biểu đồ lớp của plug-in - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 2.3 Biểu đồ lớp của plug-in (Trang 38)
Hình 2.4. Lớp giao diện chính của plug-in - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 2.4. Lớp giao diện chính của plug-in (Trang 39)
Hình 3.1. Dữ liệu chuyên đề ở dạng file .csv - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 3.1. Dữ liệu chuyên đề ở dạng file .csv (Trang 43)
Hình 3.3. Giao diện chương trình khi tải layer và bật plug-in - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 3.3. Giao diện chương trình khi tải layer và bật plug-in (Trang 46)
Hình 3.4. Giao diện in bản đồ - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Hình 3.4. Giao diện in bản đồ (Trang 47)
Bảng 3.1: Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức  bán lẻ hàng hóa và dịch vụ” - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Bảng 3.1 Kết quả chạy phân cụm với các thuật toán trên dữ liệu “Tổng mức bán lẻ hàng hóa và dịch vụ” (Trang 50)
Bảng  3.2:  Thời  gian  chạy  các  thuật  toán  trên  các  bộ  dữ  liệu  với  tham - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
ng 3.2: Thời gian chạy các thuật toán trên các bộ dữ liệu với tham (Trang 51)
Hình  ảnh  minh  họa  khi  hiển  thị  trực  quan  kết  quả  phân  cụm  trên  phần  mềm  Mapwindow GIS: - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
nh ảnh minh họa khi hiển thị trực quan kết quả phân cụm trên phần mềm Mapwindow GIS: (Trang 53)
Hình  3.5.  Kết  quả  khi  chạy  thuật  toán  MIPFGWC    trên  dữ  liệu  “Tổng  mức  bán lẻ hàng hóa và dịch vụ” với số cụm bằng 4 - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
nh 3.5. Kết quả khi chạy thuật toán MIPFGWC trên dữ liệu “Tổng mức bán lẻ hàng hóa và dịch vụ” với số cụm bằng 4 (Trang 53)
Bảng  3.5:  Kết  quả  phân  cụm  thuật  toán  MIPFGWC  chạy  trên  3  chuyên  đề: - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
ng 3.5: Kết quả phân cụm thuật toán MIPFGWC chạy trên 3 chuyên đề: (Trang 56)
Bảng 3.6: Kết  quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa các  trọng số - Phân cụm dữ liệu địa lý và áp dụng trong phân tích một số chỉ số kinh tế xã hội của các địa phương ở việt nam   luận văn
Bảng 3.6 Kết quả phân cụm đồng thời nhiều thuộc tính khi thay đổi tỉ lệ giữa các trọng số (Trang 60)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w