1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến 04

63 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 2,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân cụm chính là nhiệm vụ chính trong khai phá dữliệu và là một kỹ thuật phổ biến để phân tích số liệu thông tin, các hệ trợ giúp quyếtđịnh, các thuật toán nhận dạng mẫu và phân lớp mẫu

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THỊ HƯƠNG

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN

THỊ DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2015

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN THỊ HƯƠNG

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN

THỊ DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HẢI CHÂU

Hà Nội – 2015

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung và những kết quả của luận văn tốt nghiệp này là do tôi tựnghiên cứu dưới sự hướng dẫn của PGS.TS Nguyễn Hải Châu Trong toàn bộ nội dungcủa luận văn, những nội dung được trình bày là của cá nhân tôi hoặc được tổng hợp từnhiều nguồn tài liệu khác Tất cả các tài liệu tham khảo đều được trích dẫn rõ ràng ởphần cuối của luận văn

Tôi xin cam đoan những lời trên là sự thật Nếu sai tôi xin hoàn toàn chịu trách nhiệm

Hà Nội, ngày 20 tháng 11 năm 2015

Học viên

Trần Thị Hương

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Hải Châu, người đã tận tìnhchỉ bảo tôi những kiến thức chuyên môn, phương pháp nghiên cứu khoa học đồng thờicũng là tấm gương trong mọi mặt của cuộc sống để tôi học tập và noi theo

Tôi xin chân thành cảm ơn các thầy, cô giáo trường Đại học Công nghệ đã cungcấp cho tôi những kiến thức bổ ích trong thời gian tôi học tập tại trường

Cuối cùng tôi xin gửi lời cảm ơn tới gia đình tôi đã luôn ủng hộ tôi trên conđường học tập và nghiên cứu với nhiều khó khăn, vất vả Mặc dù tôi đã cố gắng hếtsức trong quá trình làm luận văn nhưng không thể tránh khỏi thiếu sót, rất mong nhậnđược những góp ý của thầy cô và các bạn

Hà Nội, ngày 20 tháng 11 năm

2015Học viên

Trần Thị Hương

Trang 5

MỤC LỤC

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 4

MỤC LỤC 5

DANH MỤC CHỮ VIẾT TẮT 7

DANH MỤC HÌNH 8

DANH MỤC BẢNG BIỂU 10

MỞ ĐẦU 11

CHƯƠNG 1 TỔNG QUAN 12

1.1 Khái quát hóa bản đồ 12

1.1.1 Lịch sử phát triển và các khái niệm đang tồn tại 12

1.1.2 Định nghĩa, ý nghiã, mục đích và các nhân tố 13

1.1.3 Khái quát hóa bản đồ số và các quy tắc khái quát hóa bản đồ 16

1.1.4 Lược giản hóa bản đồ từ tập dữ liệu điểm cụm 22

1.2 Phân cụm (Phân cụm) 26

1.2.1 Khái niệm 26

1.2.2 Phân tích cụm là gì? 27

1.2.3 Các kĩ thuật phân cụm 28

1.3 Giới thiệu hệ quản trị cơ sở dữ liệu PostgreSQL 29

1.3.1 Giới thiệu 29

1.3.2 Các đặc điểm của PostgreSQL 29

1.3.3 Ưu nhược điểm của PostgreSQL 31

1.3.4 Module PostGIS 33

CHƯƠNG 2 GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU ĐỊA LÝ TRÊN BẢN ĐỒ TRỰC TUYẾN 34

2.2 Giới thiệu các kĩ thuật phân cụm 34

2.2.1 Các thuật toán phân cụm cơ bản 34

2.2.2 Các độ đo sử dụng trong phân cụm 36

2.3 Gộp nhóm với thuật toán phân vùng K-means 37

2.3.1 Giới thiệu về thuật toán phân vùng K-means 37

Trang 6

2.3.2 Cấu trúc của thuật toán phân vùng K-means 39

2.4 Gộp nhóm với thuật toán phân cấp Agglomerative Hirearchical (AH) 41

2.4.1 Giới thiệu về thuật toán phân cấp 41

2.4.2 Cấu trúc của thuật toán phân cấp 43

2.5 So sánh thuật toán K-means và thuật toán AH 47

2.5.1 Thuật toán K-means 47

2.5.2 Thuật toán AH 48

CHƯƠNG 3 THỰC NGHIỆM 49

3.1 Xây dựng bộ CSDL thực nghiệm 49

3.2 Import dữ liệu vào hệ quản trị CSDL PostgreSQL 50

3.3 Lập trình xây dựng trang Web thử nghiệm 54

3.3.1 Xây dựng trang Web và hiển thị dữ liệu điểm ATM 54

3.3.2 Ứng dụng thuật toán phân cấp Agglomerative Hirearchical lập trình tăng tốc độ hiển thị dữ liệu điểm ATM 55

KẾT LUẬN 59

TÀI LIỆU THAM KHẢO 60

Trang 7

DANH MỤC CHỮ VIẾT TẮT

AH Agglomerative Hirearchical Phân cấp gộp

API Application Programming Interface Giao diện lập trình ứng dụng

GIS Geographical Information System Hệ thống thông tin địa lý

Trang 8

DANH MỤC HÌNH

Hình 1.1 Sự khác biệt giữa khái quát hóa bản đồ và tỷ lệ hóa bản đồ………….……11

Hình 1.2 Khái quát hóa bản đồ ……… ……….12

Hình 1.3 Phương pháp hình sao và phương pháp bậc thang trong kỹ thuật khái quát hóa ……… 14

Hình 1.4 Lược giản hóa đối với một tập điểm ……….… 20

Hình 1.5 Lựa chọn các điểm gần nhất để nhóm ……… 22

Hình 1.6 Loại bỏ các điểm gần tâm cụm……… 23

Hình 1.7 Sự khác biệt giữa các dữ liệu điểm gốc và các dữ liệu điểm sau khi khái quát hóa lúc bản đồ được phóng to……… 23

Hình 1.8 Việc thể hiện tập dữ liệu điểm gốc và tập dữ liệu điểm sau khi khái quát hóa về tỷ lệ 1:10.000.000……….24

Hình 1.9 Các cách khác nhau để phân cụm cùng một tập điểm ……… … 27

Hình 2.1a Thuật toán phân cụm phân cấp 1……….…34

Hình 2.1b Sơ đồ cây 1 ……….34

Hình 2.1c Thuật toán phân cụm phân cấp 2 ………34

Hình 2.1d Sơ đồ cây 2 ……….……34

Hình 2.2: Thuật toán phân vùng………34

Hình 2.3 Quy trình hoạt động của thuật toán k-means……… … …… 36

Hình 2.4 Gán k tâm cụm một cách ngẫu nhiên………36

Hình 2.5 Gán mỗi điểm vào một cụm gần nhất ……… ……37

Hình 2.6 Tâm của mỗi cụm dịch chuyển sau khi được tính toán lại ………….…… 37

Hình 2.7 Gán lại các điểm vào các cụm gần nhất và lặp lại……….37

Hình 2.8 Thuật toán phân cụm phân cấp……… 40

Hình 2.9 Quá trình chạy thuật toán phân cấp phân cụm……… ………40

Hình 2.10 Quy trình thuật toán phân cấp phân cụm……… 42

Hình 2.11 Sơ đồ hình cây……….43

Hình 2.12 Độ đo single-link.……… ……….44

Hình 2.13 Độ đo complete-link …… …… ……… ………44

Hình 2.14 Độ đo centroid-link ……… ……… …………45

Hình 2.15 Độ đo group-average ……….……… …… 45

Hình 2.16 Một cây phân cấp của thuật toán phân cụm AH……….…… 45

Hình 3.1 Biên tập dữ liệu trên phần mềm ArcGIS……… ………48

Hình 3.2 Cấu trúc bảng thuộc tính của dữ liệu………48

Hình 3.3 Bảng thuộc tính của dữ liệu ATM khu vực Hà Nội……….………….49

Trang 9

Hình 3.4 Hộp thoại tạo Databases……… ……… 50

Hình 3.5 Cơ sở dữ liệu ATM Thành phố Hà Nội ………50

Hình 3.6 Hộp thoại đưa shapefile lên Databases……… …… 51

Hình 3.7 Hộp thoại Import Options……….………….52

Hình 3.8 Cơ sở dữ liệu trong Databases db_test – atm………52

Hình 3.9 Trang Web đơn giản với bản đồ nền GoogleMap……… ….……… 53

Hình 3.10 Mã tạo trang Web với bản đồ nền GoogleMap…… ……….………54

Hình 3.11 Hiển thị dữ liệu điểm ATM trên Web……….………54

Hình 3.12 Minh họa quá trình gộp nhóm bằng thuật toán AH……… … 55

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 1.1 Minh họa các quy tắc khái quát hóa………17

Bảng 1.2 So sánh hiệu suất lưu trữ số liệu ……….……… 29

Bảng 1.3 So sánh một số tính năng cơ bản………30

Bảng 1.4 So sánh phương thức quản lý và phân vùng ……… ….….30

Bảng 1.5 So sánh một số tính năng cơ bản………31

Bảng 1.6 So sánh phương thức quản lý và phân vùng……… 31

Bảng 3.1 Các hạng mục xây dựng trang Web thử nghiệm……….53

Bảng 3.2 Thống kê hiệu suất phân cụm với thuật toán AH……… 57

Trang 11

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Công nghệ thông tin là một ngành khoa học đang phát triển rất mạnh và được ápdụng trong rất nhiều ngành khoa học khác, giúp cho con người xử lý công việc mộtcách nhanh hơn, chính xác hơn và hiệu quả hơn Ngày nay, xu thế ứng dụng bản đồ sốqua bản đồ số giúp nâng cao hiệu quả làm việc mà lại tiết kiệm rất nhiều trong côngtác lưu trữ và chia sẻ Tuy nhiên, việc thể hiện các đối tượng không gian trên bản đồvới số lượng lớn là vấn đề khó, vẫn đang dần được khắc phục Phương pháp chủ yếuđược sử dụng hiện nay là khái quát hóa bản đồ thông qua các quy tắc nhất định Luậnvăn này tập trung chủ yếu vào khái quát hóa dữ liệu dạng điểm nhằm nâng cao tốc độhiển thị dữ liệu dạng điểm trên Web

Phân cụm dữ liệu là quá trình nhóm các đối tượng tương tự nhau trong tập dữ liệuvào các cụm sao cho các đối tượng cùng cụm là tương tự nhau còn các đối tượng kháccụm thì không tương tự nhau Phân cụm chính là nhiệm vụ chính trong khai phá dữliệu và là một kỹ thuật phổ biến để phân tích số liệu thông tin, các hệ trợ giúp quyếtđịnh, các thuật toán nhận dạng mẫu và phân lớp mẫu,…và đặc biệt là khai phá dữ liệu.Ngày nay có rất nhiều các kỹ thuật phân cụm được sử dụng, nhưng không phải kỹthuật phân cụm nào cũng có thể giải quyết tốt tất cả các vấn đề của quá trình phâncụm

Phân cụm là kỹ thuật được sử dụng rất hiệu quả và phổ biến trong khai phá dữ liệu

và thông tin (Seo & Sheiderman, 2002), đồng thời nó được sử dụng để đơn giản hóacác cụm điểm (Lu và nnk, 2001) Cùng với sự phát triển của GIS, kỹ thuật này thể hiệnnhiều điểm mạnh vượt trội, đáp ứng được các yêu cầu của khái quát hóa bản đồ số vàđảm bảo được các đặc tính phân bố, cấu trúc của cụm dữ liệu Tuy nhiên, phân cụmvẫn còn là khái niệm khá mới mẻ đối với các nhà bản đồ học và nhà nghiên cứu ở Việt

Nam Vì những lý do trên, học viên quyết định chọn đề tài “Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến”.

2 Mục tiêu và nhiệm vụ của đề tài

+ Đúc kết được những vấn đề lý thuyết căn bản của bản đồ trực tuyến hiện đại,những vấn đề về công nghệ liên quan và xây dựng quy trình công nghệ thành lập và pháthành bản đồ trên mạng

+ Tìm hiểu về các thuật toán gộp điểm giúp nâng cao tốc độ hiển thị dữ liệu dạngđiểm trên Web

+ Sản phẩm thử nghiệm phải đạt chất lượng của bản đồ là nâng cao tốc độ hiển thị

dữ liệu địa lý dạng điểm

Trang 12

CHƯƠNG 1 TỔNG QUAN 1.1 Khái quát hóa bản đồ

1.1.1 Lịch sử phát triển và các khái niệm đang tồn tại

Khái quát hóa bản đồ được các nhà địa lý và các nhà bản đồ học thảo luận vàphân tích từ đầu thế kỷ 20 Các nhà bản đồ học đã gặp rất nhiều khó khăn trong nhiềuthập kỷ trong việc khái quát hóa bản đồ và việc thể hiện bề mặt trái đất trên mặt phẳngbản đồ.Trải qua 1 thế kỷ, các định nghĩa, quan điểm mà các nhà địa lý và các nhà bản

- Từ thập kỉ 60 đến thập kỉ 80 của thế kỷ 20, nhiều học giả đã nghiên cứu về

mô hình khái quát hóa bản đồ và mô hình bản đồ Khái niệm về mô hình bản đồ đượcđưa ra và sau đó trở thành những chỉ dẫn về lý thuyết cho sự chuyển đổi từ khái quát hóabản đồ thủ công sang khái quát hóa bản đồ trên máy tính Về mặt khái niệm, trong cuốn

“Từ điển đa ngôn ngữ cho các thuật ngữ kỹ thuật trong Bản đồ học” do Hiệp hội bản đồquốc tế (ICA) viết, khái quát hóa bản đồ được định nghĩa như sau: “Khái quát hóa bản đồ

là việc lựa chọn và đơn giản hóa thể hiện những chi tiết bản đồ phù hợp với tỷ lệ hay mụcđích sử dụng bản đồ” Tuy nhiên, Brophy và David Michael (1973) lại cho rằng “Kháiquát hóa là quá trình khuếch trương hóa mà không có bất kỳ quy định, hướng dẫn hay sự

hệ thống hóa nào” Keates, JS (1973), mặt khác, đã giải thích sản phẩm của quá trìnhkhái quát hóa bằng việc mô tả nó như “những yếu tố ảnh hưởng đến cả vị trí và ý nghĩacủa các yếu tố bản đồ, các tính năng về không gian giảm đi khi tỷ lệ bản đồ giảm, cácthông tin vị trí, đặc tính được đưa lên bản đồ ít hơn”

- Goodchild, Michael.F (1991) đã đưa ra định nghĩa khá quan trọng: “Kháiquát hóa bản đồ là sự giản lược hóa các đặc tính không gian và hiển thị một cách đại diệncác đối tượng này trên bản đồ”, Müller J.C (1991) lại cho rằng “khái quát hóa bản đồ làquá trình định hướng thông tin nhằm thể hiện nội dung của một cơ sở dữ liệu không giancho phù hợp với nhu cầu của người sử dụng” Theo Jones CB, Ware JM

Trang 13

(1998), “Khái quát hóa bản đồ là quá trình xây dựng bản đồ tỷ lệ nhỏ từ bản đồ có tỷ lệlớn Nó bao gồm các bước như lược giản hóa, lựa chọn, di chuyển và hợp nhất đểthành lập bản đồ khi tỷ lệ bản đồ giảm”.

1.1.2 Định nghĩa, ý nghiã, mục đích và các nhân tố

Bản đồ địa lý có vai trò là miêu tả từ một phạm vi nhỏ hẹp đến toàn bộ bề mặttrái đất Đối tượng trong thực tế vô cùng đa dạng nên trên cùng một tờ bản đồ khôngthể hiện đầy đủ tất cả các đối tượng, hiện tượng được Vì vậy, phải có quá trình lựachọn các đối tượng thể hiện Quá trình lựa chọn, phân cấp này được gọi là quá trìnhkhái quát hóa bản đồ

Quá trình khái quát hóa bản đồ là quá trình lựa chọn và phân cấp các đối tượng thể hiện sao cho phù hợp với nhiệm vụ ,chủ đề, tỷ lệ bản đồ, phù hợp với những đặc điểm khu vực thành lập bản đồ.

Khái quát hóa bản đồ được hiểu đơn giản là việc xử lý thông tin khi người sửdụng phóng to, thu nhỏ bản đồ Tuy nhiên, cách hiểu này không mô tả được đúng ýnghĩa của khái quát hóa bản đồ Việc thu nhỏ một bản đồ có tỷ lệ nhỏ có thể dẫn đếntình trạng quá tải của các đối tượng bản đồ, lúc này bề mặt bản đồ không đủ để thểhiện các đối tượng dữ liệu một cách tách biệt và dễ hiểu (hình 1.1)

Hình 1.1 Sự khác biệt giữa khái quát hóa bản đồ và tỷ lệ hóa bản đồ

(Bader M., 2001)

Trang 14

14Mỗi tỷ lệ bản đồ được thành lập với mục đích khác nhau, có nghĩa là bản đồ ở

tỷ lệ 1:25.000 sẽ bao gồm các thông tin và đối tượng khác với bản đồ tỷ lệ 1:50.000.Trong ví dụ đơn giản dưới đây (hình 1.2), ta có thể thấy rõ sự khác biệt Lưu ý rằngmột số con phố trên bản đồ tỷ lệ 1:25.000 đã biến mất trên bản đồ 1:50.000 và chỉnhững con phố chính được giữ lại Có thể thấy là nếu tất cả các con phố trên bản đồ tỷ

lệ lớn được giữ lại thì các đối tượng thể hiện trên bản đồ tỷ lệ nhỏ sẽ là quá nhiềukhiến người sử dụng khó đọc và khó hiểu

Vẫn mảnh bản đồ này nhưng khái Một mảnh bản đồ tỷ lệ 1:25.000 quát hóa về tỷ lệ Bản đồ tỷ lệ 1:50.000 sau khi

Hình 1.2 Khái quát hóa bản đồ (Batsos E & Politis P., 2006)

b Ý nghĩa, mục đích của khái quát hóa bản đồ

 Khái quát hóa là việc quan trọng nhằm tìm hiểu đặc trưng của hiện tượngchứ không trình bày tất cả ở các hiện tượng và cũng không đi nghiên cứu một hiện tượngriêng rẽ nào

 Tuy rằng bản đồ là phương tiện để biểu hiện thực tế và truyền đạt thôngtin nhưng không thể đưa lên bản đồ tất cả những gì có trong thực tế mà chỉ biểu diễnnhững đối tượng thông qua quá trình lựa chọn để đi đến giữ lại những gì phù hợp và loại

bỏ những gì không cần thiết

 Những yếu tố loại bỏ không có nghĩa là quá nhỏ bé mà vì nó không nêuđược đặc trưng của hiện tượng Trong nhiều trường hợp cần thiết phải cường điệu hóađối tượng lên để thể hiện được đặc trưng của đối tượng nhỏ bé

Như vậy, việc lựa chọn các đối tượng thể hiện trên bản đồ không phụ thuộc vào ýmuốn chủ quan của người thành lập bản đồ mà phải căn cứ vào cơ sở khoa học nhấtđịnh để giữ lại những nét cơ bản điển hình và không xa rời thực tế

Trang 15

c Mục đích

- Sửa đổi các dữ liệu định tính và định lượng mà vẫn miêu tả được đúng đặc trưng địa lý kinh tế xã hội của khu vực thành lập bản đồ

- Giảm số lượng các chi tiết không cần thiết

- Lược giản hóa các đối tượng bản đồ

d Các nhân tố ảnh hưởng đến quá trình khái quát hóa bản đồ

Tỷ lệ bản đồ: được định nghĩa là tỷ lệ giữa khoảng cách giữa hai điểm đo trên

bản đồ với khoảng cách giữa hai điểm đó trên bề mặt trái đất Tỷ lệ bản đồ có vai tròquyết định trong việc khái quát hóa bản đồ, xác định quy trình khái quát và các thuậttoán được dùng để khái quát hóa

Mục đích sử dụng bản đồ: chức năng của bản đồ tác động trực tiếp đến nội dung

và hình thức phản ánh nội dung bản đồ Một bản đồ tốt nên phản ánh được những đặctính không gian cần thiết cho nhu cầu của người sử dụng, liên quan đến tính chuyên đềcủa bản đồ trong khi các đối tượng quan trọng vẫn được ưu tiên thể hiện tương ứng vớimức độ quan trọng của chúng Trong các nhân tố quan trọng ảnh hưởng đến quá trìnhkhái quát hóa phải kể đến nhân tố mục đích Hai bản đồ có cùng nội dung nhưng mụcđích sử dụng khác nhau sẽ khác nhau về mức độ khái quát hóa Tóm lại, do mục đích

sử dụng khác nhau nên nội dung bản đồ khác nhau Nội dung được lựa chọn nhiều hay

ít, chi tiết hay đơn giản phụ thuộc vào mức độ khái quát hóa ít hay nhiều, phù hợp vớimục đích sử dụng đó

Các đặc trưng của khu vực trên bản đồ: khi cần hiển thị thêm nhiều thông tin

đặc trưng, quá trình khái quát bản đồ có sự ảnh hưởng khác nhau đến các khu vực khácnhau, ví dụ như giữa khu vực thành thị và khu vực nông thôn Một số kỹ thuật đã được

áp dụng thành công để khái quát hóa khu vực đô thị trong khi một số khác thể hiện ưuđiểm khi được áp dụng với khu vực nông thôn hoặc nội thành, là nơi có mật độ đốitượng bản đồ thưa hơn

Chất lượng của dữ liệu: Khái quát hóa bản đồ được tiến hành dựa trên các tiêu

chí về chất lượng hoặc độ tin cậy của dữ liệu Các dữ liệu có thể bắt nguồn từ nhiềunguồn khác nhau: như ảnh hàng không, ảnh vệ tinh, dữ liệu GPS, dữ liệu thực địa, sốhóa bản đồ và biểu đồ Chất lượng, độ chính xác của các loại dữ liệu này cần đượckiểm chứng

Các kỹ thuật khái quát hóa bản đồ:

Có nhiều kỹ thuât, thuật toán khác nhau được sử dụng để khái quát hóa, tùytheo các loại dữ liệu khác nhau và đối tượng bản đồ khác nhau Đồng thời cũng cónhiều phương pháp khác nhau để áp dụng các kỹ thuật này để hỗ trợ tập dữ liệu điểmcho những tỷ lệ bản đồ khác nhau Hiện nay tồn tại hai phương pháp khái quát hóa:

- Phương pháp bậc thang: bản đồ ở mỗi tỷ lệ là kết quả của việc khái quát hóa

từ các bản đồ có tỷ lệ lớn hơn trước đó

Trang 16

Hình 1.3 Phương pháp hình sao và phương pháp bậc thang trong kỹ thuật

khái quát hóa (Stoter J.E, 2005)

Tóm lại, việc khái quát hóa bản đồ có rất nhiều điểm mạnh mà người thành lậpbản đồ và người sử dụng có thể áp dụng Có thể kể ra: làm giảm tính phức tạp của bản

đồ, loại trừ các chi tiết không cần thiết, giữ lại và thể hiện các chi tiết quan trọng, duytrì độ chính xác về không gian, thuộc tính, đồng thời cung cấp phương tiện khai thácthông tin từ bản đồ hiệu quả hơn

1.1.3 Khái quát hóa bản đồ số và các quy tắc khái quát hóa bản đồ

Với bản đồ số hiện đại, khái quát hóa bản đồ được hiểu là đem quá trình xử lý thủcông của người thành lập bản đồ thành cách thức xử lý tự động trên máy tính Kháiquát hóa bản đồ số có tác dụng rõ rệt ở bốn phương diện sau: Thứ nhất, khi sử dụng dữliệu bản đồ số ở tỷ lệ lớn để thành lập các bản đồ số ở tỷ lệ nhỏ hơn, bắt buộc phải vậndụng phương pháp khái quát hóa bản đồ số; thứ hai, khi sử dụng kho dữ liệu khônggian tỉ lệ lớn để thành lập kho dữ liệu không gian đa tỉ lệ và khi thực hiện cập nhật chotoàn bộ kho dữ liệu đa tỉ lệ thì phương pháp khái quát hóa bản đồ số là giải pháp hiệuquả nhất; thứ ba, để phù hợp với yêu cầu hiển thị đa tỉ lệ các dữ liệu không gian trong

hệ thống thông tin địa lý thì không những bắt buộc phải áp dụng phương pháp kháiquát hóa bản đồ số mà còn cần tự động khái quát hóa trực tiếp từ một tỉ lệ gốc đến một

tỉ lệ đích bất kỳ nào đó; thứ tư, khi bắt đầu xây dựng kho dữ liệu không gian, với sốlượng lớn dữ liệu đến từ nhiều nguồn khác nhau đòi hỏi phải vận dụng

Trang 17

phương pháp khái quát hóa bản đồ số để chọn ra các dữ liệu không gian mà phù hợpvới mục đích của người dùng

Khi đưa bản đồ tỷ lệ lớn về bản đồ tỷ lệ nhỏ, việc áp dụng khái quát hóa đối với

dữ liệu không gian là bắt buộc để thay đổi về mặt hình học cũng như đặc tính của bản

đồ Quá trình này được thực hiện bởi hệ thống quy tắc khái quát hóa bản đồ, với nhiệm

vụ thay đổi vị trí, hình dáng, ký hiệu của dữ liệu không gian để tách dữ liệu thành cácnhóm riêng biệt

Hệ thống quy tắc khái quát hóa bản đồ đầu tiên xuất hiện trong nghiên cứu củaRobinson và nnk (1984) và DELICIA - Black (1987), nghiên cứu này đề cập đến rất ít

hệ thống quy tắc, nhưng Keates (1989) và McMaster - Monmonior (1989) đã bổ sungthêm một vài quy tắc đặc biệt cần thiết Cho đến nay, các hệ thống quy tắc đã tươngđối hoàn thiện và có thể tóm tắt như dưới đây:

Gộp (Agglomeration): được dùng với các đối tượng mà mỗi đối tượng có mộtranh giới riêng, tính năng này hợp nhất các ranh giới lại thành một ranh giới chung vàđưa sát các đối tượng lại với nhau

Gộp điểm (Aggregation): để nhóm các điểm thành một điểm duy nhất hoặc đểkết hợp các đối tượng hình học vốn ngăn cách nhau thành một đối tượng hợp nhất.Gộp vùng (Amalgamation): dùng để hợp nhất các đối tượng hình học nhưpolygon (các tòa nhà) và các đối tượng này bị chia cắt bởi đối tượng khác (như đườnggiao thông)

Phân loại (Classification): Xếp các đối tượng có cùng đặc trưng hoặc thuộc tínhvào một nhóm

Thu gọn (Collapse): thay đổi kích thước thể hiện của đối tượng, Vì khi tỷ lệgiảm, nhiều đối tượng trong thực tế chỉ số thể biểu diễn bằng điểm hoặc đường Có 2cách thu gọn: đưa các polygon khép kín về thành 1 điểm, các đối tượng dạng đườngvới 2 nét ranh giới được đưa về 1 đường nét duy nhất, hoặc sử dụng các biểu tượng vớikích thước nhỏ

Kết hợp (Combination): kết hợp một số đối tượng thành một đối tượng kíchthước lớn hơn

Dịch chuyển (Displacement): dịch chuyển một đối tượng ra xa đối tượng kháchoặc nhóm đối tượng khác vì khoảng cách giữa chúng trở nên quá nhỏ khi giảm tỷ lệbản đồ; hoặc dịch chuyển đối tượng dạng đường theo một chiều xác định; hoặc dichuyển một đối tượng dạng vùng nhưng không quá xa, thường là để giải quyết vấn đềchồng lấp giữa các đối tượng khi giảm tỷ lệ bản đồ

Nhấn mạnh (Enhancement): để nhấn mạnh các đối tượng, đặc trưng quan trọng,thường phóng đại hình dạng, kích thước của các đối tượng này để đáp ứng một số nhucầu cụ thể của bản đồ

Trang 18

18Cường điệu hóa (Exaggeration): để đảm bảo những đối tượng có kích thước quánhỏ nhưng vẫn được thể hiện trên các bản đồ tỷ lệ nhỏ hơn.

Hợp nhất (Merge): để gộp hai hay nhiều đối tượng dạng đường lại với nhau, đảmbảo đối tượng mới được tạo thành ở bản đồ tỷ lệ nhỏ nằm ở vị trí chính giữa hai đườnggốc và mang tính đại diện cho cả hai đường gốc; hoặc để gộp hai khu vực lân cận vàothành một

Bỏ qua (Omission): lựa chọn những đối tượng quan trọng hơn để giữ lại ở bản

đồ tỷ lệ nhỏ và loại bỏ những đối tượng ít quan trọng nếu không gian bản đồ hạn chế.Tinh lọc (Refinement): tính năng này loại bỏ những đối tượng nhỏ nhất, hoặcnhững đối tượng không ảnh hưởng nhiều đến cục diện bản đồ và các đối tượng khác.Dựa vào tổng thể các đối tượng ban đầu, một mô hình chung, đại diện cho các đốitượng được thiết lập, mô hình này chỉ bao gồm với các đặc trưng được lựa chọn vàđược đặt tại chính xác vị trí cũ của các đối tượng ở bản đồ tỷ lệ lớn

Lựa chọn (Selection): để lựa chọn các đối tượng đặc trưng, theo từng loại đặctrưng

Loại bỏ (Elimination): để loại bỏ các đối tượng không quan trọng trên bản đồLược giản hóa (Simplification): để giảm bớt sự phức tạp về cấu trúc của một sốđiểm lân cận bằng cách loại bỏ một vài điểm, chỉ giữ lại cấu trúc ban đầu; lược giảnhóa hình dáng của các đối tượng dạng vùng; duy trì cấu trúc của các đối tượng dạngvùng bằng cách lựa chọn các đặc điểm quan trọng và loại bỏ những đặc điểm khôngquan trọng; loại bỏ bớt những điểm gấp khúc không quan trọng trên đối tượng dạngđường

Làm mượt (Smoothing): làm mượt các đối tượng dạng đường, hoặc ranh giới củacác đối tượng dạng vùng

Điển hình hóa (Typification): giữ lại cấu trúc điển hình của các đối tượng dạngđiểm và bỏ đi một số điểm; giữ lại cấu trúc điển hình của đối tượng dạng đường nhưng

bỏ đi một số chỗ uốn khúc; giữ lại sắp xếp điển hình của một nhóm các đối tượng dạngvùng, bỏ đi một số đối tượng (ví dụ như vị trí các tòa nhà), chỉ thể hiện sự phân bốtheo hàng và cột

Trang 19

Bảng 1.1 Minh họa các quy tắc khái quát hóa (Robert B.McMaster, K.Stuart Shea, 1992; Jiawei Han, Micheline Kamber, 2006; Robert B.McMaster, K.Stuart

Shea, 1989)

Các đối tƣợng trên bản Các đối tƣợng trên bản đồ

Phân loại

(Classification)

Trang 21

điểmĐường

đôithànhđường

đơn

VùngthànhđiểmVùng

Trang 23

1.1.4 Lược giản hóa bản đồ từ tập dữ liệu điểm cụm.

Lược giản hóa các dữ liệu dạng điểm có thể coi là việc thiết lập các chỉ tiêuchọn lựa dựa trên các đặc tính không gian Quy tắc này thường sử dụng kỹ thuật tối ưuhóa với mục đích là tìm ra một tập hợp điểm đáp ứng được tối đa các tính năng, hoặcđặc điểm được xác định trước Kích thước của tập điểm này có thể được xác địnhtrước hoặc phụ thuộc một số tiêu chí biết trước Việc giản lược hóa thường được ápdụng trên phạm vi cả bản đồ, mặc dù nó có thể áp dụng riêng cho các cụm riêng lẻ.Mục đích của quy tắc này là giãn cách mật độ không gian cho các đối tượng chồng lấpnhau, chứ không phải để xử lý tất cả các đối tượng Nói chung, mục đích của lược giảnhóa là giảm bớt mật độ hoặc mức độ chi tiết của dữ liệu Như vậy, quy tắc này có thểđược coi là chủ yếu liên quan đến khía cạnh thứ tự của những thay đổi về mặt khônggian Hình 1.4 minh họa quy tắc lược giản hóa xử lý một tập hợp điểm

Hình 1.4 Lược giản hóa đối với một tập điểm (Batsos E., Politis P., 2006)

Trang 24

23Khá nhiều thuật toán (Douglas & Peker 1973, de Breg et al 1995, Li &Openshaw 1992) đã sử dụng các phép tính về hình học để thực hiện các thao tác vềhình học và công nghệ GIS dễ dàng đáp ứng những điều này Dễ nhận thấy rằng kháiquát hóa là vấn đề không hề đơn giản Để khái quát hóa bản đồ, không thể chỉ sử dụngmột thuật toán duy nhất Khái niệm về hệ thống quy tắc và thuật toán cũng thường bịnhầm lẫn Một quy tắc là một sự biến đổi đối tượng bản đồ và thuật toán là phươngtiện được dùng để thực hiện sự biến đổi đó Quy tắc là cách thức khái quát hóa bản đồ,còn thuật toán là các thao tác xử lý hình học hoặc xử lý ảnh Việc biến đổi dữ liệu bản

đồ được thực hiện bằng một loạt quy tắc khái quát hóa và quy tắc xử lý hình học

Trong phần này, học viên sẽ tập trung vào phương pháp giản lược hóa tập dữliệu điểm cụm do hai thuật toán k-means và thuật toán phân cấp gộp tạo ra Giản lượchóa là kỹ thuật giản lược dữ liệu cơ bản và thường bị nhầm lẫn với các quá trình xử lýrộng hơn của khái quát hóa Các thuật toán giản lược hóa không thay đổi hay dịchchuyển tọa độ các điểm mà chỉ đơn giản là loại bỏ những điểm được coi là không quantrọng đối với những đặc trưng về hình dáng còn lại của tập dữ liệu Cụ thể, lược giảnhóa được áp dụng khi nhiều điểm thuộc cùng một lớp được biểu diễn trên bản đồ Một

số lượng nhất định các điểm được giữ lại trong khi các điểm khác bị loại bỏ khi đưabản đồ gốc tỷ lệ 1: 3.500.000 về bản đồ tỷ lệ nhỏ hơn 1:10.000.000 Như vậy số điểmtrên bản đồ sẽ giảm đi khi tỷ lệ bản đồ giảm, nếu không cục diện bản đồ sẽ trở nên rấtlộn xộn

Khi đưa bản đồ tỷ lệ 1: 3.500.000 về bản đồ tỷ lệ nhỏ hơn 1:10.000.000, rấtnhiều điểm không thể nhận ra được vì một số rất gần nhau, trong khi một số khác lạichồng lấp lên nhau Điều này khiến các điểm thể hiện không rõ ràng, bởi vậy để duy trìcấu trúc ban đầu, mật độ các điểm và độ phức tạp về cấu trúc của mỗi cụm được giảm

đi hoặc phải khái quát hóa toàn bộ dữ liệu điểm Ý tưởng này được thực hiện thôngqua các bước sau:

- Nhóm các điểm dựa trên khoảng cách “hàng xóm gần nhất”

- Xác định ngưỡng tối thiểu cho khoảng cách để tiến hành giản lược hóa

- Giản lược hóa nhóm các điểm

• Nhóm các điểm dựa trên “khoảng cách hàng xóm gần nhất”

Đầu tiên, khoảng cách của các cặp điểm trong cụm được tính toán Những cặpđiểm này được coi là “hàng xóm gần nhất” trong mỗi cụm (phải chọn một cụm để ápdụng các bước xử lý vì các bước này là giống nhau với tất cả cụm)

Trang 25

Hình 1.5 Lựa chọn các điểm gần nhất để nhóm

Hình minh họa trên cho thấy trong tất cả các nhóm, khoảng cách giữa các điểmđều nhỏ hơn hoặc bằng giá trị ngưỡng Những điểm có khoảng cách với các điểm kháclớn hơn giá trị ngưỡng thì không được gán vào nhóm nào và sẽ không được lược giảnhóa Chúng sẽ được giữ nguyên ở bản đồ tỷ lệ nhỏ hơn

• Xác định ngưỡng khoảng cách tối thiểu cho lược giản hóa bản đồ

Ngưỡng khoảng cách tối thiểu là khoảng cách tối thiểu chấp nhận được cho việc

áp dụng tính toán dựa trên một vài tiêu chí Trong trường hợp này, ngưỡng khoảngcách tối thiểu là khoảng cách tối thiểu giữa các điểm bị xếp quá gần nhau hoặc chồnglấp lên nhau khi đưa về bản đồ tỷ lệ 1:10.000.000

• Giản lược hóa nhóm các điểm

Sau khi lựa chọn để nhóm các điểm trên tiêu chí về ngưỡng khoảng cách, quátrình lược giản hóa các nhóm sẽ được tiến hành Vì những điểm trong cùng một nhóm

sẽ rất sát nhau trên bản đồ kết quả nên mỗi nhóm sẽ bị loại bỏ một số điểm Việc loại

bỏ các điểm được thực hiện theo nhiều cách khác nhau nhưng trong trường hợp này,các điểm sẽ được loại bỏ trên tiêu chí tỷ lệ bản đồ kết quả nhỏ hơn hai lần so với bản

đồ gốc Để phục vụ mục tiêu này, đầu tiên tâm của các cụm được xác định sau đókhoảng cách từ tâm đến mỗi điểm còn lại trong cụm được tính toán Sau đó trong mỗinhóm, chỉ những điểm xa nhất, tính từ tâm được giữ lại để thể hiện ở bản đồ kết quả,nghĩa là những điểm gần tâm nhất sẽ bị loại bỏ Kết quả là chỉ còn lại một điểm trongmỗi cụm và đây là điểm xa tâm cụm nhất

Trang 26

Tâm cluster

Tâm cluster

Hình 1.6 Loại bỏ các điểm gần tâm cụm.

Hình minh họa trên cho thấy các nhóm điểm được giản lược hóa bằng cách loại

bỏ một số điểm Ví dụ, nhóm các điểm 7, 8, 12 và 16, điểm xa tâm cụm nhất là điểm

16 Vì thế chỉ duy nhất điểm 16 được giữ lại để thể hiện trên bản đồ kết quả Lý do

chọn các điểm xa tâm cụm nhất là để duy trì ranh giới của các cụm Nguyên tắc này

không chỉ giữ cho đường ranh giới các cụm không thay đổi, mà bất kỳ điểm nào xa tâm

nhất nằm trên ranh giới này cũng không bị loại bỏ Tuy nhiên, điều này có thể dẫn đến

việc quá sát nhau của ranh giới các cụm Sau khi tiến hành giản lược hóa, các điểm này

sẽ xuất hiện trên bản đồ kết quả, nghĩa là trên bản đồ 1:10.000.000 Hình minh họa dưới

đây thể hiện các cụm của tập dữ liệu điểm gốc (bên trái) và tập dữ liệu điểm sau khi khái

quát hóa (bên phải)

Hình 1.7 Sự khác biệt giữa các dữ liệu điểm gốc và các dữ liệu điểm sau

khi khái quát hóa lúc bản đồ được phóng to.

Hình minh họa trên cho thấy tập dữ liệu điểm gốc là rõ ràng hơn hoặc kém rõ

ràng hơn ở tỷ lệ 1:3.500.000 nhưng chắc chắn nếu không được khái quát hóa, những

Trang 27

điểm này sẽ rất sít nhau, thậm chí là chồng lấp lên nhau khi thể hiện ở bản đồ tỷ lệ1:10.000.000 Nhưng sau khi áp dụng khái quát hóa bản đồ, các điểm trên bản đồ tỷ lệnhỏ được biểu diễn rất rõ ràng Hình minh họa sau cho thấy kết quả của việc khái quáthóa các cụm.

Dữ liệu gốc tỷ lệ 1: 10.000.000

Dữ liệu gốc tỷ lệ 1: 3.500.000

Dữ liệu sau khi khái quát hóa tỷ lệ 1: 10.000.000

Hình 1.8 Việc thể hiện tập dữ liệu điểm gốc và tập dữ liệu điểm sau khi

khái quát hóa về tỷ lệ 1:10.000.000

1.2 Phân cụm

1.2.1 Khái niệm

Khái niệm phân cụm đã xuất hiện từ khá lâu Đây là một trong những kỹ thuậtquan trọng trong khai phá dữ liệu và phân tích dữ liệu địa lý Kỹ thuật này có khánhiều ứng dụng, đặc biệt trong truy hồi thông tin và tổ chức các tài nguyên web Quátrình này tập trung vào phân cụm trong khai phá dữ liệu Khai phá dữ liệu bổ sung vàocụm các biến thể của các tập dữ liệu rất lớn với nhiều thuộc tính của nhiều kiểu dữ liệukhác nhau Điều này đặt ra các yêu cầu tính toán tính toán liên quan đến các thuật toánphân cụm Có rất nhiều thuật toán khác nhau phù hợp với thuật ngữ phân cụm Trongsuốt một thập niên qua, sự phát triển của các thuật toán này đã thu hút được không ít

sự quan tâm từ các nhà nghiên cứu và các nhà khoa học Đặc biệt là việc sử dụng các

kỹ thuật phân cụm trong việc nhận dạng mẫu, xử lý ảnh và truy hồi thông tin

Phân cụm thường bị nhầm lẫn với phân lớp nhưng có một vài điểm khác biệtgiữa hai kỹ thuật này Trong phân lớp, các đối tượng được gán cho một lớp đã đượcđịnh nghĩa sẵn, trong khi với phân cụm, thì các lớp được hình thành sau này Khái

Trang 28

27niệm “lớp” trong phân cụm thường được sử dụng như từ đồng nghĩa với khái niệm

cụm

1.2.2 Phân tích cụm là gì?

Việc phân nhóm các đối tượng thành cụm dựa trên các thông tin của dữ liệu mô

tả về các đối tượng đó hoặc mối quan hệ của chúng Mục đích là nhóm các đối tượngcủa cơ sở dữ liệu thành các phụ lớp (là các cụm) theo ý nghĩa nhất định, dựa trên tiêuchí đảm bảo sự tương tự tối đa giữa các điểm trong cùng một cụm và sự khác biệt tối

đa giữa các điểm thuộc các cụm khác nhau Cụm trong cơ sở dữ liệu lớn có thể được

sử dụng để tiến hành trực quan hóa, để giúp người sử dụng có thể phân tích, nhận diệncác nhóm và phụ nhóm có các đặc tính tương đồng nhau

Định nghĩa về cụm không được xác định quá rõ ràng và trong nhiều trường hợp,các cụm không được tách biệt rõ ràng Tuy nhiên, hầu hết các phân tích cụm đềuhướng đến sự phân loại các dữ liệu vào các nhóm không chồng lấp nhau

Để hiểu rõ hơn về những vướng mắc gặp phải khi quyết định cấu thành cụm,hình 1.9 minh họa 20 điểm và 3 phương pháp khác nhau được sử dụng để phân chiacác điểm này vào các cụm, với các cách phân cụm khác nhau, từ 1 đến 4 Nếu các cụmđược cho phép lồng vào nhau thì phương pháp hợp lý nhất là chia thành 2 nhóm, trong

đó mỗi nhóm có 3 nhóm con Tuy nhiên, sự phân chia này có thể chỉ đơn giản là sảnphẩm của thị giác con người Cuối cùng, phương pháp phân chia thành bốn nhóm cũng

có những ưu điểm và dựa trên những nguyên lý riêng Vì thế, một lần nữa, cần phảinhấn mạnh rằng, không có định nghĩa nào chính xác tuyệt đối về cụm, cách tốt nhất đểđịnh nghĩa thuật ngữ này là dựa trên loại dữ liệu và kết quả cụ thể mà người sử dụngmong muốn

2 Hai cluster tạo thành

4 Bốn cluster

Hình 1.9 Các cách khác nhau để phân cụm cùng một tập điểm (Pang Ninh

Tan, M.Steinbach, V Kumar, 2006)

Trang 29

Phân tích cụm là quá trình phân loại các đối tượng từ dữ liệu mà qua đó, các đốitượng được gán nhãn theo nhãn của lớp (nhóm) Như vậy, phân cụm không được sửdụng để gán nhãn lớp trước, ngoại trừ trường hợp được sử dụng với mục đích kiểmchứng về độ chính xác của phân cụm Do đó, phân tích cụm khác với việc nhận diệnmẫu hoặc lĩnh vực thống kê như các phân tích phân loại và các phân tích để đưa raquyết định.

Trong khi phân tích cụm có thể rất hữu ích trong các lĩnh vực đề cập ở trên,trong thực tế có rất nhiều lĩnh vực sử dụng trực tiếp hoặc sử dụng phương pháp nàynhư phương tiện cơ bản của việc phân lớp Ví dụ, việc quyết định xem sẽ sử dụng đặctrưng nào để biểu diễn các đối tượng là bước chủ yếu của những kỹ thuật như việcnhận diện mẫu Phân tích cụm thường chọn các đặc trưng cho sẵn và quy trình bắt đầu

từ đó Vì thế, phân tích cụm là công cụ hữu ích trong nhiều lĩnh vực (như đã nêu trên)

1.2.3 Các kĩ thuật phân cụm

Rất nhiều các thuật toán khác nhau được sử dụng để xây dựng các nhóm phânbiệt từ cơ sở dữ liệu lớn Trong phần này, học viên sẽ trình bày về hai thuật toán phâncụm cổ điển và một số thuật toán khác liên quan đến những vấn đề và tập dữ liệu cụthể

 Thuật toán phân cấp: Thuật toán phân cấp tạo ra một chuỗi lồng nhau của cácnhóm con, phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó Mỗimức phân rã là sự gộp (hay tách) hai cụm từ mức phân rã cao hơn hoặc thấp hơn Cácthuật toán điển hình là: K-medoids, CLARANS

 Thuật toán phân vùng: Thuật toán phân vùng phân chia các đối tượng dữ liệuthành các nhóm nhỏ hay cụm không chồng lấp nhau, tức là mỗi đối tượng dữ liệu nằmtrong một cụm riêng Các thuật toán điển hình là: K-means, Diana, BIRCH, AGNES,CAMELEON, ROCK

 Phân cụm dựa trên mật độ (density-based): thuật toán này nhóm các đối tượngtheo mật độ đặc trưng của chức năng nào đó thuộc đối tượng Mật độ thường được địnhnghĩa là số lượng đối tượng trong một khu vực cụ thể của cơ sở dữ liệu Thuật toán nàyđược vận hành đến khi số lượng đối tượng trong một nhóm vượt quá một tham số nào đó

Vì thế thuật toán này khác với thuật toán phân vùng là thuật toán được vận hành đến khiđạt được một số lượng nhất định các cụm Các thuật toán điển hình là: DBSCAN,OPTICS, Den Clue

 Phân cụm dựa trên lưới (grid-based): các thuật toán này tập trung vào các loại

dữ liệu không gian tức là dữ liệu được mô hình hóa theo cấu trúc hình học của các đốitượng trong không gian, mối quan hệ và thuộc tính của chúng Mục tiêu của thuật toánnày là lượng tử hóa dữ liệu thành một số ô vuông, sau đó làm việc với các đối tượng nằmtrong các ô vuông này Nói chung thuật toán này không di chuyển các dữ liệu

Trang 30

29dạng điểm nhưng lại tạo ra một vài mức phân cấp của nhóm các đối tượng Vì thế,thuật toán này khá gần với thuật toán phân cấp nhưng việc gộp các ô lưới, sau đó làcác cụm không phụ thuộc vào các phép đo khoảng cách mà nó do các tham số địnhnghĩa sẵn quyết định Các thuật toán điển hình là: STING, WaveCụm, CLIQUE

 Phân cụm dựa trên mô hình (model-based): Các thuật toán này tìm ra các tham

số mô hình xấp xỉ phù hợp nhất với tập dữ liệu Nó có thể là thuật toán phân vùng hoặcphân cấp, tùy theo cấu trúc hay mô hình mà các giả thuyết được đưa ra về tập dữ liệu vàcách mà thuật toán này tinh chỉnh mô hình để phân vùng Các thuật toán này khá gần vớiphân cụm dựa trên mật độ (density-based), dựa trên nền tảng này, các cụm riêng biệtđược phát triển để cải thiện các mô hình xác định Tuy nhiên, đôi khi các thuật toán nàybắt đầu với một số lượng cụ thể các cụm mà chúng không sử dụng các khái niệm giốngvới phân cụm dựa trên mật độ (density-based) Các thuật toán điển hình là: EM, SOM,COBWEB

 Phân cụm dữ liệu tuyệt đối: các thuật toán này tập trung vào các dữ liệu có bềmặt Euclide hoặc các bề mặt khác mà các pháp đo khoảng cách không thể áp dụng được.Thuật toán điển hình là pCluster

1.3 Giới thiệu hệ quản trị cơ sở dữ liệu PostgreSQL

1.3.1 Giới thiệu

PostgreSQL là hệ quản trị cơ sở dữ liệu được viết theo hướng mã nguồn mở vàrất mạnh mẽ Hệ quản trị cơ sở dữ liệu này đã có hơn 15 năm phát triển, đồng thời cấutrúc đã được kiểm chứng và tạo được lòng tin với người sử dụng về độ tin cậy, tínhtoàn vẹn dữ liệu và tính đúng đắn PostgreSQL có thể chạy trên tất cả các hệ điềuhành, bao gồm cả Linux, UNIX (AIX, BSD, HP-UX, SGI IRIX, Mac OS X, Solaris,Tru64) và Windows Có hỗ trợ đầy đủ các foreign keys, joins, views, triggers, vàstored procedures (trên nhiều ngôn ngữ) Hệ quản trị này còn bao gồm các kiểu dữ liệuSQL: 2008 như INTEGER, NUMBER, BOOLEAN, CHAR, VARCHAR, DATEINTERVAL và TIMESTAMPs PostgreSQL cũng hỗ trợ lưu trữ các đối tượng có kiểu

dữ liệu nhị phân lớn, bao gồm cả hình ảnh, âm thanh, hoặc video Hệ quản trị cơ sở dữliệu này được sử dụng thông qua giao diện của các ngôn ngữ C / C + +, Java Net, Perl,Python, Ruby, Tcl, ODBC…

Hệ thống quản lý cơ sở dữ liệu đối tượng - quan hệ bây giờ được gọi làPostgreSQL có nguồn gốc từ các gói Postgres viết tại Đại học California ở Berkeley.Với hơn hai thập kỷ phát triển, PostgreSQL bây giờ là cơ sở dữ liệu mã nguồn mở tiêntiến nhất, sẵn sàng ở bất cứ đâu

1.3.2 Các đặc điểm của PostgreSQL

- Hoạt động được trên nhiều hệ điều hành như: Linux, UNIX (AIX, BSD,

HP-UX, SGI IRIX, Mac OS X, Solaris, Tru64) và Windows

Trang 31

- Lưu trữ (dạng nhị phân) các đối tượng có dữ liệu lớn như hình ảnh, âm thanh, hoặc video.

- Hỗ trợ các ngôn ngữ như C/C++, Java, Net, Perl, Python, Ruby, Tcl, ODBC

- PostgreSQL có các tính năng phức tạp như kiểm soát truy cập đồng thời nhiềuphiên bản (MVCC), khôi phục dữ liệu tại từng thời điểm (Recovery), quản lý dung lượngbảng (tablespaces), sao chép không đồng bộ, giao dịch lồng nhau (savepoints), sao lưutrực tuyến hoặc nội bộ

- PostgreSQL hỗ trợ bộ ký tự quốc tế, hỗ trợ bảng mã nhiều byte, Unicode và chophép định dạng, sắp xếp và phân loại ký tự văn bản (chữ hoa, thường) PostgreSQL cònđược biết đến với khả năng mở rộng để nâng cao cả về số lượng dữ liệu quản lý và sốlượng người dùng truy cập đồng thời Đã từng có những hệ thống PostgreSQL hoạt độngtrong môi trường thực tế thực hiện quản lý vượt quá 4 terabyte dữ liệu

Bảng 1.2 Các khả năng của hệ quản trị dữ liệu PostgreSQL

- Có hầu hết các truy vấn SQL với các kiểu dữ liệu như Integer, Numeric,

Boolean, Char, Varchar, Date, Interval và Timestamp

- Tạo index giúp quá trình truy vấn đạt hiệu quả cao hơn

- Hỗ trợ các chức năng tìm kiếm tổng quát hóa có thể “gắn” các chỉ mục vào giúpquá trình tìm kiếm được thực hiện trên phạm vi rộng hơn như: Compound, Unique,

Partial, Functional indexes

- Cho phép người dùng tạo các kiểu dữ liệu mới, các hàm, các thủ tục…

- PostgreSQL không quy định những hạn chế trong việc sử dụng mã nguồn củaphần mềm nên có thể được dùng, sửa đổi và phổ biến bởi người dùng cho bất kỳ mụcđích nào

- Hỗ trợ đa người dùng: dữ liệu không gian có xu hướng là các dữ liệu thamchiếu, tức là được chia sẻ bởi nhiều người dùng Lưu trữ dữ liệu trong hệ quản trị cơ sở

dữ liệu sẽ cung cấp những lợi ích như: truy cập từ xa thông qua các chuẩn giao tiếp như:JDBC, ODBC, PERL/DBI làm tăng tính bảo mật cho dữ liệu: một số người

Ngày đăng: 11/11/2020, 21:48

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w