Cùng với sự phát triển của GIS, kỹ thuật này thể hiện nhiều điểm mạnh vượt trội, đáp ứng được các yêu cầu của khái quát hóa bản đồ số và đảm bảo được các đặc tính phân bố, cấu trúc của c
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN THỊ HƯƠNG
NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ
DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2015
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TRẦN THỊ HƯƠNG
NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ
DỮ LIỆU TRÊN BẢN ĐỒ TRỰC TUYẾN
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HẢI CHÂU
Hà Nội – 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan nội dung và những kết quả của luận văn tốt nghiệp này là do tôi tự nghiên cứu dưới sự hướng dẫn của PGS.TS Nguyễn Hải Châu Trong toàn bộ nội dung của luận văn, những nội dung được trình bày là của cá nhân tôi hoặc được tổng hợp từ nhiều nguồn tài liệu khác Tất cả các tài liệu tham khảo đều được trích dẫn rõ ràng ở phần cuối của luận văn
Tôi xin cam đoan những lời trên là sự thật Nếu sai tôi xin hoàn toàn chịu trách nhiệm
Hà Nội, ngày 20 tháng 11 năm 2015
Học viên
Trần Thị Hương
Trang 4LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Nguyễn Hải Châu, người đã tận tình chỉ bảo tôi những kiến thức chuyên môn, phương pháp nghiên cứu khoa học đồng thời cũng là tấm gương trong mọi mặt của cuộc sống để tôi học tập và noi theo
Tôi xin chân thành cảm ơn các thầy, cô giáo trường Đại học Công nghệ đã cung cấp cho tôi những kiến thức bổ ích trong thời gian tôi học tập tại trường
Cuối cùng tôi xin gửi lời cảm ơn tới gia đình tôi đã luôn ủng hộ tôi trên con đường học tập và nghiên cứu với nhiều khó khăn, vất vả Mặc dù tôi đã cố gắng hết sức trong quá trình làm luận văn nhưng không thể tránh khỏi thiếu sót, rất mong nhận được những góp ý của thầy cô và các bạn
Hà Nội, ngày 20 tháng 11 năm 2015
Học viên
Trần Thị Hương
Trang 5MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 4
MỤC LỤC 5
DANH MỤC CHỮ VIẾT TẮT 7
DANH MỤC HÌNH 8
DANH MỤC BẢNG BIỂU 10
MỞ ĐẦU 11
CHƯƠNG 1 TỔNG QUAN 12
1.1 Khái quát hóa bản đồ 12
1.1.1 Lịch sử phát triển và các khái niệm đang tồn tại 12
1.1.2 Định nghĩa, ý nghiã, mục đích và các nhân tố 13
1.1.3 Khái quát hóa bản đồ số và các quy tắc khái quát hóa bản đồ 16
1.1.4 Lược giản hóa bản đồ từ tập dữ liệu điểm cụm 22
1.2 Phân cụm (Phân cụm) 26
1.2.1 Khái niệm 26
1.2.2 Phân tích cụm là gì? 27
1.2.3 Các kĩ thuật phân cụm 28
1.3 Giới thiệu hệ quản trị cơ sở dữ liệu PostgreSQL 29
1.3.1 Giới thiệu 29
1.3.2 Các đặc điểm của PostgreSQL 29
1.3.3 Ưu nhược điểm của PostgreSQL 31
1.3.4 Module PostGIS 33
CHƯƠNG 2 GIẢI PHÁP NÂNG CAO TỐC ĐỘ HIỂN THỊ DỮ LIỆU ĐỊA LÝ TRÊN BẢN ĐỒ TRỰC TUYẾN 34
2.2 Giới thiệu các kĩ thuật phân cụm 34
2.2.1 Các thuật toán phân cụm cơ bản 34
2.2.2 Các độ đo sử dụng trong phân cụm 36
2.3 Gộp nhóm với thuật toán phân vùng K-means 37
2.3.1 Giới thiệu về thuật toán phân vùng K-means 37
Trang 62.3.2 Cấu trúc của thuật toán phân vùng K-means 39
2.4 Gộp nhóm với thuật toán phân cấp Agglomerative Hirearchical (AH) 41
2.4.1 Giới thiệu về thuật toán phân cấp 41
2.4.2 Cấu trúc của thuật toán phân cấp 43
2.5 So sánh thuật toán K-means và thuật toán AH 47
2.5.1 Thuật toán K-means 47
2.5.2 Thuật toán AH 48
CHƯƠNG 3 THỰC NGHIỆM 49
3.1 Xây dựng bộ CSDL thực nghiệm 49
3.2 Import dữ liệu vào hệ quản trị CSDL PostgreSQL 50
3.3 Lập trình xây dựng trang Web thử nghiệm 54
3.3.1 Xây dựng trang Web và hiển thị dữ liệu điểm ATM 54
3.3.2 Ứng dụng thuật toán phân cấp Agglomerative Hirearchical lập trình tăng tốc độ hiển thị dữ liệu điểm ATM 55
KẾT LUẬN 59
TÀI LIỆU THAM KHẢO 60
Trang 7DANH MỤC CHỮ VIẾT TẮT
AH Agglomerative Hirearchical Phân cấp gộp
API Application Programming Interface Giao diện lập trình ứng dụng ATM Automatic Teller Machine Máy rút tiền tự động
DBMS Database Management System Hệ quản trị cơ sở dữ liệu GIS Geographical Information System Hệ thống thông tin địa lý GPS Global Positioning System Hệ thống định vị toàn cầu
Trang 8DANH MỤC HÌNH
Hình 1.1 Sự khác biệt giữa khái quát hóa bản đồ và tỷ lệ hóa bản đồ………….……11
Hình 1.2 Khái quát hóa bản đồ ……… ……….12
Hình 1.3 Phương pháp hình sao và phương pháp bậc thang trong kỹ thuật khái quát hóa ……… 14
Hình 1.4 Lược giản hóa đối với một tập điểm ……….… 20
Hình 1.5 Lựa chọn các điểm gần nhất để nhóm ……… 22
Hình 1.6 Loại bỏ các điểm gần tâm cụm……… 23
Hình 1.7 Sự khác biệt giữa các dữ liệu điểm gốc và các dữ liệu điểm sau khi khái quát hóa lúc bản đồ được phóng to……… 23
Hình 1.8 Việc thể hiện tập dữ liệu điểm gốc và tập dữ liệu điểm sau khi khái quát hóa về tỷ lệ 1:10.000.000……….24
Hình 1.9 Các cách khác nhau để phân cụm cùng một tập điểm ……… … 27
Hình 2.1a Thuật toán phân cụm phân cấp 1……….…34
Hình 2.1b Sơ đồ cây 1 ……….34
Hình 2.1c Thuật toán phân cụm phân cấp 2 ………34
Hình 2.1d Sơ đồ cây 2 ……….……34
Hình 2.2: Thuật toán phân vùng………34
Hình 2.3 Quy trình hoạt động của thuật toán k-means……… … …… 36
Hình 2.4 Gán k tâm cụm một cách ngẫu nhiên………36
Hình 2.5 Gán mỗi điểm vào một cụm gần nhất ……… ……37
Hình 2.6 Tâm của mỗi cụm dịch chuyển sau khi được tính toán lại ………….…… 37
Hình 2.7 Gán lại các điểm vào các cụm gần nhất và lặp lại……….37
Hình 2.8 Thuật toán phân cụm phân cấp……… 40
Hình 2.9 Quá trình chạy thuật toán phân cấp phân cụm……… ………40
Hình 2.10 Quy trình thuật toán phân cấp phân cụm……… 42
Hình 2.11 Sơ đồ hình cây……….43
Hình 2.12 Độ đo single-link.……… ……….44
Hình 2.13 Độ đo complete-link …… …… ……… ………44
Hình 2.14 Độ đo centroid-link ……… ……… …………45
Hình 2.15 Độ đo group-average ……….……… …… 45
Hình 2.16 Một cây phân cấp của thuật toán phân cụm AH……….…… 45
Hình 3.1 Biên tập dữ liệu trên phần mềm ArcGIS……… ………48
Hình 3.2 Cấu trúc bảng thuộc tính của dữ liệu………48
Hình 3.3 Bảng thuộc tính của dữ liệu ATM khu vực Hà Nội……….………….49
Trang 9Hình 3.4 Hộp thoại tạo Databases……… ……… 50
Hình 3.5 Cơ sở dữ liệu ATM Thành phố Hà Nội ………50
Hình 3.6 Hộp thoại đưa shapefile lên Databases……… …… 51
Hình 3.7 Hộp thoại Import Options……….………….52
Hình 3.8 Cơ sở dữ liệu trong Databases db_test – atm………52
Hình 3.9 Trang Web đơn giản với bản đồ nền GoogleMap……… ….……… 53
Hình 3.10 Mã tạo trang Web với bản đồ nền GoogleMap…… ……….………54
Hình 3.11 Hiển thị dữ liệu điểm ATM trên Web……….………54
Hình 3.12 Minh họa quá trình gộp nhóm bằng thuật toán AH……… … 55
Trang 10DANH MỤC BẢNG BIỂU
Bảng 1.1 Minh họa các quy tắc khái quát hóa………17
Bảng 1.2 So sánh hiệu suất lưu trữ số liệu ……….……… 29
Bảng 1.3 So sánh một số tính năng cơ bản………30
Bảng 1.4 So sánh phương thức quản lý và phân vùng ……… ….….30
Bảng 1.5 So sánh một số tính năng cơ bản………31
Bảng 1.6 So sánh phương thức quản lý và phân vùng……… 31
Bảng 3.1 Các hạng mục xây dựng trang Web thử nghiệm……….53
Bảng 3.2 Thống kê hiệu suất phân cụm với thuật toán AH……… 57
Trang 11MỞ ĐẦU
1 Tính cấp thiết của đề tài
Công nghệ thông tin là một ngành khoa học đang phát triển rất mạnh và được áp dụng trong rất nhiều ngành khoa học khác, giúp cho con người xử lý công việc một cách nhanh hơn, chính xác hơn và hiệu quả hơn Ngày nay, xu thế ứng dụng bản đồ số qua bản đồ số giúp nâng cao hiệu quả làm việc mà lại tiết kiệm rất nhiều trong công tác lưu trữ và chia sẻ Tuy nhiên, việc thể hiện các đối tượng không gian trên bản đồ với số lượng lớn là vấn đề khó, vẫn đang dần được khắc phục Phương pháp chủ yếu được sử dụng hiện nay là khái quát hóa bản đồ thông qua các quy tắc nhất định Luận văn này tập trung chủ yếu vào khái quát hóa dữ liệu dạng điểm nhằm nâng cao tốc độ hiển thị dữ liệu dạng điểm trên Web
Phân cụm dữ liệu là quá trình nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng cùng cụm là tương tự nhau còn các đối tượng khác cụm thì không tương tự nhau Phân cụm chính là nhiệm vụ chính trong khai phá dữ liệu và là một kỹ thuật phổ biến để phân tích số liệu thông tin, các hệ trợ giúp quyết định, các thuật toán nhận dạng mẫu và phân lớp mẫu,…và đặc biệt là khai phá dữ liệu Ngày nay có rất nhiều các kỹ thuật phân cụm được sử dụng, nhưng không phải kỹ thuật phân cụm nào cũng có thể giải quyết tốt tất cả các vấn đề của quá trình phân cụm
Phân cụm là kỹ thuật được sử dụng rất hiệu quả và phổ biến trong khai phá dữ liệu
và thông tin (Seo & Sheiderman, 2002), đồng thời nó được sử dụng để đơn giản hóa các cụm điểm (Lu và nnk, 2001) Cùng với sự phát triển của GIS, kỹ thuật này thể hiện nhiều điểm mạnh vượt trội, đáp ứng được các yêu cầu của khái quát hóa bản đồ số và đảm bảo được các đặc tính phân bố, cấu trúc của cụm dữ liệu Tuy nhiên, phân cụm vẫn còn là khái niệm khá mới mẻ đối với các nhà bản đồ học và nhà nghiên cứu ở Việt
Nam Vì những lý do trên, học viên quyết định chọn đề tài “Nghiên cứu giải pháp nâng cao tốc độ hiển thị dữ liệu trên bản đồ trực tuyến”
2 Mục tiêu và nhiệm vụ của đề tài
+ Đúc kết được những vấn đề lý thuyết căn bản của bản đồ trực tuyến hiện đại, những vấn đề về công nghệ liên quan và xây dựng quy trình công nghệ thành lập và phát hành bản đồ trên mạng
+ Tìm hiểu về các thuật toán gộp điểm giúp nâng cao tốc độ hiển thị dữ liệu dạng điểm trên Web
+ Sản phẩm thử nghiệm phải đạt chất lượng của bản đồ là nâng cao tốc độ hiển thị
dữ liệu địa lý dạng điểm
Trang 12CHƯƠNG 1 TỔNG QUAN 1.1 Khái quát hóa bản đồ
1.1.1 Lịch sử phát triển và các khái niệm đang tồn tại
Khái quát hóa bản đồ được các nhà địa lý và các nhà bản đồ học thảo luận và phân tích từ đầu thế kỷ 20 Các nhà bản đồ học đã gặp rất nhiều khó khăn trong nhiều thập kỷ trong việc khái quát hóa bản đồ và việc thể hiện bề mặt trái đất trên mặt phẳng bản đồ.Trải qua 1 thế kỷ, các định nghĩa, quan điểm mà các nhà địa lý và các nhà bản
đồ học đưa ra rất đa dạng
- Từ việc xem khái quát hóa bản đồ như là một quá trình chủ quan đến việc xem khái quát hóa bản đồ như là một phương pháp vẽ bản đồ khoa học khách quan: Năm 1921 Max Eckert lần đầu tiên đưa ra khái niệm khái quát hóa bản đồ, ông cho rằng thực chất khái quát hóa bản đồ nằm ở việc đối với các đối tượng vẽ bản đồ tiến hành chọn lọc và khái quát, nhân tố chủ yếu để dẫn dắt là công dụng của bản đồ, điều này đến nay vẫn hoàn toàn chính xác
- Erwin Raisz (Tổng quan về bản đồ học, 1948) đã trình bày một quan điểm khá đơn giản về khái quát hóa Theo Raisz, không có quy tắc rõ ràng nào cho khái quát hóa bản đồ nhưng nó bao gồm các bước để kết hợp, loại bỏ một số yếu tố và lược giản hóa dữ liệu
- Từ thập kỉ 60 đến thập kỉ 80 của thế kỷ 20, nhiều học giả đã nghiên cứu về
mô hình khái quát hóa bản đồ và mô hình bản đồ Khái niệm về mô hình bản đồ được đưa ra và sau đó trở thành những chỉ dẫn về lý thuyết cho sự chuyển đổi từ khái quát hóa bản đồ thủ công sang khái quát hóa bản đồ trên máy tính Về mặt khái niệm, trong cuốn “Từ điển đa ngôn ngữ cho các thuật ngữ kỹ thuật trong Bản đồ học” do Hiệp hội bản đồ quốc tế (ICA) viết, khái quát hóa bản đồ được định nghĩa như sau: “Khái quát hóa bản đồ là việc lựa chọn và đơn giản hóa thể hiện những chi tiết bản đồ phù hợp với
tỷ lệ hay mục đích sử dụng bản đồ” Tuy nhiên, Brophy và David Michael (1973) lại cho rằng “Khái quát hóa là quá trình khuếch trương hóa mà không có bất kỳ quy định, hướng dẫn hay sự hệ thống hóa nào” Keates, JS (1973), mặt khác, đã giải thích sản phẩm của quá trình khái quát hóa bằng việc mô tả nó như “những yếu tố ảnh hưởng đến cả vị trí và ý nghĩa của các yếu tố bản đồ, các tính năng về không gian giảm đi khi
tỷ lệ bản đồ giảm, các thông tin vị trí, đặc tính được đưa lên bản đồ ít hơn”
- Goodchild, Michael.F (1991) đã đưa ra định nghĩa khá quan trọng: “Khái quát hóa bản đồ là sự giản lược hóa các đặc tính không gian và hiển thị một cách đại diện các đối tượng này trên bản đồ”, Müller J.C (1991) lại cho rằng “khái quát hóa bản
đồ là quá trình định hướng thông tin nhằm thể hiện nội dung của một cơ sở dữ liệu không gian cho phù hợp với nhu cầu của người sử dụng” Theo Jones CB, Ware JM
Trang 13(1998), “Khái quát hóa bản đồ là quá trình xây dựng bản đồ tỷ lệ nhỏ từ bản đồ có tỷ lệ lớn Nó bao gồm các bước như lược giản hóa, lựa chọn, di chuyển và hợp nhất để thành lập bản đồ khi tỷ lệ bản đồ giảm”
1.1.2 Định nghĩa, ý nghiã, mục đích và các nhân tố
Bản đồ địa lý có vai trò là miêu tả từ một phạm vi nhỏ hẹp đến toàn bộ bề mặt trái đất Đối tượng trong thực tế vô cùng đa dạng nên trên cùng một tờ bản đồ không thể hiện đầy đủ tất cả các đối tượng, hiện tượng được Vì vậy, phải có quá trình lựa chọn các đối tượng thể hiện Quá trình lựa chọn, phân cấp này được gọi là quá trình khái quát hóa bản đồ
a Định nghiã
Quá trình khái quát hóa bản đồ là quá trình lựa chọn và phân cấp các đối tượng thể hiện sao cho phù hợp với nhiệm vụ ,chủ đề, tỷ lệ bản đồ, phù hợp với những đặc điểm khu vực thành lập bản đồ
Khái quát hóa bản đồ được hiểu đơn giản là việc xử lý thông tin khi người sử dụng phóng to, thu nhỏ bản đồ Tuy nhiên, cách hiểu này không mô tả được đúng ý nghĩa của khái quát hóa bản đồ Việc thu nhỏ một bản đồ có tỷ lệ nhỏ có thể dẫn đến tình trạng quá tải của các đối tượng bản đồ, lúc này bề mặt bản đồ không đủ để thể hiện các đối tượng dữ liệu một cách tách biệt và dễ hiểu (hình 1.1)
Hình 1.1 Sự khác biệt giữa khái quát hóa bản đồ và tỷ lệ hóa bản đồ
(Bader M., 2001)
Trang 14Mỗi tỷ lệ bản đồ được thành lập với mục đích khác nhau, có nghĩa là bản đồ ở
tỷ lệ 1:25.000 sẽ bao gồm các thông tin và đối tượng khác với bản đồ tỷ lệ 1:50.000 Trong ví dụ đơn giản dưới đây (hình 1.2), ta có thể thấy rõ sự khác biệt Lưu ý rằng một số con phố trên bản đồ tỷ lệ 1:25.000 đã biến mất trên bản đồ 1:50.000 và chỉ những con phố chính được giữ lại Có thể thấy là nếu tất cả các con phố trên bản đồ tỷ
lệ lớn được giữ lại thì các đối tượng thể hiện trên bản đồ tỷ lệ nhỏ sẽ là quá nhiều khiến người sử dụng khó đọc và khó hiểu
Hình 1.2 Khái quát hóa bản đồ (Batsos E & Politis P., 2006)
b Ý nghĩa, mục đích của khái quát hóa bản đồ
Khái quát hóa là việc quan trọng nhằm tìm hiểu đặc trưng của hiện tượng chứ không trình bày tất cả ở các hiện tượng và cũng không đi nghiên cứu một hiện tượng riêng rẽ nào
Tuy rằng bản đồ là phương tiện để biểu hiện thực tế và truyền đạt thông tin nhưng không thể đưa lên bản đồ tất cả những gì có trong thực tế mà chỉ biểu diễn những đối tượng thông qua quá trình lựa chọn để đi đến giữ lại những gì phù hợp và loại bỏ những gì không cần thiết
Những yếu tố loại bỏ không có nghĩa là quá nhỏ bé mà vì nó không nêu được đặc trưng của hiện tượng Trong nhiều trường hợp cần thiết phải cường điệu hóa đối tượng lên để thể hiện được đặc trưng của đối tượng nhỏ bé
Như vậy, việc lựa chọn các đối tượng thể hiện trên bản đồ không phụ thuộc vào ý muốn chủ quan của người thành lập bản đồ mà phải căn cứ vào cơ sở khoa học nhất định để giữ lại những nét cơ bản điển hình và không xa rời thực tế
Một mảnh bản đồ tỷ lệ 1:25.000
Vẫn mảnh bản đồ này nhưng khái quát hóa về tỷ lệ 1:50.000
Bản đồ tỷ lệ 1:50.000 sau khi phóng to
Trang 15c Mục đích
- Sửa đổi các dữ liệu định tính và định lượng mà vẫn miêu tả được đúng đặc trưng địa lý kinh tế xã hội của khu vực thành lập bản đồ
- Giảm số lượng các chi tiết không cần thiết
- Lược giản hóa các đối tượng bản đồ
d Các nhân tố ảnh hưởng đến quá trình khái quát hóa bản đồ
Tỷ lệ bản đồ: được định nghĩa là tỷ lệ giữa khoảng cách giữa hai điểm đo trên
bản đồ với khoảng cách giữa hai điểm đó trên bề mặt trái đất Tỷ lệ bản đồ có vai trò quyết định trong việc khái quát hóa bản đồ, xác định quy trình khái quát và các thuật toán được dùng để khái quát hóa
Mục đích sử dụng bản đồ: chức năng của bản đồ tác động trực tiếp đến nội dung
và hình thức phản ánh nội dung bản đồ Một bản đồ tốt nên phản ánh được những đặc tính không gian cần thiết cho nhu cầu của người sử dụng, liên quan đến tính chuyên đề của bản đồ trong khi các đối tượng quan trọng vẫn được ưu tiên thể hiện tương ứng với mức độ quan trọng của chúng Trong các nhân tố quan trọng ảnh hưởng đến quá trình khái quát hóa phải kể đến nhân tố mục đích Hai bản đồ có cùng nội dung nhưng mục đích sử dụng khác nhau sẽ khác nhau về mức độ khái quát hóa Tóm lại, do mục đích
sử dụng khác nhau nên nội dung bản đồ khác nhau Nội dung được lựa chọn nhiều hay
ít, chi tiết hay đơn giản phụ thuộc vào mức độ khái quát hóa ít hay nhiều, phù hợp với mục đích sử dụng đó
Các đặc trưng của khu vực trên bản đồ: khi cần hiển thị thêm nhiều thông tin
đặc trưng, quá trình khái quát bản đồ có sự ảnh hưởng khác nhau đến các khu vực khác nhau, ví dụ như giữa khu vực thành thị và khu vực nông thôn Một số kỹ thuật đã được
áp dụng thành công để khái quát hóa khu vực đô thị trong khi một số khác thể hiện ưu điểm khi được áp dụng với khu vực nông thôn hoặc nội thành, là nơi có mật độ đối tượng bản đồ thưa hơn
Chất lượng của dữ liệu: Khái quát hóa bản đồ được tiến hành dựa trên các tiêu
chí về chất lượng hoặc độ tin cậy của dữ liệu Các dữ liệu có thể bắt nguồn từ nhiều nguồn khác nhau: như ảnh hàng không, ảnh vệ tinh, dữ liệu GPS, dữ liệu thực địa, số hóa bản đồ và biểu đồ Chất lượng, độ chính xác của các loại dữ liệu này cần được kiểm chứng
Các kỹ thuật khái quát hóa bản đồ:
Có nhiều kỹ thuât, thuật toán khác nhau được sử dụng để khái quát hóa, tùy theo các loại dữ liệu khác nhau và đối tượng bản đồ khác nhau Đồng thời cũng có nhiều phương pháp khác nhau để áp dụng các kỹ thuật này để hỗ trợ tập dữ liệu điểm cho những tỷ lệ bản đồ khác nhau Hiện nay tồn tại hai phương pháp khái quát hóa:
- Phương pháp bậc thang: bản đồ ở mỗi tỷ lệ là kết quả của việc khái quát hóa từ các bản đồ có tỷ lệ lớn hơn trước đó
Trang 16- Phương pháp hình sao: các bản đồ ở mỗi tỷ lệ đều được áp dụng kỹ thuật khái quát hóa từ một bản đồ gốc
Trong phạm vi luận văn này, học viên sẽ áp dụng phương pháp hình sao để khái quát hóa, trong đó bản đồ tỷ lệ nhỏ là 1:10.000.000 được khái quát từ bản đồ có tỷ lệ lớn nhất là 1:3.500.000 (hình 1.3)
Hình 1.3 Phương pháp hình sao và phương pháp bậc thang trong kỹ thuật khái
quát hóa (Stoter J.E, 2005)
Tóm lại, việc khái quát hóa bản đồ có rất nhiều điểm mạnh mà người thành lập bản đồ và người sử dụng có thể áp dụng Có thể kể ra: làm giảm tính phức tạp của bản
đồ, loại trừ các chi tiết không cần thiết, giữ lại và thể hiện các chi tiết quan trọng, duy trì độ chính xác về không gian, thuộc tính, đồng thời cung cấp phương tiện khai thác thông tin từ bản đồ hiệu quả hơn
1.1.3 Khái quát hóa bản đồ số và các quy tắc khái quát hóa bản đồ
Với bản đồ số hiện đại, khái quát hóa bản đồ được hiểu là đem quá trình xử lý thủ công của người thành lập bản đồ thành cách thức xử lý tự động trên máy tính Khái quát hóa bản đồ số có tác dụng rõ rệt ở bốn phương diện sau: Thứ nhất, khi sử dụng
dữ liệu bản đồ số ở tỷ lệ lớn để thành lập các bản đồ số ở tỷ lệ nhỏ hơn, bắt buộc phải vận dụng phương pháp khái quát hóa bản đồ số; thứ hai, khi sử dụng kho dữ liệu không gian tỉ lệ lớn để thành lập kho dữ liệu không gian đa tỉ lệ và khi thực hiện cập nhật cho toàn bộ kho dữ liệu đa tỉ lệ thì phương pháp khái quát hóa bản đồ số là giải pháp hiệu quả nhất; thứ ba, để phù hợp với yêu cầu hiển thị đa tỉ lệ các dữ liệu không gian trong hệ thống thông tin địa lý thì không những bắt buộc phải áp dụng phương pháp khái quát hóa bản đồ số mà còn cần tự động khái quát hóa trực tiếp từ một tỉ lệ gốc đến một tỉ lệ đích bất kỳ nào đó; thứ tư, khi bắt đầu xây dựng kho dữ liệu không gian, với số lượng lớn dữ liệu đến từ nhiều nguồn khác nhau đòi hỏi phải vận dụng
Trang 17phương pháp khái quát hóa bản đồ số để chọn ra các dữ liệu không gian mà phù hợp với mục đích của người dùng
Khi đưa bản đồ tỷ lệ lớn về bản đồ tỷ lệ nhỏ, việc áp dụng khái quát hóa đối với
dữ liệu không gian là bắt buộc để thay đổi về mặt hình học cũng như đặc tính của bản
đồ Quá trình này được thực hiện bởi hệ thống quy tắc khái quát hóa bản đồ, với nhiệm
vụ thay đổi vị trí, hình dáng, ký hiệu của dữ liệu không gian để tách dữ liệu thành các nhóm riêng biệt
Hệ thống quy tắc khái quát hóa bản đồ đầu tiên xuất hiện trong nghiên cứu của Robinson và nnk (1984) và DELICIA - Black (1987), nghiên cứu này đề cập đến rất ít
hệ thống quy tắc, nhưng Keates (1989) và McMaster - Monmonior (1989) đã bổ sung thêm một vài quy tắc đặc biệt cần thiết Cho đến nay, các hệ thống quy tắc đã tương
đối hoàn thiện và có thể tóm tắt như dưới đây:
Gộp (Agglomeration): được dùng với các đối tượng mà mỗi đối tượng có một ranh giới riêng, tính năng này hợp nhất các ranh giới lại thành một ranh giới chung và đưa sát các đối tượng lại với nhau
Gộp điểm (Aggregation): để nhóm các điểm thành một điểm duy nhất hoặc để kết hợp các đối tượng hình học vốn ngăn cách nhau thành một đối tượng hợp nhất Gộp vùng (Amalgamation): dùng để hợp nhất các đối tượng hình học như polygon (các tòa nhà) và các đối tượng này bị chia cắt bởi đối tượng khác (như đường giao thông)
Phân loại (Classification): Xếp các đối tượng có cùng đặc trưng hoặc thuộc tính vào một nhóm
Thu gọn (Collapse): thay đổi kích thước thể hiện của đối tượng, Vì khi tỷ lệ giảm, nhiều đối tượng trong thực tế chỉ số thể biểu diễn bằng điểm hoặc đường Có 2 cách thu gọn: đưa các polygon khép kín về thành 1 điểm, các đối tượng dạng đường với 2 nét ranh giới được đưa về 1 đường nét duy nhất, hoặc sử dụng các biểu tượng với kích thước nhỏ
Kết hợp (Combination): kết hợp một số đối tượng thành một đối tượng kích thước lớn hơn
Dịch chuyển (Displacement): dịch chuyển một đối tượng ra xa đối tượng khác hoặc nhóm đối tượng khác vì khoảng cách giữa chúng trở nên quá nhỏ khi giảm tỷ lệ bản đồ; hoặc dịch chuyển đối tượng dạng đường theo một chiều xác định; hoặc di chuyển một đối tượng dạng vùng nhưng không quá xa, thường là để giải quyết vấn đề chồng lấp giữa các đối tượng khi giảm tỷ lệ bản đồ
Nhấn mạnh (Enhancement): để nhấn mạnh các đối tượng, đặc trưng quan trọng, thường phóng đại hình dạng, kích thước của các đối tượng này để đáp ứng một số nhu cầu cụ thể của bản đồ
Trang 18Cường điệu hóa (Exaggeration): để đảm bảo những đối tượng có kích thước quá nhỏ nhưng vẫn được thể hiện trên các bản đồ tỷ lệ nhỏ hơn
Hợp nhất (Merge): để gộp hai hay nhiều đối tượng dạng đường lại với nhau, đảm bảo đối tượng mới được tạo thành ở bản đồ tỷ lệ nhỏ nằm ở vị trí chính giữa hai đường gốc và mang tính đại diện cho cả hai đường gốc; hoặc để gộp hai khu vực lân cận vào thành một
Bỏ qua (Omission): lựa chọn những đối tượng quan trọng hơn để giữ lại ở bản
đồ tỷ lệ nhỏ và loại bỏ những đối tượng ít quan trọng nếu không gian bản đồ hạn chế Tinh lọc (Refinement): tính năng này loại bỏ những đối tượng nhỏ nhất, hoặc những đối tượng không ảnh hưởng nhiều đến cục diện bản đồ và các đối tượng khác Dựa vào tổng thể các đối tượng ban đầu, một mô hình chung, đại diện cho các đối tượng được thiết lập, mô hình này chỉ bao gồm với các đặc trưng được lựa chọn và được đặt tại chính xác vị trí cũ của các đối tượng ở bản đồ tỷ lệ lớn
Lựa chọn (Selection): để lựa chọn các đối tượng đặc trưng, theo từng loại đặc trưng
Loại bỏ (Elimination): để loại bỏ các đối tượng không quan trọng trên bản đồ Lược giản hóa (Simplification): để giảm bớt sự phức tạp về cấu trúc của một số điểm lân cận bằng cách loại bỏ một vài điểm, chỉ giữ lại cấu trúc ban đầu; lược giản hóa hình dáng của các đối tượng dạng vùng; duy trì cấu trúc của các đối tượng dạng vùng bằng cách lựa chọn các đặc điểm quan trọng và loại bỏ những đặc điểm không quan trọng; loại bỏ bớt những điểm gấp khúc không quan trọng trên đối tượng dạng đường
Làm mượt (Smoothing): làm mượt các đối tượng dạng đường, hoặc ranh giới của các đối tượng dạng vùng
Điển hình hóa (Typification): giữ lại cấu trúc điển hình của các đối tượng dạng điểm và bỏ đi một số điểm; giữ lại cấu trúc điển hình của đối tượng dạng đường nhưng
bỏ đi một số chỗ uốn khúc; giữ lại sắp xếp điển hình của một nhóm các đối tượng dạng vùng, bỏ đi một số đối tượng (ví dụ như vị trí các tòa nhà), chỉ thể hiện sự phân bố theo hàng và cột
Trang 19Bảng 1.1 Minh họa các quy tắc khái quát hóa (Robert B.McMaster, K.Stuart Shea, 1992; Jiawei Han, Micheline Kamber, 2006; Robert B.McMaster, K.Stuart
1‐5,6‐10,11‐15,16‐20 Not Applicable
Trang 20Thu gọn
(Collapse)
Vòng tròn thành 1 điểm Đường đôi thành đường đơn
Vùng thành điểm Vùng thành đường Vùng bị thu gọn
Trang 221.1.4 Lược giản hóa bản đồ từ tập dữ liệu điểm cụm
Lược giản hóa các dữ liệu dạng điểm có thể coi là việc thiết lập các chỉ tiêu chọn lựa dựa trên các đặc tính không gian Quy tắc này thường sử dụng kỹ thuật tối ưu hóa với mục đích là tìm ra một tập hợp điểm đáp ứng được tối đa các tính năng, hoặc đặc điểm được xác định trước Kích thước của tập điểm này có thể được xác định trước hoặc phụ thuộc một số tiêu chí biết trước Việc giản lược hóa thường được áp dụng trên phạm vi cả bản đồ, mặc dù nó có thể áp dụng riêng cho các cụm riêng lẻ Mục đích của quy tắc này là giãn cách mật độ không gian cho các đối tượng chồng lấp nhau, chứ không phải để xử lý tất cả các đối tượng Nói chung, mục đích của lược giản hóa là giảm bớt mật độ hoặc mức độ chi tiết của dữ liệu Như vậy, quy tắc này có thể được coi là chủ yếu liên quan đến khía cạnh thứ tự của những thay đổi về mặt không gian Hình 1.4 minh họa quy tắc lược giản hóa xử lý một tập hợp điểm
Hình 1.4 Lược giản hóa đối với một tập điểm (Batsos E., Politis P., 2006)
Trang 23Khá nhiều thuật toán (Douglas & Peker 1973, de Breg et al 1995, Li & Openshaw 1992) đã sử dụng các phép tính về hình học để thực hiện các thao tác về hình học và công nghệ GIS dễ dàng đáp ứng những điều này Dễ nhận thấy rằng khái quát hóa là vấn đề không hề đơn giản Để khái quát hóa bản đồ, không thể chỉ sử dụng một thuật toán duy nhất Khái niệm về hệ thống quy tắc và thuật toán cũng thường bị nhầm lẫn Một quy tắc là một sự biến đổi đối tượng bản đồ và thuật toán là phương tiện được dùng để thực hiện sự biến đổi đó Quy tắc là cách thức khái quát hóa bản đồ, còn thuật toán là các thao tác xử lý hình học hoặc xử lý ảnh Việc biến đổi dữ liệu bản
đồ được thực hiện bằng một loạt quy tắc khái quát hóa và quy tắc xử lý hình học
Trong phần này, học viên sẽ tập trung vào phương pháp giản lược hóa tập dữ liệu điểm cụm do hai thuật toán k-means và thuật toán phân cấp gộp tạo ra Giản lược hóa là kỹ thuật giản lược dữ liệu cơ bản và thường bị nhầm lẫn với các quá trình xử lý rộng hơn của khái quát hóa Các thuật toán giản lược hóa không thay đổi hay dịch chuyển tọa độ các điểm mà chỉ đơn giản là loại bỏ những điểm được coi là không quan trọng đối với những đặc trưng về hình dáng còn lại của tập dữ liệu Cụ thể, lược giản hóa được áp dụng khi nhiều điểm thuộc cùng một lớp được biểu diễn trên bản đồ Một
số lượng nhất định các điểm được giữ lại trong khi các điểm khác bị loại bỏ khi đưa bản đồ gốc tỷ lệ 1: 3.500.000 về bản đồ tỷ lệ nhỏ hơn 1:10.000.000 Như vậy số điểm trên bản đồ sẽ giảm đi khi tỷ lệ bản đồ giảm, nếu không cục diện bản đồ sẽ trở nên rất lộn xộn
Khi đưa bản đồ tỷ lệ 1: 3.500.000 về bản đồ tỷ lệ nhỏ hơn 1:10.000.000, rất nhiều điểm không thể nhận ra được vì một số rất gần nhau, trong khi một số khác lại chồng lấp lên nhau Điều này khiến các điểm thể hiện không rõ ràng, bởi vậy để duy trì cấu trúc ban đầu, mật độ các điểm và độ phức tạp về cấu trúc của mỗi cụm được giảm đi hoặc phải khái quát hóa toàn bộ dữ liệu điểm Ý tưởng này được thực hiện thông qua các bước sau:
- Nhóm các điểm dựa trên khoảng cách “hàng xóm gần nhất”
- Xác định ngưỡng tối thiểu cho khoảng cách để tiến hành giản lược hóa
- Giản lược hóa nhóm các điểm
• Nhóm các điểm dựa trên “khoảng cách hàng xóm gần nhất”
Đầu tiên, khoảng cách của các cặp điểm trong cụm được tính toán Những cặp điểm này được coi là “hàng xóm gần nhất” trong mỗi cụm (phải chọn một cụm để áp dụng các bước xử lý vì các bước này là giống nhau với tất cả cụm)
Trang 24Hình 1.5 Lựa chọn các điểm gần nhất để nhóm
Hình minh họa trên cho thấy trong tất cả các nhóm, khoảng cách giữa các điểm đều nhỏ hơn hoặc bằng giá trị ngưỡng Những điểm có khoảng cách với các điểm khác lớn hơn giá trị ngưỡng thì không được gán vào nhóm nào và sẽ không được lược giản hóa Chúng sẽ được giữ nguyên ở bản đồ tỷ lệ nhỏ hơn
• Xác định ngưỡng khoảng cách tối thiểu cho lược giản hóa bản đồ
Ngưỡng khoảng cách tối thiểu là khoảng cách tối thiểu chấp nhận được cho việc áp dụng tính toán dựa trên một vài tiêu chí Trong trường hợp này, ngưỡng khoảng cách tối thiểu là khoảng cách tối thiểu giữa các điểm bị xếp quá gần nhau hoặc chồng lấp lên nhau khi đưa về bản đồ tỷ lệ 1:10.000.000
• Giản lược hóa nhóm các điểm
Sau khi lựa chọn để nhóm các điểm trên tiêu chí về ngưỡng khoảng cách, quá trình lược giản hóa các nhóm sẽ được tiến hành Vì những điểm trong cùng một nhóm
sẽ rất sát nhau trên bản đồ kết quả nên mỗi nhóm sẽ bị loại bỏ một số điểm Việc loại
bỏ các điểm được thực hiện theo nhiều cách khác nhau nhưng trong trường hợp này, các điểm sẽ được loại bỏ trên tiêu chí tỷ lệ bản đồ kết quả nhỏ hơn hai lần so với bản
đồ gốc Để phục vụ mục tiêu này, đầu tiên tâm của các cụm được xác định sau đó khoảng cách từ tâm đến mỗi điểm còn lại trong cụm được tính toán Sau đó trong mỗi nhóm, chỉ những điểm xa nhất, tính từ tâm được giữ lại để thể hiện ở bản đồ kết quả, nghĩa là những điểm gần tâm nhất sẽ bị loại bỏ Kết quả là chỉ còn lại một điểm trong mỗi cụm và đây là điểm xa tâm cụm nhất
Trang 25Hình 1.6 Loại bỏ các điểm gần tâm cụm
Hình minh họa trên cho thấy các nhóm điểm được giản lược hóa bằng cách loại
bỏ một số điểm Ví dụ, nhóm các điểm 7, 8, 12 và 16, điểm xa tâm cụm nhất là điểm
16 Vì thế chỉ duy nhất điểm 16 được giữ lại để thể hiện trên bản đồ kết quả Lý do chọn các điểm xa tâm cụm nhất là để duy trì ranh giới của các cụm Nguyên tắc này không chỉ giữ cho đường ranh giới các cụm không thay đổi, mà bất kỳ điểm nào xa tâm nhất nằm trên ranh giới này cũng không bị loại bỏ Tuy nhiên, điều này có thể dẫn đến việc quá sát nhau của ranh giới các cụm Sau khi tiến hành giản lược hóa, các điểm này sẽ xuất hiện trên bản đồ kết quả, nghĩa là trên bản đồ 1:10.000.000 Hình minh họa dưới đây thể hiện các cụm của tập dữ liệu điểm gốc (bên trái) và tập dữ liệu điểm sau khi khái quát hóa (bên phải)
Hình 1.7 Sự khác biệt giữa các dữ liệu điểm gốc và các dữ liệu điểm sau khi
khái quát hóa lúc bản đồ được phóng to
Hình minh họa trên cho thấy tập dữ liệu điểm gốc là rõ ràng hơn hoặc kém rõ ràng hơn ở tỷ lệ 1:3.500.000 nhưng chắc chắn nếu không được khái quát hóa, những
Các điểm gốc Sau khi khái quát hóa
Trang 26điểm này sẽ rất sít nhau, thậm chí là chồng lấp lên nhau khi thể hiện ở bản đồ tỷ lệ 1:10.000.000 Nhưng sau khi áp dụng khái quát hóa bản đồ, các điểm trên bản đồ tỷ lệ nhỏ được biểu diễn rất rõ ràng Hình minh họa sau cho thấy kết quả của việc khái quát hóa các cụm
Hình 1.8 Việc thể hiện tập dữ liệu điểm gốc và tập dữ liệu điểm sau khi khái
sự quan tâm từ các nhà nghiên cứu và các nhà khoa học Đặc biệt là việc sử dụng các
kỹ thuật phân cụm trong việc nhận dạng mẫu, xử lý ảnh và truy hồi thông tin
Phân cụm thường bị nhầm lẫn với phân lớp nhưng có một vài điểm khác biệt giữa hai kỹ thuật này Trong phân lớp, các đối tượng được gán cho một lớp đã được định nghĩa sẵn, trong khi với phân cụm, thì các lớp được hình thành sau này Khái
Dữ liệu gốc tỷ lệ 1: 3.500.000
Dữ liệu gốc tỷ lệ 1: 10.000.000
Dữ liệu sau khi khái quát hóa tỷ lệ 1: 10.000.000
Trang 27niệm “lớp” trong phân cụm thường được sử dụng như từ đồng nghĩa với khái niệm cụm
1.2.2 Phân tích cụm là gì?
Việc phân nhóm các đối tượng thành cụm dựa trên các thông tin của dữ liệu mô
tả về các đối tượng đó hoặc mối quan hệ của chúng Mục đích là nhóm các đối tượng của cơ sở dữ liệu thành các phụ lớp (là các cụm) theo ý nghĩa nhất định, dựa trên tiêu chí đảm bảo sự tương tự tối đa giữa các điểm trong cùng một cụm và sự khác biệt tối
đa giữa các điểm thuộc các cụm khác nhau Cụm trong cơ sở dữ liệu lớn có thể được
sử dụng để tiến hành trực quan hóa, để giúp người sử dụng có thể phân tích, nhận diện các nhóm và phụ nhóm có các đặc tính tương đồng nhau
Định nghĩa về cụm không được xác định quá rõ ràng và trong nhiều trường hợp, các cụm không được tách biệt rõ ràng Tuy nhiên, hầu hết các phân tích cụm đều hướng đến sự phân loại các dữ liệu vào các nhóm không chồng lấp nhau
Để hiểu rõ hơn về những vướng mắc gặp phải khi quyết định cấu thành cụm, hình 1.9 minh họa 20 điểm và 3 phương pháp khác nhau được sử dụng để phân chia các điểm này vào các cụm, với các cách phân cụm khác nhau, từ 1 đến 4 Nếu các cụm được cho phép lồng vào nhau thì phương pháp hợp lý nhất là chia thành 2 nhóm, trong
đó mỗi nhóm có 3 nhóm con Tuy nhiên, sự phân chia này có thể chỉ đơn giản là sản phẩm của thị giác con người Cuối cùng, phương pháp phân chia thành bốn nhóm cũng
có những ưu điểm và dựa trên những nguyên lý riêng Vì thế, một lần nữa, cần phải nhấn mạnh rằng, không có định nghĩa nào chính xác tuyệt đối về cụm, cách tốt nhất để định nghĩa thuật ngữ này là dựa trên loại dữ liệu và kết quả cụ thể mà người sử dụng mong muốn
Hình 1.9 Các cách khác nhau để phân cụm cùng một tập điểm (Pang Ninh Tan,
M.Steinbach, V Kumar, 2006)
1 Các điểm ban đầu
2 Hai cluster tạo thành
3 Sáu cluster
4 Bốn cluster
Trang 28Phân tích cụm là quá trình phân loại các đối tượng từ dữ liệu mà qua đó, các đối tượng được gán nhãn theo nhãn của lớp (nhóm) Như vậy, phân cụm không được sử dụng để gán nhãn lớp trước, ngoại trừ trường hợp được sử dụng với mục đích kiểm chứng về độ chính xác của phân cụm Do đó, phân tích cụm khác với việc nhận diện mẫu hoặc lĩnh vực thống kê như các phân tích phân loại và các phân tích để đưa ra quyết định
Trong khi phân tích cụm có thể rất hữu ích trong các lĩnh vực đề cập ở trên, trong thực tế có rất nhiều lĩnh vực sử dụng trực tiếp hoặc sử dụng phương pháp này như phương tiện cơ bản của việc phân lớp Ví dụ, việc quyết định xem sẽ sử dụng đặc trưng nào để biểu diễn các đối tượng là bước chủ yếu của những kỹ thuật như việc nhận diện mẫu Phân tích cụm thường chọn các đặc trưng cho sẵn và quy trình bắt đầu
từ đó Vì thế, phân tích cụm là công cụ hữu ích trong nhiều lĩnh vực (như đã nêu trên)
1.2.3 Các kĩ thuật phân cụm
Rất nhiều các thuật toán khác nhau được sử dụng để xây dựng các nhóm phân biệt từ cơ sở dữ liệu lớn Trong phần này, học viên sẽ trình bày về hai thuật toán phân cụm cổ điển và một số thuật toán khác liên quan đến những vấn đề và tập dữ liệu cụ thể
Thuật toán phân cấp: Thuật toán phân cấp tạo ra một chuỗi lồng nhau của các nhóm con, phân rã tập dữ liệu/đối tượng có thứ tự phân cấp theo một tiêu chí nào đó Mỗi mức phân rã là sự gộp (hay tách) hai cụm từ mức phân rã cao hơn hoặc thấp hơn Các thuật toán điển hình là: K-medoids, CLARANS
Thuật toán phân vùng: Thuật toán phân vùng phân chia các đối tượng dữ liệu thành các nhóm nhỏ hay cụm không chồng lấp nhau, tức là mỗi đối tượng dữ liệu nằm trong một cụm riêng Các thuật toán điển hình là: K-means, Diana, BIRCH, AGNES, CAMELEON, ROCK
Phân cụm dựa trên mật độ (density-based): thuật toán này nhóm các đối tượng theo mật độ đặc trưng của chức năng nào đó thuộc đối tượng Mật độ thường được định nghĩa là số lượng đối tượng trong một khu vực cụ thể của cơ sở dữ liệu Thuật toán này được vận hành đến khi số lượng đối tượng trong một nhóm vượt quá một tham số nào đó Vì thế thuật toán này khác với thuật toán phân vùng là thuật toán được vận hành đến khi đạt được một số lượng nhất định các cụm Các thuật toán điển hình là: DBSCAN, OPTICS, Den Clue
Phân cụm dựa trên lưới (grid-based): các thuật toán này tập trung vào các loại
dữ liệu không gian tức là dữ liệu được mô hình hóa theo cấu trúc hình học của các đối tượng trong không gian, mối quan hệ và thuộc tính của chúng Mục tiêu của thuật toán này là lượng tử hóa dữ liệu thành một số ô vuông, sau đó làm việc với các đối tượng nằm trong các ô vuông này Nói chung thuật toán này không di chuyển các dữ liệu
Trang 29dạng điểm nhưng lại tạo ra một vài mức phân cấp của nhóm các đối tượng Vì thế, thuật toán này khá gần với thuật toán phân cấp nhưng việc gộp các ô lưới, sau đó là các cụm không phụ thuộc vào các phép đo khoảng cách mà nó do các tham số định nghĩa sẵn quyết định Các thuật toán điển hình là: STING, WaveCụm, CLIQUE
Phân cụm dựa trên mô hình (model-based): Các thuật toán này tìm ra các tham
số mô hình xấp xỉ phù hợp nhất với tập dữ liệu Nó có thể là thuật toán phân vùng hoặc phân cấp, tùy theo cấu trúc hay mô hình mà các giả thuyết được đưa ra về tập dữ liệu và cách mà thuật toán này tinh chỉnh mô hình để phân vùng Các thuật toán này khá gần với phân cụm dựa trên mật độ (density-based), dựa trên nền tảng này, các cụm riêng biệt được phát triển để cải thiện các mô hình xác định Tuy nhiên, đôi khi các thuật toán này bắt đầu với một số lượng cụ thể các cụm mà chúng không sử dụng các khái niệm giống với phân cụm dựa trên mật độ (density-based) Các thuật toán điển hình là: EM, SOM, COBWEB
Phân cụm dữ liệu tuyệt đối: các thuật toán này tập trung vào các dữ liệu có bề mặt Euclide hoặc các bề mặt khác mà các pháp đo khoảng cách không thể áp dụng được Thuật toán điển hình là pCluster
1.3 Giới thiệu hệ quản trị cơ sở dữ liệu PostgreSQL
1.3.1 Giới thiệu
PostgreSQL là hệ quản trị cơ sở dữ liệu được viết theo hướng mã nguồn mở và rất mạnh mẽ Hệ quản trị cơ sở dữ liệu này đã có hơn 15 năm phát triển, đồng thời cấu trúc đã được kiểm chứng và tạo được lòng tin với người sử dụng về độ tin cậy, tính toàn vẹn dữ liệu và tính đúng đắn PostgreSQL có thể chạy trên tất cả các hệ điều hành, bao gồm cả Linux, UNIX (AIX, BSD, HP-UX, SGI IRIX, Mac OS X, Solaris, Tru64) và Windows Có hỗ trợ đầy đủ các foreign keys, joins, views, triggers, và stored procedures (trên nhiều ngôn ngữ) Hệ quản trị này còn bao gồm các kiểu dữ liệu SQL: 2008 như INTEGER, NUMBER, BOOLEAN, CHAR, VARCHAR, DATE INTERVAL và TIMESTAMPs PostgreSQL cũng hỗ trợ lưu trữ các đối tượng có kiểu
dữ liệu nhị phân lớn, bao gồm cả hình ảnh, âm thanh, hoặc video Hệ quản trị cơ sở dữ liệu này được sử dụng thông qua giao diện của các ngôn ngữ C / C + +, Java Net, Perl, Python, Ruby, Tcl, ODBC…
Hệ thống quản lý cơ sở dữ liệu đối tượng - quan hệ bây giờ được gọi là PostgreSQL có nguồn gốc từ các gói Postgres viết tại Đại học California ở Berkeley Với hơn hai thập kỷ phát triển, PostgreSQL bây giờ là cơ sở dữ liệu mã nguồn mở tiên tiến nhất, sẵn sàng ở bất cứ đâu
1.3.2 Các đặc điểm của PostgreSQL
- Hoạt động được trên nhiều hệ điều hành như: Linux, UNIX (AIX, BSD,
HP-UX, SGI IRIX, Mac OS X, Solaris, Tru64) và Windows
Trang 30- Lưu trữ (dạng nhị phân) các đối tượng có dữ liệu lớn như hình ảnh, âm thanh, hoặc video
- Hỗ trợ các ngôn ngữ như C/C++, Java, Net, Perl, Python, Ruby, Tcl, ODBC
- PostgreSQL có các tính năng phức tạp như kiểm soát truy cập đồng thời nhiều phiên bản (MVCC), khôi phục dữ liệu tại từng thời điểm (Recovery), quản lý dung lượng bảng (tablespaces), sao chép không đồng bộ, giao dịch lồng nhau (savepoints), sao lưu trực tuyến hoặc nội bộ
- PostgreSQL hỗ trợ bộ ký tự quốc tế, hỗ trợ bảng mã nhiều byte, Unicode và cho phép định dạng, sắp xếp và phân loại ký tự văn bản (chữ hoa, thường) PostgreSQL còn được biết đến với khả năng mở rộng để nâng cao cả về số lượng dữ liệu quản lý và
số lượng người dùng truy cập đồng thời Đã từng có những hệ thống PostgreSQL hoạt động trong môi trường thực tế thực hiện quản lý vượt quá 4 terabyte dữ liệu
Bảng 1.2 Các khả năng của hệ quản trị dữ liệu PostgreSQL
- Có hầu hết các truy vấn SQL với các kiểu dữ liệu như Integer, Numeric, Boolean, Char, Varchar, Date, Interval và Timestamp
- Tạo index giúp quá trình truy vấn đạt hiệu quả cao hơn
- Hỗ trợ các chức năng tìm kiếm tổng quát hóa có thể “gắn” các chỉ mục vào giúp quá trình tìm kiếm được thực hiện trên phạm vi rộng hơn như: Compound, Unique, Partial, Functional indexes
- Cho phép người dùng tạo các kiểu dữ liệu mới, các hàm, các thủ tục…
- PostgreSQL không quy định những hạn chế trong việc sử dụng mã nguồn của phần mềm nên có thể được dùng, sửa đổi và phổ biến bởi người dùng cho bất kỳ mục đích nào
- Hỗ trợ đa người dùng: dữ liệu không gian có xu hướng là các dữ liệu tham chiếu, tức là được chia sẻ bởi nhiều người dùng Lưu trữ dữ liệu trong hệ quản trị cơ
sở dữ liệu sẽ cung cấp những lợi ích như: truy cập từ xa thông qua các chuẩn giao tiếp như: JDBC, ODBC, PERL/DBI làm tăng tính bảo mật cho dữ liệu: một số người