Một số vấn đề về lưu trữ và chỉ mục trong cơ sở dữ liệu không gian Đinh Thị Hồng Huyên Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Hệ thống thông tin; Mã số: 60 48 05 Người hư
Trang 1Một số vấn đề về lưu trữ và chỉ mục trong cơ
sở dữ liệu không gian
Đinh Thị Hồng Huyên
Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS TS Đặng Văn Đức
Năm bảo vệ: 2007
Abstract: Trình bày tổng quan về hệ thống thông tin địa lý: định nghĩa hình thức về
hệ thống thông tin địa lý, các thành phần, chức năng và các ứng dụng của hệ thống thông tin địa lý Trình bày cơ sở dữ liệu không gian qua các chỉ mục không gian, truy vấn không gian, phương pháp quản trị CSDL phi không gian và không gian; Mô tả cấu trúc, các phép toán chèn, xóa, duyệt, truy vấn trên các kỹ thuật chỉ mục và tìm kiếm không gian như:cây k-d (k-d tree), cây tứ phân (quadtree), cây R (R tree) và so sánh giữa chúng; Cài đặt thử nghiệm kỹ thuật chỉ mục và tìm kiếm không gian: cây tứ phân điểm
Keywords: Công nghệ thông tin, Cơ sở dữ liệu không gian, Cấu trúc dữ liệu, Quản trị
cơ sở dữ liệu
Content
MỞ ĐẦU
Thời gian gần đây, tại Việt Nam, các hệ thống thông tin địa lý – Geographic Information System(GIS) đã bắt đầu quen thuộc và đã là nhu cầu không thể thiếu đối với hầu hết các chuyên ngành từ địa chính, đo đạc trắc địa, viễn thông cho đến du lịch, điện lực Vì GIS được thiết kế như một hệ thống chung để quản lý dữ liệu không gian, nó có rất nhiều ứng dụng trong việc phát triển đô thị và môi trường tự nhiên như là: quy hoạch đô thị, quản lý nhân lực, nông nghiệp, điều hành hệ thống công ích, lộ trình, nhân khẩu, bản đồ, giám sát vùng biển, cứu hoả và bệnh tật …Trong phần lớn lĩnh vực này, GIS đóng vai trò như là một công cụ hỗ trợ quyết định cho việc lập kế hoạch hoạt động môi trường
Tuy nhiên việc vận dụng, chọn lựa giải pháp GIS như thế nào cho phù hợp đối với từng chuyên ngành với mỗi quy mô và mức độ phức tạp riêng cũng như đáp ứng vừa đủ các yêu cầu cụ thể về GIS là điều không phải dễ dàng Việc chọn sai giải pháp GIS sẽ phải trả giá đắc cho những chi phí không đáng có hoặc sự bế tắc về tính mở, tính dễ phát triển của hệ
Trang 2thống dữ liệu địa lý Ngoài vấn đề giá cả, yếu tố hàng đầu để chọn đúng giải pháp GIS là hiểu được chiến lược quản trị cơ sở dữ liệu của các hệ GIS Bởi vì thông qua giải pháp quản trị CSDL của mỗi hệ GIS, chúng ta sẽ nắm rõ năng lực, yêu cầu cần thiết phải có của một hệ GIS như quản trị thông tin, xử lý thông tin GIS, cũng như khả năng mở, dễ phát triển, tính phổ dụng của hệ thống dữ liệu, từ đó sẽ có cách chọn lựa đúng đắn tối ưu khi sử dụng GIS vào các dự án, công việc cụ thể
Cấu trúc dữ liệu thể hiện bản chất rõ nhất của nó hệ thống GIS Biết được giải pháp quản trị CSDL của các hệ GIS là vấn đề then chốt nhất, hệ thống nhất để có thể ứng dụng GIS một cách hiệu quả và thuận tiện phát triển mở rộng Hiện nay các ràng buộc yêu cầu khi quyết định sử dụng một hệ thống GIS nào đó chủ yếu dựa vào:
- Năng lực lưu trữ, khai thác mạnh: hệ thống dữ liệu có thể quản trị dữ liệu lớn, truy xuất nhanh, nhiều tiện ích giải thuật
- Tính khai thác, sử dụng rộng rãi: dữ liệu có thể được hỗ trợ khai thác hiệu quả với nhiều tính năng trên nhiều phương diện ví dụ có thể sử dụng trên máy tính cá nhân hoặc khai thác qua mạng LAN, Internet
- Tính mở, tính tương thích, tính phổ biến của hệ thống dữ liệu: cấu trúc dữ liệu có tính mở có thể liên kết với các hệ thống dữ liệu khác và có thể phát triển mở rộng được, hệ thống dữ liệu có khả năng dễ dàng tích hợp dữ liệu từ những hệ thống khác
- Tính dễ dàng tạo lập chuyên biệt và tích hợp-tách rời: cấu trúc dữ liệu có thể dễ dàng tạo lập riêng phù hợp với mục đích sử dụng chuyên biệt dễ dàng tích hợp và tách rời
- Giá cả và khả năng triển khai dự án GIS thông suốt
Tất các các yếu tố này đều nói lên điểm mạnh yếu về giải pháp quản trị CSDL của mỗi hệ GIS, vì vậy việc khảo sát giải pháp quản trị CSDL của các hệ GIS sẽ giúp ta đưa ra các quyết định đúng về việc ứng dụng sao cho phù hợp với mỗi nhu cầu thực tế Có thể nói cấu trúc dữ liệu là phần khung và bản chất nhất của các hệ thống GIS, nó là cơ sở của các giải thuật GIS cũng như nói đến khả năng lưu trữ, khai thác, phát triển hệ thống dữ liệu Xuất phát
từ thực tế Tôi chọn đề tài “ Một số vấn đề lưu trữ và chỉ mục trong cơ sở dữ liệu không
gian”
Trong khuôn khổ một luận văn, tôi trình bày một số vấn đề cơ bản về hệ thống thông tin địa lý (GIS), hệ quản trị CSDL không gian chẳng hạn các khái niệm, kiến trúc hệ thống, các mô hình dữ liệu không gian Trong đó, tập trung nghiên cứu và cài đặt thử nghiệm một số cấu trúc lưu trữ dữ liệu không gian
Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội dung được tổ chức như sau:
Chương 1: Tổng quan về hệ thống thông tin địa lý (GIS) - Cơ sở dữ liệu không gian
Chương này trình bày tổng quan về hệ thống thông tin địa lý: định nghĩa hình thức về
hệ thống thông tin địa lý, các thành phần, chức năng và các ứng dụng của hệ thống thông tin địa lý Cơ sở dữ liệu không gian bao gồm: chỉ mục không gian, truy vấn không gian, phương
Trang 3pháp quản trị CSDL phi không gian và không gian, trong đó gồm các mô hình Vector, Raster, Topology
Chương 2: Một số kỹ thuật chỉ mục và tìm kiếm trong CSDL không gian
Chương này mô tả cấu trúc, các phép toán chèn, xoá, duyệt, truy vấn trên các kỹ thuật chỉ mục và tìm kiếm không gian như: cây k-d(k-d tree), cây tứ phân(Quadtree), cây R (R tree)
và so sánh giữa chúng
Chương 3: Cài đặt và thử nghiệm
Cài đặt thử nghiệm kỹ thuật chỉ mục và tìm kiếm không gian:cây tứ phân điểm
Chương trình được cài đặt từ cơ sở dữ liệu đã có định dạng bằng Shapefile, với ngôn ngữ lập trình C#.NET cùng với thư viện hỗ trợ SharpMap
References
Tiếng Việt
[1] PGS TS Đặng văn Đức (2001), Hệ thống thông tin địa lý, NXB Khoa học và kỹ thuật, Hà
Nội
[2] TS Đỗ Phúc (2005) , Giáo trình Chuyên đề Cơ sở dữ liệu nâng cao , Đại ho ̣c quốc gia Thành phố Hồ Chí Minh, Chương trình đào ta ̣o thạc sĩ CNTT qua mạng
[3] Jeffrey D.Ullman, Nguyên lý các hệ Cơ sở dữ liệu và Cơ sở tri thức, bản dịch Tiếng Việt
– dịch giả Trần Đức Quang, Nhà xuất bản thống kê
Tiếng Anh
[4] Aref W.G., and Samet H.: “Optimization Strategies for Spatial Query Processing”, Proc
17th Int Conf on Very Large Data Bases, Barcelona, Spain, 1991, pp 81-90
[5] Berchtold S., Böhm C., Keim D., Kriegel H.-P.: “A Cost Model For Nearest Neighbor
Search in High-Dimensional Data Space”, ACM PODS Symposium on Principles of
Database Systems, Tucson, Arizona, 1997
[6] Berchthold S., Keim D., Kriegel H.-P.: “The X-Tree: An Index Structure for
High-Dimensional Data”, 22nd Conf on Very Large Databases, Bombay, India, 1996, pp 28-39
[7] Beckmann N., Kriegel H.-P., Schneider R., Seeger B.: “The R*-tree: An Efficient and
Robust Access Method for Points and Rectangles”, Proc ACM SIGMOD Int Conf on
Management of Data, Atlantic City, NJ, ACM Press, New York, 1990, pp 322-331
[8] Ciaccia P., Patella M., Zezula P.: “M-tree: An Efficient Access Method for Similarity
Search in Metric Spaces”, Proc 23rd Int Conf on Very Large Data Bases, Athens, Greece,
1997, pp 426-435
Trang 4[9] Cyrus Shahabi, Introduction to Spatial Database Systems, Ralf Hart Hartmut Guting’s
VLDB Journal v3, n4, October 1994
[10] Ester M., Kriegel H.-P., Sander J., Xu X.: “A Density-Based Algorithm for Discovering
Clusters in Large Spatial Databases with Noise” Proc 2nd Int Conf on Knowledge
Discovery and Data Mining Portland, Oregon, AAAI Press, Menlo Park, California, 1996,
pp 226-231
[11] Ester, M., Kriegel, H.-P., Xu, X.: “A Database Interface for Clustering in Large Spatial
Databases”, Proc 1st Int Conf on Knowledge Discovery and Data Mining, Montreal,
Canada, AAAI Press, Menlo Park, California, 1995
[12] Gueting R H.: “An Introduction to Spatial Database Systems”, in: The VLDB Journal,
Vol 3, No 4, October 1994, pp.357-399
[13] Guttman A.: “R-trees: A Dynamic Index Structure for Spatial Searching“, Proc ACM
SIGMOD Int Conf on Management of Data, 1984, pp 47-54
[14] Jain A K and Dubes R C.: “Algorithms for Clustering Data,” Prentice-Hall, Inc., 1988 [15] Hanan Samet, The Design and Analysis of Spatial Data Structures, Addison-Wesley
Publishing Company, 1990
[16] Nievergelt, J., Hinterberger, H., and Sevcik, K C 1984: “The Grid file: An Adaptable,
Symmetric Multikey File Structure”, ACM Trans Database Systems 9(1), pp.38-71
[17] Schikuta, E.: “Grid clustering: An efficient hierarchical clustering method for very large
data sets”, In Proc 13th Int Conf on Pattern Recognition, Vol 2, IEEE Computer Society
Press, Los Alamitos, California, pp 101-105
[18] Von Jörg Sander (1998), Generalized Density-Based Clustering for Spatial Data
Mining