Ngoài ra các vấn đề về sai số dữ liệu không gian trong cơ sở dữ liệuGIS và khái quát về chất lượng dữ liệu GIS cũng được đề cập trong chương hai.Chương 3: PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-PHAN HỌC
XÂY DỰNG THUẬT TOÁN ĐÁNH GIÁ SAI SỐ DỮ LIỆU KHÔNG GIAN TRONG DỮ LIỆU GIS
Chuyên ngành: Hệ thống thông tin địa lý (GIS)
Mã số ngành: 2.15.04
LUẬN VĂN THẠC SĨ
Thành phố Hồ Chí Minh, tháng 07/2004
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: Tiến sĩ LÊ HOÀI BẮC.
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:
Luận văn thạc sĩ được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm 2004
Trang 3ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc
-NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: PHAN HỌC Phái: Nam
Ngày, tháng, năm sinh: 15/02/1978 Nơi sinh: Quảng NamChuyên ngành: Hệ thống thông tin địa lý (GIS) MSSV: TTĐL13.001
I TÊN ĐỀ TÀI:
XÂY DỰNG THUẬT TOÁN ĐÁNH GIÁ SAI SỐ DỮ LIỆU KHÔNG GIAN TRONG DỮ LIỆU GIS
II NHIỆM VỤ VÀ NỘI DUNG:
• Nghiên cứu tổng quan các phương pháp đánh giá sai số tiêu biểu ứngdụng trong bài toán xác định sai số dữ liệu không gian trong dữ liệu GIS
• Phân tích nguồn gốc gây ra sai số dữ liệu không gian trong dữ liệu GIS
• Phát triển phương pháp xác định sai số của lớp dữ liệu điểm so với lớpdữ liệu điểm tham chiếu
• Thiết kế giải thuật xác định sai số của lớp dữ liệu điểm so với lớp dữliệu điểm tham chiếu
• Cài đặt thuật toán xác định sai số
• Tổng kết đánh giá kết quả
Trang 4III NGÀY GIAO NHIỆM VỤ: 09/02/2004
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 09/07/2004
V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: Tiến Sĩ LÊ HOÀI BẮC
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngànhthông qua
Ngày tháng năm 2004
Trang 5LỜI CẢM ƠN
Tôi chân thành bày tỏ lòng biết ơn sâu sắc Thầy Giáo Hướng dẫn Tiến Sĩ Lê Hoài Bắc đang công tác tại Khoa Công nghệ thông tin, trường ĐH Khoa Học Tự Nhiên, ĐH Quốc Gia Tp.Hồ Chí Minh đã tận tình hướng dẫn, giúp đỡ tôi hoàn thành luận văn thạc sĩ này.
Chân thành bày tỏ lòng biết ơn Phó Giáo sư Tiến Sĩ Trần Vĩnh Phước là Giám đốc Trung Tâm Công Nghệ Thông Tin Địa Lý, trường Đại học Bách Khoa, Đại học Quốc Gia Tp.Hồ Chí Minh) đã tận tình hướng dẫn và tạo điều kiện thuận lợi trong học tập và nghiên cứu, giúp đỡ tôi hoàn thành luận văn này.
Chân thành cảm ơn Quý Thầy Cô đã tận tình giảng dạy, hướng dẫn và giúp đỡ tôi trong học tập và nghiên cứu khoa học.
Chân thành cảm ơn Phòng Đào Tạo Sau Đại Học, Trung Tâm Công Nghệ Thông Tin Địa Lý, trường Đại học Bách Khoa Tp Hồ Chí Minh đã tạo điều kiện tốt cho tôi về trang thiết bị và tài liệu học tập trong suốt khóa học.
Chân thành cám ơn đồng nghiệp, các bạn học viên cao học GIS và gia đình đã ủng hộ, giúp đỡ tôi trong học tập và thực hiện luận văn tốt nghiệp này.
Phan Học.
Trang 6TÓM TẮT LUẬN VĂN THẠC SĨ
Nội dung trình bày của luận văn thạc sĩ bao gồm bốn chương:
Chương 1: GIỚI THIỆU
Chương một trình bày lý do chọn đề tài, mục tiêu của đề tài, đối tượng vàphạm vi nghiên cứu, giới thiệu tổng quan tình hình nghiên cứu trong nước vàtrên thế giới có liên quan đến đề tài, nội dung và phương pháp nghiên cứu, ýnghĩa khoa học và thực tiễn của đề tài
Chương 2: CƠ SỞ LÝ THUYẾT
Nội dung chính được giới thiệu trong chương này bao gồm cơ sở định vịcác thực thể không gian trên bề mặt trái đất, các hệ thống toạ độ Lý thuyết kháiquát về tương quan liên quan đến nội dung của đề tài cũng được giới thiệu trongphần này Ngoài ra các vấn đề về sai số dữ liệu không gian trong cơ sở dữ liệuGIS và khái quát về chất lượng dữ liệu GIS cũng được đề cập trong chương hai.Chương 3: PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍChương ba giới thiệu khái quát về lớp dữ liệu điểm và sai lệch vị trí trênlớp dữ liệu điểm Nghiên cứu phương pháp biểu diễn các đặc tính vị trí của lớpdữ liệu điểm phục vụ cho bài toán đánh giá sai lệch vị trí của lớp dữ liệu điểm.Dựa trên cơ sở phân tích ý nghĩa và khả năng ứng dụng của các thuật toántương quan xét cho hàm thực trong miền liên tục và miền rời rạc, hàm phứctrong miền liên tục và miền rời rạc đề tài được phát triển với ba phương phápxác định sai số vị trí giữa hai lớp dữ liệu điểm trong dữ liệu GIS Nội dungchương này còn phân tích ưu điểm và ý nghĩa của phương pháp tương quan trong
Trang 7bài toán đánh giá sai số vị trí lớp dữ liệu điểm so với các phương pháp khác,chứng minh các tính chất của tương quan trong miền số phức.
Chương 4: PHÂN TÍCH THIẾT KẾ THUẬT TOÁN ĐÁNH GIÁ SAI SỐ
VỊ TRÍ
Nội dung chương này bao gồm các giải thuật tương quan giữa hai ma trận,giải thuật tự tương quan giữa hai ma trận, giải thuật tương quan và giải thuật tựtương quan giữa hai vector trong miền số thực và số phức, giải thuật tương quancao độ giữa hai tập dữ liệu điểm, giải thuật tương quan vị trí tương đối giữa haitập dữ liệu điểm, giải thuật tương quan vị trí tuyệt đối giữa hai tập dữ liệu điểm.Nội dung chương này còn trình bày tóm lược và đánh giá các kết quả mớicủa đề tài, đề xuất một số phương hướng nghiên cứu phát triển tiếp theo
Trang 8MỤC LỤC
CHƯƠNG 1 GIỚI THIỆU 11
1.1 GIỚI THIỆU 11
1.2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU 13
1.2.1 TÌNH HÌNH NGHIÊN CỨU TRONG NƯỚC 13
1.2.2 TÌNH HÌNH NGHIÊN CỨU TRÊN THẾ GIỚI 13
1.3 MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 15
1.3.1 MỤC TIÊU CỦA ĐỀ TÀI 15
1.3.2 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 16
1.4 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 16
1.4.1 NỘI DUNG NGHIÊN CỨU 16
1.4.2 PHƯƠNG PHÁP NGHIÊN CỨU 17
1.5 Ý NGHĨA ĐỀ TÀI 17
1.5.1 Ý NGHĨA KHOA HỌC 17
1.5.2 Ý NGHĨA KINH TẾ XÃ HỘI 18
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 19
2.1 MỘT SỐ VẤN ĐỀ VỀ CHẤT LƯỢNG DỮ LIỆU KHÔNG GIAN 19
2.1.1 NGUỒN GỐC SAI SỐ 19
2.1.2 CHỈ TIÊU CHẤT LƯỢNG DỮ LIỆU 20
2.1.3 QUI ĐỊNH VỀ SAI SỐ VÀ ĐỘ CHÍNH XÁC CỦA DỮ LIỆU SỐ HOÁ 22
2.2 SAI SỐ DỮ LIỆU KHÔNG GIAN 23
2.2.1 KHÁI NIỆM LIÊN QUAN ĐẾN SAI SỐ DỮ LIỆU KHÔNG GIAN 23
2.2.2 PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ DỮ LIỆU KHÔNG GIAN 24
2.2.3 PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ TRÊN ĐỐI TƯỢNG ĐIỂM 25
Trang 92.3 LÝ THUYẾT TƯƠNG QUAN 29
2.3.1 CÁC KHÁI NIỆM VỀ TƯƠNG QUAN 29
2.3.2 TƯƠNG QUAN GIỮA HAI MA TRẬN TRONG MIỀN THỰC 31
2.3.3 MỞ RỘNG CÁC THUẬT TOÁN TƯƠNG QUAN MA TRẬN SANG MIỀN SỐ PHỨC 36
2.3.4 XÁC ĐỊNH VỊ TRÍ TƯƠNG ĐỒNG LỚN NHẤT BẰNG TƯƠNG QUAN 44
CHƯƠNG 3 PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ 47
3.1 KHÁI QUÁT LỚP DỮ LIỆU ĐIỂM 47
3.1.1 GIỚI THIỆU VỀ LỚP DỮ LIỆU ĐIỂM 47
3.1.2 SAI SỐ VỊ TRÍ TRÊN LỚP DỮ LIỆU ĐIỂM 47
3.2 YÊU CẦU VÀ CƠ SỞ PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ TRÊN TẬP DỮ LIỆU ĐIỂM 51
3.2.1 YÊU CẦU CỦA BÀI TOÁN ĐÁNH GIÁ SAI SỐ VỊ TRÍ 51
3.2.2 CƠ SỞ PHÁT TRIỂN PHƯƠNG PHÁP-THUẬT TOÁN TƯƠNG QUAN GIỮA HAI MA TRẬN 52
3.2.3 CƠ SỞ PHÁT TRIỂN PHƯƠNG PHÁP- CHUẨN NSSDA 56
3.3 PHÁT TRIỂN PHƯƠNG PHÁP ĐÁNH GIÁ SAI SỐ VỊ TRÍ GIỮA HAI TẬP DỮ LIỆU ĐIỂM 59
3.3.1 PHÁT TRIỂN PHƯƠNG PHÁP TƯƠNG QUAN CAO ĐỘ GIỮA HAI TẬP DỮ LIỆU ĐIỂM 59
3.3.2 PHÁT TRIỂN PHƯƠNG PHÁP TƯƠNG QUAN VỊ TRÍ TƯƠNG ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM68 3.3.3 PHÁT TRIỂN PHƯƠNG PHÁP TƯƠNG QUAN VỊ TRÍ TUYỆT ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM 76 CHƯƠNG 4 PHÂN TÍCH THIẾT KẾ THUẬT TOÁN ĐÁNH GIÁ SAI SỐ VỊ TRÍ 81
4.1 PHÂN TÍCH YÊU CẦU 81
4.2 PHÂN TÍCH THIẾT KẾ 82
Trang 104.2.1 GIẢI THUẬT TỔNG QUÁT TÍNH VECTOR TƯƠNG QUAN GIỮA HAI VECTOR 83
4.2.2 GIẢI THUẬT TÍNH VECTOR TỰ TƯƠNG QUAN 84
4.2.3 GIẢI THUẬT TỔNG QUÁT TÍNH MA TRẬN TƯƠNG QUAN THỰC 85
4.2.4 GIẢI THUẬT TỔNG QUÁT TÍNH MA TRẬN TƯƠNG QUAN PHỨC 86
4.2.5 GIẢI THUẬT TỔNG QUÁT TÍNH MA TRẬN TỰ TƯƠNG QUAN 87
4.2.6 GIẢI THUẬT TƯƠNG QUAN CAO ĐỘ GIỮA HAI TẬP DỮ LIỆU ĐIỂM 88
4.2.7 GIẢI THUẬT TƯƠNG QUAN VỊ TRÍ TƯƠNG ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM 89
4.2.8 GIẢI THUẬT TƯƠNG QUAN VỊ TRÍ TUYỆT ĐỐI GIỮA HAI TẬP DỮ LIỆU ĐIỂM 91
4.3 KẾT QUẢ THỰC NGHIỆM 92
4.4 KẾT QUẢ VÀ KẾT LUẬN 94
4.4.1 KẾT QUẢ ĐẠT ĐƯỢC 94
4.4.2 ƯU NHƯỢC ĐIỂM 95
4.4.3 KẾT LUẬN 95
4.5 HƯỚNG PHÁT TRIỂN 96
PHỤ LỤC 97
TÀI LIỆU THAM KHẢO 135
Trang 11Chương 1 GIỚI THIỆU
1.1 GIỚI THIỆU
Thông tin địa lý là nguồn thông tin hết sức phong phú và đa dạng Thôngtin địa lý nắm giữ vai trò quan trọng trong chiến lược bảo vệ và phát triển củamỗi quốc gia Hầu hết các lĩnh vực của đời sống xã hội đều cần đến thông tinđịa lý Đối với những ngành liên quan đến an ninh quốc gia, hoạch định đườnglối chiến lược phát triển kinh tế xã hội, quy hoạch phát triển vùng lãnh thổ tầmquốc gia và địa phương thì thông tin địa lý đóng vai trò rất quan trọng Côngnghệ và khoa học thông tin địa lý ra đời nghiên cứu những kỹ thuật, phương tiện,phương pháp nhằm đáp ứng tốt nhất những nhu cầu cấp thiết đó Công nghệthông tin địa lý là một trong nhóm những ngành công nghệ cao hiện nay đượcnhiều nước phát triển và đang phát triển quan tâm rất lớn
Hệ thống thông tin địa lý (Geographic Information System-GIS) ngày nayđược ứng dụng rộng rãi ở khắp nơi Hệ thống thông tin địa lý có chức năng biểudiễn thông tin địa lý bằng máy tính, nhập dữ liệu, lưu trữ dữ liệu, phân tích dữliệu và cung cấp thông tin cho người sử dụng Trong các bộ phận cấu thành mộthệ thống thông tin địa lý , dữ liệu là thành phần quan trọng và tốn nhiều chi phíxây dựng nhất Vào giai đoạn khởi đầu phát triển các hệ thống thông tin địa lý,dữ liệu GIS được xây dựng chủ yếu từ nguồn bản đồ giấy Dữ liệu GIS bao gồmdữ liệu không gian và dữ liệu thuộc tính Dữ liệu không gian xác định hình dạng,
vị trí của các sự vật, hiện tượng trong thế giới thực Các sự vật hiện tượng nàyđược gọi là các thực thể không gian Dữ liệu thuộc tính mô tả đặc điểm và tínhchất của các thực thể không gian
Trang 12Tuy nhiên, vì một số nguyên nhân trong quá trình số hoá dữ liệu từ cácbản đồ, các ảnh chụp, các sơ đồ, cũng như quá trình thành lập bản đồ giấy,phương pháp chụp ảnh và vẽ các sơ đồ nên dữ liệu có được sau khi số hoá chỉđạt độ chính xác nhất định Hơn nữa, khả năng khai thác cơ sở dữ liệu GIS đãmở ra nhiều hướng phát triển thuận lợi trong công tác của các cơ quan quản lýnhà nước, các thành phần kinh tế và nhân dân Một khi cơ sở dữ liệu GIS đượcsử dụng ngày càng phổ biến thì yêu cầu đặt ra ngày càng cao đối với dữ liệu đólà độ chính xác Độ chính xác của thành phần không gian trong dữ liệu GIS làmột yếu tố cần được xét đến trong quá trình đánh giá chất lượng dữ liệu GIS.Phương pháp chủ yếu được áp dụng để đánh giá độ chính xác không gian là sosánh tập dữ liệu xét với tập dữ liệu tham chiếu Tập dữ liệu tham chiếu có thể làảnh chụp, tập các điểm điều khiển mặt đất có độ chính xác cao Chính vì thế nêncần thiết phải có những nghiên cứu nhằm định lượng sai lệch vị trí của các đốitượng trong một lớp dữ liệu so với lớp dữ liệu có độ chính xác cao để trên cơ sởnày đánh giá chất lượng của lớp dữ liệu hiện có.
Đặc điểm của dữ liệu GIS là tính liên ngành và đa ngành, các lĩnh vựckinh tế xã hội hay khoa học tự nhiên đều có thể ứng dụng và khai thác hiệu quả
cơ sở dữ liệu GIS, đặc biệt là dữ liệu không gian Tuy nhiên, hiện trạng của cáclớp dữ liệu không gian đã được số hoá theo nhiều phương pháp khác nhau và đãphát sinh nhiều sai lệch so với thực tế Do đó yêu cầu xác định và đánh giá sailệch vị trí của các đối tượng không gian trong các hệ thống thông tin địa lý trởnên rất cần thiết Yêu cầu về chất lượng dữ liệu là mối quan tâm hàng đầu tronghệ thống thông tin địa lý, dữ liệu kém tin cậy dẫn đến kết quả của bài toán phântích bị sai hoặc thiếu chính xác và hậu quả sẽ rất lớn nếu quyết định đưa rakhông đúng đắn Bài toán kiểm soát sai lệch của các đối tượng không gian và
Trang 13không ngừng tăng độ chính xác dữ liệu là vấn đề cấp bách và thường xuyên đốivới các chuyên gia trong ngành.
1.2 TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU
1.2.1 Tình hình nghiên cứu trong nước
Ở Việt Nam vấn đề chất lượng dữ liệu đã được các tổ chức quan tâm từrất sớm, tuy nhiên do tính chất mới mẻ của ngành nên các công trình nghiên cứuliên quan đến bài toán đánh giá sai số dữ liệu cho đến nay vẫn chưa có Trongnhững năm gần đây vấn đề chất lượng dữ liệu được nhìn nhận là một tiêu chuẩnquan trọng nhất trong các ứng dụng GIS Một trong những thành phần của chấtlượng dữ liệu là độ chính xác vị trí (không gian) của dữ liệu GIS
1.2.2 Tình hình nghiên cứu trên thế giới
Trên thế giới, các nhà khoa học đã công bố những công trình nghiên cứuđánh giá sai số dữ liệu không gian ứng dụng các phương pháp đánh giá khácnhau
Phương pháp đánh giá chất lượng dữ liệu không gian dựa trên cơ sở sosánh hai mô hình ngẫu nhiên tương ứng với hai tập dữ liệu là kết quả của côngtrình [1] Phương pháp đánh giá sai số trong bài báo này được xây dựng dựa trênmô hình ngẫu nhiên để xác định mức độ khác nhau giữa hai tập dữ liệu, mỗi tậpdữ liệu được biểu diễn bằng một quá trình ngẫu nhiên trong không gian haichiều hoặc không gian ba chiều
Một phương pháp đánh giá sai số khác được trình bày trong bài báo [7].Nội dung bài báo đã đề xuất một mô hình xác định sai số trong quá trình hiệu
Trang 14chỉnh và phân tích dữ liệu bằng các phép toán topology Tính bất định của cácphép toán topology là một trong nhiều tác nhân tạo nên sự thiếu chính xác củadữ liệu Công trình này phân tích đặc điểm không chắc chắn về topology của dữliệu không chính xác và xây dựng mô hình tính sai số dựa vào ma trận hiệpphương sai của tập hợp điểm xử lý topology nhằm giúp người dùng phân tích vàhiểu được ảnh hưởng của sai số trong quá trình sử dụng dữ liệu.
Một công trình khác có tên [5] Mô hình các thành phần sai số không gian(spatial error components model SEC) được đề xuất để ước lượng sai số khônggian Phương pháp được thực hiện bằng cách thiết lập các ma trận phương sai-hiệp phương sai của sai số theo một mô hình hồi quy tuyến tính Các phươngpháp kiểm định thống kê được áp dụng để ước lượng sai số không gian: kiểmđịnh Kelejian-Robinson, kiểm định GMM-Based, kiểm định Lagrange Multiplier.Một kết quả khác được trình bày trong bài báo [2] Ý tưởng cơ bản dựatrên việc mở rộng các phương pháp kiểm định Breusch và Pagan LM kết hợp vớimô hình sai số không gian Phương pháp kiểm định thống kê kết hợp được ápdụng đồng thời để ước lượng tương quan sai số không gian Phương pháp này có
ý nghĩa quan trọng vì nó có xét đến tương quan không gian trong quá trình đánhgiá sai số không gian
Tóm lại, bài toán đánh giá sai số dữ liệu không gian trong dữ liệu GISđang được các nhà khoa học rất quan tâm, nhiều phương pháp đánh giá sai sốkhác nhau được phát triển Các phương pháp đánh giá sai số dữ liệu không gianđược tổng quát hoá thành các nhóm chính: phương pháp trung bình bình phươngnhỏ nhất, phương pháp thống kê, phương pháp tương quan Tuy có nhiều phươngpháp đánh giá sai số được phát triển nhưng các chuẩn về chất lượng dữ liệu GIS
Trang 15vẫn sử dụng hai phương pháp đánh giá sai số vị trí chủ yếu là phương pháp sai sốtrung bình phương RMSE và phương pháp tỷ lệ các điểm sai lệch Error Ratio.Phương pháp RMSE có ưu điểm thể hiện ở khả năng đánh giá sai số trên phạm
vị toàn bộ tập dữ liệu điểm so với tập dữ liệu tham chiếu Tuy nhiên hạn chế củaphương pháp này là không thể phát hiện sai lệch hệ thống tồn tại giữa tập dữliệu kiểm tra và tập dữ liệu tham chiếu Phương pháp tỷ lệ các điểm sai lệchphát hiện được phần trăm số điểm có sai lệch không vượt quá giá trị sai lệchngưỡng Nhưng nhược điểm của phương pháp này là không đánh giá được mứcđộ sai lệch vị trí tuyệt đối giữa hai tập dữ liệu điểm và sai lệch hệ thống tồn tạigiữa chúng
Đề tài nghiên cứu tập trung vào nghiên cứu phương pháp tương quan đượcứng dụng rất phổ biến trong nhiều lĩnh vực nhằm phát triển các bài toán đánhgiá sai lệch vị trí giữa hai tập dữ liệu điểm Phương pháp tương quan vị trí tuyệtđối cho phép đánh giá sai lệch vị trí tuyệt đối trên phạm vi toàn cục của lớp dữliệu kiểm tra so với lớp dữ liệu tham chiếu Phương pháp tương quan vị trí tươngđối cho phép phát hiện sai lệch hệ thống tồn tại giữa hai tập dữ liệu Do vậy,việc áp dụng phương pháp tương quan vào bài toán đánh giá sai lệch vị trí giữahai tập dữ liệu điểm có khả năng khắc phục được các nhược điểm của cácphương pháp đánh giá sai số nêu trên
1.3 MỤC TIÊU, ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
1.3.1 Mục tiêu của đề tài
Mục đích của đề tài là phát triển thuật toán xác định sai lệch vị trí của cácđối tượng điểm trên một lớp dữ liệu không gian dạng điểm so với lớp dữ liệu có
Trang 16độ chính xác cao hơn, làm tiền đề cho việc phát triển những thuật toán nắn chỉnhtập dữ liệu điểm hiện hữu về tập dữ liệu có độ chính xác cao hơn.
1.3.2 Đối tượng và phạm vi nghiên cứu
Đề tài nghiên cứu phát triển phương pháp xác định sai lệch vị trí của dữliệu không gian trong cơ sở dữ liệu GIS
Dữ liệu không gian trong cơ sở dữ liệu GIS bao gồm nhiều loại khác nhauvà được tổ chức theo nhiều định dạng, đề tài giới hạn nghiên cứu giải thuật xácđịnh sai số vị trí của một lớp dữ liệu điểm so với lớp dữ liệu điểm tương ứng cóđộ chính cao hơn được gọi là lớp dữ liệu tham chiếu
1.4 NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
1.4.1 Nội dung nghiên cứu
Đề tài bao gồm các nội dung nghiên cứu:
• Nghiên cứu tổng quan các phương pháp đánh giá sai số tiêu biểu ứngdụng trong bài toán xác định sai số dữ liệu không gian trong dữ liệu GIS
• Phân tích nguồn gốc gây ra sai số dữ liệu không gian trong dữ liệu GIS
• Phát triển phương pháp xác định sai số của lớp dữ liệu điểm so với lớpdữ liệu điểm tham chiếu
• Thiết kế giải thuật xác định sai số của lớp dữ liệu điểm so với lớp dữliệu điểm tham chiếu
• Cài đặt thuật toán xác định sai số
• Tổng kết đánh giá kết quả
Trang 171.4.2 Phương pháp nghiên cứu
Đề tài tiếp cận các phương pháp cứu sau đây:
Phương pháp tương quan trên miền thực rời rạc trong bài toán xác định saisố
Phương pháp tương quan trên miền phức rời rạc trong bài toán xác địnhsai số
Phương pháp tương quan ứng dụng trong lĩnh vực nhận dạng của xử lý ảnh,phương pháp tương quan đánh giá mức độ tương đồng giữa hai tín hiệu và giữahai ảnh
Phương pháp biểu diễn dữ liệu GIS
1.5 Ý NGHĨA ĐỀ TÀI
1.5.1 Ý nghĩa khoa học
Dữ liệu là thành phần quan trọng nhất trong các hệ thống thông tin địa lý,
do đó yêu cầu đánh giá một cách định lượng về chất lượng dữ liệu của hệ thốnglà vấn đề rất cần thiết Kết quả nghiên cứu của đề tài có thể mở ra hướng triểnkhai ứng dụng nhằm kiểm soát sai lệch vị trí các đối tượng không gian trong cáclớp dữ liệu của hệ thống thông tin địa lý Với công nghệ tích hợp GPS-RS-GIS,chúng ta có thể tạo được những tập dữ liệu điểm có độ chính xác cao phục vụcho các bài toán đánh giá sai lệch vị trí các đối tượng không gian
Kết quả của đề tài mở ra nhiều hướng nghiên cứu mới về chất lượng dữliệu của hệ thống thông tin địa lý
Trang 181.5.2 Ý nghĩa kinh tế xã hội
Chi phí để bảo dưỡng và duy trì dữ liệu trong các hệ thống thông tin địa lýlà rất lớn Quy trình cập nhật dữ liệu không gian đòi hỏi nhiều trang thiết bị vàphương pháp thực hiện Đề tài phát triển các thuật toán cho phép những người cóliên quan đến hệ thống xác định được thông tin về chất lượng không gian củanguồn dữ liệu đang sử dụng Dựa vào đó, họ có thể phát triển các phương pháphiệu chỉnh cập nhật dữ liệu có hiệu quả cao, tiết kiệm chi phí
Trang 19Chương 2 CƠ SỞ LÝ THUYẾT
2.1 MỘT SỐ VẤN ĐỀ VỀ CHẤT LƯỢNG DỮ LIỆU KHÔNG GIAN
2.1.1 Nguồn gốc sai số
2.1.1.1 Sai số trong quá trình thu thập dữ liệu
Sai số phát sinh trong quá trình thu thập dữ liệu từ thế giới thực Sai sốnày phát sinh do sự hạn chế về độ chính xác của thiết bị đo vẽ và thao tácnghiệp vụ của người thực hiện
Sai số tồn tại trong các tư liệu sử dụng làm nguồn dữ liệu đầu vào Nếu cơsở dữ liệu hệ thống thông tin địa lý được khởi tạo từ việc số hoá bản đồ là chínhthì chất lượng bản đồ là nguyên nhân chủ yếu gây ra sai số trong các lớp dữ liệusau khi số hoá Nếu cơ sở dữ liệu được xây dựng từ ảnh viễn thám thì chất lượngảnh đầu vào, phương pháp phân tích xử lý dữ liệu là nguyên nhân chính gây rasai số của dữ liệu
2.1.1.2 Sai số trong quá trình khởi tạo dữ liệu
Sai số còn phát sinh do sự thiếu chính xác trong quá trình số hoá Quytrình số hoá thủ công hay tự động đều gây ra sai số trên các đối tượng đượcvector hoá Sai số này phát sinh do quá trình quét ảnh, độ phân giải màn hình,khả năng nhận dạng và vẽ đối tượng
Sai số vốn có trên các thực thể địa lý Các thực thể địa lý trong thế giớithực là một hình khối phức tạp Trong khi đó, việc thể hiện toàn bộ các đặc tính
Trang 20không gian của mỗi đối tượng là điều không thể thực hiện được Việc biểu diễnquy ước các đối tượng sẽ gây ra sai số đáng kể.
2.1.1.3 Sai số trong quá trình lưu trữ dữ liệu
Sai số trong quá trình lưu trữ dữ liệu bao gồm sự thiếu chính xác trong lưutrữ các giá trị số Sự thiếu chính xác trong việc lưu trữ các giá trị về mặt khônggian
2.1.1.4 Sai số trong quá trình thao tác dữ liệu
Sai số trong quá trình phân tích dữ liệu bao gồm:phân lớp không thíchhợp; sai số trên các đường ranh giới; sai số phát sinh trong quá trình chồng lớp;sai số do quá trình phân tích topology
2.1.2 Chỉ tiêu chất lượng dữ liệu
2.1.2.1 Những thành phần của chất lượng dữ liệu
Thành phần của chất lượng dữ liệu bao gồm những thành phần ở mức vimô và những thành phần ở mức vĩ mô Những thành phần ở mức vi mô : độchính xác vị trí, độ chính xác thuộc tính, độ kiên định hợp lý và độ phân giải Độ chính xác vị trí là độ sai lệch về vị trí của một đối tượng không giantrong tập dữ liệu so với vị trí đúng của nó trên mặt đất Thông thường người takiểm tra bằng cách chọn ra những điểm tiêu biểu cho tập dữ liệu và so sánh toạđộ vị trí của nó so với nguồn dữ liệu có độ chính xác cao hơn Có hai yếu tố đểđánh giá độ chính xác vị trí là độ sai lệch hệ thống và độ sai lệch ngẫu nhiên.Độ sai lệch ngẫu nhiên ảnh hưởng trên từng vị trí và được đánh giá bằng cáchtính độ lệch chuẩn của những điểm được chọn để kiểm tra
Trang 21Độ chính xác thuộc tính bao gồm thông tin biểu diễn sai lệch của dữ liệuthuộc tính biểu diễn các đối tượng trong cơ sở dữ liệu.
Tính hợp lý xét đến sự quan hệ hợp lý giữa các đối tượng trong khônggian Thí dụ, bìa rừng không thể lấn vào mặt đường giao thông, bờ hồ thường ởcạnh hồ, mặt đường giao thông không thể lấn xuống sông
Tính kiên định nhằm thống nhất dữ liệu trong những trường hợp nguồn dữliệu được thu thập không khớp nhau Thí dụ như mực nước hồ thay đổi tại nhữngthời điểm khác nhau sẽ cung cấp nguồn dữ liệu khác nhau và hệ thống thông tinđịa lý cần xác định một giá trị dữ liệu
Những thành phần mức vĩ mô:
Chất lượng dữ liệu còn được đánh giá ở mức tổng quát, toàn tập dữ liệugồm 3 thành phần ở mức vĩ mô: tính đầy đủ, tính thời gian và tính kế thừa.Tính đầy đủ của cơ sở dữ liệu địa lý được xem xét ở mức độ đầy đủ chitiết của dữ liệu, mức độ đầy đủ các lớp dữ liệu Đối với mỗi lớp dữ liệu, tính đầyđủ thể hiện ở khả năng sẵn sàng cung cấp dữ liệu không gian và thuộc tính đếnmức chi tiết theo yêu cầu Sự đầy đủ các lớp dữ liệu và chứng thực dữ liệu lànhững hệ số chất lượng quan trọng để xác định tính thích hợp của tập dữ liệu đốivới ứng dụng
Tính thời gian: khi dùng nhiều loại dữ liệu địa lý khác nhau, yếu tố thờigian rất quan trọng Dữ liệu về dân số rất nhạy với thời gian, nó luôn luôn biếnđộng Đất đai thay đổi mục đích sử dụng nhanh chóng trong vùng có tốc độ đôthị hoá cao Nhiều loại dữ liệu khác cũng thay đổi theo thời gian, có những loạidữ liệu vừa được cập nhật cũng có sự khác biệt so với thế giới thực tế
Trang 22Đối với những loại dữ liệu địa lý thay đổi nhanh thì thời điểm thu thập dữliệu là một thuộc tính quan trọng mà khi thiết kế cơ sở dữ liệu địa lý cũng nhưkhi tích hợp nhiều lớp dữ liệu, yếu tố thời gian phải được quan tâm đầy đủ.Tính kế thừa xác định nguồn gốc dữ liệu và tiến trình xử lý để tạo ra tậpdữ liệu Tài liệu về tính kế thừa giúp người sử dụng dữ liệu có sự chọn lựa thíchhợp vì nguồn gốc dữ liệu sẽ xác định tính đúng đắn của dữ liệu, tiến trình xử lýsẽ cho người sử dụng đánh giá được độ tin cậy, sai số có thể có của dữ liệu.
2.1.3 Qui định về sai số và độ chính xác của dữ liệu số hoá
Các qui định này được trích dẫn từ cuốn “Qui định kỹ thuật số hoá bản đồđịa hình tỷ lệ 1:10000, 1:25000, 1:50000 và 1:100000” do Tổng cục Địa chínhban hành
2.1.3.1 Quy định về sai số định vị và nắn bản đồ
Sai số định vị 4 góc khung bản đồ và nắn hình ảnh theo các điểm khốngchế toạ độ trắc địa không vượt quá 0.1mm trên bản đồ; theo các điểm đối khácnhư mắt lưới kilomet, điểm tăng dày cũng không được vượt quá 0.15mm
Sai số khoảng cách từ các mắt lưới kilomet đến điểm khống chế trắc địagần nhất không vượt quá 0.15mm
Sai số kích thước của hình ảnh bản đồ sau khi nắn so với kích thước lýthuyết quy định: các cạnh góc khung (khung trong) không vượt quá 0.2 mm;đường chéo không vượt quá 0.3mm
2.1.3.2 Qui định về độ chính xác số hoá các yếu tố nội dung bản đồ
Sai số dữ liệu về vị trí của các địa vật độc lập trên bản đồ sau khi số hoákhông được vượt quá hạn sai của sai số thanh vẽ bản đồ bằng công nghệ truyền
Trang 23thống là 0.2mm so với gốc biên vẽ hoặc gốc thanh vẽ chế in (có thể kiểm trabằng cách đối chiếu bản đồ đã vector hoá với ảnh raster nắn chính xác cuối cùngtrước khi vector hoá, hoặc bằng cách xác định toạ độ, khoảng cách của các địavật trên máy tính).
2.2 SAI SỐ DỮ LIỆU KHÔNG GIAN
2.2.1 Khái niệm liên quan đến sai số dữ liệu không gian
2.2.1.1 Sai số tương đối
Sai số tương đối là giá trị sai số xác định dựa trên sai lệch khoảng cáchtương đối giữa vị trí của một đối tượng so với các đối tượng khác trong cùng mộtlớp dữ liệu Sai số tương đối đánh giá trên vị trí tương quan của một đối tượng sovới các đối tượng khác nằm quanh nó Sai số này chỉ có ý nghĩa khi các đốitượng dùng để đánh giá đã xác định và có độ chính xác cao, đồng thời vị trítương quan của đối tượng cần đánh giá với các đối tượng dùng để đánh giá ngoàithế giới thực phải được xác định trước
2.2.1.2 Sai số tuyệt đối
Sai số tuyệt đối là giá trị sai số giữa vị trí các đối tượng biểu diễn trên tậpdữ liệu so với vị trí đúng của thực thể tương ứng ngoài thế giới thực Sai số tuyệtđối phát sinh từ nhiều nguyên nhân khác nhau Mỗi điểm trên tập dữ liệu đượcxác định bằng một cặp toạ độ (x,y), đây là toạ độ của thực thể trong hệ toạ độquy chiếu địa phương Để khởi tạo các đối tượng không gian trong cơ sở dữ liệungười ta phải thực hiện nhiều quy trình thu thập và xử lý khác nhau Các quátrình này phát sinh các nguồn sai số làm cho các đối tượng không gian biểu diễntrên dữ liệu sai lệch đi so với vị trí đúng ngoài thế giới thực
Trang 242.2.1.3 Sai số ngẫu nhiên
Sai số ngẫu nhiên xuất hiện trong các kết quả thu thập là không thể tránhkhỏi trong mọi quá trình thực nghiệm Trong từng trường hợp cụ thể, sai số ngẫunhiên có thể đánh giá được khi biết phân phối xác suất của nó
Giả sử đại lượng X được đo n lần với các giá trị x1, …, xn trong đó chứa cácsai số ngẫu nhiên tương ứng δk = x k −x Nếu các sai số quan trắc δk có phân bốchuẩn và là một đại lượng liên tục thì hàm phân phối xác suất được xác định nhưsau:
( )
2 2
2
2
1 )
π σ
a x
e x
x P
x F
2
1 )
( )
π
2.2.2 Phương pháp đánh giá sai số dữ liệu không gian
2.2.2.1 Phương pháp suy diễn
Phương pháp suy diễn đánh giá các sai số tiềm ẩn xuất hiện trong mỗibước quy trình xây dựng dữ liệu và tình trạng phổ biến của các sai số này Đểthực hiện kiểm tra theo phương pháp này, người ta cần kiểm soát được sai sốtrong mỗi quy trình từ công đoạn thu thập mặt đất cho đến công đoạn cuối cùngtrong việc khởi tạo lớp dữ liệu Phương pháp này khá phức tạp, phải qua nhiềucông đoạn phân tích đòi hỏi người phân tích phải nắm rõ sơ đồ luồng dữ liệu
Trang 25trong toàn bộ quy trình và các sai số phát sinh trong mỗi bước quy trình Trongthực tế, phương pháp này không được sử dụng nhiều.
Thông thường người ta xác định độ chính xác dựa trên các nguồn sai số đãbiết, ví dụ như sau: sai số nguồn dữ liệu đầu vào: 1mm; sai số trong quá trìnhnhận dạng bản đồ để số hoá: 0.5mm; sai số trong quá trình số hoá: 0.2mm Cácnguồn sai số kết hợp một cách độc lập với nhau, do vậy có thể ước lượng tổngsai số bằng cách tính tổng bình phương của mỗi thành phần và sau đó lấy cănbậc hai
mm
E= 12+ 0 52 + 0 22 = 1 35Tổng quát, giả sử e1, e2, … , en là các thành phần sai số tương ứng với mỗicông đoạn khởi tạo dữ liệu Sai số trên lớp dữ liệu không gian được xác định nhưsau:
2 2
2 2
1 e e n e
2.2.2.2 Phương pháp so sánh với dữ liệu tham chiếu
Phương pháp này được sử dụng rộng rãi trong thực tế Đây là phươngpháp xác định sai số dựa trên việc so sánh tập điểm với tập dữ liệu tham chiếu.Tập dữ liệu tham chiếu được xác định là có độ chính xác cao hơn nhiều so vớitập dữ liệu đánh giá Đây là hướng nghiên cứu và phát triển của đề tài
2.2.3 Phương pháp đánh giá sai số vị trí trên đối tượng điểm
2.2.3.1 Đánh giá sai số theo phương pháp RMS
Phương pháp RMS là một trong những phương pháp được sử dụng phổbiến trong các bài toán đánh giá sai số như các bài toán đánh giá độ chính xác
Trang 26của định vị điểm trong không gian, các bài toán đánh giá sai số của ảnh sau khinắn chỉnh.
Giả thiết một tập điểm mẫu được trích ra từ lớp dữ liệu cần khảo sát gồm
n điểm {(X1, Y1), (X2, Y2), …, (Xn, Yn)} và tập điểm mẫu tham chiếu tương ứngvới nó được xác định từ tập dữ liệu có độ chính xác cao hơn là {(X1,ref, Y1,ref),(X2,ref, Y2,ref),… , (Xn,ref, Yn,ref)} Sai số RMS trên tập dữ liệu được xác định theocông thức sau:
n
Y Y X
X RMSE
n
i
i i ref i i
∑
=
− +
−
= 1
2 ref , 2
,
(2.4)
2.2.3.2 Đánh giá sai số theo phương pháp thống kê
Phương pháp thống kê được áp dụng rộng rãi trong khoa học kỹ thuật đểđánh giá sai số và tìm kết quả tốt nhất của phép đo Để thực hiện một phépthống kê trên kết quả đo, người ta phải thực hiện thêm nhiều phép thử nhằmxác định một đại lượng nào đó thay vì đo một lần duy nhất Các trị đo từ cácphép thử này được gọi là các trị đo dư thừa Các trị đo dư thừa này có ý nghĩađặc biệt quan trọng trong việc đánh giá sai số của phép đo và tìm ra giá trị tốtnhất cho đại lượng cần đo được dự đoán là gần với giá trị chính xác nhiều nhất.Xét trên dữ liệu không gian, một lớp dữ liệu được xem là đúng chính xác
so với một lớp dữ liệu tham chiếu có độ chính xác cao hơn khi mọi đối tượngnằm trên lớp dữ liệu đó có cùng toạ độ với các đối tượng tương ứng được biểudiễn trên lớp dữ liệu tham chiếu Để đánh giá sai số trong trường hợp này, tachọn ra một tập n điểm mẫu (n đủ lớn) tương ứng với việc thực hiện n phép đotrên lớp dữ liệu Tập điểm mẫu được chọn phải được xác định trực tiếp trên lớp
Trang 27dữ liệu tham chiếu Xác định khoảng cách độ lệch giữa điểm mẫu trên lớp dữliệu cần khảo sát và lớp dữ liệu tham chiếu Rõ ràng nếu lớp dữ liệu cần khảosát không lệch so với lớp dữ liệu tham chiếu (không chứa sai số) thì giá trị đođược bằng 0 Đây là điều kiện lý tưởng, trong thực tế sai số trên các lớp dữ liệukhông bao giờ đạt đến độ chính xác tuyệt đối.
Sau mỗi lần thực hiện một phép thử cho mỗi cặp điểm mẫu, ta xác địnhđược một giá trị sai số Đây là độ lệch giữa giá trị đo được trên lớp dữ liệu cầnkhảo sát so với lớp dữ liệu tham chiếu Trong trường hợp tập điểm mẫu trên cảhai lớp dữ liệu có toạ độ trùng với nhau thì giá trị nhận được bằng 0 Trongtrường hợp này ta nói lớp dữ liệu khảo sát có mức độ chính xác tương đương vớilớp dữ liệu tham chiếu
Kết quả của việc khảo sát trên tập n điểm mẫu ta có được n giá trị sai sốtương ứng với mỗi cặp điểm mẫu Phân bố xác suất của sai số này tuân theo quyluật phân bố chuẩn Đối với các lớp dữ liệu được khởi tạo từ bản đồ giấy thì saisố từ mỗi điểm là sai số ngẫu nhiên trong quá trình thành lập bản đồ và quá trìnhsố hoá bản đồ, đối với các lớp dữ liệu được khởi tạo trực tiếp từ các kết quả đongoài thực địa thì sai số trên đó là sai số ngẫu nhiên trong những lần đo trên cácđiểm
Phương pháp thống kê sử dụng các quy luật phân bố chuẩn để đánh giásai số trên lớp dữ liệu thông qua việc xây dựng tập điểm mẫu Xét một tập mẫubất kỳ được trích từ lớp dữ liệu Phương pháp thống kê sẽ tính và thống kê cácsai số dựa trên khoảng cách độ lệch của từng điểm so với một tập mẫu kháctương ứng với chúng được lấy từ lớp dữ liệu tham chiếu có độ chính xác cao hơn.Từ đó so sánh với các tiêu chuẩn quy định để đánh giá chất lượng lớp dữ liệu
Trang 28Giả sử một tập điểm mẫu trích từ lớp dữ liệu cần khảo sát {(x1, y1), (x2,
y2),… , (xn, yn)} Và tập điểm mẫu tham chiếu tương ứng được xác định từ tập dữliệu tham chiếu có độ chính xác cao hơn là {(x’1, y’1), (x’2, y’2), …, (x’n, y’n)}.Xác định sai số của tất cả các điểm theo công thức sau:
2 2
) ' ( ) '
d n
2 1
2 2
d n
Độ lệch quân phương trong trường hợp này được xác định như sau:
2 1 2
d n m
Và xác suất xuất hiện sai số:
( )
dt e d
P x F
π
Trang 292.2.3.3 Phương pháp tương quan
Phương pháp RMS và phương pháp thống kê chỉ xét đến độ sai lệch củalớp dữ liệu này so với lớp dữ liệu khác dựa trên độ sai lệch về các toạ độ trêntập điểm mẫu Phương pháp này có thể được dùng để xác định và đánh giá saisố một cách chính xác bằng các phép tính đơn giản Tuy nhiên các phương phápnày không xét đến mối tương quan theo sự phân bố các đối tượng trên lớp dữliệu như trường hợp sai số do độ lệch về hệ quy chiếu là một trường hợp thườnggặp trong thực tế Phương pháp tương quan trên ma trận khoảng cách không đivào xác định sai số trên từng tập điểm mẫu cụ thể Các ma trận khoảng cáchđược xây dựng độc lập trên mỗi tập mẫu và hoàn toàn không xác định độ lệchvề toạ độ trên mỗi cặp điểm như phương pháp RMS và phương pháp thống kê.Khi hai tập điểm mẫu không giống nhau hoàn toàn thì hai ma trận khoảng cáchthiết lập trên mỗi tập điểm mẫu sẽ khác nhau Tuỳ theo độ sai lệch nhiều hay ítmà hệ số tương quan nhận được sẽ có giá trị cụ thể Từ những giá trị này ta xácđịnh được mức độ sai khác trên tập dữ liệu khảo sát so với tập dữ liệu mẫu và từđó đánh giá sai số của lớp dữ liệu cần khảo sát so với lớp dữ liệu tham chiếu
2.3 LÝ THUYẾT TƯƠNG QUAN
2.3.1 Các khái niệm về tương quan
Tương quan giữa hai hàm liên tục f(x) và g(x) ký hiệu là f(x)o g(x) vàđược xác định
α α
α g x d f
x g x
f( ) o ( ) =∫−+∞∞ *( ) ( + ) (2.10)
Trang 30Trong đó f* ( α ) là liên hợp phức của f ( α ) Trong miền rời rạc tươngquan được cho bởi
∑−
=
+
= 10
* ( ) ( ) 1
) ( ) (
M
m
e e e
M x g x
Với x=0,1,2,…,M-1
Tương quan của hai hàm f(x) và g(x) khác nhau thường được gọi là tươngquan chéo, còn tương quan xác định cho hai hàm f(x) và g(x) giống nhau đượcgọi là tự tương quan
Tương quan giữa hai hàm hai biến liên tục f(x,y) và g(x,y) ký hiệu làf(x,y)o g(x,y) và được định nghĩa:
β α β α β
α g x y d d f
y x g y x
∞
−
+ +
= ( , ) ( , ) )
, ( ) ,
Trong đó f*( α , β ) là liên hợp phức của f ( α , β )
Trong miền rời rạc tương quan giữa hai hàm được cho bởi
0
* 1 0
) , ( ) , (
1 ) , ( ) , (
N
n
e e
M
m e
MN y
x g y x
Với x=0,1,2,…,M-1 và y=0,1,2,…,N-1
Trong cả hai trường hợp tương quan trong miền liên tục và rời rạc đềuthoả mãn f(x,y) og(x,y) ⇔F* (u,v).G(u,v) (2.14) Tính chất này có ý nghĩa quantrọng ở chỗ phép tính tương quan trong miền không gian với độ phức tạp cao cóthể chuyển sang các phép tính gián tiếp trong miền tần số nhờ các phép biến đổiFourier thuận và ngược
Trang 312.3.2 Tương quan giữa hai ma trận trong miền thực
Cho hai ma trận W(m,n) và T(m,n) có kích thước MxN Ma trận tươngquan RWT(k,l) của hai ma trận này được định nghĩa như sau:
( )
) 0 , 0 ( ).
0 , 0 (
) , ( ,
TT WW
WT WT
R R
l k R l
k
Nếu hệ số tương quan giữa ma trận T và W bằng 1 thì T là thành phần của
W hoặc ngược lại, nghĩa là T và W giống nhau
Độ phức tạp của thuật toán tính ma trận tương quan
Trang 32Ma trận tương quan của hai ma trận số thực cũng là một ma trận số thựcmà mỗi phần tử của ma trận tương quan ở vị trí (k,l) được tính bằng một số phépnhân và cộng như sau.
•RWT(0,0) cần M.M phép nhân và M.M-1 phép cộng
•RWT(-1,0) cần (M-1).M phép nhân và M.(M-1)-1 phép cộng
•RWT(-2,0) cần (M-2).M phép nhân và M.(M-2)-1 phép cộng
•RWT[-(M-1),0] cần (1.M) phép nhân và (M-1) phép cộng
•RWT(1,0) cần (M-1).M phép nhân và M.(M-1)-1 phép cộng
Trang 33•RWT(2,0) cần (M-2).M phép nhân và M.(M-2)-1 phép cộng.
•RWT[(M-1),0] cần (1.M) phép nhân và (M-1) phép cộng
Số phép nhân bằng M2 +2[1.M+2.M+ +(M-2).M+(M-1).M]=M3.Số phép cộng bằng M3 +2(M-1)+1=M3-2M+1
Cho l=1, k∈ [-(M-1), (M-1)] tính
•RWT(0,1) cần (M-1).M phép nhân và M.(M-1)-1 phép cộng
•RWT(-1,1) cần (M-1).(M-1) phép nhân và (M-1).(M-1)-1 phép cộng
RWT(-2,1) cần (M-2).(M-1) phép nhân và (M-2).(M-1)-1 phép cộng
RWT[-(M-1),1] cần 1.(M-1) phép nhân và (M-1) -1phép cộng
•RWT(1,1) cần (M-1).(M-1) phép nhân và (M-1).(M-1)-1 phép cộng
RWT(2,1) cần (M-2).(M-1) phép nhân và (M-2).(M-1)-1 phép cộng
RWT[(M-1),1] cần 1.(M-1) phép nhân và (M-1) -1phép cộng
Số phép nhân:
M(M-1)+2[(M-1) (M-1)+(M-2) (M-1)+ +1.(M-1)]=M2(M-1)
Số phép cộng:
M2(M-1)+2(M-1)+1=M2(M-1)-2M+1
Trang 34
Tương tự cho l=M-1, k∈[-(M-1), (M-1)]:
Số phép nhân: M2[M-(M-1)]=M2
Số phép cộng: M2-2M+1
Số phép nhân và số phép cộng trong từng trường hợp l=-1, -2,… ,-(M-1)lần lượt bằng số phép nhân và số phép cộng trong từng trường hợp l=1, 2,…, M-1
Do đó:
•Tổng số phép nhân: M3 +2[M2 (M-1)+ M2 (M-2)+ +M2]=M4
•Tổng số phép cộng: M4- (2M-1)2
n m
l n k m T n m W
n m n
m
l n k m T n
m W
Trang 35= A2R WW( 0 , 0 ) +R TT( 0 , 0 ) + 2A.R WT(k,l)
A R
A l k R A
R WW( 0 , 0 ) 2 + 2 WT( , ) + TT( 0 , 0 ) ≥ 0 , ∀
Suy ra:
0)0,0()
0,0()
,(
2 − WW TT ≤
WT k l R R R
) 0 , 0 ( ).
0 , 0 ( )
, (
2
TT WW
WT k l R R
1 ) 0 , 0 ( ).
0 , 0 (
) , (
≤
TT WW
WT
R R
l k R
1)l,k(
=
n m
=
n m
n m T n l n m k m
CT( 0, 0) ( , )
) , (k m0 l n0
n n m m T
C2 2( 0, 0)
) 0 , 0 (
2
TT
R C
=
)0,0()
0,0(
),()
,
WT
R R
l k R l
k
Trang 36) 0 , 0 ( ).
0 , 0 (
) , (
2
0 0
TT TT
TT
R R
C
n l m k
=
) 0 , 0 (
), ,
Trong trường hợp hai ma trận đối sánh tương quan biểu diễn hai ma trậnảnh tương ứng, giá trị các phần tử này biểu diễn mức xám của các pixel ảnh thìthuật toán tương quan được gọi là tương quan ảnh số (image digital correlation ).Thuật toán tương quan được áp dụng trong bài toán đối sánh hai ảnh để dò tìm vịtrí pixel mà tại đó tương quan giữa hai ảnh là lớn nhất (vị trí mà hai ảnh khichồng khít độ tương đồng là lớn nhất) và đánh giá mức độ tương đồng giữa haiảnh Nếu hệ số tương quan QWT(m0, n0) = 1 thì hai ảnh được xem là giống nhautại vị trí (m0, n0)
2.3.3 Mở rộng các thuật toán tương quan ma trận sang miền số phức
Thuật toán tương quan được trình bày ở phần trên áp dụng cho hai ma trậncó giá trị của mỗi phần tử thuộc miền trị số thực Các tính chất của thuật toántương quan trong miền giá trị thực được mở rộng sang miền số phức Có thể tómlược tiến trình phát triển của các phương pháp tương quan từ các thuật toán tươngquan tác động lên hai hàm thực liên tục rồi sang hai hàm số phức, từ miền trị
Trang 37thực và phức liên tục thuật toán tương quan được mở rộng sang miền trị thực vàphức rời rạc.
Lý thuyết tương quan đầu tiên được áp dụng trong miền liên tục, đó làthuật toán tương quan giữa hai hàm liên tục Thuật toán tương quan tổng quátđược áp dụng trong miền trị phức như đã trình bày ở phần trên Do miền số thựclà trường hợp riêng của miền số phức, miền rời rạc là trường hợp riêng của miềnliên tục nên tương quan giữa hai hàm phức liên tục mang ý nghĩa tổng quát, cáctính chất của chúng được áp dụng trong mọi trường hợp tương quan riêng khác.Rõ ràng ý nghĩa của biểu thức tích phân trong hàm tương quan thể hiệntác động lên hai hàm liên tục trên miền xác định của nó Đối với miền trị rời rạcdấu tích phân sẽ được thay thế bằng biểu thức tổng rời rạc tương ứng, hệ thứctương quan giữa hai ma trận thể hiện tính chất này:
Biểu thức tổng ∑ trong miền rời rạc tương ứng với biểu thức tích phân
∫ trong miền liên tục Mỗi cặp phần tử trong ma trận rời rạc
),(
Tương quan giữa hai hàm hai biến liên tục f(x,y) và g(x,y) ký hiệu làf(x,y)o g(x,y) và được định nghĩa:
Trang 38β α β α β
α g x y d d f
y x g y x
∞
−
+ +
= ( , ) ( , ) )
, ( ) ,
Trong đó f*( α , β ) là liên hợp phức của f ( α , β )
Trong miền rời rạc tương quan được cho bởi
) , ( ) , (
1 ) , ( ) , (
N
n
e e
M
m e
MN y
x g y x
Với x=0,1,2,…,M-1 và y=0,1,2,…,N-1 Dựa vào kết quả này có thể mở rộngthuật tương quan giữa hai ma trận phức, ma trận phức được định nghĩa là ma trậnvới mỗi phần tử có giá trị phức Với W(m, n) và T(m, n) là các ma trận phức thì
ma trận tương quan của hai ma trận W và T được định nghĩa theo hệ thức tổngquát:
l)(k,
) , ( ) 1 , 1 (
*
WT (k, l) ( , ) ( , ) R
N k N Min
k Max m
N l N Min
l Max n
l n k m T n m
Trong đó k∈ [ − (M − 1 ), (M − 1 )];l∈ [ − (N − 1 ), (N − 1 )] Tại vị trí {k = 0 ;l= 0}
phần tử của ma trận tương quan đạt giá trị bằng:
0)(0,
n
n m T n m W
Trang 39W( , ) ( , ) l)
) , ( ) 1 , 1 (
*
WW (k, l) ( , ) ( , )
R
N k N Min
k Max m
N l N Min
l Max n
l n k m W n m W
n
n m W n m W
n mn
T( , ) ( , ) l)
) , ( ) 1 , 1 (
*
TT (k, l) ( , ) ( , ) R
N k N Min
k Max m
N l N Min
l Max n
l n k m T n m T
n
n m T n m T
n mn
T (2.35)Hệ số tương quan QWT(k, l) của hai ma trận W(m, n) và T(m, n) là:
)0,0(R)
0,0(R
)l,k(R)l
,k(Q
TT WW
WT
Trang 401 1 2
1 1
) , ( ) 1 , 1 (
) , ( ) 1 , 1 (
* WT
) , ( ).
, ( l)
(k, Q
n mn N
m N
n mn
N k N Min
k Max m
N l N Min
l Max n
T W
l n k m T n m W
(2.37)
Tại v trí {k = 0 ;l = 0} hệ số tương quan đạt giá trị bằng:
) 0 , 0 ( ).
0 , 0 (
) 0 , 0 ( )
0 , 0 (
TT WW
WT WT
R R
, ( )
0 , 0 (
n mn N
m N
n mn
N
m N
n WT
T W
n m T n m W
Giả thiết các phần tử của ma trận W và T có giá trị phức bất kỳ
a Xét tổ hợp A.W(m, n) + T(m – k, n – l)
0 ) , ( ) , ( 2
) , ( )
l n k m T n
m
W
A
0),(),(2
)0,0()0,0