HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆNGUYỄN TIẾN PHƯƠNG MỘT SỐ KỸ THUẬT DỰ BÁO VỊ TRÍ VÀ TRUY VẤN CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG CƠ SỞ DỮ LIỆU KHÔNG GIAN-THỜI GIAN Chuyên ngành: Cơ sở toán họ
Trang 1HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
NGUYỄN TIẾN PHƯƠNG
MỘT SỐ KỸ THUẬT DỰ BÁO VỊ TRÍ VÀ TRUY VẤN CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG CƠ SỞ DỮ LIỆU
KHÔNG GIAN-THỜI GIAN
Chuyên ngành: Cơ sở toán học cho tin học
Mã số: 62 46 01 10
TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC
HÀ NỘI - 2015
Trang 2Công trình được hoàn thành tại:
Học viện Khoa học và Công nghệ, Viện Hàn lâm KH và CN Việt Nam
Người hướng dẫn khoa học: PGS TS Đặng Văn Đức
Phản biện 1: PGS TS Huỳnh Quyết Thắng
Phản biện 2: PGS TS Bùi Thu Lâm
Phản biện 3: PGS TS Lê Trọng Vĩnh
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại:
Viện Hàn lâm Khoa học và Công nghệ Việt Nam
Vào hồi giờ ngày tháng năm
Có thể tìm hiểu luận án tại thư viện:
1 Thư viện Quốc gia Việt Nam
2 Thư viện Học viện Khoa học và Công nghệ
Trang 3
MỞ ĐẦU
Sự kết hợp các chức năng của công nghệ định vị cá nhân, công nghệ định vị vệ tinh, công nghệ truyền thông không dây và công nghệ GIS đã tạo ra một môi trường mới trong đó tất cả các đối tượng chuyển động có thể xác định vị trí của chúng Các công nghệ này là cơ sở cho
việc phát triển mạnh mẽ môi trường nhận biết vị trí và các dịch vụ dựa trên vị trí Dịch vụ dựa trên vị trí là dịch vụ được đặc chế dựa
trên những thông tin về vị trí của đối tượng Nhiều mô hình cơ sở dữ liệu các đối tượng chuyển động đã và đang được nghiên cứu, thử nghiệm Trong các mô hình này, dữ liệu của các đối tượng chuyển động, bao gồm cả thông tin về vị trí trong quá khứ, hiện tại và tương lai được lưu trữ và cập nhật thường xuyên Khó khăn lớn khi giải bài toán này là làm thế nào để khai thác một cách có hiệu quả khi số lượng đối tượng chuyển động là rất lớn và thường xuyên thay đổi vị trí Việc truy vấn vị trí của đối tượng trong tương lai cùng với tính không chắc chắn của nó cũng là một vấn đề cần giải quyết và nâng cao tính chính xác Các hệ quản trị cơ sở dữ liệu hiện tại không phù hợp với việc quản lý các dữ liệu thay đổi liên tục theo thời gian Có một số hướng
để giải quyết vấn đề này, trong đó cơ sở dữ liệu các đối tượng chuyển động (MODB) là dễ tiếp cận và đang được nghiên cứu, phát triển mạnh mẽ Chính vì vậy, luận án đặt mục tiêu chính là nghiên cứu về các vấn đề liên quan đến MODB bao gồm: tổ chức, lưu trữ, truy vấn
vị trí của đối tượng trong tương lai và đề xuất một số kỹ thuật để nâng cao tốc độ, tính chính xác trong truy vấn Lớp bài toán mà luận án hướng tới là quản lý thông tin đối tượng chuyển động hay quản lý và điều hành giao thông Trong lớp bài toán này, độ chính xác dự đoán
vị trí không cần quá cao (sai số một vài mét có thể chấp nhận được)
và nghiêng về tăng tốc độ tính toán để phản hồi cho người sử dụng hay ra quyết định nhanh chóng
Trang 4Trong luận án này, nghiên cứu sinh đã thực hiện và giải quyết những vấn đề sau:
a) Nghiên cứu về cơ sở dữ liệu các đối tượng chuyển động b) Nghiên cứu, đề xuất một số phương pháp, kỹ thuật nâng cao tốc độ và độ chính xác của các truy vấn vị trí của đối tượng chuyển động
Các kết quả chính bao gồm:
(1) Giải quyết vấn đề về mô hình hóa vị trí của đối tượng chuyển động dưới dạng thuộc tính động Thuộc tính động ít cần phải cập nhật hơn thông tin vị trí do đó sẽ hạn chế được tần suất cập nhật vào cơ sở
dữ liệu (mà thường là rất lớn trong các ứng dụng MODB) Thuộc tính động có thể được xác định nhờ vào hai phương pháp dự đoán vị trí đã
đề xuất trong luận án:
- Dự đoán vị trí của đối tượng dựa theo hàm chuyển động sử dụng
Các kết quả chính của luận án được công bố trong các công trình khoa học (1)-(4) Các kết quả này cũng đã được báo cáo và thảo luận tại các hội nghị, hội thảo khoa học tại Viện Công nghệ thông tin, Viện
HL KH và CN Việt Nam và hội thảo Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”
Trang 5Chương 1 CƠ SỞ DỮ LIỆU CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG
Trong chương này, nghiên cứu sinh sẽ trình bày kết quả nghiên cứu
và tổng hợp các vấn đề liên quan đến cơ sở dữ liệu các đối tượng chuyển động bao gồm một số khái niệm cơ bản về MODB và các vấn
đề còn cần giải quyết là (1) mô hình hóa vị trí, (2) ngôn ngữ truy vấn, (3) lập chỉ mục dữ liệu và (4) tính không chắc chắn/không chính xác trong dữ liệu vị trí của các đối tượng chuyển động
1.1 Một số khái niệm cơ bản
1.1.1 Cơ sở dữ liệu không gian-thời gian
Cơ sở dữ liệu không gian-thời gian được xây dựng nhằm giải quyết các bài toán không gian thay đổi theo thời gian Chúng ta có thể hiểu điểm chuyển động và vùng chuyển động được thể hiện trong miền không gian ba chiều (không gian 2D + thời gian) Các kiểu dữ liệu này
có thể được tích hợp như kiểu dữ liệu cơ sở (thuộc tính) trong mô hình quan hệ, hướng đối tượng hoặc các mô hình dữ liệu DBMS khác
Hình 1.1 Cơ sở dữ liệu không gian-thời gian và MODB
1.1.2 Cơ sở dữ liệu các đối tượng chuyển động
CSDL các đối tượng chuyển động là dạng thu gọn của CSDL không gian-thời gian, trong đó chỉ quan tâm đến điểm chuyển động
mà không xét đến các đối tượng khác (đường hay vùng chuyển động)
1.1.3 Dữ liệu trong cơ sở dữ liệu các đối tượng chuyển động
Kiểu dữ liệu cơ bản trong cơ sở dữ liệu các đối tượng chuyển động
là điểm chuyển động (moving point – mpoint)
Trang 6a Rời rạc b Liên tục Hình 1.2 Điểm chuyển động rời rạc và liên tục
Điểm chuyển động mpoint được định nghĩa khác như là một hàm
liên tục từ thời gian vào không gian hai chiều (2D), hoặc như một đường gấp khúc (polyline) trong không gian ba chiều (2D + thời gian)
1.1.4 Truy vấn trong cơ sở dữ liệu các đối tượng chuyển động
Cơ sở dữ liệu các đối tượng chuyển động cần đáp ứng được việc cập nhật thường xuyên, đồng thời lại phải đảm bảo truy vấn hiệu quả Các kiểu truy vấn phổ biến trong MODB là truy vấn điểm, truy vấn phạm vi và truy vấn k láng giềng gần nhất Ngoài ra còn vài kiểu truy vấn phức tạp hơn như truy vấn phạm vi liên tục hay truy vấn mật độ…
1.2.2 Vấn đề về ngôn ngữ truy vấn
Trang 7Ngôn ngữ truy vấn truyền thống như SQL là không đủ để diễn tả các truy vấn trong MODB Cho dù đã có những nghiên cứu về ngôn ngữ truy vấn không gian và thời gian, nhưng những nghiên cứu này vẫn là rời rạc và với các ứng dụng MODB, chúng cần được tích hợp lại để trả lời truy vấn một cách chính xác
1.2.3 Vấn đề về lập chỉ mục
Số lượng các đối tượng chuyển động trong CSDL có thể rất lớn
Do vậy chúng ta cần phải lập chỉ mục cho thuộc tính vị trí Việc sử dụng cách lập chỉ mục trực tiếp cho thuộc tính không gian như thông thường là không thể được do việc thay đổi liên tục giá trị của thuộc tính này sẽ dẫn đến cũng phải lập lại chỉ mục cho nó một cách liên tục
1.2.4 Vấn đề về tính không chắc chắn/không chính xác
Vị trí của đối tượng chuyển động trong CSDL về cơ bản là không chính xác với vị trí thực tế của nó bất kể chính sách cập nhật vị trí của đối tượng vào CSDL Tính không chắc chắn vốn có này có ý nghĩa khác nhau cho mô hình cơ sở dữ liệu, truy vấn và lập chỉ mục Vì sự không chắc chắn trong cơ sở dữ liệu vị trí, sẽ có thêm hai kiểu ngữ nghĩa trong truy vấn là “CÓ THỂ” và “CHẮC CHẮN”
Dù tính không chắc chắn đã được nghiên cứu rộng rãi, việc xây dựng mô hình mới và khả năng không gian-thời gian cho các đối tượng chuyển động vẫn cần phải xem xét lại các giải pháp hiện có
Kết luận chương
Chương 1 đã giới thiệu các vấn đề cơ bản về CSDL các đối tượng chuyển động MODB là dạng thu gọn của CSDL không gian-thời gian, trong đó chỉ quan tâm đến các điểm chuyển động mà không xét đến các đối tượng khác Các vấn đề còn tồn tại cần giải quyết trong CSDL các đối tượng chuyển động cũng được tổng hợp lại Các chương tiếp theo nghiên cứu sinh sẽ trình bày các nghiên cứu của mình, góp phần giải quyết một số vấn đề này
Trang 8Chương 2 DỰ ĐOÁN VỊ TRÍ CỦA ĐỐI TƯỢNG CHUYỂN ĐỘNG
Trong chương này, nghiên cứu sinh sẽ trình bày hai phương pháp
dự đoán vị trí của đối tượng chuyển động, được đề xuất nhằm góp phần giải quyết vấn đề mô hình hóa vị trí trong MODB Phương pháp thứ nhất là dự đoán vị trí theo hàm chuyển động chỉ hiệu quả với dự đoán ở tương lai gần Phương pháp thứ hai là dự đoán theo hành vi của đối tượng tiếp cận theo hướng sử dụng khai phá luật kết hợp của các mẫu hình di chuyển của đối tượng, dự đoán được vị trí ở những thời điểm xa hiện tại với độ chính xác tương đối cao Kết hợp hai phương pháp này sẽ đem lại hiệu quả tốt hơn cho truy vấn trong toàn
hệ thống
2.1 Dự đoán vị trí của đối tượng dựa theo hàm chuyển động
Các hàm chuyển động có thể chia thành hai dạng sau:
- Hàm tuyến tính: mô tả chuyển động theo đường thẳng
- Hàm phi tuyến: mô tả chuyển động theo đường cong bất kỳ
2.1.1 Dự đoán dựa theo hàm tuyến tính
Cho một đối tượng có vị trí l 0 tại thời điểm t 0 có vận tốc v 0 Mô hình chuyển động tuyến tính sẽ dự đoán vị trí của đối tượng tại thời
điểm t q bởi biểu thức:
l(t q )=l 0 + v 0 * (t q -t 0 )
trong đó l và v là các véc-tơ n chiều
Với mô hình tuyến tính, việc tính toán vị trí của đối tượng chuyển động ở thời điểm tiếp theo rất nhanh chóng Tuy nhiên, với nhiều bài toán thực tế, độ chính xác này thường không cao do đối tượng có thể
di chuyển trong mạng lưới giao thông đô thị phức tạp và có rất nhiều yếu tố ảnh hưởng đến véc tơ vận tốc (độ lớn và hướng) của đối tượng
2.1.2 Dự đoán dựa theo hàm phi tuyến
Trong thực tế, chuyển động của các đối tượng thường là phi tuyến Với mô hình này, chuyển động của đối tượng được biểu diễn bởi các
Trang 9hàm toán học phức tạp hơn vì vậy độ chính xác dự đoán sẽ cao hơn
mô hình tuyến tính
Hàm chuyển động đệ quy và ma trận chuyển động
Sử dụng hàm chuyển động đệ quy là phương pháp dự đoán vị trí
từ những vị trí trước đó trong quá khứ Phương pháp này biểu diễn vị
trí l của đối tượng tại thời điểm t (ký hiệu l t) dưới dạng biểu thức sau:
𝑙𝑡 = ∑ 𝑐𝑖∗ 𝑙𝑡−𝑖𝑓
𝑖=1
trong đó c i là ma trận hệ số và f là số tối thiểu các vị trí gần nhất
để tính được các phần tử của tất cả c i
Xét đối tượng O trong không gian n chiều Tại thời điểm ti và ti+1
(0 < i < q), q là thời điểm truy vấn, vị trí của O được biểu diễn lần lượt bởi các véc tơ P i và P i+1 như sau:
𝑃𝑖
⃗⃗ = (𝑝𝑖,1, 𝑝𝑖,2, … , 𝑝𝑖,𝑛)
và 𝑃⃗⃗⃗⃗⃗⃗⃗⃗ = (𝑝𝑖+1 𝑖+1,1, 𝑝𝑖+1,2, … , 𝑝𝑖+1,𝑛)
Véc tơ dịch chuyển của O từ thời điểm t i đến t i+1, ký hiệu ⃗⃗⃗ , được 𝑖
mô tả như sau:
𝑖
⃗⃗⃗ = (𝑖,1,𝑖,2, … ,𝑖,𝑛) = 𝑃⃗⃗⃗⃗⃗⃗⃗⃗ − 𝑃𝑖+1 ⃗⃗ 𝑖
Do đó muốn tính 𝑃⃗⃗⃗⃗⃗⃗⃗⃗ ta cần xác định véc tơ dịch chuyển 𝑖+1 ⃗⃗⃗ Có 𝑖một số kỹ thuật dự đoán theo hàm chuyển động đệ quy hay được sử dụng như SMA và EWMA Chúng sử dụng các vị trí trong quá khứ của đối tượng để xác định véc tơ dịch chuyển, từ đó dự đoán vị trí của đối tượng ở các thời điểm tiếp theo
Kỹ thuật dự đoán theo trung bình động đơn giản - SMA
Biểu thức tính i,k theo SMA (Simple Moving Average) như sau:
Kỹ thuật dự đoán theo trung bình động trọng số mũ - EWMA
Trang 10Biểu thức tính EWMA
như sau:
Kỹ thuật dự đoán vị trí đối tượng theo mô hình W-EWMA
Nhằm làm giảm khối lượng tính toán không cần thiết, nghiên cứu sinh đề xuất kỹ thuật dự đoán đặt tên là W-EWMA (Window Exponentially Weighted Moving Average) Theo kỹ thuật này thay vì tính tất cả các j,k , chỉ tính w bước gần nhất trước đó Biểu thức (2-10)
tính W-EWMA
như sau:
Giải thuật tính toán theo kỹ thuật W-EWMA như dưới đây:
Algorithm Cal_W-EWMA Input: 𝑃𝑖 = {𝑝 𝑖,1 , 𝑝 𝑖,2 , … , 𝑝 𝑖,𝑛 }
Trang 11Trong kỹ thuật này, độ phức tạp thuật toán là O(n*w), với
n là số chiều của không gian dữ liệu, w là hằng số xác định
trước bằng công thức (2-10a) w = S/(v*f), Trong đó S là độ dài
trung bình của các tuyến đường trên bản đồ (m), v là vận tốc
di chuyển trung bình (m/s), f là tần suất cập nhật dữ liệu (s) Các kết quả thực nghiệm trên cho thấy, kỹ thuật dự đoán vị trí của đối tượng theo mô hình W-EWMA cho kết quả khá chính xác với thời gian tính toán nhanh hơn theo mô hình
EWMA hay SMA Giá trị w có thể lựa chọn khởi tạo giá trị
ban đầu theo công thức (2-10a) và điều chỉnh lại cho hợp lý trong quá trình sử dụng hệ thống Giá trị nên lựa chọn theo từng loại ngữ cảnh hay ứng dụng cụ thể: nhỏ phù hợp hơn với những ứng dụng mà đối tượng di chuyển với hướng và vận tốc ít biến đổi (phương tiện hàng hải, hàng không) còn lớn lại dễ thích nghi với những ứng dụng mà đối tượng di chuyển với hướng và vận tốc hay thay đổi (phương tiện đường bộ)
2.2 Dự đoán dựa trên hành vi của đối tượng
2.2.1 Luật kết hợp
Luật kết hợp là một biểu thức có dạng: XY, trong đó X và
Y là tập các mục cùng xuất hiện trong một bộ cho trước [1]
2.2.2 Thuật toán phân cụm dựa trên mật độ DBSCAN
Thuật toán phân cụm dựa trên mật độ thông dụng nhất là thuật toán DBSCAN, cho phép tìm các đối tượng mà có số đối tượng láng giềng lớn hơn một ngưỡng tối thiểu Một cụm được xác định bằng tập tất cả các đối tượng liên thông mật độ với các láng giềng của nó [22]
2.2.3 Mẫu hình di chuyển
Trong thực tế chuyển động của đối tượng thường có tính chu kỳ theo một mẫu hình (pattern) nào đó Ví dụ như con người đi làm hàng
Trang 12ngày theo một tuyến đường định trước Phương tiện giao thông công cộng có lịch trình, tuyến đường và điểm đỗ cố định…
Định nghĩa 3.1 [Điểm dừng]
Điểm dừng là một phần quan trọng trong quỹ đạo mà đối tượng không có dịch chuyển rõ ràng trong một khoảng thời gian nhất định Điểm dừng được mô tả bởi một kiểu đặc trưng không gian với khoảng thời gian xác định (không rỗng)
Định nghĩa 3.2 [Di chuyển]
Di chuyển từ điểm dừng l1 đến l2 được ký hiệu l1 l2 là một phần của quỹ đạo trong khoảng thời gian xác định được giới hạn bởi hai điểm dừng liên tiếp l1 và l2 trong đó các điểm dừng này không bị trùng
về mặt thời gian
Định nghĩa 3.3 [Quỹ đạo]
Quỹ đạo P là một danh sách sắp thứ tự của các điểm dừng và các
di chuyển P thường được biểu diễn như sau:
P = {(l0, l1, …, ln-1)}
trong đó l i (0 ≤ i < n) biểu diễn đối tượng tại vị trí l i ở thời điểm i
Định nghĩa 3.4 [Độ hỗ trợ của di chuyển]
Cho X={P1, P2,…, Pn} là tập các quỹ đạo; Trong đó mỗi quỹ đạo
Pi (0 < i n) được định nghĩa như định nghĩa 3.3 ở trên
Độ hỗ trợ của di chuyển AB, ký hiệu là sup(AB), là tỉ số của các quỹ đạo Pi trong X mà có chứa di chuyển AB trên tổng số quỹ đạo có trong X
sup(AB) = |{P ∈ X |AB ∈ P| |X|
Trong đó ký hiệu |Z| biểu diễn số phần tử có trong tập Z
Định nghĩa 3.5 [Mẫu hình di chuyển]
Một di chuyển được gọi là mẫu hình di chuyển nếu độ hỗ trợ s của
nó lớn hơn hoặc bằng một ngưỡng cho trước gọi là minsup
Định nghĩa 3.6 [Mẫu hình quỹ đạo]
Trang 13Quỹ đạo P được gọi là mẫu hình quỹ đạo nếu nó được biểu diễn dưới dạng của một luật kết hợp đặc biệt:
P: 𝑅𝑡1𝑗1 𝑅𝑡2𝑗2 … 𝑅𝑡𝑚𝑗𝑚→𝑐 𝑅𝑡𝑛𝑗𝑛
với ràng buộc về thời gian:
t1 < t2 < … < tm < tn
Tham số c là độ chắc chắn hay xác xuất biểu thị khả năng xảy ra
Định nghĩa 3.7 [Truy vấn tương lai]
Truy vấn tương lai là truy vấn dự đoán không gian-thời gian thỏa mãn điều kiện sau:
tq tc + d
Trong đó t q là ký hiệu thời gian tại thời điểm truy vấn, t c là ký hiệu
thời gian hiện thời và d là thời gian ở tương lai thỏa mãn:
t q < T, 0 < d < T (T là ngưỡng thời gian truy vấn)
2.2.4 Khai phá mẫu hình di chuyển
Khai phá mẫu hình di chuyển đã được nghiên cứu và có một số kết quả nhất định Các nghiên cứu này bao gồm các nhóm sau:
(1) Biến đổi dữ liệu thô: Dữ liệu thô được xấp xỉ và chuyển đổi thành một định dạng phân tích
(2) Chỉ mục: Kalniset và đồng nghiệp sử dụng một chỉ số lưới G t
tại mỗi thời điểm t để lưu trữ dữ liệu tại thời điểm đó Sau đó
áp dụng thuật toán phân cụm dựa trên mật độ DBSCAN trên
các chỉ số lưới G t để xác định các cụm tại thời điểm t
(3) Tiếp cận kiểu Apriori: Cách tiếp cận kiểu Apriori có thể được
áp dụng để khai phá các mẫu hình quỹ đạo một cách hiệu quả Một vấn đề trong việc dự đoán vị trí đối tượng dựa theo mẫu hình là làm thế nào để xác định được mẫu hình dựa trên thông tin
về vị trí của nó trong quá khứ Một số nghiên cứu cho rằng có thể làm được bằng cách khai phá mẫu hình Tuy nhiên để thu được mẫu hình cần một lượng rất lớn dữ liệu lịch sử của đối tượng để