Một số kỹ thuật dự báo vị trí và truy vấn các đối tượng chuyển động trong cơ sở dữ liệu không gian thời gian (TT)

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆNGUYỄN TIẾN PHƯƠNG MỘT SỐ KỸ THUẬT DỰ BÁO VỊ TRÍ VÀ TRUY VẤN CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG CƠ SỞ DỮ LIỆU KHÔNG GIAN-THỜI GIAN Chuyên ngành: Cơ sở toán họ

Trang 1

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

NGUYỄN TIẾN PHƯƠNG

MỘT SỐ KỸ THUẬT DỰ BÁO VỊ TRÍ VÀ TRUY VẤN CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG TRONG CƠ SỞ DỮ LIỆU

KHÔNG GIAN-THỜI GIAN

Chuyên ngành: Cơ sở toán học cho tin học

Mã số: 62 46 01 10

TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC

HÀ NỘI - 2015

Trang 2

Công trình được hoàn thành tại:

Học viện Khoa học và Công nghệ, Viện Hàn lâm KH và CN Việt Nam

Người hướng dẫn khoa học: PGS TS Đặng Văn Đức

Phản biện 1: PGS TS Huỳnh Quyết Thắng

Phản biện 2: PGS TS Bùi Thu Lâm

Phản biện 3: PGS TS Lê Trọng Vĩnh

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại:

Viện Hàn lâm Khoa học và Công nghệ Việt Nam

Vào hồi giờ ngày tháng năm

Có thể tìm hiểu luận án tại thư viện:

1 Thư viện Quốc gia Việt Nam

2 Thư viện Học viện Khoa học và Công nghệ

Trang 3

MỞ ĐẦU

Sự kết hợp các chức năng của công nghệ định vị cá nhân, công nghệ định vị vệ tinh, công nghệ truyền thông không dây và công nghệ GIS đã tạo ra một môi trường mới trong đó tất cả các đối tượng chuyển động có thể xác định vị trí của chúng Các công nghệ này là cơ sở cho

việc phát triển mạnh mẽ môi trường nhận biết vị trí và các dịch vụ dựa trên vị trí Dịch vụ dựa trên vị trí là dịch vụ được đặc chế dựa

trên những thông tin về vị trí của đối tượng Nhiều mô hình cơ sở dữ liệu các đối tượng chuyển động đã và đang được nghiên cứu, thử nghiệm Trong các mô hình này, dữ liệu của các đối tượng chuyển động, bao gồm cả thông tin về vị trí trong quá khứ, hiện tại và tương lai được lưu trữ và cập nhật thường xuyên Khó khăn lớn khi giải bài toán này là làm thế nào để khai thác một cách có hiệu quả khi số lượng đối tượng chuyển động là rất lớn và thường xuyên thay đổi vị trí Việc truy vấn vị trí của đối tượng trong tương lai cùng với tính không chắc chắn của nó cũng là một vấn đề cần giải quyết và nâng cao tính chính xác Các hệ quản trị cơ sở dữ liệu hiện tại không phù hợp với việc quản lý các dữ liệu thay đổi liên tục theo thời gian Có một số hướng

để giải quyết vấn đề này, trong đó cơ sở dữ liệu các đối tượng chuyển động (MODB) là dễ tiếp cận và đang được nghiên cứu, phát triển mạnh mẽ Chính vì vậy, luận án đặt mục tiêu chính là nghiên cứu về các vấn đề liên quan đến MODB bao gồm: tổ chức, lưu trữ, truy vấn

vị trí của đối tượng trong tương lai và đề xuất một số kỹ thuật để nâng cao tốc độ, tính chính xác trong truy vấn Lớp bài toán mà luận án hướng tới là quản lý thông tin đối tượng chuyển động hay quản lý và điều hành giao thông Trong lớp bài toán này, độ chính xác dự đoán

vị trí không cần quá cao (sai số một vài mét có thể chấp nhận được)

và nghiêng về tăng tốc độ tính toán để phản hồi cho người sử dụng hay ra quyết định nhanh chóng

Trang 4

Trong luận án này, nghiên cứu sinh đã thực hiện và giải quyết những vấn đề sau:

a) Nghiên cứu về cơ sở dữ liệu các đối tượng chuyển động b) Nghiên cứu, đề xuất một số phương pháp, kỹ thuật nâng cao tốc độ và độ chính xác của các truy vấn vị trí của đối tượng chuyển động

Các kết quả chính bao gồm:

(1) Giải quyết vấn đề về mô hình hóa vị trí của đối tượng chuyển động dưới dạng thuộc tính động Thuộc tính động ít cần phải cập nhật hơn thông tin vị trí do đó sẽ hạn chế được tần suất cập nhật vào cơ sở

dữ liệu (mà thường là rất lớn trong các ứng dụng MODB) Thuộc tính động có thể được xác định nhờ vào hai phương pháp dự đoán vị trí đã

đề xuất trong luận án:

- Dự đoán vị trí của đối tượng dựa theo hàm chuyển động sử dụng

Các kết quả chính của luận án được công bố trong các công trình khoa học (1)-(4) Các kết quả này cũng đã được báo cáo và thảo luận tại các hội nghị, hội thảo khoa học tại Viện Công nghệ thông tin, Viện

HL KH và CN Việt Nam và hội thảo Quốc gia “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”

Trang 5

Chương 1 CƠ SỞ DỮ LIỆU CÁC ĐỐI TƯỢNG CHUYỂN ĐỘNG

Trong chương này, nghiên cứu sinh sẽ trình bày kết quả nghiên cứu

và tổng hợp các vấn đề liên quan đến cơ sở dữ liệu các đối tượng chuyển động bao gồm một số khái niệm cơ bản về MODB và các vấn

đề còn cần giải quyết là (1) mô hình hóa vị trí, (2) ngôn ngữ truy vấn, (3) lập chỉ mục dữ liệu và (4) tính không chắc chắn/không chính xác trong dữ liệu vị trí của các đối tượng chuyển động

1.1 Một số khái niệm cơ bản

1.1.1 Cơ sở dữ liệu không gian-thời gian

Cơ sở dữ liệu không gian-thời gian được xây dựng nhằm giải quyết các bài toán không gian thay đổi theo thời gian Chúng ta có thể hiểu điểm chuyển động và vùng chuyển động được thể hiện trong miền không gian ba chiều (không gian 2D + thời gian) Các kiểu dữ liệu này

có thể được tích hợp như kiểu dữ liệu cơ sở (thuộc tính) trong mô hình quan hệ, hướng đối tượng hoặc các mô hình dữ liệu DBMS khác

Hình 1.1 Cơ sở dữ liệu không gian-thời gian và MODB

1.1.2 Cơ sở dữ liệu các đối tượng chuyển động

CSDL các đối tượng chuyển động là dạng thu gọn của CSDL không gian-thời gian, trong đó chỉ quan tâm đến điểm chuyển động

mà không xét đến các đối tượng khác (đường hay vùng chuyển động)

1.1.3 Dữ liệu trong cơ sở dữ liệu các đối tượng chuyển động

Kiểu dữ liệu cơ bản trong cơ sở dữ liệu các đối tượng chuyển động

là điểm chuyển động (moving point – mpoint)

Trang 6

a Rời rạc b Liên tục Hình 1.2 Điểm chuyển động rời rạc và liên tục

Điểm chuyển động mpoint được định nghĩa khác như là một hàm

liên tục từ thời gian vào không gian hai chiều (2D), hoặc như một đường gấp khúc (polyline) trong không gian ba chiều (2D + thời gian)

1.1.4 Truy vấn trong cơ sở dữ liệu các đối tượng chuyển động

Cơ sở dữ liệu các đối tượng chuyển động cần đáp ứng được việc cập nhật thường xuyên, đồng thời lại phải đảm bảo truy vấn hiệu quả Các kiểu truy vấn phổ biến trong MODB là truy vấn điểm, truy vấn phạm vi và truy vấn k láng giềng gần nhất Ngoài ra còn vài kiểu truy vấn phức tạp hơn như truy vấn phạm vi liên tục hay truy vấn mật độ…

1.2.2 Vấn đề về ngôn ngữ truy vấn

Trang 7

Ngôn ngữ truy vấn truyền thống như SQL là không đủ để diễn tả các truy vấn trong MODB Cho dù đã có những nghiên cứu về ngôn ngữ truy vấn không gian và thời gian, nhưng những nghiên cứu này vẫn là rời rạc và với các ứng dụng MODB, chúng cần được tích hợp lại để trả lời truy vấn một cách chính xác

1.2.3 Vấn đề về lập chỉ mục

Số lượng các đối tượng chuyển động trong CSDL có thể rất lớn

Do vậy chúng ta cần phải lập chỉ mục cho thuộc tính vị trí Việc sử dụng cách lập chỉ mục trực tiếp cho thuộc tính không gian như thông thường là không thể được do việc thay đổi liên tục giá trị của thuộc tính này sẽ dẫn đến cũng phải lập lại chỉ mục cho nó một cách liên tục

1.2.4 Vấn đề về tính không chắc chắn/không chính xác

Vị trí của đối tượng chuyển động trong CSDL về cơ bản là không chính xác với vị trí thực tế của nó bất kể chính sách cập nhật vị trí của đối tượng vào CSDL Tính không chắc chắn vốn có này có ý nghĩa khác nhau cho mô hình cơ sở dữ liệu, truy vấn và lập chỉ mục Vì sự không chắc chắn trong cơ sở dữ liệu vị trí, sẽ có thêm hai kiểu ngữ nghĩa trong truy vấn là “CÓ THỂ” và “CHẮC CHẮN”

Dù tính không chắc chắn đã được nghiên cứu rộng rãi, việc xây dựng mô hình mới và khả năng không gian-thời gian cho các đối tượng chuyển động vẫn cần phải xem xét lại các giải pháp hiện có

Kết luận chương

Chương 1 đã giới thiệu các vấn đề cơ bản về CSDL các đối tượng chuyển động MODB là dạng thu gọn của CSDL không gian-thời gian, trong đó chỉ quan tâm đến các điểm chuyển động mà không xét đến các đối tượng khác Các vấn đề còn tồn tại cần giải quyết trong CSDL các đối tượng chuyển động cũng được tổng hợp lại Các chương tiếp theo nghiên cứu sinh sẽ trình bày các nghiên cứu của mình, góp phần giải quyết một số vấn đề này

Trang 8

Chương 2 DỰ ĐOÁN VỊ TRÍ CỦA ĐỐI TƯỢNG CHUYỂN ĐỘNG

Trong chương này, nghiên cứu sinh sẽ trình bày hai phương pháp

dự đoán vị trí của đối tượng chuyển động, được đề xuất nhằm góp phần giải quyết vấn đề mô hình hóa vị trí trong MODB Phương pháp thứ nhất là dự đoán vị trí theo hàm chuyển động chỉ hiệu quả với dự đoán ở tương lai gần Phương pháp thứ hai là dự đoán theo hành vi của đối tượng tiếp cận theo hướng sử dụng khai phá luật kết hợp của các mẫu hình di chuyển của đối tượng, dự đoán được vị trí ở những thời điểm xa hiện tại với độ chính xác tương đối cao Kết hợp hai phương pháp này sẽ đem lại hiệu quả tốt hơn cho truy vấn trong toàn

hệ thống

2.1 Dự đoán vị trí của đối tượng dựa theo hàm chuyển động

Các hàm chuyển động có thể chia thành hai dạng sau:

- Hàm tuyến tính: mô tả chuyển động theo đường thẳng

- Hàm phi tuyến: mô tả chuyển động theo đường cong bất kỳ

2.1.1 Dự đoán dựa theo hàm tuyến tính

Cho một đối tượng có vị trí l 0 tại thời điểm t 0 có vận tốc v 0 Mô hình chuyển động tuyến tính sẽ dự đoán vị trí của đối tượng tại thời

điểm t q bởi biểu thức:

l(t q )=l 0 + v 0 * (t q -t 0 )

trong đó l và v là các véc-tơ n chiều

Với mô hình tuyến tính, việc tính toán vị trí của đối tượng chuyển động ở thời điểm tiếp theo rất nhanh chóng Tuy nhiên, với nhiều bài toán thực tế, độ chính xác này thường không cao do đối tượng có thể

di chuyển trong mạng lưới giao thông đô thị phức tạp và có rất nhiều yếu tố ảnh hưởng đến véc tơ vận tốc (độ lớn và hướng) của đối tượng

2.1.2 Dự đoán dựa theo hàm phi tuyến

Trong thực tế, chuyển động của các đối tượng thường là phi tuyến Với mô hình này, chuyển động của đối tượng được biểu diễn bởi các

Trang 9

hàm toán học phức tạp hơn vì vậy độ chính xác dự đoán sẽ cao hơn

mô hình tuyến tính

Hàm chuyển động đệ quy và ma trận chuyển động

Sử dụng hàm chuyển động đệ quy là phương pháp dự đoán vị trí

từ những vị trí trước đó trong quá khứ Phương pháp này biểu diễn vị

trí l của đối tượng tại thời điểm t (ký hiệu l t) dưới dạng biểu thức sau:

𝑙𝑡 = ∑ 𝑐𝑖∗ 𝑙𝑡−𝑖𝑓

𝑖=1

trong đó c i là ma trận hệ số và f là số tối thiểu các vị trí gần nhất

để tính được các phần tử của tất cả c i

Xét đối tượng O trong không gian n chiều Tại thời điểm ti và ti+1

(0 < i < q), q là thời điểm truy vấn, vị trí của O được biểu diễn lần lượt bởi các véc tơ P i và P i+1 như sau:

𝑃𝑖

⃗⃗ = (𝑝𝑖,1, 𝑝𝑖,2, … , 𝑝𝑖,𝑛)

và 𝑃⃗⃗⃗⃗⃗⃗⃗⃗ = (𝑝𝑖+1 𝑖+1,1, 𝑝𝑖+1,2, … , 𝑝𝑖+1,𝑛)

Véc tơ dịch chuyển của O từ thời điểm t i đến t i+1, ký hiệu ⃗⃗⃗ , được 𝑖

mô tả như sau:

𝑖

⃗⃗⃗ = (𝑖,1,𝑖,2, … ,𝑖,𝑛) = 𝑃⃗⃗⃗⃗⃗⃗⃗⃗ − 𝑃𝑖+1 ⃗⃗ 𝑖

Do đó muốn tính 𝑃⃗⃗⃗⃗⃗⃗⃗⃗ ta cần xác định véc tơ dịch chuyển 𝑖+1 ⃗⃗⃗ Có 𝑖một số kỹ thuật dự đoán theo hàm chuyển động đệ quy hay được sử dụng như SMA và EWMA Chúng sử dụng các vị trí trong quá khứ của đối tượng để xác định véc tơ dịch chuyển, từ đó dự đoán vị trí của đối tượng ở các thời điểm tiếp theo

Kỹ thuật dự đoán theo trung bình động đơn giản - SMA

Biểu thức tính i,k theo SMA (Simple Moving Average) như sau:

Kỹ thuật dự đoán theo trung bình động trọng số mũ - EWMA

Trang 10

Biểu thức tính EWMA

như sau:

Kỹ thuật dự đoán vị trí đối tượng theo mô hình W-EWMA

Nhằm làm giảm khối lượng tính toán không cần thiết, nghiên cứu sinh đề xuất kỹ thuật dự đoán đặt tên là W-EWMA (Window Exponentially Weighted Moving Average) Theo kỹ thuật này thay vì tính tất cả các j,k , chỉ tính w bước gần nhất trước đó Biểu thức (2-10)

tính W-EWMA

như sau:

Giải thuật tính toán theo kỹ thuật W-EWMA như dưới đây:

Algorithm Cal_W-EWMA Input: 𝑃𝑖 = {𝑝 𝑖,1 , 𝑝 𝑖,2 , … , 𝑝 𝑖,𝑛 }

Trang 11

Trong kỹ thuật này, độ phức tạp thuật toán là O(n*w), với

n là số chiều của không gian dữ liệu, w là hằng số xác định

trước bằng công thức (2-10a) w = S/(v*f), Trong đó S là độ dài

trung bình của các tuyến đường trên bản đồ (m), v là vận tốc

di chuyển trung bình (m/s), f là tần suất cập nhật dữ liệu (s) Các kết quả thực nghiệm trên cho thấy, kỹ thuật dự đoán vị trí của đối tượng theo mô hình W-EWMA cho kết quả khá chính xác với thời gian tính toán nhanh hơn theo mô hình

EWMA hay SMA Giá trị w có thể lựa chọn khởi tạo giá trị

ban đầu theo công thức (2-10a) và điều chỉnh lại cho hợp lý trong quá trình sử dụng hệ thống Giá trị nên lựa chọn theo từng loại ngữ cảnh hay ứng dụng cụ thể: nhỏ phù hợp hơn với những ứng dụng mà đối tượng di chuyển với hướng và vận tốc ít biến đổi (phương tiện hàng hải, hàng không) còn lớn lại dễ thích nghi với những ứng dụng mà đối tượng di chuyển với hướng và vận tốc hay thay đổi (phương tiện đường bộ)

2.2 Dự đoán dựa trên hành vi của đối tượng

2.2.1 Luật kết hợp

Luật kết hợp là một biểu thức có dạng: XY, trong đó X và

Y là tập các mục cùng xuất hiện trong một bộ cho trước [1]

2.2.2 Thuật toán phân cụm dựa trên mật độ DBSCAN

Thuật toán phân cụm dựa trên mật độ thông dụng nhất là thuật toán DBSCAN, cho phép tìm các đối tượng mà có số đối tượng láng giềng lớn hơn một ngưỡng tối thiểu Một cụm được xác định bằng tập tất cả các đối tượng liên thông mật độ với các láng giềng của nó [22]

2.2.3 Mẫu hình di chuyển

Trong thực tế chuyển động của đối tượng thường có tính chu kỳ theo một mẫu hình (pattern) nào đó Ví dụ như con người đi làm hàng

Trang 12

ngày theo một tuyến đường định trước Phương tiện giao thông công cộng có lịch trình, tuyến đường và điểm đỗ cố định…

Định nghĩa 3.1 [Điểm dừng]

Điểm dừng là một phần quan trọng trong quỹ đạo mà đối tượng không có dịch chuyển rõ ràng trong một khoảng thời gian nhất định Điểm dừng được mô tả bởi một kiểu đặc trưng không gian với khoảng thời gian xác định (không rỗng)

Định nghĩa 3.2 [Di chuyển]

Di chuyển từ điểm dừng l1 đến l2 được ký hiệu l1  l2 là một phần của quỹ đạo trong khoảng thời gian xác định được giới hạn bởi hai điểm dừng liên tiếp l1 và l2 trong đó các điểm dừng này không bị trùng

về mặt thời gian

Định nghĩa 3.3 [Quỹ đạo]

Quỹ đạo P là một danh sách sắp thứ tự của các điểm dừng và các

di chuyển P thường được biểu diễn như sau:

P = {(l0, l1, …, ln-1)}

trong đó l i (0 ≤ i < n) biểu diễn đối tượng tại vị trí l i ở thời điểm i

Định nghĩa 3.4 [Độ hỗ trợ của di chuyển]

Cho X={P1, P2,…, Pn} là tập các quỹ đạo; Trong đó mỗi quỹ đạo

Pi (0 < i  n) được định nghĩa như định nghĩa 3.3 ở trên

Độ hỗ trợ của di chuyển AB, ký hiệu là sup(AB), là tỉ số của các quỹ đạo Pi trong X mà có chứa di chuyển AB trên tổng số quỹ đạo có trong X

sup(AB) = |{P ∈ X |AB ∈ P| |X|

Trong đó ký hiệu |Z| biểu diễn số phần tử có trong tập Z

Định nghĩa 3.5 [Mẫu hình di chuyển]

Một di chuyển được gọi là mẫu hình di chuyển nếu độ hỗ trợ s của

nó lớn hơn hoặc bằng một ngưỡng cho trước gọi là minsup

Định nghĩa 3.6 [Mẫu hình quỹ đạo]

Trang 13

Quỹ đạo P được gọi là mẫu hình quỹ đạo nếu nó được biểu diễn dưới dạng của một luật kết hợp đặc biệt:

P: 𝑅𝑡1𝑗1 𝑅𝑡2𝑗2 …  𝑅𝑡𝑚𝑗𝑚→𝑐 𝑅𝑡𝑛𝑗𝑛

với ràng buộc về thời gian:

t1 < t2 < … < tm < tn

Tham số c là độ chắc chắn hay xác xuất biểu thị khả năng xảy ra

Định nghĩa 3.7 [Truy vấn tương lai]

Truy vấn tương lai là truy vấn dự đoán không gian-thời gian thỏa mãn điều kiện sau:

tq  tc + d

Trong đó t q là ký hiệu thời gian tại thời điểm truy vấn, t c là ký hiệu

thời gian hiện thời và d là thời gian ở tương lai thỏa mãn:

t q < T, 0 < d < T (T là ngưỡng thời gian truy vấn)

2.2.4 Khai phá mẫu hình di chuyển

Khai phá mẫu hình di chuyển đã được nghiên cứu và có một số kết quả nhất định Các nghiên cứu này bao gồm các nhóm sau:

(1) Biến đổi dữ liệu thô: Dữ liệu thô được xấp xỉ và chuyển đổi thành một định dạng phân tích

(2) Chỉ mục: Kalniset và đồng nghiệp sử dụng một chỉ số lưới G t

tại mỗi thời điểm t để lưu trữ dữ liệu tại thời điểm đó Sau đó

áp dụng thuật toán phân cụm dựa trên mật độ DBSCAN trên

các chỉ số lưới G t để xác định các cụm tại thời điểm t

(3) Tiếp cận kiểu Apriori: Cách tiếp cận kiểu Apriori có thể được

áp dụng để khai phá các mẫu hình quỹ đạo một cách hiệu quả Một vấn đề trong việc dự đoán vị trí đối tượng dựa theo mẫu hình là làm thế nào để xác định được mẫu hình dựa trên thông tin

về vị trí của nó trong quá khứ Một số nghiên cứu cho rằng có thể làm được bằng cách khai phá mẫu hình Tuy nhiên để thu được mẫu hình cần một lượng rất lớn dữ liệu lịch sử của đối tượng để

Định dạng
Số trang	27
Dung lượng	1,12 MB