Các vấn đề được nghiên cứu bao gồm: Đặc điểm của Wi-Fi RSSI; mô hình xác suất mô tả phân bố của Wi-Fi RSSI; thuật toán ước lượng các tham số, tối ưu hóa các tham số của mô hình được sử d
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ KHOA HỌC VÀ CÔNG NGHỆ
VIỆN ỨNG DỤNG CÔNG NGHỆ
VŨ TRUNG KIÊN
NGHIÊN CỨU, PHÁT TRIỂN KỸ THUẬT ĐỊNH VỊ
TRONG NHÀ SỬ DỤNG TÍN HIỆU Wi-Fi
tãm t¾t luËn ¸n tiÕn sÜ kü thuËt
HÀ NỘI - 2019
Trang 2Công trình được hoàn thành tại:
Người hướng dẫn khoa học: GS TS Lê Hùng Lân
Phản biện 1: PGS.TS Thái Quang Vinh
Phản biện 2: PGS.TS Hà Hải Nam
Phản biện 3: PGS.TS Hoàng Văn Phúc
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án Tiến sĩ cấp Viện họp tại Viện Ứng dụng Công nghệ vào hồi giờ ngày tháng năm 20
Có thể tìm hiểu luận án tại:
Thư viện Viện Ứng dụng Công nghệ
Thư viện quốc gia
Trang 3DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ [CT1] Hoang Manh Kha, Duong Thi Hang, Vu Trung Kien, Trinh Anh
Vu (2017), Enhancing WiFi based Indoor Positioning by Modeling measurement Data with GMM, IEEE International Conference on Advanced Technologies for Communications, IEEE, Quy Nhon, Vietnam, pp 325-328
[CT2] Vu, T.K., Hoang, M.K., and Le, H.L (2018), "WLAN
Fingerprinting based Indoor Positioning in the Precence of Dropped Mixture Data", Journal of Military Science and Technology 57A(3), pp 25-34
https://drive.google.com/file/d/1jv2U3tmJq1vUEez6nt6Cq8DzJWEWZu6-/view
[CT3] Vu, Trung Kien and Le, Hung Lan (2018), "Gaussian Mixture
Modeling for Wi-Fi Fingerprinting based Indoor Positioning in the Presence of Censored Data", Vietnam Journal of Science, Technology and Engineering 61(1), pp 3-8,
DOI: https://doi.org/10.31276/VJSTE.61(1).03-08
[CT4](ISI-Q2) Vu, Trung Kien, Hoang, Manh Kha, and Le, Hung Lan
(2019), "An EM algorithm for GMM parameter estimation in the presence of censored and dropped data with potential application for indoor positioning", ICT Express, 5(2), pp 120-123,
DOI: 10.1016/j.icte.2018.08.001
Bài báo đã được chấp nhận:
[CT5](ISI-Q3) Vu, Trung Kien, Hoang, Manh Kha, and Le, Hung Lan
(2019), “Performance Enhancement of Wi-Fi Fingerprinting based IPS by Accurate Parameter Estimation of Censored and Dropped Data”, Radioengineering, ISSN: 1805-9600 Submission: 06/04/2019, Reviews Opened: 27/05/2019, Accepted: 03/09/2019
Trang 4GIỚI THIỆU LUẬN ÁN 1.Tính cấp thiết của đề tài
Các hệ thống định vị dựa trên vệ tinh điển hình như GPS (Global Positioning System) của Mỹ có thể định vị chính xác các đối tượng ở môi trường ngoài trời Tuy nhiên ở môi trường trong nhà, do tín hiệu từ
vệ tinh không được truyền thẳng tới thiết bị được định vị nên độ chính xác của các hệ thống này giảm đi rất nhiều Mặt khác, ngày càng xuất hiện nhiều các nhu cầu định vị trong nhà, ví dụ như định vị cho người sử dụng điện thoại thông minh di chuyển trong nhà ga, sân bay, trung tâm thương mại; định vị cho hàng hóa trong kho; định vị cho ô tô trong bãi
đỗ xe Vì những lý do này, trong những năm gần đây, hệ thống định vị trong nhà (IPS: Indoor Positioning System) rất được quan tâm nghiên cứu, phát triển
Trong số các công nghệ định vị trong nhà hiện nay, công nghệ định vị dựa trên tín hiệu Wi-Fi trong mạng nội bộ không dây (WLAN: Wireless Local Area Network) được sử dụng phổ biến nhất do hầu hết các khu vực trong nhà đều có sẵn WLAN, hầu hết các thiết bị di động như điện thoại, máy tính đều được trang bị các bộ thu phát tín hiệu Wi-Fi
Xuất phát từ những thực tế trên, tác giả đã chọn đề tài “Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi”, trong đó đi sâu vào nghiên cứu kỹ thuật định vị dựa trên “dấu vân tay” RSSI (RSSIF-IPT: Received Signal Strength Indication Fingerprinting based Indoor Positioning Technique)
2 Đối tượng và phạm vi nghiên cứu
Nghiên cứu kỹ thuật định vị cho đối tượng tĩnh trong không gian 2 chiều ở môi trường trong nhà Kỹ thuật định vị được tập trung nghiên cứu là RSSIF-IPT, sử dụng tín hiệu Wi-Fi trong WLAN Các vấn đề được nghiên cứu bao gồm: Đặc điểm của Wi-Fi RSSI; mô hình xác suất
mô tả phân bố của Wi-Fi RSSI; thuật toán ước lượng các tham số, tối ưu hóa các tham số của mô hình được sử dụng mô tả phân bố của Wi-Fi RSSI; thuật toán định vị trực tuyến
Trang 53 Mục tiêu nghiên cứu của đề tài
- Mục tiêu chung: Nghiên cứu phát triển kỹ thuật định vị trong nhà dựa trên dấu vân tay RSSI sử dụng tín hiệu Wi-Fi trong WLAN nhằm giảm thiểu sai số định vị, tối ưu thời gian định vị
4 Phương pháp nghiên cứu
Phương pháp thống kê (toán) để xác định xu hướng diễn biến của tập
dữ liệu (Wi-Fi RSSI) thu thập được từ đó đề xuất mô hình toán học mô
tả phân bố của dữ liệu; phương pháp giải tích để tính toán các tham số của mô hình và vị trí của đối tượng cần định vị; phương pháp Monte Carlo để đánh giá sai số của các tham số mô hình; cuối cùng, các phương pháp thực nghiệm trên cả dữ liệu mô phỏng và dữ liệu thực tế để kiểm chứng hiệu quả của các đề xuất khi áp dụng cho IPS
5 Các đóng góp mới của luận án
- Đề xuất 03 thuật toán ước lượng các tham số của mô hình mô tả phân bố của Wi-Fi RSSI (mô hình hỗn hợp Gauss - GMM) tương ứng với các 03 trường hợp không quan sát được một phần dữ liệu [CT2-CT4]
- Đề xuất thuật toán ước lượng số thành phần Gauss trong GMM mở rộng [CT5]
- Đề xuất thuật toán định vị trong trường hợp không quan sát được một phần dữ liệu (Wi-Fi RSSI) do đối tượng được định vị (OB: Object) thu thập trong giai đoạn định vị trực tuyến [CT5]
6 Bố cục luận án
Bố cục của luận án gồm bốn chương, phần mở đầu, kết luận, danh mục các công trình, bài báo khoa học đã được công bố, tài liệu tham
Trang 6khảo và phụ lục Chương 1: Tổng quan về kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi Chương 2: Ước lượng tham số của mô hình mô tả phân bố Wi-Fi RSSI Chương 3: Ước lượng số thành phần Gauss trong
mô hình mô tả phân bố Wi-Fi RSSI Chương 4: Xây dựng thuật toán định vị và các kết quả thực nghiệm IPS
CHƯƠNG 1 TỔNG QUAN VỀ KỸ THUẬT ĐỊNH VỊ TRONG
NHÀ SỬ DỤNG TÍN HIỆU Wi-Fi 1.1 Các kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi
Các kỹ thuật định vị sử dụng tín hiệu Wi-Fi trong WLAN có thể chia thành hai nhóm chính:
- Nhóm các kỹ thuật định vị dựa trên thuộc tính về không gian và thời gian của tín hiệu thu được (TSARS: Time and Space Attributes of Received Signal) TSARS có thể là thời gian tới (ToA: Time of Arrival), chênh lệch về thời gian tới (TDoA: Time Difference of Arrival) hoặc góc tới (AoA: Angle of Arrival)
- Nhóm các kỹ thuật định vị sử dụng chỉ số cường độ tín hiệu nhận được (RSSI: Received Signal Strength Indication) Nhóm này bao gồm:
Kỹ thuật định vị tiệm cận; kỹ thuật định vị sử dụng mô hình suy hao đường truyền và RSSIF-IPT
RSSIF-IPT gồm hai giai đoạn: giai đoạn huấn luyện ngoại tuyến và định vị trực tuyến Ở giai đoạn huấn luyện, RSSI được thu thập tại các điểm tham chiếu (RP: Reference Point) có vị trí xác định để xây dựng cơ
sở dữ liệu Ở giai đoạn định vị trực tuyến, RSSI do OB thu thập được so sánh với cơ sở dữ liệu, từ đó ước lượng ra vị trí của OB thông qua vị trí của 1 hoặc một số RP Trong số các kỹ thuật định vị, RSSIF-IPT có nhiều ưu điểm nhất
RSSIF-IPT có thể sử dụng phương pháp tất định (D-RSSIF-IPT: Deterministic RSSIF-IPT) hoặc phương pháp xác suất (P-RSSIF-IPT: Probabilistic RSSIF-IPT) So với D-RSSIF-IPT, P-RSSIF-IPT có sai số định vị thấp hơn do cơ sở dữ liệu của phương pháp này thể hiện được sự
Trang 7biến đổi của RSSI P-RSSIF-IPT có thể sử dụng mô hình không tham số (ví dụ biểu đồ tần suất) hoặc mô hình có tham số (ví dụ phân phối Gauss, GMM) để mô tả phân bố của Wi-Fi RSSI P-RSSIF-IPT dùng
mô hình có tham số cho ra kết quả định vị tốt hơn, cơ sở dữ liệu cần lưu
ít tham số hơn so với P-RSSIF-IPT dùng mô hình không có tham số 1.2 Đặt vấn đề đã nghiên cứu
Phân bố của Wi-Fi RSSI có thể tuân theo phân phối Gauss hoặc bao gồm nhiều thành phần Gauss khi được thu thập trong điều kiện môi trường xung quanh thay đổi (cửa đóng/mở, người đi lại) Vì vậy so với phân phối Gauss, GMM mô tả phân bố của Wi-Fi RSSI chính xác hơn Tuy nhiên trên thực tế một số mẫu dữ liệu có thể không quan sát được
do một trong hai nguyên nhân sau:
- Thiết bị thu thập Wi-Fi RSSI không đo được các giá trị nhỏ hơn ngưỡng thu, khi đó sẽ trả về giá trị bằng với ngưỡng thu (thông thường
là – 100dBm với các điện thoại thông minh) Hiện tượng này được gọi tắt là “censoring”
- Đôi khi tín hiệu Wi-Fi đột ngột bị mất do AP ngừng hoạt động, khi
đó thiết bị thu thập Wi-Fi RSSI cũng trả về giá trị bằng với ngưỡng thu Hiện tượng này được gọi tắt là “dropping”
Từ kết quả khảo sát Wi-Fi RSSI từ kết quả nghiên cứu trong các công trình đã công bố, tập dữ liệu (Wi-Fi RSSI) thu thập tại một RP, từ một
AP có đặc điểm tương ứng với một trong số tám trường hợp sau:
(1) Dữ liệu có phân bố tuân theo phân phối Gauss, quan sát được toàn
Trang 8(5) Dữ liệu có phân bố gồm đa thành phần Gauss, quan sát được toàn
Hình 1.10 Biểu đồ tần suất của Wi-Fi RSSI thể hiện các vấn đề
censoring, dropping và đa thành phần Gauss Các tác giả trong các bài báo khác nhau đã giải quyết được tập dữ liệu
có các đặc điểm như các trường hợp (1)-(5) Tuy nhiên chưa có nghiên cứu nào giải quyết được tập dữ liệu có các đặc điểm như các trường hợp (6)-(8) Vì lý do này, luận án tập trung nghiên cứu, đề xuất giải pháp phát triển RSSIF-IPT để giải quyết đồng thời các vấn đề censoring, dropping và đa thành phần Gauss (các trường hợp (6)-(8)) và vẫn đảm bảo đúng khi dữ liệu có các đặc điểm như các trường hợp (1)-(5) 1.3 Kết luận chương 1
Trong chương này, luận án trình bày các kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi Chương 1 cũng tổng hợp và phân tích các công trình nghiên cứu về RSSIF-IPT Trên cơ sở nghiên cứu các vấn đề đã và chưa được giải quyết đối với RSSIF-IPT, luận án đề ra định hướng nghiên cứu
Trang 9CHƯƠNG 2 ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH MÔ TẢ
PHÂN BỐ Wi-Fi RSSI 2.1 Đặt vấn đề
Trong thực tế, tập dữ liệu bao gồm các phép đo chỉ số cường độ tín hiệu nhận được của tín hiệu Wi-Fi (Wi-Fi RSSI) thu thập tại 1 điểm tham chiếu (RP) từ 1 điểm truy cập (AP) có phân bố tuân theo GMM với
từ 1 đến J thành phần Gauss (J là một số hữu hạn) Gọi yn là giá trị RSSI thu thập được ở lần thứ n từ một AP tại một RP (yn,n 1 N), N
là số lần thu thập Do các lần thu thập là độc lập với nhau nên các ynđộc lập với nhau Nếu coi yn là các biến ngẫu nhiên có phân bố tuân theo GMM khi đó hàm mật mật độ xác suất (PDF: Probability Density Function) sẽ là:
Trang 10trường hợp, thiết bị thu thập Wi-Fi RSSI chỉ thu thập được tập dữ liệu không đầy đủ ( ) x với:
khi =0 khi =1
2.2 Giới thiệu thuật toán EM
Thuật toán EM được sử dụng giải bài toán tìm hợp lý cực đại (ML: Maximum Likelihood) hoặc cực đại xác suất hậu nghiệm (MaP: Maximum a Posteriori) của một mô hình thống kê có các biến ẩn (unobservable variables) bằng cách thực hiện liên tiếp các vòng lặp, mỗi vòng lặp gồm 2 bước:
- Bước E (E-step): Tính giá trị kỳ vọng (expected value) của hàm hợp
Trang 11trường hợp khác Khi đó, kỳ vọng của logarit hàm hợp lý cho trước bởi tập dữ liệu quan sát được ( ) x và các tham số ở lần lặp thứ (k) được xác định như sau:
Hàm Q ;Θ Θ( ) k được tính cho trường hợp xn yn và trường hợpxn c
, kết quả như sau:
( ) ( ) 1
( ( )
1 0)
0
Iβ
j J
k k
j j j
Trang 12Các tham số ước lượng được ở lần lặp thứ ( 1) k+ được xác định bằng cách lần lượt lấy đạo hàm riêng của Q ;Θ Θ( ) k trong công thức (2.19) theo j, j, wj và gán bằng 0, kết quả như sau:
( ) ( ) ( )
( ) ( 1)
( ) ( ) ( )
1
1 ) 1
j k
k j
(2.27)
Trang 132.4 Ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do dropping
Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu không quan sát được do dropping (EM-D-GMM) [CT2]:
Bước E:
( ) 1
) (
j
k j
(2.31)
2 ( ( )
( 1) 2
( )
) 1
n j k
Trang 14
(2.52) Trong công thức (2.52): v nn( 1 N ) là các biến nhị phân thể hiện các mẫu dữ liệu quan sát được hoặc không quan sát được (vn 0 khi yn c
và dn 0, khi đó xn yn; vn 1 khi yn c hoặc dn 1, khi đó x cn );
( ) ( ) ( )
0 1
( ) ( )
( ) ( ) ( ) ( )
0 1
( ) ( 1)
j k
n n
xx
x
vv
ΘΘ
(2.54)
Trang 15vN
Từ các công thức (2.53) - (2.56) có thể nhận thấy:
- Nếu vn 0 (dữ liệu thu thập được đầy đủ), (2.52)- (2.55) rút gọn về các công thức của thuật toán EM ước lượng tham số trong GMM (EM-GMM, trường hợp 5);
- Nếu J 1, (2.52)- (2.56) rút gọn về các công thức của thuật toán EM ước lượng tham số của phân phối Gauss khi một phần dữ liệu không quan sát được do censoring và dropping (EM-CD-G, các trường hợp (1)-(4));
Từ các lập luận trên có thể kết luận: EM-CD-GMM [CT4] ngoài việc giải quyết được đồng thời cả 3 vấn đề, bao gồm đa thành phần Gauss trong phân bố của Wi-Fi RSSI, censoring và dropping (các trường hợp (5)-(8), mục 1.2) còn hoàn toàn đúng với khi dữ liệu có phân bố tuân theo phân phối Gauss (các trường hợp (1)-(4), mục 1.2)
2.6 Đánh giá sai số của các tham số trong GMM ước lượng được bằng các thuật toán EM
Trong mục này, thuật toán EM-CD-GMM sẽ được kiểm nghiệm và so sánh với các thuật toán EM khác đã được công bố trên tập dữ liệu mô phỏng, thông qua khoảng cách Kullback Leibler (KLD: Kullback Leibler Divergence) Sau 1000 lần thực nghiệm, giá trị trung bình KLD
( KLD) của các thuật toán được thể hiện như bảng 2.1 và độ lệch chuẩn (
KLD) được thể hiện như bảng 2.2 (khi c= – 90dBm)
Bảng 2.1 KLD của các thuật toán EM sau 1000 lần thực nghiệm
Trang 16có sai số lớn hơn do coi phân bố của dữ liệu tuân theo phân phối Gauss
- Với các trường hợp khác, KLDvà KLDcủa EM-CD-GMM luôn nhỏ nhất Bởi vậy EM-CD-GMM là thuật toán có thể ước lượng chính xác nhất mô hình mô tả phân bố của Wi-Fi RSSI khi tập dữ liệu thu thập được có phân bố gồm đa thành phần Gauss, một phần không quan sát được do censoring và dropping
so với EM-GMM và EM-CD-G
Trang 17CHƯƠNG 3 ƯỚC LƯỢNG SỐ THÀNH PHẦN GAUSS TRONG
MÔ HÌNH MÔ TẢ PHÂN BỐ Wi-Fi RSSI 3.1 Đặt vấn đề
Trên thực tế, Wi-Fi RSSI thu thập tại từng RP khác nhau từ mỗi AP khác nhau có phân bố khác nhau, có thể gồm một hoặc nhiều thành phần Gauss Nếu sử dụng GMM với J thành phần Gauss, số tham số của GMM sẽ là NPs=3J-1 Điều này có nghĩa là số lượng tham số cần lưu trong cơ sở dữ liệu và số phép toán của thuật toán định vị tỉ lệ thuận với
số thành phần Gauss được sử dụng mô tả phân bố của Wi-Fi RSSI Vì vậy cần có một giải pháp ước lượng số thành phần Gauss trong GMM
mô tả phân bố của Wi-Fi RSSI nhằm tối ưu cơ sở dữ liệu và làm giảm mức độ phức tạp của các phép tính trong thuật toán định vị của IPS
3.2 Các phương pháp ước lượng số thành phần Gauss trong GMM 3.2.1 Ước lượng số thành phần Gauss trong GMM bằng phương
pháp hàm phạt (PF: Penalty Function)
Gọi x là tập dữ liệu quan sát được, có phân bố tuân theo GMM; N là
số mẫu dữ liệu trong tập x; Θˆ Jlà bộ tham số của GMM với J thành phần Gauss mô tả phân bố của x; NPslà số tham số trong GMM;
3.2.2 Ước lượng số thành phần Gauss trong GMM bằng phương
pháp hàm đặc trưng (CF: Characteristic Function)
Phương pháp CF sử dụng sự hội tụ của tổng có trọng số của các phần thực trong logarit của hàm đặc trưng (SWRLCF: Sum of Weighted Real