Nâng cao độ chính xác của giải thuật xây dựng bản đồ và định vị sử dụng hình ảnh,vốn thường được thiết kế cho môi trường ngoài trời nhưng gặp phải các khó khăn khihoạt động trong môi trư
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN QUỐC HÙNG
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ
Chuyên ngành: Khoa học Máy tính
Mã số: 62480101
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội − 2016
Trang 2Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học:
Vào hồi giờ, ngày tháng năm
Có thể tìm hiểu luận án tại thư viện:
1 Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2 Thư viện Quốc gia Việt Nam
Trang 3MỞ ĐẦU Tính cấp thiết, ý nghĩa khoa học của luận án
Năm 2013, theo công bố của Tổ chức Y tế thế giới (WHO) trên thế giới có khoảng 285triệu người suy giảm thị lực, trong đó 246 triệu người có thị lực kém ở mức độ vừa phảiđến mức độ nặng và 39 triệu người mù [19] Tại Việt Nam, theo số liệu của Viện mắt Trungương cung cấp, có khoảng 1.2 triệu người khiếm thị (NKT), trong đó 820.503 người khôngcòn khả năng nhìn thấy ánh sáng Nếu tính cả những người bị các tật về mắt như cận hoặcviễn thì con số này còn lớn hơn rất nhiều
Số lượng NKT lớn, bản thân NKT gặp nhiều khó khăn trong cuộc sống cũng như nắmbắt các cơ hội việc làm Chính vì vậy, trợ giúp NKT là vấn đề thu hút sự quan tâm củanhiều nhà khoa học trong thời gian gần đây Trong số các yêu cầu trợ giúp, trợ giúp địnhhướng là cần thiết và chỉ dẫn để giúp họ tránh các vật cản trên đường đi hay đưa ra cácthông báo về môi trường xung quanh
Trên thực tế, nhiều phương pháp đã được nghiên cứu và triển khai nhằm hỗ trợ địnhhướng cho NKT, như sử dụng gậy [8], chó dẫn đường [8], hay thiết bị điện tử [2] Mỗi phươngpháp có những ưu nhược điểm riêng: gậy dẫn đường bị hạn chế phạm vi phát hiện vật cảntheo kích thước của gậy; chó dẫn đường thường có chi phí cao và gây trở ngại về tâm sinh
lý đối với người dùng; thiết bị điện tử như các điện cực đặt trên lưỡi có thể gây tâm lý ngạingần khi sử dụng
Trong bối cảnh này, nghiên cứu và phát triển một hệ thống trợ giúp dẫn đường hiệuquả và thân thiện trợ giúp NKT vẫn là chủ đề đầy thách thức, động lực để NCS thực hiện
đề tài: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúpdẫn đường cho người khiếm thị”
Mục tiêu và những thách thức
Xuất phát từ ý tưởng tạo ra một hệ thống hỗ trợ giống như một người bạn đồng hành
có khả năng giao tiếp thân thiện và hiệu quả Luận án hướng đến phát triển một hệ thốngtrợ giúp định hướng và cảnh báo vật cản cho NKT sử dụng robot di động
Để đạt được mục tiêu này, robot cần có khả năng nhận biết và di chuyển giữa các vị trítrong môi trường và nhận dạng được các vật cản trên đường đi Do vậy, chúng tôi chia cácmục tiêu đạt được thành ba bài toán cụ thể:
1 Biểu diễn môi trường và định vị: Với mục tiêu dẫn đường cho NKT đi từ vị tríhiện tại đến vị trí mong muốn trong môi trường, robot phải biết mình đang ở đâutrong môi trường và đường đi đến vị trí đích như thế nào Để giải quyết vấn đề này,bản đồ môi trường phải được xây dựng từ trước và robot phải có khả năng định vị từmột vị trí bất kỳ trên bản đồ Mặc dù có nhiều phương pháp đã được đề xuất, hướngtiếp cận tổng quát và bền vững với các yếu tố môi trường đang là những mục tiêu màcác nhà khoa học theo đuổi
2 Phát hiện và ước lượng khoảng cách vật cản: Trong quá trình di chuyển, để đảmbảo an toàn cho NKT cũng như cho sự di chuyển của robot, các vật cản trong môitrường bao gồm vật cản tĩnh và động cần phải được phát hiện và cảnh báo về mức
độ nguy hiểm có thể gây ra Ngoài các thách thức chung của bài toán phát hiện đốitượng trong lĩnh vực thị giác máy tính như điều kiện chiếu sáng thay đổi, che khuất,
Trang 4bóng, luận án còn phải giải quyết với chất lượng ảnh không tốt do rung lắc của thiết
bị, camera di chuyển và ước lượng khoảng cách giữa NKT và vật cản trong thời gianthực
3 Dẫn đường, điều khiển và tương tác người robot: Trong ngữ cảnh của bài toánrobot dẫn đường thì việc tìm đường tối ưu là một phần quan trọng, đặc biệt với việcdẫn đường cần phải thực hiện với độ chính xác cao trong khi vẫn đảm bảo an toàncho NKT Bên cạnh đó, điều khiển robot di chuyển đúng hành trình, giảm sai số định
vị là một thách thức trong lĩnh vực điều khiển động học Tương tác người-robot phảithân thiện, tự nhiên và hiệu quả để NKT cảm nhận được các trạng thái hệ thống đanghoạt động và đưa ra các phản hồi kịp thời mà không mất đi các giác quan tự nhiên làmột bài toán đòi hỏi nhiều thời gian thử nghiệm trên người dùng khiếm thị
Những điểm mới của luận án
Để giải quyết 03 bài toán nêu trên, chúng tôi đã đề xuất và cải tiến một số phươngpháp với những đóng góp chính sau đây:
1 Đề xuất mô hình biểu diễn môi trường theo hướng tiếp cận lai ngữ nghĩa trong đó bản
đồ số liệu và bản đồ topo được tích hợp cùng với các thông tin về vật cản tĩnh trongmôi trường
2 Nâng cao độ chính xác của giải thuật xây dựng bản đồ và định vị sử dụng hình ảnh,vốn thường được thiết kế cho môi trường ngoài trời nhưng gặp phải các khó khăn khihoạt động trong môi trường trong nhà
3 Đề xuất phương pháp phát hiện một số vật cản phù hợp với ngữ cảnh của bài toánrobot dẫn đường
4 Chứng minh bằng thực nghiệm tính khả thi của giải pháp đề xuất thông qua việc pháttriển ứng dụng trợ giúp định hướng NKT sử dụng robot
Cấu trúc của luận án
Luận án gồm 4 chương với nội dung tóm tắt như sau:
◦ Chương 1: Tổng quan về thống trợ giúp người khiếm thị giới thiệu một sốnghiên cứu trong và ngoài nước về trợ giúp định hướng NKT, phân tích ưu nhược điểmcủa các phương pháp và đề xuất hệ thống “Trợ giúp dẫn đường cho NKT di chuyểntrong môi trường diện hẹp sử dung robot”
◦ Chương 2: Biểu diễn môi trường và định vị đề xuất mô hình biểu diễn môitrường và định vị dựa trên hình ảnh Hai giải thuật với những cải tiến sẽ được giớithiệu là giải thuật đo hành trình VO nhằm xây dựng bản đồ số liệu, giải thuật xâydựng bản đồ topo và định vị FAB-MAP sử dụng hình ảnh
◦ Chương 3: Phát hiện và ước lượng khoảng cách vật cản trình bày một phươngpháp đề xuất cho việc phát hiện vật cản dựa trên kỹ thuật đối sánh ảnh và ước lượngkhoảng cách vật cản dựa trên tính toán ảnh sai khác từ các quan sát khác nhau trên
01 camera
◦ Chương 4: Thử nghiệm và đánh giá hệ thống dẫn đường, trình bày hệ thốngdẫn đường hoàn chỉnh tích hợp các thiết bị phần cứng và phát triển thêm một số chứcnăng khác như tìm đường, điều khiển, tương tác người robot sử dụng các kỹ thuật cơbản sẵn có Phần thử nghiệm và đánh giá trên người dùng khiếm thị 100% không nhìnthấy ánh sáng tại 03 môi trường khác nhau
Trang 5CHƯƠNG 1
TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP
NGƯỜI KHIẾM THỊ 1.1 Đặt vấn đề
1.2 Các nghiên cứu liên quan
1.2.1 Các nghiên cứu trên thế giới
1.2.2 Các nghiên cứu trong nước
1.2.3 Thảo luận
Các nghiên cứu và phân tích trên đây cho thấy các phương pháp trợ giúp NKT hiện tại
có một số ưu nhược điểm sau:
Các phương pháp sử dụng laser, lidar, siêu âm cho phép xác định nhanh và trợ giúpcảnh báo thông tin vật cản cho NKT hoặc hỗ trợ trong quá trình đi lại Tuy nhiênnhóm các phương pháp này không xác định đối tượng vật cản là gì, mức độ nguy hiểm
ra sao và không có khả năng dẫn đường NKT trong môi trường
Các phương pháp sử dụng hình ảnh đòi hỏi kỹ thuật xử lý hình ảnh phức tạp hơn,tuy nhiên lượng tin nhiều hơn, cho phép phân loại đối tượng, xác định khoảng cách
và mức độ nguy hiểm Cho nên nhóm các phương pháp này gặp nhiều thách thức củacác bài toán thị giác máy tính, dẫn hướng sử dụng hình ảnh, v.v
Trong tất cả các phương pháp nêu trên, không có phương pháp nào thực hiện dẫnđường cho NKT đến vị trí mong muốn mà chỉ hỗ trợ trong quá trình đi lại Cácphương pháp cảnh báo vật cản chỉ dừng lại ở cảnh báo có hay không mà không chỉ rõđối tượng và mức độ nguy hiểm là gì
1.3 Mục tiêu nghiên cứu và phương pháp đề xuất
1.3.1 Mục tiêu và phạm vi nghiên cứu
Trong khuôn khổ của LATS, chúng tôi đi theo hướng tiếp cận sử dụng cảm biến camerabởi lượng thông tin hình ảnh thu thập được phong phú, cho phép đồng thời thực hiện bàitoán dẫn đường và phát hiện vật cản Hơn nữa, cảm biến hình ảnh ngày càng có giá thành
rẻ và thông dụng với người dùng Mục tiêu chúng tôi muốn hướng đến là:
− Nghiên cứu và phát triển một số kỹ thuật định vị sử dụng thông tin hình ảnh hiệu quảphù hợp với môi trường trong nhà
− Ứng dụng triển khai hệ thống trợ giúp dẫn đường và cảnh báo vật cản cho NKT mộtcách hiệu quả và thân thiện
Trong LATS này, trợ giúp dẫn đường được hiểu là dẫn NKT di chuyển đến vị trí mongmuốn trên bản đồ với các cảnh báo về vật cản Khi thiết kế một hệ thống, chúng tôi đều phảidựa trên một số ràng buộc theo đặc thù của môi trường triển khai Môi trường trong nhàhay ngoài trời đều có những thách thức riêng Do vậy chúng tôi giới hạn pham vi nghiên cứu
là môi trường trong nhà diện hẹp ví dụ như hành lang tòa nhà có gắn các thiết bị (wi-fi),
Trang 6cảm biến (camera) cho phép thu thập các tín hiệu của môi trường nhằm phục vụ cho cácứng dụng khác nhau Hệ thống đề xuất chỉ phục vụ 01 người dùng tại một thời điểm.1.3.2 Phương pháp đề xuất
Các thành phần chính của hệ thống đề xuất được mô tả như trong Hình 1.1 gồm robot
di động có gắn camera thu nhận hình ảnh môi trường, thực hiện các phép xử lý tính toán
để trả lời 02 câu hỏi chính: i) robot đang ở đâu? có những vật cản gì? ii) làm thế nào để dẫnNKT đi đến vị trí mong muốn? khi NKT sử dụng điện thoại di động có kết nối không dây
để điều khiển và nhận phản hồi từ hệ thống Trong quá trình dẫn, NKT bám vào một điểmtrên robot để đi theo
thoâng minh
• Camera
Hình 1.1 Các thành phần chính của hệ thống đề xuất Robot trợ giúp NKT
Để trả lời các câu hỏi đã đặt ra, 5 bài toán sau sẽ lần lượt giải quyết trong các chương
Tìm đường và điều khiển di chuyển (chương 4): Để dẫn đường, robot phải tìm đường
từ vị trí hiện tại đến vị trí đích và phải được điều khiển để di chuyển giữa hai vị trí
Tương tác người - hệ thống (chương 4): Yêu cầu của người dùng và đáp ứng của hệthống phải được thực hiện một cách tự nhiên, thân thiện và hiệu quả
Trong phạm vi nghiên cứu của luận án, chúng tôi tập trung nghiên cứu giải quyết bàitoán 1, 2, 3 và phát triển ứng dụng hoàn chỉnh Các bài toán còn lại được giải quyết dựatrên các công cụ có sẵn
1.4 Kết luận chương 1
Trang 7CHƯƠNG 2
BIỂU DIỄN MÔI TRƯỜNG VÀ ĐỊNH VỊ 2.1 Giới thiệu chung
2.2 Những nghiên cứu liên quan
2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn môi trường
Xuất phát từ mục tiêu của luận án nghiên cứu phương pháp định vị sử dụng hình ảnh
hỗ trợ cho bài toán trợ giúp dẫn đường cho NKT, chúng tôi đề xuất mô hình biểu diễn môitrường theo hướng tiếp cận lai ngữ nghĩa
Ý nghĩa của cụm từ lai ngữ nghĩa được giải thích như sau Bản đồ của môi trường đượccấu thành từ bản đồ số liệu và bản đồ topo Ngoài ra, các thông tin vật cản tĩnh của môitrường ở từng vị trí trên bản đồ cũng được xác định và đưa vào mô hình biểu diễn môitrường như mô tả trong Hình 2.1 dưới đây:
◦ Bản đồ được biểu diễn theo cấu trúc topo gồm một tập
N điểm trong môi trường sao cho tồn tại đường đi giữa
hai điểm kề cận:
L i Điểm mốc
Trong đó:
đã được định nghĩa Tọa độ được tính theo đơn vị (m)
Hình 2.1 Mô hình biểu diễn môi trường theo hướng tiếp cận lai ngữ nghĩa
Để biểu diễn môi trường theo mô hình này, các nhiệm vụ sau cần thực hiện:
Trang 81 Xác định các vị trí mốc trong môi trường Li với i = 1, N
2 Xác định tọa độ các vị trí mốc trong môi trường Mi = (xi, yi, zi)
3 Xác định các vật cản Oi = {Oi 1, Oi 2 Oi j} trên ảnh Ii thu tại vị trí Li Tập vật cản
Oi thuộc các tập định nghĩa từ trước và hình dạng vật cản không ảnh hưởng đến môhình biểu diễn, chi tiết phương pháp xác định vật cản được trình bày tại CHƯƠNGIII của luận án
2.4 Phương pháp xây dựng bản đồ môi trường
2.4.1 Xây dựng bản đồ số liệu
Bài toán đo hành trình sử dụng hình ảnh được phát biểu như sau: Cho trước chuỗi hìnhảnh liên tiếp thu thập từ camera I = {I1, I2, , IN} trong đó N là tổng số ảnh thu thập được.Xác định vị trí camera của trong quá trình di chuyển P = {P1, P2, PN −1} Nếu vị trí banđầu được biết trước, vị trí tiếp theo được xác định bởi một phép biến đổi T trừ đi vị trí trước
đó đến vị trí hiện tại, trong đó T cấu thành từ chuyển động tịnh tiến ti
i−1 và chuyển độngquay Ri
i−1 của camera giữa thời điểm hiện tại i và thời điểm trước đó i − 1
Ti−1i =Ri
i−1 ti i−1
0 1
(2.1)trong đó Ti
i−1∈ ℜ3×3, ti
i−1∈ ℜ1×3, Ri
i−1 ∈ ℜ2×3.Phương pháp VO của Van Hamme và đồng nghiệp đề xuất năm 2011 [13] được đánh giátrong môi trường ngoài trời với camera lắp đặt trên xe chạy với tốc độ 70km/h Khi áp dụngvào môi trường trong nhà với camera gắn trên robot đi với tốc độ chậm, phương pháp nàygặp một số khó khăn và thách thức Trong phần dưới đây, chúng tôi sẽ trình bày trước tiênphương pháp VO, các thích nghi VO trong nhà gọi tắt là VO* sẽ được trình bày sau đó.2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mô hình không chắc chắn
Ý tưởng của giải thuật VO đề xuất trong [13] sử dụng mô hình không chắc chắn củachuyển động của camera và chuyển động của xe để tính toán các tứ giác tương ứng với cácđiểm đặc trưng tại khung hình hiện tại cũng như chuyển động của các điểm đặc trưng trongkhung hình trước đó Sau đó chuyển động của camera giữa hai khung hình liên tiếp đượcước lượng từ sự chồng lấp của các tứ giác
Với chuỗi hình ảnh liên tiếp thu thập được I = {I1, I2, , IN}, thuật toán VO gồm N −1bước lặp, tại bước lặp thứ i với i = 2, N thực hiện các bước:
1 Trích chọn đặc trưng Harris Corner[14] trên khung hình Ii Chi tiết phương pháp tríchchọn đặc trưng có trong PHỤ LỤC A.1 của luận án
E(u, v) =X
w
[I(x + u, y + v) − I(x, y)]2 (2.2)
Trong đó: E(u, v) là hàm tương quan tính toán trên ảnh I; u, v là dịch chuyển của điểm
x, y trên hàm cửa số w, khi đó w nhận hai giá trị 0/1 hoặc thông qua hàm Gaussianxác định giá trị cho w
Kết quả thu được là tập Mi điểm đặc trưng {KPij}với j = 1, Mi Số điểm đặc trưngquyết định bởi ngưỡng θV O đưa vào tính Công thức (2.3) KPij phụ thuộc vào R làviệc lấy ngưỡng θV O (R ≥ θV O) và R là các đáp ứng góc tính như sau:
R = λ1λ2 − k(λ1+ λ2)2 (2.3)
Trang 92 Tính toán các P UTij tương ứng với các đặc trưng KPij dựa trên mô hình không chắcchắn của camera Cụ thể mỗi P UTij là một hình tứ giác bao quanh điểm KPij Mỗigóc của tứ giác được xác định từ một tổ hợp của bộ (góc ngẩng, góc nghiêng) củacamera.
3 Tính toán các MUTij tương ứng với các đặc trưng Harris KPij dựa trên mô hìnhchuyển động không chắc chắn của robot Cụ thể mỗi MUTij là một hình tứ giác baoquanh điểm KPij Mỗi góc của tứ giác được xác định từ một tổ hợp của bộ (vận tốc,góc lái) của robot
4 Tạo ảnh tương đồng giữa các P UTij ở thời điểm i với các MUTi−1j ở thời điểm trước
đó i − 1 Ảnh này thể hiện mức độ tương đồng trong không gian của góc lái và vậntốc, Giá trị điểm ảnh lớn nhất biểu thị tọa độ sự tương đồng giữa PUT và MUT lớnnhất, tương ứng với giá trị góc lái và vận tốc cần xác định cho phép ước lượng tham
số chuyển động của camera, từ đó tái tạo lại hành trình di chuyển
Hành trình đo được
Ước lượng tham số
T i i−1 ; R i i−1
PUT: Perspective Uncertainty Tetragons MUT: Motion Uncertainty Tetragon
Hình 2.2 Các bước giải thuật đo hành trình bằng thông tin hình ảnh VO
Khi triển khai giải thuật VO ở một số môi trường trong nhà khác nhau (hành lang của
Trang 10tịa nhà) thì hành trình tái tạo được bị sai số nhiều so với thực tế, nhất là tại một số vị tríkhi robot thực hiện phép quay (xem Hình 2.3).
y(m)
Thực địa Bản đồ
(a) Trường THCS Nguyễn Đình Chiểu
0 -25
0 -25 -50
0 -30
-40
x (m) -10
-20
(c) Viện nghiên cứu MICA – ĐHBK Hà Nội
Thực địa Bản đồ
Thực địa Bản đồ
Hình 2.3 Một số trường hợp lỗi tích lũy khi xây dựng bản đồ
2.4.1.2 Thích nghi VO cho mơi trường trong nhà
Để nâng cao độ chính xác của bản đồ tái tạo, chúng tơi đề xuất một giải pháp đơn giản
dễ thực hiện để nâng số điểm đặc trưng phát hiện được trên mỗi khung hình Cụ thể chúngtơi tạo các điểm đánh dấu trên đường đi (xem Hình 2.4) với quy trình tạo các điểm đánhdấu trên mặt sàn như sau:
(b) Phĩng to vùng đánh dấu(a) Tạo các điểm đánh dấu
trên dọc hành trình
Hình 2.4 Tạo các điểm đánh dấu dọc hành trình
− Số lượng điểm đánh dấu trên mặt sàn diện tích S = 1m2 cĩ từ 16-20 điểm đánh dấudán cách đều nhau từ 15-20 cm (xem Hình 2.5)
− Hình dáng của điểm đánh dấu là hình cĩ gĩc cạnh chữ nhật, hình vuơng, bình hành(do ưu điểm của đặc trưng Harris Corner [14] phát hiện gĩc) Các mẫu khác như hìnhtrịn, elip khơng khuyến khích sử dụng vì số phát hiện trên các điểm đánh dấu này
là rất ít (xem Hình 2.6d)
− Khơng phân biệt màu sắc của các điểm đánh dấu như trắng, đen, vàng, đỏ (xem Hình2.6b)
Trang 11− Tạo các điểm đánh dấu quá dày (số điểm đánh dấu > 100 điểm/1m2) hoặc quá thưa(số điểm đánh dấu <= 3 điểm /1m2) đều ảnh hưởng đến việc đối sánh ảnh liên tiếp(xem Hình 2.6c), nếu giải ngẫu nhiên khĩ kiểm sốt phân bố đặc trưng (xem Hình2.6a).
Dưới đây là kết quả khi thực hiện thích nghi giải thuật VO* trong nhà với phương pháptạo điểm đánh dấu
(a) Chưa đánh dấu (b) Đã tạo các điểm đánh dấu
Hình 2.5 Minh họa số điểm đặc trưng phát hiện trên mặt sàn
Ngồi ra, chúng tơi thực hiện thêm các thí nghiệm khác nhau thể khẳng định nhữnglập luận phía trên và khuyến cáo cho người phát triển hệ thống khi thực hiện VO* trongmơi trường trong nhà
a) Tạo các điểm đánh dấu ngẫu nhiên b) Không phân biệt màu sắc
d) Phụ thuộc vào hình dạng của mẫu đánh dấu d) Tạo các điểm đánh dấu quá dày
Hình 2.6 Minh họa phương pháp thử nghiệm khi tạo các mẫu đánh dấu
Cách làm này dễ thực hiện song, cho phép nâng cao độ chính xác của hành trình tái tạo sẽđược trình bày chi tiết trong phần thực nghiệm của luận án
Trang 122.4.2 Xây dựng bản đồ topo
Trong luận án này, chúng tôi đi theo hướng tiếp cận chỉ xác định một số điểm mốc phânbiệt trên bản đồ để tạo bản đồ topo Thuật toán FAB-MAP[6] được lựa chọn để thưa hóa cóchọn lọc các vị trí trên bản đồ số liệu Tuy nhiên FAB-MAP thuộc nhóm các phương phápSLAM vừa định vị vừa xây dựng bản đồ không cho phép dẫn đường giữa hai vị trí trongmôi trường Ngoài ra, FAB-MAP được thử nghiệm ngoài trời với camera gắn trên xe chạyvới tốc độ cao, khung cảnh thay đổi liên tục Khi áp dụng vào môi trường trong nhà giảithuật cũng gặp những khó khăn cần khắc phục Trong phần tiếp theo, chúng tôi sẽ trìnhbày sơ lược ý tưởng của giải thuật FAB-MAP gốc đồng thời trình bày các cải thiện và thíchnghi giải thuật này để tạo bản đồ topo và định vị
2.4.2.1 Giải thuật FAB-MAP [6]
2.4.2.2 Thích nghi và cải thiện FAB-MAP xây dựng bản đồ topo
Trong luận án, chúng tôi thích nghi giải thuật FAB-MAP gốc để xây dựng bản đồ topo
ở pha ngoại tuyến là đóng góp chính thứ hai của luận án Để dễ gợi nhớ, chúng tôi tạm gọi
là FAB-MAP* minh họa ở Hình 2.7 dưới đây:
Ánh xạ lên các vị trí bản đồ môi trường
Trang 13(a) Xác định cảnh phân biệt để giảm các quan sát trùng lặp: Khi áp dụng MAP gốc vào môi trường trong nhà với ngữ cảnh là một robot di chuyển với tốc độ chậm(300 mm/s), các quan sát liên tiếp là rất giống nhau ảnh hưởng đến chất lượng của từ điểncũng như khả năng xác định vị trí đã qua.
FAB-Bài toán xác định khung cảnh phân biệt được mô tả như sau: Giả thiết có một chuỗi Nkhung hình liên tiếp I = {I1, I2, , IN} Xác định tập con của Id∈ I với Id= {Ii1, Ii2, , Iid}trong đó các khung cảnh Iij là phân biệt Để xác định Iij với Iik là phân biệt, có thể kiểmchứng bằng hàm khoảng cách D(Iij, Iik)
D(Iij, Iik) = ED(Gist(Iij), Gist(Iik)) (2.4)Trong đó ED là khoảng cách giữa hai vector trong không gian
Việc xác định các khung cảnh riêng biệt thực hiện bằng giải thuật sau đây Đầu vào làmột chuỗi các hình ảnh liên tiếp thu thập từ camera: I = {I1, I2 IN}
- Tính toán sai khác giữa hai khung hình liên tiếp Ii và Ii−1: Sai khác này được địnhnghĩa là khoảng cách Euclid Di giữa hai vector đặc trưng GIST tương ứng Fi, Fi−1
- Kiểm tra nếu Di > θGist thì Ii được lựa chọn là khung hình phân biệt, trong đó θGist
là ngưỡng xác định trước bằng thực nghiệm quyết định số lượng khung hình giữ lại.Theo [20], [18] đặc trưng GIST trích chọn thể hiện các tính chất quan trọng như tính
tự nhiên, tính mở, độ nhám, độ chắc chắn, cho phép trình bày cấu trúc không gian của mộtcảnh Chi tiết đặc trưng GIST có trong PHỤ LỤC A.4 của luận án
Hình 2.8 Xác định các khung cảnh có cấu trúc giống nhau
Để thực hiện điều này, chúng tôi áp dụng nguyên lý trích đặc trưng GIST dựa trên phépbiến đổi Gabor [21] theo các hướng, tần số khác nhau và được tính theo Công thức (2.5):
h(x, y) = e−
1
x2δ2x+y2
Chúng tôi chuẩn hóa ảnh đầu vào được đưa về dạng vuông, chia thành lưới (4 × 4) theo
8 hướng tương ứng Do đó, vector GIST được tính toán sử dụng phổ năng lượng của 32 đápứng Đồng thời tính toán trung bình trên mỗi lưới (16 × 16) điểm ảnh trên mỗi đáp ứng,như thể hiện Như vậy kích thước vector GIST giảm xuống 512 chiều Kết quả trích chọnđặc trưng GIST phục vụ việc phân loại khung cảnh minh họa như Hình 2.8