Luận án tiến sĩ nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị (TT)

Nâng cao độ chính xác của giải thuật xây dựng bản đồ và định vị sử dụng hình ảnh,vốn thường được thiết kế cho môi trường ngoài trời nhưng gặp phải các khó khăn khihoạt động trong môi trư

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

NGUYỄN QUỐC HÙNG

NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ

Chuyên ngành: Khoa học Máy tính

Mã số: 62480101

TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội − 2016

Trang 2

Công trình được hoàn thành tại:

Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:

Vào hồi giờ, ngày tháng năm

Có thể tìm hiểu luận án tại thư viện:

1 Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội

2 Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU Tính cấp thiết, ý nghĩa khoa học của luận án

Năm 2013, theo công bố của Tổ chức Y tế thế giới (WHO) trên thế giới có khoảng 285triệu người suy giảm thị lực, trong đó 246 triệu người có thị lực kém ở mức độ vừa phảiđến mức độ nặng và 39 triệu người mù [19] Tại Việt Nam, theo số liệu của Viện mắt Trungương cung cấp, có khoảng 1.2 triệu người khiếm thị (NKT), trong đó 820.503 người khôngcòn khả năng nhìn thấy ánh sáng Nếu tính cả những người bị các tật về mắt như cận hoặcviễn thì con số này còn lớn hơn rất nhiều

Số lượng NKT lớn, bản thân NKT gặp nhiều khó khăn trong cuộc sống cũng như nắmbắt các cơ hội việc làm Chính vì vậy, trợ giúp NKT là vấn đề thu hút sự quan tâm củanhiều nhà khoa học trong thời gian gần đây Trong số các yêu cầu trợ giúp, trợ giúp địnhhướng là cần thiết và chỉ dẫn để giúp họ tránh các vật cản trên đường đi hay đưa ra cácthông báo về môi trường xung quanh

Trên thực tế, nhiều phương pháp đã được nghiên cứu và triển khai nhằm hỗ trợ địnhhướng cho NKT, như sử dụng gậy [8], chó dẫn đường [8], hay thiết bị điện tử [2] Mỗi phươngpháp có những ưu nhược điểm riêng: gậy dẫn đường bị hạn chế phạm vi phát hiện vật cảntheo kích thước của gậy; chó dẫn đường thường có chi phí cao và gây trở ngại về tâm sinh

lý đối với người dùng; thiết bị điện tử như các điện cực đặt trên lưỡi có thể gây tâm lý ngạingần khi sử dụng

Trong bối cảnh này, nghiên cứu và phát triển một hệ thống trợ giúp dẫn đường hiệuquả và thân thiện trợ giúp NKT vẫn là chủ đề đầy thách thức, động lực để NCS thực hiện

đề tài: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúpdẫn đường cho người khiếm thị”

Mục tiêu và những thách thức

Xuất phát từ ý tưởng tạo ra một hệ thống hỗ trợ giống như một người bạn đồng hành

có khả năng giao tiếp thân thiện và hiệu quả Luận án hướng đến phát triển một hệ thốngtrợ giúp định hướng và cảnh báo vật cản cho NKT sử dụng robot di động

Để đạt được mục tiêu này, robot cần có khả năng nhận biết và di chuyển giữa các vị trítrong môi trường và nhận dạng được các vật cản trên đường đi Do vậy, chúng tôi chia cácmục tiêu đạt được thành ba bài toán cụ thể:

1 Biểu diễn môi trường và định vị: Với mục tiêu dẫn đường cho NKT đi từ vị tríhiện tại đến vị trí mong muốn trong môi trường, robot phải biết mình đang ở đâutrong môi trường và đường đi đến vị trí đích như thế nào Để giải quyết vấn đề này,bản đồ môi trường phải được xây dựng từ trước và robot phải có khả năng định vị từmột vị trí bất kỳ trên bản đồ Mặc dù có nhiều phương pháp đã được đề xuất, hướngtiếp cận tổng quát và bền vững với các yếu tố môi trường đang là những mục tiêu màcác nhà khoa học theo đuổi

2 Phát hiện và ước lượng khoảng cách vật cản: Trong quá trình di chuyển, để đảmbảo an toàn cho NKT cũng như cho sự di chuyển của robot, các vật cản trong môitrường bao gồm vật cản tĩnh và động cần phải được phát hiện và cảnh báo về mức

độ nguy hiểm có thể gây ra Ngoài các thách thức chung của bài toán phát hiện đốitượng trong lĩnh vực thị giác máy tính như điều kiện chiếu sáng thay đổi, che khuất,

Trang 4

bóng, luận án còn phải giải quyết với chất lượng ảnh không tốt do rung lắc của thiết

bị, camera di chuyển và ước lượng khoảng cách giữa NKT và vật cản trong thời gianthực

3 Dẫn đường, điều khiển và tương tác người robot: Trong ngữ cảnh của bài toánrobot dẫn đường thì việc tìm đường tối ưu là một phần quan trọng, đặc biệt với việcdẫn đường cần phải thực hiện với độ chính xác cao trong khi vẫn đảm bảo an toàncho NKT Bên cạnh đó, điều khiển robot di chuyển đúng hành trình, giảm sai số định

vị là một thách thức trong lĩnh vực điều khiển động học Tương tác người-robot phảithân thiện, tự nhiên và hiệu quả để NKT cảm nhận được các trạng thái hệ thống đanghoạt động và đưa ra các phản hồi kịp thời mà không mất đi các giác quan tự nhiên làmột bài toán đòi hỏi nhiều thời gian thử nghiệm trên người dùng khiếm thị

Những điểm mới của luận án

Để giải quyết 03 bài toán nêu trên, chúng tôi đã đề xuất và cải tiến một số phươngpháp với những đóng góp chính sau đây:

1 Đề xuất mô hình biểu diễn môi trường theo hướng tiếp cận lai ngữ nghĩa trong đó bản

đồ số liệu và bản đồ topo được tích hợp cùng với các thông tin về vật cản tĩnh trongmôi trường

2 Nâng cao độ chính xác của giải thuật xây dựng bản đồ và định vị sử dụng hình ảnh,vốn thường được thiết kế cho môi trường ngoài trời nhưng gặp phải các khó khăn khihoạt động trong môi trường trong nhà

3 Đề xuất phương pháp phát hiện một số vật cản phù hợp với ngữ cảnh của bài toánrobot dẫn đường

4 Chứng minh bằng thực nghiệm tính khả thi của giải pháp đề xuất thông qua việc pháttriển ứng dụng trợ giúp định hướng NKT sử dụng robot

Cấu trúc của luận án

Luận án gồm 4 chương với nội dung tóm tắt như sau:

◦ Chương 1: Tổng quan về thống trợ giúp người khiếm thị giới thiệu một sốnghiên cứu trong và ngoài nước về trợ giúp định hướng NKT, phân tích ưu nhược điểmcủa các phương pháp và đề xuất hệ thống “Trợ giúp dẫn đường cho NKT di chuyểntrong môi trường diện hẹp sử dung robot”

◦ Chương 2: Biểu diễn môi trường và định vị đề xuất mô hình biểu diễn môitrường và định vị dựa trên hình ảnh Hai giải thuật với những cải tiến sẽ được giớithiệu là giải thuật đo hành trình VO nhằm xây dựng bản đồ số liệu, giải thuật xâydựng bản đồ topo và định vị FAB-MAP sử dụng hình ảnh

◦ Chương 3: Phát hiện và ước lượng khoảng cách vật cản trình bày một phươngpháp đề xuất cho việc phát hiện vật cản dựa trên kỹ thuật đối sánh ảnh và ước lượngkhoảng cách vật cản dựa trên tính toán ảnh sai khác từ các quan sát khác nhau trên

01 camera

◦ Chương 4: Thử nghiệm và đánh giá hệ thống dẫn đường, trình bày hệ thốngdẫn đường hoàn chỉnh tích hợp các thiết bị phần cứng và phát triển thêm một số chứcnăng khác như tìm đường, điều khiển, tương tác người robot sử dụng các kỹ thuật cơbản sẵn có Phần thử nghiệm và đánh giá trên người dùng khiếm thị 100% không nhìnthấy ánh sáng tại 03 môi trường khác nhau

Trang 5

CHƯƠNG 1

TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP

NGƯỜI KHIẾM THỊ 1.1 Đặt vấn đề

1.2 Các nghiên cứu liên quan

1.2.1 Các nghiên cứu trên thế giới

1.2.2 Các nghiên cứu trong nước

1.2.3 Thảo luận

Các nghiên cứu và phân tích trên đây cho thấy các phương pháp trợ giúp NKT hiện tại

có một số ưu nhược điểm sau:

Các phương pháp sử dụng laser, lidar, siêu âm cho phép xác định nhanh và trợ giúpcảnh báo thông tin vật cản cho NKT hoặc hỗ trợ trong quá trình đi lại Tuy nhiênnhóm các phương pháp này không xác định đối tượng vật cản là gì, mức độ nguy hiểm

ra sao và không có khả năng dẫn đường NKT trong môi trường

Các phương pháp sử dụng hình ảnh đòi hỏi kỹ thuật xử lý hình ảnh phức tạp hơn,tuy nhiên lượng tin nhiều hơn, cho phép phân loại đối tượng, xác định khoảng cách

và mức độ nguy hiểm Cho nên nhóm các phương pháp này gặp nhiều thách thức củacác bài toán thị giác máy tính, dẫn hướng sử dụng hình ảnh, v.v

Trong tất cả các phương pháp nêu trên, không có phương pháp nào thực hiện dẫnđường cho NKT đến vị trí mong muốn mà chỉ hỗ trợ trong quá trình đi lại Cácphương pháp cảnh báo vật cản chỉ dừng lại ở cảnh báo có hay không mà không chỉ rõđối tượng và mức độ nguy hiểm là gì

1.3 Mục tiêu nghiên cứu và phương pháp đề xuất

1.3.1 Mục tiêu và phạm vi nghiên cứu

Trong khuôn khổ của LATS, chúng tôi đi theo hướng tiếp cận sử dụng cảm biến camerabởi lượng thông tin hình ảnh thu thập được phong phú, cho phép đồng thời thực hiện bàitoán dẫn đường và phát hiện vật cản Hơn nữa, cảm biến hình ảnh ngày càng có giá thành

rẻ và thông dụng với người dùng Mục tiêu chúng tôi muốn hướng đến là:

− Nghiên cứu và phát triển một số kỹ thuật định vị sử dụng thông tin hình ảnh hiệu quảphù hợp với môi trường trong nhà

− Ứng dụng triển khai hệ thống trợ giúp dẫn đường và cảnh báo vật cản cho NKT mộtcách hiệu quả và thân thiện

Trong LATS này, trợ giúp dẫn đường được hiểu là dẫn NKT di chuyển đến vị trí mongmuốn trên bản đồ với các cảnh báo về vật cản Khi thiết kế một hệ thống, chúng tôi đều phảidựa trên một số ràng buộc theo đặc thù của môi trường triển khai Môi trường trong nhàhay ngoài trời đều có những thách thức riêng Do vậy chúng tôi giới hạn pham vi nghiên cứu

là môi trường trong nhà diện hẹp ví dụ như hành lang tòa nhà có gắn các thiết bị (wi-fi),

Trang 6

cảm biến (camera) cho phép thu thập các tín hiệu của môi trường nhằm phục vụ cho cácứng dụng khác nhau Hệ thống đề xuất chỉ phục vụ 01 người dùng tại một thời điểm.1.3.2 Phương pháp đề xuất

Các thành phần chính của hệ thống đề xuất được mô tả như trong Hình 1.1 gồm robot

di động có gắn camera thu nhận hình ảnh môi trường, thực hiện các phép xử lý tính toán

để trả lời 02 câu hỏi chính: i) robot đang ở đâu? có những vật cản gì? ii) làm thế nào để dẫnNKT đi đến vị trí mong muốn? khi NKT sử dụng điện thoại di động có kết nối không dây

để điều khiển và nhận phản hồi từ hệ thống Trong quá trình dẫn, NKT bám vào một điểmtrên robot để đi theo

thoâng minh

• Camera

Hình 1.1 Các thành phần chính của hệ thống đề xuất Robot trợ giúp NKT

Để trả lời các câu hỏi đã đặt ra, 5 bài toán sau sẽ lần lượt giải quyết trong các chương

Tìm đường và điều khiển di chuyển (chương 4): Để dẫn đường, robot phải tìm đường

từ vị trí hiện tại đến vị trí đích và phải được điều khiển để di chuyển giữa hai vị trí

Tương tác người - hệ thống (chương 4): Yêu cầu của người dùng và đáp ứng của hệthống phải được thực hiện một cách tự nhiên, thân thiện và hiệu quả

Trong phạm vi nghiên cứu của luận án, chúng tôi tập trung nghiên cứu giải quyết bàitoán 1, 2, 3 và phát triển ứng dụng hoàn chỉnh Các bài toán còn lại được giải quyết dựatrên các công cụ có sẵn

1.4 Kết luận chương 1

Trang 7

CHƯƠNG 2

BIỂU DIỄN MÔI TRƯỜNG VÀ ĐỊNH VỊ 2.1 Giới thiệu chung

2.2 Những nghiên cứu liên quan

2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn môi trường

Xuất phát từ mục tiêu của luận án nghiên cứu phương pháp định vị sử dụng hình ảnh

hỗ trợ cho bài toán trợ giúp dẫn đường cho NKT, chúng tôi đề xuất mô hình biểu diễn môitrường theo hướng tiếp cận lai ngữ nghĩa

Ý nghĩa của cụm từ lai ngữ nghĩa được giải thích như sau Bản đồ của môi trường đượccấu thành từ bản đồ số liệu và bản đồ topo Ngoài ra, các thông tin vật cản tĩnh của môitrường ở từng vị trí trên bản đồ cũng được xác định và đưa vào mô hình biểu diễn môitrường như mô tả trong Hình 2.1 dưới đây:

◦ Bản đồ được biểu diễn theo cấu trúc topo gồm một tập

N điểm trong môi trường sao cho tồn tại đường đi giữa

hai điểm kề cận:

L i Điểm mốc

Trong đó:

đã được định nghĩa Tọa độ được tính theo đơn vị (m)

Hình 2.1 Mô hình biểu diễn môi trường theo hướng tiếp cận lai ngữ nghĩa

Để biểu diễn môi trường theo mô hình này, các nhiệm vụ sau cần thực hiện:

Trang 8

1 Xác định các vị trí mốc trong môi trường Li với i = 1, N

2 Xác định tọa độ các vị trí mốc trong môi trường Mi = (xi, yi, zi)

3 Xác định các vật cản Oi = {Oi 1, Oi 2 Oi j} trên ảnh Ii thu tại vị trí Li Tập vật cản

Oi thuộc các tập định nghĩa từ trước và hình dạng vật cản không ảnh hưởng đến môhình biểu diễn, chi tiết phương pháp xác định vật cản được trình bày tại CHƯƠNGIII của luận án

2.4 Phương pháp xây dựng bản đồ môi trường

2.4.1 Xây dựng bản đồ số liệu

Bài toán đo hành trình sử dụng hình ảnh được phát biểu như sau: Cho trước chuỗi hìnhảnh liên tiếp thu thập từ camera I = {I1, I2, , IN} trong đó N là tổng số ảnh thu thập được.Xác định vị trí camera của trong quá trình di chuyển P = {P1, P2, PN −1} Nếu vị trí banđầu được biết trước, vị trí tiếp theo được xác định bởi một phép biến đổi T trừ đi vị trí trước

đó đến vị trí hiện tại, trong đó T cấu thành từ chuyển động tịnh tiến ti

i−1 và chuyển độngquay Ri

i−1 của camera giữa thời điểm hiện tại i và thời điểm trước đó i − 1

Ti−1i =Ri

i−1 ti i−1

0 1

(2.1)trong đó Ti

i−1∈ ℜ3×3, ti

i−1∈ ℜ1×3, Ri

i−1 ∈ ℜ2×3.Phương pháp VO của Van Hamme và đồng nghiệp đề xuất năm 2011 [13] được đánh giátrong môi trường ngoài trời với camera lắp đặt trên xe chạy với tốc độ 70km/h Khi áp dụngvào môi trường trong nhà với camera gắn trên robot đi với tốc độ chậm, phương pháp nàygặp một số khó khăn và thách thức Trong phần dưới đây, chúng tôi sẽ trình bày trước tiênphương pháp VO, các thích nghi VO trong nhà gọi tắt là VO* sẽ được trình bày sau đó.2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mô hình không chắc chắn

Ý tưởng của giải thuật VO đề xuất trong [13] sử dụng mô hình không chắc chắn củachuyển động của camera và chuyển động của xe để tính toán các tứ giác tương ứng với cácđiểm đặc trưng tại khung hình hiện tại cũng như chuyển động của các điểm đặc trưng trongkhung hình trước đó Sau đó chuyển động của camera giữa hai khung hình liên tiếp đượcước lượng từ sự chồng lấp của các tứ giác

Với chuỗi hình ảnh liên tiếp thu thập được I = {I1, I2, , IN}, thuật toán VO gồm N −1bước lặp, tại bước lặp thứ i với i = 2, N thực hiện các bước:

1 Trích chọn đặc trưng Harris Corner[14] trên khung hình Ii Chi tiết phương pháp tríchchọn đặc trưng có trong PHỤ LỤC A.1 của luận án

E(u, v) =X

w

[I(x + u, y + v) − I(x, y)]2 (2.2)

Trong đó: E(u, v) là hàm tương quan tính toán trên ảnh I; u, v là dịch chuyển của điểm

x, y trên hàm cửa số w, khi đó w nhận hai giá trị 0/1 hoặc thông qua hàm Gaussianxác định giá trị cho w

Kết quả thu được là tập Mi điểm đặc trưng {KPij}với j = 1, Mi Số điểm đặc trưngquyết định bởi ngưỡng θV O đưa vào tính Công thức (2.3) KPij phụ thuộc vào R làviệc lấy ngưỡng θV O (R ≥ θV O) và R là các đáp ứng góc tính như sau:

R = λ1λ2 − k(λ1+ λ2)2 (2.3)

Trang 9

2 Tính toán các P UTij tương ứng với các đặc trưng KPij dựa trên mô hình không chắcchắn của camera Cụ thể mỗi P UTij là một hình tứ giác bao quanh điểm KPij Mỗigóc của tứ giác được xác định từ một tổ hợp của bộ (góc ngẩng, góc nghiêng) củacamera.

3 Tính toán các MUTij tương ứng với các đặc trưng Harris KPij dựa trên mô hìnhchuyển động không chắc chắn của robot Cụ thể mỗi MUTij là một hình tứ giác baoquanh điểm KPij Mỗi góc của tứ giác được xác định từ một tổ hợp của bộ (vận tốc,góc lái) của robot

4 Tạo ảnh tương đồng giữa các P UTij ở thời điểm i với các MUTi−1j ở thời điểm trước

đó i − 1 Ảnh này thể hiện mức độ tương đồng trong không gian của góc lái và vậntốc, Giá trị điểm ảnh lớn nhất biểu thị tọa độ sự tương đồng giữa PUT và MUT lớnnhất, tương ứng với giá trị góc lái và vận tốc cần xác định cho phép ước lượng tham

số chuyển động của camera, từ đó tái tạo lại hành trình di chuyển

Hành trình đo được

Ước lượng tham số

T i i−1 ; R i i−1

PUT: Perspective Uncertainty Tetragons MUT: Motion Uncertainty Tetragon

Hình 2.2 Các bước giải thuật đo hành trình bằng thông tin hình ảnh VO

Khi triển khai giải thuật VO ở một số môi trường trong nhà khác nhau (hành lang của

Trang 10

tịa nhà) thì hành trình tái tạo được bị sai số nhiều so với thực tế, nhất là tại một số vị tríkhi robot thực hiện phép quay (xem Hình 2.3).

y(m)

Thực địa Bản đồ

(a) Trường THCS Nguyễn Đình Chiểu

0 -25

0 -25 -50

0 -30

-40

x (m) -10

-20

(c) Viện nghiên cứu MICA – ĐHBK Hà Nội

Thực địa Bản đồ

Hình 2.3 Một số trường hợp lỗi tích lũy khi xây dựng bản đồ

2.4.1.2 Thích nghi VO cho mơi trường trong nhà

Để nâng cao độ chính xác của bản đồ tái tạo, chúng tơi đề xuất một giải pháp đơn giản

dễ thực hiện để nâng số điểm đặc trưng phát hiện được trên mỗi khung hình Cụ thể chúngtơi tạo các điểm đánh dấu trên đường đi (xem Hình 2.4) với quy trình tạo các điểm đánhdấu trên mặt sàn như sau:

(b) Phĩng to vùng đánh dấu(a) Tạo các điểm đánh dấu

trên dọc hành trình

Hình 2.4 Tạo các điểm đánh dấu dọc hành trình

− Số lượng điểm đánh dấu trên mặt sàn diện tích S = 1m2 cĩ từ 16-20 điểm đánh dấudán cách đều nhau từ 15-20 cm (xem Hình 2.5)

− Hình dáng của điểm đánh dấu là hình cĩ gĩc cạnh chữ nhật, hình vuơng, bình hành(do ưu điểm của đặc trưng Harris Corner [14] phát hiện gĩc) Các mẫu khác như hìnhtrịn, elip khơng khuyến khích sử dụng vì số phát hiện trên các điểm đánh dấu này

là rất ít (xem Hình 2.6d)

− Khơng phân biệt màu sắc của các điểm đánh dấu như trắng, đen, vàng, đỏ (xem Hình2.6b)

Trang 11

− Tạo các điểm đánh dấu quá dày (số điểm đánh dấu > 100 điểm/1m2) hoặc quá thưa(số điểm đánh dấu <= 3 điểm /1m2) đều ảnh hưởng đến việc đối sánh ảnh liên tiếp(xem Hình 2.6c), nếu giải ngẫu nhiên khĩ kiểm sốt phân bố đặc trưng (xem Hình2.6a).

Dưới đây là kết quả khi thực hiện thích nghi giải thuật VO* trong nhà với phương pháptạo điểm đánh dấu

(a) Chưa đánh dấu (b) Đã tạo các điểm đánh dấu

Hình 2.5 Minh họa số điểm đặc trưng phát hiện trên mặt sàn

Ngồi ra, chúng tơi thực hiện thêm các thí nghiệm khác nhau thể khẳng định nhữnglập luận phía trên và khuyến cáo cho người phát triển hệ thống khi thực hiện VO* trongmơi trường trong nhà

a) Tạo các điểm đánh dấu ngẫu nhiên b) Không phân biệt màu sắc

d) Phụ thuộc vào hình dạng của mẫu đánh dấu d) Tạo các điểm đánh dấu quá dày

Hình 2.6 Minh họa phương pháp thử nghiệm khi tạo các mẫu đánh dấu

Cách làm này dễ thực hiện song, cho phép nâng cao độ chính xác của hành trình tái tạo sẽđược trình bày chi tiết trong phần thực nghiệm của luận án

Trang 12

2.4.2 Xây dựng bản đồ topo

Trong luận án này, chúng tôi đi theo hướng tiếp cận chỉ xác định một số điểm mốc phânbiệt trên bản đồ để tạo bản đồ topo Thuật toán FAB-MAP[6] được lựa chọn để thưa hóa cóchọn lọc các vị trí trên bản đồ số liệu Tuy nhiên FAB-MAP thuộc nhóm các phương phápSLAM vừa định vị vừa xây dựng bản đồ không cho phép dẫn đường giữa hai vị trí trongmôi trường Ngoài ra, FAB-MAP được thử nghiệm ngoài trời với camera gắn trên xe chạyvới tốc độ cao, khung cảnh thay đổi liên tục Khi áp dụng vào môi trường trong nhà giảithuật cũng gặp những khó khăn cần khắc phục Trong phần tiếp theo, chúng tôi sẽ trìnhbày sơ lược ý tưởng của giải thuật FAB-MAP gốc đồng thời trình bày các cải thiện và thíchnghi giải thuật này để tạo bản đồ topo và định vị

2.4.2.1 Giải thuật FAB-MAP [6]

2.4.2.2 Thích nghi và cải thiện FAB-MAP xây dựng bản đồ topo

Trong luận án, chúng tôi thích nghi giải thuật FAB-MAP gốc để xây dựng bản đồ topo

ở pha ngoại tuyến là đóng góp chính thứ hai của luận án Để dễ gợi nhớ, chúng tôi tạm gọi

là FAB-MAP* minh họa ở Hình 2.7 dưới đây:

Ánh xạ lên các vị trí bản đồ môi trường

Trang 13

(a) Xác định cảnh phân biệt để giảm các quan sát trùng lặp: Khi áp dụng MAP gốc vào môi trường trong nhà với ngữ cảnh là một robot di chuyển với tốc độ chậm(300 mm/s), các quan sát liên tiếp là rất giống nhau ảnh hưởng đến chất lượng của từ điểncũng như khả năng xác định vị trí đã qua.

FAB-Bài toán xác định khung cảnh phân biệt được mô tả như sau: Giả thiết có một chuỗi Nkhung hình liên tiếp I = {I1, I2, , IN} Xác định tập con của Id∈ I với Id= {Ii1, Ii2, , Iid}trong đó các khung cảnh Iij là phân biệt Để xác định Iij với Iik là phân biệt, có thể kiểmchứng bằng hàm khoảng cách D(Iij, Iik)

D(Iij, Iik) = ED(Gist(Iij), Gist(Iik)) (2.4)Trong đó ED là khoảng cách giữa hai vector trong không gian

Việc xác định các khung cảnh riêng biệt thực hiện bằng giải thuật sau đây Đầu vào làmột chuỗi các hình ảnh liên tiếp thu thập từ camera: I = {I1, I2 IN}

- Tính toán sai khác giữa hai khung hình liên tiếp Ii và Ii−1: Sai khác này được địnhnghĩa là khoảng cách Euclid Di giữa hai vector đặc trưng GIST tương ứng Fi, Fi−1

- Kiểm tra nếu Di > θGist thì Ii được lựa chọn là khung hình phân biệt, trong đó θGist

là ngưỡng xác định trước bằng thực nghiệm quyết định số lượng khung hình giữ lại.Theo [20], [18] đặc trưng GIST trích chọn thể hiện các tính chất quan trọng như tính

tự nhiên, tính mở, độ nhám, độ chắc chắn, cho phép trình bày cấu trúc không gian của mộtcảnh Chi tiết đặc trưng GIST có trong PHỤ LỤC A.4 của luận án

Hình 2.8 Xác định các khung cảnh có cấu trúc giống nhau

Để thực hiện điều này, chúng tôi áp dụng nguyên lý trích đặc trưng GIST dựa trên phépbiến đổi Gabor [21] theo các hướng, tần số khác nhau và được tính theo Công thức (2.5):

h(x, y) = e−

1

x2δ2x+y2

Chúng tôi chuẩn hóa ảnh đầu vào được đưa về dạng vuông, chia thành lưới (4 × 4) theo

8 hướng tương ứng Do đó, vector GIST được tính toán sử dụng phổ năng lượng của 32 đápứng Đồng thời tính toán trung bình trên mỗi lưới (16 × 16) điểm ảnh trên mỗi đáp ứng,như thể hiện Như vậy kích thước vector GIST giảm xuống 512 chiều Kết quả trích chọnđặc trưng GIST phục vụ việc phân loại khung cảnh minh họa như Hình 2.8

Định dạng
Số trang	27
Dung lượng	1,87 MB