Nghiên cứu giải pháp nâng cao tốc độ xử lý tín hiệu trong hệ thống thị giác nổi tt

Mục đích nghiên cứu Nghiên cứu các giải pháp cụ thể để cải tiến thuật toán lan truyền tin cậy BP nhằm tăng tốc độ thực hiện và giảm dung lượng bộ nhớ yêu cầu khi thực hiện bản đồ độ chê

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

ĐOÀN VĂN TUẤN

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ TÍN HIỆU

TRONG HỆ THỐNG THỊ GIÁC NỔI

Chuyên ngành: Kỹ thuật điện tử

Mã số: 9 52 02 03

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà Nội - 2019

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ - BỘ QUỐC PHÒNG

Người hướng dẫn khoa học:

1 TS Hà Hữu Huy

2 PGS TS Bùi Trung Thành

Phản biện 1: PGS.TS Hoàng Mạnh Thắng

Trường Đại học Bách khoa Hà Nội

Phản biện 2: PGS.TS Lê Nhật Thăng

Học viện Công nghệ Bưu chính Viễn thông

Phản biện 3: TS Vũ Lê Hà

Viện Khoa học và Công nghệ quân sự

Luận án được bảo vệ tại Hội đồng đánh giá luận án cấp Viện và họp tại viện Khoa học và Công nghệ quân sự vào hồi giờ ngày tháng năm 2019

Có thể tìm hiểu luận án tại:

- Thư viện Viện Khoa học và Công nghệ quân sự

- Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Ngày nay, khoa học kỹ thuật phát triển mạnh mẽ điển hình là cuộc cách mạng công nghiệp 4.0 được khởi xướng từ nước Đức năm 2013 Một trong các yếu tố làm nên cuộc cách mạng công nghiệp 4.0 là robot sẽ dần thay sức lao động của con người và cùng con người làm việc trong các nhà máy, công xưởng Do đó, robot phải xử lý thông tin trong môi trường 3 chiều (3D) thông qua hệ thống thị giác để định hướng, định vị, nhận dạng

và xác định chính xác vị trí các vật xung quanh được gọi là thị giác nổi hay thị giác robot 3D Ngoài ra, thị giác nổi còn được ứng dụng trong nhận dạng, tái tạo, định vị, phẫu thuật, xe tự hành, xây dựng bản đồ và trong nghệ thuật

Con người mong muốn tạo ra được hệ thị giác robot giống như thị giác của con người, hệ thị giác đơn giản nhất là sử dụng stereo camera bao gồm hai camera thay cho hai mắt của con người kết hợp với hệ thống nhúng xử

lý dữ liệu đóng vai trò như bộ não Thông tin ảnh stereo camera được xử lý thông qua các thuật toán trên nền tảng xử lý như CPU, DSP, GPU, FPGA

và ASIC kết hợp với các ngôn ngữ thực hiện như Matlab, OpenCV, CUDA… Một hệ thống như vậy được gọi là hệ thống thị giác nổi Các thách thức lớn đối với hệ thống thị giác nổi dùng stereo camera là nguồn dữ liệu từ ảnh stereo camera ngày càng tăng, tốc độ thực hiện đòi hỏi đáp ứng thời gian thực, độ tin cậy cao và dung lượng bộ nhớ hữu hạn Để giải quyết bài toán này, một trong các giải pháp hiệu quả nhất là phát triển các thuật toán xử lý, trong khi các nền tảng xử lý chưa phát triển kịp theo nhu cầu của con người

2 Mục đích nghiên cứu

Nghiên cứu các giải pháp cụ thể để cải tiến thuật toán lan truyền tin cậy BP nhằm tăng tốc độ thực hiện và giảm dung lượng bộ nhớ yêu cầu khi thực hiện bản đồ độ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày trong hệ thống thị giác nổi ứng dụng cho thị giác robot 3D

Trang 4

3 Đối tượng, phạm vi nghiên cứu

Luận án tập trung nghiên cứu giải pháp giảm năng lượng chi phí của thuật toán toàn cục lan truyền tin cậy BP thực hiện bản đồ độ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy Ảnh stereo camera được lấy từ tập dữ liệu kiểm thử

Nghiên cứu, đề xuất giải pháp cải tiến thuật toán lan truyền tin cậy BP nhằm nâng cao hiệu quả thực hiện bản đồ độ chênh lệch

4 Phương pháp nghiên cứu

Luận án tập trung nghiên cứu giải pháp giảm giá trị chi phí của thuật toán lan truyền tin cậy thực hiện bản đồ độ chênh lệch từ ảnh stereo camera

có độ phân giải cao, mật độ điểm tương ứng dầy Phân tích các thuật toán cải tiến thuật toán BP từ đó đề xuất giải pháp nhằm giảm giá trị chi phí của thuật toán BP và lựa chọn nền tảng xử lý phù hợp nhằm đạt được mục đích

đề ra của luận án Từ phân tích toán học, biểu thức hóa các tham số, luận án dùng các công cụ mô phỏng, dữ liệu từ tập dữ liệu kiểm thử để chứng minh tính đúng đắn của các kết quả nghiên cứu

5 Ý nghĩa khoa học và thực tiễn của luận án

Bản đồ chênh lệch (disparity map) của ảnh stereo camera có vai trò rất

quan trọng trong thị giác Robot 3D Từ bản đồ độ chênh lệch, kết hợp với phép đạc tam giác sẽ cho bản đồ độ sâu và ước lượng khoảng cách từ camera đến vật được Kĩ thuật này được áp dụng rộng rãi trong công nghiệp, robot, phẫu thuật, xe tự hành, định vị và xây dựng bản đồ

Luận án đã đề xuất hai giải pháp giảm hàm chi phí cho thuật toán lan truyền tin cậy BP Giải pháp thứ nhất thực hiện giảm số lượng các nút trong

mô hình trường ngẫu nhiên Markov thông qua các vòng lặp dùng phương pháp chia thô đến mịn CTF mức 1 Giải pháp thứ hai thực hiện kết hợp

giữa thuật toán cục bộ CT (Census transform) và thuật toán toàn cục BP đã

cải thiện giảm năng lượng chi phí của nút xuất phát ban đầu khi thực hiện lan truyền thông điệp của thuật toán BP

6 Bố cục của luận án

Toàn bộ luận án gồm 137 trang trình bày thành 3 chương, 40 hình vẽ,

29 bảng và 14 biểu đồ

Trang 5

Chương 1:

HỆ THỐNG THỊ GIÁC NỔI 1.1 Tổng quan thị giác nổi

Thị giác nổi là thành phần rất quan trọng trong thị giác máy và được nhiều nhà khoa học nghiên cứu và phát triển trong hai thập kỉ gần đây Hệ thống thị giác nổi được áp dụng khá rộng rãi trong nhiều lĩnh vực như robot, xe tự hành, y khoa, nghệ thuật, giải trí và đặc biệt trong cuộc các mạng công nghiệp 4.0 [59] Con người muốn tạo ra một hệ thị giác robot làm việc được trong môi trường 3 chiều gần giống với thị giác con người được gọi là hệ thống thị giác nổi như Hình 1.1, khi đó robot và con người cùng nhau hoạt động sản xuất, tương tác lẫn nhau [107]

Hình 1.1 Sơ đồ khối hệ thống thị giác nổi

1.2 Mô hình camera

1.3 Phương pháp hiệu chuẩn camera

Phương pháp hiệu chuẩn camera sẽ quyết định đến tốc độ thực hiện và

độ tin cậy của các tham số bên trong và bên ngoài của camera Hiện nay có

một số phương pháp hiệu chuẩn ảnh kinh điển như Hall [39], Salvi [37],

Tsai [91] và Weng [76] dựa trên các mô hình camera tương ứng Mỗi mô

hình sẽ có phương pháp hiệu chuẩn thích hợp và có ưu và nhược điểm khác nhau

1.4 Phương pháp hiệu chỉnh ảnh

Các phương pháp hiệu chỉnh ảnh đều làm tối ưu quá trình đồng nhất của ảnh stereo camera và nâng cao độ tin cậy xử lý thông tin ảnh Phương pháp hiệu chỉnh được chia làm hai dạng Dạng thứ nhất, các phương pháp hiệu chỉnh sau khi đã hiệu chuẩn [9], [105] Dạng thứ hai, các phương pháp hiệu chỉnh thực hiện mà không hiệu chuẩn [26]

ứng dụng Khối xử lý

thông tin ảnh

Trang 6

1.5 Các thuật toán so khớp

Trong khoảng hai thập kỉ qua, đã có rất nhiều thuật toán so khớp được

đề xuất Thuật toán so khớp được phân loại theo ảnh stereo camera Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa như SIFT [10], SURF [66] thường được dùng cho hệ thị giác nổi có yêu cầu tốc độ cao và dung lượng bộ nhớ yêu cầu thấp tuy nhiên không yêu cầu độ tin cậy cao, thường được áp dụng vào các hệ thống định vị, xây dựng bản đồ hay SLAM [36] và các xe tự hành Các thuật toán

so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy như [7], [44] thường được dùng cho các hệ thị giác nổi yêu cầu độ tin cậy cao, thường được áp dụng vào các hệ kiểm tra sản phẩm trong công nghiệp, hệ thị giác 3D của thị giác robot và trong phẫu thuật hay tái tạo đối tượng, tuy nhiên, độ phức tạp tính toán lớn và dung lượng bộ nhớ yêu cầu cao Thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy được chia làm ba loại chính là thuật toán cục bộ [15], [101], thuật toán toàn cục [48], [78] và thuật toán lai [24], [90]

1.6 Nền tảng xử lý trong hệ thống thị giác nổi

- Nền tảng xử lý dùng CPU

- Nền tảng xử lý dùng DSP

- Nền tảng xử lý dùng GPU

- Nền tảng xử lý dùng FPGA/ASIC

1.7 Đánh giá các nền tảng xử lý trong hệ thị giác nổi

Từ CPU→DSP→GPU→FPGA→ASIC, hiệu suất xử lý tăng tuần tự, trong khi chi phí và công suất tiêu thụ giảm tương ứng Thuật toán thị giác nổi có tính linh hoạt hơn và chu kỳ phát triển ngắn, trong khi phần cứng thực hiện có chu kỳ thiết kế dài hơn với độ linh hoạt thiết kế kém hơn bởi

vì đồng thời phải xem xét tối ưu thuật toán và thu thập bản đồ phần cứng

Từ quan điểm của thực tiễn, hệ thống phần cứng xử lý thị giác nổi cần được tiếp cận hơn cho hệ thống thị giác nổi thời gian thực bởi vì nó tiêu thụ công suất thấp và giá thành rẻ hơn

Trang 7

1.8 Các hướng nghiên cứu nhằm nâng cao hiệu quả của hệ thống thị giác nổi

- Phương pháp phân đoạn ảnh và tối ưu hóa phân cấp

- Điều chỉnh vùng đồng nhất và không nhìn thấy

- Phương pháp cải thiện tối thiểu giá trị chi phí cho sự so khớp của điểm ảnh

- Phương pháp tối ưu hóa liên kết

lý thông tin ảnh sẽ quyết định chính đến hiệu quả của hệ thống bao gồm cả phần mềm và phần cứng Phần mềm là ngôn ngữ lập trình thực hiện các thuật toán xử lý bao gồm các thuật toán hiệu chỉnh ảnh, các thuật toán so khớp Trong đó thì vai trò của thuật toán so khớp sẽ ảnh hưởng chủ yếu đến hiệu quả của hệ thống Phần cứng là các nền tảng xử lý thực hiện các thuật toán xử lý và nó cũng đóng vai trò nâng cao hiệu quả của hệ thống thị giác nổi Ngoài ra, việc lựa chọn phù hợp giữa nền tảng xử lý và thuật toán so khớp cũng ảnh hướng đến tốc độ thực hiện của hệ thống thị giác nổi Phần cứng được lựa chọn thực hiện là nền tảng xử lý GPU của Nvidia GXT 750Ti với bộ nhớ 2GB, 460 nhân và băng thông 128 bit dùng phần mềm CUDA 7.5 và trình biên dịch QT creator kết hợp với CPU Intel core i7, RAM 8 GB với hệ điều hành Window 8.1 Nền tảng xử lý GPU được lựa chọn vì nó hỗ trợ cấu trúc xử lý song song, có nhiều nhân xử lý, băng thông rộng và bộ nhớ ngày càng được tăng lên phù hợp với chương trình thực nghiệm của luận án

Trang 8

Chương 2:

NGHIÊN CỨU CÁC THUẬT TOÁN LAN TRUYỀN TIN CẬY BP

VÀ XÂY DỰNG CÁC PHƯƠNG PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ

TRONG HỆ THỐNG THỊ GIÁC NỔI 2.1 Trường ngẫu nhiên Markov

Trường ngẫu nhiên Markov (MRF: Markov Random Field) là một

nhánh của lý thuyết xác suất Trường ngẫu nhiên Markov được sử dụng như là một công cụ để xử lý các mô hình hóa dữ liệu ảnh, được kết hợp với các thuật toán tiên tiến hiện nay Ngoài ra, trường ngẫu nhiên Markov được

sử dụng như là các phương tiện tạo ra các kết quả suy luận về hình ảnh Các suy luận liên quan về hình ảnh cơ bản và cấu trúc khuôn hình sẽ giải quyết các vấn đề như tái tạo lại ảnh, phân đoạn ảnh, thị giác nổi và tạo dán nhãn đối tượng Mô hình trường ngẫu nhiên Markov thường có hai dạng là dạng hình cây và dạng hình lưới

2.2 Thuật toán lan truyền tin cậy BP ứng dụng cho thị giác nổi

Thuật toán lan truyền tin cậy BP sử dụng các thông điệp chứa các giá trị chênh lệch của điểm tương ứng và di chuyển giữa các nút theo phương pháp lặp để thực hiện suy luận trên mô hình đồ thị Phương pháp này cung cấp suy luận chính xác với các mô hình dạng cây và cung cấp suy luận gần đúng cho mô hình dạng lưới Thuật toán lan truyền tin cậy được áp dụng để xác định MAP trong các mô hình trường ngẫu nhiên Markov cho các vấn

đề về thị giác nổi

2.3 Thuật toán cục bộ CT

Thuật toán cục bộ CT (Census transform) là thuật toán biến đổi thống

kê cục bộ không tham số, nó không phụ thuộc vào điều kiện ánh sáng của ảnh [86] Nguyên lý hoạt động của CT là biến đổi mỗi điểm ảnh thành một

chuỗi bit có độ dài N bit với kiến trúc không gian cục bộ Đối với mỗi điểm

ảnh lân cận ngoại trừ điểm trung tâm sẽ biến đổi tương ứng thành một bit

trong chuỗi N bit theo ngưỡng nếu giá trị cường độ sáng (intensity), bit lân

cận lớn hơn giá trị cường độ bit trung tâm thì tương ứng với bit bằng 1 ngoài ra thì bit bằng 0

Trang 9

2.4 Các giải pháp cải tiến tốc độ xử lý của thuật toán lan truyền tin cậy BP

- Tính toán song song

- Giảm độ phức tạp tính toán

- Giảm dung lượng bộ nhớ yêu cầu khi thực hiện

- Tối thiểu thông điệp cập nhật

- Tối ưu cách thức truy cập bộ nhớ

- Tái sử dụng bộ nhớ

- Nâng cao độ tin cậy

- Tối ưu hóa liên kết

- Lựa chọn thuật toán xử lý và nền tảng xử lý phù hợp

Đề tài luận án đề xuất hai giải pháp để nâng cao tốc độ xử lý cho thuật toán lan truyền tin cậy BP là giải pháp giảm hàm chí phí và giải pháp tối ưu

hóa kết hợp

2.5 Đề xuất giải pháp giảm hàm chi phí

2.5.1 Thuật toán đề xuất 1

Mô hình thuật toán đề xuất 1 (CFBP) được xây dựng dựa trên mô hình trường ngẫu nhiên Markov dạng hình lưới, nút có liên kết 4 như Hình 2.16

Xét G = (E, V) trong đó G là mô hình đồ thị, E là tập các nút , V là tập các

cạnh Nút là nhãn được gán giá trị độ chênh lệch cường độ sáng của điểm tương ứng trên ảnh trái và ảnh phải của ảnh stereo camera, thường được gọi

là giá trị dữ liệu hay hàm dữ liệu Cạnh là nhãn được gán giá trị độ chênh lệch của hai nút lân cận, thường được gọi là giá trị nhẵn hay hàm nhẵn

Hình 2.16 Sơ đồ mô hình thuật toán đề xuất 1

Trang 10

Từ mô hình thuật toán đề xuất 1 cho thấy thuật toán đề xuất đã sử dụng phương pháp chia thô đến mịn CTF mức 1 như Hình 2.17 để giảm số lượng các nút sau các vòng lặp Phương pháp chia thô đến mịn CTF

(Coarse to Fine) dùng để suy luận giảm số lượng các nút theo các mức Sau khi thực hiện CTF mức l thì số lượng nút trên vòng lặp hiện tại sẽ giảm

hiện suy luận 4 nút về 1 nút được xác định theo công thức (2.36) Thông điệp trong thuật toán đề xuất lan truyền theo sơ đồ song song như Hình 2.18 Nút xuất phát ban đầu được lựa chọn là nút có gán nhãn (0, 0) với các giá trị thông điệp ban đầu được đặt được đặt là m'00 và m0,0' 0

Giá trị chi phí khi thực hiện chia thô đến mịn CTF mức 1 là:

k và được xác định theo công thức (2.37)

Xét ảnh stereo camera có độ phân giải là m, n và k trong đó m là số lượng điểm ảnh theo hàng, n là số lượng điểm ảnh theo cột và k là số lượng các

mức chênh lệch độ sâu của ảnh

2

k k

Trang 11

số lượng mức chênh lệch độ sâu của điểm ảnh tương ứng và ký liệu là k '

Thông điệp chứa giá trị chênh lệch được gán cho mỗi nhãn, giá trị này thể hiện độ tin cậy cho mỗi nút mà nó truyền đến từ các nút lân cận và được ký hiệu là m '

Thông điệp cập nhật tại vòng lặp t được xác định là:

trong đó p' là hệ số tỉ lệ tăng, q' là ngưỡng dừng tăng

Khi đó thông điệp cập nhật được xác định:

Trang 12

trong đó I L( , )x y là độ xám của ảnh trái tại tọa độ ( , )x y , I R(xx y i, ) là

độ xám của ảnh phải tại tọa độ (xx y i, ) của ảnh stereo camera

Mô hình thuật toán đề xuất 2 (CFCSBP) có cấu trúc giống với mô hình

đề xuất 1 như Hình 2.20, tuy nhiên, có điểm khác giữa hai mô hình này là trong khi thuật toán đề xuất 1 phải thực hiện số vòng lặp bằng với số mức chênh lệch của ảnh còn thuật toán đề xuất 2 có số vòng lặp thay đổi theo hệ

số ''

Z theo công thức (2.50) so với mức chênh lệch của ảnh

Xét ảnh stereo camera có độ phân giải là m, n và k trong đó m là số lượng điểm ảnh theo hàng, n là số lượng điểm ảnh theo cột và k là số lượng

các mức chênh lệch độ sâu của ảnh Số lần thực hiện chia thô đến mịn CTF mức 1 được xác định theo công thức (2.49) với lý do như lựa chọn như k2'

k k



trong đó ''

Z là hệ số độ sâu thay đổi

Tính toán giá trị chi phí cho lan truyền thông điệp của thuật toán đề

Trang 13

xuất 2 được thực hiện giống như của thuật toán đề xuất 1 chỉ khác ở chỗ thuật toán đề xuất 1 phải thực hiện ' ' '

1 2

k  k k vòng lặp còn thuật toán đề xuất 2 thực hiện k''  k1'' k2'' vòng lặp

2.6 Đề xuất giải pháp tối ƣu hóa kết hợp

Mô hình thuật toán đề xuất 3 (CTBP) được xây dựng dựa trên mô hình trường ngẫu nhiên Markov dạng Hình lưới, nút có liên kết 4 như Hình 2.22

Xét G = (E, V) trong đó G là mô hình đồ thị, E là tập các nút , V là tập các

cạnh Nút là nhãn được gán giá trị độ chênh lệch cường độ sáng của điểm tương ứng trên ảnh trái và ảnh phải của ảnh stereo camera, thường được gọi

là giá trị dữ liệu hay hàm dữ liệu Cạnh là nhãn được gán giá trị độ chênh

lệch của hai nút lân cận, thường được gọi là giá trị nhẵn hay hàm nhẵn V 1 ,

V 2 , V 3 , V 4 và E 1 , E 2 , E 3 , E 4 tương ứng là các nút và các cạnh của phần 1, phần 2, phần 3 và phần 4 của mô hình thuật toán đề xuất 3

Từ mô hình thuật toán đề xuất 3 cho thấy, nút xuất phát lan truyền thông điệp được gán nhãn (0,0) trên mô hình thuật toán lan truyền tin cậy

BP đã được thay bằng nút xuất phát lan truyền thông điệp là nút được gán nhãn ,

Định dạng
Số trang	27
Dung lượng	791,06 KB