Mô hình học sâu nâng cao ứng dụng cho xe tự hành phát hiện đối tượng và nhận dạng hành động điều khiển của cảnh sát giao thông

Bài viết đề xuất mô hình học sâu nâng cao (DNN) thông qua mạng lưới Attention dựa trên phân tích khung xương đối tượng trong miền không gian để làm tăng hiệu quả cho bài toán phát hiện chủ thể và nhận dạng hành động.

Trang 1

Mô Hình Học Sâu Nâng Cao Ứng Dụng Cho

Xe Tự Hành Phát Hiện Đối Tượng và Nhận Dạng Hành Động Điều Khiển Của Cảnh Sát

Giao Thông

Hà Mạnh Hùng1 Phạm Thế Anh2, Nguyễn Văn Tới1, Nông Vũ Hiếu1

1Khoa Điện Điện Tử, Đại học PHENIKAA, Yên nghĩa, Hà Đông, Hà Nội, 12116, Việt Nam

2Prover Technology AB, Krukmakargatan, 2111851, Stockholm, Sweden

Email: hung.hamanh@phenikaa-uni.edu.vn, the.anh.pham@prover.com, toi.nguyenvan@phenikaa-uni.edu.vn,

20010704@st.phenikaa-uni.edu.vn

Tóm tắt—Trong bài báo này, chúng tôi đề xuất mô hình

học sâu nâng cao (DNN) thông qua mạng lưới Attention

dựa trên phân tích khung xương đối tượng trong miền

không gian để làm tăng hiệu quả cho bài toán phát hiện

chủ thể và nhận dạng hành động DNN này bao gồm mạng

nơ-ron tích chập (CNN), lớp liên kết không gian Attention

(SJA), mạng nơ-ron Attention 2 chiều hồi quy (A_BGRU),

hai mạng phân loại (FFN) Lớp SJA liên kết làm nổi bật

các đặc trưng khớp nối tư thế của đối tượng A_BGRU tạo

ra trọng số Attention theo miền thời gian để làm nổi bật

đặc trưng liên kết thời gian Trong mô hình DNN của

chúng tôi, một FFN lấy đầu ra của A_ BGRU để phân loại

hành động của chủ thể trong khi FFN khác xử lý đầu ra

của lớp SJA cùng với majority votting để xác định đối

tượng chủ thể Trong quá trình thử nghiệm, các tham số

của CNN được khởi tạo từ đặc trưng kế thừa của mạng đã

đào tạo Google Inception V3 với tập dữ liệu ImageNet và

Kinects Kết quả cho thấy mô hình DNN đề xuất thực thi

trên bộ dữ liệu của cảnh sát giao thông đạt độ chính xác

trung bình là 99,93% đối với phát hiện chủ thể và 94,06%

đối với phân loại hành động So với mô hình hiện tại thực

thi trên bộ dữ liệu cảnh sát giao thông đã đề cập, DNN của

chúng tôi đạt hiệu suất tương đối vượt trội, có thể ứng

dụng để hỗ trợ nhận dạng cho các phương tiện tự lái

Từ khóa- Mạng nơ-ron, mạng nơ-ron hồi quy, mạng

CNN tích chập, Attention, Khung xương, nhận dạng chủ

thể, nhận dạng hành động

I GIỚITHIỆU Phân loại và nhận dạng đối tượng là thành phần quan

trọng của hệ thống xe tự hành Gần đây, công nghệ này

đã có những bước tiến bộ lớn, các phương tiện tự lái của

Tesla, BMW, Google v.v sử dụng nhiều cảm biến để

nhận biết các tình huống trên đường nhằm mục đích lái

xe tự động hóa đến cấp độ 4 hoặc 5 [1] - [4] Để xác định

các đối tượng chuyển động đa dạng trên đường, các

phương tiện phải có kiến thức về hành vi và ý định của

đối tượng nhằm đạt được an toàn trong khi vận hành

Hơn nữa, để ứng dụng đến cấp độ 5 trong thực tế, khi

xảy ra sự cố tín hiệu giao thông, ùn tắc giao thông, người

đi bộ qua đường v.v., thì cảnh sát giao thông có thể điều khiển thông qua tín hiệu cử chỉ để giảm ùn tắc giao thông, hướng dẫn người đi bộ qua đường an toàn Để hiểu tín hiệu điều khiển của cảnh sát giao thông thì cần phải hiểu rõ về cử chỉ, tư thế hoặc hành động của người điều khiển Do đó, nhiều kỹ thuật liên quan đến xác định đối tượng và phân loại hành động đã được đề xuất Ví

dụ, nhận dạng biển báo giao thông có thể được thực hiện bằng các phương pháp tiếp cận dựa trên màu sắc, dựa trên hình dạng, các thuật toán học máy, phát hiện ánh sáng và đo khoảng cách (LiDAR) [5], phát hiện cảnh sát giao thông bởi mạng YOLOv3 [6], nhận dạng cử chỉ hành động của cảnh sát giao thông được phân tích bằng học máy và các phương thức trích xuất đặc trưng thủ công kết hợp với mạng bộ nhớ ngắn-dài hạn (LSTM) [7][8]

Với sự nở rộ của dữ liệu cùng sức mạnh tính toán trong những năm gần đây, học sâu đã trở thành lựa chọn hàng đầu để xây dựng mô hình nhận dạng Trong khi các phương pháp học máy thông thường phân tích khả năng nhận dạng hành động được thực hiện theo ba bước chính: trích xuất đặc trưng [9] [10], mô tả chủ thể, và diễn giải ngữ nghĩa từ chuỗi hình ảnh RGB [11] Hầu hết các phương pháp được sử dụng phổ biến đều dựa trên Mạng học sâu (DNN), bao gồm Mạng học sâu tích chập (CNN), Mạng hồi quy (RNN), Mạng phân loại (FFN) [12] Ngoài chuỗi đầu vào RGB, đặc trưng chuyển động của chủ thể, khung xương liên kết mô tả tư thế có thể là đầu vào của DNN để tạo ra các đặc tính đa dạng và dễ phân biệt nhận dạng đạt hiệu quả cao [11], [13] Để mang lại chính xác trong việc mô hình hóa chủ thể, quá trình nhận dạng có thể tập trung đến các yếu tố

có ý nghĩa quan trọng, liên quan đến đặc trưng nhận dạng để cải thiện độ chính xác Gần đây, với sự tiếp cận

cơ chế Attention trong học sâu đã mang lại hiệu quả đáng kể cho nhiều mô hình, nó đã và đang tiếp tục là một thành phần không thể thiếu trong các mô hình tiến tiến nhất Cơ chế attention chỉ đơn giản là trung bình có trọng

số của những đặc trưng mà chúng ta nghĩ nó cần thiết cho bài toán, điều đặc biệt là trọng số này do mô hình tự

Trang 2

học được Một số nghiên cứu đã khảo sát các cơ chế

Attention về mặt không gian trong DNN để làm nổi bật

các bộ phận quan trọng tại vị trí không gian và trình tự

thời gian cho bài toán nhận dạng [14], [15] [12]

Trong thực tế, những hành động đơn phụ thuộc vào

chủ thể sẽ bị ảnh hưởng bởi những vùng chứa chủ thể

hành động và vị trí của nó trong khung hình Hơn nữa

tín hiệu để phát hiện hành động của chủ thể được xác

định trong khoảng thời gian cần thiết có liên quan đến

chuỗi hành động tương ứng Để giải quyết vấn đề này,

chúng tôi đã đề xuất sử dụng cơ chế Attention để tính

toán trọng số liên quan của nhiều vùng tác động đến vị

trí không gian của chủ thể thông qua việc kết hợp với

các vị trí khớp khung xương chủ thể Đồng thời để làm

tăng độ chính sác, cơ chế Attention tiếp tục được áp

dụng để trích xuất thông tin cần thiết liên kết tác động

theo miền không gian giúp mô hình rà soát lại toàn bộ

video để đưa ra dự đoán cuối cùng

Trong khuôn khổ bài báo này, chúng tôi đề xuất một

mô hình DNN bao gồm mạng tích chập CNN, lớp không

gian liên kết Atttention (SJA), Bidirectinal GRU dựa

trên Attention (A_BGRU) và hai mạng đầy đủ FFN để

phát hiện đối tượng và nhận dạng hành động của cảnh

sát giao thông CNN của chúng tôi dựa trên mạng hội tụ

đã huấn luyện của mô hình Google Inception V3 được

đào tạo bởi tập dữ liệu lớn ImageNet và Kinects, nơi áp

dụng kỹ thuật học chuyển giao Lớp SJA với cơ chế

Attention tích hợp đặc trưng tĩnh từ mạng CNN kết hợp

với các điểm trích chọn của khớp trong khung xương tư

thế từ đó đưa kết quả đầu ra cho A_BGRU nơi các khớp

tư thế cung cấp thông tin về tư thế vật lý của chủ thể Cơ

chế hoạt động Attention thực hiện trong A_BGRU lấy

kết quả đầu ra từ lớp SJA và kết quả đầu ra của các đơn

vị hidden trong A_BGRU để điều chỉnh A_BGRU theo

trọng số Attention A_BGRU bao gồm hai lớp đảo chiều

song song bidirectional Gated Recurrent Unit (GRU)

Cuối cùng, có hai mạng truyền thẳng FFN xử lý các

vectơ đặc trưng từ lớp SJA và A_BGRU để nhận dạng

chủ thể và hành động, trong đó major votting [12] [15] được sử dụng để nâng cao khả năng phân biệt chủ thể và phân loại hành động Trong nghiên cứu này, tập dữ liệu của các video clip từ [7] được sử dụng để đánh giá mô hình DNN đề xuất Các kết quả thử nghiệm xác nhận rằng DNN của chúng tôi đạt được độ chính xác trung bình là 99,93% và 94,06% đối với nhận dạng đối tượng

và hành động, trong đó hiệu suất của chúng tôi vượt trội hơn so với mô hình trước đó thực hiện trên cùng tập dữ liệu Do đó, DNN được đề xuất ở đây có thể được ưu tiên sử dụng trong hệ thống xe tự lái để nhận dạng chủ thể và hành động

Phần còn lại của bài báo được tổ chức như sau: trong phần II, chúng tôi miêu tả mô hình đề xuất Trong phần III, chúng tôi đánh giá, thảo luận hiệu năng của hệ thống,

và cung cấp kết quả mô phỏng Cuối cùng, chúng tôi kết luận bài báo trong phần IV

II MÔHÌNHHỆTHỐNGĐỀXUẤTCHOXE

TỰHÀNH Như thể hiện trong Hình 1, DNN được đề xuất bao gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai mạng truyền thẳng FFN được thiết kế cho xác định chủ thể và nhận dạng hành động Trước hết, mỗi video clip được chia thành nhiều đoạn video, mỗi đoạn được xếp chồng lên nhau để tránh hiệu ứng chặn Do kích thước

cố định của lớp mạng học sâu đã huấn luyện inception V3, trong mô hình đề xuất DNN đã sử dụng các kỹ thuật tiền xử lý về chia tỷ lệ kích thước, lấy mẫu tăng giảm,

để đáp ứng nhu cầu đầu vào Chuỗi RGB từ mỗi đoạn video là đầu vào của mạng tích chập CNN để tạo ra các đặc trưng tĩnh chứa các đặc trưng về cấu trúc đối tượng Lớp SJA tạo ra các bộ mô tả không gian được hỗ trợ của các khớp tư thế trong khung xương chủ thể A_BGRU liên tục xử lý các đầu ra của lớp SJA để tạo ra các vectơ đặc trưng quan trọng về không gian-thời gian liên quan đến đối tượng và hành độngc của đối tượng Cuối cùng,

Hình 1 Mô hình đề xuất DNN cho phân loại đối tượng và nhận dạng hành động

Trang 3

hai bộ mạng truyền thẳng FFN được sử dụng để phân

loại và nhận dạng hành động Ngoài ra, cảnh sát giao

thông tại trích đoạn video được xác định bởi major

votting trong kết quả phân loại từ tất cả các khung hình

ảnh của toàn bộ video

A Tiền xử lý

Mỗi video clip RGB được chia đều thành nhiều phân

đoạn trong khoảng thời gian 2 giây Như vậy số khung

hình trong một phân đoạn video là 15*2 (15 khung hình

/ giây trong tập dữ liệu [7]) Các phân đoạn video liền kề

được tổ chức chồng lên nhau 50%, trong đó kích thước

của mỗi khung hình được chia thành 299 × 299 pixel

Dựa trên dữ liệu đầu vào RGB, các đặc trưng của khớp

2D tương ứng của khung xương đối tượng được trích

xuất từ công cụ OpenPose trong đó mỗi bộ khớp tương

ứng chủ thể có tọa độ và giá trị tin cậy tương ứng 18

điểm khớp [16]

B Mô Hình Đề Xuất Mạng Học Sâu DNN

1) CNN Đặc Trưng Không Gian

Trước khi huấn luyện, kỹ thuật học chuyển giao

được áp dụng để hỗ trợ huấn luyện hiệu quả bằng cách

sử dụng kiến thức được đào tạo từ trước, sử dụng cùng

một cấu trúc liên kết mạng để thực hiện việc huấn luyện

dựa trên dữ liệu lớn Theo đó, chúng tôi sử dụng mạng

hội tụ của mô hình Google Inception V3 được đào tạo

bởi tập dữ liệu lớn ImageNet và Kinects, và tinh chỉnh

huấn luyện lại theo phương thức học chuyển giao đối

với bộ dữ liệu tín hiệu cảnh sát [7] để tạo đặc trưng tĩnh

Trong Hình 1, đặc trưngcủa đối tượng được trích xuất

từ lớp tổng hợp cuối cùng của CNN có các khối đối

tượng ở kích thước 𝑘 × 𝑘 × 𝐷, trong đó 𝑘 × 𝑘 và 𝐷 đại

diện cho kích thước của một khung đối tượng duy nhất

và chiều không gian của đặc trưng trích xuất, tương

ứng Ở đây, 𝑘 và 𝐷 lần lượt bằng 8 và 2048

2) Lớp SJA

Để khai phá các thông tin có ý nghĩa đặc trưng giúp

phát hiện hành động, chúng tôi tạo lớp SJA giữa mạng

tích chập CNN và mạng A_BGRU bằng cách trích xuất

trọng số tương ứng với các thành phần có thể phân biệt

giữa các hành động ở các vùng khác nhau Lớp SJA,

như được mô tả trong Hình 2, kết hợp trích chọn đặc

trưng tĩnh và thông tin tư thế chủ thể, tính toán dữ liệu

kết hợp để mang lại trọng số Attention quan trọng và

sau đó kết hợp trọng số này với đặc trưng đối tượng tĩnh

để tạo ra kết quả là véc tơ không gian Attention Bằng

cách trích xuất đặc trưng của một số hành động phụ

thuộc vào một phần của cơ thể chủ thể thay vì toàn bộ

cơ thể do đó vectơ không gian Attention với các trọng

số được mô tả phù hợp rất có lợi cho sự phân biệt hành

động

Hình 2 Sơ đồ khối của mô hình đề xuất SJA

Quá trình hoạt động của lớp SJA được xây dựng như sau 𝑀𝑠 biểu thị đặc trưng đối tượng tĩnh với kích thước

là 𝑘 × 𝑘 × 𝐷 P biểu diễn đặc trưng trích xuất tư thế của

chủ thể từ khung RGB, với kích thước 18 × 3 Thao tác đầu tiên là ghép tầng 𝑀𝑠 và P để trở thành đầu vào cho

lớp kết nối đầy đủ với hàm kích hoạt Tanh để thu được đầu ra 𝑘 × 𝑘 × 𝐷, 𝛼, như sau:

𝛼=𝐹𝑐(𝑀𝑠⨀ 𝑃 ) (1) trong đó hàm 𝐹𝑐 ( ) biểu thị cho hàm tính toán của lớp kết nối đầy đủ, ⊛ và⨀ biểu thị cho phép toán nhân từng phần tử (element-wise multiplication) and toán tử ghép (concatenation operation) Lớp kết nối đầy đủ thực hiện các phép toán của vector đầu vào với các trọng số tương ứng và được thêm vào biases để trở thành dữ liệu

lũy tích, đi qua hàm Tanh để thu được kết quả đầu ra

Các hoạt động nói trên nhằm xây dựng mối tương quan giữa đặc trưng đối tượng tĩnh và các vị trí khớp của khung xương Thứ hai, các tham số Attention, α, được chuẩn hóa theo từng khung đặc trưng đơn với chiều kích thước 𝑘 × 𝑘 như sau,

𝛼̅𝑗,𝑖 = 𝑒𝑥𝑝 (𝛼𝑗,𝑖)

∑𝑘×𝑘𝑒𝑥𝑝(𝛼𝑗,𝑟) 𝑟=1

(2)

trong đó 𝛼̅𝑗,𝑖 là trọng số Attention chuẩn hóa tại thành

phần thứ i của khung đặc trưng thứ j và 𝜶 = {𝛼𝑗,𝑖|𝑗 = 1, , 𝑇1 ; 𝑖 = 1, , 𝑘2} Thao tác này làm tăng tác động của Attention có giá trị dương theo cấp số nhân và chuẩn hóa chúng để thu được những giá trị tương đối quan trọng ở mỗi khung đối tượng Cuối cùng, trọng số Attention chuẩn hóa được nhân theo phần tử với các thành phần tương ứng của từng đặc trưng đối tượng,

𝑀̅𝑗𝑠= ∑ 𝛼̅𝑗,𝑖𝑀𝑗,𝑖𝑠 𝑘×𝑘

𝑖=1

(3)

trong đó 𝑴̅𝒔= {𝑀̅𝑗|𝑗 = 1, , 𝑇1}là vector đầu ra trong không gian Attention của lớp SJA Thao tác như vậy đã nhúng các Attention chuẩn hóa vào đặc trưng đối tượng tĩnh để làm nổi bật phần đặc trưng quan trọng có liên quan đến hành động và nhấn mạnh vùng nào tác động

Trang 4

nhiều nhất đến đặc trưng phân loại hành động để đưa ra

dự báo chính sác

3) Biểu diễn liên kết thời gian Attention bằng cấu trúc

A_BGRU

Đầu ra từ lớp SJA đưa vào mạng A_BGRU được

nhúng cơ chế Attention để trích rút thông tin không

gian-thời gian Một đầu vào của A_BGRU là vectơ

không gian đặc trưng Attention cái nhấn mạnh vào đặc

trưng hành động Ngoài ra, A_BGRU bao gồm cấu trúc

GRU hai chiều và đơn vị tính toán trọng số Attention

để diễn giải các đặc trưng về miền thời gian Các mẫu

đầu vào bao gồm vectơ không gian atttention và các

trạng thái ẩn của GRU trong A_BGRU Đầu ra từ đơn

vị tính toán trọng số attention tạo thành một tập hợp các

vectơ ngữ cảnh, C, là các đầu vào được nhúng trọng số

attention cho các đơn vị GRU Sơ đồ khối của

A_BGRU đề xuất được hiển thị trong Hình 3

Hình 3 Sơ đồ khối của mô hình đề xuất A_BGRU

Đầu tiên, vector không gian nhúng attention, 𝑀̅𝑠,

được ghép với các trạng thái ẩn của GRU trong

A_BGRU để trở thành vector đầu vào cho lớp kết nối

đầy đủ với chức năng kích hoạt toán tử Tanh Sau khi

tính toán qua hàm trung bình mũ softmax, các đầu ra từ

lớp kết nối đầy đủ tạo ra trọng số attention Ở đây, mối

tương quan giữa vectơ không gian được nhúng trọng số

attention và các trạng thái thời gian của A_BGRU được

xây dựng để tìm ra những đặc trưng cần được nhấn mạnh

vào hành động tại các bước thời gian cụ thể Thứ hai,

phép nhân ma trận của vectơ không gian nhúng

attention, 𝑀̅𝑠 và các trọng số attention tương ứng được

thực hiện để đạt được vectơ ngữ cảnh, C, giải quyết các

đơn vị GRU hai chiều với sự nhấn mạnh vào các phần

quan trọng của phân đoạn đầu vào Ví dụ mỗi đoạn video

đầu vào có 30 khung đặc trưng 𝑀̅𝑠cho A_BGRU, cần 30

bước thời gian tương ứng để thực hiện tính toán Ngoài

ra, A_BGRU tạo ra hai dữ liệu đầu ra từ các đường dẫn

tới và lùi, được nối tương ứng để tạo thành các vectơ đặc

trưng 2n chiều cho lần phân loại tiếp theo tại n = 2048

4) Cấu trúc phân loại FFNs cho phát hiện chủ thể và

nhận dạng hành động

Hai mạng nơ-ron truyền thẳng ba lớp được sử dụng

để xác định chủ thể và nhận dạng các hành động dựa

trên khung hình ảnh và phân đoạn video đầu vào, tương ứng Kích thước đầu vào của hai FFN thỏa mãn đầu ra của SJA và A_BGRU Các nơron đầu ra của hai FFN là

2 (cảnh sát giao thông và người tham gia giao thông) và

9 (9 lớp tương đương với 9 tín hiệu điều khiển) để đáp ứng các yêu cầu dự đoán và phân loại, tương ứng III KẾTQUẢVÀĐÁNHGIÁHIỆUNĂNGHỆ

THỐNG Trong phần này, chúng tôi tiến hành thực nghiệm liên quan đến mô hình đề xuất Đầu tiên, chúng tôi giới thiệu

về cơ sở dữ liệu chuẩn được sử dụng để đánh giá hiệu quả của mô hình cài đặt Tiếp theo chúng tôi trình bày hai kết quả so sánh, (1) các trường hợp cụ thể với các

mô hình khác nhau trong nhận dạng hành động, (2) so sánh về hiệu suất phân loại với mô hình đã công bố [7] Cuối cùng là phân tích kết quả phân biệt người đi bộ và cảnh sát giao thông

A Tập dữ liệu đánh giá

Trong thử nghiệm này, cơ sở dữ liệu liên quan đến tín hiệu điều khiển của cảnh sát giao thông [7] được sử dụng với 21 video clip được đưa vào (như trong Hình 4) Các video clip này có độ phân giải khung hình là

1080 × 1080-pixel và tốc độ khung hình là 15Hz Ngoài

ra, có tám lệnh và một cử chỉ không lệnh mô phỏng từ cảnh sát giao thông, trong đó mỗi hành động được thực hiện từ cử chỉ không lệnh sang trạng thái lệnh, sau đó

từ trạng thái lệnh sang cử chỉ không lệnh ở trong nhà và ngoài trời Có hai loại trang phục phản quang và phổ thông được cảnh sát giao thông mặc, trong đó trang phục phản quang được sử dụng trong hầu hết các video clip và trang phục chung chỉ xuất hiện trong hai video clip Quá trình đánh giá hiệu suất phân loại bao gồm 11 video cho huấn luyện và 10 video clip dùng để kiểm tra, tuân theo sự sắp xếp của tập dữ liệu trong [7] để có thể

so sánh một cách công bằng

Hình 4 Một vài tín hiệu điều khiển bằng hành động của dữ liệu cảnh sát giao thông [7]

Trang 5

B Phân tích và so sánh kết quả thực nghiệm

Trong mục này, chúng tôi tiến hành đánh giá từng

thành phần của mô hình đề xuất DNN để hiểu được

những đóng góp về hiệu suất của chúng Ngoài ra, kết

quả thử nghiệm của các thành phần trong mô hình đề

xuất DNN được thực hiện trên cùng một tập dữ liệu để

so sánh và thảo luận Mục đích hiểu rõ hiệu suất được

cải thiện bởi các cơ chế attention trong mô hình đề xuất

SJA và A_BGRU, chúng tôi đã tiến hành đánh giá thực

hiện ba loại DNN để ghi nhận hành động DNN Loại 1,

đặt tên là CNN, bao gồm một mạng tích chập và một

mạng nơron truyền thẳng ba lớp để phân loại trong đó

các tham số ban đầu của mạng tích chập CNN này được

khởi tạo bởi các tham số của mạng Inception V3 hội tụ

DNN loại 2, được đặt tên là CNN + SJA, bao gồm DNN

loại 1 và bổ xung lớp SJA để nâng cao khả năng nhận

dạng hành động bằng các khớp tư thế trong khung

xương chủ thể DNN loại 3 được đề xuất, CNN + SJA

+ A_BGRU, sử dụng DNN Loại 2 và A_BGRU Ở đây,

A_BGRU bao gồm lớp GRU hai chiều với cơ chế

attention, chỉ tạo ra một vectơ đầu ra nối các kết quả đầu

ra từ các GRU cuối cùng trong các đường tiến và lùi

Ngoài ra, lớp phân loại hành động trong ba loại DNN

này sử dụng cùng một mạng nơ-ron truyền thẳng để dự

đoán

B ẢNG 1: H IỆU SUẤT PHÂN LOẠI CỦA BA MÔ HÌNH DNN S

Mô hình DNNs Đầu vào Hiệu xuất

phân loại

CNN+SJA RGB + Pose joints 86.95%

CNN+SJA+A_BGRU

(Mô hình đề xuất DNN) RGB + Pose joints 94.06%

Như được liệt kê trong Bảng I, hiệu suất phân loại

của DNN Loại I chỉ sử dụng một mạng tích chập CNN

là 78,90% Khi lớp SJA được thêm vào, tỷ lệ chính xác

được tăng lên 86,95% Bởi vì DNN Loại 2 đã tiếp cận

đặc trưng không gian Attention để liên kết các điểm

khớp trong bộ khung xương chủ thể, nó nhấn mạnh các

vùng có ý nghĩa để nhận dạng cử chỉ tín hiệu điều khiển

và bỏ qua các vùng không liên quan Cũng như sự nhấn

mạnh về miền không gian, DNN được đề xuất sử dụng

A_BGRU để làm nổi bật các manh mối thông tin ở miền

thời gian có liên kết theo miền không gian để thu được

các đặc trưng hành động với độ chính xác tốt nhất lên

đến 94,06% Qua đó chúng ta thấy rằng việc kết hợp sử

dụng cơ chế Attention dựa trên mạng tích chập và mạng

hồi quy đã đạt được kết quả rất khả quan

Ma trận nhầm lẫn của DNN được đề xuất liên

quan đến 9 hành động được mô tả trong Hình 5, không

phải lệnh, dừng lại, di chuyển thẳng, rẽ trái, chờ rẽ trái,

rẽ phải, chuyển làn, giảm tốc độ và dạt vào lề đường

được đánh số từ 0 đến 8 Hầu hết 8 hành động lệnh bị

phân loại sai là các hành động không phải lệnh Đó là

do một số phân đoạn video tạm thời bao gồm các hành động lệnh không hoàn chỉnh, dẫn đến dự đoán sai Nghiên cứu được công bố [7] sử dụng mạng tích chập trích xuất dữ liệu khung xương sau đó chuyển đổi qua đặc trưng độ dài và góc trong miền không gian, cuối cùng là đào tạo dữ liệu trong miền thời gian với việc sử dụng mạng LSTM So với độ chính xác 91,18% từ công trình đã công bố [7], DNN được đề xuất cho thấy hiệu suất tốt hơn 2,88% bởi việc sử dụng cơ chế Attention trong mạng tích chập CNN và mạng hồi quy GRU đào tạo trên bộ dữ liệu RGB kết hợp đặc trưng khung xương

Để phân biệt giữa người đi bộ và cảnh sát điều khiển giao thông trên đường, những người mặc đồng phục tương tự như áo phản quang được xác định là cảnh sát giao thông Bảng II hiển thị ma trận nhầm lẫn của DNN và YOLOv4- tiny [17] được đề xuất để xác định các đối tượng trong đó tổng số hơn 70.000 hình ảnh từ đối tượng cơ bản trong ngữ cảnh (COCO), Lớp đối tượng trực quan (VOC) và bộ dữ liệu cử chỉ tính hiệu điều khiển của cảnh sát giao thông được sử dụng để huấn luyện Độ chính xác được cải thiện đáng kể bởi majority votting Trong DNN được đề xuất, độ chính xác nhận biết của người đi bộ và cảnh sát lần lượt là 99,86% và 100,00% khi người đi bộ cũng thực hiện 8 hành động ra lệnh Lỗi nhận dạng người đi bộ xuất phát

từ các hành động cụ thể mà cánh tay, tay chân hoặc bàn tay của đối tượng có thể che khuất quần áo phản quang

để đánh lừa đối tượng phân loại Ở những tình huống thông thường, người đi bộ chỉ đi qua những con đường với ít cử chỉ động tác hơn Từ kết quả thí nghiệm ở Bảng

II, DNN được đề xuất có khả năng hoạt động rất hứa hẹn cho phân biệt nhận dạng người tham gia giao thông

Hình 5 Ma trận nhầm lẫn của mô hình DNN đề xuất cho nhận dạng

hành động

Trang 6

Bảng 2: Matrận hỗn loạn của mô hình DNN đề xuất và YoLov4-tiny

cho phát hiện đối tượng Cảnh sát giao

thông

Người tham gia giao thông

null

Đề xuất mô hình DNN bỏ qua majority voting

(image-based) Cảnh sát

giao thông 100.00% 0.00%

Người

tham gia

giao thông

Mô hình đề xuất DNN (video-based)

Cảnh sát

giao thông 100.00% 0.00%

Người

tham gia

giao thông

YOLOv4-tiny (image-based) Cảnh sát

Người

tham gia

giao thông

YOLOv4-tiny với majority voting (video-based)

Cảnh sát

Người

tham gia

giao thông

IV KẾTLUẬN Trong khuôn khổ bài báo này, chúng tôi đã triển khai

thành công mô hình mạng DNN sử dụng chuỗi đầu vào

RGB đi kèm với các đặc trưng tư thế để phát hiện đối

tượng và nhận dạng hành động DNN được đề xuất bao

gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai

mạng truyền thẳng FFN Cấu trúc liên kết mạng của

CNN dựa trên mô hình hội tụ của Google Inception V3

để tạo ra các đặc trưng đối tượng tĩnh nơi sử dụng kỹ

thuật học chuyển giao Lớp SJA hỗ chợ trích xuất đặc

trưng cục bộ trong việc điều chỉnh trọng số attention một

cách thích ứng trên các khớp tư thế của bộ khung xương

trên miền không gian A_BGRU xử lý các kết quả đầu

ra của các lớp SJA để thu được các vectơ đặc trưng

không gian-thời gian nổi bật Cuối cùng, hai mạng

truyền thẳng FFN hoàn thành việc phân loại đối tượng

và hành động, dựa trên khung hình ảnh và đoạn video,

tương ứng Kết quả phân loại từ tất cả các hình ảnh của

một đoạn video được áp dụng majority votting để dự

đoán kết quả cuối cùng Theo kết quả thử nghiệm, DNN

đề xuất đạt được độ chính xác trung bình là 99,93% và

94,06%, tương ứng để xác định chủ thể và hành động

Mô hình của chúng tôi đã khai thác và nhấn mạnh vào

những đặc trưng hữu ích có tính phân loại hành động

Do đó, DNN được đề xuất ở đây hứa hẹn là một mô hình

tối ưu để phát hiện chủ thể và hiểu đối tượng thực hiện

nhiệm vụ gì khi áp dụng cho hệ thống xe tự hành

TÀILIỆUTHAMKHẢO [1] Tesla, https://www.tesla.com/autopilot [2] BMW, https://www.bmw.com/en/automotive-life/autonomous-driving.html

[3] Google's Waymo, https://waymo.com/

[4] H Zhu, K Yuen, L Mihaylova, and H Leung, “Overview of

environment perception for intelligent vehicles,” IEEE Transactions on Intelligent Transportation Systems, vol 18, no

10, pp 2584-2601, Oct 2017

[5] C Liu, S Li, F Chang, and Y Wang, “Machine vision based traffic sign detection methods: Review, analyses and

perspectives,” IEEE Access, July 17, 2019 (Digital Object

Identifier 10.1109/ACCESS.2019.2924947)

[6] Y Zheng et al, “A method of detect traffic police in complex scenes,” in Proc of the 14th International Conference on Computational Intelligence and Security, pp 83-87, 2018 [7] J He, C Zhang, X He, and R Dong, “Visual recognition of traffic police gestures with convolutional pose machine and

handcrafted features,” Neurocomputing, no 390, pp 248–259,

2020

[8] Manh-Hung Ha and Osacl T C Chen "Action Recognition Improved by Correlation and Attention of Subjects and Scene,"

in Proceedings of the IEEE Visual Communications and Image Processing (VCIP), 2021 (Accepted)

[9] O T.-C Chen, C.-H Tsai, H H Manh, and W.-C Lai,

"Activity recognition using a panoramic camera for homecare."

in Proceedings of 14th IEEE International Conference on Advanced Video and Signal Based Surveillance, pp 1-6, 2017

[10] O T.-C Chen, H H Manh, and W.-C Lai, “Activity

recognition of multiple subjects for homecare,” in Proceedings

of the 10th International Conference on Knowledge and Smart Technology, pp 242–247, 2018

[11] P Turaga, R Chellappa, V S Subrahmanian, and O Udrea,

“Machinerecognition of human activities: A survey,” IEEE Transactions on Circuits and Systems for Video technology, vol

18, no 11, pp 1473–1488, 2008

[12] Manh-Hung Ha and Osacl T C Chen, “Deep neural networks using capsule networks and skeleton-based attentions for action recognition,” IEEE Access, vol 9, pp 6164–6178, January

2021

[13] S Das, A Chaudhary, F Bremond, and M Thonnat, “Where to

focus on for human action recognition?” in IEEE Winter Conference on Applications of Computer Vision, pp 71–80,

2019

[14] D Li, T Yao, L.-Y Duan, T Mei, and Y Rui, “Unified spatiotemporal attention networks for action recognition in

videos,” IEEE Transactions on Multimedia, vol 21, no 2, pp

416–428, 2019

[15] O T.-C Chen, M.-H Ha, and Y L Lee, "Computation-affordable recognition system for activity identification using a

smart phone at home," in Proceedings of the IEEE International Symposium on Circuits and Systems, pp 1-5, 2020

[16] Z Cao, T Simon, S.-E Wei, and Y Sheikh, “Realtime

multi-person 2d pose estimation using part affinity fields,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 7291–7299, 2017

[17] Jiang, Z., Zhao, L., Li, S., & Jia, Y Real-time object detection method based on improved YOLOv4-tiny arXiv preprint arXiv:2011.04244, 2020

Định dạng
Số trang	6
Dung lượng	1,33 MB