Bài viết đề xuất mô hình học sâu nâng cao (DNN) thông qua mạng lưới Attention dựa trên phân tích khung xương đối tượng trong miền không gian để làm tăng hiệu quả cho bài toán phát hiện chủ thể và nhận dạng hành động.
Trang 1Mô Hình Học Sâu Nâng Cao Ứng Dụng Cho
Xe Tự Hành Phát Hiện Đối Tượng và Nhận Dạng Hành Động Điều Khiển Của Cảnh Sát
Giao Thông
Hà Mạnh Hùng1 Phạm Thế Anh2, Nguyễn Văn Tới1, Nông Vũ Hiếu1
1Khoa Điện Điện Tử, Đại học PHENIKAA, Yên nghĩa, Hà Đông, Hà Nội, 12116, Việt Nam
2Prover Technology AB, Krukmakargatan, 2111851, Stockholm, Sweden
Email: hung.hamanh@phenikaa-uni.edu.vn, the.anh.pham@prover.com, toi.nguyenvan@phenikaa-uni.edu.vn,
20010704@st.phenikaa-uni.edu.vn
Tóm tắt—Trong bài báo này, chúng tôi đề xuất mô hình
học sâu nâng cao (DNN) thông qua mạng lưới Attention
dựa trên phân tích khung xương đối tượng trong miền
không gian để làm tăng hiệu quả cho bài toán phát hiện
chủ thể và nhận dạng hành động DNN này bao gồm mạng
nơ-ron tích chập (CNN), lớp liên kết không gian Attention
(SJA), mạng nơ-ron Attention 2 chiều hồi quy (A_BGRU),
hai mạng phân loại (FFN) Lớp SJA liên kết làm nổi bật
các đặc trưng khớp nối tư thế của đối tượng A_BGRU tạo
ra trọng số Attention theo miền thời gian để làm nổi bật
đặc trưng liên kết thời gian Trong mô hình DNN của
chúng tôi, một FFN lấy đầu ra của A_ BGRU để phân loại
hành động của chủ thể trong khi FFN khác xử lý đầu ra
của lớp SJA cùng với majority votting để xác định đối
tượng chủ thể Trong quá trình thử nghiệm, các tham số
của CNN được khởi tạo từ đặc trưng kế thừa của mạng đã
đào tạo Google Inception V3 với tập dữ liệu ImageNet và
Kinects Kết quả cho thấy mô hình DNN đề xuất thực thi
trên bộ dữ liệu của cảnh sát giao thông đạt độ chính xác
trung bình là 99,93% đối với phát hiện chủ thể và 94,06%
đối với phân loại hành động So với mô hình hiện tại thực
thi trên bộ dữ liệu cảnh sát giao thông đã đề cập, DNN của
chúng tôi đạt hiệu suất tương đối vượt trội, có thể ứng
dụng để hỗ trợ nhận dạng cho các phương tiện tự lái
Từ khóa- Mạng nơ-ron, mạng nơ-ron hồi quy, mạng
CNN tích chập, Attention, Khung xương, nhận dạng chủ
thể, nhận dạng hành động
I GIỚITHIỆU Phân loại và nhận dạng đối tượng là thành phần quan
trọng của hệ thống xe tự hành Gần đây, công nghệ này
đã có những bước tiến bộ lớn, các phương tiện tự lái của
Tesla, BMW, Google v.v sử dụng nhiều cảm biến để
nhận biết các tình huống trên đường nhằm mục đích lái
xe tự động hóa đến cấp độ 4 hoặc 5 [1] - [4] Để xác định
các đối tượng chuyển động đa dạng trên đường, các
phương tiện phải có kiến thức về hành vi và ý định của
đối tượng nhằm đạt được an toàn trong khi vận hành
Hơn nữa, để ứng dụng đến cấp độ 5 trong thực tế, khi
xảy ra sự cố tín hiệu giao thông, ùn tắc giao thông, người
đi bộ qua đường v.v., thì cảnh sát giao thông có thể điều khiển thông qua tín hiệu cử chỉ để giảm ùn tắc giao thông, hướng dẫn người đi bộ qua đường an toàn Để hiểu tín hiệu điều khiển của cảnh sát giao thông thì cần phải hiểu rõ về cử chỉ, tư thế hoặc hành động của người điều khiển Do đó, nhiều kỹ thuật liên quan đến xác định đối tượng và phân loại hành động đã được đề xuất Ví
dụ, nhận dạng biển báo giao thông có thể được thực hiện bằng các phương pháp tiếp cận dựa trên màu sắc, dựa trên hình dạng, các thuật toán học máy, phát hiện ánh sáng và đo khoảng cách (LiDAR) [5], phát hiện cảnh sát giao thông bởi mạng YOLOv3 [6], nhận dạng cử chỉ hành động của cảnh sát giao thông được phân tích bằng học máy và các phương thức trích xuất đặc trưng thủ công kết hợp với mạng bộ nhớ ngắn-dài hạn (LSTM) [7][8]
Với sự nở rộ của dữ liệu cùng sức mạnh tính toán trong những năm gần đây, học sâu đã trở thành lựa chọn hàng đầu để xây dựng mô hình nhận dạng Trong khi các phương pháp học máy thông thường phân tích khả năng nhận dạng hành động được thực hiện theo ba bước chính: trích xuất đặc trưng [9] [10], mô tả chủ thể, và diễn giải ngữ nghĩa từ chuỗi hình ảnh RGB [11] Hầu hết các phương pháp được sử dụng phổ biến đều dựa trên Mạng học sâu (DNN), bao gồm Mạng học sâu tích chập (CNN), Mạng hồi quy (RNN), Mạng phân loại (FFN) [12] Ngoài chuỗi đầu vào RGB, đặc trưng chuyển động của chủ thể, khung xương liên kết mô tả tư thế có thể là đầu vào của DNN để tạo ra các đặc tính đa dạng và dễ phân biệt nhận dạng đạt hiệu quả cao [11], [13] Để mang lại chính xác trong việc mô hình hóa chủ thể, quá trình nhận dạng có thể tập trung đến các yếu tố
có ý nghĩa quan trọng, liên quan đến đặc trưng nhận dạng để cải thiện độ chính xác Gần đây, với sự tiếp cận
cơ chế Attention trong học sâu đã mang lại hiệu quả đáng kể cho nhiều mô hình, nó đã và đang tiếp tục là một thành phần không thể thiếu trong các mô hình tiến tiến nhất Cơ chế attention chỉ đơn giản là trung bình có trọng
số của những đặc trưng mà chúng ta nghĩ nó cần thiết cho bài toán, điều đặc biệt là trọng số này do mô hình tự
Trang 2học được Một số nghiên cứu đã khảo sát các cơ chế
Attention về mặt không gian trong DNN để làm nổi bật
các bộ phận quan trọng tại vị trí không gian và trình tự
thời gian cho bài toán nhận dạng [14], [15] [12]
Trong thực tế, những hành động đơn phụ thuộc vào
chủ thể sẽ bị ảnh hưởng bởi những vùng chứa chủ thể
hành động và vị trí của nó trong khung hình Hơn nữa
tín hiệu để phát hiện hành động của chủ thể được xác
định trong khoảng thời gian cần thiết có liên quan đến
chuỗi hành động tương ứng Để giải quyết vấn đề này,
chúng tôi đã đề xuất sử dụng cơ chế Attention để tính
toán trọng số liên quan của nhiều vùng tác động đến vị
trí không gian của chủ thể thông qua việc kết hợp với
các vị trí khớp khung xương chủ thể Đồng thời để làm
tăng độ chính sác, cơ chế Attention tiếp tục được áp
dụng để trích xuất thông tin cần thiết liên kết tác động
theo miền không gian giúp mô hình rà soát lại toàn bộ
video để đưa ra dự đoán cuối cùng
Trong khuôn khổ bài báo này, chúng tôi đề xuất một
mô hình DNN bao gồm mạng tích chập CNN, lớp không
gian liên kết Atttention (SJA), Bidirectinal GRU dựa
trên Attention (A_BGRU) và hai mạng đầy đủ FFN để
phát hiện đối tượng và nhận dạng hành động của cảnh
sát giao thông CNN của chúng tôi dựa trên mạng hội tụ
đã huấn luyện của mô hình Google Inception V3 được
đào tạo bởi tập dữ liệu lớn ImageNet và Kinects, nơi áp
dụng kỹ thuật học chuyển giao Lớp SJA với cơ chế
Attention tích hợp đặc trưng tĩnh từ mạng CNN kết hợp
với các điểm trích chọn của khớp trong khung xương tư
thế từ đó đưa kết quả đầu ra cho A_BGRU nơi các khớp
tư thế cung cấp thông tin về tư thế vật lý của chủ thể Cơ
chế hoạt động Attention thực hiện trong A_BGRU lấy
kết quả đầu ra từ lớp SJA và kết quả đầu ra của các đơn
vị hidden trong A_BGRU để điều chỉnh A_BGRU theo
trọng số Attention A_BGRU bao gồm hai lớp đảo chiều
song song bidirectional Gated Recurrent Unit (GRU)
Cuối cùng, có hai mạng truyền thẳng FFN xử lý các
vectơ đặc trưng từ lớp SJA và A_BGRU để nhận dạng
chủ thể và hành động, trong đó major votting [12] [15] được sử dụng để nâng cao khả năng phân biệt chủ thể và phân loại hành động Trong nghiên cứu này, tập dữ liệu của các video clip từ [7] được sử dụng để đánh giá mô hình DNN đề xuất Các kết quả thử nghiệm xác nhận rằng DNN của chúng tôi đạt được độ chính xác trung bình là 99,93% và 94,06% đối với nhận dạng đối tượng
và hành động, trong đó hiệu suất của chúng tôi vượt trội hơn so với mô hình trước đó thực hiện trên cùng tập dữ liệu Do đó, DNN được đề xuất ở đây có thể được ưu tiên sử dụng trong hệ thống xe tự lái để nhận dạng chủ thể và hành động
Phần còn lại của bài báo được tổ chức như sau: trong phần II, chúng tôi miêu tả mô hình đề xuất Trong phần III, chúng tôi đánh giá, thảo luận hiệu năng của hệ thống,
và cung cấp kết quả mô phỏng Cuối cùng, chúng tôi kết luận bài báo trong phần IV
II MÔHÌNHHỆTHỐNGĐỀXUẤTCHOXE
TỰHÀNH Như thể hiện trong Hình 1, DNN được đề xuất bao gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai mạng truyền thẳng FFN được thiết kế cho xác định chủ thể và nhận dạng hành động Trước hết, mỗi video clip được chia thành nhiều đoạn video, mỗi đoạn được xếp chồng lên nhau để tránh hiệu ứng chặn Do kích thước
cố định của lớp mạng học sâu đã huấn luyện inception V3, trong mô hình đề xuất DNN đã sử dụng các kỹ thuật tiền xử lý về chia tỷ lệ kích thước, lấy mẫu tăng giảm,
để đáp ứng nhu cầu đầu vào Chuỗi RGB từ mỗi đoạn video là đầu vào của mạng tích chập CNN để tạo ra các đặc trưng tĩnh chứa các đặc trưng về cấu trúc đối tượng Lớp SJA tạo ra các bộ mô tả không gian được hỗ trợ của các khớp tư thế trong khung xương chủ thể A_BGRU liên tục xử lý các đầu ra của lớp SJA để tạo ra các vectơ đặc trưng quan trọng về không gian-thời gian liên quan đến đối tượng và hành độngc của đối tượng Cuối cùng,
Hình 1 Mô hình đề xuất DNN cho phân loại đối tượng và nhận dạng hành động
Trang 3hai bộ mạng truyền thẳng FFN được sử dụng để phân
loại và nhận dạng hành động Ngoài ra, cảnh sát giao
thông tại trích đoạn video được xác định bởi major
votting trong kết quả phân loại từ tất cả các khung hình
ảnh của toàn bộ video
A Tiền xử lý
Mỗi video clip RGB được chia đều thành nhiều phân
đoạn trong khoảng thời gian 2 giây Như vậy số khung
hình trong một phân đoạn video là 15*2 (15 khung hình
/ giây trong tập dữ liệu [7]) Các phân đoạn video liền kề
được tổ chức chồng lên nhau 50%, trong đó kích thước
của mỗi khung hình được chia thành 299 × 299 pixel
Dựa trên dữ liệu đầu vào RGB, các đặc trưng của khớp
2D tương ứng của khung xương đối tượng được trích
xuất từ công cụ OpenPose trong đó mỗi bộ khớp tương
ứng chủ thể có tọa độ và giá trị tin cậy tương ứng 18
điểm khớp [16]
B Mô Hình Đề Xuất Mạng Học Sâu DNN
1) CNN Đặc Trưng Không Gian
Trước khi huấn luyện, kỹ thuật học chuyển giao
được áp dụng để hỗ trợ huấn luyện hiệu quả bằng cách
sử dụng kiến thức được đào tạo từ trước, sử dụng cùng
một cấu trúc liên kết mạng để thực hiện việc huấn luyện
dựa trên dữ liệu lớn Theo đó, chúng tôi sử dụng mạng
hội tụ của mô hình Google Inception V3 được đào tạo
bởi tập dữ liệu lớn ImageNet và Kinects, và tinh chỉnh
huấn luyện lại theo phương thức học chuyển giao đối
với bộ dữ liệu tín hiệu cảnh sát [7] để tạo đặc trưng tĩnh
Trong Hình 1, đặc trưngcủa đối tượng được trích xuất
từ lớp tổng hợp cuối cùng của CNN có các khối đối
tượng ở kích thước 𝑘 × 𝑘 × 𝐷, trong đó 𝑘 × 𝑘 và 𝐷 đại
diện cho kích thước của một khung đối tượng duy nhất
và chiều không gian của đặc trưng trích xuất, tương
ứng Ở đây, 𝑘 và 𝐷 lần lượt bằng 8 và 2048
2) Lớp SJA
Để khai phá các thông tin có ý nghĩa đặc trưng giúp
phát hiện hành động, chúng tôi tạo lớp SJA giữa mạng
tích chập CNN và mạng A_BGRU bằng cách trích xuất
trọng số tương ứng với các thành phần có thể phân biệt
giữa các hành động ở các vùng khác nhau Lớp SJA,
như được mô tả trong Hình 2, kết hợp trích chọn đặc
trưng tĩnh và thông tin tư thế chủ thể, tính toán dữ liệu
kết hợp để mang lại trọng số Attention quan trọng và
sau đó kết hợp trọng số này với đặc trưng đối tượng tĩnh
để tạo ra kết quả là véc tơ không gian Attention Bằng
cách trích xuất đặc trưng của một số hành động phụ
thuộc vào một phần của cơ thể chủ thể thay vì toàn bộ
cơ thể do đó vectơ không gian Attention với các trọng
số được mô tả phù hợp rất có lợi cho sự phân biệt hành
động
Hình 2 Sơ đồ khối của mô hình đề xuất SJA
Quá trình hoạt động của lớp SJA được xây dựng như sau 𝑀𝑠 biểu thị đặc trưng đối tượng tĩnh với kích thước
là 𝑘 × 𝑘 × 𝐷 P biểu diễn đặc trưng trích xuất tư thế của
chủ thể từ khung RGB, với kích thước 18 × 3 Thao tác đầu tiên là ghép tầng 𝑀𝑠 và P để trở thành đầu vào cho
lớp kết nối đầy đủ với hàm kích hoạt Tanh để thu được đầu ra 𝑘 × 𝑘 × 𝐷, 𝛼, như sau:
𝛼=𝐹𝑐(𝑀𝑠⨀ 𝑃 ) (1) trong đó hàm 𝐹𝑐 ( ) biểu thị cho hàm tính toán của lớp kết nối đầy đủ, ⊛ và⨀ biểu thị cho phép toán nhân từng phần tử (element-wise multiplication) and toán tử ghép (concatenation operation) Lớp kết nối đầy đủ thực hiện các phép toán của vector đầu vào với các trọng số tương ứng và được thêm vào biases để trở thành dữ liệu
lũy tích, đi qua hàm Tanh để thu được kết quả đầu ra
Các hoạt động nói trên nhằm xây dựng mối tương quan giữa đặc trưng đối tượng tĩnh và các vị trí khớp của khung xương Thứ hai, các tham số Attention, α, được chuẩn hóa theo từng khung đặc trưng đơn với chiều kích thước 𝑘 × 𝑘 như sau,
𝛼̅𝑗,𝑖 = 𝑒𝑥𝑝 (𝛼𝑗,𝑖)
∑𝑘×𝑘𝑒𝑥𝑝(𝛼𝑗,𝑟) 𝑟=1
(2)
trong đó 𝛼̅𝑗,𝑖 là trọng số Attention chuẩn hóa tại thành
phần thứ i của khung đặc trưng thứ j và 𝜶 = {𝛼𝑗,𝑖|𝑗 = 1, , 𝑇1 ; 𝑖 = 1, , 𝑘2} Thao tác này làm tăng tác động của Attention có giá trị dương theo cấp số nhân và chuẩn hóa chúng để thu được những giá trị tương đối quan trọng ở mỗi khung đối tượng Cuối cùng, trọng số Attention chuẩn hóa được nhân theo phần tử với các thành phần tương ứng của từng đặc trưng đối tượng,
𝑀̅𝑗𝑠= ∑ 𝛼̅𝑗,𝑖𝑀𝑗,𝑖𝑠 𝑘×𝑘
𝑖=1
(3)
trong đó 𝑴̅𝒔= {𝑀̅𝑗|𝑗 = 1, , 𝑇1}là vector đầu ra trong không gian Attention của lớp SJA Thao tác như vậy đã nhúng các Attention chuẩn hóa vào đặc trưng đối tượng tĩnh để làm nổi bật phần đặc trưng quan trọng có liên quan đến hành động và nhấn mạnh vùng nào tác động
Trang 4nhiều nhất đến đặc trưng phân loại hành động để đưa ra
dự báo chính sác
3) Biểu diễn liên kết thời gian Attention bằng cấu trúc
A_BGRU
Đầu ra từ lớp SJA đưa vào mạng A_BGRU được
nhúng cơ chế Attention để trích rút thông tin không
gian-thời gian Một đầu vào của A_BGRU là vectơ
không gian đặc trưng Attention cái nhấn mạnh vào đặc
trưng hành động Ngoài ra, A_BGRU bao gồm cấu trúc
GRU hai chiều và đơn vị tính toán trọng số Attention
để diễn giải các đặc trưng về miền thời gian Các mẫu
đầu vào bao gồm vectơ không gian atttention và các
trạng thái ẩn của GRU trong A_BGRU Đầu ra từ đơn
vị tính toán trọng số attention tạo thành một tập hợp các
vectơ ngữ cảnh, C, là các đầu vào được nhúng trọng số
attention cho các đơn vị GRU Sơ đồ khối của
A_BGRU đề xuất được hiển thị trong Hình 3
Hình 3 Sơ đồ khối của mô hình đề xuất A_BGRU
Đầu tiên, vector không gian nhúng attention, 𝑀̅𝑠,
được ghép với các trạng thái ẩn của GRU trong
A_BGRU để trở thành vector đầu vào cho lớp kết nối
đầy đủ với chức năng kích hoạt toán tử Tanh Sau khi
tính toán qua hàm trung bình mũ softmax, các đầu ra từ
lớp kết nối đầy đủ tạo ra trọng số attention Ở đây, mối
tương quan giữa vectơ không gian được nhúng trọng số
attention và các trạng thái thời gian của A_BGRU được
xây dựng để tìm ra những đặc trưng cần được nhấn mạnh
vào hành động tại các bước thời gian cụ thể Thứ hai,
phép nhân ma trận của vectơ không gian nhúng
attention, 𝑀̅𝑠 và các trọng số attention tương ứng được
thực hiện để đạt được vectơ ngữ cảnh, C, giải quyết các
đơn vị GRU hai chiều với sự nhấn mạnh vào các phần
quan trọng của phân đoạn đầu vào Ví dụ mỗi đoạn video
đầu vào có 30 khung đặc trưng 𝑀̅𝑠cho A_BGRU, cần 30
bước thời gian tương ứng để thực hiện tính toán Ngoài
ra, A_BGRU tạo ra hai dữ liệu đầu ra từ các đường dẫn
tới và lùi, được nối tương ứng để tạo thành các vectơ đặc
trưng 2n chiều cho lần phân loại tiếp theo tại n = 2048
4) Cấu trúc phân loại FFNs cho phát hiện chủ thể và
nhận dạng hành động
Hai mạng nơ-ron truyền thẳng ba lớp được sử dụng
để xác định chủ thể và nhận dạng các hành động dựa
trên khung hình ảnh và phân đoạn video đầu vào, tương ứng Kích thước đầu vào của hai FFN thỏa mãn đầu ra của SJA và A_BGRU Các nơron đầu ra của hai FFN là
2 (cảnh sát giao thông và người tham gia giao thông) và
9 (9 lớp tương đương với 9 tín hiệu điều khiển) để đáp ứng các yêu cầu dự đoán và phân loại, tương ứng III KẾTQUẢVÀĐÁNHGIÁHIỆUNĂNGHỆ
THỐNG Trong phần này, chúng tôi tiến hành thực nghiệm liên quan đến mô hình đề xuất Đầu tiên, chúng tôi giới thiệu
về cơ sở dữ liệu chuẩn được sử dụng để đánh giá hiệu quả của mô hình cài đặt Tiếp theo chúng tôi trình bày hai kết quả so sánh, (1) các trường hợp cụ thể với các
mô hình khác nhau trong nhận dạng hành động, (2) so sánh về hiệu suất phân loại với mô hình đã công bố [7] Cuối cùng là phân tích kết quả phân biệt người đi bộ và cảnh sát giao thông
A Tập dữ liệu đánh giá
Trong thử nghiệm này, cơ sở dữ liệu liên quan đến tín hiệu điều khiển của cảnh sát giao thông [7] được sử dụng với 21 video clip được đưa vào (như trong Hình 4) Các video clip này có độ phân giải khung hình là
1080 × 1080-pixel và tốc độ khung hình là 15Hz Ngoài
ra, có tám lệnh và một cử chỉ không lệnh mô phỏng từ cảnh sát giao thông, trong đó mỗi hành động được thực hiện từ cử chỉ không lệnh sang trạng thái lệnh, sau đó
từ trạng thái lệnh sang cử chỉ không lệnh ở trong nhà và ngoài trời Có hai loại trang phục phản quang và phổ thông được cảnh sát giao thông mặc, trong đó trang phục phản quang được sử dụng trong hầu hết các video clip và trang phục chung chỉ xuất hiện trong hai video clip Quá trình đánh giá hiệu suất phân loại bao gồm 11 video cho huấn luyện và 10 video clip dùng để kiểm tra, tuân theo sự sắp xếp của tập dữ liệu trong [7] để có thể
so sánh một cách công bằng
Hình 4 Một vài tín hiệu điều khiển bằng hành động của dữ liệu cảnh sát giao thông [7]
Trang 5B Phân tích và so sánh kết quả thực nghiệm
Trong mục này, chúng tôi tiến hành đánh giá từng
thành phần của mô hình đề xuất DNN để hiểu được
những đóng góp về hiệu suất của chúng Ngoài ra, kết
quả thử nghiệm của các thành phần trong mô hình đề
xuất DNN được thực hiện trên cùng một tập dữ liệu để
so sánh và thảo luận Mục đích hiểu rõ hiệu suất được
cải thiện bởi các cơ chế attention trong mô hình đề xuất
SJA và A_BGRU, chúng tôi đã tiến hành đánh giá thực
hiện ba loại DNN để ghi nhận hành động DNN Loại 1,
đặt tên là CNN, bao gồm một mạng tích chập và một
mạng nơron truyền thẳng ba lớp để phân loại trong đó
các tham số ban đầu của mạng tích chập CNN này được
khởi tạo bởi các tham số của mạng Inception V3 hội tụ
DNN loại 2, được đặt tên là CNN + SJA, bao gồm DNN
loại 1 và bổ xung lớp SJA để nâng cao khả năng nhận
dạng hành động bằng các khớp tư thế trong khung
xương chủ thể DNN loại 3 được đề xuất, CNN + SJA
+ A_BGRU, sử dụng DNN Loại 2 và A_BGRU Ở đây,
A_BGRU bao gồm lớp GRU hai chiều với cơ chế
attention, chỉ tạo ra một vectơ đầu ra nối các kết quả đầu
ra từ các GRU cuối cùng trong các đường tiến và lùi
Ngoài ra, lớp phân loại hành động trong ba loại DNN
này sử dụng cùng một mạng nơ-ron truyền thẳng để dự
đoán
B ẢNG 1: H IỆU SUẤT PHÂN LOẠI CỦA BA MÔ HÌNH DNN S
Mô hình DNNs Đầu vào Hiệu xuất
phân loại
CNN+SJA RGB + Pose joints 86.95%
CNN+SJA+A_BGRU
(Mô hình đề xuất DNN) RGB + Pose joints 94.06%
Như được liệt kê trong Bảng I, hiệu suất phân loại
của DNN Loại I chỉ sử dụng một mạng tích chập CNN
là 78,90% Khi lớp SJA được thêm vào, tỷ lệ chính xác
được tăng lên 86,95% Bởi vì DNN Loại 2 đã tiếp cận
đặc trưng không gian Attention để liên kết các điểm
khớp trong bộ khung xương chủ thể, nó nhấn mạnh các
vùng có ý nghĩa để nhận dạng cử chỉ tín hiệu điều khiển
và bỏ qua các vùng không liên quan Cũng như sự nhấn
mạnh về miền không gian, DNN được đề xuất sử dụng
A_BGRU để làm nổi bật các manh mối thông tin ở miền
thời gian có liên kết theo miền không gian để thu được
các đặc trưng hành động với độ chính xác tốt nhất lên
đến 94,06% Qua đó chúng ta thấy rằng việc kết hợp sử
dụng cơ chế Attention dựa trên mạng tích chập và mạng
hồi quy đã đạt được kết quả rất khả quan
Ma trận nhầm lẫn của DNN được đề xuất liên
quan đến 9 hành động được mô tả trong Hình 5, không
phải lệnh, dừng lại, di chuyển thẳng, rẽ trái, chờ rẽ trái,
rẽ phải, chuyển làn, giảm tốc độ và dạt vào lề đường
được đánh số từ 0 đến 8 Hầu hết 8 hành động lệnh bị
phân loại sai là các hành động không phải lệnh Đó là
do một số phân đoạn video tạm thời bao gồm các hành động lệnh không hoàn chỉnh, dẫn đến dự đoán sai Nghiên cứu được công bố [7] sử dụng mạng tích chập trích xuất dữ liệu khung xương sau đó chuyển đổi qua đặc trưng độ dài và góc trong miền không gian, cuối cùng là đào tạo dữ liệu trong miền thời gian với việc sử dụng mạng LSTM So với độ chính xác 91,18% từ công trình đã công bố [7], DNN được đề xuất cho thấy hiệu suất tốt hơn 2,88% bởi việc sử dụng cơ chế Attention trong mạng tích chập CNN và mạng hồi quy GRU đào tạo trên bộ dữ liệu RGB kết hợp đặc trưng khung xương
Để phân biệt giữa người đi bộ và cảnh sát điều khiển giao thông trên đường, những người mặc đồng phục tương tự như áo phản quang được xác định là cảnh sát giao thông Bảng II hiển thị ma trận nhầm lẫn của DNN và YOLOv4- tiny [17] được đề xuất để xác định các đối tượng trong đó tổng số hơn 70.000 hình ảnh từ đối tượng cơ bản trong ngữ cảnh (COCO), Lớp đối tượng trực quan (VOC) và bộ dữ liệu cử chỉ tính hiệu điều khiển của cảnh sát giao thông được sử dụng để huấn luyện Độ chính xác được cải thiện đáng kể bởi majority votting Trong DNN được đề xuất, độ chính xác nhận biết của người đi bộ và cảnh sát lần lượt là 99,86% và 100,00% khi người đi bộ cũng thực hiện 8 hành động ra lệnh Lỗi nhận dạng người đi bộ xuất phát
từ các hành động cụ thể mà cánh tay, tay chân hoặc bàn tay của đối tượng có thể che khuất quần áo phản quang
để đánh lừa đối tượng phân loại Ở những tình huống thông thường, người đi bộ chỉ đi qua những con đường với ít cử chỉ động tác hơn Từ kết quả thí nghiệm ở Bảng
II, DNN được đề xuất có khả năng hoạt động rất hứa hẹn cho phân biệt nhận dạng người tham gia giao thông
Hình 5 Ma trận nhầm lẫn của mô hình DNN đề xuất cho nhận dạng
hành động
Trang 6Bảng 2: Matrận hỗn loạn của mô hình DNN đề xuất và YoLov4-tiny
cho phát hiện đối tượng Cảnh sát giao
thông
Người tham gia giao thông
null
Đề xuất mô hình DNN bỏ qua majority voting
(image-based) Cảnh sát
giao thông 100.00% 0.00%
Người
tham gia
giao thông
Mô hình đề xuất DNN (video-based)
Cảnh sát
giao thông 100.00% 0.00%
Người
tham gia
giao thông
YOLOv4-tiny (image-based) Cảnh sát
Người
tham gia
giao thông
YOLOv4-tiny với majority voting (video-based)
Cảnh sát
Người
tham gia
giao thông
IV KẾTLUẬN Trong khuôn khổ bài báo này, chúng tôi đã triển khai
thành công mô hình mạng DNN sử dụng chuỗi đầu vào
RGB đi kèm với các đặc trưng tư thế để phát hiện đối
tượng và nhận dạng hành động DNN được đề xuất bao
gồm mạng tích chập CNN, lớp SJA, A_BGRU và hai
mạng truyền thẳng FFN Cấu trúc liên kết mạng của
CNN dựa trên mô hình hội tụ của Google Inception V3
để tạo ra các đặc trưng đối tượng tĩnh nơi sử dụng kỹ
thuật học chuyển giao Lớp SJA hỗ chợ trích xuất đặc
trưng cục bộ trong việc điều chỉnh trọng số attention một
cách thích ứng trên các khớp tư thế của bộ khung xương
trên miền không gian A_BGRU xử lý các kết quả đầu
ra của các lớp SJA để thu được các vectơ đặc trưng
không gian-thời gian nổi bật Cuối cùng, hai mạng
truyền thẳng FFN hoàn thành việc phân loại đối tượng
và hành động, dựa trên khung hình ảnh và đoạn video,
tương ứng Kết quả phân loại từ tất cả các hình ảnh của
một đoạn video được áp dụng majority votting để dự
đoán kết quả cuối cùng Theo kết quả thử nghiệm, DNN
đề xuất đạt được độ chính xác trung bình là 99,93% và
94,06%, tương ứng để xác định chủ thể và hành động
Mô hình của chúng tôi đã khai thác và nhấn mạnh vào
những đặc trưng hữu ích có tính phân loại hành động
Do đó, DNN được đề xuất ở đây hứa hẹn là một mô hình
tối ưu để phát hiện chủ thể và hiểu đối tượng thực hiện
nhiệm vụ gì khi áp dụng cho hệ thống xe tự hành
TÀILIỆUTHAMKHẢO [1] Tesla, https://www.tesla.com/autopilot [2] BMW, https://www.bmw.com/en/automotive-life/autonomous-driving.html
[3] Google's Waymo, https://waymo.com/
[4] H Zhu, K Yuen, L Mihaylova, and H Leung, “Overview of
environment perception for intelligent vehicles,” IEEE Transactions on Intelligent Transportation Systems, vol 18, no
10, pp 2584-2601, Oct 2017
[5] C Liu, S Li, F Chang, and Y Wang, “Machine vision based traffic sign detection methods: Review, analyses and
perspectives,” IEEE Access, July 17, 2019 (Digital Object
Identifier 10.1109/ACCESS.2019.2924947)
[6] Y Zheng et al, “A method of detect traffic police in complex scenes,” in Proc of the 14th International Conference on Computational Intelligence and Security, pp 83-87, 2018 [7] J He, C Zhang, X He, and R Dong, “Visual recognition of traffic police gestures with convolutional pose machine and
handcrafted features,” Neurocomputing, no 390, pp 248–259,
2020
[8] Manh-Hung Ha and Osacl T C Chen "Action Recognition Improved by Correlation and Attention of Subjects and Scene,"
in Proceedings of the IEEE Visual Communications and Image Processing (VCIP), 2021 (Accepted)
[9] O T.-C Chen, C.-H Tsai, H H Manh, and W.-C Lai,
"Activity recognition using a panoramic camera for homecare."
in Proceedings of 14th IEEE International Conference on Advanced Video and Signal Based Surveillance, pp 1-6, 2017
[10] O T.-C Chen, H H Manh, and W.-C Lai, “Activity
recognition of multiple subjects for homecare,” in Proceedings
of the 10th International Conference on Knowledge and Smart Technology, pp 242–247, 2018
[11] P Turaga, R Chellappa, V S Subrahmanian, and O Udrea,
“Machinerecognition of human activities: A survey,” IEEE Transactions on Circuits and Systems for Video technology, vol
18, no 11, pp 1473–1488, 2008
[12] Manh-Hung Ha and Osacl T C Chen, “Deep neural networks using capsule networks and skeleton-based attentions for action recognition,” IEEE Access, vol 9, pp 6164–6178, January
2021
[13] S Das, A Chaudhary, F Bremond, and M Thonnat, “Where to
focus on for human action recognition?” in IEEE Winter Conference on Applications of Computer Vision, pp 71–80,
2019
[14] D Li, T Yao, L.-Y Duan, T Mei, and Y Rui, “Unified spatiotemporal attention networks for action recognition in
videos,” IEEE Transactions on Multimedia, vol 21, no 2, pp
416–428, 2019
[15] O T.-C Chen, M.-H Ha, and Y L Lee, "Computation-affordable recognition system for activity identification using a
smart phone at home," in Proceedings of the IEEE International Symposium on Circuits and Systems, pp 1-5, 2020
[16] Z Cao, T Simon, S.-E Wei, and Y Sheikh, “Realtime
multi-person 2d pose estimation using part affinity fields,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 7291–7299, 2017
[17] Jiang, Z., Zhao, L., Li, S., & Jia, Y Real-time object detection method based on improved YOLOv4-tiny arXiv preprint arXiv:2011.04244, 2020