Phân tích hành vi đám đông có thể có tác động lớn đến một loạt của các miền ứng dụng mới, chẳng hạn như trong an toàn công cộng nói chung, các sự kiện quy mô lớn, lập kế hoạch ứng phó vớ
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2Chương 1: GIỚI THIỆU
1.1 Tổng quan bài toán
Phân tích hành vi là một trong những nhiệm vụ thách thức nhất trong lĩnh vực Thị giác máy tính (Computer Vision) Trong mảng phân tích hoạt động của con người, phân tích hành vi cá nhânnhận được nhiều sự chú ý hơn Mặt khác, các phân tích dựa trên các cảnh đông người ít hơn đáng kể Phân tích hành vi đám đông có thể có tác động lớn đến một loạt của các miền ứng dụng mới, chẳng hạn như trong an toàn công cộng nói chung, các sự kiện quy mô lớn, lập
kế hoạch ứng phó với thiên tai và hoạt động giao thông vận tải Giám sát một đám đông cho các ứng dụng giám sát và an toàn là thiết yếu trong các lĩnh vực
đó Tự động phát hiện các sự cố hoặc các hành vi hỗn loạn trong đám đông Cụ thể hóa các khu vực bất thường là rất có giá trị đối với các cơ quan hữu quan
Hành vi bình thường đề cập đến hành vi mong đợi/dự kiến ở cá nhân Cách một người tương tác với những người khác, các hành vi của họ thường phù hợp với mong đợi của xã hội Khi những kỳ vọng này và hành vi cá nhân là đồng bộ, hành vi được coi là bình thường Trong mọi xã hội, có những kỳ vọng xã hội, chuẩn mực, giá trị, hơn thế nữa, v.v quy định quy tắc ứng xử của mỗi cá nhân Miễn là mọi người tuân thủ những điều này, hành vi của họ được coi là bình thường Nếu một mẫu của hành vi
đi ngược lại những gì được xã hội coi là bình thường, đây có thể được định nghĩa là hành vi bất thường [22] Tương tự như vậy, chúng ta có thể định nghĩa những hành vi bất thường trong đám đông theo những hoàn cảnh cụ thể Ví dụ ở nơi công cộng như đường phố, nhà ga, các hành vi được coi là bất thường là đánh nhau, đuổi nhau, chạy trốn…, trên khán đài của sân vận động, các cổ động viên không theo dõi cổ vũ các vận động viên mà xô xát với nhau hoặc với lực lượng chức năng Đó là các ví dụ về hành
vi bất thường trong đám đông
Phân tích cảnh đám đông phải đối mặt với nhiều thách thức hơn so với hoạt động cá nhân của con người do nhiều nguyên nhân Với mật độ của những người được tìm thấy trong những cảnh như vậy thường gây khó khăn cho các
Trang 3thuật toán để xác định chính xác các thực thể riêng lẻ Việc xác định các bộ phận
cơ thể và chúng còn khó hơn các mô hình chuyển động tương ứng để phân loại hoạt động cá nhân của mỗi người tham gia Hành vi của đám đông thường thể hiện các hành vi nổi cộm và các hoạt động tự tổ chức, đặc biệt là trong các sự kiện bất thường Hơn nữa, những nội dung mà chúng ta tiếp cận được thường có chất lượng thấp và thiếu hụt các sự kiện bất thường tiêu biểu trong đám đông, vì chúng chỉ được cung cấp cho các cơ quan chức năng vì lý do pháp lý và quyền riêng tư cá nhân
Trong khuôn khổ nghiên cứu này, chúng tôi sẽ nghiên cứu và cố gắng phân loại 3 loại hành vi trong đám đông, đó là: đám đông bình thường, đám đông xung đột, đám đông hoảng loạn Đám đông xung đột là có xung đột giữa 2 hoặc nhiều người trong cảnh đông đúc Đám đông hoảng loạn là hiện tượng đám đông
sợ hãi, chạy trốn khỏi sự đe dọa của một sự kiện nào khác như thiên tai, hỏa hoạn, khủng bố…
Nghiên cứu này trình bày một phương pháp luận mới để phát hiện sự kiện bất thường trong cảnh đông đúc và đáp ứng nhanh hơn khi áp dụng với dữ liệu thực
tế với điều kiện ít dữ liệu Để đạt được mục đích này, một kiến trúc mạng nơ-ron mới được phát triển, kết hợp giữa ảnh, bản đồ mật độ đám đông và thông tin luồng quang học để xác định các sự kiện bất thường trong đám đông Để huấn luyện mạng, một tập dữ liệu tổng hợp chứa các cảnh có hành vi bất thường được
sử dụng Để đánh giá và kiểm tra phương pháp, chúng tôi đã xây dựng một tập
dữ liệu thực tế, bằng cách thu thập từ các nguồn trên Internet
1.2 Các vấn đề cần giải quyết
Vấn đề 1: Sự thiếu hụt của dữ liệu thực tế
Vấn đề 2: Chất lượng của dữ liệu
Vấn đề 3: Yêu cầu dữ liệu lớn
Vấn đề 4: Đáp ứng nhanh với dữ liệu thực tế
1.3 Bố cục luận văn
Luận văn chia thành 5 phần cụ thể như sau:
Trang 4Chương 1: Giới thiệu Chương này trình bày về bài toán nghiên cứu phương pháp phát hiện hành vi bất thường trong đám đông sử dụng bản đồ mật độ nhiệt, những khó khăn trong quá trình thực hiện bài toán
Chương 2: Các nghiên cứu, kiến thức liên quan đến luận văn Chương này bàn luận đến những lý thuyết, các nghiên cứu hay các hệ thống được dùng trong luận văn hoặc có liên quan tương tự được tham khảo
Chương 3: Phương pháp đề xuất Chương này trình bày hướng tiếp cận bài toán, cách huấn luyện đề xuất và mô hình mạng đề xuất
Chương 4: Thực nghiệm và đánh giá Chương này bàn luận đến quá trình cài đặt cũng như các kết quả thực nghiệm và đánh giá mô hình
Chương 5: Kết luận Chương này đề cập đến các vấn đề đã giải quyết và hướng nghiên cứu trong tương lai
Trang 5Chương 2: CÁC NGHIÊN CỨU LIÊN QUAN
Trang 6véc tơ chuyển động của toàn bộ khung hình (toàn bộ các pixel) Do vậy, luồng quang dày đặc có độ chính xác cao hơn khi mô tả chuyển động trong khung hình
2.5.2 Mạng FlowNet:
2.6 Kỹ thuật tăng cường dữ liệu
Dữ liệu là một phần rất quan trọng trong các hệ thống và ứng dụng trí tuệ nhân tạo ngày nay
Dữ liệu tăng cường: là kỹ thuật đơn giản nhất bằng việc xử lý đơn giản dữ liệu sẵn có bằng các phép xử lý ảnh tuyến tính hay phi tuyến
Việc phụ thuộc vào dữ liệu, ứng dụng và kiến trúc mạng kể trên đồng nghĩa với việc không có cách thức tổng quát cho tất cả các tập dữ liệu và bài toán Cần phải thử nghiệm rất nhiều, và chắc chắn sẽ tốn rất nhiều thời gian để có thể tìm
ra cách tăng cường dữ liệu tốt nhất cho bài toán và tập dữ liệu cụ thể
2.7 Các nghiên cứu liên quan
Trên thế giới, cũng có các nghiên cứu của các nhóm tác giả về chủ đề phân tích hành vi bất thường trong đám đông Sau đây, chúng ta sẽ xem xét một số nghiên cứu như vậy
Nghiên cứu [3] đi theo một cách tiếp cận phổ biến cho phát hiện sự kiện bất thường Do thiếu dữ liệu về hành vi bất thường, trước tiên các tác giả đã tìm hiểu các mô hình bình thường, và sau đó phát hiện sự bất thường khi các sự kiện
đi chệch hướng từ các mẫu bình thường đã được phân tích Cách tiếp cận này cũng rất tự nhiên và hợp lý, tuy nhiên, các hành vi bình thường phụ thuộc vào hoàn cảnh cụ thể, văn hóa cũng như nhận thức tại từng khu vực, do vậy, khi chuyển đổi khu vực áp dụng, có thể không dùng lại được các kết quả đã đào tạo trước đây Thêm nữa, các hành vi được coi là bình thường cũng có những thể hiện đột xuất, ví dụ: một nhóm người đi ngược chiều hoặc cắt qua dòng người đang đi, khi đó kết quả dự đoán sẽ bị sai lệch Sự kiện bình thường được theo
Trang 7dõi trong một thời gian dài, do vậy mô hình sẽ không sử dụng được trong các sự kiện ngắn hạn như lễ hội hoặc các sự kiện theo chủ đề
Nghiên cứu [14] phát hiện hành vi bất thường dựa vào việc phân tích quỹ đạo chuyển động của từng đối tượng, phát hiện sự sai khác so với lớp bình thường để xác định sự bất thường Tuy nhiên, theo dõi từng đối tượng trong đám đông để trích xuất ra được quỹ đạo chuyển động của họ là không thực tế trong một cảnh đông đúc, do vậy cách tiếp cận này không có ý nghĩa thực tiễn khi phân tích hành vi bất thường trong đám đông
Cũng có các nghiên cứu khác sử dụng học sâu để phân loại hành vi bất thường trong đám đông Trong nghiên cứu [13], các tác giả lại sử dụng một kỹ thuật gọi là “end-to-end convolutional autoencoder” để phát hiện các hành vi bất thường trong video giảm sát với kết quả khá tốt, còn trong nghiên cứu [15], các tác giả sử dụng mạng tích chập 3D để phân loại các điểm bất thường Tuy nhiên,
cả 2 nghiên cứu [13] và [15], các kỹ thuật mới chỉ thực hiện trên các đặc trưng
về không gian mà bỏ qua các đặc trưng về thời gian, do đó sẽ chỉ mang tính thời điểm
Trong khuôn khổ luận văn này, chúng tôi sẽ đề xuất một phương pháp mới,
sử dụng cả đặc trưng không gian và đặc trưng thời gian để đưa ra được kết quả khả quan, có khả năng đáp ứng nhanh với sự thay đổi của dữ liệu thực tế
Trang 8Chương 3: PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Tổng quan
Phân tích cảnh đám đông phải đối mặt với nhiều thách thức hơn so với hoạt động cá nhân của con người do nhiều nguyên nhân Với mật độ của những người được tìm thấy trong những cảnh như vậy thường gây khó khăn cho các thuật toán để xác định chính xác các thực thể riêng lẻ Việc xác định các bộ phận
cơ thể và chúng còn khó hơn các mô hình chuyển động tương ứng để phân loại hoạt động cá nhân của mỗi người tham gia Hành vi của đám đông thường thể hiện các hành vi nổi cộm và các hoạt động tự tổ chức, đặc biệt là trong các sự kiện bất thường Hơn nữa, nội dung có sẵn mà chúng ta có thể tiếp cận được thường có chất lượng thấp và thiếu các ví dụ thực tế về các sự kiện được phát hiện vì chúng chỉ có sẵn cho chính quyền vì lý do pháp lý và quyền riêng tư Tại chương này, chúng tôi đề xuất một phương pháp luận mới để phát hiện sự kiện bất thường trong cảnh đông đúc và có khả năng đáp ứng nhanh hơn khi áp dụng với dữ liệu thực tế mà không yêu cầu nhiều dữ liệu đào tạo
Do không thể áp dụng các phương pháp phát hiện và theo dõi cổ điển trong các cảnh đông đúc này nên cần phải có một cách tiếp cận tổng thể hơn
Luồng quang học cung cấp độ lớn và hướng của chuyển động giữa các khung hình Trên cơ sở đó, việc chọn luồng quang học của bối cảnh như vậy là phù hợp để phân tích Tuy nhiên, phân tích như vậy có thể dễ bị sai sót do nội dung chuyển động là tương tự từ các phần của cảnh không có người, hoặc bị nhầm lẫn khi dòng người di chuyển theo nhiều hướng khác nhau trong cùng 1 không gian…
Trang 9Bản đồ mật độ nhiệt của đám đông có thể sử dụng như một tính năng định hướng để đảm bảo rằng chỉ các vùng có liên quan mới được đưa vào phân tích chuyển động, tránh sự gặp phải sự giống nhau của luồng chuyển động ở những cảnh không có người Hơn nữa, trong một khoảng thời gian, những thay đổi về mật độ đám đông, chẳng hạn như sự di tản đột ngột của đám đông tại một địa điểm cũng có thể là kết quả của 1 đám đông hoảng loạn hay sự đông lên bất thường cũng là bằng chứng cho thấy có giao tranh của đám đông
Việc thiếu dữ liệu để đào tạo mạng cũng là một vấn đề lớn mà trong quá trình nghiên cứu đã gặp phải Vì vậy, bài toán đặt ra là làm sao có thể phát hiện hành vi bất thường trong đám đông mà chỉ sử dụng rất ít dữ liệu đào tạo Ở đây, chúng tôi sử dụng tập dữ liệu ảo, được tổng hợp theo các hành vi đám đông cụ thể để đào tạo Sau đó áp dụng kỹ thuật đáp ứng miền, cụ thể hơn, sử dụng phương pháp tinh chỉnh mô hình Mục đích để khi áp dụng cho dữ liệu thực tế,
có thể không cần đào tạo lại hoặc chỉ cần rất ít dữ liệu để đào tạo lại là mô hình
Trang 10- Bước 1: Spatial Encode - có nhiệm vụ trích xuất và học các đặc trưng theo không gian của dữ liệu đầu vào Đó là hướng chuyển động, chiều chuyển động, mật độ đám đông, bối cảnh….Tại thành phần này, luận văn sử dụng mạng Resnet18 đã được tiền huấn luyện trên tập dữ liệu ImageNet
- Bước 2: Temporal Encode - có nhiệm vụ trích xuất và học các thay đổi theo thời gian của các đặc trưng đã trích xuất được từ Bước 1 Để thực hiện công
Trang 11việc này, luận văn sử dụng mạng LSTM với 2 lớp ẩn
- Bước 3: Kết nối đầy đủ: làm phẳng dữ liệu đầu ra của mạng và kết nối chúng thành mảng 1 chiều
- Bước 4: Phân lớp: tính toán xác xuất phân lớp đầu ra, sử dụng hàm Softmax
- Đầu ra: mảng 3 phần tử, mỗi phần tử là xác xuất phân lớp của dữ liệu đầu vào với lớp tương ứng
Dữ liệu đầu vào được tạo thành từ việc xếp các đặc trưng đã trích xuất trước lại với nhau, đưa qua phần đầu của mạng để trích xuất đặc trưng theo không gian Tiếp
đó, dữ liệu thu được đưa qua phần thứ 2 để trích xuất đặc trưng theo thời gian Kết quả cuối cùng được đưa qua mạng kết nối đầy đủ sau đó tính toán kết quả phân lớp Trong quá trình huấn luyện, để tăng độ chính xác, giảm thiểu tình trạng quá khớp (overfitting), nghiên cứu có sử dụng thêm các kỹ thuật tăng cường dữ liệu Các phương pháp được sử dụng bao gồm xoay, thêm nhiễu, lật ảnh, điều chỉnh độ sáng, cắt ngẫu nhiên… khi sử dụng các phương pháp này, phải đảm bảo các khung hình thuộc cùng 1 mẫu huấn luyện phải được áp dụng các thay đổi như nhau để không làm sai lệch dòng chuyển động
3.4 Áp dụng kỹ thuật tăng cường dữ liệu
Sau đây, chúng tôi sẽ trình bày các kỹ thuật tăng cường dữ liệu được sử dụng trong nghiên cứu để làm phong phú thêm lượng dữ liệu, giảm hiện tượng quá khớp:
Ảnh gốc: ảnh chưa qua chỉnh sửa
Phép Lật: lật theo chiều dọc, ngang miễn sao ý nghĩa của ảnh, nhãn của ảnh được giữ nguyên hoặc suy ra được Ví dụ nhận dạng quả bóng tròn, phép lật vẫn giữ nguyên quả bóng tròn, còn với nhận dạng chữ viết tay, lật số 8 vẫn là 8, nhưng 6 sẽ thành 9 (theo chiều ngang) và không ra số gì theo chiều dọc Còn nhận dạng ảnh y tế thì việc bị lật trên xuống dưới là không bao giờ sảy ra ở ảnh thực tế
Phép Xoay: Xoay ảnh theo trục dọc hoặc trục ngang
Cắt ngẫu nhiên: cắt ngẫu nhiên một phần của bức ảnh Lưu ý là khi cắt phải giữ thành phần chính của bức ảnh mà ta quan tâm Như ở nhận diện vật thể,
Trang 12nếu ảnh được cắt không có vật thể, vậy giá trị nhãn là không chính xác
Chuyển đổi màu: Chuyển đổi màu của bức ảnh bằng cách thêm giá trị vào
3 kênh màu RGB Việc này liên quan tới ảnh chụp đôi khi bị nhiễu => màu bị ảnh hưởng
Thêm nhiễu: Thêm nhiễu vào bức ảnh Nhiễu thì có nhiều loại như nhiễu ngẫu nhiên, nhiễu có mẫu, nhiễu cộng, nhiễu nhân, nhiễu do nén ảnh, nhiễu mờ
do chụp không lấy nét, nhiễu mờ do chuyển động
Màu ngẫu nhiên: Thay đổi màu trong bức ảnh
Thay đổi độ tương phản: thay độ tương phản của bức hình, độ bão hòa Ngoài ra, còn có rất nhiều phép tăng cường dữ liệu khác, tuy nhiên, chúng tôi chỉ chọn các cách trên vì phù hợp với bài toán đang nghiên cứu
Trang 13Chương 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 Tập dữ liệu sử dụng
Tập dữ liệu pretrain: Sử dụng tập dữ liệu MED được giới thiệu tại [6] Tập dữ liệu MED gồm 17 video liên quan đến luận án, mỗi video có độ dài từ 40-90 giây, được chia các video lớn thành các video sample, mỗi sample dài 3 giây Tập huấn luyện là tập các sample thuộc 13 video gốc và tập kiểm chứng là các sample từ 4 video gốc còn lại, đảm bảo các sample trên tập huấn luyện và tập kiểm chứng không cùng video gốc
Bảng 4.1: Thống kê dữ liệu tập pretrain Tập huấn luyện 166 sample Tập kiểm chứng 72 sample
Tập dữ liệu này được mô phỏng theo các hành vi của đám đông, bao gồm các hành vi được sử dụng trong luận văn cụ thể:
Bảng 4.2: Thống kê số lượng mẫu theo nhãn của tập pretrain
Tập huấn luyện Số lượng mẫu
Trang 14trở lên, được chuyển đổi về kích thước 224*224 ở bitrate 30fps
Bảng 4.3: Thống kê số lượng mẫu theo nhãn của tập thực tế
Bình thường 158 Hoảng loạn 62
Bảng 4.4: Thống kê các bối cảnh trong tập dữ liệu thực tế
Đường phố
Sân vận động
Ga tàu Trường
học Khác Bình
4.2 Thông số mạng huấn luyện
Các thông số mạng được sử dụng trong quá trình huấn luyện được thể hiện trong bảng 4.5
Bảng 4.5: Thống kê các bối cảnh trong tập dữ liệu thực tế
Batch Size 16 Số sample được đưa vào trong
1 lần huấn luyện
đưa vào huấn luyện
Sample length 3s Độ dài tính bằng giây của
video đưa vào huấn luyện