STT Tên nội dung hình ảnh 1.1 Đám đông 1.2 Mô hình phân loại phân tích đám đông 1.3 Mô hình hệ thống camara giám sát tập trung 1.4 Hệ thống camera kết nối về trung tâm xử lý hình ảnh 1.5
Trang 1TRẦN VĂN THÀNH
NGHIÊN CỨU KỸ THUẬT PHÂN TÍCH ĐÁM ĐÔNG TRONG GIÁM SÁT TỰ ĐỘNG
DỰA VÀO THỊ GIÁC MÁY
Chuyên ngành: Khoa học máy tính
Mã số: 08.48.01.01
Người hướng dẫn: TS Lê Thị Kim Nga
Trang 2Em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến:
- Cô TS.Lê Thị Kim Nga - Viện trưởng Viện nghiên cứu ứng dụng KH&CN, Giảng viên Khoa Công nghệ thông tin (Trường Đại học Quy Nhơn)
đã dành nhiều thời gian, công sức, hỗ trợ và hướng dẫn tận tình em trong quá trình thực hiện đề tài, giúp em hoàn thành luận văn này một cách thuận lợi nhất;
- Quý thầy cô Khoa Công nghệ thông tin (Trường Đại học Quy Nhơn) đã tích cực giảng dạy, cung cấp những kiến thức chuyên môn và thiết thực trong quá trình học tập, giúp em hiểu sâu hơn những nội dung liên quan phục vụ cho việc nghiên cứu đề tài này;
- Quý lãnh đạo cơ quan đã tạo điều kiện thuận lợi nhất về thời gian, sắp sếp công việc để em theo đuổi và hoàn thành khóa học
Một lần nữa, em thành thật cảm ơn và trân trọng gửi đến quý thầy cô, quý lãnh đạo cơ quan lời chúc tốt đẹp nhất trong sự nghiệp cũng như trong cuộc sống
Bình Định, ngày tháng năm 2020
Học viên
Trần Văn Thành
Trang 3Tôi xin cam đoan, toàn văn đề tài nghiên cứu trên là do tôi tự vận dụng kiến thức đã học, tìm hiểu qua nhiều kênh thông tin và biên tập, có tham khảo tài liệu liên quan, có chọn lọc và không sao y toàn văn của những đề tài đã công bố chính thức, không quy phạm quyền tác giả Các số liệu, kết quả nêu trong luận văn là trung thực và có tham chiếu nguồn gốc rõ ràng
Bình Định, ngày tháng năm 2020
Học viên
Trần Văn Thành
Trang 4DANH MỤC CÁC TỪ VIẾT TẮT
DANH MỤC CÁC HÌNH ẢNH
DANH MỤC CÁC BẢNG VẼ
NỘI DUNG LUẬN VĂN Trang
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục tiêu nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 2
3.1 Đối tượng nghiên cứu 2
3.2 Phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 3
5 Ý nghĩa của đề tài 3
5.1 Ý nghĩa khoa học 3
5.2 Ý nghĩa thực tiễn 4
6 Cấu trúc luận văn 4
Chương 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU 5
1.1 Tình hình nghiên cứu của đề tài 5
1.2 Khái quát về đám đông 6
1.2.1 Giới thiệu chung 6
1.2.2 Một số tiếp cận về đám đông 7
1.3 Hệ thống camera giám sát tập trung 12
Trang 51.4 Mô hình phân tích đám đông trong giám sát tự động dựa vào thị giác máy 15
1.4.1 Tổng quan về thị giác máy 15
1.4.2 Một số ứng dụng của thị giác máy 19
1.5 Kết luận chương 1 20
Chương 2: MỘT SỐ KỸ THUẬT PHÂN TÍCH ĐÁM ĐÔNG TRONG GIÁM SÁT TỰ ĐỘNG 21
2.1 Kỹ thuật phát hiện chuyển động 21
2.1.1 Giới thiệu 21
2.1.2 Kỹ thuật trừ nền 38
2.1.3 Đánh giá kỹ thuật phát hiện chuyển động 31
2.2 Kỹ thuật phát hiện đối tượng 32
2.2.1 Giới thiệu 32
2.2.2 Các tính năng áp dụng kỹ thuật phát hiện đối tượng 34
2.2.3 Đánh giá kỹ thuật phát hiện đối tượng 36
2.3 Kỹ thuật bám sát đối tượng 37
2.3.1 Giới thiệu 37
2.3.2 Một số đặc trưng trong kỹ thuật bám sát đối tượng 39
2.3.3 Đánh giá kỹ thuật bám sát đối tượng 40
2.4 Kết luận chương 2 41
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 42
3.1 Giới thiệu bài toán 42
Trang 63.3.1 Thiết lập thử nghiệm 47
3.3.2 Kết quả thử nghiệm 48
3.4 Đánh giá kết quả thử nghiệm 53
3.5 Kết luận chương 3 54
KẾT LUẬN VÀ KIẾN NGHỊ 55
DANH MỤC TÀI LIỆU THAM KHẢO 57
Trang 7STT Từ viết tắt Diễn giải ý nghĩa
1 Artificial Intelligence (AI) Trí tuệ nhân tạo
2 Anomaly event detection Phát hiện sự kiện bất thường
8 Crowd analysis techniques Kỹ thuật phân tích đám đông
9 Crowd analysis using computer
11 Motion pattern segmentation Phân đoạn mẫu chuyển động
Trang 8STT Tên nội dung hình ảnh
1.1 Đám đông
1.2 Mô hình phân loại phân tích đám đông
1.3 Mô hình hệ thống camara giám sát tập trung
1.4 Hệ thống camera kết nối về trung tâm xử lý hình ảnh
1.5 Tầm quan trọng của thị giác máy đối với trí tuệ nhân tạo
1.6 Vai trò của thị giác máy trong nhận dạng và phát hiện đối tượng 1.7 Cấu tạo hệ thống thị giác máy
1.8 Thị giác máy có khả năng nhìn và hiểu giống như con người
1.9 Nhận thức về một vật trong ảnh của thị giác máy
1.10 Mô hình một số lĩnh vực ứng dụng của thị giác máy
2.1 Phát hiện đối tượng có hành động đi tốc độ nhanh được khoanh vùng 2.2 Mô hình phát hiện đối tượng chuyển động
2.3 Quy trình trừ nền
2.4 Kỹ thuật trừ nền
2.5 Sơ đồ kỹ thuật phát hiện đối tượng trên ảnh
Trang 92.8 Mô hình kỹ thuật bám sát đối tượng
2.9 Bám sát đối tượng chuyển động
3.1 Các bước quá trình phát hiện và theo dõi đối tượng 3.2 Sơ đồ thực hiện chương trình thử nghiệ
3.3 Cách truyền video vào chương trình thử nghiệm 3.4 Kết quả chương trình thử nghiệm trên video
Trang 10STT Tên nội dung bảng vẽ
2.1 Phân tích hiệu suất các mô hình trừ nền
3.1 Kết quả đánh giá chương trình thử nghiệm trên video
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Ngày nay, khoa học máy tính (Computer Science) xuất hiện thay đổi hoàn toàn thế giới của chúng ta, thị giác máy (Computer Vision) là một trong lĩnh vực trí tuệ nhân tạo (Artificial Intelligence) nhằm giúp máy tính có được khả năng nhìn và hiểu giống như con người Thị giác máy được định nghĩa là một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng các hình ảnh, nói chung là dữ liệu đa chiều từ thế giới thực
để cho ra các thông tin số
Với sự gia tăng dân số và sự đa dạng của các hoạt động con người, hoạt động của đám đông diễn ra ở những nơi công cộng thường xuyên hơn bao giờ hết Từ đó mang đến các thách thức lớn trong việc quản lý an ninh, an toàn, giám sát hoạt động đang diễn ra ở những nơi này Khi theo dõi một đám đông đòi hỏi phải theo dõi một số lượng lớn các cá nhân và các hoạt động của họ,
đó là một thách thức đáng kể đối với sự giám sát của con người
Để giám sát quản lý các nơi này, đồng thời hỗ trợ việc giám sát thủ công truyền thống Trong hơn thập kỷ qua, các hệ thống giám sát tự động đã được nghiên cứu và đưa vào thực tế Mặc dù, đã có nhiều giải thuật được phát triển
để theo vết, nhận biết và hiểu các hành vi của các đối tượng khác nhau trong video, nhưng hầu như các giải thuật này được thiết kế cho những cảnh với mật độ dân số thấp Khi áp dụng lên những cảnh đám đông thì việc xử lý gặp khó khăn khi số lượng cá thể lớn, không chỉ bị sai lệch trong việc phát hiện và theo vết, mà còn làm cho quá trình tính toán trở nên phức tạp hơn Với nhu cầu thực tế như vậy, chủ đề nghiên cứu phân tích đám đông trở thành một hướng nghiên cứu quan trọng Bài toán phân tích đám đông được mô phỏng qua quá trình 3 giai đoạn nối tiếp tương tự cách con người nhìn: mô phỏng
Trang 12mắt (thu nhận), mô phỏng vỏ não thị giác (xử lý) và mô phỏng phần còn lại của bộ não (phân tích) Các thông tin về đám đông rất đa dạng và có cấu trúc phức tạp, các nghiên cứu gần đây tập trung vào việc lựa chọn và sử dụng các đặc trưng để biểu diễn khái niệm đám đông trong video Tuy nhiên, các đặc trưng được sử dụng vẫn chưa thể hiện được độ phức tạp và tính ngữ nghĩa của cảnh đám đông do hầu hết các đặc trưng này đều nghiên cứu trên những cảnh đám đông nhất định
Từ những lý do ở trên, tôi chọn đề tài Nghiên cứu kỹ thuật phân tích đám đông trong giám sát tự động dựa vào thị giác máy là nội dung nghiên cứu luận văn Thạc sĩ
2 Mục tiêu nghiên cứu
Trích xuất một số loại thông tin từ các chuỗi video đông đúc, những thông tin này là cơ sở để có thể phát triển một số ứng dụng sau này như phát hiện chuyển động, ước tính mật độ đám đông, phát hiện hành vi
Nghiên cứu các kỹ thuật cho bài toán phân tính đám đông Xây dựng chương trình thử nghiệm và đánh giá các phương pháp ứng dụng trong giám sát tự động dựa vào thị giác máy
3 Đối tƣợng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
- Các video hoặc hình ảnh camara trực tiếp
- Một số kỹ thuật xác định những thông tin liên quan đến đám đông trên
camera giám sát
3.2 Phạm vi nghiên cứu
Các kỹ thuật được áp dụng trong phạm vi dữ liệu khung hình camera, có thể là luồng video trực tiếp hoặc từ file video lưu trữ trên ổ cứng Dữ liệu thể
Trang 13hiện một góc nhìn của vùng không gian địa lý được thu nhận dưới ống kính camera Dữ liệu có thể từ một hoặc nhiều camera riêng lẻ quan sát nhiều góc khác nhau của một khu vực địa lý
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài được lựa chọn là lý thuyết kết hợp với thực nghiệm Các vấn đề cần giải quyết liên quan đến các thuật toán và lý thuyết truyền thông mạng, xử lý ảnh, thị giác máy và đồ họa máy tính được thực hiện trên phần mềm máy tính với đầu vào là các thông tin thu nhận được
từ thực tế Quá trình được tiến hành dựa trên việc tìm hiểu tài liệu, cài đặt thử nghiệm sau đó đánh giá kết quả thực nghiệm và cải tiến nhằm nâng cao chất lượng hệ thống
Như vậy, cần tiến hành tìm hiểu lý thuyết về hệ thống camera giám sát, các kỹ thuật phát hiện chuyển động, phát hiện đối tượng cũng như bám sát đối tượng trên khung hình camera Tìm hiểu kỹ thuật về mặt lý thuyết sẽ được kết hợp với việc cài đặt thực nghiệm trên dữ liệu luồng hình ảnh từ camera để kiểm chứng và đánh giá những nội dung lý tìm hiểu lý thuyết và từ đó cải tiến
và hoàn thiện chương trình
5 Ý nghĩa của đề tài
Trang 145.2 Ý nghĩa thực tiễn:
Việc xuất hiện những bất thường ở những khu vực công cộng, đặc biệt là
sự xuất hiện cũng như diễn biến của những đám đông là một vấn đề thời sự đối với xã hội Việc có thể phát hiện và có những đánh giá kịp thời là vấn đề
có ý nghĩa quan trọng đối với những người làm công tác an ninh và kể cả với những người dân bình thường
6 Cấu trúc luận văn
Các nội dung sẽ được được trình bày có cấu trúc như sau:
- Phần Mở đầu: Khái quát lý do; Mục tiêu, đối tượng và phạm vi nghiên cứu; Phương pháp nghiên cứu
- Phần Nội dung: Nội dung nghiên cứu được cụ thể hóa trong 3 Chương: + Chương 1: Tổng quan về đề tài nghiên cứu
+ Chương 2: Một số kỹ thuật phân tích đám đông trong giám sát tự động + Chương 3: Chương trình thử nghiệm
- Phần Kết luận: Kết quả đạt được về mặt lý thuyết và thực nghiệm, những hạn chế trong quá trình thực hiện, đề xuất hướng phát triển trong thời gian tới
Trang 15Chương 1 TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU
1.1 Tình hình nghiên cứu của đề tài
Nghiên cứu về hành vi của con người là một chủ đề rất được quan tâm của khoa học và có lẽ là một nguồn nghiên cứu vô tận Với sự cải tiến của các
kỹ thuật thị giác máy, một số ứng dụng trong lĩnh vực này, như giám sát video, hiểu hành vi của con người hoặc đo lường hiệu suất thể thao, đã được
xử lý bằng các kỹ thuật tự động hoặc bán tự động Tuy nhiên, vẫn còn một số thách thức phức tạp, khiến đề tài này có liên quan về mặt nghiên cứu
Đám đông được tạo thành từ các bộ phận của cá nhân độc lập, theo đó mỗi người trong số họ có mục tiêu riêng và mô hình hành vi khác với dự kiến
cá nhân từ những người tham gia [1] Hiện tại các hệ thống thương mại được phát triển để theo dõi, công nhận và hiểu hành vi của rất nhiều đối tượng sử dụng một hoặc nhiều máy quay video, xử lý thông tin trong một hoặc nhiều máy tính Phân tích đám đông liên quan đến việc giải thích dữ liệu thu được bằng cách nghiên cứu chuyển động tự nhiên của các nhóm hoặc đối tượng
Áp dụng một vài thuật toán theo dõi những người tập trung trong cảnh đám đông để khám phá hành vi dự kiến của đám đông Khám phá các khía cạnh tâm lý xã hội của đám đông, như phát hiện nhóm và phân loại dựa trên không gian cá nhân hoặc mô hình lực lượng xã hội được là một xu hướng để phát hiện bất thường trong cảnh đám đông [4]
Ứng dụng đồ họa máy tính có thể giúp thị giác máy giám sát trong các ứng dụng của đám đông và ngược lại Một thách thức lớn trong phân tích đám đông là việc tạo ra các hình ảnh hoặc chuỗi video chân thực có thể được sử dụng cho mục đích huấn luyện hoặc nhận dạng Hình ảnh hoặc các chuỗi video được tạo bởi các thuật toán đồ họa máy tính có thể được sử dụng để xác nhận các thuật toán thị giác máy [2]
Trang 16Các thuật toán tổng hợp đám đông cũng có thể được hưởng lợi từ thông tin thu được từ cuộc sống đọc bằng thuật toán thị giác máy Trong thực tế, hầu hết các kỹ thuật mô phỏng đám đông hiện có yêu cầu một số loại kích thích chuyển động để hướng dẫn các tác nhân ảo, có thể có được thông qua các thuật toán theo dõi Kích thích như vậy có thể được thu được trong các cảnh không và được sử dụng để ước tính các kịch bản trong một kịch bản đông đúc hơn hoặc được trích xuất trực tiếp từ trình tự dày đặc hơn [13]
Tóm lại, phân tích đám đông trong giám sát tự động dựa vào thị giác máy có lẽ về lâu dài là một vấn đề trọng tâm của các nhà nghiên cứu Vấn đề này đưa ra những thách thức về sự phức tạp lớn có thể liên quan đến các nhà nghiên cứu một số lĩnh vực và bối cảnh Đặc biệt, việc tích hợp thị giác máy
và đồ họa máy tính trở nên phổ biến hơn trong cả phân tích và tổng hợp đám đông
1.2 Khái quát về đám đông
1.2.1 Giới thiệu chung
Đám đông (Crowd) là do các nhóm hoặc đối tượng tập trung Việc phân tích đám đông (Crowd analysis) liên quan đến việc giải thích dữ liệu thu được khi nghiên cứu sự chuyển động tự nhiên của các nhóm hoặc đối tượng [1] Phân tích đám đông được xem như một cuộc khảo sát sử dụng các kỹ thuật thị giác máy bao gồm các khía cạnh khác nhau như theo dõi con người, ước tính mật độ đám đông, phát hiện sự kiện, xác nhận và mô phỏng Phân tích đám đông cũng có một loạt các ứng dụng như quản lý đám đông, thiết kế không gian công cộng, môi trường ảo, giám sát trực quan và môi trường thông minh Thách thức lớn trong phân tích đám đông là tạo ra các hình ảnh hoặc chuỗi video mặt đất, có thể được sử dụng cho mục đích huấn luyện hoặc nhận dạng [9]
Trang 17đồ họa máy tính được thực hiện trên phần mềm máy tính với đầu vào là các thông tin thu nhận được từ thực tế Quá trình được tiến hành dựa trên việc tìm hiểu tài liệu, cài đặt thử nghiệm sau đó đánh giá kết quả thực nghiệm và cải tiến nhằm nâng cao chất lượng hệ thống
Như vậy, cần tiến hành tìm hiểu lý thuyết về hệ thống camera giám sát, các kỹ thuật phát hiện chuyển động, phát hiện đối tượng cũng như bám sát đối tượng trên khung hình camera Tìm hiểu kỹ thuật về mặt lý thuyết sẽ được kết hợp với việc cài đặt thực nghiệm trên dữ liệu luồng hình ảnh từ camera để kiểm chứng và đánh giá những nội dung lý tìm hiểu lý thuyết và từ đó cải tiến
và hoàn thiện chương trình
Trang 181.2.2.2 Một số thách thức phân tích thuộc tính đám đông:
Dữ liệu phân tích là video, nên khối lượng lưu trữ và xử lý lớn Ngoài ra, chất lượng của video cũng ảnh hưởng nhiều đến kết quả nghiên cứu
Các bài toán phân tích video và hiểu cảnh thường liên quan tới phát hiện đối tượng, theo dõi và ghi nhận hành vi nhưng đối với đám đông, do có rất nhiều sự hỗn loạn, sự mơ hồ, nên các phương pháp thông thường sẽ không phù hợp Các cơ chế của một đám đông con người rất phức tạp, đám đông này biểu lộ sự chuyển động và cả các đặc tính tâm lý học, cả hai đều có thể định hướng mục tiêu Điều này gây ra khó khăn trong việc tìm ra một mức độ thích hợp cho sự năng động của đám đông [6]
Trước đây, tập dữ liệu nghiên cứu còn khá nhỏ, với ít đặc trưng được xây dựng Trong quá trình phân tích đám đông, những hành vi cụ thể của đám đông cần phải được phát hiện và phân loại, ngay cả các hành vi hiếm gặp và khó mô tả
Chất lượng video huấn luyện thấp, nhiều video có độ dài rất ngắn do quá trình tập hợp, nén, lưu trữ không tốt Do đó dễ có một tập dữ liệu chuẩn cho lĩnh vực phân tích đám đông thật sự là một thách thức lớn
1.2.2.3 Phân loại phân tích đám đông:
Phân tích những thông tin của đối tượng trong đám đông là đầu vào cần thiết cho việc dự đoán kết quả về thông tin của đối tượng như đối tượng chuyển động, hành vi đối tượng, kết cấu của đám đông từ đó xây dựng được các mô hình theo dõi bám sát được các hành vi của đối tượng trong đám đông Việc phân tích đám đông được phân loại qua 3 quá trình phân tích là tiền xử
lý, theo dõi và phát hiện hành vi [10]
Trang 19Hình1.2 Mô hình phân loại phân tích đám đông
Phân tích dựa trên Pixel: Phân tích dựa trên pixel phụ thuộc vào các
tính năng rất cục bộ để ước tính số lượng người trong một cảnh đám đông Bởi vì phương pháp này sử dụng các tính năng cấp thấp, hầu hết các phương pháp dựa trên pixel tập trung vào ước tính mật độ đám đông thay vì xác định các cá nhân Hầu hết các kỹ thuật sử dụng một kỹ thuật nền loại bỏ như là bước đầu tiên, ví dụ, phép trừ nền được sử dụng chỉ trên hình ảnh tham chiếu hoặc nền tự động máy phát điện để có được hình ảnh mặt đất nhân tạo
Trang 20 Phân tích dựa trên cấp độ kết cấu: Phân tích cấp độ kết cấu khám phá
các tính năng cấp cao khi so với các cách tiếp cận dựa trên pixel, chủ yếu là được sử dụng để ước tính số lượng người trong cảnh hơn là xác định cá nhân Những hình ảnh dày đặc đám đông có xu hướng trình bày kết cấu tốt, trong khi hình ảnh của đám đông mật độ thấp có xu hướng trình bày kết cấu thô
Phân tích dựa trên cấp độ đối tượng: Các phương pháp dựa vào phân
tích mức đối tượng cố gắng xác định đối tượng cá nhân trong cảnh Họ có xu hướng sản xuất nhiều hơn thông tin chính xác khi so sánh với mức pixel phân tích hoặc phân tích mức độ kết cấu, nhưng xác định các cá nhân trong một hình ảnh hoặc một chuỗi video là chủ yếu là khả thi trong đám đông mật độ thấp hơn Trong dày đặc hơn đám đông, sự lộn xộn và sự xuất hiện nghiêm trọng làm cho cá nhân vấn đề đếm gần như không thể giải quyết
Phân tích dựa trên cấp độ khung: Hành vi mô hình phân tích mức
khung hình của toàn cảnh trong phạm vi quan sát của một máy ảnh
Tiếp cận (theo dõi) đối tượng: Tiếp cận đối tượng trong một đám
đông nhằm để giảm thiểu các rủi ro như tắc, cường độ màu, chiếu sáng điều kiện, ngoại hình, các phương pháp tiếp cận như sau:
- Phương pháp tiếp cận dựa trên khu vực: Là một tầm nhìn máy tính
mạnh mẽ trong cảnh đám đông không bị giới hạn đó là thông tin như vậy như mật độ, hướng và vận tốc được trích xuất bằng cách sử dụng kỹ thuật dòng quang Luồng quang là để tính toán pixel tức thời chuyển động giữa khung liên tiếp Lưu lượng quang mạnh đến nhiều và chuyển động đồng thời của máy ảnh và đối tượng, và được sử dụng rộng rãi trong phát hiện và phân chia chuyển động đám đông
- Phương pháp tiếp cận dựa trên đường viền hoạt động: Được sử dụng
Trang 21để mô hình hóa nhắm mục tiêu một phần và để một số tiếng ồn Thông thường đã được sử dụng một biểu đồ màu, tuy nhiên Điểm yếu bằng cách sử dụng kỹ thuật này hầu như không thay đổi biểu đồ màu khi suy yếu với đối tượng tương tự như đứng đầu trong một đám đông
- Cách tiếp cận dựa trên đặc trưng: được trình bày trong hình ảnh tính
năng bởi mô tả các tính năng cấp blob Các ví dụ là kích thước, hình dạng, độ giãn dài, biểu đồ độ chói và biểu đồ chuyển vị
- Phương pháp tiếp cận dựa trên mô hình: có thể giải quyết hợp nhất
blob và chia hạn chế Cách tiếp cận này được sử dụng để phân khúc và theo dõi nhiều người tắc Phân tích hình ảnh từ dưới lên là được sử dụng để cải thiện hiệu quả trong tầm nhìn máy tính
Nhận diện sự kiện/hành vi: Một quy trình quan trọng khác trong phân
tích đám đông là nhận diện sự kiện/ hành vi Nhận diện sự kiện/hành vi có thể đặc trưng bởi các mẫu chuyển động thường xuyên như hướng, tốc độ,… Giám sát và mô hình hóa đám đông không quá nhiều để phân tích hành vi đám đông bình thường, nhưng để phát hiện một cái gì đó hành vi khác nhau,
đó được gọi là bất thường hoặc không bình thường, các phương pháp nhận diện như sau:
- Nhận diện theo phương pháp tiếp cận dựa trên đối tượng: Một đám
đông được phân tích bằng cách điều trị bộ sưu tập cá nhân ước tính vận tốc, hướng và bất thường chuyển động Sự phức tạp xảy ra khi sự tắc nghẽn tồn tại
có thể ảnh hưởng đến quá trình phân tích như phát hiện của đối tượng, theo dõi quỹ đạo và nhận ra Hoạt động trong một đám đông dày đặc Hai cách tiếp cận được gọi là tính tương quan và hàm nhị phân Đặc tính tương quan được
sử dụng để vị trí trung tâm của đầu trong khi đầu nhị phân được định nghĩa để
thể hiện khoảng cách giữa Các tác nhân
Trang 22- Nhận diện theo phương pháp tiếp cận toàn diện: Một đám đông được
phân tích bằng cách ứng với một thực thể duy nhất để ước tính vận tốc, hướng
và chuyển động bất thường Các phân tích bao gồm cảnh mật độ trung bình đến cao trong khung hình Tuy nhiên, sử dụng phương pháp tổng thể ứng dụng vẫn còn một điểm yếu bởi vì trong hình ảnh đám đông dày đặc của đối tượng có độ phân giải thấp và bao gồm các phần tĩnh và động Như vậy lấy
tham số ước lượng chính xác hơn, dựa trên cách tiếp cận đối tượng tốt hơn
1.3 Hệ thống camera giám sát tập trung
1.3.1 Giới thiệu về hệ thống camara giám sát tập trung
Hiện nay, trên thế giới các hệ thống giám sát tập trung bằng hình ảnh đã được phát triển và đã chứng minh được hiệu quả nhất định trên một số lĩnh vực như giám sát hoạt động con người, giám sát giao thông, Từ các hình ảnh thu được từ những nơi được quan sát, ta có thể phát hiện được chuyển động của các đối tượng trong các khung hình, xác định được đối tượng đó là người, phương tiện hay vật thể gì Nhiều hệ thống đã được nghiên cứu và phát triển Chẳng hạn, với bài toán giám sát giao thông có thể cho chúng ta biết được số lượng phương tiện lưu thông qua đoạn đường được theo dõi, đưa ra thông tin về tốc độ chuyển động, đường đi của đối tượng được theo dõi Tuy nhiên, các hệ thống vẫn gặp phải một số tồn tại như hiệu quả của việc quan sát luôn phụ thuộc vào điệu kiện môi trường quan sát, kiểu chuyển động của đối tượng hay các lý do khách quan khác Vì vậy, các hệ thống này vẫn còn đang được nhiều nhà khoa học, trung tâm nghiên cứu trên thế giới và Việt nam quan tâm phát triển
Hệ thống camara giám sát tập trung là hệ thống thiết bị camera được đặt tại trung tâm giám sát từ xa, có khả năng giám sát và lưu trữ các số liệu về hoạt động của hệ thống
Trang 23Hệ thống camara giám sát tập trung quản lý tất cả camera từ xa, xem trực tiếp trên tivi, có thể nâng cấp thời gian lưu trữ tùy theo nhu cầu Quản lý được nhiều loại camera, tự động thông báo qua tin nhắn, email ngay khi có sự cố trên hệ thống
Hình 1.3 Mô hình hệ thống camara giám sát tập trung
1.3.2 Vấn đề phát hiện đối tượng trên camera giám sát tập trung
Đầu vào của bài toán theo dõi và giám sát đối tượng chuyển động là các khung hình video Qua quá trình xử lý phát hiện đối tượng chuyển động (Object Detection ) sẽ đưa ra các đối tượng chuyển động Các đối tượng được phát hiện sẽ qua quá trình phân lớp đối tượng (Object Classification) để xem thuộc lớp nào, sự vật nào Và cuối cùng là quá trình xử lý để theo dõi đối tượng (Object Tracking) đó là việc tìm ra đường chuyển động của đối tượng,
dự đoán chuyển động, xử lý nhập nhằng trong chuyển động [8]
Khối phát hiện đối tượng chuyển động có thể coi là khối xử lý đầu tiên
Trang 24trong hệ thống giám sát thông minh bằng hình ảnh Vì hiệu quả, tính chính xác của khối xử lý này sẽ ảnh hưởng đến đầu vào và đầu ra của các khối xử lý tiếp theo Chính vì thế khối này ảnh hưởng lớn đến hiệu quả và tính tin cậy của toàn hệ thống giám sát thông minh
Phân loại đối tượng là khâu trung gian và đóng vai trò quan trọng trong toàn hệ thống, vì đây là đầu vào của khối theo vết đối tượng và cũng là đầu ra của toàn bộ hệ thống Bởi vậy đây cũng là một phần không thể thiếu trong toàn bộ hệ thống
Khối xử lý theo vết đối tượng là khối xử lý không thể thiếu trong hệ thống giám sát thông minh vì hiệu quả của khối xử lý này ảnh hưởng trực tiếp đến đầu ra của toàn bộ hệ thống Do đó giải quyết tốt vấn đề theo vết đối tượng sẽ đưa lại tính chính xác và độ tin cậy cho hệ thống giám sát
Hình 1.4 Hệ thống camera kết nối về trung tâm xử lý hình ảnh
Việc xử lý của hệ thống giám sát thông minh bằng hình ảnh là việc phân tích và xử lý hình ảnh video qua việc giải quyết các bài toán: Phát hiện các đối tượng chuyển động, phân lớp đối tượng, theo dõi đối tượng,
Trang 251.4 Mô hình phân tích đám đông trong giám sát tự động dựa vào thị giác máy
1.4.1 Tổng quan về Thị giác máy
Công nghiệp 4.0 ngày càng phát triển, các phương tiện tự động hóa, các thiế bị cảm biến tiến tiến ngày càng gia tăng Các công nghệ tiên tiến đem đến một cách thức thực hiện mới cho các nhiệm vụ ngày càng phức tạp hơn [2] Trong số các ngành khác nhau của trí tuệ nhân tạo, thị giác máy đang có được những động lực thúc đẩy đáng kể Thị giác máy được định nghĩa là một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích
và nhận dạng các hình ảnh, video, nói chung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng Thị giác máy cũng được mô
tả là sự tổng thể của một dải rộng các quá trình tự động và tích hợp và các thể hiện cho các nhận thức thị giác
Hình 1.5 Tầm quan trọng của thị giác máy đối với trí tuệ nhân tạo
Trang 26Thị giác máy tính là thuật ngữ mô tả một tập hợp các công nghệ cho phép các thiết bị máy tính, phần mềm, robot hoặc bất kỳ thiết bị nào; thu nhận, phân tích và xử lý hình ảnh [3]
Các nguồn hình ảnh khác nhau có thể vô cùng đa dạng, có thể là hình ảnh, video, dữ liệu 3D, dữ liệu từ máy quét y tế hoặc công nghiệp, Mục đích
là để cung cấp cho các thiết bị này khả năng “nhìn” và phản ứng tùy thuộc vào thông tin nhận được
Thị giác máy thường được so sánh với nhận dạng giọng nói Thị giác máy có điểm khác với xử lý ảnh, xử lý ảnh là phân tích hình ảnh kỹ thuật số hoặc thực hiện các thuật toán, bao gồm việc phân loại, trích xuất, chỉnh sửa hoặc lọc,… Xử lý hình ảnh liên quan đến các công nghệ và phương pháp được sử dụng để gia tăng hình ảnh về khía cạnh thông tin, trong khi đó thị giác máy tính hướng đến các hành động thực tế, mặc dù ứng dụng đầu tiên của thị giác máy là quản lý hình ảnh nhưng thị giác máy cũng có thể được sử dụng để thực hiện các hoạt động khác nhau bao gồm nhận dạng đối tượng hoặc phát hiện sự kiện [5]
Hình 1.6 Vai trò của thị giác máy trong nhận dạng và phát hiện đối tƣợng
Trang 27Cấu tạo của hệ thống thị giác máy thông thường được biểu diễn như Hình 1.7 Máy quay phim CCD (Charge-Coupled Device) có thể ghi lại các đối tượng cần nhận biết và phân tích dưới dạng hình ảnh Về bản chất, máy quay phim CCD là một cảm biến quang điện, thu nhận các tín hiệu quang học phản ánh đối tượng, bối cảnh rồi chuyển thành tín hiệu điện để gi lại Bộ phận thu nhận hình ảnh có thể hoạt động độc lập hoặc được gắn trực tiếp trong máy tính ở dạng card thu nhận hình ảnh có thể chuyển tín hiệu của máy quay phim thu nhận được thành tín hiệu số, số hóa hình ảnh, để máy tính tiến hành xử lý các loại yêu cầu Hệ thống chiếu sáng cho phép nâng cao độ chiếu sáng phù hợp hình ảnh thu nhận được, làm lợi cho xử lý và phân tích hình ảnh [6]
Hình 1.7 Cấu tạo hệ thống thị giác máy
Quá trình mô phỏng thị giác máy qua quá trình 03 giai đoạn nối tiếp: mô phỏng mắt (thu nhận), mô phỏng vỏ não thị giác (xử lý) và mô phỏng phần còn lại của bộ não (phân tích):
Thu nhận: Vài chục năm qua, con người đã tạo ra các cảm biến, vi xử lý
hình ảnh giống (và ở mức độ nào đó còn tốt hơn) khả năng nhìn của mắt người Những thấu kính lớn hơn, hoàn hảo về mặt quang học cùng các điểm
Trang 28ảnh phụ bán dẫn nhỏ tới mức nano mét giúp các camera ngày nay có độ chính xác và nhạy đáng kinh ngạc Camera có thể chụp hàng ngàn ảnh mỗi giây và nhận diện từ xa với độ chính xác cao Nói cách khác, phần cứng bị giới hạn khi không có phần mềm - đến giờ vẫn là khó khăn lớn nhất Tuy vậy, camera
ngày nay cũng khá linh hoạt và làm nền tảng tốt để nghiên cứu
Hình 1.8 Thị giác máy có khả năng nhìn và hiểu giống như con người
Mô tả: Bộ não được xây dựng từ con số 0 với các hình ảnh dần dần lấp
đầy, Bộ não làm nhiệm vụ liên quan tới thị giác nhiều hơn bất kì công việc nào khác và việc này đều xuống tới cấp độ tế bào Hàng tỉ tế bào phối hợp để lấy ra các hình mẫu, bắt được tín hiệu Một nhóm nơ-ron sẽ báo cho nhóm
khác khi có sự khác biệt dọc theo một đường thẳng (theo một góc, chuyển
động nhanh hơn hay theo một hướng khác) Các thông tin khác sẽ dần được
bổ sung như: đường tròn màu trắng, đường thẳng màu đỏ, kích thước tăng dần,… hình ảnh sẽ dẫn hiện ra khi các thông tin được thêm mới
Trang 29Thấu hiểu: Chúng ta có thể xây dựng một hệ thống nhận diện được một
vật gì đó, từ bất kỳ góc nào, trong bất kỳ tình huống nào, dù đứng yên hay chuyển động, dù bị hỏng hay còn nguyên nhưng vẫn không thể nhận diện được vật đó Đó chính là phần còn lại của bộ não, bộ nhớ ngắn/dài hạn, dữ liệu từ các giác quan, sự chú ý, nhận thức, bài học khi tương tác với thế giới,… được viết lên mạng lưới nơ-ron kết nối phức tạp hơn bất cứ thứ gì chúng ta từng thấy, theo cách mà chúng ta không thể hiểu
Hình 1.9 Nhận thức về một vật trong ảnh của thị giác máy
1.4.2 Một số lĩnh vực ứng dụng của thị giác máy
Thị giác máy đang được sử dụng trong nhiều lĩnh vực như: An ninh, y tế, bán lẽ, ngân hàng, học máy, học sâu, thiết bị thông minh, phát hiện cháy, phát hiện động đất [2] Đặc biệt, Thị giác máy là một kỹ thuật tiên tiến nhất trong việc phát hiện chuyển động trên video, ứng dụng phân tích hành vi đám đông hiện nay như: Dự đoán sự di chuyển khẩn cấp của đám đông, nhận diện các hành vi, nhận diện khuôn mặt, nhận dạng giọng nói của con người,… để đưa
Trang 30ra những kết quả, thông tin, dự đoán về hành vi của con người trong đám đông hiệu quả nhấ [7].
Hình 1.10 Mô hình một số lĩnh vực ứng dụng của thị giác máy
1.5 Kết luận Chương 1
Chương này đã trình bày tổng quan về bài toán phân tích đám đông, cùng với các cách tiếp cận trong bài toán phân tích đám đông trên cơ sở ứng dụng của thị giác máy, từ mô hình camera, các kỹ thuật trong phân tích đám đông Ngoài ra, trong chương này cũng đã phân tích một số vấn đề thách thức của bài toán phân tích đám đông cũng như các lĩnh vực ứng dụng của chúng
Thị giác máy
(Vision Computer)
khuôn mặt
(Face ID)
Học sâu
(Deep learning)
(động đất, cháy rừng)
Trang 31Chương 2 MỘT SỐ KỸ THUẬT PHÂN TÍCH ĐÁM ĐÔNG TRONG GIÁM SÁT TỰ ĐỘNG
2.1 Kỹ thuật phát hiện chuyển động
2.1.1 Giới thiệu
Phát hiện chuyển động là nhiệm vụ đầy thách thức, một kỹ thuật quan trọng trong phân tích đám đông chuyển động là xác định đặc trưng bởi các mẫu chuyển động thường xuyên như hướng, mật độ, tốc độ, và bất thường chuyển động,… Giám sát và mô hình hóa đám đông để phân tích hành vi của đối tượng đó trong đám đông là bình thường hay bất bình thường
Hình 2.1 Phát hiện đối tượng có hành động đi tốc độ nhanh được khoanh vùng
Phát hiện đối tượng chuyển động là bước cơ bản để tiếp tục phân tích video Mọi phương pháp theo dõi đều yêu cầu một đối tượng cơ chế phát hiện trong mọi khung hình hoặc khi đối tượng lần đầu tiên xuất hiện trong video
Nó xử lý phân đoạn di chuyển vật thể từ vật thể nền tĩnh Điều này tập trung trên xử lý cấp cao hơn Nó cũng làm giảm tính toán thời gian Do điều kiện
Trang 32môi trường như ánh sáng thay đổi, phân đoạn đối tượng bóng trở nên khó khăn và vấn đề đáng kể Một cách tiếp cận phổ biến để phát hiện đối tượng là
sử dụng thông tin trong một khung duy nhất Tuy nhiên, một số đối tượng phương pháp phát hiện tận dụng thông tin tạm thời được tính toán từ một chuỗi các khung để giảm số lượng phát hiện sai Thông tin tạm thời này thường ở hình thức phân biệt khung hình, làm nổi bật các vùng thay đổi động trong các khung liên tiếp
Hình 2.2 Mô hình phát hiện đối tƣợng chuyển động
Phát hiện tiền cảnh:
Mục đích chính của phát hiện tiền cảnh là phân biệt các đối tượng ở tiền cảnh với đối tượng đứng sau Hầu hết, mỗi hệ thống giám sát video sử dụng bước đầu tiên là phát hiện các đối tượng tiền cảnh Điều này tạo ratrọng tâm của sự chú ý cho các cấp độ xử lý cao hơn, chẳng hạn như theo dõi, phân loại
và hiểu hành vi và giảm thời gian tính toán đáng kể vì chỉ có pixel thuộc đối tượng tiền cảnh cần được xử lý
Bước đầu tiên là khởi tạo cảnh nền Đó là các kỹ thuật khác nhau được
MÔ HÌNH NỀN
PHÁT HIỆN TIỀN CẢNH
XỬ LÝ CẤP
ĐỘ PIXEL
VÙNG ĐƢỢC KẾT NỐI
Trang 33sử dụng để tạo mô hình cảnh nền Các phần liên quan đến cảnh nền của hệ thống bị cô lậpvà khớp nối của nó với các mô-đun khác được giữ ở mức tối thiểu để cho phép toàn bộ hệ thống phát hiện hoạt động linh hoạt với bất kỳ một trong các mô hình nền
Bước tiếp theo trong phương pháp phát hiện là phát hiện pixel nền trước bằng cách sử dụng mô hình nền vàhình ảnh hiện tại từ video Quy trình phát hiện mức pixel này phụ thuộc vào mô hình nền đang được sử dụng và nó được sử dụng để cập nhật mô hình nền để thích ứng với cảnh động thay đổi Ngoài ra, do tiếng ồn của máy ảnh hoặc môi trường ảnh hưởng của bản đồ pixel nền trước được phát hiện có chứa nhiễu Các hoạt động xử lý hậu kỳ cấp pixel được thực hiện để loại bỏ nhiễu ở các pixel nền trước Khi chúng tôi nhận được các pixel nền trước đã lọc, trong bước tiếp theo, các vùng được kết nối được tìm thấy bằng cách sử dụng thuật toán gắn nhãn thành phần được kết nốivà các hình chữ nhật giới hạn của đối tượng được tính toán Các nhãn các vùng có thể chứa các vùng gần nhưng tách rời do các khiếm khuyết trong quá trình phân đoạn tiền cảnh Do đó, một số tương đối các vùng nhỏ do tiếng ồn môi trường gây ra được loại bỏ trong bước xử lý sau cấp vùng Trong bước cuối cùng củaquá trình phát hiện, một số tính năng của đối tượng như khu vực, hộp giới hạn, chu vi của các vùng tương ứng với các đối tượng được trích xuất từ hình ảnh hiện tại bằng cách sử dụngbản đồ pixel nền trước
Xử lý cấp độ pixel:
Đầu ra của phát hiện tiền cảnh chứa nhiễu Nói chung, nó ảnh hưởng bởi các yếu tố tiếng ồn khác nhau Vượt qua vấn đề nan giải về nhiễu này, nó đòi hỏi xử lý mức pixel cao hơn Có nhiều yếu tố gây ra tiếng ồn trong phát hiện tiền cảnh chẳng hạn như: Tiếng ồn của máy ảnh, tiếng ồn của máy ảnh xuất hiện do hình ảnh của máy ảnhcác thành phần mua lại Đây là tiếng ồn docác
Trang 34thành phần thu nhận hình ảnh của máy ảnh Tiếng ồn này là tạo ra do cường
độ của pixel tương ứng đến một cạnh giữa hai đối tượng màu khác nhau trong cảnh có thể được đặt thành một trong các màu của đối tượng trong một khung vàmàu khác trong khung tiếp theo Màu của đối tượngcó thể có cùng màu với nền tham chiếu khó phát hiện các pixel nền trước với sự trợ giúp của tham chiếu nền Tiếng ồn phản xạ gây ra bởi ánh sáng nguồn Khi một nguồn sáng
di chuyển từ vị trí này đến khác, một số bộ phận trong cảnh nền phản chiếu ánh sáng
Chúng ta có thể sử dụng bộ lọc thông thấp và các phép toán hình thái học, xói mòn và giãn nở, đến bản đồ pixel nền trước để loại bỏ tiếng ồn gây ra bởi các mục liệt kê ở trên Mục tiêu của chúng tôi trongáp dụng các thao tác này là loại bỏ tiền cảnh ồn ào pixel không tương ứng với các vùng tiền cảnh thực tế, và để loại bỏ các pixel nền nhiễu gần và bên trong vùng đối tượng thực sự là pixel nền trước Vượt qua thấpbộ lọc được sử dụng để làm mờ và giảm nhiễu Làm mờ được sử dụng trong các tác vụ tiền xử lý, chẳng hạn như loại bỏchi tiết từ một hình ảnh trước khi trích xuất đối tượng lớn và bắc cầu của các khe hở nhỏ trong các đường hoặc đường cong Gaussian thấp quabộ lọc được sử dụng để xử lý bài đăng cấp pixel Một bộ lọc Gaussian làm mịn hình ảnh bằng cách tính toán trung bình có trọng số trong một bộ lọc đồng hiệu quả Bộ lọc Gaussian sửa đổi đầu vàotín hiệu bằng tích chập với một hàm Gaussian
Phát hiện các vùng được kết nối:
Sau khi phát hiện các vùng tiền cảnh và áp dụng các hoạt động xử lý hậu
kỳ để loại bỏ các vùng nhiễu, các pixel nền trước đã lọc được nhóm lại thành các vùng được kết nối Sau khi tìm các vùng riêng lẻ tương ứng với các đối tượng, các hộp giới hạn của các vùng này được tính toán