Định danh lại là một bài toán quan trọng trong lĩnh vực thị giác máy tính với sự hỗ trợ của hệ thống camera giám sát thông minh. Bài toán này dựa trên hình ảnh có nhiều ứng dụng thực tiễn như trong các hệ thống nhận dạng dựa trên cơ sở chuyển động (định danh người chuyển động dựa trên khuôn mặt, dáng đi của họ, phát hiện đối tượng chuyển động giữa các vùng quan sát của camera…), hệ thống giám sát tự động (giám sát, phát hiện đối tượng lạ, tội phạm…), hệ thống tương tác người máy, hệ thống giám sát giao thông, định danh các loại phương tiện tham gia giao thông khi xảy ra tai nạn,…
Trang 1Để hoàn thành được đề tài khóa luận này, trước hết tôi xin được gửi lờicảm ơn chân thành nhất tới cô giáo Thị Thanh Thủy, Tổ trưởng tổ Công nghệthông tin cùng các thầy cô khoa Công nghệ và An ninh thông tin, Đại HọcTôn Đức Thắng đã trực tiếp hướng dẫn và tạo mọi điều kiện thuận lợi nhấtcho tôi trong quá trình nghiên cứu và thực hiện đề tài khóa luận của mình.
Mặc dù bản thân đã rất cố gắng tìm hiểu, nghiên cứu đề tài từ nhiềunguồn khác nhau dưới sự hướng dẫn của giáo viên phụ trách, song do kiếnthức còn hạn chế và thời gian nghiên cứu chưa nhiều nên trong quá trình thựchiện đề tài khóa luận sẽ không thể tránh khỏi sai sót Rất mong nhận được sựđóng góp ý kiến của các thầy cô để đề tài được hoàn thiện hơn nữa, là cơ sởvững chắc cho việc áp dụng thực tiễn sau này
Trang 2Tôi xin cam đoan đề tài khóa luận: “Nghiên cứu giải pháp định danh lạingười trong mạng camera giám sát tại Đại Học Tôn Đức Thắng” là công trìnhnghiên cứu của bản thân tôi, các số liệu sử dụng trong khóa luận là trung thực,các tham khảo có nguồn trích dẫn rõ ràng, kết quả nghiên cứu khóa luậnkhông sao chép bất kì công trình nào.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theoquy định cho lời cam đoan của tôi
Hà Nội, tháng 6 năm 2019
Trang 3CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG
CAMERA GIÁM SÁT……… 7
1.1 Giới thiệu bài toán 8
1.2 Những thách thức của bài toán định danh lại người 14
1.2.1 Thách thức từ chất lượng camera 14
1.2.2 Ảnh hưởng của các yếu tố môi trường 14
1.2.3 Sự che khuất đối tượng 14
1.2.4 Sự tương đồng về ngoại hình của các đối tượng 15
1.3 Ứng dụng của bài toán định danh lại người 16
CHƯƠNG 2: CÁC PHƯƠNG PHÁP ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG CAMERA GIÁM SÁT 19
2.1 Phương pháp theo ngữ cảnh 20
2.1.1 Phương pháp dựa trên việc bố trí camera trong môi trường làm ngữ cảnh……… … 20
2.1.2 Phương pháp dựa trên hiệu chỉnh camera làm ngữ cảnh 22
2.2 Phương pháp phi ngữ cảnh 25
2.2.1 Phương pháp bị động 29
2.2.2 Phương pháp chủ động 34
2.2.2.1 Phương pháp hiệu chỉnh màu sắc (Color Calibration)…… 37
2.2.2.2 Phương pháp học mô tả (Descriptor learning)… ………….38
2.2.2.3 Phương pháp học phép đo khoảng cách (Distance metric learning)……… 44
CHƯƠNG 3: ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG CAMERA GIÁM SÁT TẠI ĐẠI HỌC TÔN ĐỨC THẮNG SỬ DỤNG GOG VÀ XQDA 45
Trang 43.1.1 Trích chọn đặc trưng GOG 45
3.1.2 Học phép đo (metric learing) XQDA 49
3.2 Thực nghiệm và kết quả 53
3.2.1 Môi trường thực nghiệm 53
3.2.2 Thu thập dữ liệu và kịch bản thử nghiệm 56
3.2.3 Thước đo đánh giá 61
3.2.4 Kết quả thử nghiệm và đánh giá, so sánh 62
Trang 5Hình 1.1 Phát hiện và nhận dạng người dựa trên hình ảnh dáng đi 7
Hình 1.2 Mạng camera giám sát với trường quan sát FOV trùng nhau 8
Hình 1.3 Mạng camera giám sát với trường quan sát không trùng nhau 9
Hình 1.4 Sơ đồ khối của bài toán định danh lại người 9
Hình 1.5 Hệ thống trích chọn đặc trưng và nhận diện khuôn mặt cho bài toán định danh lại người 10
Hình 1.6 Chu kì dáng đi của một người 11
Hình 1.7 Các nhân viên trong một công ty đều mặc những bộ vest đen 13
Hình 1.8 Sự che khuất một phần hoặc toàn thân của các đối tượng 15
Hình 1.9 Hình ảnh thủ phạm trong vụ đánh bom tại Bỉ được camera giám sát an ninh sân bay ghi lại phục vụ cho việc định danh đối tượng 16
Hình 1.10 Hình ảnh về đối tượng sát hại tài xế taxi ở Mỹ Đình được camera của nhà dân xung quanh ghi lại được 17
Hình 2.1 Các phương pháp định danh lại 20
Hình 2.2 Nhận diện điểm vào ra của 6 camera trong một mạng camera 21
Hình 2.3 Các góc nhìn của 4 camera trước và sau khi được căn chỉnh theo mặt phẳng đất và tự động tính toán các điểm tương đồng giữa các chế độ xem camera liền kề 22
Hình 2.4 Chia chiều cao của người trong 1 bức ảnh thành 3 phần với những dáng khác nhau dùng trong định danh lại người 23
Hình 2.5 Quá trình hình thành một PAM thử nghiệm với nhiều người mặc quần áo màu sắc khác nhau 24
Hình 2.6 Quá trình khởi tạo một mô hình 3D biểu diễn người 25
Hình 2.7 Tính toán màu sắc và hình dạng dựa trên mô hình ngoại hình của các blob đã được phát hiện 29
Hình 2.8 Phát hiện 2 trục đối xứng ngang và 1 trục đối xứng dọc của mỗi người sử dụng trong xác định số điểm tương đồng về đặc trưng 31
Trang 6Hình 2.10 Quá trình xây dựng cây KD sử dụng để mô tả sự xuất hiện của một
người 33
Hình 2.11 Mô tả ngoại hình dựa trên các nhãn hình dạng 35
Hình 2.12 Quy trình xử lý 2 bước để học các đặc trưng riêng biệt 37
Hình 2.13 Trích chọn đặc trưng sử dụng model 39
Hình 3.1 Quá trình trích chọn đặc trưng sử dụng GOG 45
Hình 3.2 Hình ảnh của một người được chia thành các patch và các vùng 45
Hình 3.3 Biểu diễn vectơ độ dốc tại 1 pixel 46
Hình 3.4 Biểu diễn vectơ độ dốc tại 1 pixel 47
Hình 3.5 Phân phối của ΣII và ΣIE 51
Hình 3.6 Sơ đồ hệ thống camera giám sát tại cổng số 4 Đại Học Tôn Đức Thắng 54
Hình 3.7 Phân chia làn đường và hệ thống camera tại cổng số 4 54
Hình 3.8 Camera D-max DMC-204GZW sử dụng cho hệ thống giám sát tại Học viện 55
Hình 3.9 Dữ liệu được lưu thành từng folder ứng với mỗi người riêng biệt 57
Hình 3.10 Các video sau khi cắt xong được lưu trong một folder chung 57
Hình 3.11 Chuyển video thành frame bằng phần mềm Free Video to JPG Converter 58
Hình 3.12 Bộ frame của từng người sau khi convert xong 58
Hình 3.13 Khoanh vùng đối tượng với bouding box sử dụng công cụ LabelImg 59
Hình 3.14 Bộ ảnh ROI ứng với từng người 60
Hình 3.15 Biểu đồ CMC cho thử nghiệm 2 trong cả 4 không gian màu 63
Trang 7Bảng 2.1 Một số hướng tiếp cận phi ngữ cảnh cho bài toán định danh lại 26Bảng 3.1 Kết quả chạy thử nghiệm 1 62Bảng 3.2 Kết quả chạy thử nghiệm 2 62Bảng 3.3 So sánh kết quả thử nghiệm với kết quả từ bộ dữ liệu quốc tế dùng
cho bài toán định danh lại 64Bảng 3.4 Ưu và nhược điểm của 2 bộ cơ sở dữ liệu 65
Trang 8Từ viết tắt Từ tường minh
SDALF Symmetry Driven Accumulation of Local Features
BiCov Biologically Inspired Features (BIF) andCovariance descriptor
LMNN-R Large Margin Nearest Neighbor with RejectionPRDC Probabilistic Relative Distance ComparisonRankSVM Ranking Support Vector Machines
SBDR Set-Based Discriminative Ranking
GLOH Gradient Location-Orientation HistogramSIFT Scale Invariant Feature Transform
Trang 9Thuật ngữ Giải thích
Gallery
Là một tập hợp gồm hình ảnh của những người đã biết.Trong bài toán định danh lại, hình ảnh của một ngườichưa biết sau quá trình trích chọn đặc trưng được đưavào so sánh với các hình ảnh trong gallery để đưa ra kết
quả so khớp
Ground truth
Trong học máy, thuật ngữ ground truth dùng để chỉ tínhchính xác của lớp tập huấn luyện đối với các kỹ thuậthọc có giám sát Ground truth còn dùng để chỉ quá trìnhthu thập và xử lý dữ liệu cho thử nghiệm và so sánh với
dữ liệu chuẩn quốc tế
Homography Hình ảnh tương đồng của 2 ảnh bất kì thuộc cùng mộtmặt phẳng trong không gian
Blob Là một nhóm các pixel được kết nối trong một hình ảnhcó một số thuộc tính chung
Adaboost
Là một tập hợp các thuật toán trong Machine Learning,Adaboost sẽ tính toán trung bình các thuật toán đó theohướng tối ưu cho bài toán mà chúng ta cần giải quyết
Bounding box
Là các hộp giới hạn tưởng tượng bao xung quanh cácvật thể Một hệ tọa độ 2D được sử dụng để xác định tọa
độ của nó Trong xử lý hình ảnh, hộp giới hạn chỉ là tọa
độ của đường viền hình chữ nhật bao quanh hoàn toànđối tượng mà chúng ta hướng đến (như trong khóa luậnnày, đối tượng là người xuất hiện trong các frame)
Trang 10MỞ ĐẦU
1 Tính cấp thiết của đề tài.
Chúng ta đang sống trong thời đại công nghệ thông tin phát triển như
vũ bão với những thành tựu to lớn mà nó mang lại Trong thời đại ngày nay,toàn thế giới có một cách mới để biên dịch, trao đổi và thao tác dữ liệu vớimột tốc độ cũng như khối lượng vô cùng lớn mạnh
Song hành với sự phát triển đó là sự ra đời của hàng loạt lĩnh vực ứngdụng công nghệ thông tin khác nhau như trí tuệ nhân tạo, kỹ nghệ phần mềm,
đồ họa máy tính, trong đó phải nhắc đến một lĩnh vực đang thu hút được sựquan tâm của rất nhiều nhà nghiên cứu trong thời gian gần đây, đó là lĩnh vựcthị giác máy tính (computer vision)
Nhắc đến thị giác máy tính, chúng ta thường được nghe đến nhiều thuậtngữ liên quan khác nhau trong đó thuật ngữ hệ thống giám sát bằng video đãngày càng trở nên phổ biến và dần trở thành quen thuộc với chúng ta, nhữngngười đang sống trong thời đại mới, thời đại của nền kinh tế tri thức, trong đónhững thành tựu rực rỡ của công nghệ thông tin đóng vai trò chủ đạo
Ra đời từ những năm 1960, qua quá trình hoàn thiện và phát triển, ngàynay một hệ thống giám sát thông minh tự động có thể là một công cụ hỗ trợđắc lực cho con người thực hiện các tác vụ giám sát và theo dõi Cùng với sựbùng nổ của cuộc cách mạng công nghệ trong những năm qua, các hệ thốngcamera được triển khai rộng khắp ở nhiều nơi, là nguồn cung cấp dữ liệu hìnhảnh dồi dào sẵn có cho giám sát an ninh Tuy nhiên nếu thực hiện thủ côngviệc giám sát các hình ảnh này là một công việc tốn quá nhiều công sức vàhiệu quả không cao Để tự động hóa khâu giám sát cần có hệ thống máy tính
xử lý tự động các nguồn hình ảnh này Điều này liên quan đến việc giải quyếtnhiều bài toán xử lý ảnh như phát hiện đối tượng, theo vết đối tượng, địnhdanh lại đối tượng, giám sát hành vi bất thường của đối tượng…Mỗi bài toánđều có tầm ảnh hưởng nhất định tới hiệu quả của một hệ thống giám sát anninh sử dụng hình ảnh thu nhận từ mạng camera giám sát, Mỗi bài toán làmột lĩnh vực nghiên cứu trong ngành thị giác máy tính với nhiều thách thức
Trang 11cần tiếp tục được nghiên cứu, giải quyết… Chính vì thế, việc nghiên cứu một
hệ thống giám sát sử dụng camera bằng hình ảnh với hiệu quả cao đã và đang
là mục tiêu của nhiều nhà nghiên cứu
Một hệ thống camera giám sát bằng hình ảnh hoàn chỉnh là một quátrình các công việc từ thu, truyền, xử lý và lưu các hình ảnh với những côngnghệ hiện đại Trong đó quá trình xử lý và đưa ra các hình ảnh là khâu mấuchốt của hệ thống Mặc dù các công nghệ hiện tại đã và đang phát triển rấtcao, song vẫn chưa đáp ứng hết được những yêu cầu cần thiết bởi những khókhăn của hệ thống camera giám sát Một hệ thống camera giám sát có thể bịảnh hưởng bởi rất nhiều các yếu tố khác nhau như điều kiện môi trường, ánhsáng, phạm vi quan sát, Chính vì thế, rất nhiều các nghiên cứu thời gian gầnđây tập trung giải quyết các vấn đề này nhằm hoàn thiện và cho ra đời một hệthống camera giám sát thông minh hoàn chỉnh nhất
Định danh lại là một bài toán quan trọng trong lĩnh vực thị giác máytính với sự hỗ trợ của hệ thống camera giám sát thông minh Bài toán này dựatrên hình ảnh có nhiều ứng dụng thực tiễn như trong các hệ thống nhận dạngdựa trên cơ sở chuyển động (định danh người chuyển động dựa trên khuônmặt, dáng đi của họ, phát hiện đối tượng chuyển động giữa các vùng quan sátcủa camera…), hệ thống giám sát tự động (giám sát, phát hiện đối tượng lạ,tội phạm…), hệ thống tương tác người máy, hệ thống giám sát giao thông,định danh các loại phương tiện tham gia giao thông khi xảy ra tai nạn,…
Hiểu được tầm quan trọng cũng như những lợi ích mà hệ thống giámsát thông minh mang lại, tôi quyết định chọn đề tài khóa luận là: “Nghiên cứugiải pháp định danh lại người từ mạng camera giám sát tại Đại Học Tôn ĐứcThắng” để từ đó áp dụng rộng rãi trong giải quyết bài toán định danh lại đốitượng nhằm xác định danh tính của đối tượng trong những tình huống cụ thể
Trong phạm vi khóa luận: “Nghiên cứu giải pháp định danh lại người từmạng camera giám sát tại Đại Học Tôn Đức Thắng”, bài toán của tôi tập trungnghiên cứu là bài toán định danh lại người Nghiên cứu lý thuyết và cài đặtthực nghiệm được thực hiện trong khóa luận nhằm hướng tới việc áp dụng bàitoán trong xây dựng một hệ thống giám sát an ninh hoàn chỉnh sau này, từ đó
Trang 12áp dụng vào thực tiễn, nhất là trong lĩnh vực an ninh quốc phòng – lĩnh vựcliên quan trực tiếp đến lực lượng Công an nhân dân.
2 Tình hình nghiên cứu đề tài.
Định danh lại người từ nguồn dữ liệu ảnh thu thập được từ hệ thốngcamera giám sát là một trong những bài toán thu hút được sự quan tâm của rấtnhiều nhà nghiên cứu, với nhiều ứng dụng thực tiễn trong cuộc sống, tronggiám sát an ninh, an toàn tại các địa điểm công cộng như sân bay, bệnh viện,trường học… Ngoài ra, với sự phát triển ngày càng lớn mạnh của các hệthống camera giám sát, rất nhiều các khu vực hiện nay đều được trang bị vàlắp đặt camera Đây chính là nguồn dữ liệu dồi dào sử dụng làm cơ sở dữ liệucho bài toán định danh lại người Chính vì lẽ đó, trong những năm qua đã cónhững công trình nghiên cứu, bài tìm hiểu có liên quan đến đề tài, nổi bậttrong đó là:
Công trình nghiên cứu khoa học “Nghiên cứu xây dựng hệ thống theovết đối tượng sử dụng camera” của Nguyễn Công Thắng, 2017, Đại Học TônĐức Thắng [1]
Công trình nghiên cứu “Visible thermal person re-identification viadual-constrained top-ranking” của Mang Ye , Zheng Wang , Xiangyuan Lan ,Pong C Yuen, 2018, Hong Kong [2]
Công trình nghiên cứu “Deep spatial feature reconstruction for partialperson re-identification: Alignment-free approach” của Lingxiao He, JianLiang, Haiqing Li và Zhenan Sun, 2018, Trung Quốc [3]
Các công trình nghiên cứu kể trên tập trung giải quyết các bài toánkhác nhau trong lĩnh vực thị giác máy tính cũng như tìm hiểu các giải phápkhác nhau hỗ trợ cho bài toán định danh lại người từ mạng camera giám sát
mà chưa nghiên cứu một phương pháp kết hợp các giải pháp này lại Xuấtphát từ điều đó, cùng với việc lựa chọn đối tượng, phạm vi, mục đích nghiêncứu khác nhau, đồng thời qua khảo sát thực tế chưa có công trình nghiên cứunào tập trung vào bài toán định danh lại người qua mạng camera giám sát tạiĐại Học Tôn Đức Thắng, vì vậy, việc lựa chọn đề tài này của tôi là không có
Trang 13sự trùng lặp với các công trình nghiên cứu, bài tìm hiểu đã được công bốtrước đó.
3 Mục tiêu, nhiệm vụ nghiên cứu.
- Đề xuất và cài đặt thử nghiệm mô hình định danh lại người với nguồn
dữ liệu từ mạng camera giám sát tại Đại Học Tôn Đức Thắng
4 Đối tượng và phạm vi nghiên cứu nghiên cứu.
Đối tượng nghiên cứu:
- Các đặc trưng hình ảnh và các thuật toán trích chọn đặc trưng ảnh chobài toán định danh lại người
- Các phương pháp so khớp đặc trưng cho định danh lại người
Phạm vi nghiên cứu:
- Tìm hiểu thuật toán trích chọn đặc trưng ảnh GOG trên các khônggian màu RGB, LAB, HSV, nRnG
- Tìm hiểu thuật toán XQDA để so so khớp các đặc trưng
- Kết hợp GOG và XQDA cho định danh lại người trong mạng cameragiám sát tại tại cổng số 4 Đại Học Tôn Đức Thắng
5 Phương pháp nghiên cứu.
Phương pháp nghiên cứu lý thuyết:
Trang 14- Nghiên cứu tổng quan bài toán định danh lại người trong mạng cameragiám sát.
- Tìm hiểu công cụ lập trình Matlab và các thư viện xử lý ảnh trên công
cụ này
- Nghiên cứu các bộ mô tả người trong ảnh và các phương pháp địnhdanh lại người từ mạng camera giám sát
Phương pháp nghiên cứu thực nghiệm:
- Tiến hành thu dữ liệu từ camera giám sát tại Học viện
- Chạy thử nghiệm với dữ liệu thu được
- So sánh với kết quả thực nghiệm
6 Ý nghĩa đề tài.
Về mặt lý thuyết:
- Đề xuất được giải pháp kết hợp 2 thuật toán GOG và XQDA tăngcường độ chính xác cho bài toán định danh lại người trong mạng camera giámsát
- Tạo tiền đề cho những nghiên cứu tiếp theo trong tương lai
Về mặt thực tiễn:
- Giúp giảm công sức, tăng hiệu quả trong việc xác định đối tượng,định danh lại đối tượng, là cơ sở để hướng tới phát triển hệ thống giám sát anninh tự động sử dụng mạng camera tại Đại Học Tôn Đức Thắng nói riêng vàtại các khu vực cần kiểm soát an ninh nói chung
- Ứng dụng trong việc định danh đối tượng hay trong tương lai là việc
áp dụng vào việc lần theo đối tượng bị truy nã, nhận dạng đối tượng lạmặt v.v Qua đó đảm bảo an ninh tại các đơn vị nhà nước, đơn vị quân sự,đặc biệt là đảm bảo quốc phòng, an ninh quốc gia
7 Bố cục đề tài.
Nội dung chính của bài nghiên cứu được trình bày theo cấu trúc sau:
Trang 15Chương 3: Định danh lại người trong mạng camera giám sát tại Đại
Học Tôn Đức Thắng sử dụng GOG và XQDA
Kết luận
CHƯƠNG 1
Trang 16CHƯƠNG 1 GIỚI THIỆU BÀI TOÁN ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG
CAMERA GIÁM SÁT
Ngày nay, cùng với sự phát triển của khoa học công nghệ, các hệ thốngcamera giám sát được lắp đặt ở khắp mọi nơi, từ các khu vực công cộng cóđông người qua lại như nhà ga, sân bay, trường học, các khu mua sắm lớn,đến các khu vực hẹp hơn thuộc phạm vi tòa nhà văn phòng, các phòng làmviệc, phòng khám và điều trị bệnh, nhà riêng….Nguồn dữ liệu dồi dào, sẵn có
từ các hệ thống camera này đã trở thành nguồn dữ liệu đầu vào có giá trị chocác hệ thống thị giác máy tính, với mục tiêu biến máy tính cùng với cáccamera trở thành hệ thống có khả năng xử lý thông tin hình ảnh, có khả năng
tư duy, giải quyết nhiều vấn đề như con người hoặc thậm chí hơn cả conngười Nhiều bài toán đã được đề xuất và giải quyết bởi hệ thống thị giác máytính hay hệ thống xử lý ảnh như phát hiện và nhận dạng mặt người, phát hiện
và nhận dạng người dựa trên hình ảnh dáng đi, theo dõi giám sát sự kiện, hành
vi bất thường, phát hiện và phân lớp đối tượng tự động… Mỗi lĩnh vực kểtrên đều đã có những thành quả ứng dụng hữu ích trong đời sống con người
Hình 1.1 Phát hiện và nhận dạng người dựa trên hình ảnh dáng đi.
Trong phạm vi nghiên cứu của khóa luận tốt nghiệp này, một bài toán
xử lý ảnh được tập trung nghiên cứu đó là bài toán định danh lại người trong
Trang 17hệ thống camera giám sát Đây là bài toán thu hút được rất nhiều người quantâm nghiên cứu trong một vài năm trở lại đây bởi khả năng ứng dụng thựctiễn của nó trong đời sống Đối với riêng lĩnh vực công tác, việc nghiên cứubài toán cũng có ý nghĩa rất thiết thực Các hệ thống giám sát an ninh tự độngtại những khu vực công cộng hay ở những khu vực có yêu cầu an ninh caođều được xây dựng từ việc giải quyết nhiều bài toán đơn lẻ của thị giác máytính, trong đó có bài toán định danh lại người trong hệ thống camera giám sát.Trong công tác điều tra, phá án của lực lượng Công an, những hệ thống truyvết tự động đối đối tượng tình nghi, đối tượng phạm tội qua các hình ảnh thunhận từ hệ thống camera cũng được xây dựng từ việc giải quyết bài toán này.
1.1 Giới thiệu bài toán
Bài toán định danh lại người là bài toán xác định danh tính của mộtngười bất kì dựa trên một mạng gồm nhiều camera giám sát với trường quansát FOV (Field of View) trùng nhau (Hình 1.2) hoặc không trùng nhau (Hình1.3)
Hình 1.2 Mạng camera giám sát với trường quan sát FOV trùng nhau.
Trang 18Hình 1.3 Mạng camera giám sát với trường quan sát không trùng nhau.
Định danh lại người trong mạng camera giám sát có thể hiểu đơn giản
là việc tìm kiếm một người trên các thiết bị dựa trên một hình ảnh đã có từtrước của người đó khi họ di chuyển trong hệ thống camera giám sát và đượccamera ghi lại Sơ đồ khối chung của bài toán định danh lại người được trìnhbày trong Hình 1 4:
Hình 1.4 Sơ đồ khối của bài toán định danh lại người.
Dựa trên nguồn dữ liệu mà camera thu được, bài toán định danh lạingười có thể được tiếp cận theo một số hướng sau:
Trang 19Định danh thông qua ảnh chụp cận mặt
Ưu điểm:
Đây có thể coi là phương pháp định danh chính xác nhất cho bài toánđịnh danh lại người Với mỗi mỗi bức hình chụp cận mặt như thế, máy tính sẽ
dễ dàng phân tích các đặc trưng trên khuôn mặt của một người sau đó đưa ra
so sánh với hình ảnh ban đầu Từ đó có thể nhanh chóng định danh đượcngười do camera giám sát ghi lại Độ chính xác cũng như hiệu quả củaphương pháp này là rất cao, đặc biệt là trong thời điểm ngày nay khi mà các
hệ thống nhận dạng khuôn mặt người ngày càng phát triển với độ chính xácgần như tuyệt đối
Hình 1.5 Hệ thống trích chọn đặc trưng và nhận diện khuôn mặt cho bài
toán định danh lại người.
Nhược điểm:
Mặc dù có độ chính xác cao nhưng phương pháp này lại có một số hạnchế nhất định Khó khăn lớn nhất của phương pháp này đó là phần lớn cáccamera giám sát hiện nay đều có trường quan sát khá rộng nên việc zoom cậnmặt đối với một người di chuyển trong trường quan sát là điều rất khó Nếu cóthể zoom để chụp lại thì chất lượng hình ảnh thu được thấp cũng là một vấn
đề khó khăn cho quá trình định dạnh Ngoài ra, không phải bức ảnh cận mặt
Trang 20nào cũng được chụp ở hướng chính diện, khuôn mặt đôi khi được chụp theohướng nghiêng, thậm chí chỉ chụp được một nửa Điều này cũng là một tháchthức mà phương pháp định danh qua ảnh chụp cận mặt cần phải giải quyếtnếu muốn cho hiệu quả cao.
Định danh lại thông qua dáng đi
Mỗi cá nhân chúng ta sở hữu những đặc điểm và động tác riêng biệt khi
di chuyển Vì thế, dáng đi của chúng ta cũng có những nét độc đáo, dù rất nhỏnhưng không bị trùng với ai cả Dựa trên nguyên lý đó, cùng với sự bùng nổcủa trí tuệ nhân tạo AI, các nhà nghiên cứu đã cho ra đời phương pháp địnhdanh mới này Hệ thống này thường được ứng dụng tại các khu vực rộng, cónhiều người đi lại như sân bay, trung tâm thương mại,…Mỗi cá nhân đi lạitrong trường quan sát của camera sẽ được thu lại toàn bộ chu kì dáng đi Khingười đó di chuyển từ camera này sang camera khác thì từng camera cũng sẽthu lại để làm dữ liệu phân tích, phục vụ định danh lại người khi cần thiết
Hình 1.6 Chu kì dáng đi của một người.
Ưu điểm:
Đây cũng là một phương pháp với độ chính xác rất cao, có thể áp dụngngay trong các khu vực rộng lớn, khu vực công cộng đông người để xác địnhdanh tính của những người qua lại Bên cạnh đó, một ưu điểm được đánh giá
Trang 21khá cao đó là phương pháp này hạn chế sự vi phạm quyền riêng tư của mỗingười hơn so với những phương pháp khác.
có thể do người đó không đi hết chu kì trong trường quan sát của camera đó,hoặc vừa đi vào rồi đi ra khỏi vùng quan sát ngay lập tức khiến cho camerakhông thể thu hết Ngoài ra, hướng quan sát của camera cũng gây nên một sốtrường hợp không thấy hết được chu kì bước chân
Một hạn chế khác phải kể đến đó là việc thu thập và lưu trữ các đặcđiểm dáng đi của một người theo thứ tự (ít nhất phải lưu lại một chu kì bướcchân) sẽ khó khăn hơn việc lưu trữ một ảnh chụp cận mặt hay hình dáng bênngoài Việc này sẽ đòi hỏi một cơ sở dữ liệu lớn với khả năng lưu trữ cao.Chính vì vậy mà khả năng mở rộng của hệ thống nếu sử dụng phương phápnày sẽ bị giảm đi so với các phương pháp khác
Định danh lại thông qua hình dáng bề ngoài
Đây là một hướng tiếp cận mới của các nhà nghiên cứu trong nhữngnăm gần đây Mỗi cá nhân khi xuất hiện đều có một ngoại hình riêng (ví dụnhư quần áo, giày dép, balo,…) Dựa trên những đặc điểm này, một hệ thốngđịnh danh sẽ thu thập hình ảnh của từng người trong vùng quan sát củacamera để làm dữ liệu phục vụ cho các trường hợp cần thiết
Ưu điểm:
Phương pháp này khắc phục được những nhược nhiểm của 2 phươngpháp định danh qua ảnh chụp cận mặt và qua dáng đi Vì chỉ cần thông quahình dáng bề ngoài nên không yêu cầu phải zoom quá nhiều, chỉ cần đốitượng di chuyển vào vùng quan sát của camera là đã có thể thu được dữ liệucần thiết Và cũng không cần thiết phải thu hết một chu kì đối tượng di
Trang 22chuyển, chỉ cần một sự xuất hiện ngắn trong vùng quan sát là đủ Chính vìvậy, khả năng mở rộng của phương pháp này là rất cao, thu thập được nhiềuđối tượng hơn, ứng dụng rộng rãi hơn.
Một nhược điểm khác cần nhắc đến đó là sự trùng hợp về ngoại hìnhgiữa các đối tượng Tại một công ty, trường học,… khi mà mọi người mặcđồng phục hay những bộ quần áo có màu sắc giống nhau thì hiển nhiên bềngoài sẽ có sự trùng hợp lớn Điều này sẽ gây khó dễ cho hệ thống định danh
để phân biệt từng đối tượng Một ví dụ cho điều này được thể hiện rõ trongHình 1 7:
Trang 23Hình 1.7 Các nhân viên trong một công ty đều mặc những bộ vest đen.
Để thuận tiện cho quá trình thực hiện, trong phạm vi nghiên cứu củakhóa luận tốt nghiệp này, một giả thuyết được đặt ra đó là các đối tượngkhông thay đổi ngoại hình trong khoảng thời gian tìm kiếm trên hệ thống
1.2 Những thách thức của bài toán định danh lại người
1.2.1 Thách thức từ chất lượng camera.
Hệ thống camera ngày nay về cơ bản đã được nâng cấp lên rất nhiều.Tuy nhiên, vẫn còn một số lượng nhất định các camera thế hệ cũ cho ra nhữnghình ảnh có độ phân giải thấp nên sẽ rất khó khăn cho các thuật toán để có thểđịnh danh với nguồn dữ liệu đầu vào như thế
Ngoài ra, một số camera được đặt với các góc nhìn không thuận lợi(khuất tầm quan sát, góc quan sát hẹp,…) hay được đặt với khoảng cách tớiđối tượng không hợp lý (quá gần hoặc quá xa,…) cũng gây ra những khókhăn nhất định cho bài toán định danh lại người
1.2.2 Ảnh hưởng của các yếu tố môi trường.
Môi trường có tác động trực tiếp đến chất lượng hình ảnh đầu vào củabài toán từ đó gây ra sai lệch trong kết quả cuối cùng Các yếu tố như: cường
Trang 24độ ánh sáng mạnh hay yếu, ban ngày hay ban đêm, các tia sáng với màu sắc
và tần số khác nhau; thời tiết mưa hay nắng, âm u hay sương mù, khói bụi,…
dù ít hay nhiều cũng sẽ gây ra những biến đổi đối với sự xuất hiện của đốitượng trên hệ thống camera
1.2.3 Sự che khuất đối tượng
Trong các khu vực công cộng như bến xe, sân bay, trường học, bệnhviện, thường có rất nhiều người qua lại, chúng ta rất khó để có được hìnhảnh toàn thân của một người, vì cá nhân đó sẽ bị che khuất một phần hoặctoàn thân bởi những người khác trong đám đông Và khi đó, điều hiển nhiên
là rất khó cho chúng ta để thu và lấy được hình ảnh đầy đủ của họ phục vụlàm dữ liệu đầu vào cho bài toán Một vài trường hợp về che khuất đối tượngđược thể hiện rõ ràng trong Hình 1 8:
Hình 1.8 Sự che khuất một phần hoặc toàn thân của các đối tượng.
1.2.4 Sự tương đồng về ngoại hình của các đối tượng
Đối với một số địa điểm như trường học, nhà máy hoặc công trườngxây dựng, quần áo thường là đồng phục cho tất cả mọi người Điều này gây ra
sự tương đồng lớn giữa các đối tượng dẫn đến việc có thể nhẫm lẫn trong quátrình định danh lại Chưa kể đến việc có những đối tượng có cả sự tương đồngtrong ngoại hình như chiều cao, dáng đi, cử chỉ,…Đây là một vấn đề đáng lưutâm cho bài toán định danh lại người này
Trang 25Ngoài những thách thức trên, một số thách thức khác của bài toán địnhdanh lại người trong hệ thống camera giám sát cũng cần được xem xét như:
- Khả năng mở rộng: Các khu vực rộng lớn thường được trang bị rấtnhiều camera giám sát trong khi các công nghệ hiện tại chỉ mới giải quyếtđược một số lượng camera nhất định
- Dữ liệu đầu vào phức tạp: Đó là khi hình ảnh của đối tượng cần địnhdanh lại có sự xuất hiện của những người hay vật khác, làm rối dữ liệu đầuvào
- Sự thay đổi ngoại hình của đối tượng: Khi đối tượng di chuyển giữacác vùng quan sát của camera, nếu đối tượng có những thay đổi nhất địnhtrong ngoại hình (thay đổi quần áo, mũ nón,…) sẽ gây ra khó khăn cho việcđịnh danh lại
1.3 Ứng dụng của bài toán định danh lại người
Định danh lại người trong mạng camera giám sát những năm gần đâythực sự là một vấn đề đang được rất nhiều nhà nghiên cứu để tâm bởi nhữngứng dụng thiết thực của nó trong mọi lĩnh vực của đời sống, trong đó bao gồm
cả công tác nghiệp vụ của lực lượng Công an
Một trong số những vụ án nghiêm trọng có thể kể đó là vụ đánh bomkhủng bố tại sân bay Zaventem ở Brussels, Bỉ ngày 22/3/2016 Sau khi vụđánh bom xảy ra, lực lượng An ninh tại Bỉ song hành với việc việc thắt chặt
an ninh là việc ráo riết truy lùng danh tính kẻ đánh bom khủng bố Và với sựtrợ giúp của hệ thống camera giám sát an ninh tại sân bay Zaventem cùngcông nghệ định danh lại người, cảnh sát nước này đã nhanh chóng tìm ra thủphạm Toàn bộ hình ảnh và video của thủ phạm đã được công bố để ngườidân cùng nhau truy lùng, đưa tội phạm ra trước pháp luật
Trang 26Hình 1.9 Hình ảnh thủ phạm trong vụ đánh bom tại Bỉ được camera giám sát
an ninh sân bay ghi lại phục vụ cho việc định danh đối tượng.
Tại Việt Nam, định danh lại người trong hệ thống camera giám sát cũngđược lực lượng Công an chúng ta áp dụng rất thành công Một ví dụ minhchứng rõ ràng cho điều này đó là vụ án sát hại tài xế taxi ở Mỹ Đình ngày29/01/2019 Ngay sau khi vụ việc xảy ra, Phòng Cảnh sát hình sự Công anThành phố Hà Nội đã tích cực vào cuộc điều tra, thu thập và trích xuất dữ liệu
từ nhiều camera hành trình của các taxi và nhà dân, từ đó đã thu lại được hìnhảnh và thông tin về nghi phạm (Hình 1 10) Kết quả đã nhanh chóng tìm ra
và bắt giữ đối tượng gây án
Hình 1.10 Hình ảnh về đối tượng sát hại tài xế taxi ở Mỹ Đình được camera
của nhà dân xung quanh ghi lại được.
Trang 27Tuy nhiên, qua 2 ví dụ vừa nêu trên, chúng ta có thể thấy được mộtthực tế đó là việc đưa ra hình ảnh và truy tìm thủ phạm hầu như được cungcấp và thực hiện một cách thủ công Điều này đặt ra vấn đề cần phải có hệthống định danh lại người nhằm tự động hóa khâu truy tìm dấu vết của cácđối tượng phạm tội hay tình nghi phạm tội, nâng cao hiệu quả công tác.
Với những ứng dụng vô cùng to lớn như vậy, việc áp dụng công nghệthị giác máy tính (computer vision) trong việc giải quyết một cách tự độnghóa bài toán định danh lại người trong mạng camera giám sát đã thực sự nở rộtrong thời gian gần đây
KẾT LUẬN CHƯƠNG 1
Chương đầu tiên của khóa luận đã đưa ra khái niệm cơ bản nhất về bàitoán định danh lại người trong hệ thống mạng camera giám sát Để giải quyết bàitoán này, chúng ta có thể tiến hành theo nhiều hướng khác nhau tùy vào dữ liệuthu được từ camera như định danh lại thông qua ảnh chụp cận mặt, qua dángđi, Mỗi cách giải quyết bài toán đều có những ưu và nhược điểm riêng Trongkhi tiến hành tôi cũng gặp phải những khó khăn thách thức không hề nhỏ Quaquá trình nghiên cứu tôi cũng đi sâu tìm hiểu một số khó khăn vướng phải nhưtrên Tuy bài toán có một vài thách thức, khó khăn nhưng không thể phủ nhậntầm quan trọng và ứng dụng to lớn của bài toán định danh lại trong các lĩnh vựccủa đời sống nói chung và trong lực lượng công an nói riêng
Định danh lại người trong phạm vi khóa luận này được đề xuất thông quathể hiện bề ngoài Các chương sau của khóa luận sẽ tìm hiểu một số kỹ thuật
Trang 28định danh lại người được sử dụng trong bài toán định danh lại và việc kết hợpcác kỹ thuật này nhằm đạt được kết quả cuối cùng.
CHƯƠNG 2 CÁC PHƯƠNG PHÁP ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG
CAMERA GIÁM SÁT
Định danh lại người là một chủ đề được nghiên cứu rất nhiều và mạnh
mẽ trong một vài năm gần đây Các vấn đề liên quan đến định danh lại ngườikhông ngừng được nghiên cứu và công nhận trong suốt thời gian qua Bằngviệc đưa ra một hoặc nhiều hình ảnh của một người chưa biết và một gallerybao gồm hình ảnh của một số người đã biết, bài toán định danh lại ngườihướng đến mục tiêu là tạo ra một xếp hạng trong gallerry dựa trên sự tươngđồng về ngoại hình của họ với người chưa biết Người nào trong gallery có sựtương đồng cao nhất với hình ảnh đưa ra ban đầu sẽ cung cấp một ID chongười chưa biết, từ đó xác định được người chưa biết Ở đây, giả định rằng IDcủa người chưa biết là một tập hợp con của gallery, tức là nguồn dữ liệu sửdụng cho định danh lại người là đóng kín Các phương pháp hiện đại đang tập
Trang 29trung giải quyết bài toán định danh lại người với nguồn dữ liệu đóng kín nhưvậy Hầu hết các cách tiếp cận hiện tại đều dựa vào sự tương đồng ngoại hìnhgiữa các hình ảnh để thiết lập sự tương ứng Các đặc trưng được sử dụng đểxác định ngoại hình là màu sắc và kết cấu được trích xuất từ quần áo Mộtđánh giá về các mô tả ngoại hình dựa trên màu sắc và kết cấu trang phục sửdụng cho bài toán định danh lại được trình bày trong [4] Tuy nhiên, các đặctrưng về ngoại hình như vậy chỉ ổn định trong khoảng thời gian ngắn khi mọingười mặc khác nhau vào những ngày khác nhau Do đó, các mô hình địnhdanh lại dựa trên ngoại hình chỉ phù hợp trong khoảng thời gian ngắn và thực
tế Hầu hết các cách tiếp cận tiên tiến hiện nay đều cố gắng đưa ra giải phápđịnh danh lại trong khoảng thời gian ngắn
Nghiên cứu trước đây về định danh lại tập trung vào việc kết hợp mốiquan hệ giữa các camera trong hệ thống với quy trình so khớp, nhưng những
nỗ lực gần đây đã tập trung vào phát triển các đặc trưng riêng biệt(discriminative features), học mẫu khoảng cách (learning distance models)hoặc cả hai, để có kết quả chính xác hơn Nhìn chung, các phương pháp tiếpcận gần đây đã tập trung vào hai khía cạnh của vấn đề: 1) thiết kế các bộ mô
tả của một người; 2) học các mẫu khoảng cách phù hợp nhằm tối đa hóa khảnăng so khớp chính xác Nhìn một cách tổng quát, các phương pháp cho bàitoán định danh lại có thể được chia thành các phương pháp theo ngữ cảnh vàphương pháp phi ngữ cảnh
Trang 30Hình 2.11 Các phương pháp định danh lại.
2.1 Phương pháp theo ngữ cảnh
Các phương pháp này dựa trên thông tin theo ngữ cảnh bên ngoài đểgiảm số lần so sánh đặc trưng hoặc trích chọn các đặc trưng cho bài toán địnhdanh lại Phương pháp theo ngữ cảnh này có thể được phân loại thêm thànhphương pháp tiếp cận dựa trên thông tin tính toán từ việc bố trí camera trongmôi trường (Camera geometry) và phương pháp tiếp cận dựa trên hiệu chỉnhcamera (Camera calibration) làm ngữ cảnh
2.1.1 Phương pháp dựa trên việc bố trí camera trong môi trường làm ngữ cảnh
Công việc ban đầu mà bài toán định danh lại người tập trung vào đó làviệc tận dụng các mối quan hệ không gian và thời gian giữa các camera đểgiảm các lỗi định danh bằng cách giới hạn kích thước của gallery Các tínhiệu không gian - thời gian được khai thác trong [5] để tìm hiểu mối quan hệgiữa các camera lần lượt được sử dụng Mục đích là để hạn chế sự trùng nhaugiữa các camera Các mối quan hệ này được mô hình hóa như một hàm mật
độ xác suất của các tham số không gian và thời gian như vị trí vào ra, vận tốc
và thời gian chuyển tiếp giữa các camera Điểm vào – ra của mỗi camera vàthời gian chuyển tiếp giữa các camera được trình bày trong [6], để hiệu chỉnhtất cả các camera trong mạng
Trang 31Hình 2.12 Nhận diện điểm vào ra của 6 camera trong một mạng camera.
Các camera đã hiệu chỉnh được sử dụng để tìm hiểu cấu trúc liên kếtcủa mạng camera dưới dạng biểu đồ lưỡng cực Cấu trúc liên kết được tăngcường mạnh hơn với những thông tin tạm thời nhằm đạt được mô hình hìnhtrạng liên kết (tempo-topographical model) của mạng camera Một cách tiếpcận tương tự được sử dụng để hiệu chỉnh mạng camera và ước tính quỹ đạocủa các mục tiêu trong mạng bằng cách sử dụng ước tính MAP (Maximum aPosteriori) trong [7] Một số quỹ đạo di chuyển phổ biến của người được sửdụng trong [8] để xác định các khu vực không nằm trong vùng quan sát củacamera Các khu vực này sau đó được sử dụng để chọn những con đường tiềmnăng mà mọi người có thể đi, giới hạn các khu vực xuất hiện lại trong FOVcủa camera tiếp theo, mục đích là hạn chế ID lại, tránh trùng lặp dẫn đến sốlượng ID quá lớn
Cấu trúc liên kết của camera được xác định bằng tương quan các hoạtđộng giữa các camera với các FOV khác nhau và do đó không dựa vào thôngtin theo dõi Các FOV của camera được phân thành các khu vực trong đó cáckiểu dáng hoạt động tương tự nhau Mối quan hệ nhân quả theo không gian vàthời gian giữa các khu vực này trong các camera khác nhau được mô hình hóa
Trang 32bằng phân tích tương quan chính tắc Ma trận biến đổi tuyến tính được sửdụng để suy ra các cấu trúc liên kết camera theo thời gian để hỗ trợ việc địnhdanh lại Một ý tưởng tương tự được đề xuất như sau: Ở đây, mối quan hệgiữa các hoạt động được học bằng cách sử dụng ước tính MAP Ước tính nàyđược cập nhật liên tục ngay sau mỗi lần Một đánh giá toàn diện về cácphương pháp ước tính cấu trúc liên kết camera được trình bày trong [9] vàmột nghiên cứu về khả năng mở rộng của ước tính cấu trúc liên kết được trìnhbày trong [10].
Hình 2.13 Các góc nhìn của 4 camera trước và sau khi được căn chỉnh theo mặt phẳng đất và tự động tính toán các điểm tương đồng giữa các chế độ xem
camera liền kề.
2.1.2 Phương pháp dựa trên hiệu chỉnh camera làm ngữ cảnh
Trong các phương pháp này, hiệu chỉnh camera hoặc homography đượckhai thác để trích xuất các đặc trưng riêng biệt cho mỗi đối tượng nhằm nângcao hiệu quả cho các bộ mô tả sử dụng cho định danh lại Trong một bức ảnhngười, chiều cao của người được chia thành ba phần từ trên xuống dưới theo
tỷ lệ quy định trước Mỗi vùng đó được đại diện bằng một màu sắc và được
mô tả kết cấu rõ ràng Việc kết hợp các vùng đó được sử dụng cho các tính
Trang 33toán tương tự hình dáng của con người để đi đến kết quả là bài toán định danhlại Chiều cao cùng với màu quần áo và thân hình người được sử dụng nhưmột đặc trưng để thiết lập một sự so khớp (Hình 2 14).
Hình 2.14 Chia chiều cao của người trong 1 bức ảnh thành 3 phần với
những dáng khác nhau dùng trong định danh lại người.
Một bản đồ diện mạo toàn cảnh PAM (Panoramic Appearance Map) đềxuất trong [11] được sử dụng để trích xuất và kết hợp thông tin từ tất cả cáccamera thu hình đối tượng nhằm tạo ra dấu hiệu nhận biết một người Các tamgiác camera trong hệ thống camera được sử dụng để xác định vị trí của đốitượng và một mặt phẳng trụ được đặt tại vị trí của các camera này Một lướiphẳng có các thông số cụ thể được chiếu lên tất cả các camera nơi đối tượng
có thể nhìn thấy và các phần hình ảnh tương ứng được trích xuất Các đặctrưng hoặc màu pixel từ các phần hình ảnh được trích xuất này sẽ được tíchhợp để tạo thành PAM, sử dụng cho định danh lại (Hình 2 15)
Trang 34Hình 2.15 Quá trình hình thành một PAM thử nghiệm với nhiều người mặc
quần áo màu sắc khác nhau.
Trục đối xứng của cơ thể mỗi người được phát hiện trong bài toán pháthiện người để so khớp mọi người qua góc nhìn của camera Một điểm mốcchung trên mặt đất của 2 camera được sử dụng để ước tính địa hình Giaođiểm giữa trục chính của một người trong tầm nhìn của một camera và trụcchính đã qua biến đổi bằng homography của một người trong tầm nhìn củacamera khác được sử dụng để tính toán mức độ so khớp giữa những người từcác camera khác nhau Mức độ so khớp này được sử dụng để tính khả năngtương ứng cho bài toán định danh lại Tuy nhiên, độ chính xác của việc pháthiện trục chính phụ thuộc vào sự phân chia chính xác hình dáng người cậncảnh và do đó dễ bị xảy ra lỗi, nhất là trong các cảnh đông đúc và phông nềnlộn xộn
Ngày nay, các công trình nghiên cứu đã cho ra đời một mô hình xử lýcác pixel 3D được trình bày trong [12] để phát hiện và biểu diễn cho việc sokhớp người Vị trí và hướng của mô hình 3D được xác định bằng cách sửdụng các thông tin theo dõi được và hiệu chỉnh camera Mỗi đỉnh của mô hìnhđược đại diện bởi một số đặc trưng cho sự xuất hiện, có thể kể đến như: biểu
Trang 35đồ HSV, màu trung bình, chiều từ pháp tuyến đến đỉnh, tính duy nhất củađỉnh,…
Hình 2.16 Quá trình khởi tạo một mô hình 3D biểu diễn người.
2.2 Phương pháp phi ngữ cảnh
Ngoài hướng tiếp cận dựa theo ngữ cảnh, trong thời gian gần đây, một
số hướng tiếp cận khác đã được phát triển dựa hoàn toàn vào phân tích các
mô tả hình ảnh và không có thông tin ngữ cảnh bên ngoài nào được kết hợpvào để hỗ trợ quá trình so khớp Hướng tiếp cận này có thể được chia ra thành
2 loại chính là các phương pháp chủ động và phương pháp bị động Cácnghiên cứu thời gian gần đây đa số đều tập trung vào phương pháp phi ngữcảnh này Ngoài ra, còn một cách phân loại khác khá phổ biến cho hướng tiếpcận này đó là định danh dựa trên ảnh chụp đơn và định danh dựa trên ảnhchụp liên tiếp (nhiều ảnh) để tạo và xây dựng các mô tả ngoại hình Cácnghiên cứu đã cho ra đời khá nhiều kỹ thuật phi ngữ cảnh khác nhau dùngtrong bài toán định danh lại Chúng ta có thể tham khảo một số cách tiếp cận
Trang 36nổi bật được trình bày trong Bảng 2 1 Các cách tiếp cận được phân biệt dựatrên loại đặc trưng mà chúng sử dụng chẳng hạn như việc kết hợp một haynhiều khung hình và kết hợp việc loại trừ các kết quả so khớp lỗi (hay nhậndạng các tính mới) trong quá trình so khớp các hình ảnh.
Bảng 2.1 Một số hướng tiếp cận phi ngữ cảnh cho bài toán định danh lại
Phương
pháp
Hướng tiếp cận
Thông tin cấu trúc
Ảnh sử dụng cho
mô tả
Đặc trưng
Loại bỏ các so khớp sai
Bị động
Mô hìnhkhông gian –thời gian
SDALF(SymmetryDrivenAccumulation
of LocalFeatures)
× Đơn/Nhiều Màu sắc/Kết cấu ×
SCR (SpatialCovarianceRegions)
Vị trí/Màusắc/Độdốc
×
Mô hình đa
BiCov(BiologicallyInspiredFeatures(BIF) andCovariancedescriptor)
√ Nhiều Màu sắc/Kết cấu ×
CPS (CustomPictorialStructure)
Học mô
tả (Ensemble ofELF
LocalizedFeatures)
sắc/Độdốc
×
Trang 37PLF
(Phase-lockingFactor)
Màu sắc/
Kếtcấu/HOG(Histogra
m ofOrientedGradient)
×
Bối cảnh hình
Hìnhdáng/Màusắc/Kếtcấu/HOG
×
Định danh lại
Vị trí/Màusắc/Độdốc
Vị trí/Màusắc/Độdốc
×
Định danh lại
Vị trí/Màusắc/Kếtcấu
×
Học
phép đo
LMNN-R(LargeMarginNearestNeighborwithRejection)
Trang 38RankSVM(RankingSupportVectorMachines)
Học ẩn danh(Impostorlearning)
2.2.1 Phương pháp bị động
Các hướng tiếp cận thuộc phương pháp này thường liên quan đến việcthiết kế các mô tả hình ảnh để đặc tả sự xuất hiện của người nào đó và so sánhchúng bằng cách tính toán các biện pháp tương tự nhau để đạt được kết quảcho bài toán định danh lại Phương pháp này được gọi là bị động vì chúngkhông dựa trên những kĩ thuật học giám sát hoặc không giám sát để trích xuất
và so khớp những mô tả
Một mô hình với các đặc trưng về hình dáng và màu sắc dựa trên sựxuất hiện của một người từ các blob đã được phát hiện được đề xuất trong[13] Các blob được phân thành nhiều cột và mô hình màu Gaussian với cácpixel đường biên được tính từ mỗi cột tạo thành mô tả (Hình 2 17)
Trang 39Hình 2.17 Tính toán màu sắc và hình dạng dựa trên mô hình ngoại hình của
các blob đã được phát hiện.
Một phép so khớp được thiết lập bằng ba biện pháp tương tự và phép sokhớp tối ưu sẽ tối đa hóa tất cả các biện pháp tương tự Một thuật toán phânđoạn không gian dựa trên phân đoạn và phân vùng lưu vực đồ thị được sửdụng để phát hiện các cạnh không gian ổn định được gọi là edgels Sự xuấthiện của một người là sự kết hợp của các màu sắc (sắc độ và độ bão hòa).Biểu đồ edgels và biểu đồ tương quan được sử dụng để thiết lập sự so khớpgiữa các quan sát Một ứng dụng không giám sát về định danh lại người đượctrình bày trong [14], trong đó mục tiêu là tìm thấy tất cả sự xuất hiện củangười trong một chuỗi các bức ảnh được chụp trong một khoảng thời gianngắn Một cách tiếp cận hai bước được thực hiện, trong đó bước đầu tiên làxác định những người khác nhau xuất hiện trong các bức ảnh bằng cách thuthập các phát hiện khuôn mặt chính diện Việc thu thập dựa trên biểu đồ RGB
16 cột giá trị được trích xuất từ quần áo Trong bước thứ hai, các đặc điểmmàu sắc dựa trên cấu trúc hình ảnh được sử dụng để tìm từng người đượcđịnh danh trong bước trước đó, ngay cả trong các bức ảnh mà khuôn mặt
Trang 40chính diện của họ không thể nhìn thấy Mỗi phần được xác định bởi cấu trúchình ảnh được biểu diễn bằng mô hình hỗn hợp Gaussian 5 thành phần Cáchtiếp cận này giả định rằng mỗi người đối diện với camera trong ít nhất mộtbức ảnh theo trình tự và mọi người có thể phân biệt bằng màu quần áo của họ.
Hình dáng của con người được thể hiện bằng hai đặc trưng ngoại hình
bổ sung trong [15] Đặc trưng đầu tiên là biểu đồ HSV mã hóa ngoại hìnhtổng thể trong khi các đặc điểm ngoại hình cục bộ được mã hóa bằng cách sửdụng một tập hợp các patch cục bộ dùng các phân tích epitomic Sự so khớpngoại hình xuất hiện được dựa trên tổng số điểm tương đồng về các đặc trưng.Các đặc trưng được trích xuất qua nhiều hình ảnh của một người và được gọi
là HPE (Histogram Plus Epitome) Hình chiếu của một người được chia thànhcác vùng đầu, thân và chân bằng cách phát hiện 2 trục đối xứng ngang và mộttrục đối xứng dọc Mỗi phần được mô tả bằng 3 đặc trưng, biểu đồ HSV cótrọng số, vùng màu ổn định tối đa MSCR (Maximally Stable Color Regions)
và các patch cục bộ có kết cấu cao Một lần nữa, việc so khớp ngoại hình khixuất hiện dựa trên tổng số điểm tương đồng về đặc trưng Một minh họa choviệc chia ảnh của một người thành các vùng đầu, thân và chân được trình bàytrong Hình 2 18 Theo đó, một trục dọc sẽ chia ảnh người thành 2 phần đốixứng nhau trong khi 2 trục ngang sẽ có nhiệm vụ phân tách các vùng đầu vàthân thành các vùng riêng biệt