Nghiên cứu giải pháp định danh lại người trong mạng camera giám sát

Định danh lại là một bài toán quan trọng trong lĩnh vực thị giác máy tính với sự hỗ trợ của hệ thống camera giám sát thông minh. Bài toán này dựa trên hình ảnh có nhiều ứng dụng thực tiễn như trong các hệ thống nhận dạng dựa trên cơ sở chuyển động (định danh người chuyển động dựa trên khuôn mặt, dáng đi của họ, phát hiện đối tượng chuyển động giữa các vùng quan sát của camera…), hệ thống giám sát tự động (giám sát, phát hiện đối tượng lạ, tội phạm…), hệ thống tương tác người máy, hệ thống giám sát giao thông, định danh các loại phương tiện tham gia giao thông khi xảy ra tai nạn,…

Trang 1

Để hoàn thành được đề tài khóa luận này, trước hết tôi xin được gửi lờicảm ơn chân thành nhất tới cô giáo Thị Thanh Thủy, Tổ trưởng tổ Công nghệthông tin cùng các thầy cô khoa Công nghệ và An ninh thông tin, Đại HọcTôn Đức Thắng đã trực tiếp hướng dẫn và tạo mọi điều kiện thuận lợi nhấtcho tôi trong quá trình nghiên cứu và thực hiện đề tài khóa luận của mình.

Mặc dù bản thân đã rất cố gắng tìm hiểu, nghiên cứu đề tài từ nhiềunguồn khác nhau dưới sự hướng dẫn của giáo viên phụ trách, song do kiếnthức còn hạn chế và thời gian nghiên cứu chưa nhiều nên trong quá trình thựchiện đề tài khóa luận sẽ không thể tránh khỏi sai sót Rất mong nhận được sựđóng góp ý kiến của các thầy cô để đề tài được hoàn thiện hơn nữa, là cơ sởvững chắc cho việc áp dụng thực tiễn sau này

Trang 2

Tôi xin cam đoan đề tài khóa luận: “Nghiên cứu giải pháp định danh lạingười trong mạng camera giám sát tại Đại Học Tôn Đức Thắng” là công trìnhnghiên cứu của bản thân tôi, các số liệu sử dụng trong khóa luận là trung thực,các tham khảo có nguồn trích dẫn rõ ràng, kết quả nghiên cứu khóa luậnkhông sao chép bất kì công trình nào.

Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theoquy định cho lời cam đoan của tôi

Hà Nội, tháng 6 năm 2019

Trang 3

CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG

CAMERA GIÁM SÁT……… 7

1.1 Giới thiệu bài toán 8

1.2 Những thách thức của bài toán định danh lại người 14

1.2.1 Thách thức từ chất lượng camera 14

1.2.2 Ảnh hưởng của các yếu tố môi trường 14

1.2.3 Sự che khuất đối tượng 14

1.2.4 Sự tương đồng về ngoại hình của các đối tượng 15

1.3 Ứng dụng của bài toán định danh lại người 16

CHƯƠNG 2: CÁC PHƯƠNG PHÁP ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG CAMERA GIÁM SÁT 19

2.1 Phương pháp theo ngữ cảnh 20

2.1.1 Phương pháp dựa trên việc bố trí camera trong môi trường làm ngữ cảnh……… … 20

2.1.2 Phương pháp dựa trên hiệu chỉnh camera làm ngữ cảnh 22

2.2 Phương pháp phi ngữ cảnh 25

2.2.1 Phương pháp bị động 29

2.2.2 Phương pháp chủ động 34

2.2.2.1 Phương pháp hiệu chỉnh màu sắc (Color Calibration)…… 37

2.2.2.2 Phương pháp học mô tả (Descriptor learning)… ………….38

2.2.2.3 Phương pháp học phép đo khoảng cách (Distance metric learning)……… 44

CHƯƠNG 3: ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG CAMERA GIÁM SÁT TẠI ĐẠI HỌC TÔN ĐỨC THẮNG SỬ DỤNG GOG VÀ XQDA 45

Trang 4

3.1.1 Trích chọn đặc trưng GOG 45

3.1.2 Học phép đo (metric learing) XQDA 49

3.2 Thực nghiệm và kết quả 53

3.2.1 Môi trường thực nghiệm 53

3.2.2 Thu thập dữ liệu và kịch bản thử nghiệm 56

3.2.3 Thước đo đánh giá 61

3.2.4 Kết quả thử nghiệm và đánh giá, so sánh 62

Trang 5

Hình 1.1 Phát hiện và nhận dạng người dựa trên hình ảnh dáng đi 7

Hình 1.2 Mạng camera giám sát với trường quan sát FOV trùng nhau 8

Hình 1.3 Mạng camera giám sát với trường quan sát không trùng nhau 9

Hình 1.4 Sơ đồ khối của bài toán định danh lại người 9

Hình 1.5 Hệ thống trích chọn đặc trưng và nhận diện khuôn mặt cho bài toán định danh lại người 10

Hình 1.6 Chu kì dáng đi của một người 11

Hình 1.7 Các nhân viên trong một công ty đều mặc những bộ vest đen 13

Hình 1.8 Sự che khuất một phần hoặc toàn thân của các đối tượng 15

Hình 1.9 Hình ảnh thủ phạm trong vụ đánh bom tại Bỉ được camera giám sát an ninh sân bay ghi lại phục vụ cho việc định danh đối tượng 16

Hình 1.10 Hình ảnh về đối tượng sát hại tài xế taxi ở Mỹ Đình được camera của nhà dân xung quanh ghi lại được 17

Hình 2.1 Các phương pháp định danh lại 20

Hình 2.2 Nhận diện điểm vào ra của 6 camera trong một mạng camera 21

Hình 2.3 Các góc nhìn của 4 camera trước và sau khi được căn chỉnh theo mặt phẳng đất và tự động tính toán các điểm tương đồng giữa các chế độ xem camera liền kề 22

Hình 2.4 Chia chiều cao của người trong 1 bức ảnh thành 3 phần với những dáng khác nhau dùng trong định danh lại người 23

Hình 2.5 Quá trình hình thành một PAM thử nghiệm với nhiều người mặc quần áo màu sắc khác nhau 24

Hình 2.6 Quá trình khởi tạo một mô hình 3D biểu diễn người 25

Hình 2.7 Tính toán màu sắc và hình dạng dựa trên mô hình ngoại hình của các blob đã được phát hiện 29

Hình 2.8 Phát hiện 2 trục đối xứng ngang và 1 trục đối xứng dọc của mỗi người sử dụng trong xác định số điểm tương đồng về đặc trưng 31

Trang 6

Hình 2.10 Quá trình xây dựng cây KD sử dụng để mô tả sự xuất hiện của một

người 33

Hình 2.11 Mô tả ngoại hình dựa trên các nhãn hình dạng 35

Hình 2.12 Quy trình xử lý 2 bước để học các đặc trưng riêng biệt 37

Hình 2.13 Trích chọn đặc trưng sử dụng model 39

Hình 3.1 Quá trình trích chọn đặc trưng sử dụng GOG 45

Hình 3.2 Hình ảnh của một người được chia thành các patch và các vùng 45

Hình 3.3 Biểu diễn vectơ độ dốc tại 1 pixel 46

Hình 3.4 Biểu diễn vectơ độ dốc tại 1 pixel 47

Hình 3.5 Phân phối của ΣII và ΣIE 51

Hình 3.6 Sơ đồ hệ thống camera giám sát tại cổng số 4 Đại Học Tôn Đức Thắng 54

Hình 3.7 Phân chia làn đường và hệ thống camera tại cổng số 4 54

Hình 3.8 Camera D-max DMC-204GZW sử dụng cho hệ thống giám sát tại Học viện 55

Hình 3.9 Dữ liệu được lưu thành từng folder ứng với mỗi người riêng biệt 57

Hình 3.10 Các video sau khi cắt xong được lưu trong một folder chung 57

Hình 3.11 Chuyển video thành frame bằng phần mềm Free Video to JPG Converter 58

Hình 3.12 Bộ frame của từng người sau khi convert xong 58

Hình 3.13 Khoanh vùng đối tượng với bouding box sử dụng công cụ LabelImg 59

Hình 3.14 Bộ ảnh ROI ứng với từng người 60

Hình 3.15 Biểu đồ CMC cho thử nghiệm 2 trong cả 4 không gian màu 63

Trang 7

Bảng 2.1 Một số hướng tiếp cận phi ngữ cảnh cho bài toán định danh lại 26Bảng 3.1 Kết quả chạy thử nghiệm 1 62Bảng 3.2 Kết quả chạy thử nghiệm 2 62Bảng 3.3 So sánh kết quả thử nghiệm với kết quả từ bộ dữ liệu quốc tế dùng

cho bài toán định danh lại 64Bảng 3.4 Ưu và nhược điểm của 2 bộ cơ sở dữ liệu 65

Trang 8

Từ viết tắt Từ tường minh

SDALF Symmetry Driven Accumulation of Local Features

BiCov Biologically Inspired Features (BIF) andCovariance descriptor

LMNN-R Large Margin Nearest Neighbor with RejectionPRDC Probabilistic Relative Distance ComparisonRankSVM Ranking Support Vector Machines

SBDR Set-Based Discriminative Ranking

GLOH Gradient Location-Orientation HistogramSIFT Scale Invariant Feature Transform

Trang 9

Thuật ngữ Giải thích

Gallery

Là một tập hợp gồm hình ảnh của những người đã biết.Trong bài toán định danh lại, hình ảnh của một ngườichưa biết sau quá trình trích chọn đặc trưng được đưavào so sánh với các hình ảnh trong gallery để đưa ra kết

quả so khớp

Ground truth

Trong học máy, thuật ngữ ground truth dùng để chỉ tínhchính xác của lớp tập huấn luyện đối với các kỹ thuậthọc có giám sát Ground truth còn dùng để chỉ quá trìnhthu thập và xử lý dữ liệu cho thử nghiệm và so sánh với

dữ liệu chuẩn quốc tế

Homography Hình ảnh tương đồng của 2 ảnh bất kì thuộc cùng mộtmặt phẳng trong không gian

Blob Là một nhóm các pixel được kết nối trong một hình ảnhcó một số thuộc tính chung

Adaboost

Là một tập hợp các thuật toán trong Machine Learning,Adaboost sẽ tính toán trung bình các thuật toán đó theohướng tối ưu cho bài toán mà chúng ta cần giải quyết

Bounding box

Là các hộp giới hạn tưởng tượng bao xung quanh cácvật thể Một hệ tọa độ 2D được sử dụng để xác định tọa

độ của nó Trong xử lý hình ảnh, hộp giới hạn chỉ là tọa

độ của đường viền hình chữ nhật bao quanh hoàn toànđối tượng mà chúng ta hướng đến (như trong khóa luậnnày, đối tượng là người xuất hiện trong các frame)

Trang 10

MỞ ĐẦU

1 Tính cấp thiết của đề tài.

Chúng ta đang sống trong thời đại công nghệ thông tin phát triển như

vũ bão với những thành tựu to lớn mà nó mang lại Trong thời đại ngày nay,toàn thế giới có một cách mới để biên dịch, trao đổi và thao tác dữ liệu vớimột tốc độ cũng như khối lượng vô cùng lớn mạnh

Song hành với sự phát triển đó là sự ra đời của hàng loạt lĩnh vực ứngdụng công nghệ thông tin khác nhau như trí tuệ nhân tạo, kỹ nghệ phần mềm,

đồ họa máy tính, trong đó phải nhắc đến một lĩnh vực đang thu hút được sựquan tâm của rất nhiều nhà nghiên cứu trong thời gian gần đây, đó là lĩnh vựcthị giác máy tính (computer vision)

Nhắc đến thị giác máy tính, chúng ta thường được nghe đến nhiều thuậtngữ liên quan khác nhau trong đó thuật ngữ hệ thống giám sát bằng video đãngày càng trở nên phổ biến và dần trở thành quen thuộc với chúng ta, nhữngngười đang sống trong thời đại mới, thời đại của nền kinh tế tri thức, trong đónhững thành tựu rực rỡ của công nghệ thông tin đóng vai trò chủ đạo

Ra đời từ những năm 1960, qua quá trình hoàn thiện và phát triển, ngàynay một hệ thống giám sát thông minh tự động có thể là một công cụ hỗ trợđắc lực cho con người thực hiện các tác vụ giám sát và theo dõi Cùng với sựbùng nổ của cuộc cách mạng công nghệ trong những năm qua, các hệ thốngcamera được triển khai rộng khắp ở nhiều nơi, là nguồn cung cấp dữ liệu hìnhảnh dồi dào sẵn có cho giám sát an ninh Tuy nhiên nếu thực hiện thủ côngviệc giám sát các hình ảnh này là một công việc tốn quá nhiều công sức vàhiệu quả không cao Để tự động hóa khâu giám sát cần có hệ thống máy tính

xử lý tự động các nguồn hình ảnh này Điều này liên quan đến việc giải quyếtnhiều bài toán xử lý ảnh như phát hiện đối tượng, theo vết đối tượng, địnhdanh lại đối tượng, giám sát hành vi bất thường của đối tượng…Mỗi bài toánđều có tầm ảnh hưởng nhất định tới hiệu quả của một hệ thống giám sát anninh sử dụng hình ảnh thu nhận từ mạng camera giám sát, Mỗi bài toán làmột lĩnh vực nghiên cứu trong ngành thị giác máy tính với nhiều thách thức

Trang 11

cần tiếp tục được nghiên cứu, giải quyết… Chính vì thế, việc nghiên cứu một

hệ thống giám sát sử dụng camera bằng hình ảnh với hiệu quả cao đã và đang

là mục tiêu của nhiều nhà nghiên cứu

Một hệ thống camera giám sát bằng hình ảnh hoàn chỉnh là một quátrình các công việc từ thu, truyền, xử lý và lưu các hình ảnh với những côngnghệ hiện đại Trong đó quá trình xử lý và đưa ra các hình ảnh là khâu mấuchốt của hệ thống Mặc dù các công nghệ hiện tại đã và đang phát triển rấtcao, song vẫn chưa đáp ứng hết được những yêu cầu cần thiết bởi những khókhăn của hệ thống camera giám sát Một hệ thống camera giám sát có thể bịảnh hưởng bởi rất nhiều các yếu tố khác nhau như điều kiện môi trường, ánhsáng, phạm vi quan sát, Chính vì thế, rất nhiều các nghiên cứu thời gian gầnđây tập trung giải quyết các vấn đề này nhằm hoàn thiện và cho ra đời một hệthống camera giám sát thông minh hoàn chỉnh nhất

Định danh lại là một bài toán quan trọng trong lĩnh vực thị giác máytính với sự hỗ trợ của hệ thống camera giám sát thông minh Bài toán này dựatrên hình ảnh có nhiều ứng dụng thực tiễn như trong các hệ thống nhận dạngdựa trên cơ sở chuyển động (định danh người chuyển động dựa trên khuônmặt, dáng đi của họ, phát hiện đối tượng chuyển động giữa các vùng quan sátcủa camera…), hệ thống giám sát tự động (giám sát, phát hiện đối tượng lạ,tội phạm…), hệ thống tương tác người máy, hệ thống giám sát giao thông,định danh các loại phương tiện tham gia giao thông khi xảy ra tai nạn,…

Hiểu được tầm quan trọng cũng như những lợi ích mà hệ thống giámsát thông minh mang lại, tôi quyết định chọn đề tài khóa luận là: “Nghiên cứugiải pháp định danh lại người từ mạng camera giám sát tại Đại Học Tôn ĐứcThắng” để từ đó áp dụng rộng rãi trong giải quyết bài toán định danh lại đốitượng nhằm xác định danh tính của đối tượng trong những tình huống cụ thể

Trong phạm vi khóa luận: “Nghiên cứu giải pháp định danh lại người từmạng camera giám sát tại Đại Học Tôn Đức Thắng”, bài toán của tôi tập trungnghiên cứu là bài toán định danh lại người Nghiên cứu lý thuyết và cài đặtthực nghiệm được thực hiện trong khóa luận nhằm hướng tới việc áp dụng bàitoán trong xây dựng một hệ thống giám sát an ninh hoàn chỉnh sau này, từ đó

Trang 12

áp dụng vào thực tiễn, nhất là trong lĩnh vực an ninh quốc phòng – lĩnh vựcliên quan trực tiếp đến lực lượng Công an nhân dân.

2 Tình hình nghiên cứu đề tài.

Định danh lại người từ nguồn dữ liệu ảnh thu thập được từ hệ thốngcamera giám sát là một trong những bài toán thu hút được sự quan tâm của rấtnhiều nhà nghiên cứu, với nhiều ứng dụng thực tiễn trong cuộc sống, tronggiám sát an ninh, an toàn tại các địa điểm công cộng như sân bay, bệnh viện,trường học… Ngoài ra, với sự phát triển ngày càng lớn mạnh của các hệthống camera giám sát, rất nhiều các khu vực hiện nay đều được trang bị vàlắp đặt camera Đây chính là nguồn dữ liệu dồi dào sử dụng làm cơ sở dữ liệucho bài toán định danh lại người Chính vì lẽ đó, trong những năm qua đã cónhững công trình nghiên cứu, bài tìm hiểu có liên quan đến đề tài, nổi bậttrong đó là:

Công trình nghiên cứu khoa học “Nghiên cứu xây dựng hệ thống theovết đối tượng sử dụng camera” của Nguyễn Công Thắng, 2017, Đại Học TônĐức Thắng [1]

Công trình nghiên cứu “Visible thermal person re-identification viadual-constrained top-ranking” của Mang Ye , Zheng Wang , Xiangyuan Lan ,Pong C Yuen, 2018, Hong Kong [2]

Công trình nghiên cứu “Deep spatial feature reconstruction for partialperson re-identification: Alignment-free approach” của Lingxiao He, JianLiang, Haiqing Li và Zhenan Sun, 2018, Trung Quốc [3]

Các công trình nghiên cứu kể trên tập trung giải quyết các bài toánkhác nhau trong lĩnh vực thị giác máy tính cũng như tìm hiểu các giải phápkhác nhau hỗ trợ cho bài toán định danh lại người từ mạng camera giám sát

mà chưa nghiên cứu một phương pháp kết hợp các giải pháp này lại Xuấtphát từ điều đó, cùng với việc lựa chọn đối tượng, phạm vi, mục đích nghiêncứu khác nhau, đồng thời qua khảo sát thực tế chưa có công trình nghiên cứunào tập trung vào bài toán định danh lại người qua mạng camera giám sát tạiĐại Học Tôn Đức Thắng, vì vậy, việc lựa chọn đề tài này của tôi là không có

Trang 13

sự trùng lặp với các công trình nghiên cứu, bài tìm hiểu đã được công bốtrước đó.

3 Mục tiêu, nhiệm vụ nghiên cứu.

- Đề xuất và cài đặt thử nghiệm mô hình định danh lại người với nguồn

dữ liệu từ mạng camera giám sát tại Đại Học Tôn Đức Thắng

4 Đối tượng và phạm vi nghiên cứu nghiên cứu.

Đối tượng nghiên cứu:

- Các đặc trưng hình ảnh và các thuật toán trích chọn đặc trưng ảnh chobài toán định danh lại người

- Các phương pháp so khớp đặc trưng cho định danh lại người

Phạm vi nghiên cứu:

- Tìm hiểu thuật toán trích chọn đặc trưng ảnh GOG trên các khônggian màu RGB, LAB, HSV, nRnG

- Tìm hiểu thuật toán XQDA để so so khớp các đặc trưng

- Kết hợp GOG và XQDA cho định danh lại người trong mạng cameragiám sát tại tại cổng số 4 Đại Học Tôn Đức Thắng

5 Phương pháp nghiên cứu.

Phương pháp nghiên cứu lý thuyết:

Trang 14

- Nghiên cứu tổng quan bài toán định danh lại người trong mạng cameragiám sát.

- Tìm hiểu công cụ lập trình Matlab và các thư viện xử lý ảnh trên công

cụ này

- Nghiên cứu các bộ mô tả người trong ảnh và các phương pháp địnhdanh lại người từ mạng camera giám sát

Phương pháp nghiên cứu thực nghiệm:

- Tiến hành thu dữ liệu từ camera giám sát tại Học viện

- Chạy thử nghiệm với dữ liệu thu được

- So sánh với kết quả thực nghiệm

6 Ý nghĩa đề tài.

Về mặt lý thuyết:

- Đề xuất được giải pháp kết hợp 2 thuật toán GOG và XQDA tăngcường độ chính xác cho bài toán định danh lại người trong mạng camera giámsát

- Tạo tiền đề cho những nghiên cứu tiếp theo trong tương lai

Về mặt thực tiễn:

- Giúp giảm công sức, tăng hiệu quả trong việc xác định đối tượng,định danh lại đối tượng, là cơ sở để hướng tới phát triển hệ thống giám sát anninh tự động sử dụng mạng camera tại Đại Học Tôn Đức Thắng nói riêng vàtại các khu vực cần kiểm soát an ninh nói chung

- Ứng dụng trong việc định danh đối tượng hay trong tương lai là việc

áp dụng vào việc lần theo đối tượng bị truy nã, nhận dạng đối tượng lạmặt v.v Qua đó đảm bảo an ninh tại các đơn vị nhà nước, đơn vị quân sự,đặc biệt là đảm bảo quốc phòng, an ninh quốc gia

7 Bố cục đề tài.

Nội dung chính của bài nghiên cứu được trình bày theo cấu trúc sau:

Trang 15

Chương 3: Định danh lại người trong mạng camera giám sát tại Đại

Học Tôn Đức Thắng sử dụng GOG và XQDA

Kết luận

CHƯƠNG 1

Trang 16

CHƯƠNG 1 GIỚI THIỆU BÀI TOÁN ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG

CAMERA GIÁM SÁT

Ngày nay, cùng với sự phát triển của khoa học công nghệ, các hệ thốngcamera giám sát được lắp đặt ở khắp mọi nơi, từ các khu vực công cộng cóđông người qua lại như nhà ga, sân bay, trường học, các khu mua sắm lớn,đến các khu vực hẹp hơn thuộc phạm vi tòa nhà văn phòng, các phòng làmviệc, phòng khám và điều trị bệnh, nhà riêng….Nguồn dữ liệu dồi dào, sẵn có

từ các hệ thống camera này đã trở thành nguồn dữ liệu đầu vào có giá trị chocác hệ thống thị giác máy tính, với mục tiêu biến máy tính cùng với cáccamera trở thành hệ thống có khả năng xử lý thông tin hình ảnh, có khả năng

tư duy, giải quyết nhiều vấn đề như con người hoặc thậm chí hơn cả conngười Nhiều bài toán đã được đề xuất và giải quyết bởi hệ thống thị giác máytính hay hệ thống xử lý ảnh như phát hiện và nhận dạng mặt người, phát hiện

và nhận dạng người dựa trên hình ảnh dáng đi, theo dõi giám sát sự kiện, hành

vi bất thường, phát hiện và phân lớp đối tượng tự động… Mỗi lĩnh vực kểtrên đều đã có những thành quả ứng dụng hữu ích trong đời sống con người

Hình 1.1 Phát hiện và nhận dạng người dựa trên hình ảnh dáng đi.

Trong phạm vi nghiên cứu của khóa luận tốt nghiệp này, một bài toán

xử lý ảnh được tập trung nghiên cứu đó là bài toán định danh lại người trong

Trang 17

hệ thống camera giám sát Đây là bài toán thu hút được rất nhiều người quantâm nghiên cứu trong một vài năm trở lại đây bởi khả năng ứng dụng thựctiễn của nó trong đời sống Đối với riêng lĩnh vực công tác, việc nghiên cứubài toán cũng có ý nghĩa rất thiết thực Các hệ thống giám sát an ninh tự độngtại những khu vực công cộng hay ở những khu vực có yêu cầu an ninh caođều được xây dựng từ việc giải quyết nhiều bài toán đơn lẻ của thị giác máytính, trong đó có bài toán định danh lại người trong hệ thống camera giám sát.Trong công tác điều tra, phá án của lực lượng Công an, những hệ thống truyvết tự động đối đối tượng tình nghi, đối tượng phạm tội qua các hình ảnh thunhận từ hệ thống camera cũng được xây dựng từ việc giải quyết bài toán này.

1.1 Giới thiệu bài toán

Bài toán định danh lại người là bài toán xác định danh tính của mộtngười bất kì dựa trên một mạng gồm nhiều camera giám sát với trường quansát FOV (Field of View) trùng nhau (Hình 1.2) hoặc không trùng nhau (Hình1.3)

Hình 1.2 Mạng camera giám sát với trường quan sát FOV trùng nhau.

Trang 18

Hình 1.3 Mạng camera giám sát với trường quan sát không trùng nhau.

Định danh lại người trong mạng camera giám sát có thể hiểu đơn giản

là việc tìm kiếm một người trên các thiết bị dựa trên một hình ảnh đã có từtrước của người đó khi họ di chuyển trong hệ thống camera giám sát và đượccamera ghi lại Sơ đồ khối chung của bài toán định danh lại người được trìnhbày trong Hình 1 4:

Hình 1.4 Sơ đồ khối của bài toán định danh lại người.

Dựa trên nguồn dữ liệu mà camera thu được, bài toán định danh lạingười có thể được tiếp cận theo một số hướng sau:

Trang 19

Định danh thông qua ảnh chụp cận mặt

Ưu điểm:

Đây có thể coi là phương pháp định danh chính xác nhất cho bài toánđịnh danh lại người Với mỗi mỗi bức hình chụp cận mặt như thế, máy tính sẽ

dễ dàng phân tích các đặc trưng trên khuôn mặt của một người sau đó đưa ra

so sánh với hình ảnh ban đầu Từ đó có thể nhanh chóng định danh đượcngười do camera giám sát ghi lại Độ chính xác cũng như hiệu quả củaphương pháp này là rất cao, đặc biệt là trong thời điểm ngày nay khi mà các

hệ thống nhận dạng khuôn mặt người ngày càng phát triển với độ chính xácgần như tuyệt đối

Hình 1.5 Hệ thống trích chọn đặc trưng và nhận diện khuôn mặt cho bài

toán định danh lại người.

Nhược điểm:

Mặc dù có độ chính xác cao nhưng phương pháp này lại có một số hạnchế nhất định Khó khăn lớn nhất của phương pháp này đó là phần lớn cáccamera giám sát hiện nay đều có trường quan sát khá rộng nên việc zoom cậnmặt đối với một người di chuyển trong trường quan sát là điều rất khó Nếu cóthể zoom để chụp lại thì chất lượng hình ảnh thu được thấp cũng là một vấn

đề khó khăn cho quá trình định dạnh Ngoài ra, không phải bức ảnh cận mặt

Trang 20

nào cũng được chụp ở hướng chính diện, khuôn mặt đôi khi được chụp theohướng nghiêng, thậm chí chỉ chụp được một nửa Điều này cũng là một tháchthức mà phương pháp định danh qua ảnh chụp cận mặt cần phải giải quyếtnếu muốn cho hiệu quả cao.

Định danh lại thông qua dáng đi

Mỗi cá nhân chúng ta sở hữu những đặc điểm và động tác riêng biệt khi

di chuyển Vì thế, dáng đi của chúng ta cũng có những nét độc đáo, dù rất nhỏnhưng không bị trùng với ai cả Dựa trên nguyên lý đó, cùng với sự bùng nổcủa trí tuệ nhân tạo AI, các nhà nghiên cứu đã cho ra đời phương pháp địnhdanh mới này Hệ thống này thường được ứng dụng tại các khu vực rộng, cónhiều người đi lại như sân bay, trung tâm thương mại,…Mỗi cá nhân đi lạitrong trường quan sát của camera sẽ được thu lại toàn bộ chu kì dáng đi Khingười đó di chuyển từ camera này sang camera khác thì từng camera cũng sẽthu lại để làm dữ liệu phân tích, phục vụ định danh lại người khi cần thiết

Hình 1.6 Chu kì dáng đi của một người.

Ưu điểm:

Đây cũng là một phương pháp với độ chính xác rất cao, có thể áp dụngngay trong các khu vực rộng lớn, khu vực công cộng đông người để xác địnhdanh tính của những người qua lại Bên cạnh đó, một ưu điểm được đánh giá

Trang 21

khá cao đó là phương pháp này hạn chế sự vi phạm quyền riêng tư của mỗingười hơn so với những phương pháp khác.

có thể do người đó không đi hết chu kì trong trường quan sát của camera đó,hoặc vừa đi vào rồi đi ra khỏi vùng quan sát ngay lập tức khiến cho camerakhông thể thu hết Ngoài ra, hướng quan sát của camera cũng gây nên một sốtrường hợp không thấy hết được chu kì bước chân

Một hạn chế khác phải kể đến đó là việc thu thập và lưu trữ các đặcđiểm dáng đi của một người theo thứ tự (ít nhất phải lưu lại một chu kì bướcchân) sẽ khó khăn hơn việc lưu trữ một ảnh chụp cận mặt hay hình dáng bênngoài Việc này sẽ đòi hỏi một cơ sở dữ liệu lớn với khả năng lưu trữ cao.Chính vì vậy mà khả năng mở rộng của hệ thống nếu sử dụng phương phápnày sẽ bị giảm đi so với các phương pháp khác

Định danh lại thông qua hình dáng bề ngoài

Đây là một hướng tiếp cận mới của các nhà nghiên cứu trong nhữngnăm gần đây Mỗi cá nhân khi xuất hiện đều có một ngoại hình riêng (ví dụnhư quần áo, giày dép, balo,…) Dựa trên những đặc điểm này, một hệ thốngđịnh danh sẽ thu thập hình ảnh của từng người trong vùng quan sát củacamera để làm dữ liệu phục vụ cho các trường hợp cần thiết

Ưu điểm:

Phương pháp này khắc phục được những nhược nhiểm của 2 phươngpháp định danh qua ảnh chụp cận mặt và qua dáng đi Vì chỉ cần thông quahình dáng bề ngoài nên không yêu cầu phải zoom quá nhiều, chỉ cần đốitượng di chuyển vào vùng quan sát của camera là đã có thể thu được dữ liệucần thiết Và cũng không cần thiết phải thu hết một chu kì đối tượng di

Trang 22

chuyển, chỉ cần một sự xuất hiện ngắn trong vùng quan sát là đủ Chính vìvậy, khả năng mở rộng của phương pháp này là rất cao, thu thập được nhiềuđối tượng hơn, ứng dụng rộng rãi hơn.

Một nhược điểm khác cần nhắc đến đó là sự trùng hợp về ngoại hìnhgiữa các đối tượng Tại một công ty, trường học,… khi mà mọi người mặcđồng phục hay những bộ quần áo có màu sắc giống nhau thì hiển nhiên bềngoài sẽ có sự trùng hợp lớn Điều này sẽ gây khó dễ cho hệ thống định danh

để phân biệt từng đối tượng Một ví dụ cho điều này được thể hiện rõ trongHình 1 7:

Trang 23

Hình 1.7 Các nhân viên trong một công ty đều mặc những bộ vest đen.

Để thuận tiện cho quá trình thực hiện, trong phạm vi nghiên cứu củakhóa luận tốt nghiệp này, một giả thuyết được đặt ra đó là các đối tượngkhông thay đổi ngoại hình trong khoảng thời gian tìm kiếm trên hệ thống

1.2 Những thách thức của bài toán định danh lại người

1.2.1 Thách thức từ chất lượng camera.

Hệ thống camera ngày nay về cơ bản đã được nâng cấp lên rất nhiều.Tuy nhiên, vẫn còn một số lượng nhất định các camera thế hệ cũ cho ra nhữnghình ảnh có độ phân giải thấp nên sẽ rất khó khăn cho các thuật toán để có thểđịnh danh với nguồn dữ liệu đầu vào như thế

Ngoài ra, một số camera được đặt với các góc nhìn không thuận lợi(khuất tầm quan sát, góc quan sát hẹp,…) hay được đặt với khoảng cách tớiđối tượng không hợp lý (quá gần hoặc quá xa,…) cũng gây ra những khókhăn nhất định cho bài toán định danh lại người

1.2.2 Ảnh hưởng của các yếu tố môi trường.

Môi trường có tác động trực tiếp đến chất lượng hình ảnh đầu vào củabài toán từ đó gây ra sai lệch trong kết quả cuối cùng Các yếu tố như: cường

Trang 24

độ ánh sáng mạnh hay yếu, ban ngày hay ban đêm, các tia sáng với màu sắc

và tần số khác nhau; thời tiết mưa hay nắng, âm u hay sương mù, khói bụi,…

dù ít hay nhiều cũng sẽ gây ra những biến đổi đối với sự xuất hiện của đốitượng trên hệ thống camera

1.2.3 Sự che khuất đối tượng

Trong các khu vực công cộng như bến xe, sân bay, trường học, bệnhviện, thường có rất nhiều người qua lại, chúng ta rất khó để có được hìnhảnh toàn thân của một người, vì cá nhân đó sẽ bị che khuất một phần hoặctoàn thân bởi những người khác trong đám đông Và khi đó, điều hiển nhiên

là rất khó cho chúng ta để thu và lấy được hình ảnh đầy đủ của họ phục vụlàm dữ liệu đầu vào cho bài toán Một vài trường hợp về che khuất đối tượngđược thể hiện rõ ràng trong Hình 1 8:

Hình 1.8 Sự che khuất một phần hoặc toàn thân của các đối tượng.

1.2.4 Sự tương đồng về ngoại hình của các đối tượng

Đối với một số địa điểm như trường học, nhà máy hoặc công trườngxây dựng, quần áo thường là đồng phục cho tất cả mọi người Điều này gây ra

sự tương đồng lớn giữa các đối tượng dẫn đến việc có thể nhẫm lẫn trong quátrình định danh lại Chưa kể đến việc có những đối tượng có cả sự tương đồngtrong ngoại hình như chiều cao, dáng đi, cử chỉ,…Đây là một vấn đề đáng lưutâm cho bài toán định danh lại người này

Trang 25

Ngoài những thách thức trên, một số thách thức khác của bài toán địnhdanh lại người trong hệ thống camera giám sát cũng cần được xem xét như:

- Khả năng mở rộng: Các khu vực rộng lớn thường được trang bị rấtnhiều camera giám sát trong khi các công nghệ hiện tại chỉ mới giải quyếtđược một số lượng camera nhất định

- Dữ liệu đầu vào phức tạp: Đó là khi hình ảnh của đối tượng cần địnhdanh lại có sự xuất hiện của những người hay vật khác, làm rối dữ liệu đầuvào

- Sự thay đổi ngoại hình của đối tượng: Khi đối tượng di chuyển giữacác vùng quan sát của camera, nếu đối tượng có những thay đổi nhất địnhtrong ngoại hình (thay đổi quần áo, mũ nón,…) sẽ gây ra khó khăn cho việcđịnh danh lại

1.3 Ứng dụng của bài toán định danh lại người

Định danh lại người trong mạng camera giám sát những năm gần đâythực sự là một vấn đề đang được rất nhiều nhà nghiên cứu để tâm bởi nhữngứng dụng thiết thực của nó trong mọi lĩnh vực của đời sống, trong đó bao gồm

cả công tác nghiệp vụ của lực lượng Công an

Một trong số những vụ án nghiêm trọng có thể kể đó là vụ đánh bomkhủng bố tại sân bay Zaventem ở Brussels, Bỉ ngày 22/3/2016 Sau khi vụđánh bom xảy ra, lực lượng An ninh tại Bỉ song hành với việc việc thắt chặt

an ninh là việc ráo riết truy lùng danh tính kẻ đánh bom khủng bố Và với sựtrợ giúp của hệ thống camera giám sát an ninh tại sân bay Zaventem cùngcông nghệ định danh lại người, cảnh sát nước này đã nhanh chóng tìm ra thủphạm Toàn bộ hình ảnh và video của thủ phạm đã được công bố để ngườidân cùng nhau truy lùng, đưa tội phạm ra trước pháp luật

Trang 26

Hình 1.9 Hình ảnh thủ phạm trong vụ đánh bom tại Bỉ được camera giám sát

an ninh sân bay ghi lại phục vụ cho việc định danh đối tượng.

Tại Việt Nam, định danh lại người trong hệ thống camera giám sát cũngđược lực lượng Công an chúng ta áp dụng rất thành công Một ví dụ minhchứng rõ ràng cho điều này đó là vụ án sát hại tài xế taxi ở Mỹ Đình ngày29/01/2019 Ngay sau khi vụ việc xảy ra, Phòng Cảnh sát hình sự Công anThành phố Hà Nội đã tích cực vào cuộc điều tra, thu thập và trích xuất dữ liệu

từ nhiều camera hành trình của các taxi và nhà dân, từ đó đã thu lại được hìnhảnh và thông tin về nghi phạm (Hình 1 10) Kết quả đã nhanh chóng tìm ra

và bắt giữ đối tượng gây án

Hình 1.10 Hình ảnh về đối tượng sát hại tài xế taxi ở Mỹ Đình được camera

của nhà dân xung quanh ghi lại được.

Trang 27

Tuy nhiên, qua 2 ví dụ vừa nêu trên, chúng ta có thể thấy được mộtthực tế đó là việc đưa ra hình ảnh và truy tìm thủ phạm hầu như được cungcấp và thực hiện một cách thủ công Điều này đặt ra vấn đề cần phải có hệthống định danh lại người nhằm tự động hóa khâu truy tìm dấu vết của cácđối tượng phạm tội hay tình nghi phạm tội, nâng cao hiệu quả công tác.

Với những ứng dụng vô cùng to lớn như vậy, việc áp dụng công nghệthị giác máy tính (computer vision) trong việc giải quyết một cách tự độnghóa bài toán định danh lại người trong mạng camera giám sát đã thực sự nở rộtrong thời gian gần đây

KẾT LUẬN CHƯƠNG 1

Chương đầu tiên của khóa luận đã đưa ra khái niệm cơ bản nhất về bàitoán định danh lại người trong hệ thống mạng camera giám sát Để giải quyết bàitoán này, chúng ta có thể tiến hành theo nhiều hướng khác nhau tùy vào dữ liệuthu được từ camera như định danh lại thông qua ảnh chụp cận mặt, qua dángđi, Mỗi cách giải quyết bài toán đều có những ưu và nhược điểm riêng Trongkhi tiến hành tôi cũng gặp phải những khó khăn thách thức không hề nhỏ Quaquá trình nghiên cứu tôi cũng đi sâu tìm hiểu một số khó khăn vướng phải nhưtrên Tuy bài toán có một vài thách thức, khó khăn nhưng không thể phủ nhậntầm quan trọng và ứng dụng to lớn của bài toán định danh lại trong các lĩnh vựccủa đời sống nói chung và trong lực lượng công an nói riêng

Định danh lại người trong phạm vi khóa luận này được đề xuất thông quathể hiện bề ngoài Các chương sau của khóa luận sẽ tìm hiểu một số kỹ thuật

Trang 28

định danh lại người được sử dụng trong bài toán định danh lại và việc kết hợpcác kỹ thuật này nhằm đạt được kết quả cuối cùng.

CHƯƠNG 2 CÁC PHƯƠNG PHÁP ĐỊNH DANH LẠI NGƯỜI TRONG MẠNG

CAMERA GIÁM SÁT

Định danh lại người là một chủ đề được nghiên cứu rất nhiều và mạnh

mẽ trong một vài năm gần đây Các vấn đề liên quan đến định danh lại ngườikhông ngừng được nghiên cứu và công nhận trong suốt thời gian qua Bằngviệc đưa ra một hoặc nhiều hình ảnh của một người chưa biết và một gallerybao gồm hình ảnh của một số người đã biết, bài toán định danh lại ngườihướng đến mục tiêu là tạo ra một xếp hạng trong gallerry dựa trên sự tươngđồng về ngoại hình của họ với người chưa biết Người nào trong gallery có sựtương đồng cao nhất với hình ảnh đưa ra ban đầu sẽ cung cấp một ID chongười chưa biết, từ đó xác định được người chưa biết Ở đây, giả định rằng IDcủa người chưa biết là một tập hợp con của gallery, tức là nguồn dữ liệu sửdụng cho định danh lại người là đóng kín Các phương pháp hiện đại đang tập

Trang 29

trung giải quyết bài toán định danh lại người với nguồn dữ liệu đóng kín nhưvậy Hầu hết các cách tiếp cận hiện tại đều dựa vào sự tương đồng ngoại hìnhgiữa các hình ảnh để thiết lập sự tương ứng Các đặc trưng được sử dụng đểxác định ngoại hình là màu sắc và kết cấu được trích xuất từ quần áo Mộtđánh giá về các mô tả ngoại hình dựa trên màu sắc và kết cấu trang phục sửdụng cho bài toán định danh lại được trình bày trong [4] Tuy nhiên, các đặctrưng về ngoại hình như vậy chỉ ổn định trong khoảng thời gian ngắn khi mọingười mặc khác nhau vào những ngày khác nhau Do đó, các mô hình địnhdanh lại dựa trên ngoại hình chỉ phù hợp trong khoảng thời gian ngắn và thực

tế Hầu hết các cách tiếp cận tiên tiến hiện nay đều cố gắng đưa ra giải phápđịnh danh lại trong khoảng thời gian ngắn

Nghiên cứu trước đây về định danh lại tập trung vào việc kết hợp mốiquan hệ giữa các camera trong hệ thống với quy trình so khớp, nhưng những

nỗ lực gần đây đã tập trung vào phát triển các đặc trưng riêng biệt(discriminative features), học mẫu khoảng cách (learning distance models)hoặc cả hai, để có kết quả chính xác hơn Nhìn chung, các phương pháp tiếpcận gần đây đã tập trung vào hai khía cạnh của vấn đề: 1) thiết kế các bộ mô

tả của một người; 2) học các mẫu khoảng cách phù hợp nhằm tối đa hóa khảnăng so khớp chính xác Nhìn một cách tổng quát, các phương pháp cho bàitoán định danh lại có thể được chia thành các phương pháp theo ngữ cảnh vàphương pháp phi ngữ cảnh

Trang 30

Hình 2.11 Các phương pháp định danh lại.

2.1 Phương pháp theo ngữ cảnh

Các phương pháp này dựa trên thông tin theo ngữ cảnh bên ngoài đểgiảm số lần so sánh đặc trưng hoặc trích chọn các đặc trưng cho bài toán địnhdanh lại Phương pháp theo ngữ cảnh này có thể được phân loại thêm thànhphương pháp tiếp cận dựa trên thông tin tính toán từ việc bố trí camera trongmôi trường (Camera geometry) và phương pháp tiếp cận dựa trên hiệu chỉnhcamera (Camera calibration) làm ngữ cảnh

2.1.1 Phương pháp dựa trên việc bố trí camera trong môi trường làm ngữ cảnh

Công việc ban đầu mà bài toán định danh lại người tập trung vào đó làviệc tận dụng các mối quan hệ không gian và thời gian giữa các camera đểgiảm các lỗi định danh bằng cách giới hạn kích thước của gallery Các tínhiệu không gian - thời gian được khai thác trong [5] để tìm hiểu mối quan hệgiữa các camera lần lượt được sử dụng Mục đích là để hạn chế sự trùng nhaugiữa các camera Các mối quan hệ này được mô hình hóa như một hàm mật

độ xác suất của các tham số không gian và thời gian như vị trí vào ra, vận tốc

và thời gian chuyển tiếp giữa các camera Điểm vào – ra của mỗi camera vàthời gian chuyển tiếp giữa các camera được trình bày trong [6], để hiệu chỉnhtất cả các camera trong mạng

Trang 31

Hình 2.12 Nhận diện điểm vào ra của 6 camera trong một mạng camera.

Các camera đã hiệu chỉnh được sử dụng để tìm hiểu cấu trúc liên kếtcủa mạng camera dưới dạng biểu đồ lưỡng cực Cấu trúc liên kết được tăngcường mạnh hơn với những thông tin tạm thời nhằm đạt được mô hình hìnhtrạng liên kết (tempo-topographical model) của mạng camera Một cách tiếpcận tương tự được sử dụng để hiệu chỉnh mạng camera và ước tính quỹ đạocủa các mục tiêu trong mạng bằng cách sử dụng ước tính MAP (Maximum aPosteriori) trong [7] Một số quỹ đạo di chuyển phổ biến của người được sửdụng trong [8] để xác định các khu vực không nằm trong vùng quan sát củacamera Các khu vực này sau đó được sử dụng để chọn những con đường tiềmnăng mà mọi người có thể đi, giới hạn các khu vực xuất hiện lại trong FOVcủa camera tiếp theo, mục đích là hạn chế ID lại, tránh trùng lặp dẫn đến sốlượng ID quá lớn

Cấu trúc liên kết của camera được xác định bằng tương quan các hoạtđộng giữa các camera với các FOV khác nhau và do đó không dựa vào thôngtin theo dõi Các FOV của camera được phân thành các khu vực trong đó cáckiểu dáng hoạt động tương tự nhau Mối quan hệ nhân quả theo không gian vàthời gian giữa các khu vực này trong các camera khác nhau được mô hình hóa

Trang 32

bằng phân tích tương quan chính tắc Ma trận biến đổi tuyến tính được sửdụng để suy ra các cấu trúc liên kết camera theo thời gian để hỗ trợ việc địnhdanh lại Một ý tưởng tương tự được đề xuất như sau: Ở đây, mối quan hệgiữa các hoạt động được học bằng cách sử dụng ước tính MAP Ước tính nàyđược cập nhật liên tục ngay sau mỗi lần Một đánh giá toàn diện về cácphương pháp ước tính cấu trúc liên kết camera được trình bày trong [9] vàmột nghiên cứu về khả năng mở rộng của ước tính cấu trúc liên kết được trìnhbày trong [10].

Hình 2.13 Các góc nhìn của 4 camera trước và sau khi được căn chỉnh theo mặt phẳng đất và tự động tính toán các điểm tương đồng giữa các chế độ xem

camera liền kề.

2.1.2 Phương pháp dựa trên hiệu chỉnh camera làm ngữ cảnh

Trong các phương pháp này, hiệu chỉnh camera hoặc homography đượckhai thác để trích xuất các đặc trưng riêng biệt cho mỗi đối tượng nhằm nângcao hiệu quả cho các bộ mô tả sử dụng cho định danh lại Trong một bức ảnhngười, chiều cao của người được chia thành ba phần từ trên xuống dưới theo

tỷ lệ quy định trước Mỗi vùng đó được đại diện bằng một màu sắc và được

mô tả kết cấu rõ ràng Việc kết hợp các vùng đó được sử dụng cho các tính

Trang 33

toán tương tự hình dáng của con người để đi đến kết quả là bài toán định danhlại Chiều cao cùng với màu quần áo và thân hình người được sử dụng nhưmột đặc trưng để thiết lập một sự so khớp (Hình 2 14).

Hình 2.14 Chia chiều cao của người trong 1 bức ảnh thành 3 phần với

những dáng khác nhau dùng trong định danh lại người.

Một bản đồ diện mạo toàn cảnh PAM (Panoramic Appearance Map) đềxuất trong [11] được sử dụng để trích xuất và kết hợp thông tin từ tất cả cáccamera thu hình đối tượng nhằm tạo ra dấu hiệu nhận biết một người Các tamgiác camera trong hệ thống camera được sử dụng để xác định vị trí của đốitượng và một mặt phẳng trụ được đặt tại vị trí của các camera này Một lướiphẳng có các thông số cụ thể được chiếu lên tất cả các camera nơi đối tượng

có thể nhìn thấy và các phần hình ảnh tương ứng được trích xuất Các đặctrưng hoặc màu pixel từ các phần hình ảnh được trích xuất này sẽ được tíchhợp để tạo thành PAM, sử dụng cho định danh lại (Hình 2 15)

Trang 34

Hình 2.15 Quá trình hình thành một PAM thử nghiệm với nhiều người mặc

quần áo màu sắc khác nhau.

Trục đối xứng của cơ thể mỗi người được phát hiện trong bài toán pháthiện người để so khớp mọi người qua góc nhìn của camera Một điểm mốcchung trên mặt đất của 2 camera được sử dụng để ước tính địa hình Giaođiểm giữa trục chính của một người trong tầm nhìn của một camera và trụcchính đã qua biến đổi bằng homography của một người trong tầm nhìn củacamera khác được sử dụng để tính toán mức độ so khớp giữa những người từcác camera khác nhau Mức độ so khớp này được sử dụng để tính khả năngtương ứng cho bài toán định danh lại Tuy nhiên, độ chính xác của việc pháthiện trục chính phụ thuộc vào sự phân chia chính xác hình dáng người cậncảnh và do đó dễ bị xảy ra lỗi, nhất là trong các cảnh đông đúc và phông nềnlộn xộn

Ngày nay, các công trình nghiên cứu đã cho ra đời một mô hình xử lýcác pixel 3D được trình bày trong [12] để phát hiện và biểu diễn cho việc sokhớp người Vị trí và hướng của mô hình 3D được xác định bằng cách sửdụng các thông tin theo dõi được và hiệu chỉnh camera Mỗi đỉnh của mô hìnhđược đại diện bởi một số đặc trưng cho sự xuất hiện, có thể kể đến như: biểu

Trang 35

đồ HSV, màu trung bình, chiều từ pháp tuyến đến đỉnh, tính duy nhất củađỉnh,…

Hình 2.16 Quá trình khởi tạo một mô hình 3D biểu diễn người.

2.2 Phương pháp phi ngữ cảnh

Ngoài hướng tiếp cận dựa theo ngữ cảnh, trong thời gian gần đây, một

số hướng tiếp cận khác đã được phát triển dựa hoàn toàn vào phân tích các

mô tả hình ảnh và không có thông tin ngữ cảnh bên ngoài nào được kết hợpvào để hỗ trợ quá trình so khớp Hướng tiếp cận này có thể được chia ra thành

2 loại chính là các phương pháp chủ động và phương pháp bị động Cácnghiên cứu thời gian gần đây đa số đều tập trung vào phương pháp phi ngữcảnh này Ngoài ra, còn một cách phân loại khác khá phổ biến cho hướng tiếpcận này đó là định danh dựa trên ảnh chụp đơn và định danh dựa trên ảnhchụp liên tiếp (nhiều ảnh) để tạo và xây dựng các mô tả ngoại hình Cácnghiên cứu đã cho ra đời khá nhiều kỹ thuật phi ngữ cảnh khác nhau dùngtrong bài toán định danh lại Chúng ta có thể tham khảo một số cách tiếp cận

Trang 36

nổi bật được trình bày trong Bảng 2 1 Các cách tiếp cận được phân biệt dựatrên loại đặc trưng mà chúng sử dụng chẳng hạn như việc kết hợp một haynhiều khung hình và kết hợp việc loại trừ các kết quả so khớp lỗi (hay nhậndạng các tính mới) trong quá trình so khớp các hình ảnh.

Bảng 2.1 Một số hướng tiếp cận phi ngữ cảnh cho bài toán định danh lại

Phương

pháp

Hướng tiếp cận

Thông tin cấu trúc

Ảnh sử dụng cho

mô tả

Đặc trưng

Loại bỏ các so khớp sai

Bị động

Mô hìnhkhông gian –thời gian

SDALF(SymmetryDrivenAccumulation

of LocalFeatures)

× Đơn/Nhiều Màu sắc/Kết cấu ×

SCR (SpatialCovarianceRegions)

Vị trí/Màusắc/Độdốc

×

Mô hình đa

BiCov(BiologicallyInspiredFeatures(BIF) andCovariancedescriptor)

√ Nhiều Màu sắc/Kết cấu ×

CPS (CustomPictorialStructure)

Học mô

tả (Ensemble ofELF

LocalizedFeatures)

sắc/Độdốc

×

Trang 37

PLF

(Phase-lockingFactor)

Màu sắc/

Kếtcấu/HOG(Histogra

m ofOrientedGradient)

×

Bối cảnh hình

Hìnhdáng/Màusắc/Kếtcấu/HOG

×

Định danh lại

Vị trí/Màusắc/Độdốc

×

Định danh lại

Vị trí/Màusắc/Kếtcấu

×

Học

phép đo

LMNN-R(LargeMarginNearestNeighborwithRejection)

Trang 38

RankSVM(RankingSupportVectorMachines)

Học ẩn danh(Impostorlearning)

2.2.1 Phương pháp bị động

Các hướng tiếp cận thuộc phương pháp này thường liên quan đến việcthiết kế các mô tả hình ảnh để đặc tả sự xuất hiện của người nào đó và so sánhchúng bằng cách tính toán các biện pháp tương tự nhau để đạt được kết quảcho bài toán định danh lại Phương pháp này được gọi là bị động vì chúngkhông dựa trên những kĩ thuật học giám sát hoặc không giám sát để trích xuất

và so khớp những mô tả

Một mô hình với các đặc trưng về hình dáng và màu sắc dựa trên sựxuất hiện của một người từ các blob đã được phát hiện được đề xuất trong[13] Các blob được phân thành nhiều cột và mô hình màu Gaussian với cácpixel đường biên được tính từ mỗi cột tạo thành mô tả (Hình 2 17)

Trang 39

Hình 2.17 Tính toán màu sắc và hình dạng dựa trên mô hình ngoại hình của

các blob đã được phát hiện.

Một phép so khớp được thiết lập bằng ba biện pháp tương tự và phép sokhớp tối ưu sẽ tối đa hóa tất cả các biện pháp tương tự Một thuật toán phânđoạn không gian dựa trên phân đoạn và phân vùng lưu vực đồ thị được sửdụng để phát hiện các cạnh không gian ổn định được gọi là edgels Sự xuấthiện của một người là sự kết hợp của các màu sắc (sắc độ và độ bão hòa).Biểu đồ edgels và biểu đồ tương quan được sử dụng để thiết lập sự so khớpgiữa các quan sát Một ứng dụng không giám sát về định danh lại người đượctrình bày trong [14], trong đó mục tiêu là tìm thấy tất cả sự xuất hiện củangười trong một chuỗi các bức ảnh được chụp trong một khoảng thời gianngắn Một cách tiếp cận hai bước được thực hiện, trong đó bước đầu tiên làxác định những người khác nhau xuất hiện trong các bức ảnh bằng cách thuthập các phát hiện khuôn mặt chính diện Việc thu thập dựa trên biểu đồ RGB

16 cột giá trị được trích xuất từ quần áo Trong bước thứ hai, các đặc điểmmàu sắc dựa trên cấu trúc hình ảnh được sử dụng để tìm từng người đượcđịnh danh trong bước trước đó, ngay cả trong các bức ảnh mà khuôn mặt

Trang 40

chính diện của họ không thể nhìn thấy Mỗi phần được xác định bởi cấu trúchình ảnh được biểu diễn bằng mô hình hỗn hợp Gaussian 5 thành phần Cáchtiếp cận này giả định rằng mỗi người đối diện với camera trong ít nhất mộtbức ảnh theo trình tự và mọi người có thể phân biệt bằng màu quần áo của họ.

Hình dáng của con người được thể hiện bằng hai đặc trưng ngoại hình

bổ sung trong [15] Đặc trưng đầu tiên là biểu đồ HSV mã hóa ngoại hìnhtổng thể trong khi các đặc điểm ngoại hình cục bộ được mã hóa bằng cách sửdụng một tập hợp các patch cục bộ dùng các phân tích epitomic Sự so khớpngoại hình xuất hiện được dựa trên tổng số điểm tương đồng về các đặc trưng.Các đặc trưng được trích xuất qua nhiều hình ảnh của một người và được gọi

là HPE (Histogram Plus Epitome) Hình chiếu của một người được chia thànhcác vùng đầu, thân và chân bằng cách phát hiện 2 trục đối xứng ngang và mộttrục đối xứng dọc Mỗi phần được mô tả bằng 3 đặc trưng, biểu đồ HSV cótrọng số, vùng màu ổn định tối đa MSCR (Maximally Stable Color Regions)

và các patch cục bộ có kết cấu cao Một lần nữa, việc so khớp ngoại hình khixuất hiện dựa trên tổng số điểm tương đồng về đặc trưng Một minh họa choviệc chia ảnh của một người thành các vùng đầu, thân và chân được trình bàytrong Hình 2 18 Theo đó, một trục dọc sẽ chia ảnh người thành 2 phần đốixứng nhau trong khi 2 trục ngang sẽ có nhiệm vụ phân tách các vùng đầu vàthân thành các vùng riêng biệt

Định dạng
Số trang	85
Dung lượng	9,09 MB