Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn

- Định nghĩa thành phần căn bản của bài toán là face-track và phát biểu hình thức bài toán Truy tìm nhân vật trong các kho dữ liệu video.. - Giới thiệu khái niệm phản hồi liên quan và cá

Trang 1

MỞ ĐẦU

Sự tiến bộ không ngừng của lĩnh vực ảnh và video số cùng với công nghệ máy tính đã đem lại cho con người một cuộc sống nhiều ý nghĩa hơn Ngày nay, người ta dễ dàng lưu trữ và chia sẻ những bộ sưu tập ảnh với hàng ngàn bức ảnh chất lượng cao, những thước phim hàng trăm giờ, mà không cần đến thiết bị chuyên dụng đắt tiền Song song với sự tiến bộ đó là quá trình bùng nổ dữ liệu số và kết quả

là hiện nay con người đang sống trong một biển thông tin đa phương tiện Thách thức đặt ra ở đây là: Làm thế nào để tìm được nội dung quan tâm trong các kho dữ liệu khổng lồ mà không phải bỏ ra hàng giờ vô ích? Đó chính là mục tiêu của bài toán chỉ mục và truy tìm trong lĩnh vực xử lí ảnh và video số

Nhân vật là đối tượng quan trọng trong dữ liệu video Ví dụ những đoạn video về George W Bush, Barack Obama, Saddam Hussein,… đều liên quan đến các thời điểm lịch sử quan trọng trên thế giới Nếu một ứng dụng có thể liệt kê ra những đoạn video có George W Bush xuất hiện trong 8 năm ở Nhà Trắng và trước

đó thì sẽ rất có ích cho các nhà nghiên cứu lịch sử, biên tập viên chương trình TV (xem Hình 0.1) Ngoài ra, từ các đoạn video có Bush xuất hiện, người ta có thể biết được những sự kiện quan trọng liên quan Ví dụ, sự kiện 11/09/2009 xảy ra trong lúc tổng thống đang thăm một trường tiểu học ở Florida Do đó, nhu cầu về một hệ thống có khả năng giúp con người truy tìm các tài liệu video liên quan đến một nhân vật cụ thể là cần thiết và đây là bài toán Truy tìm nhân vật mà các nhà nghiên cứu đã và đang không ngừng nỗ lực giải quyết

Với mục tiêu nghiên cứu giải pháp hiệu quả cho hệ thống Truy tìm nhân vật khi hoạt động trên các kho dữ liệu video lớn, luận văn đã tiến hành nghiên cứu đề tài “Một số kĩ thuật truy tìm nhân vật trong các kho dữ liệu video lớn” Cụ thể là: 1) Luận văn nghiên cứu và đề xuất một phương pháp so khớp mới, cho phép ước lượng độ tương tự giữa các đối tượng video với độ chính xác tương đương những phương pháp phổ biến hiện nay nhưng chi phí tính toán thấp hơn, 2) Hiện thực hóa

Trang 2

hệ thống Truy tìm nhân vật, có khả năng truy tìm nhanh và hiệu quả theo thời gian thực trên kho dữ liệu video lớn

Hình 0.1 Một ví dụ về hệ thống Truy tìm nhân vật

Người dùng tìm nhân vật George W Bush (trái) và hệ thống trả ra các bản tin liên quan (phải)

Cấu trúc luận văn được tổ chức như sau:

• Chương 1 – Bài toán Truy tìm nhân vật trong các kho dữ liệu video lớn

- Giới thiệu bài toán Truy tìm nhân vật trong các kho dữ liệu video, sự cần thiết phải giải quyết bài toán trong các kho dữ liệu lớn và khảo sát các hướng tiếp cận phổ biến để giải quyết bài toán

- Định nghĩa thành phần căn bản của bài toán là face-track và phát biểu hình thức bài toán Truy tìm nhân vật trong các kho dữ liệu video

- Trình bày ý tưởng của phương pháp so khớp mặt người k-Faces do luận văn đề xuất, nhằm đưa ra một giải pháp hiệu quả và nhanh chóng cho bài toán Truy tìm nhân vật

• Chương 2 – Hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn

- Trình bày mô hình hệ thống Truy tìm nhân vật trong các kho dữ liệu lớn do luận văn xây dựng: các thành phần trong hệ thống và mối liên kết hoạt động giữa các thành phần Đây là hệ thống Truy tìm nhân vật hoàn chỉnh có khả năng truy tìm nhanh và chính xác trên dữ liệu video lớn, được tích hợp phản hồi liên quan từ người dùng giúp tinh chỉnh kết quả truy tìm tốt hơn Hệ thống là một framework gồm nhiều

Trang 3

mô đun hoạt động độc lập, phục vụ cho mục tiêu nghiên cứu đánh giá các đặc trưng, phương pháp so khớp khác nhau mà không cẩn phải xây dựng từ đầu một hệ thống mới

- Các kĩ thuật tiền xử lí cho bài toán Truy tìm nhân vật: phát hiện ranh giới shot, phát hiện mặt người và kĩ thuật rút trích face-track

- Các kĩ thuật quan trọng đóng vai trò then chốt cho hệ thống Truy tìm nhân vật: đặc trưng biểu diễn mặt người Local Binary Pattern, các phương pháp so khớp mặt người phổ biến Phần này trình bày chi tiết

về phương pháp đề xuất k-Faces

- Giới thiệu khái niệm phản hồi liên quan và cách thức ứng dụng trong

hệ thống Truy tìm nhân vật

• Chương 3 – Kết quả thực nghiệm và đánh giá: trong chương này, luận văn vận dụng hệ thống Truy tìm nhân vật đã được đề xuất để thực hiện các thực nghiệm và đánh giá, bao gồm:

- So sánh hiệu quả của phương pháp so khớp dựa trên đại diện k-Faces

và các phương pháp so khớp face-track phổ biến khác

- Kiểm chứng khả năng cải thiện độ chính xác truy tìm khi có phản hồi liên quan từ người dùng

Kết luận và hướng phát triển: trình bày các ý tổng kết cho luận văn và hướng phát triển trong tương lai

Trang 4

Mục lục

LỜI CẢM ƠN i

Mục lục ii

Danh mục các bảng v

Danh mục các hình vẽ, đồ thị vi

MỞ ĐẦU 1

Chương 1 BÀI TOÁN TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN 4

1.1. Giới thiệu bài toán 4

1.2. Định nghĩa face-track 6

1.3. Phát biểu bài toán 7

1.4. Các hướng tiếp cận giải quyết bài toán 8

1.5. Đề xuất phương pháp so khớp mặt người k-Faces 12

Chương 2 HỆ THỐNG TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN 14

2.1. Mô hình hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn 14 2.2. Các kĩ thuật tiền xử lí 17

2.2.1. Kĩ thuật phát hiện ranh giới video shot 17

2.2.2. Kĩ thuật phát hiện mặt người 18

2.3. Kĩ thuật rút trích face-track từ điểm theo vết 20

2.4. Đặc trưng biểu diễn mặt người 21

2.5. Các phương pháp so khớp face-track 23

2.5.1. Phương pháp so khớp dựa trên toàn bộ face-track 23

Trang 5

2.5.2. Phương pháp so khớp dựa trên đại diện 25

2.5.3. Phương pháp k-Faces 26

2.6. Truy tìm và trả kết quả 27

2.7. Kết hợp phản hồi liên quan từ người dùng 27

Chương 3 THỬ NGHIỆM VÀ ĐÁNH GIÁ 31

3.1. Dữ liệu thực nghiệm 31

3.2. Tiêu chuẩn đánh giá 32

3.3. Các kĩ thuật áp dụng và tham số 33

3.3.1. Kĩ thuật tách biên video shot 33

3.3.2. Kĩ thuật phát hiện mặt người 34

3.3.3. Phương pháp rút trích face-track 34

3.3.4. Đặc trưng biểu diễn mặt người 35

3.3.5. Phương pháp so khớp face-track 35

3.4. Kết quả thực nghiệm và thảo luận 35

3.4.1. So sánh k-Faces với các phương pháp so khớp face-track khác 35

3.4.2. Kiểm chứng vai trò của phản hồi liên quan từ người dùng 45

3.5. Kết luận và hướng phát triển 47

PHỤ LỤC A – CÁC KĨ THUẬT TIỀN XỬ LÍ CHO BÀI TOÁN TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN 50

I. Kĩ thuật phát hiện ranh giới video shot 50

A. Hiệu số điểm ảnh 50

B. Hiệu số thống kê 51

C. Histograms 51

D. Hiệu số độ nén 52

Trang 6

E. Theo vết cạnh 52

F. Vectơ chuyển động 52

II. Kĩ thuật phát hiện mặt người Viola-Jones 53

A. Đặc trưng Haar 54

B. Ảnh tích phân 55

C. Bộ phân lớp nhiều tầng 56

D. Thuật toán AdaBoost 57

III. Kĩ thuật rút trích face-track từ điểm theo vết 58

PHỤ LỤC B – LOCAL BINARY PATTERNS (LBP) 61

I. Bất biến theo mức xám 62

II. Bất biến theo phép quay 63

III. Cải thiện bất biến theo phép quay với các mẫu đồng nhất và phép lượng hoá mịn hơn của không gian góc quay 65

TÀI LIỆU THAM KHẢO 67

Trang 8

Danh mục các hình vẽ, đồ thị

Hình 0.1 Một ví dụ về hệ thống Truy tìm nhân vật 2

Hình 1.1 Sự đa dạng về biểu cảm, tư thế, điều kiện chiếu sáng và tình trạng che khuất của mặt người 5

Hình 1.2 Cách thức xây dựng face-track từ tập hợp mặt trong video shot 6

Hình 1.3 Bài toán Truy tìm nhân vật trong các kho dữ liệu video 8

Hình 1.4 Xây dựng đồ thị liên kết từ câu truy vấn 9

Hình 1.5 Sự cùng xuất hiện của nhân vật truy tìm và “bạn bè” 10

Hình 1.6 Sự lệch pha giữa thông tin văn bản và thông tin thị giác 10

Hình 1.7 So khớp chuỗi mặt người theo phương pháp BFVS và CP 12

Hình 1.8 Ý tưởng so khớp của phương pháp so khớp k-Faces 13

Hình 2.1 Mô hình hệ thống Truy tìm nhân vật được đề xuất 16

Hình 2.2 Ví dụ một cảnh phim có chứa nhiều shot 17

Hình 2.3 Kĩ thuật phát hiện mặt người xác định các vùng mặt có trong ảnh 18

Hình 2.4 Bộ phát hiện mặt người Viola-Jones 19

Hình 2.5 Phát sinh các điểm quan tâm mới khi xuất hiện khuôn mặt mới 20

Hình 2.6 Toán tử LBP 21

Hình 2.7 Tập láng giềng đối xứng tròn của các giá trị (P, R) khác nhau 22

Hình 2.8 Mặt lần lượt được chia thành 7×7, 5×5, 3×3 vùng hình chữ nhật 23

Hình 2.9 Cách xác định khoảng cách dựa trên gom nhóm liên kết đơn 24

Hình 2.10 Cách xác định khoảng cách dựa trên gom nhóm liên kết trung bình 25

Hình 2.11 Phương pháp so khớp dựa trên đại diện (đại diện là mặt nằm giữa) 25

Hình 2.12 Ý tưởng của phương pháp so khớp k-Faces (ảnh minh họa khi k = 3) 27

Hình 2.13 Ví dụ về ứng dụng có sử dụng phản hồi liên quan 28

Hình 2.14 Cải thiện danh sách xếp hạng dựa trên phản hồi người dùng bằng phương pháp trộn theo giá trị nhỏ nhất và trộn theo giá trị trung bình 30

Hình 3.1 Dữ liệu video tin tức TRECVID 31

Hình 3.2 Cấu trúc XML biểu diễn thông tin của một shot 33

Trang 9

Hình 3.3 Biểu đồ Precision-Recall của các phương pháp: Min-Min, k-Faces (k =

5), AvgMin và Single Face 36

Hình 3.4 Ví dụ về sự hạn chế của phương pháp Single Face 38

Hình 3.5 Ví dụ về sự hạn chế của phương pháp Avg-Min 39

Hình 3.6 Ví dụ về sự hạn chế của phương pháp Min-Min 40

Hình 3.7 Hiệu quả của k-Faces phụ thuộc vào chất lượng của tập ảnh con 40

Hình 3.8 Độ chính xác MAP của k-Faces với nhiều giá trị k khác nhau 41

Hình 3.9 Chi phí tính toán của k-Faces với nhiều giá trị k khác nhau 42

Hình 3.10 Độ chính xác MAP của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means 43

Hình 3.11 Chi phí tính toán của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means 44

Hình 3.12 Chi phí tính toán của phương pháp k-Faces khi chia đoạn đều nhau so với kết hợp gom nhóm k-means 44

Hình 3.13 Kết hợp phản hồi liên quan có thể cải thiện chất lượng truy tìm 46

Hình A - 1 Bộ phát hiện mặt người Viola-Jones 53

Hình A - 2 Các dạng đặc trưng Haar cơ bản 54

Hình A - 3 Các dạng đặc trưng Haar mở rộng từ đặc trưng Haar cơ bản 55

Hình A - 4 Cách tính ảnh tích phân theo tham chiếu 4 điểm 56

Hình A - 5 Ví dụ bộ phân lớp nhiều tầng 56

Hình A - 6 Thuật toán AdaBoost 57

Hình A - 7 Thuật toán rút trích face-track của Ngo et al 60

Hình A - 8 Phát sinh các điểm quan tâm mới khi xuất hiện khuôn mặt mới 60

Hình B - 1 Tập láng giềng đối xứng tròn của các giá trị (P, R) khác nhau 62

Hình B - 2 Ba mươi sáu mẫu nhị phân bất biến theo phép quay phân biệt có thể xuất hiện trong tập lân cận đối xứng tròn của ri R LBP8, 64

Trang 10

Chương 1 BÀI TOÁN TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN

1.1 Giới thiệu bài toán

Truy tìm nhân vật trong các kho dữ liệu video lớn là một trong những bài toán quan trọng của lĩnh vực xử lí ảnh và video số Mục tiêu nghiên cứu của bài toán là: đề xuất giải pháp tìm kiếm hiệu quả và nhanh chóng các đoạn video trong những cơ sở dữ liệu kích thước lớn sao cho nhân vật trong đó phù hợp với yêu cầu

truy vấn Một cách cụ thể, cho kho dữ liệu D có kích thước lớn (từ vài trăm đến vài

ngàn giờ video), gồm nhiều đoạn video chứa những nhân vật khác nhau, người dùng

muốn tìm nhân vật X, làm thế nào để tìm trong D các đoạn video chứa X một cách

chính xác theo thời gian thực?

Bài toán ra đời xuất phát từ mối quan tâm của con người đối với những nhân vật đặc biệt và sự kiện liên quan Ví dụ, nhà hoạt động chính trị quan tâm đến nhiệm kì tổng thống của George W Bush sẽ tìm các bản tin liên quan đến Bush, hoặc người hâm mộ diễn viên Julia Roberts muốn tìm những trích đoạn phim có cô xuất hiện Bên cạnh đó, việc tìm ra các đoạn video có sự hiện diện của một nhân vật còn giúp ta biết được các sự kiện quan trọng liên quan Ví dụ từ những đoạn video chứa George W Bush hoặc Saddam Hussein, ta có thể nắm được diễn tiến cuộc chiến tranh tại Iraq và động thái của hai bên

Đối tượng chính được nghiên cứu trong bài toán Truy tìm nhân vật là mặt người (face) Mặt người là thông tin quan trọng trong video, đặc biệt với các chương trình tin tức, kịch, và phim ảnh Bằng cách rút trích chuỗi mặt người từ

video, ta có thể đưa vào thực tế các ứng dụng như Truy tìm mặt người, Chú thích mặt người và Đánh chỉ mục video Tuy nhiên, đây là một nhiệm vụ đầy thử thách do mặt người có độ đa dạng cao về tư thế, điều kiện chiếu sáng, tình trạng che khuất, kiểu tóc và biểu cảm (xem Hình 1.1) [23]

Trang 11

Hình 1.1 Sự đa dạng về biểu cảm, tư thế, điều kiện chiếu sáng và tình trạng che khuất

của mặt người

Bài toán Truy tìm nhân vật trên ảnh tĩnh thông thường được giải quyết bằng cách ước lượng độ tương tự của mặt trong kho dữ liệu với mặt truy vấn Ta cũng có thể áp dụng phương pháp tương tự khi xử lí trên video Thế nhưng do mặt người có

độ đa dạng cao, đặc biệt là trong dữ liệu thực tế, việc sử dụng mặt đơn lẻ có thể đem lại kết quả không như ý Một nghiên cứu gần đây của Berg et al [3] cho thấy hiệu suất nhận dạng giảm đáng kể từ 80-90% xuống còn 25-30% khi sử dụng dữ liệu ảnh thực tế trích từ bản tin Internet thay vì dữ liệu được tạo trong điều kiện kiểm soát tốt Để tăng hiệu quả của các ứng dụng truy tìm và nhận dạng mặt người, ta cần có nhiều trạng thái khuôn mặt khác nhau cho một nhân vật [1][7][26] Video có thể cung cấp cho chúng ta những tập dữ liệu như thế Như vậy, muốn giải quyết tốt bài toán Truy tìm nhân vật trên dữ liệu video, không chỉ xét một mặt đơn lẻ mà phải sử dụng tập hợp các trạng thái mặt khác nhau Trên thực tế, nhiều công trình đương đại trong lĩnh vực video số đã phát triển theo hướng tiếp cận này [7][20][24]

Bên cạnh đó, nhờ sự phát triển của công nghệ máy tính, việc hình thành các kho dữ liệu ảnh và video lớn trở nên dễ dàng hơn bao giờ hết đối với người dùng

Có khá nhiều tập dữ liệu được công bố trong cộng đồng nghiên cứu nhận dạng mặt

người, chẳng hạn như NIST/FERET (http://www.itl.nist.gov), CMU/MOBO (http://www.ri.cmu.edu) và Honda/UCSD (http://vision.ucsd.edu/~leekc/) Tuy

nhiên, dữ liệu xây dựng trong phòng thí nghiệm thường không thể hiện được hết sự

đa dạng trong thế giới thực và số lượng mặt giới hạn ở mức vài ngàn Người ta hướng đến những dạng dữ liệu thực tế như bản tin truyền hình, phim truyện…, với thời lượng tính ở mức hàng trăm giờ video và số lượng mặt lên đến vài trăm ngàn

Trang 12

hoặc vài triệu, chẳng hạn như tập dữ liệu tin tức TRECVID (2004→2006: 370 giờ video, 20 triệu ảnh khuôn mặt), NHK (2001→2009: 1500 giờ), BBC… Điều này dẫn đến tình trạng một số giải pháp truy tìm truyền thống sẽ trở nên không hiệu quả

đối với dữ liệu khổng lồ Do đó cần thiết phải có những công cụ hiệu quả và mạnh

mẽ để đánh chỉ mục và truy tìm trong những kho dữ liệu khổng lồ đó Hơn nữa, các

công cụ này phải có khả năng xử lí thông tin thị giác để đưa đến người dùng những kết quả ý nghĩa hơn [12] Bài toán còn có vai trò đặc biệt quan trọng khi ta muốn xây dựng một hệ thống Truy tìm nhân vật có thể vận hành trong thực tế, nơi mà độ chính xác và tốc độ là hai yếu tố được đặt lên hàng đầu

1.2 Định nghĩa face-track

Như đã đề cập trong phần 1.1, phát hiện và nhận dạng mặt người là bài toán đầy thử thách trong lĩnh vực thị giác máy tính và nhận dạng mẫu vì tính đa dạng của mặt người với những thay đổi về tư thế, biểu cảm, điều kiện chiếu sáng và tình trạng che khuất Hầu hết công trình nghiên cứu tập trung trên ảnh tĩnh hơn là video Một nghiên cứu gần đây của Berg et al cho thấy hiệu suất nhận dạng giảm đáng kể

từ 80-90% xuống còn 25-30% khi sử dụng dữ liệu ảnh thực tế trích từ bản tin Internet thay vì dữ liệu được tạo trong điều kiện kiểm soát tốt [3] Để tăng hiệu quả của các ứng dụng truy tìm và nhận dạng mặt người, ta cần có nhiều trạng thái khuôn mặt khác nhau cho một nhân vật [1][7][26] Video có thể cung cấp cho chúng ta

những tập dữ liệu như thế, ta gọi đó là face-track

Hình 1.2 Cách thức xây dựng face-track từ tập hợp mặt trong video shot

Trang 13

Cho trước một tập khuôn mặt thuộc một video shot Tập mặt này được phát hiện bởi một bộ dò tìm mặt người tùy ý, ví dụ bộ dò tìm mặt người Viola-Jones

trong thư viện OpenCV [29] Face-track là tập hợp các khuôn mặt sao cho chỉ thuộc một người duy nhất và được sắp xếp theo thứ tự thời gian xuất hiện (xem

hình 1.2) Do rất khó phát hiện mặt nhìn nghiêng, đặc biệt là trong video, nên chủ yếu chỉ có mặt chính diện được xử lí

1.3 Phát biểu bài toán

Bài toán Truy tìm nhân vật trong các kho dữ liệu video là một trong những bài toán dạng Truy tìm thông tin phổ biến Mục tiêu chính của bài toán là đề xuất giải pháp truy tìm hiệu quả và nhanh chóng các đoạn video trong cơ sở dữ liệu kích thước lớn sao cho nhân vật trong đó phù hợp với yêu cầu truy vấn Điều này càng

có ý nghĩa khi cơ sở dữ liệu của chúng ta là những kho video với kích thước khổng

lồ Một cách cụ thể, hệ thống Truy tìm nhân vật cần có công cụ hiệu quả để ước lượng độ tương tự giữa những đối tượng video trong cơ sở dữ liệu và đối tượng video truy vấn Đối tượng video có thể là toàn bộ tài liệu video, video shot, hoặc chuỗi mặt rút trích từ video shot…Luận văn tập trung giải quyết bài toán trong

phạm vi đối tượng video là face-track, chuỗi mặt rút trích từ video shot theo từng

nhân vật, vì đã có nhiều đặc trưng tốt để biểu diễn mặt người (ví dụ PCA, LBP…), trong khi đó, vẫn chưa có đặc trưng đủ tốt để biểu diễn toàn bộ khung hình (frame) nên khó có thể so khớp tổng quát trên khung hình Ngoài ra, luận văn đặt giả thiết

chỉ xử lí mặt chính diện do đã có bộ phát hiện khuôn mặt đủ mạnh để làm điều này

Cho trước cơ sở dữ liệu video gồm tập hợp các face-track của nhiều nhân vật khác nhau Gọi Q là face-track truy vấn, lần lượt ước lượng độ tương tự s i giữa

Q và các face-track F i trong cơ sở dữ liệu Kết quả trả ra là danh sách L = {F 1 ’,

F 2 ’,…, F m ’}, với m là số lượng face-track liên quan cần trả về, F i ’ là face-track liên quan, sao cho L được sắp xếp theo thứ tự giảm dần (hoặc tăng dần) của độ tương

tự s i (xem Hình 1.3)

Trang 14

Hình 1.3 Bài toán Truy tìm nhân vật trong các kho dữ liệu video

1.4 Các hướng tiếp cận giải quyết bài toán

Có nhiều hướng tiếp cận khác nhau để giải quyết bài toán Truy tìm nhân vật dựa trên khuôn mặt Hướng tiếp cận thứ nhất kết hợp thông tin văn bản, ví dụ lời chú thích của bức ảnh hay kịch bản nói trong video, với thông tin thị giác D Ozkan

và P Duygulu [18] dùng câu truy vấn giới hạn không gian tìm kiếm dựa trên quan sát: nhân vật thường xuất hiện trên video xung quanh thời điểm người này được nhắc đến trong kịch bản Tiếp đó, xây dựng đồ thị liên kết các mặt trong không gian tìm kiếm, với mỗi nút là mặt và trọng số cạnh nối các nút là độ tương tự giữa các mặt (xem Hình 1.4) Bằng cách giả thiết rằng số mặt của nhân vật cần tìm lớn hơn nhiều so với của những người khác và chúng hình thành tập con tương đồng nhau nhất trong số những mặt tìm được, bài toán được xem là tương đương với bài toán tìm đồ thị con có mật độ dày nhất từ đồ thị đầy đủ Cuối cùng, nhóm tác giả sử dụng kết quả này để nhận diện mặt mới Mặc dù kết quả thực nghiệm đã chứng minh hiệu quả của phương pháp này, nhưng người ta vẫn đặt nghi vấn liệu rằng đồ thị con có mật độ dày nhất có mô tả được một cách trực quan mọi mặt liên quan đến nhân vật truy vấn hay không Hơn nữa, chọn ngưỡng tối ưu để chuyển đồ thị ban đầu thành

đồ thị nhị phân là tác vụ khó và hơi khác thường do giới hạn về số chiều không

Trang 15

gian Trong [14], tác giả tinh chỉnh tập kết quả truy tìm bằng cách mở rộng câu truy vấn ban đầu nhằm xác định các mẫu âm (nhận diện sai) và tách chúng ra khỏi tập

kết quả Khi tìm một nhân vật A, ta không chỉ xét các đoạn video chứa A mà còn xét những đoạn video có “bạn bè” của A (người thường xuyên cùng xuất hiện với A)

(xem Hình 1.5) Kết quả truy tìm trên truy vấn mở rộng cho phép ta loại bỏ những mẫu trong tập kết quả gốc có độ tương tự cao với kết quả truy vấn mở rộng Ví dụ, giả sử trong các lời chú thích chứa nhân vật truy vấn Tony Blair, George Bush và Gordon Brown cùng xuất hiện thường xuyên Bằng cách mở rộng truy vấn trên đối tượng George Bush và Gordon Brown, ta có thể loại những chuỗi mặt trong tập kết quả ban đầu rất giống với chuỗi mặt khi truy vấn George Bush hay Gordon Brown

Hình 1.4 Xây dựng đồ thị liên kết từ câu truy vấn

Hướng tiếp cận thứ nhất có ưu điểm là kết hợp thông tin văn bản để tăng độ chính xác truy tìm Tuy nhiên, văn bản không phải lúc nào cũng sẵn sàng, đặc biệt

là đối với những kho dữ liệu lớn Một trở ngại khác là văn bản nhiều lúc không trùng khớp với khung hình, dẫn đến hậu quả là đoạn video tương ứng không chứa người nào hoặc còn có sự xuất hiện của người khác nhưng không được ghi nhận Hình 1.6 cho ta ví dụ về sự lệch pha giữa thông tin văn bản và thông tin thị giác Ở hình bên trái, Hillary Clinton được đề cập trong văn bản nhưng không thể rút trích mặt để nhận dạng vì nhân vật đứng quay lưng về phía ống kính; tương tự, hình bên phải, văn bản đề cập tổng thống George W Bush và phó tổng thống Dick Cheney nhưng trên ảnh tương ứng lại là Nhà Trắng Những trở ngại khách quan từ tình

Trang 16

trạng sẵn sàng của dữ liệu văn bản đã khiến cho các phương pháp theo hướng này mất đi ít nhiều tính tổng quát

Hình 1.5 Sự cùng xuất hiện của nhân vật truy tìm và “bạn bè”

Nhân vật truy vấn được đánh dấu bằng chữ in nghiêng, các nhân vật phát hiện được có tên

in đậm và các hình chữ nhật xác định vùng mặt đã phát hiện

Hình 1.6 Sự lệch pha giữa thông tin văn bản và thông tin thị giác

Hướng tiếp cận thứ hai giải quyết bài toán dựa trên thông tin thị giác So với hướng thứ nhất, các phương pháp thuộc hướng thứ hai có khả năng áp dụng rộng rãi hơn do không bị giới hạn bởi yêu cầu dữ liệu văn bản Trong [24], Satoh và Katayama đề xuất hai phương pháp so khớp mặt người sử dụng chuỗi mặt: Best Frontal View Selection (BFVS) và Closest Pair (CP) (xem Hình 1.7) Phương pháp BFVS chọn cho mỗi chuỗi mặt một mặt chính diện nhất và xem khoảng cách giữa hai ảnh chính diện này là khoảng cách của hai chuỗi mặt tương ứng Tuy nhiên, phương pháp này tồn tại những vấn đề cố hữu: không thể phân biệt mặt phi chính

Trang 17

diện và không xử lí được sự đa dạng về biểu cảm Trong khi đó, CP dựa trên ý tưởng: khi hai chuỗi mặt thuộc cùng một người, cặp mặt gần nhau nhất sẽ tương tự nhau về tư thế, biểu cảm,… Phương pháp này hoạt động tốt trong đa số trường hợp vì: 1) Mỗi chuỗi mặt chỉ thuộc về một người duy nhất, 2) Chuỗi mặt đủ đa dạng về

tư thế, biểu cảm để tồn tại một cặp mặt gần nhau nhất có đặc điểm tương tự nhau Trong [23], Satoh đề xuất một số phương pháp so khớp mặt người áp dụng cho video bằng cách mở rộng so khớp mặt trên ảnh tĩnh, các kĩ thuật nhận dạng mẫu truyền thống và tiên tiến A Hadid và M Pietikäinen [9] đưa ra phương pháp rút trích mẫu đại diện sử dụng LLE (Local Linearly Embedding), đồng thời thực nghiệm so sánh tác động của yếu tố độ dài chuỗi mặt người và chất lượng ảnh lên hai dạng biểu diễn thông tin: 1) Kết hợp không gian và thời gian, 2) Dựa trên ảnh tĩnh Phương pháp phổ biến nhất hiện nay là dựa trên khoảng cách min-min, trong

đó khoảng cách giữa hai chuỗi mặt được ước lượng bằng khoảng cách của cặp mặt trùng khớp nhau nhất Phương pháp này có khả năng so khớp chuỗi mặt người với

độ chính xác cao, tuy nhiên, do phải ước lượng khoảng cách cho mọi cặp mặt nên chi phí tính toán vô cùng lớn Sự cân bằng về độ chính xác và chi phí tính toán là vấn đề nan giải khi xây dựng hệ thống Truy tìm nhân vật trong thực tế

Bên cạnh đó, vẫn chưa có nhiều công trình đề cập đến vấn đề so khớp mặt người đối với các tập dữ liệu kích thước lớn Những công trình hiện nay thường chỉ được kiểm chứng trên dữ liệu nhỏ, không đủ tính tổng quát Ví dụ, Sivic et al [25] xây dựng một hệ thống Truy tìm nhân vật cho hai bộ phim “Groundhog Day” và

“Pretty Woman” Hiệu quả của phương pháp đề xuất được đánh giá trên 38.846 mặt

từ phim “Pretty Woman” Everingham et al [7] sử dụng hai phần trong phim truyền hình nhiều tập “Buffy the Vampire Slayer” với tổng số mặt là 49.477; Berg et al [4] xây dựng tập dữ liệu gồm 34.623 mặt từ 44,777 mặt trích từ ảnh tin tức của Yahoo News Công trình toàn diện nhất là của Ramanan et al [20], gồm 11 năm phim truyền hình nhiều tập Friend, 611.770 mặt với sự đa dạng về tuổi, cân nặng, kiểu tóc… Tuy nhiên, giới hạn của công trình này ở chỗ số nhân vật quá ít, chỉ có 6 nhân vật chính thường xuất hiện

Trang 18

Hình 1.7 So khớp chuỗi mặt người theo phương pháp BFVS và CP

1.5 Đề xuất phương pháp so khớp mặt người k-Faces

Một hệ thống Truy tìm nhân vật muốn có khả năng truy tìm chính xác và nhanh chóng thì cần có bộ ước lượng độ tương tự giữa các đối tượng (trong ngữ cảnh này là face-track) hiệu quả Các phương pháp so khớp phổ biến hiện nay có độ chính xác chấp nhận được nhưng chi phí tính toán lại quá lớn, ví dụ phương pháp min-min (xem Phần 1.4) phải xét khoảng cách của toàn bộ các cặp mặt giữa hai chuỗi mặt để chọn ra cặp có khoảng cách nhỏ nhất Trở ngại này khiến cho các hệ thống Truy tìm nhân vật khó có thể hoạt động tốt theo thời gian thực Luận văn nghiên cứu và đề xuất phương pháp so khớp mặt người k-Faces, có khả năng ước lượng sự tương tự với độ chính xác tương đương nhưng vẫn duy trì chi phí tính toán

ở mức thấp Luận văn chọn đi theo hướng tiếp cận thứ hai, chỉ sử dụng thông tin thị giác, nhằm đề ra phương pháp có thể áp dụng tổng quát trên mọi dữ liệu, độc lập với yêu cầu văn bản hỗ trợ

Trang 19

k-Faces có khả năng ước lượng chính xác trong khi vẫn duy trì chi phí tính toán thấp Để truy tìm hiệu quả, các mặt của cùng một người xuất hiện trong từng shot được gom thành một face-track bằng một phương pháp theo vết đáng tin cậy Quá trình truy tìm được thực hiện bằng cách ước lượng độ tương tự giữa face-track trong cơ sở dữ liệu và face-track truy vấn Với mỗi face-track, ta chọn một đại diện

và độ tương tự giữa hai face-track là độ tương tự giữa hai đại diện tương ứng (xem

Hình 1.8) Mặt đại diện là giá trị trung bình của một tập con gồm k ảnh, được chọn

ra từ tập các mặt ban đầu trong face-track Theo cách này, phương pháp có thể giải quyết được sự đa dạng của mặt người đồng thời giảm bớt số phép tính khoảng cách giữa các mặt Phương pháp đề xuất có độ chính xác tương đương với các phương pháp phổ biến theo hướng tiếp cận xét toàn bộ face-track, trong khi chi phí thấp hơn rất nhiều (tốc độ nhanh hơn khoảng 6.500 lần)

Hình 1.8 Ý tưởng so khớp của phương pháp so khớp k-Faces

k-Faces có khả năng hoạt động trên dữ liệu kích thước lớn do ưu thế về mặt chi phí tính toán Phương pháp đã chứng tỏ được hiệu quả khi thực nghiệm trên cơ

sở dữ liệu lớn TRECVID gồm 370 giờ video với 20 triệu mặt (150.000 face-track) Đây là cơ sở dữ liệu có kích thước lớn nhất mà những công trình từ trước đến nay chưa đề cập đến, do đó, nó đủ để kiểm chứng khả năng hoạt động của phương pháp

đề xuất trên các kho dữ liệu video lớn

Phương pháp k-Faces sẽ được trình bày chi tiết về cách chọn đại diện trong trong Chương 2, mục 2.5.3

Trang 20

Chương 2 HỆ THỐNG TRUY TÌM NHÂN VẬT TRONG CÁC KHO DỮ LIỆU VIDEO LỚN

Trong phần này luận văn xây dựng một hệ thống Truy tìm nhân vật trong các kho dữ liệu video lớn Mục tiêu của việc xây dựng hệ thống là cung cấp cho người dùng một ứng dụng Truy tìm nhân vật hiệu quả và nhanh chóng trên dữ liệu thực tế kích thước lớn Bên cạnh đó, nhờ vào thiết kế dạng mô đun riêng rẽ, hệ thống còn là một framework tổng quát cho phép đánh giá hiệu quả của các phương pháp truy tìm nhân vật khác nhau, cũng như tác động của việc lựa chọn đặc trưng Hệ thống được tich hợp thêm chức năng phản hồi liên quan, sử dụng thông tin đánh giá liên quan/không liên quan của người dùng trên kết quả trả về để tinh chỉnh lại danh sách xếp hạng face-track liên quan

2.1 Mô hình hệ thống Truy tìm nhân vật trong các kho dữ

liệu video lớn

Hệ thống Truy tìm nhân vật được đề xuất có cấu trúc được tổ chức như sau:

• Đầu vào: face-track truy vấn Q

• Đầu ra: danh sách L chứa các face-track liên quan được xếp hạng giảm dần (hoặc tăng dần) theo mức độ tương tự với truy vấn Q

• Cơ sở dữ liệu: là tập hợp các face-track của nhiều nhân vật khác nhau

• Bao gồm hai mô đun chính là mô đun tiền xử lí và mô đun xử lí trung tâm

• Mô đun tiền xử lí: được thực thi khi dữ liệu đầu vào không đáp ứng yêu cầu của hệ thống, cụ thể là video nguyên bản thay vì face-track

- Bước 1 – Phát hiện ranh giới shot: tách shot từ video nguyên bản bằng các phương pháp phát hiện ranh giới shot, ví dụ: histograms, hiệu số điểm ảnh

Trang 21

- Bước 2 – Phát hiện mặt người: áp dụng bộ phát hiện mặt người, ví

dụ bộ phát hiện mặt người Viola-Jones của thư viện OpenCV, để xác định tất cả khuôn mặt có trong từng video shot

- Bước 3 – Rút trích face-track: xây dựng face-track từ tập hợp mặt phát hiện được ở bước 2 sao cho mỗi face-track chỉ chứa mặt của của cùng một nhân vật, bằng cách áp dụng những phương pháp hiệu quả như [7], [16]

• Mô đun xử lí trung tâm: thực hiện các bước chủ chốt nhằm giải quyết bài toán Truy tìm nhân vật, bao gồm rút trích đặc trưng biểu diễn face-track, ước lượng độ tương tự giữa các face-track và xây dựng danh sách xếp hạng trả về cho người dùng

- Bước 4 – Rút trích đặc trưng: sử dụng đặc trưng thị giác, ví dụ PCA, Local Binary Pattern, Color Moments, để biểu diễn mặt người Mỗi

vectơ đặc trưng đa chiều biểu diễn một mặt, như vậy face-track có N mặt sẽ được biểu diễn bằng một tập hợp gồm N vectơ đặc trưng

- Bước 5 – So khớp face-track: được thực hiện trên đối tượng vectơ đặc trưng, thay vì ảnh nguyên thủy Khoảng cách giữa hai mặt là khoảng cách giữa hai vectơ đặc trưng tương ứng Độ tương tự của face-track trong cơ sở dữ liệu và face-track truy vấn được đánh giá bằng khoảng cách (theo độ đo Euclide, Manhattan…) giữa hai face-track Lưu ý rằng độ đo sự tương tự khác nhau về bản chất so với độ

đo khoảng cách, hai face-track có khoảng cách càng nhỏ thì độ tương

tự càng lớn và ngược lại

- Bước 6 – Xây dựng danh sách xếp hạng cách face-track liên quan: Căn cứ vào độ tương tự đối với truy vấn, các face-track trong cơ sở

dữ liệu được sắp xếp theo thứ tự giảm dần của độ tương tự, m

face-track liên quan đầu tiên được chọn trả về cho người dùng

Trang 22

Hình 2.1 Mô hình hệ thống Truy tìm nhân vật được đề xuất

Trang 23

2.2 Các kĩ thuật tiền xử lí

2.2.1 Kĩ thuật phát hiện ranh giới video shot

Shot là một chuỗi gồm các khung hình liên tiếp nhau từ một máy quay [5]

Như vậy, một đoạn phim chuyển cảnh qua lại giữa hai người sẽ chứa nhiều shot khác nhau (xem Hình 2.2) Cảnh là tập hợp của một hay nhiều shot liền nhau, tập trung vào một hay nhiều đối tượng được quan tâm Ví dụ, một người đi dọc hành lang bước vào phòng là một cảnh, mặt dù trong đó có thể có nhiều góc quay Ba shot chiếu ba người khác nhau đi dọc hành lang cũng có thể là một cảnh nếu đối tượng quan trọng là hành lang chứ không phải người

(a)

(b)

Hình 2.2 Ví dụ một cảnh phim có chứa nhiều shot

a) Cảnh phim về cuộc đối thoại giữa nhân vật nam (A) và nhân vật nữ (B) (b) Ranh giới shot được xác định tại mỗi thời điểm chuyển góc quay từ A sang B và ngược lại.

Có nhiều dạng chuyển trạng thái, hay còn gọi là ranh giới shot, khác nhau

- Cut là chuyển shot đột ngột, chỉ xảy ra trong một khung hình

- Fade là chuyển biến chậm về độ sáng, thường sẽ kết thúc hoặc bắt đầu bằng một khung hình toàn màu đen

- Dissolve xuất hiện khi ảnh của shot thứ nhất mờ đi và ảnh của shot thứ hai sáng lên, các khung hình trong quá trình chuyển biến cho thấy ảnh của shot này chồng lên ảnh của shot kia

- Wipe xuất hiện khi các điểm ảnh từ shot thứ hai thay thế điểm ảnh của shot thứ nhất theo một mẫu thông dụng, ví dụ đường thẳng từ cạnh trái của khung hình

Trang 24

- Ngoài ra còn có nhiều dạng chuyển shot dần dần khác

Để giải quyết bài toán phát ranh giới video shot, ta có các phương pháp phổ biến như: hiệu số điểm ảnh, hiệu số thống kê, histograms, hiệu số độ nén, theo vết cạnh và vectơ chuyển động [5] Trong đó histograms là phương pháp phổ biến nhất

do đặc tính cài đặt đơn giản nhưng lại có khả năng giữ cân bằng tốt giữa độ chính xác và tốc độ [31]

2.2.2 Kĩ thuật phát hiện mặt người

Phát hiện mặt người (face detection) là kỹ thuật xác định vị trí và kích thước của mặt người trong một ảnh Nó phát hiện các chi tiết thuộc về mặt và bỏ qua những thứ khác như tòa nhà, cây cối, và thân người (xem Hình 2.3)

Hình 2.3 Kĩ thuật phát hiện mặt người xác định các vùng mặt có trong ảnh

Trước khi kĩ thuật boosting ra đời, sử dụng mạng nơron để phát hiện mặt người là phương pháp tiên tiến nhất [21] Phương pháp này có độ chính xác cao nhưng bù lại thời gian xử lí cho một ảnh khoảng 320×240 điểm ảnh có thể mất đến vài giây Phương pháp của Paul Viola và Michael Jones [29], bằng cách tận dụng boosting, đã làm giảm thời gian phát hiện đáng kể, chỉ trong mức mili giây Bộ phát hiện mặt người Viola-Jones hoạt động trên nguyên tắc bộ phân lớp nhiều tầng Vùng ảnh nào đi qua hết các bộ phân lớp sẽ được nhận dạng là mặt người, ngược lại, nếu thất bại tại một bước bất kì, vùng ảnh đó không phải mặt người (xem Hình

Trang 25

2.4) Ngoài ra, những kĩ thuật trước Viola-Jones chỉ tập trung xử lí mặt chính diện, trong khi đó, Viola-Jones có khả năng xử lí khá tốt cả mặt nhìn nghiêng

Hình 2.4 Bộ phát hiện mặt người Viola-Jones

Phương pháp phát hiện mặt người Viola-Jones kết hợp bốn kĩ thuật chính:

• Đặc trưng hình chữ nhật đơn giản, được gọi là đặc trưng Haar

• Ảnh tích phân (integral image) để tính toán đặc trưng nhanh chóng

• Bộ phân lớp nhiều tầng để kết hợp một cách hiệu quả nhiều đặc trưng

• Thuật toán máy học AdaBoost của Freund và Schapire

Các yếu tố này kết hợp thành một hệ tổng thể, bộ phát hiện mặt người Jones Trong [29], nhóm tác giả đã tiến hành thực nghiệm trên máy tính Pentium III 700MHz, bộ phát hiện mặt người Viola-Jones có thể xử lí một ảnh 384×288 trong khoảng 0,067 giây, nhanh hơn gấp 15 lần bộ phát hiện mặt người Rowley-Baluja-Kanade [21], và nhanh hơn 600 lần so với bộ Schneiderman-Kanade Trong khi đó, phương pháp Viola-Jones cũng đạt độ chính xác tương đương hoặc cao hơn những những công trình cùng đề tài Hiện nay, phương pháp này đã được cài đặt tích hợp trong bộ thư viện OpenCV và trở thành một công cụ đắc lực cho các nhà nghiên cứu bài toán phát hiện mặt người

Trang 26

Viola-2.3 Kĩ thuật rút trích face-track từ điểm theo vết

Có nhiều hướng tiếp cận khác nhau để gom nhóm các mặt thành face-track

Ví dụ, Sivic et al theo vết mọi vùng khuôn mặt và liên kết chúng để gom nhóm [26] Phương pháp này chính xác nhưng đòi hỏi chi phí tính toán cao Để giảm chi phí tính toán trong khi vẫn duy trì được độ chính xác, trong phương pháp do Everingham et al đề xuất [7], nhóm tác giả sử dụng các điểm theo vết (tracked point) thu được từ bộ theo vết Kanade-Lucas-Tomasi (KLT) Tuy nhiên, face-track rút trích từ phương pháp này có thể bị phân mảnh vì điểm theo vết rất nhạy cảm với

sự thay đổi chiếu sáng, tình trạng che khuất và lỗi phát hiện mặt sai Ngo et al [16]

đã xử lí thành công những trường hợp này Tác giả dùng điểm theo vết để gom nhóm các biểu cảm khuôn mặt khác nhau được phát hiện từ một chuỗi video thành face-track Thay vì phát sinh điểm quan tâm (interest point) tại một khung hình nào

đó và theo vết chúng qua nhiều khung hình của chuỗi đầu vào, tác giả tính toán và

bù số điểm mất đi do bị che khuất và xuất hiện mặt mới (xem Hình 2.5) Để tránh theo vết sai do thay đổi ánh sáng đột ngột, một bộ phát hiện đèn flash được sử dụng

để phát hiện các khung hình bị chói flash rồi loại chúng khỏi quá trình gom nhóm

Hình 2.5 Phát sinh các điểm quan tâm mới khi xuất hiện khuôn mặt mới

Khuôn mặt mới xuất hiện trong khung hình giữa

Phương pháp này đã chứng tỏ khả năng hoạt động mạnh mẽ và hiệu quả thông qua thực nghiệm trên nhiều chuỗi video dài khác nhau, bao gồm 340.844 mặt Kết quả này (94,17%) vượt trội so với của Everingham et al (81,19%) [7] Do đó, luận văn chọn phương pháp của Ngo et al làm phương tiện rút trích face-track từ video để cung cấp dữ liệu đầu vào cho hệ thống Truy tìm nhân vật được đề xuất

Trang 27

2.4 Đặc trưng biểu diễn mặt người

Luận văn sử dụng đặc trưng Local Binary Pattern (LBP) để biểu diễn mặt

trong face-track Local Binary Pattern (LBP) là toán tử phi tham số mô tả cấu trúc

không gian cục bộ của ảnh Ojala et al [17] là người đầu tiên đề ra toán tử và chứng

minh rằng toán tử có năng lực phân biệt cao, là phương pháp thích hợp để biểu diễn

vân (texture) Tại một vị trí điểm ảnh cho trước (x c , y c), LBP được định nghĩa là một

tập hợp có thứ tự gồm các so sánh nhị phân về cường độ điểm ảnh giữa điểm ảnh

trung tâm và 8 điểm ảnh xung quanh nó (Hình 2.6) Giá trị thập phân của từ 8-bit

(mã LBP) có thể được biểu diễn như sau:

, (

n

n c n c

c y s i i x

trong đó i c ứng với mức xám tại điểm ảnh trung tâm (x c , y c ), i n là các mức xám của 8

điểm ảnh xung quanh, và hàm s(x) được định nghĩa là

0,1)(

x

x x

Theo định nghĩa, toán tử LBP không bị ảnh hưởng bởi biến đổi đơn điệu về

độ xám, là biến đổi bảo toàn thứ tự cường độ điểm ảnh trong một lân cận cục bộ

Do đó, không cần chuẩn hóa mức xám trước khi áp dụng toán tử LBP

Hình 2.6 Toán tử LBP

Sau đó, Ojala et al [17] mở rộng toán tử LBP để xử lí các vùng lân cận có

kích cỡ khác nhau Một cách tổng quát, toán tử LBPP, R chỉ vùng lân cận gồm P

điểm ảnh phân bố đều trên một hình tròn bán kính R, tạo thành tập láng giềng đối

xứng tròn (xem Hình 2.7) Người ta chứng minh được rằng một số bin chứa nhiều

thông tin hơn những bin khác Do đó, ta có thể chỉ cần sử dụng một tập con của 2P

Trang 28

mẫu nhị phân để biểu diễn vân ảnh Ojala et al [17] định nghĩa những mẫu cơ bản (còn gọi là mẫu “đồng nhất”) là mẫu có số lần chuyển bit từ 0 sang 1, hay ngược lại, thấp Tích lũy các mẫu có nhiều hơn hai bước chuyển vào một bin đơn sẽ tạo ra một

bộ LBP descriptor, kí hiệu là 2

,

u R P

LBP , nhỏ hơn 2 P bin

Nhờ khả năng phân biệt vân và chi phí tính toán rất thấp, LBP trở nên ngày càng phổ biến trong lĩnh vực nhận dạng mẫu, được ứng dụng cho các bài toán phát hiện mặt người, nhận dạng mặt người, truy tìm ảnh, phát hiện chuyển động, …

Hình 2.7 Tập láng giềng đối xứng tròn của các giá trị (P, R) khác nhau

Giá trị điểm ảnh được nội suy nếu những điểm này không nằm ngay tâm của điểm ảnh

LBP là một trong những đặc trưng thường được sử dụng để biểu diễn mặt người Để áp dụng toán tử LBP lên mặt người, ảnh khuôn mặt được chia thành nhiều vùng nhỏ (xem Hình 2.8) Với mỗi vùng, một histogram lũy tích gồm các mã LBP, được tính tại mỗi vị trí điểm ảnh trong vùng, được sử dụng như là một vectơ đặc trưng Trong luận văn, ảnh đầu vào được chia thành các ảnh con bằng lưới 3×3, tiếp đó, áp dụng toán tử LBP các ảnh con này và tính toán 59-bin histogram Cuối cùng, ta có được một vectơ đặc trưng gồm 531 chiều (59 bin × 3 × 3)

Trang 29

Hình 2.8 Mặt lần lượt được chia thành 7×7, 5×5, 3×3 vùng hình chữ nhật

PCA không được sử dụng để biểu diễn mặt vì muốn sử dụng phương pháp này, ta cần xác định chính xác các điểm đặc trưng mạnh cho khuôn mặt, ví dụ mắt, mũi, và miệng, để thực hiện chuẩn hóa Thế nhưng chi phí xây dựng các bộ phát hiện điểm đặc trưng mạnh như thế cho dữ liệu video thực tế vô cùng tốn kém

(Xem lý thuyết về đặc trưng LBP trong Phụ lục B – Local Binary Pattern)

2.5 Các phương pháp so khớp face-track

Mục tiêu chính của bài toán Truy tìm nhân vật là tìm ra các face-track liên quan nhiều nhất với truy vấn, tức là những face-track chứa cùng nhân vật với truy vấn Để thực hiện điều này, ta cần có phương pháp phù hợp để ước lượng mức độ tương tự giữa face-track và truy vấn Hai hướng tiếp cận phổ biến để ước lượng độ tương tự giữa các face-track là: so khớp dựa trên toàn bộ face-track và so khớp dựa trên đại diện Hướng tiếp cận thứ nhất có khả năng ước lượng hiệu quả nhờ tận dụng thông tin của toàn bộ face-track và do xét mọi cặp mặt giữa hai face-track nên chi phí tính toán vô cùng lớn Trong khi đó, phương pháp sử dụng đại diện có độ chính xác thấp hơn, nhưng chi phí tính toán nhỏ hơn nhiều lần, phù hợp với mục tiêu xây dựng hệ thống Truy tìm nhân vật theo thời gian thực

2.5.1 Phương pháp so khớp dựa trên toàn bộ face-track

Các phương pháp tính độ tương đồng giữa hai face-track thường được xây dựng dựa trên ý tưởng gom nhóm trong lĩnh vực máy học, ví dụ như gom nhóm tích

tụ phân cấp Xem mỗi face-track là một cụm, mặt trong face-track là phần tử thuộc

Trang 30

cụm tương ứng và khoảng cách giữa các cụm là khoảng cách giữa những face-track

Dưới đây là hai tiêu chí khoảng cách thường được sử dụng cho các phương pháp so

khớp dựa trên toàn bộ face-track:

2.5.1.1 Khoảng cách dựa trên gom nhóm liên kết đơn

Khoảng cách giữa hai cụm (face-track) là khoảng cách nhỏ nhất giữa các

) ,

(

0 , 0 , , f F i N j M i j F

f B

F

D

B j A

i∈ ∈ ≤ < ≤ <

Hình 2.9 Cách xác định khoảng cách dựa trên gom nhóm liên kết đơn

2.5.1.2 Khoảng cách dựa trên gom nhóm liên kết trung bình

Khoảng cách giữa hai cụm (face-track) là khoảng cách trung bình giữa các

phần tử (mặt) thuộc mỗi cluster

Gọi F A = {f0, f2, …, fN-1} và F B = {f0, f2, …, fM-1} lần lượt là hai face-track

j i B

A B

F F F

F

D

0 0

) , (

1 )

,

trong đó f i và f j lần lượt là mặt thuộc face-track F A và F B

Trang 31

Hình 2.10 Cách xác định khoảng cách dựa trên gom nhóm liên kết trung bình

Các phương pháp so khớp dựa trên toàn bộ face-track có chi phí tính toán khổng lồ do phải ước lượng khoảng cách của mọi cặp phần tử giữa hai face-track Ý tưởng sử dụng phần tử đại diện được đề xuất nhằm giải quyết vấn đề này

Một trong những cách đơn giản và trực quan nhất là chọn mặt nằm giữa track làm đại diện (xem Hình 2.10) Lựa chọn này dựa trên quan điểm: face-track là một chuỗi mặt được sắp xếp theo thứ tự thời gian, mặt nằm giữa face-track sẽ có độ khác biệt (tư thế, độ chiếu sáng…) ít nhất so với mặt ở hai đầu face-track Tuy nhiên, phương pháp này tỏ ra không hiệu quả khi face-track có độ đa dạng cao

face-Hình 2.11 Phương pháp so khớp dựa trên đại diện (đại diện là mặt nằm giữa)

Trang 32

2.5.3 Phương pháp k-Faces

Phương pháp k-Faces được đề xuất dựa trên ý tưởng chọn đại diện nhằm giảm thiểu chi phí tính toán, cung cấp một giải pháp có hiệu quả cao với chi phí tính toán thấp để ước lượng độ tương tự giữa những face-track; k-Faces có khả năng khắc phục nhược điểm về độ chính xác của nhóm độ đo dựa trên đại diện: hiệu quả kém khi face-track có độ đa dạng cao

Ý tưởng tổng quát: với mỗi face-track ta chọn một đại diện; độ tương tự giữa hai face-track là độ tương tự giữa hai đại diện của mỗi face-track (xem Hình 1.8) Mặt đại diện là “mặt trung bình” của một tập con rút ra từ tập mặt ban đầu trong face-track Một cách cụ thể, phương pháp k-Faces định nghĩa khoảng cách giữa hai face-track là khoảng cách giữa hai mặt đại diện

Để chọn mặt đại diện cho face-track, k-Faces thực hiện các bước sau:

1 Chia face-track thành k đoạn dựa theo chiều dài của face-track (số lượng ảnh trong face-track) Ví dụ, với k = 5, face-track F có 100 ảnh

sẽ được chia thành 5 đoạn, mỗi đoạn 20 ảnh

2 Với mỗi đoạn, chọn mặt nằm giữa làm đại diện cho đoạn Như vậy ta

thu được một tập con gồm k mặt từ tập mặt ban đầu trong face-track

3 Tính mặt trung bình từ tập con gồm k ảnh Lưu ý rằng mặt trung bình

(hay mặt đại diện) có thể không phải là ảnh khuôn mặt thật sự Nó được định nghĩa là một “mặt” có vectơ đặc trưng được tính toán bằng

cách lấy trung bình các vectơ đặc trưng của k mặt từ bước trên

4 Cuối cùng, tính khoảng cách Euclide giữa hai “mặt trung bình” Việc tính trung bình nhiều mặt khác nhau có thể trung hòa sự đa dạng của face-track và nhờ thế tạo ra mặt đại diện tốt hơn Theo đó, ta có thể truy tìm với độ chính xác cao trong khi vẫn giữ chi phí tính toán ở

mức thấp Hình 2.11 là ví dụ về cách thức chọn mặt đại diện với k = 3

Trang 33

Hình 2.12 Ý tưởng của phương pháp so khớp k-Faces (ảnh minh họa khi k = 3).

2.6 Truy tìm và trả kết quả

Sau khi chọn được phương pháp ước lượng độ tương tự phù hợp, ta áp dụng

độ đo này vào hệ thống Truy tìm nhân vật để tìm ra những face-track liên quan nhất đến truy vấn Cho trước một face-track truy vấn, hệ thống lần lượt tính độ tương tự của truy vấn với mỗi face-track trong cơ sở dữ liệu, tiếp đó trả về danh sách các láng giềng gần nhất (face-track liên quan nhất) cho người dùng, được xếp hạng theo thứ tự giảm dần (tăng dần) của độ tương tự Để xây dựng danh sách láng giềng gần nhất, ta có thể sử dụng các kĩ thuật đơn giản như tìm kiếm tuyến tính Bên cạnh đó,

kĩ thuật đánh chỉ mục LSH (Local Sensitive Hashing) cũng được sử dụng, tuy cài đặt phức tạp nhưng có tốc độ nhanh hơn

2.7 Kết hợp phản hồi liên quan từ người dùng

Khái niệm phản hồi liên quan xuất phát từ lĩnh vực truy tìm thông tin Đầu tiên, phản hồi liên quan chỉ áp dụng trên văn bản, sau đó được đưa vào bài toán truy tìm ảnh dựa trên nội dung trong những năm 1990 và trở thành một kĩ thuật phổ biến trong các ứng dụng truy tìm dựa trên nội dung của lĩnh vực xử lí ảnh và video số [32] Điều này không lạ vì ảnh nhập nhằng hơn văn bản, và tương tác của người dùng cũng cần thiết hơn Với phương pháp phản hồi liên quan, người dùng có thể

Trang 34

face-track A -track B, nằ

a A, thì bằn

ch xếp hạng

là face-tracsắp xếp theo

ời dùng chovấn mới, ti

Ví dụ về ứng

h có liên qu

y tìm nhân vhản hồi liên

sở dữ liệu c

mẫu mới c

m hiện tại Thép quá trìn

và đặc trưn

ủa [33]

g dụng có sử uan đến chủ

vật trong cá

n quan từ n

ợc triển kharong danh sáanh sách xếp

ai dựa trên ách xếp hạn

n đến truy v

y truy tìm , các ảnh m

i liên quan thấp Hiện

hồi liên qua

t bài

họn ô

ăn đề truy

ck B

C liên

trong nằm

track face-

m R i

hạng nhất

Trang 35

1 Trộn theo giá trị nhỏ nhất: Phần tử xuất hiện trong hai hay nhiều danh sách sẽ nhận giá trị độ tương tự (hay khoảng cách) bằng giá trị nhỏ

nhất trong các danh sách mà nó xuất hiện Ví dụ, face-track X xuất hiện trong danh sách L với Sim L (X) = 0,185529 và danh sách L 1 với

Sim L1 (X) = 0,242641 Vậy độ tương tự của X trong L’ là Sim L’ (X) =

= (0,185529 + 0,242641) / 2 = 0,214085

Kết quả thực nghiệm cho thấy hai phương pháp tái xây dựng danh sách xếp hạng face-track liên quan, dựa trên phản hồi của người dùng, có thể giúp hệ thống tinh chỉnh kết quả truy tìm tốt hơn

Trở lại hệ thống Truy tìm nhân vật được trình bày trong Phần 2.1 (xem Hình 2.1), khi kết hợp thêm phản hồi liên quan từ người dùng, hệ thống sẽ thực thi bước cuối cùng như sau:

Bước 7 – Nhận phản hồi liên quan và tái sắp xếp danh sách sắp hạng:

Hệ thống nhận phản hồi liên quan từ người dùng đánh giá trên kết quả sắp hạng được đề nghị, tiếp đó xử lí phản hồi để nhận được danh sách các face-track liên quan cần đưa vào làm truy vấn phụ Với từng face-track truy vấn

Định dạng
Số trang	70
Dung lượng	4,4 MB