1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo xử lý ảnh cơ sở dữ liệu nhận dạng

11 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Cơ Sở Dữ Liệu Nhận Dạng Khuôn Mặt
Tác giả Nguyễn Quốc Việt
Người hướng dẫn Lê Thái Hoàng
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Xử lý ảnh
Thể loại báo cáo
Năm xuất bản 2021
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 11
Dung lượng 486,96 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một trong những cách để thực hiện điều này là so sánh các đặc điểm khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về khuôn mặt 1 Hệ thống này thường được sử dụng trong các hệ th

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH

BÀI BÁO CÁO

Môn: Xử lý ảnh

Đề tài

CSDL CỦA NHẬN DIỆN

KHUÔN MẶT

Lớp: D18CQCN01-N Giảng viên: Lê Thái Hoàng

Họ và Tên:Nguyễn Quốc Việt

Mã SV: D18DCCN244

THÀNH PHỐ HỒ CHÍ MINH NĂM 2021

Mục lục

I Tổng quan về xử lý ảnh

Trang 2

1 2 Ứng

dụng 1

II Giới thiệu đề tài 1 III Cơ sở dữ liệu của nhận dạng khuôn mặt 2

1.Face Recognit Grand Challenge (FRGC) database 2 2 FERET database 4 3 Pose Illumination Expression (PIE) database 5 4 AR database……… 6 5 Yale

Face database………….……… 8

IV Đánh giá:

9 V Tài liệu tham khảo

9

I Tổng quan về xử lý ảnh

1 Khái niệm

Xử lý ảnh là đối tượng nghiên cứu của lĩnh vực thị giác máy, là quá trình biến đổi từ một ảnh ban đầu sang một ảnh mới với các đặc tính và tuân theo ý muốn của người sử dụng Xử lý ảnh có thể gồm quá trình phân tích, phân lớp các đối tượng, làm tăng chất lượng, phân đoạn và tách cạnh, gán nhãn cho vùng hay quá trình biên dịch các thông tin hình ảnh của ảnh

2 Ứng dụng

Ngày nay xử lý ảnh đã được áp dụng rất rộng rãi trong đời sống như:

photoshop, nén ảnh, nén video, nhận dạng biển số xe, nhận dạng khuôn mặt,

nhận dạng chữ viết, xử lý ảnh thiên văn, ảnh y tế,.…

Ảnh dải ngân hà trước và sau xử lý ảnh

II Giới thiệu đề tài

Trong bối cảnh phát triển công nghệ mạnh mẽ, các thiết bị sử dụng thuật toán

xử lý ảnh được sử dụng phổ biến, với nhiều mục đích khác nhau Dùng cho các hệ thống bảo mật như dò vân tay, giọng nói, giác mạc mắt đến các thiết bị an ninh,

Trang 3

truy tìm tội phạm , và một trong những phương pháp phổ biến đó là xử lý ảnh nhận diện khuôn mặt

Hệ thống nhận dạng khuôn mặt là một ứng dụng máy tính tự động xác định hoặc nhận dạng một người nào đó từ một bức hình ảnh kỹ thuật số hoặc một khung hình video từ một nguồn video Một trong những cách để thực hiện điều này là so sánh các đặc điểm khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về

khuôn mặt

1

Hệ thống này thường được sử dụng trong các hệ thống an ninh và có thể

được so sánh với các dạng sinh trắc học khác như các hệ thống nhận dạng vân tay hay tròng mắt

III Cơ sở dữ liệu của nhận dạng khuôn mặt

Một số cơ sở dữ liệu khuôn mặt có sẵn công khai cho cộng đồng nghiên cứu sử dụng để phát triển thuật toán, cung cấp một điểm chuẩn tiêu chuẩn khi báo cáo kết quả

Các cơ sở dữ liệu khác nhau được thu thập để giải quyết một loại thách thức hoặc các biến thể khác nhau như độ chiếu sáng, tư thế, khớp cắn, v.v

Một số cơ sở dữ liệu tiêu chuẩn bao gồm PIE , FERET, FRGC, Yale và AR

1.Face Recognit Grand Challenge (FRGC) database

Trang 4

1.1 Tổng quan về FRGC

Không phải từ giữa những năm 1990, người ta mới quan tâm đến việc phát triển các phương pháp mới để nhận dạng khuôn mặt tự động Mối quan tâm mới mẻ này đã được thúc đẩy bởi những tiến bộ trong kỹ thuật thị giác máy tính, thiết kế máy tính, thiết kế cảm biến và quan tâm đến việc hỗ trợ các hệ thống nhận dạng khuôn mặt Các kỹ thuật này hứa hẹn sẽ giảm tỷ lệ lỗi trong hệ thống nhận dạng khuôn mặt theo cấp độ so với kết quả của Bài kiểm tra nhà cung cấp nhận dạng khuôn mặt (FRVT) năm 2002 The Face Recognition Grand Challenge (FRGC) được thực hiện với nỗ lực thực hiện lời hứa về những kỹ thuật mới này

1.2 Cấu trúc của FRGC

2

Có ba khía cạnh của FRGC sẽ mới đối với cộng đồng nhận dạng khuôn mặt Khía cạnh đầu tiên là kích thước của FRGC về mặt dữ liệu Tập dữ liệu FRGC chứa 50.000 bản ghi Khía cạnh thứ hai là sự phức tạp của

FRGC Các bộ dữ liệu nhận dạng khuôn mặt trước đây đã bị hạn chế đối với ảnh tĩnh FRGC sẽ bao gồm ba chế độ: hình ảnh tĩnh có độ phân giải cao, hình ảnh 3D và nhiều hình ảnh của một người

Khía cạnh mới thứ ba là cơ sở hạ tầng Cơ sở hạ tầng cho FRGC sẽ được cung cấp bởi Môi trường Thí nghiệm Sinh trắc học (BEE), một khuôn khổ dựa trên XML để mô tả và ghi lại các thí nghiệm tính toán BEE sẽ cho phép mô tả và phân phối các thí nghiệm ở một định dạng chung, ghi lại các kết quả thô của một thí nghiệm ở một định dạng chung, phân tích và trình bày các kết quả thô ở một định dạng chung và tài liệu về định dạng thí nghiệm ở một định dạng chung Đây là lần đầu tiên môi trường thử nghiệm tính toán hỗ trợ một vấn đề thách thức trong nhận dạng khuôn mặt hoặc sinh trắc học

1.3 Tập dữ liệu FRGC

Phân phối dữ liệu FRGC bao gồm ba phần Đầu tiên là tập dữ liệu FRGC Phần thứ hai là FRGC BEE Phân phối BEE bao gồm tất cả các bộ

dữ liệu để thực hiện và cho điểm của sáu thử nghiệm Phần thứ ba là tập hợp các thuật toán cơ bản cho các thí nghiệm từ 1 đến 4 Với cả ba thành phần, có thể chạy các thí nghiệm từ 1 đến 4, từ việc xử lý các hình ảnh thô

để tạo ra các Đặc tính Hoạt động của Máy thu (ROC)

Dữ liệu cho FRGC bao gồm 50.000 bản ghi được chia thành các phân vùng đào tạo và xác nhận Phân vùng huấn luyện được thiết kế cho các

Trang 5

thuật toán huấn luyện và phân vùng xác nhận là để đánh giá hiệu suất của một phương pháp tiếp cận trong môi trường phòng thí nghiệm Phân vùng xác thực bao gồm dữ liệu từ 4.003 phiên chủ đề Phiên chủ đề là tập hợp tất

cả các hình ảnh của một người được chụp mỗi khi dữ liệu sinh trắc học của một người được thu thập và bao gồm bốn hình ảnh tĩnh được kiểm soát, hai hình ảnh tĩnh không được kiểm soát và một hình ảnh ba chiều Các hình ảnh được kiểm soát được chụp trong bối cảnh studio, là hình ảnh toàn bộ khuôn mặt trực diện được chụp trong hai điều kiện ánh sáng và với hai biểu cảm khuôn mặt (tươi cười và trung tính) Các hình ảnh không được kiểm soát được chụp trong các điều kiện ánh sáng khác nhau; ví dụ: hành lang, nhĩ thất hoặc bên ngoài Mỗi bộ ảnh không kiểm soát có hai biểu cảm, tươi cười và trung tính Hình ảnh 3D được chụp trong điều kiện ánh sáng được kiểm soát Hình ảnh 3D bao gồm cả phạm vi và hình ảnh kết cấu Hình ảnh 3D được thu thập bởi cảm biến dòng Minolta Vivid 900/910

Phân phối FRGC bao gồm sáu thử nghiệm

3

-Trong thử nghiệm 1, bộ sưu tập bao gồm một hình ảnh tĩnh được kiểm soát duy nhất của một người và mỗi đầu dò bao gồm một hình ảnh tĩnh được kiểm soát duy nhất Thí nghiệm 1 là thí nghiệm đối chứng Thí

nghiệm 2 nghiên cứu ảnh hưởng của việc sử dụng nhiều ảnh tĩnh của một người đối với hiệu suất Trong thí nghiệm 2, mỗi mẫu sinh trắc học bao gồm bốn hình ảnh được kiểm soát của một người được chụp trong một phiên chủ đề Ví dụ: bộ sưu tập bao gồm bốn hình ảnh của mỗi người trong

đó tất cả các hình ảnh được chụp trong cùng một phiên chủ đề Tương tự như vậy, một đầu dò bây giờ bao gồm bốn hình ảnh của một người

-Thử nghiệm 3 đo hiệu suất của nhận dạng khuôn mặt 3D Trong thí nghiệm 3, bộ sưu tập và bộ thăm dò bao gồm các hình ảnh 3D của một người Thử nghiệm 4 đo hiệu suất nhận dạng từ các hình ảnh không được kiểm soát Trong thử nghiệm 4, bộ sưu tập bao gồm một hình ảnh tĩnh được kiểm soát duy nhất và bộ đầu dò bao gồm một hình ảnh tĩnh không kiểm soát duy nhất

-Thí nghiệm 5 và 6 kiểm tra việc so sánh hình ảnh 3D và 2D Trong cả hai thử nghiệm, bộ sưu tập bao gồm các hình ảnh 3D Trong thí nghiệm 5,

bộ đầu dò bao gồm một tĩnh được điều khiển duy nhất Trong thí nghiệm 6,

bộ đầu dò bao gồm một tĩnh không được kiểm soát

Trang 6

ẢNH MINH HỌA

2 FERET database

Tổng quan về FERET

Trước FRGC, NIST đã tổ chức cơ sở dữ liệu FERET và đánh giá giao thức để tạo điều kiện phát triển các hệ thống nhận dạng khuôn mặt thương mại

Cơ sở dữ liệu FERET được thiết kế để đo lường hiệu suất của khuôn

mặtcác thuật toán nhận dạng trên cơ sở dữ liệu lớn trong cài đặt thực tế FERETchương trình cung cấp một cơ sở dữ liệu lớn về hình ảnh khuôn mặt được chụp từ 1.199 cá nhân và được thu thập từ tháng 8 năm 1993 đến tháng 7 năm 1996 để hỗ trợ thuật toán phát triển và đánh giá

4

Cơ sở dữ liệu FERET bao gồm 14.126 hình ảnh trong tổng số 1.564 bộ (1.199 bộ gốc và 365 bộ trùng lặp) Vì mục đích phát triển, 503 bộ hình ảnh đã được phát hành cho các nhà nghiên cứu, và phần còn lại các tập hợp

đã được cô lập để đánh giá độc lập

3 Pose Illumination Expression (PIE) database

3.1 Giới thiệu

Mọi người trông rất khác nhau tùy thuộc vào một số yếu tố Có lẽ 3 yếu tố quan trọng nhất là: (1) tư thế; tức là góc mà bạn nhìn họ, (2) điều kiện ánh sáng vào thời điểm đó, và (3) nét mặt của họ; ví dụ mỉm cười, cau mày, v.v Mặc dù một số cơ sở dữ liệu khuôn mặt khác tồn tại với một số lượng lớn các đối tượng và với sự thay đổi tư thế và ánh sáng đáng

kể.Nhưng vẫn cần một cơ sở dữ liệu bao gồm một số lượng khá lớn các đối tượng, mỗi đối tượng được chụp một số lượng lớn của thời gian, từ một số

tư thế khác nhau, dưới sự thay đổi ánh sáng đáng kể và với nhiều cách thể hiện nên PIE được tạo ra để giải quyết vấn đề đó

3.2 Thí nghiệm

*Tư thế chụp:

Để có được hình ảnh của một người từ nhiều tư thế yêu cầu nhiều máy ảnh chụp ảnh đồng thời hoặc nhiều “bức ảnh” được chụp liên tiếp (hoặc kết

Trang 7

hợp cả hai.) Có một số lợi ích của việc sử dụng nhiều máy ảnh: (1) quá trình này diễn ra ít hơn thời gian, (2) nếu các máy ảnh được cố định trong không gian, thì tư thế (tương đối) là giống nhau đối với mọi đối tượng và sẽ

ít khó khăn hơn trong việc định vị đối tượng để có được một tư thế cụ thể, (3) nếu chúng ta biết các ảnh được chụp đồng thời rằng các điều kiện hình ảnh (tức là chiếu sáng tới, v.v.) đều giống nhau

*Hệ thống đèn chiếu sáng :

Để có được sự thay đổi đáng kể về độ chiếu sáng, Phòng 3D được mở rộng với “hệ thống đèn flash” tương tự như Yale Dome được sử dụng để thu thập dữ liệu

Thí nghiệm đã sử dụng một bo mạch đầu ra kỹ thuật số Advantech PCL-734, 32 kênh để điều khiển 21 đèn flash Minolta 220X Bo mạch Advantech có thể được kết nối trực tiếp với "hot-shoe" của đèn flash Sau

đó, việc tạo xung trên một trong các kênh đầu ra sẽ làm cho đèn flash tương ứng tắt Thí nghiệm đã đặt bo mạch Advantech vào một trong 17 máy tính được sử dụng để chụp ảnh trong Phòng 3D và tích hợp mã điều khiển đèn flash vào quy trình chụp ảnh để đèn flash, thời lượng xấp xỉ 1ms, xuất hiện trong khi cửa trập (thời lượng xấp xỉ 16ms) đang mở Sau đó, thí nghiệm đã sửa đổi mã chụp ảnh để một đèn flash lần lượt tắt cho mỗi ảnh được chụp Sau đó, thí nghiệm có thể chụp được 21 hình ảnh, mỗi hình ảnh có độ chiếu sáng khác nhau Vị trí của các đèn flash, được đo bằng máy kinh vĩ được đưa vào siêu dữ liệu cơ sở dữ liệu, cùng với vị trí của camera

5

Trong thế giới thực, sự chiếu sáng thường bao gồm ánh sáng xung quanh với một hoặc hai nguồn điểm Để có được hình ảnh đại diện của những trường hợp như vậy (thích hợp hơn để xác định mức độ mạnh mẽ của thuật toán nhận dạng khuôn mặt đối với sự thay đổi ánh sáng), chúng tôi quyết định chụp ảnh cả khi đèn phòng bật và tắt Thí nghiệm quyết định bao gồm các hình ảnh khi đèn tắt để tạo ra một số chồng chéo một phần với

cơ sở dữ liệu

3.3 Nội dung của cơ sở dữ liệu:

Trung bình toàn bộ quy trình chụp mất khoảng 10 phút cho mỗi đối tượng Trong thời gian đó, chúng tôi đã chụp (và giữ lại) hơn 600 hình ảnh

từ 13 tư thế, với 43 ánh sáng khác nhau và với 4 biểu cảm Tư thế thay đổi

từ chế độ hoàn toàn bên trái sang hoàn toàn chính diện và chuyển sang chế

độ hoàn toàn bên phải 9 camera quét ngang cách nhau khoảng 22,5 độ 4 camera còn lại gồm 2 camera ở trên và 2 camera ở dưới, và 2 camera ở các góc phòng, những vị trí tiêu biểu cho camera giám sát

-Hiệu quả về biến đổi tư thế : Có thể thấy, có một sự khác biệt lớn trong tư

Trang 8

thế từ đầy đủ hồ sơ đến toàn bộ chính diện Tập hợp con dữ liệu này sẽ hữu ích để đánh giá mức độ mạnh mẽ của các thuật toán nhận dạng khuôn mặt trong các tư thế Vì đã biết vị trí của camera nên nó cũng có thể được

sử dụng để đánh giá các thuật toán ước tính tư thế Cuối cùng, nó có thể hữu ích cho việc đánh giá các thuật toán kết hợp thông tin từ nhiều chế độ xem được phân tách rộng rãi

- Sự thay đổi tư thế và độ sáng: nó có thể được sử dụng để đánh giá mức độ mạnh mẽ của các thuật toán nhận dạng khuôn mặt để tạo dáng và chiếu sáng

-Sự thay đổi về biểu cảm: Dữ liệu biến đổi tư thế và biểu cảm có thể được

sử dụng để kiểm tra mức độ mạnh mẽ của các thuật toán nhận dạng khuôn mặt đối với biểu cảm (và tư thế)

Ảnh minh họa

4 AR database

4.1 Giới thiệu

Cơ sở dữ liệu khuôn mặt AR được tạo ra bởi Trung tâm Thị giác Máy tính (CVC), tại Đại học Aut`onoma de Barcelona Nó chứa hơn 4.000 hình ảnh màu tương ứng với 126 khuôn mặt của mọi người (70 nam và 56 nữ) Những hình ảnh có được là tư thế nhìn trực diện với các biểu hiện khuôn mặt, điều kiện ánh sáng và khớp cắn khác nhau (chẳng hạn như người đeo

6

kính râm và quàng khăn) khiến cơ sở dữ liệu này trở thành một trong những cơ sở dữ liệu phổ biến hơn để thử nghiệm các thuật toán nhận dạng khuôn mặt khi có hiện tượng khớp cắn Không có giới hạn nào về mặc (quần áo, kính, v.v.), trang điểm, kiểu tóc, v.v đối với những người tham gia Mỗi người tham gia hai buổi, cách nhau hai tuần

4.2 Cách sử dụng:

Đánh dấu bằng tay:

Để cho phép kiểm tra chi tiết và xây dựng mô hình, hình ảnh khuôn mặt AR đã được gắn nhãn thủ công với 22 đặc điểm trên mỗi khuôn mặt

22 điểm được chọn là nhất quán trên tất cả các hình ảnh Sơ đồ mốc được trình bày dưới đây:

Trang 9

Dự định rằng những điểm đã đánh dấu này sẽ được sử dụng cho nhiều mục đích khác nhau:

Tìm kiếm đặc điểm khuôn mặt : Đánh dấu cung cấp sự thật cơ bản để kiểm tra phần mềm tìm kiếm đặc điểm khuôn mặt và khuôn mặt tự động Xây dựng Mô hình Khuôn mặt : Các mô hình đối tượng phức tạp, chẳng hạn như phương pháp Tiếp cận Mô hình Hình thức Hoạt động yêu cầu dữ liệu được gắn nhãn thủ công, với các điểm tương ứng nhất quán làm dữ liệu đào tạo

Nhận dạng / Xác minh khuôn mặt :Các điểm được đánh dấu có thể được sử dụng để kiểm tra hiệu suất xác minh hoặc nhận dạng khuôn mặt, khi vị trí chính xác của khuôn mặt và các đặc điểm được biết (tức là loại bỏ lỗi đăng ký)

Dữ liệu điểm

Hiện tại mốc 22 điểm đang có sẵn cho các biểu thức 01,02,03,05 Thí nghiệm hiện đang làm việc trên đánh dấu cho các biểu thức khác Dữ liệu này được nén vào tệp sau: -ar_face_22pt_markup.zip

Tên tệp của hình ảnh khuôn mặt AR có định dạng sau: -X-Y-Z.raw

Với:

X = m hoặc w tùy đối tượng là nam / nữ

Y = id người

Z = id biểu thức

7

Các tệp hình ảnh và tệp điểm có tên tương ứng ví dụ "m-016-06.raw" có các điểm trong tệp "m-016-06.pts"

Định dạng tệp điểm như sau: (Điểm này có thể bỏ qua phiên bản tệp số điểm này)

n_points: 22 (Số điểm được gắn nhãn trên hình ảnh)

{

xxxx yyyy

}

Trang 10

Đối với mỗi điểm, xxxx là tọa độ x bắt đầu từ góc trên bên trái và yyyy là tọa độ y tương tự bắt đầu từ góc trên bên trái của hình ảnh

Tất cả các tệp điểm chứa 22 điểm với mỗi điểm đại diện cho một điểm cụ thể trên khuôn mặt (xem sơ đồ trên)

Ảnh minh họa

5.Yale Face database:

5.1 Giới thiệu:

Yale face database được tọa ra nhầm hoàn thiện và tang tích chính xác cho việc nhận diện khuôn với với nhiều trường hợp khác nhau

5.2 Nội dung:

Cơ sở dữ liệu chứa 165 ảnh GIF của 15 đối tượng (chủ đề01, chủ đề02, v.v.) Có 11 hình ảnh cho mỗi đối tượng, một hình ảnh cho mỗi cấu hình hoặc biểu cảm khuôn mặt sau: ánh sáng trung tâm, không đeo kính, vui vẻ, ánh sáng trái, không đeo kính, bình thường, ánh sáng phải, buồn, buồn ngủ, ngạc nhiên và nháy mắt

8

IV Đánh giá:

-Việc nghiên cứu cơ sở dữ liệu là điều quan trọng tạo tiền đề cho các phần mềm nghiên cứu đạt được hiệu quả cao

-Nắm rõ ưu nhược điểm của các cơ sở dữ liệu để thiết kế hay chọn cơ sở dữ liệu phù hợp với phần mềm đang nghiên cứu

Ngày đăng: 11/10/2022, 17:29

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w