TỔNG QUAN CÁC KĨ THUẬT XÁC ĐỊNH ĐIỂM ẢNH CÙNG SẮC MÀU VỚI MÀU DA NGƯỜI LÊ ĐÌNH NGÂN ** TÓM TẮT Tính chất sắc màu của da đã được dùng để xác định khuôn mặt người, nhận biết ngôn ngữ từ
Trang 1TỔNG QUAN CÁC KĨ THUẬT XÁC ĐỊNH ĐIỂM ẢNH
CÙNG SẮC MÀU VỚI MÀU DA NGƯỜI
LÊ ĐÌNH NGÂN (**)
TÓM TẮT
Tính chất sắc màu của da đã được dùng để xác định khuôn mặt người, nhận biết ngôn ngữ từ hình dạng bàn tay, theo vết chuyển động khuôn mặt, theo vết chuyển động mắt, xác định vùng hình khoả thân trong ảnh rất hiệu quả Các chuyên gia dùng mô hình màu da người để xác định các vùng ứng viên để làm đầu vào cho bài toán cụ thể của mình, lúc này không gian tìm kiếm đã thu hẹp đáng kể Chúng tôi cố gắng trình bày một cách tổng quan nhất các kĩ thuật xác định điểm ảnh cùng sắc màu với màu da người
ABSTRACT
The nature of skin color has been used effectively to identify a human face, learn the language of hand shapes, track facial motions, eye movements, and identify the nudity area
in the picture Some professionals use skin color models to identify the search regions as input to their specific problems, which helps to reduce the search space We try to present the overview of the techniques to identify pixels of the same color as human skin
1 GIỚI THIỆU *
Trong các bài toán: xác định khuôn
mặt người, xác định bàn tay, theo vết, v.v
Kĩ thuật xác định một vùng nào có thể là
vùng da người thông qua sắc màu được
xem như là kĩ thuật thiết yếu để giảm bớt
không gian tìm kiếm (xử lí)
Hơn một thập kỉ qua, có rất nhiều
nghiên cứu đến bài toán làm sao mô hình
hoá được màu da của con người Nhiều
phương pháp được áp dụng và thu được kết
quả đáng kể Các phương pháp nằm rải rác
ở các bài báo, công trình nghiên cứu khác
nhau nên gây khó khăn cho việc tìm kiếm
những kết quả mới đó Chúng tôi cố gắng
tập hợp và trình bày một cách cô đọng
trong bài báo này những phương pháp đó
(*) TS, Trường Đại học Khoa học Tự nhiên,
TP.HCM
(**) ThS, Trường Đại học Tài chính Marketing
Trong bài này, chúng tôi xin trình bày hai phần chính: các không gian màu thường dùng và các mô hình màu da người
từ đơn giản đến phức tạp
2 KHÔNG GIAN MÀU
Có nhiều cách biểu diễn màu sắc khác nhau trong ảnh màu kĩ thuật số Tên gọi cho cách biểu diễn màu là mô hình màu hay không gian màu, nó sẽ phụ thuộc vào ứng dụng hay người dùng [23] Trong bài này, chúng tôi chỉ dùng khái niệm không gian màu Không gian màu [11] là một phương thức để giải thích các thuộc tính hay hành vi của màu sắc trong một ngữ cảnh cụ thể Mục đích là có sự tiện lợi trong các gam màu, xem như một tập con của các màu sắc mà con người có thể nhìn được [23]
Các màu sắc mà mắt người có thể nhìn thấy có bước sóng từ 400nm đến 700nm trong quang phổ [3] Biểu đồ của màu sắc
Trang 2là một phân bố của màu sắc trong không
gian màu, được dùng nhiều trong thị giác
máy tính khi phân tích ảnh Đây là một
công cụ chính
2.1 Không gian màu RBG
Không gian màu RGB (Red, Green,
Blue) là không gian màu được biết đến
nhiều nhất, được dùng trong nhiều thiết bị
như: thiết bị chụp ảnh, thiết bị xử lí
Một đa dạng trong các phân bố quang
phổ của ánh sáng có thể cho ta nhận thức
được màu sắc Võng mạc con người có ba
loại tế bào hình nón để cảm nhận ánh sáng,
mà có thể cảm nhận được bức xạ liên quan
của các quang phổ tương ứng khác nhau
Dựa trên cơ sở hệ thống nhận biết màu sắc
của con người, chúng ta chỉ cần ba thành
phần (mỗi thành phần là một con số) – ba
con số – đủ để mô tả một màu, thông qua
các hàm số cho biết giá trị các quang phổ
Trên lí thuyết, chúng ta có thể xem màu
sắc là tích các số nguyên của hàm quang
phổ tác nhân U(n) với các hàm độc lập
tuyến tính tương ứng [3]
Ta có các giá trị màu được biểu diễn theo
công thức 1, với là tần số của tác nhân
ánh sáng
2
1
2
1
2
1
(1)
Không gian màu RGB được áp dụng
trên hệ toạ độ Cartesian Từ ba thành phần
chính R, G, B, chúng ta sẽ có đầy đủ các
màu mà mắt người có thể thấy, hình1, khi
tổ hợp các giá trị của RGB
Hình1: Không gian màu RGB Mặc dù không gian màu RGB được sử dụng trên nhiều thiết bị, nhưng khi dùng để
xử lí có phụ thuộc vào độ sáng thì sẽ gặp nhiều khó khăn vì độ sáng được ẩn dưới các giá trị của RGB
2.2 Không gian màu YUV
Trong các ứng dụng hay thiết bị có dùng hai tín hiệu PAL và NTSC, người ta thường dùng không gian màu YUV, với Y
mô tả như thành phần về độ sáng, trong khi
U và V là các thành phần màu sắc khác Do vậy, YUV rất phù hợp cho phân đoạn ảnh theo thời gian thực, cũng như các xử lí có tác động của độ sáng
Nhiều tác giả đã thành công khi dùng không gian màu này để phân tích ảnh màu theo thời gian thực, như Wren [24] theo vết chuyển của con người Trong khi đó Qian [25] chuẩn hoá RG thì thấy tốt hơn YUV
2.3 Không gian màu YCbCr
Cũng giống như không gian màu YUV, không gian YCbCr cũng tách hai thành phần màu và độ sáng riêng biệt Các thành phần YCbCr được tính theo công thức 2, như sau:
B
b
R
r
C
c
C
c
(2)
với các tham số cr, cg, và cb lấy giá trị ở bảng 1 Không gian này được dùng khá nhiều hiện nay để phân tích ảnh màu Chai
( ),
r v g v( ), b v( )
Trang 3và Ngan [21] thành công khi dùng không
gian màu này để phân đoạn ảnh
Bảng 1: Các giá trị của các tham số để
chuyển không gian màu từ RGB sang
YCbCr
c r c g c b
Re
c 601-1
0.298
9
0.586
6
0.114
5 Re
c 709
0.212
6
0.715
2
0.072
2 IT
U
0.222
0
0.706
7
0.071
3
Hay chúng ta có thể đổi trực tiếp từ
RGB sang YCbCr, công thức 3, và ngược
lại theo công thức 4
(3)
0.00456621 0 0.00625893 16
0.00456621 0.00153632 0.00318811 128
0.00456621 0.00791071 0 128
(4)
2.4 Không gian màu HSI
Không gian màu HSI (Hue, Saturation,
Intensity) và các không gian màu cùng một
họ như HSV (Hue, Saturation, Value), HDI
(Hue, Distance, Intensity), HLS (Hue,
Lightness, Saturation) được dùng nhiều
trong các ứng dụng về thị giác Hue mô tả
màu sắc (vàng, xanh, đỏ, …), Saturation
mô tả mức độ màu (vàng tươi, đỏ đậm),
còn Intensity mô tả mức độ sáng tối của
màu (xanh sáng, xanh tối) Hình 2 minh
hoạ không gian màu HSI Với một màu x,
H là góc giữa sắc đỏ và x, S là tỉ lệ giữa
màu thật sự trên cạnh của tam giác và x, I
là khoảng cách từ điểm (0,0,0) trên đường
chéo xám
Chúng ta dùng công thức 5 để chuyển
đổi từ RGB sang HSI, như sau:
3 atan (R-I) / 2 khi
G-B
3 / 2 khi 2
1 khi ( ) ( ) ( ) ( )
3
G B
S R G B RG RB GB
R G B I
(5)
Hình 2: Không gian màu HIS
2.5 Không gian màu NCC
Không gian màu NCC (Normalized Color Components – các thành phần màu được chuẩn hoá), hình 3, là mô hình màu đơn giản nhất để khử thành phần cường độ màu Công thức chuyển đổi khá đơn giản
từ không gian màu RGB, công thức 6 Với điều kiện R+G+B 0
R r
G g
B b
(6)
Hình 3: Không gian màu NCC
Trang 42.6 Khơng gian màu TSL
Khơng gian màu TSL (Tint, Saturation,
Lightness) là một biến thể của khơng gian
màu NCC [2], theo cơng thức 7
0 khi g'=0
L=0.299R+0.587G+0.114B
r g
với r’=r-1/3, g’=g-1/3
2.7 Khơng gian màu LUX
Lievin và Luthon [26] trình bày một
khơng gian màu phi tuyến cho xác định
màu da người, các tác giả gọi là LUX
(Logarithmic hUe eXtention), được tính
theo cơng thức 8 sau đây:
0.3 0.6 0.1
1 khi R<L
1 khi R L
1 khi B<L
1 khi B L
L
U
M
R
L
X
M
R
(8)
với M là phạm vi linh hoạt, ví dụ dữ
liệu 8Bit thì phạm vi là [0,255] và M=255
UX là các thành phần màu sắc Các tác giả
cho biết khơng gian màu này hiệu quả khi
tìm độ tương phản giữa màu da người, mơi
và các loại khác hơn khơng gian màu
YCbCr
3 CÁC MƠ HÌNH MÀU DA NGƯỜI
Mục đích chính của xác định màu da
người là xây dựng một bộ luật để quyết
định làm sao xác định các điểm ảnh nào là
da người và các điểm ảnh nào khơng phải
là da người Thơng thường để giải quyết
được vấn đề trên, người ta xem xét một độ
đo để đo khoảng cách các điểm ảnh màu đến sắc thái của màu da
Hiện nay cĩ rất nhiều nghiên cứu xây dựng mơ hình màu da người, như thu thập
và xác định một khoảng biến thiên của da người, dựa trên phân bố Gauss, xác suất điều kiện, lí thuyết Bayes, xây dựng ngưỡng dựa trên các kĩ thuật: Goodness-of-fit, Cực đại hố khả năng, khoảng cách Mahalanobis, Histogram, cực đại triển vọng, dùng mạng neural đã được huấn luyện, khai khống dữ liệu, PCA, Entropy, gom nhĩm, hoặc kết hợp nhiều phương pháp, v.v [11, 19]
3.1 Phạm vi vùng màu da
Một phương thức cơ bản là xây dựng một số điều kiện biên để kiểm tra một điểm ảnh cĩ thuộc điều kiện đĩ thì điểm ảnh đĩ
cĩ thể là da người [10, 13, 27] Cĩ nhiều cách để xây dựng, cĩ thể thu thập các điểm ảnh mình biết chắc là da người rồi từ đây xây dựng điều kiện, cơng thức 9
95 và 40 và B>20 và max{R,G,B}-min{R,G,B}>15 và R-G 15 và R>G và R>B
(9)
Cĩ rất nhiều nghiên cứu theo hướng này [11], cho nhiều kết quả khả quan Gần đây cĩ một nghiên cứu [18] cho ta điều kiện tốt hơn cơng thức 9, cơng thức 10 Nhưng cũng cĩ tác giả khác chọn điều kiện, cơng thức 11, kết hợp với cơng thức 9
và cơng thức 10 để xét điều kiện một điểm ảnh cĩ phải cĩ màu là màu da hay khơng
Trang 5(B>160 và R<180 và G<180) hay
(G>160 và R<180 và B<180) hay
(B<100 và R<100 và G<100) hay
(G>200) hay
(R+G>400) hay
(G>150 và B<90) hay
(B/(R+G+B)>.40) hay
(G/(R+G+B)>.40) hay
(R<102 và G>100 và B>110 và G<140 và B<160)
(10)
45 &&Y<252
Cb>-60 && Cb<10.3
Cr>10 && Cr<60
(11)
Bao [10] xây dựng một phạm vi màu
da người dựa trên PCA (Principal
Component Analysis) để cĩ được các điều
kiện biên đơn giản hơn Đồng thời xem xét
quan hệ của các thành phần sắc màu trong
khơng gian màu YCbCr
Tuy nhiên, các giá trị biên này khơng
hồn tồn chính xác, mà cịn phụ thuộc rất
nhiều vào thiết bị, điều kiện mơi trường
như: ánh sáng, khung cảnh xung quanh,
người được lấy mẫu thuộc chủng tộc gì,
quần áo đang mặc, v.v Và nếu muốn độ
chính xác cao thì phải cĩ nhiều điều kiện,
nếu nhiều điều kiện thì dẫn đến phức tạp
hơn khi tính tốn, cũng như dữ liệu để tìm
điều kiện phải nhiều, càng nhiều càng tốt
nên khơng gian lưu trữ sẽ tăng lên
3.2 Mơ hình phân bố màu da khơng
cĩ tham số
Ý tưởng chính cho phương thức mơ
hình hố màu da khơng cĩ tham số là ước
lượng phân bố màu da từ dữ liệu thu thập
được (dữ liệu huấn luyện) mà khơng cĩ
một mơ hình màu da rõ ràng Kết quả đơi
khi xem như xây dựng ánh xạ xác suất màu
da (Skin Probability Map - SPM)
3.2.1 Bảng tra cứu đã được chuẩn
hĩa
Một vài thuật tốn xác định khuơn mặt
và theo vết khuơn mặt dùng biểu đồ để phân đoạn màu da [7] Thường chỉ dùng duy nhất mặt phẳng màu trong khơng gian màu để xử lí, sau khi huấn luyện, biểu đồ
sẽ được chuẩn hố để cĩ được phân bố xác suất rời rạc:
skin[c]
( ) Norm
skin
P c (12)
với skin [c] biểu đồ của từng kênh
màu, tương ứng vector màu c và Norm là
các giá trị được chuẩn hố (tổng của các giá trị của biểu đồ được chuẩn hố [1]) Trong khơng gian màu RGB, nếu dùng cả
ba giá trị R, G, B thì c[0,2563] số lượng c
sẽ vào khoảng 16.7 triệu giá trị, cịn nếu ta chỉ dùng hai giá trị R, G thì c[0,2562] Nhưng trong thực tế ta cĩ thể giảm số lượng c bằng cách dùng phân loại Bayes
3.2.2 Phân loại Bayes
Từ các mơ hình histogram (biểu đồ) da người và khơng phải da người qua huấn luyện (cơng thức 12), tác giả xây dựng một phân loại điểm ảnh cĩ phải màu da hay khơng [1, 5, 7] Đây là phân loại nhị phân, dựa trên xác suất điều kiện P(skin | c) theo luật Bayes [12] (cơng thức 13) từ giá trị Pskin(c) đã cĩ
P c skin P skin
P skin c
P c skin P skin P c skin P skin
(13)
P(c | skin) và P(c | skin) được tính trực tiếp từ histogram của màu da và khơng phải màu da, cịn P(skin) và P(skin) được ước lượng từ mẫu huấn luyện Đồng thời cũng phải xác định một ngưỡng , nằm trong khoảng [0,1] nếu P(skin | c) , thì điểm ảnh đang xét cĩ màu là màu da người
Thay vì chúng ta phải tính theo cơng thức 13, thì cũng cĩ thể tính tỉ lệ xác suất
Trang 6như công thức 14
( | ) ( | ) ( )
( | ) ( | ) ( )
P skin c P c skin P skin
P skin c P c skin P skin (14)
Nếu tỉ lệ này lớn hơn ngưỡng , thì
điểm ảnh này có màu là màu da người Đôi
khi ta cũng có thể dùng hình thái khác,
công thức 15, xác định điểm ảnh có phải
mang màu da người hay không
P c skin
P c skin
P skin K
P skin
(15)
Ta sẽ chọn K như thế nào để phù hợp
với ngưỡng mình mong muốn Đây chính
là bài toán khả năng cực đại cần xem xét
Khi dùng mô hình này, thì vấn đề phức tạp
như điều kiện ánh sáng, chủng tộc, quần áo
sẽ được khắc phục phần nào nhờ vào xác
suất điều kiện, đồng thời không cần dữ liệu
quá lớn vẫn có thể áp dụng được Chúng ta
cũng có thể dùng thêm phương pháp học
tăng cường mỗi khi xác định được các
điểm ảnh có màu da người hay không phải
để xác suất càng chính xác hơn
3.2.3 Ánh xạ tự tổ chức
Vào thập niên tám mươi Kohonen đề
xuất ánh xạ tự tổ chức (Self-Organizing Map
- SOM) [35], và nó đã trở thành một trong
những loại phổ biến hiện nay – mạng neural
nhân tạo không giám sát Brown [28] dùng
một phương thức xác định màu da người
trên cơ sở SOM Có hai loại được dùng, một
là chỉ dùng thông tin về màu da, cái thứ hai
dùng cả hai thông tin về màu da và thông tin
không phải là màu da, trên nhiều không gian
màu như: NCC, họ HS, TSL, để kiểm tra
Theo tác giả, kết quả để phát hiện điểm ảnh
có phải có giá trị là màu da người hay không
thì khá tốt, nhưng lại không tốt bằng phương
pháp dùng histogram trên không gian màu RGB với dữ liệu của Compaq [1] Các tác giả cũng nhấn mạnh phương pháp SOM [15] không cần nhiều dữ liệu mẫu như phương pháp histogram và các mô hình hỗn hợp, và rất hiệu quả về mặt thời gian thực hiện khi cài đặt
3.3 Mô hình phân bố màu da có tham số
Các mô hình màu da không tham số dựa trên histogram thông dụng nhất cần rất nhiều không gian lưu trữ và phụ thuộc rất nhiều hình thái của tập dữ liệu ảnh dùng để huấn luyện Chúng ta cần mô hình màu da compact, hơn nữa để các ứng dụng sử dụng
mô hình màu da sẽ tốt hơn Mô hình này cần tổng quát và có khả năng nội suy để hiệu chỉnh các tham số của các mô hình phân bố màu da người
Ngoài các phương pháp nêu trên có vài tác giả dùng một số phương pháp tích hợp các kĩ thuật khác nhau Kết hợp thuật toán gán nhãn vùng, kĩ thuật khả năng dựa trên khoảng cách Mahalanobis [2] và ngưỡng phân đoạn Dùng không gian màu ST và khoảng cách Mahalanobis [18] Tìm quỹ tích màu da trong không gian màu NCC rồi dùng histogram và các phép toán trong Morphology [17] Xác định giá trị ngưỡng phân đoạn và cập nhật liên tục khi xử lí từ đây tách làm hai nhóm: màu da và không phải màu da thông qua một mặt phẳng phân chia [16], …
3.3.1 Gauss
Có thể dùng hàm mật độ xác suất (probability density function - pdf) Gauss
có dạng ellipse để mô hình hoá phân bố màu da người do khi quan sát trên biểu đồ các tác giả thấy phân bố của màu da người gần giống phân bố Gauss [3], được định nghĩa theo công thức 16
Trang 72 1/ 2
1
2
T
s
(16)
với c là vector màu sắc, s và s là
tham số phân bố (vector trung bình và ma
trận hiệp phương sai) Các tham số được
ước lượng từ dữ liệu huấn luyện bằng công
thức 17
1
1
1
1
n
j
n
T
s
j
c
n
n
(17)
với n là tổng số mẫu để huấn luyện
màu da người, các mẫu là cj P(c | skin) là
xác suất có thể dùng để xem màu c gần
giống màu da người hay không, hoặc dùng
khoảng cách Mahalanobis [18] từ vector
màu c đến giá trị trung bình s để xác định
màu c có phải là màu da người hay không
dựa trên ma trận hiệp phương sai
1
(18)
Mô hình này được nhiều người dùng
[2, 20] và thành công trong ứng dụng của
họ
3.3.2 Gauss hỗn hợp
Chúng ta cần một mô hình tinh vi hơn,
mô hình Gauss hỗn hợp (Gaussian Mixture
Model - GMM) có khả năng mô tả các
phân bố có hình dạng phức tạp Mô Gauss
hỗn hợp được tổng quát hoá từ mô hình
Gauss với pdf trong trường hợp này sẽ là:
1
( | ) k i ( |i )
i
(19)
Trong công thức 19, k là số lượng các
thành phần hỗn hợp, i là các tham số hỗn
hợp và được chuẩn hoá
1
1
k i i
, và Pi(c | skin) là các pdf với mô hình Gauss, mỗi phần Pi(c | skin) này có một giá trị trung bình và ma trận hiệp phương sai của chính
nó Khi huấn luyện, tại mỗi bước lặp dùng thuật toán cực đại hoá kì vọng (Expectation Maximization - EM) [3], với số lượng các thành phần k phải xác định trước Chi tiết của mô hình huấn luyện với EM[14, 29, 30] Khi huấn luyện xong, để phân loại ta dùng P(c | skin) so sánh với ngưỡng định trước để xác định xem màu c có phải là màu của da người hay không [22]
Việc chọn số lượng các thành phần k rất quan trọng, nếu chọn lớn quá sẽ tốn chi phí tính toán khá cao, nếu chọn nhỏ quá thì mức độ chính xác không còn cao Việc chọn k sẽ phụ thuộc vào kinh nghiệm người dùng cũng như tuỳ vào ứng dụng Đồng thời phải mô tả chính xác mô hình dựa trên dữ liệu huấn luyện mà đừng để xảy ra tình trạng quá khớp dữ liệu Thông thường các tác giả chọn k từ hai [29] cho đến mười sáu [1], nhưng có tác giả chọn k bằng tám (trung bình) [30] và ông nói mô hình khi chọn k bằng tám gần giống trong thực tế nhất
3.3.3 Gom nhóm dựa trên đa thành phần Gauss
Phung [19, 31] dùng xấp xỉ gom nhóm màu da người với ba thành phần 3D Gauss trong không gian màu YCbCr Một dạng khác của thuật toán gom nhóm dữ liệu k-trung bình (k-mean clustering) cho các nhóm Gauss dùng để huấn luyện cho mô hình Một điểm ảnh được phân loại là thuộc nhóm có màu là màu da người, nếu khoảng cách Mahalanobis từ vector màu c đến tâm gần nhất của nhóm trong mô hình
Trang 8dưới một ngưỡng định nghĩa trước
3.3.4 Mô hình bao dạng ellipse
Khi kiểm tra các phân bố màu da
người và không phải màu da người trong
vài không gian màu, Lee và Yoo [32] có
kết luận nhóm màu da người có hình dạng
gần như một hình ellipse và thật sự không
thể dùng duy nhất một mô hình Gauss để
xấp xỉ mô hình màu da người Do tính
nhóm màu da người bất đối xứng và đặc
biệt đối với mật độ tại đỉnh nên khi dùng
mô hình Gauss đơn giản sẽ dẫn đến tỉ lệ sai
khá cao Hai tác giả đã đề xuất một phương
pháp thay thế mà họ gọi là mô hình bao
dạng ellipse (Elliptic Boundary Model), mà
mô hình này nhanh và đơn giản trong huấn
luyện như mô hình Gauss đơn giản và
Gauss hỗn hợp, đồng thời lại cho kết quả
xác định cao hơn trên cùng cơ sở dữ liệu
của Compaq [1] Mô hình bao dạng ellipse
được định nghĩa như sau:
1
( ) ( c c )T ( c )
Tiến trình huấn luyện cho hệ thống
gồm hai bước: đầu tiên, loại bỏ các mẫu
huấn luyện màu có tần số thấp (khi dùng
bộ dữ liệu là màu da người thì những mẫu
có tần số thấp chính là những mẫu có số
lượng ít – hay nói cách khác những mẫu
này có thể là nhiễu hay dữ liệu không phù
hợp) để loại bỏ bớt nhiễu và dữ liệu không
phù hợp, tỉ lệ loại bớt cho phép đến 5%
Sau đó các tham số của mô hình ( và )
được tính theo công thức 21 như sau:
1
T
N
(21)
với n là tổng số các vector màu riêng
biệt ci của tập điểm ảnh có màu chính là
màu da người dùng để huấn luyện (không phải tổng số điểm ảnh dùng để huấn luyện), và fi là số lượng các mẫu có màu da người dùng huấn luyện có cùng màu với vector màu ci, vậy N chính là tổng số mẫu dùng để huấn luyện Một điểm ảnh có màu
c được xem là cùng màu với màu da khi
(c) < , với là một ngưỡng Các tác giả khẳng định mô hình xấp xỉ của họ tốt hơn
mô hình Gauss bởi vì dữ liệu bị nghiêng không ảnh hưởng đến tâm của mô hình
3.4 Mô hình hỗn hợp
Có nhiều tác giả tích hợp nhiều phương pháp để tìm mô hình màu da người như Kakumanu [8] sử dụng các kênh màu (như CbCr) mà không dùng kênh ánh sáng (vì kênh này sẽ bị ảnh hưởng của môi trường rất nhiều) để xác định thông qua các mạng neural, mà các mạng neural này được huấn luyện để có thể dự đoán trực tiếp cho việc ước lượng ánh sáng Các mạng được huấn luyện bằng các dữ liệu được chọn ngẫu nhiên các ảnh có màu da người ở các điều kiện khác nhau Tác giả xây dựng mạng đa tầng có hai lớp ẩn, tầng nhập có
1600 neuron, lớp ẩn đầu tiên có 48 neuron, lớp ẩn thứ hai có 8 neuron, và tầng xuất có
2 neuron Tác giả dùng không gian màu con của không gian màu NCC, đó là không gian chỉ có r và g Không gian con này được chia làm 40*40 (1600) các phần rời rạc, mỗi phần có histogram tương ứng đó
là một neuron để đưa vào mạng neural, có giá trị là 1 hay 0 để mô tả phần histogram này có hay không có trong ảnh Tác giả dùng thuật toán học lan truyền ngược, dùng khoảng cách Euclide để tính lỗi Ông xây dựng đồng thời hai mạng: một dùng để ước lượng ánh sáng, hai để xác định có phải là màu da hay không
Leonid [7] sử dụng mô hình Markov
(20)
Trang 9kết hợp histogram Đầu tiên ông dùng lại
mô hình histogram của Jones và Rehg [1]
trong không gian màu NCC, từ các giá trị
nhận được ông dùng mô hình Markov để
học và điều chỉnh các tham số cần thiết và
làm cho mô hình càng ngày càng tốt hơn
Mohamed Hammami [9] dùng phương
pháp khai khoáng dữ liệu để tìm luật trong
bộ dữ liệu quan hệ màu da người của ông
Từ luật này ông xây dựng cây quyết định
để phân loại một màu w có phải là màu da
người hay không
Qiang Zhu [6], tác giả dùng một phân
loại màu da thô thông qua không gian tựa
màu da người, sau đó dùng mô hình Gauss
hỗn hợp để tinh chế lại với thuật toán EM
Sau đó tác giả dùng SVM (Support Vector
Machine) để phân loại màu da từ GMM (có
hai thành phần) đã được huấn luyện trước
đó bằng thông tin của hình dáng và không
gian màu của các điểm ảnh
Huicheng Zheng [15] xây dựng mô
hình entropy cực đại để xác định màu của
điểm ảnh có phải là màu da người hay
không Mô hình này lợi dụng gượng ép
trên các phân bố ở biên là khác nhau Từ
đây ước lượng các tham số thông qua xấp
xỉ hay nói cách khác khi biết một điểm ảnh
có màu là màu da làm sao ta biết được
những điểm lân cận có phải có màu là màu
da hay không? Thường khi xuất hiện trên
ảnh sẽ là một vùng da chứ không thể chỉ có
một điểm, dựa trên tính chất này tác giả
xây dựng một xấp xỉ trên cây của lưới các
điểm để lan truyền, đồng thời tác giả dùng
thuật toán lan truyền niềm tin dựa trên xác
suất để chọn Trong khi ước lượng tác giả
đã xây dựng mô hình Markov ẩn để tìm
ranh giới qua việc học dữ liệu
Nicu Sebe, Ira Cohen, Thomas S
Huang, và Theo Gevers xây dựng bộ phân
loại một điểm ảnh có sắc màu có phải là
màu da người hay không dựa trên mạng Bayes đã được huấn luyện trước đó [33] Gần đây Moon Hwan Kim, Jin Bae Park và Young Hoon Joo xây dựng mô hình màu da người dựa trên logic mờ [34] Các tác giả xây dựng bộ điều khiển mờ từ
dữ liệu các điểm ảnh có màu là màu da người, rồi từ đây xây dựng một bộ gom nhóm (clustering) mờ dùng cho việc xác định vùng nào có cùng màu với màu da người sau này
3.5 Mô hình phân bố màu da động
Một lớp các phương thức để mô hình hoá màu da người được xây dựng và làm cho phù hợp với bài toán xác định vị trí trong ảnh có màu là màu da người để theo vết khuôn mặt con người Để xây dựng, các tác giả chọn phân tích các ảnh tĩnh từ vài khía cạnh Khía cạnh đầu tiên, mô hình màu da người có thể ít tổng quát (quá cụ thể), đây là phần chính Thứ hai, có thể khởi động quá trình xử lí, khi một vùng mặt được phân biệt từ phần hình nền bằng
bộ phân loại khác hay làm bằng tay Điều này cho ta một xác suất để mô hình phân loại màu da người, nếu ta có được các điều kiện (người, camera, ánh sáng, hình nền) thì mô hình sẽ có được tính tối ưu Nên chúng ta không cần mô hình tổng quát, mà chúng ta cũng có thể có được tỉ lệ xác định màu da người cao hơn với tỉ lệ xác định sai
sẽ thấp khi so sánh với các mô hình màu da người tổng quát dùng để phân loại màu da trong tập các ảnh tự nhiên [giống 1] Mặt khác, phân bố màu da người có thể thay đổi theo thời gian do điều kiện ánh sáng hoặc camera, vì vậy mô hình nên cập nhật liên tục để phù hợp với các điều kiện xung quanh thay đổi Ngoài ra, mô hình huấn luyện và phân loại theo thời gian trở nên khá quan trọng
Các tính chất quan trọng nhất của mô
Trang 10hình màu da người dùng để theo vết khuôn
mặt người: thứ nhất, trong cả hai trạng thái
huấn luyện và phân loại thì xử lí phải
nhanh và thứ hai, hệ thống nên được cập
nhật liên tục để phù hợp với các điều kiện
thay đổi [7] Nhiều tác giả đã quan tâm đến
khía cạnh này nên đã chọn mô hình màu da
người theo hướng các tham số đơn giản để
dễ dàng cập nhật, cũng như xử lí nhanh và
không gian lưu trữ ít Thường các tác giả ít
quan tâm đến tỉ lệ xác định sai – trong mô
hình màu da người có tham số
Có nhiều tác giả xây dựng riêng cho
ứng dụng của mình một mô hình màu da
người, nhưng các phương pháp đều xuất
phát từ các phương pháp nêu trên khi điều
chỉnh hay thay đổi tham số mà thôi
4 KẾT LUẬN Theo các nghiên cứu thì mô hình màu
da người chính là mô hình phân bố Gauss, nhưng hiện nay có một số nghiên cứu mới đang xem xét và đưa ra giả thuyết: mô hình màu da người chỉ tựa Gauss, để giải thích khi dùng phân bố Gauss để mô hình hoá sẽ dẫn đến một số lỗi khi phân đoạn màu da trên ảnh
Trên đây là các phương pháp và các không gian màu hay dùng để xác định một vùng trong ảnh có sắc màu có phải là sắc màu da người hay không Hi vọng sẽ giúp ích cho những người nghiên cứu các lãnh vực có liên quan đến màu da người
TÀI LIỆU THAM KHẢO
Michael J Jones and James M Rehg, “Statistical Color Models with Application to Skin Detection”, Int’l J Computer Vision, vol 6, no 1, pp 81-96, 2002
Mohammad Al-aqrabawi and Fangfang Du, “Human Skin Detection Using Color Segmentation”, Internet, https://courseware.vt.edu/users/abbott/5554/SkinReport.pdf Jie Yang, Weier Lu, Alex Waibe, “Skin-Color Modeling and Adaptation”, LNCS, vol
1352, pp 687-694, Springer-Verlag Berlin Heidelberg, 1998
Moritz Storring, “Computer Vision and Human Skin Color”, Ph.D Thesis, Aalborg
University 2004
Antonis A Argyros and Manolis I.A Lourakis, “Real-Time Tracking of Multiple Skin-Colored Objects with a Possibly Moving Camera”, ECCV 2004, LNCS 3023, pp
368-379, Springer-Verlag Berlin Heidelberg, 2004
Qiang Zhu, Kwang-Ting Cheng, Ching-Tung Wu, and Yi-Leh Wu, “Adaptive Learning of
an accurate Skin-Color Model”, Proceedings of the Sixth IEEE International
Conference on Automatic Face and Gesture Recognition (FGR’04), IEEE, 2004
Leonid Sigal, Stan Sclaroff, and Vassilis Athitsos, “Estimation and Prediction of Evolving Color Distributions for Skin Segmentation Under Varying Illumination”, Proc IEEE
Conf on Computer Vision and Pattern Recognition (CVPR 2000), IEEE, 2000
P Kakumanu, S Makrogiannis, R Bryll, N Bourbakis, “Image Chromatic Adaptation using ANNs for Skin Color Adaptation”, Proceeding of the 16th IEEE International
Conference on Tools with Artificial Intelligence (ICTAI 2004), IEEE, 2004
Mohamed Hammami, Dzmitry Tsishkou, and Liming Chen, “Data-Mining Based