Kết hợp mô hình thừa số hóa ma trận không âm với các nhóm ràng buộc thưa để khai thác mô hình phổ tổng quát trong bài toán tách nguồn âm thanh đơn kênh

Bài viết tập trung giải quyết bài toán phân tách những âm thanh mong muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách. Đây là vấn đề còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic source separation).

Trang 1

KẾT HỢP MÔ HÌNH THỪA SỐ HÓA MA TRẬN KHÔNG ÂM VỚI CÁC NHÓM RÀNG BUỘC THƯA ĐỂ KHAI THÁC

MÔ HÌNH PHỔ TỔNG QUÁT TRONG BÀI TOÁN

TÁCH NGUỒN ÂM THANH ĐƠN KÊNH

Dương Thị Hiền Thanh1,2, Nguyễn Công Phương1,3, Nguyễn Quốc Cường3*

Tóm tắt: Bài báo tập trung giải quyết bài toán phân tách những âm thanh mong

muốn từ tín hiệu thu âm đơn kênh gồm nhiều âm thanh khác nhau bị trộn lẫn trong điều kiện không có dữ liệu huấn luyện cho các âm thanh cần phân tách Đây là vấn đề còn nhiều khó khăn thách thức trong lĩnh vực tách nguồn âm thanh (audio/acoustic source separation) Tiếp cận theo hướng sử dụng mô hình thừa số hóa ma trận không

âm (Nonnegative Matrix Factorization - NMF) để xử lý thông tin phổ của tín hiệu, bài báo đề xuất giải pháp xây dựng và khai thác mô hình phổ tổng quát cho các tín hiệu nguồn cần tách Đặc biệt, chúng tôi đề xuất kết hợp mô hình NMF với các nhóm ràng buộc thưa (group sparsity constraint) để hướng dẫn quá trình phân tách Thí nghiệm được thực hiện cho hai trường hợp: phân tách tiếng nói và âm thanh nhiễu môi trường

từ tín hiệu tiếng nói chứa nhiễu, phân tách giọng hát và âm thanh các loại nhạc cụ trong bài hát đã cho thấy hiệu quả của thuật toán đề xuất

Từ khóa: Tách nguồn âm thanh, NMF, Ràng buộc thưa, Mô hình phổ tổng quát

1 MỞ ĐẦU

Trong lĩnh vực xử lý tín hiệu, tách nguồn âm thanh là nhiệm vụ khôi phục những âm thanh mong muốn từ tín hiệu thu âm gồm nhiều âm thanh khác nhau bị trộn lẫn [1, 2] Một ví dụ điển hình về tách nguồn âm thanh là trong “bữa tiệc cocktail”, nơi có nhiều người cùng nói chuyện, tiếng nhạc, các âm thanh khác và người nghe đang cố gắng theo dõi một trong các cuộc thảo luận Trong tình huống

đó, bộ não của con người cùng với khả năng thính giác bình thường có thể dễ dàng định vị và phân tách âm thanh mong muốn để nghe, hiểu và xử lý thông tin Nhưng đối với học máy (machine learning) và xử lý tín hiệu số thì đó là một vấn đề vô cùng khó khăn Các đánh giá khoa học uy tín những năm gần đây [2–5] cũng cho thấy các kỹ thuật tách nguồn âm thanh được tập trung nghiên cứu trên thế giới và

có vai trò quan trọng trong nhiều ứng dụng thực tế như: phân tích và xử lí âm thanh trong an ninh quốc phòng, chăm sóc y tế, thiết bị hỗ trợ người khiếm thính;

hỗ trợ giao tiếp qua mạng viễn thông (telephone, mobile phone), internet và hội nghị truyền hình (video/audio conferencing); hỗ trợ hệ thống nhận dạng tiếng nói

tự động (Automatic Speech Recognition - ASR),

Có nhiều lớp thuật toán tách nguồn âm thanh đã được nghiên cứu, hầu hết các phương pháp đều biến đổi tín hiệu âm thanh từ miền thời gian (time domain) sang miền thời gian-tần số (time-frequency domain) qua phép biến đổi Fourier (Short Time Fourier Transform - STFT) Sau đó, các thông tin về phổ (spatial cues) và/hoặc các thông tin về không gian (spatial cues) được sử dụng cho quá trình xử lí

và phân tách Tín hiệu sau khi phân tách được biến đổi ngược lại miền thời gian qua phép biến đổi Fourier ngược (Inverse Short Time Fourier Transform - ISTFT) Đối với bài toán phân tách tín hiệu đơn kênh, không thể khai thác được các thông tin về không gian trong quá trình xử lý, một số nghiên cứu công bố gần đây đã phát triển các giải thuật học có giám sát (supervised) hay giải thuật học sâu (deep

Trang 2

Kỹ thuật điều khiển & Điện tử

D T H Thanh, N C Phương, N Q Cường, “Kết hợp mô hình thừa số hóa … đơn kênh.”

84

learning) [6, 7], sử dụng dữ liệu huấn luyện để học các đặc tính phổ của tín hiệu,

sau đó dùng kết quả của bước học để hướng dẫn phân tách tín hiệu mong muốn

Trong trường hợp không có dữ liệu huấn luyện hoặc dữ liệu huấn luyện không đầy

đủ, các công bố gần đây của Sun và Mysore [6] hay nhóm của El Badawy [8, 9] đã

đề xuất giải pháp xây dựng mô hình phổ tổng quát cho tín hiệu nguồn cần tách, sau

đó sử dụng mô hình thừa số hóa ma trận không âm (Nonnegative Matrix

Factorization – NMF) [10] kết hợp với nhóm ràng buộc thưa để ước lượng các tín

hiệu cần phân tách

Phát triển từ các kết quả nghiên cứu chúng tôi đã công bố gần đây [11, 12],

trong bài báo này chúng tôi đề xuất thuật toán tách nguồn âm thanh đơn kênh trong

điều kiện không có dữ liệu huấn luyện Trong đó, chúng tôi thu thập và sử dụng

một số mẫu âm thanh cùng loại với dữ liệu cần phân tách để huấn luyện mô hình

phổ tổng quát cho tín hiệu, đồng thời sử dụng kết hợp mô hình NMF với hai loại

ràng buộc thưa trong qúa trình phân tách Chúng tôi thực hiện hai thí nghiệm là hai

trường hợp khá điển hình trong các ứng dụng thực tế để đánh giá hiệu quả của

thuật toán đề xuất, đồng thời khảo sát sự hội tụ của thuật toán và sự ảnh hưởng của

từng loại ràng buộc thưa đối với chất lượng của tín hiệu tách Với ý tưởng đó,

chúng tôi trình bày thuật toán tách nguồn âm thanh sử dụng mô hình NMF cơ bản

đã được công bố trong phần 2 Sau đó, mô tả thuật toán tách nguồn âm thanh đề

xuất ở phần 3 Phần 4 trình bầy thí nghiệm và các kết quả đánh giá, so sánh, cuối

cùng là phần kết luận

2 THUẬT TOÁN TÁCH NGUỒN ÂM THANH ĐƠN KÊNH

SỬ DỤNG MÔ HÌNH NMF

Mục tiêu của bài toán là phân tách các tín hiệu âm thanh thành phần từ tín hiệu

thu âm đơn kênh bị trộn lẫn bởi nhiều âm thanh khác nhau (gọi là “tín hiệu trộn”)

Gọi ∈ ℂ × và ∈ ℂ × ( = 1, 2 … , ) lần lượt là các ma trận phức biểu

diễn tín hiệu trộn và các tín hiệu thành phần sau phép biến đổi STFT là số bin

tần số (frequency bins), là số khung thời gian (time frames), là số tín hiệu

thành phần có trong tín hiệu trộn Tín hiệu trộn là sự kết hợp của các âm thanh

thành phần theo công thức (1)

Gọi = | |. là ma trận phổ của tín hiệu trộn, với | |. là ma trận có các phần

tử là [ ] , mô hình NMF sẽ phân tách ma trận không âm ∈ ℝ × thành hai ma

trận không âm và theo công thức:

Trong đó: ∗ là phép nhân ma trận thông thường, ∈ ℝ × là ma trận đặc trưng

phổ (spectral basis matrix) có các véc tơ cột là các đặc trưng phổ xuất hiện thường

xuyên trong , ∈ ℝ × là ma trận kích hoạt (activation matrix) có các véc tơ

hàng là thời gian xuất hiện các mẫu phổ trong , là số đặc trưng được tổng hợp

Trong các ứng dụng, thường được chọn sao cho đủ nhỏ và đảm bảo có thể trích

chọn được những đặc trưng phổ hữu ích từ [13]

Trang 3

Để ước lượng các ma trận thành phần, và được khởi tạo với các giá trị không âm ngẫu nhiên và được cập nhật trong quá trình lặp sao cho hàm giá (3) thể hiện sự sai khác giữa và ∗ giảm dần đến điểm hội tụ Trong từng bước lặp,

và được cập nhật theo quy tắc cập nhật MU-rules [14] được mô tả trong công

thức (4) và (5):

.( )⨀ )

Trong đó, và lần lượt là chỉ số tần số và chỉ số khung thời gian, ( ‖ ) = − − 1 là độ đo Itakura-Saito-divergence được sử dụng phổ biến với dữ liệu âm thanh [14], ký hiệu là ma trận chuyển vị của ma trận , .( ) là lũy thừa n lần từng phẩn tử của , ⊙ là phép toán nhân từng phần tử của hai ma trận (element-wise Hadamard), phép chia trong công thức (4) và (5) cũng là phép chia theo từng phần tử của ma trận

Gọi , , … lần lượt là ma trận đặc trưng phổ của các tín hiệu thành phần , , …, Chúng được ước lượng từ tập dữ liệu huấn luyện ở bước học, sau đó ghép lại thành ma trận đặc trưng phổ theo công thức (6)

Ở bước tách nguồn, NMF cố định ma trận và ước lượng bằng công thức cập nhật (5), gồm các thành phần , , … là ma trận kích hoạt tương ứng của từng tín hiệu thành phần như công thức (7)

Sau khi ước lượng ma trận , các tín hiệu thành phần được xác định bởi công thức Wiener filtering (8) và được biến đổi về miền thời gian qua phép biến đổi Fourier ngược

Thuật toán tách nguồn âm thanh áp dụng mô hình NMF cơ bản nêu trên cho kết quả tương đối tốt khi có dữ liệu huấn luyện chính xác cho các tín hiệu cần tách Tuy nhiên, khi không có dữ liệu huấn luyện thì chất lượng của các tín hiệu tách được là khá thấp

3 THUẬT TOÁN ĐỀ XUẤT

Trong tình huống không có dữ liệu huấn luyện mà bài báo đề cập tới, chúng tôi nhận định rằng sẽ dễ dàng thu thập được một số file âm thanh có ít nhiều đặc tính phổ giống tín hiệu nguồn cần phân tách Ví dụ, để tách tiếng nói và âm thanh nhiễu môi trường từ tín hiệu thu âm, chúng tôi tìm kiếm và sử dụng một số file tiếng nói (gồm cả giọng nam và giọng nữ) và một số file âm thanh nhiễu môi trường như: tiếng ồn đường phố, tiếng gió, tiếng nước chảy,… để làm tập mẫu huấn luyện Từ

đó, chúng tôi đề xuất thuật toán tách nguồn âm gồm hai pha huấn luyện và tách nguồn được mô tả trong hình 1 Cụ thể hơn, phần 3.1 sẽ mô tả cách xây dựng mô hình phổ tổng quát (Generic Spectral Source Model - GSSM) cho các tín hiệu cần

Trang 4

tách

thưa đ

pha

3.1

trưng ph

th

trưng ph

thành ph

đị

cực tiểu h

kích ho

3.2

các đ

khác nhau

86

tách

thưa đ

pha tách ngu

3.1 Xây d

G

trưng ph

thức (

trưng ph

Sau đó, m

thành ph

Mô

thành ph

ịnh

ực tiểu h

kích ho

2 K

Mô hình ph

ác đ

khác nhau

D T H Thanh,

trong pha hu

thưa để

tách ngu

Xây d

Gọi

trưng ph

ức (9), v

trưng ph

Sau đó, m

thành ph

Mô

thành ph

nh

ực tiểu h

kích hoạ

Kết hợp

Mô hình ph

ác đặc tr

khác nhau

D T H Thanh,

trong pha hu

ể ước l

tách ngu

Xây d

i

trưng phổ

), v

trưng phổ

Sau đó, m

thành phần theo công th

hình

thành phần

và

ực tiểu h

ạt c

ết hợp

Mô hình ph

ặc trưng ph

khác nhau

D T H Thanh,

trong pha hu

ớc l

tách nguồn

Xây dựng mô hình ph

là s

củ

), với

và ma tr

Sau đó, m

n theo công th

hình

n

và cập nh

ực tiểu hóa hàm giá (3)

t của

ết hợp

Mô hình ph

ưng ph

nên

D T H Thanh,

trong pha hu

ớc lượng các đặc tr

ồn.

ng mô hình ph

là số

ủa t

ới (

và ma tr

Sau đó, ma tr

n theo công th

ph

,

p nh

óa hàm giá (3)

a tín hi

ết hợp hai

Mô hình phổ

ưng ph

nên các đ

D T H Thanh,

trong pha huấn luyện

ợng các đặc tr

ng mô hình ph

ố mẫ

a từng m

( )

và ma trậ

a trận ph

n theo công th

hổ t

p nhật

óa hàm giá (3)

tín hi

hai lo

ổ tổ ưng phổ

các đ

D T H Thanh, N C Phương, N Q Cư

ấn luyện ợng các đặc tr

Hình

ng mô hình ph

ẫu hu

ng m

=

ận kích ho

n ph

n theo công th

tổng quát

= 1

t ma tr

óa hàm giá (3)

tín hiệu

loại

ổng quát

ổ trong mô hình GSSM các đặc tr

N C Phương, N Q Cư

ấn luyện ợng các đặc tr

Hình

ng mô hình ph

u huấ

ng mẫu đư (

n kích ho

n phổ

n theo công thứ

ng quát

1 .

ma tr

óa hàm giá (3)

u

i ràng bu

ng quát trong mô hình GSSM

ặc tr

ấn luyện.

ợng các đặc tr

Hình 1

ng mô hình ph

ấn luy

u đư ( )

n kích ho ( )

tổng quát

ức (1

=

ng quát

ma trận kích ho

óa hàm giá (3) Ma tr

theo

ràng bu

ng quát trong mô hình GSSM

ặc trưng c

Ph ợng các đặc trưng ph

Sơ đ

ng mô hình phổ t

n luy

u được ư .

là ma tr

n kích hoạ

min ) ,

ng quát

c (10

=

ng quát cho các tín hi theo

n kích ho

Ma tr theo

=

ràng bu

ng quát trong mô hình GSSM ưng c

Phần 3.

ưng ph

Sơ đồ t

tổng quát cho các ngu

n luyện

c ư

là ma tr

ạt củ min , (

ng quát 0)

( cho các tín hi theo công th

n kích ho

Ma tr công th

= [

ràng buộc thưa

sẽ có kích th trong mô hình GSSM ưng của tín hiệu c

ần 3.

ưng ph

ồ thu

ng quát cho các ngu

n thu th

c ước lư

là ma tr

ủa m ( )

ng quát

( )

,

cho các tín hi công th

n kích ho

Ma trận công th

,

c thưa

ẽ có kích th trong mô hình GSSM

ủa tín hiệu c

ần 3.2 đ ưng phổ của tín hiệu dựa tr

huật toán

thu th

c lư

là ma trậ

a mẫ

( )

… , cho các tín hi công th

n kích hoạt

n công thứ , … , …

c thưa

ủa tín hiệu c

N C Phương, N Q Cường

đề xuất công thức kết hợp

ổ của tín hiệu dựa tr

ật toán

thu thập đư

c lượng b

ận ph

ẫu th

củ

, ( cho các tín hi công thức (1

t trong t cũng

ức (1

… , ,

c thưa và

ủa tín hiệu c

ờng,

ề xuất công thức kết hợp

ật toán

p đư

ng b

n phổ

u thứ (

ủa tín hi

( ) cho các tín hiệ

c (1 trong t ũng

c (12

]

và mô hình NMF

ẽ có kích thư

đư

ủa tín hiệu cần tách

, “K

ật toán tác

p được

ng bằng cách t

ổ, , )

a tín hi

( ) ,

ệu ngu

c (11)

trong t ũng gồ 2)

],

]

mô hình NMF

ước lớn khi số mẫu được trích chọn từ nhiều mẫu huấn luyện

ần tách

“Kết hợp mô

tách ngu

c cho tín hi

ng cách t (

1 ≤ (

a tín hiệu

) ngu ) Ở trong từng b

ồm

mô hình NMF

ớc lớn khi số mẫu

ợc trích chọn từ nhiều mẫu huấn luyện

ần tách

ết hợp mô

h ngu

cho tín hi

ng cách t )

và

≤ )

∗

u

nguồn c

Ở pha ừng b

m

mô hình NMF

ần tách thư

ết hợp mô

h nguồn âm

ng quát cho các nguồn c

cho tín hi

ng cách tố

và

≤

∗ (

đư

=

n cầ pha ừng bước lặp thành ph

mô hình NMF

ợc trích chọn từ nhiều mẫu huấn luyện thường chỉ c

K

ết hợp mô hình th

n âm

n cầ

cho tín hiệ

ối ưu hóa hàm (

≤ ( )

đượ

= 1.

ần tách tách ngu

ớc lặp thành ph

mô hình NMF

ờng chỉ c

hình th

ổ của tín hiệu dựa trên mô hình

n âm đ

ần tách

ệu

i ưu hóa hàm )

lầ

,

ợc xác đ

.

n tách tách ngu

ớc lặp thành ph

mô hình NMF trong bư

ờng chỉ c

ỹ thuật điều khiển & Điện tử

hình thừa số hóa … đ

ên mô hình

đề xu

n tách

u ngu

i ưu hóa hàm

ần lư

xác đ

n tách tách ngu

ớc lặp theo công th thành phần

trong bư

ờng chỉ c

ừa số hóa … đ

ề xuất công thức kết hợp hai

ên mô hình

xuấ

n tách

nguồn

i ưu hóa hàm

n lượ

xác định

đư tách nguồn theo công th

n

trong bư

ớc lớn khi số mẫu huấn luyện

ờng chỉ chiếm

hai lo

ên mô hình

ất

n

i ưu hóa hàm

ợt là ma tr

nh

đượ

n, thu theo công th

là

trong bước tách ngu

ấn luyện

ếm

loại

ên mô hình GSSM

, ma tr

i ưu hóa hàm

t là ma tr

từ

ợc ghép t thuậ theo công th

là các

c tách ngu

ấn luyện

một phần

ại ràng bu GSSM

, ma tr theo công

t là ma tr

các ma tr

ghép t

ật toán s theo công thức (5) để

các

c tách ngu

ấn luyện

ột phần

ừa số hóa … đơn kênh.

ràng bu GSSM

, ma trậ theo công

t là ma trậ

các ma tr

ghép t

t toán s

ức (5) để các ma tr

c tách ngu

ấn luyện tăng

ột phần

ơn kênh.

ràng bu GSSM trong

ận đ theo công

ận đ

các ma tr

(1 ghép từ các

t toán sẽ

ức (5) để

ma tr

(1 (1

c tách nguồ

tăng

ột phần nh

ơn kênh.”

ràng buộc trong

n đặc theo công

n đặc

(9) các ma trận

(10) các

ẽ cố

ức (5) để

ma trận

(11) (12)

ồn

tăng Vì

nhỏ

”

ộc trong

c theo công

c

)

n

) các

ố

ức (5) để

n

)

Vì

ỏ

Trang 5

trong GSSM Hơn nữa, các đặc trưng quan trọng đó lại có thể nằm rải rác trong các mẫu khác nhau chứ không tập trung ở một vài mẫu cụ thể [13, 15] Để tìm ra những tập con của chứa đặc trưng phổ của tín hiệu cần tách, một số nghiên cứu trước đây đã đề xuất kết hợp nhóm ràng buộc thưa (sparsity constraint) trong quá

trình ước lượng ma trận với hàm giá như sau:

Ω( ) thể hiện sự ảnh hưởng của ràng buộc thưa, được gọi là hàm penalty [11] với là một hằng số dương xác định mức độ ảnh hưởng Có hai hàm penalty đã được công bố là block sparsity [6] và component sparsity [8, 9] lần lượt theo công thức (14) và (15) với là hằng số dương đủ nhỏ

Trong đó, ( ) là ma trận kích hoạt của block thứ , mỗi block tương ứng với một mẫu huấn luyện và = ∑ là tổng số mẫu huấn luyện được dùng, ‖ ‖

là l1-norm của ma trận hay véc tơ tương ứng Hàm Ω sẽ kích hoạt những block trong ma trận chứa đặc trưng phổ tương tự với tín hiệu nguồn cần tách, các block còn lại sẽ hội tụ về giá trị 0 [6] Hàm Ω với là véc tơ thứ của ma trận sẽ

kích hoạt những véc tơ trong chứa đặc trưng phổ giống đặc trưng phổ của tín hiệu nguồn cần tách [8]

Nhận thấy block sparsity tác động lên từng “block” của GSSM, tức là sẽ loại

bỏ hoặc giữ lại toàn bộ các đặc trưng phổ của một mẫu huấn luyện nào đó Như vậy, ràng buộc thưa này sẽ có thể bỏ qua những mẫu có ít đặc tính tương đồng với tín hiệu cần tách, hoặc cũng có thể giữ lại toàn bộ mẫu đó tùy theo độ lớn nhỏ của tham số λ trong công thức (13) Trong khi đó, component sparsity lại xem xét từng véc tơ trong mô hình GSSM nên có ưu thế hơn block sparsity trong việc trích chọn được những đặc trưng giá trị từ những mẫu ít tương đồng với nguồn cần tách Tuy nhiên, điều đó cũng làm cho việc loại bỏ các thành phần không tương đồng với đặc trưng của nguồn cần tách diễn ra khá chậm, dẫn đến tốc độ hội tụ của thuật toán chậm khi có kích thước lớn Từ những phân tích trên, chúng tôi đã đề xuất sử dụng kết hợp hai loại ràng buộc thưa để có thể loại bỏ nhanh những block không giá trị, đồng thời vẫn đảm bảo giữ lại được những đặc trưng quan trọng trong mô hình GSSM theo công thức sau [11, 12]:

Với là trọng số thể hiện sự đóng góp của mỗi loại ràng buộc thưa (0 ≤ ≤ 1) Công thức (16) chính là sự tổng quát hóa của (14) và (15): (16) sẽ hoạt động như một block sparsity khi = 1 và là component sparsity khi = 0 Với

0 < < 1, trong quá trình cập nhật, một số block sẽ hội tụ về 0 do ảnh hưởng của thành phần block sparsity, với những block còn lại, một số véc tơ cũng hội tụ về 0

do ảnh hưởng của thành phần component sparsity Như vậy, sau quá trình cập nhật,

Trang 6

88

những thành phần khác 0 còn lại sẽ kích hoạt những đặc trưng phổ phù hợp với tín

hiệu nguồn cần tách

Algorithm 1 NMF – Proposed

Ensure:

Khởi tạo với các giá trị không âm ngẫu nhiên

Repeat

//Tính toán thành phần block sparsity

( )

End for

//Tính toán thành phần component sparsity

‖ ‖

End for

//Cập nhật

∗ ( ( ) )).

//Cập nhật

Until Thỏa mãn điều kiện hội tụ

Thuật toán đề xuất được mô tả chi tiết trong Algorithm 1, trong đó, ( ) là ma

trận có cùng kích thước với ( ), là véc tơ có cùng kích thước với với

4 THÍ NGHIỆM

Để đánh giá hiệu quả của thuật toán đề xuất, chúng tôi đã thực hiện hai thí

nghiệm như sau:

 Thí nghiệm 1: Phân tách tiếng nói (speech) và âm thanh nhiễu môi trường

(noise) từ file thu âm tiếng nói chứa nhiễu

 Thí nghiệm 2: Phân tách giọng hát (vocals) và âm thanh các nhạc cụ

(music) từ file bài hát đã được thu âm

4.1 Dữ liệu thí nghiệm và cách thiết lập các tham số

Các thí nghiệm được thực hiện với dữ liệu chuẩn hóa được công bố tại các

website uy tín thuộc lĩnh vực nghiên cứu Ở mỗi thí nghiệm, dữ liệu được chia

thành hai tập riêng biệt cho hai pha huấn luyện và thử nghiệm như sau:

 Thí nghiệm 1

Trang 7

Tập mẫu huấn luyện cho tín hiệu speech gồm 3 file tiếng nói không chứa nhiễu

có kích thước 5 giây, 1 giọng nam và 2 giọng nữ1 Tập mẫu huấn luyện noise gồm

3 file có kích thước từ 10 đến 15 giây, là âm thanh của 3 loại nhiễu môi trường2: kitchen sound, bird song, metro Chúng được dùng để xây dựng mô hình phổ tổng quát cho tín hiệu speech và noise

Tập dữ liệu test gồm 12 file đơn kênh là tín hiệu trộn của speech và noise với tỷ

lệ tín hiệu trên nhiễu (Signal to Noise Ratio) SNR = 0 dB, các file có kích thước từ

5 đến 10 giây Tập test chứa nhiều loại nhiễu khác nhau và khác các mẫu trong tập huấn luyện Một số tín hiệu trộn có sự kết hợp hai loại nhiễu như: traffic + wind sound, ocean waves + wind sound, cafeteria + music, forest birds + car,

 Thí nghiệm 2

Tập mẫu huấn luyện vocals gồm 4 file với 2 giọng nam và 2 giọng nữ Tập mẫu huấn luyện cho music gồm 9 file: 3 file âm thanh bass, 3 file âm thanh drums và 3 file âm thanh các nhạc cụ khác Kích thước mỗi file trong tập huấn luyện từ 10 đến

15 giây3

Tập dữ liệu test gồm 5 file là trích đoạn của 5 bài hát có độ dài từ 14 đến 25 giây như mô tả trong bảng 14

Bảng 1 Dữ liệu test của thí nghiệm 2

3 Another dreamer - The ones we love 25 giây

4 Fort Minor - Remember the name 25 giây

Các tham số của thuật toán được thiết lập như sau: tần số lấy mẫu các file âm thanh là 16000 Hz, kích thước cửa sổ trong phép biến đổi Fourier là 1024 Số thành phần đặc trưng phổ của speech và noise lần lượt là 32 và 16, của bass và drums là 15, của các loại nhạc cụ khác là 25 và vocals là 32 Số bước lặp MU là 50 cho pha huấn luyện, và được thử nghiệm với các giá trị từ 1 đến 100 trong bước tách nguồn để khảo sát sự hội tụ của thuật toán Hai tham số và được thử nghiệm với tập các giá trị khác nhau để xem xét tính ổn định của thuật toán:

= {0, 1, 10, 25, 50, 100, 200, 500}, = {0, 0.2, 0.4, 0.6, 0.8, 1}

4.2 Phương pháp đánh giá kết quả

1

Speech ﬁles are from the International Signal Separation and Evaluation Campaign (SiSEC): http://sisec.wiki.irisa.fr/

2

Noise ﬁles are from the Diverse Environments Multichannel Acoustic Noise Database

(DEMAND): http://parole.loria.fr/DEMAND

3

Training data is from SiSEC: https://sisec.inria.fr/sisec-2016/2016-professionally-produced-music-recordings

4

Test data is from SiSEC: https://sisec.wiki.irisa.fr/tiki-index165d.html

Trang 8

90

Trên cùng một tập dữ liệu thử nghiệm và điều kiện thí nghiệm, chúng tôi so

sánh kết quả của thuật toán NMF cơ bản và kết quả của thuật toán đề xuất khi kết

hợp mô hình NMF với các nhóm ràng buộc thưa khác nhau như sau:

 NMF non-sparsity: Thuật toán NMF cơ bản được mô tả trong phần 2, dữ

liệu huấn luyện cho từng tín hiệu là 1 file ghép từ các file trong tập mẫu

huấn luyện tương ứng với tín hiệu đó (theo mô tả trong phần 4.1)

 NMF - B: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa

block sparsity theo công thức (14) [6]

 NMF - C: Thuật toán đề xuất, sử dụng kết hợp NMF với ràng buộc thưa

component sparsity theo công thức (15) [8, 9]

 Proposed NMF: Thuật toán đề xuất, sử dụng kết hợp NMF với hai loại

ràng buộc thưa block sparsity và component sparsity theo công thức (16)

Mỗi tín hiệu sau khi tách được tính toán các độ đo SDR (Source to Distortion

Ratio), SIR (Source to Interference Ratio), SAR (Source to Artifacts Ratio), đơn

vị đo dB Các độ đo càng lớn thì chất lượng của tín hiệu tách được là càng tốt Để

tính toán các độ đo đó, chúng tôi dùng bộ công cụ được cung cấp và sử dụng phổ

biến hiện nay trong cộng đồng nghiên cứu về xử lý âm thanh là BSS-EVAL

Tools [16]

4.3 Kết quả thí nghiệm và bình luận

Bảng 2 Độ đo trung bình của các tập tín hiệu sau khi tách

Thuật toán

SDR (dB)

SIR (dB)

SAR (dB)

SDR (dB)

SIR (dB)

SAR (dB)

NMF

NMF - B [6]

NMF - C [8, 9]

Proposed NMF

( = 50,

= 0.2)

NMF

NMF - B [6]

NMF - C [8, 9]

Proposed NMF

( = 50,

= 0.4)

Trang 9

Hình

nh 2.

Hình 3

Sự hội tụ của thuật toán với từng tín hiệu

3 Ả

ự hội tụ của thuật toán với từng tín hiệu

Ảnh hư

nh hư

nh hưởng c

ng c Noise

(

ng của Noise

(c) –

a , Noise, (c)

– Vocals, (

, α đ , (c)

Vocals, (

đối , (c) – Vocals, (d)

Vocals, (

ối với Vocals, (d)

Vocals, (d

ới k Vocals, (d)

d)

-kết quả Vocals, (d)

- Music

ết quả Vocals, (d)

Music

ết quả phân Vocals, (d) - Music

ự hội tụ của thuật toán với từng tín hiệu: (a)

Music

phân Music

: (a)

phân tách Music

: (a) –

tách

– Speech, (b)

tách: (a)

Speech, (b)

: (a) –

Speech, (b)

– Speech, (b)

Speech, (b)

Speech, (b) –

Speech, (b)

– Noise

Speech, (b)

Noise

Speech, (b) –

Noise,

–

Trang 10

92

Bảng 2 là độ đo trung bình của các tín hiệu sau khi tách từ tập dữ liệu test của

hai thí nghiệm, tương ứng với các thiết lập tham số và α tối ưu cho từng thuật

toán Sự hội tụ của thuật toán đề xuất theo từng tín hiệu được thể hiện trong hình 2

Hình 3 cho thấy sự ảnh hưởng của các tham số và α đối với kết quả phân tách

theo độ đo SDR

Với cả hai thí nghiệm, thuật toán đề xuất “Proposed NMF” sử dụng kết hợp

NMF với hai loại ràng buộc thưa block sparsity và component sparsity đều cho kết

quả tốt hơn ba thuật toán còn lại trên hầu hết các độ đo, đặc biệt là tốt hơn ở độ đo

quan trọng nhất SDR Điều này đã khẳng định hiệu quả của việc sử dụng kết hợp

hai loại ràng buộc thưa mà chúng tôi đề xuất so với các công bố trước đó Ngoài ra,

sự chênh lệch kết quả giữa thuật toán “NMF non-sparsity” và ba thuật toán còn lại

cũng cho thấy trong trường hợp dữ liệu huấn luyện không chính xác thì việc sử

dụng kết hợp các nhóm loại buộc thưa trong mô hình NMF đã giúp nâng cao đáng

kể chất lượng các nguồn âm thanh tách được

Khảo sát kỹ hơn về sự hội tụ và ổn định của thuật toán đề xuất, hình 2 cho thấy

thuật toán hội tụ nhanh sau khoảng 20 bước lặp và hội tụ khá đồng đều đối với các

loại tín hiệu tách khác nhau Tính ổn định của thuật toán được thể hiện trong hình 3

khi giá trị của các tham số và α thay đổi, có thể quan sát thấy thuật toán đạt kết

quả tốt và ổn định với giá trị 10 ≤ ≤ 50 và 0 ≤ ≤ 0.4 Ngoài ra, thuật toán

cũng ổn định hơn với giá trị α nhỏ

5 KẾT LUẬN

Trong bài báo, chúng tôi đã trình bầy thuật toán tách nguồn âm thanh có hướng

dẫn sử dụng mô hình NMF cơ bản Từ đó, để giải quyết bài toán tách nguồn âm

thanh đơn kênh và không có dữ liệu huấn luyện, chúng tôi đã đề xuất giải pháp xây

dựng mô hình phổ tổng quát cho các tín hiệu cần tách bằng một số file âm thanh

cùng loại thu thập được Trong quá trình phân tách, chúng tôi đề xuất công thức

kết hợp mô hình NMF với hai loại ràng buộc thưa để nâng cao hiệu quả ước lượng

tín hiệu cần tách dựa trên mô hình phổ tổng quát đã xây dựng Kết quả của hai thí

nghiệm thực hiện với hai loại dữ liệu khác nhau đã cho thấy hiệu quả của thuật

toán đề xuất Ngoài ra, thí nghiệm cũng cho thấy tốc độ hội tụ của thuật toán là khá

tốt và chỉ ra miền giá trị của các tham số để đảm bảo sự ổn định của thuật toán

Những đánh giá này rất hữu ích cho việc thiết lập tham số khi sử dụng thuật toán

trong các ứng dụng thực tế

Chúng tôi mong muốn sẽ tiếp tục phát triển thuật toán cho bài toán tách nguồn

âm thanh đa kênh theo hướng kết hợp mô hình NMF với mô hình xử lý thông tin

không gian (spatial model) Đồng thời, chúng tôi dự định sẽ tiến hành thử nghiệm

hiệu quả của thuật toán đối với hệ thống nhận dạng tiếng nói tự động (Automatic

Speech Recognition - ASR) trong thời gian gần đây

TÀI LIỆU THAM KHẢO

[1] "Source Separation and Speech Dereverberation", in Acoustic MIMO Signal

Processing, Boston, MA: Springer US, 2006, pp 319–351

[2] S Makino, T.-W Lee, and H Sawada, "Blind speech separation" Dordrecht,

the Netherlands: Springer, 2007

Định dạng
Số trang	12
Dung lượng	703,95 KB