MÔ HÌNH MẠNG END-TO-END • IV.. GIỚI THIỆU • Nâng cao chất lượng giọng nói sử dụng tín hiệu thu được từ nhiều micro trong môi trường nhiễu là vấn đề gần đây được nghiên cứu chủ yếu theo h
Trang 2MULTI-CHANNEL SPEECH
ENHANCEMENT USING
GRAPH NEURAL
NETWORKS
Trang 3MỤC LỤC
• I GIỚI THIỆU
• II SƠ LƯỢC VỀ GRAPH
• III MÔ HÌNH MẠNG END-TO-END
• IV XÂY DỰNG GRAPH
• V THIẾT LẬP HUẤN LUYỆN
Trang 4I GIỚI THIỆU
• Nâng cao chất lượng giọng nói sử dụng tín hiệu thu được từ nhiều micro
trong môi trường nhiễu là vấn đề gần đây được nghiên cứu chủ yếu theo
hướng MVDR beamformer (sử dụng mạng neuron học sâu kết hợp với các phép lọc trong không gian – spatial filtering)
• Bài báo đưa ra hướng tiếp cận mới: Coi mỗi kênh (micro) là một nốt (node) trong đồ thị (graph) và sử dụng mạng end-to-end để học các tính chất của đồ thị này
Trang 5II SƠ LƯỢC VỀ GRAPH
• V là tập các nút của đồ thị (node)
• E là tập các cạnh của đồ thị (edge)
• Ma trận kề (Adjacency matrix) kích thước nxn
• Ma trận bậc (Degree matrix) nxn chứa thông tin bậc của mỗi nút
Undirected graph G = (V, E)
Trang 66 III MÔ HÌNH MẠNG END-TO-END
Trang 7III MÔ HÌNH MẠNG END-TO-END
• Loss function được tính trên 3 miền khác nhau là phổ biên độ, phổ phức và waveform Tổng sẽ có 4 hàm loss khác nhau:
Trang 8IV XÂY DỰNG GRAPH
• Coi M micro là M nút của đồ thị, mỗi nút này đi liền với N đặc trưng Mỗi
nút sẽ được nối với tất cả (M-1) nút còn lại
(10 x 2 x 1000 x 161)
(10 x 256 x 14 x 1)
(10 x 3584)
• Mỗi cạnh nối nút Vi và Vj của đồ thị đều được gán trọng số bằng cách nối 2 tensor đặc trưng của 2 nút và tổng hợp kết quả qua một hàm phi tuyến
(3584)||(3584) mean(7168) weight (Vi,Vj)
Trang 9IV XÂY DỰNG GRAPH
• Xây dựng ma trận kề bằng cách chuẩn hóa sao cho trọng số của mỗi nút có tổng bằng 1
• Ma trận bậc của đồ thị
• Dữ liệu sau khi được xây dựng với cấu trúc graph được đưa qua các lớp GCN
có công thức:
Trang 10V THIẾT LẬP HUẤN LUYỆN
• Sử dụng LibriSpeech dataset bao gồm 1000h (16 kHz)
• Tiến hành mô phỏng âm thanh trong phòng với 3 kiểu theo 3 loại mảng là
linear, circular and distributed
• Với dạng distributed thì chọn ngẫu nhiên vị trí microphone trong phòng
• Thí nghiệm với M (2-4) microphones bao gồm 1 giọng nói và M-1 tín hiệu nhiễu, được chọn ngẫu nhiên từ AudioSet và phân bố ngẫu nhiên trong phòng
• SNR của tín hiệu tổng hợp được chọn từ -7.5 – 7.5 dB
• Dữ liệu train/ development / test được khởi tạo từ 3/2/1 phòng khác nhau
Trang 11THANK YOU !