1. Trang chủ
  2. » Luận Văn - Báo Cáo

Multi channel speech enhancement using graph neural networks

11 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Multi Channel Speech Enhancement Using Graph Neural Networks
Định dạng
Số trang 11
Dung lượng 755,14 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MÔ HÌNH MẠNG END-TO-END • IV.. GIỚI THIỆU • Nâng cao chất lượng giọng nói sử dụng tín hiệu thu được từ nhiều micro trong môi trường nhiễu là vấn đề gần đây được nghiên cứu chủ yếu theo h

Trang 2

MULTI-CHANNEL SPEECH

ENHANCEMENT USING

GRAPH NEURAL

NETWORKS

Trang 3

MỤC LỤC

• I GIỚI THIỆU

• II SƠ LƯỢC VỀ GRAPH

• III MÔ HÌNH MẠNG END-TO-END

• IV XÂY DỰNG GRAPH

• V THIẾT LẬP HUẤN LUYỆN

Trang 4

I GIỚI THIỆU

• Nâng cao chất lượng giọng nói sử dụng tín hiệu thu được từ nhiều micro

trong môi trường nhiễu là vấn đề gần đây được nghiên cứu chủ yếu theo

hướng MVDR beamformer (sử dụng mạng neuron học sâu kết hợp với các phép lọc trong không gian – spatial filtering)

• Bài báo đưa ra hướng tiếp cận mới: Coi mỗi kênh (micro) là một nốt (node) trong đồ thị (graph) và sử dụng mạng end-to-end để học các tính chất của đồ thị này

Trang 5

II SƠ LƯỢC VỀ GRAPH

• V là tập các nút của đồ thị (node)

• E là tập các cạnh của đồ thị (edge)

• Ma trận kề (Adjacency matrix) kích thước nxn

• Ma trận bậc (Degree matrix) nxn chứa thông tin bậc của mỗi nút

Undirected graph G = (V, E)

Trang 6

6 III MÔ HÌNH MẠNG END-TO-END

Trang 7

III MÔ HÌNH MẠNG END-TO-END

• Loss function được tính trên 3 miền khác nhau là phổ biên độ, phổ phức và waveform Tổng sẽ có 4 hàm loss khác nhau:

Trang 8

IV XÂY DỰNG GRAPH

• Coi M micro là M nút của đồ thị, mỗi nút này đi liền với N đặc trưng Mỗi

nút sẽ được nối với tất cả (M-1) nút còn lại

(10 x 2 x 1000 x 161)

(10 x 256 x 14 x 1)

(10 x 3584)

• Mỗi cạnh nối nút Vi và Vj của đồ thị đều được gán trọng số bằng cách nối 2 tensor đặc trưng của 2 nút và tổng hợp kết quả qua một hàm phi tuyến

(3584)||(3584) mean(7168) weight (Vi,Vj)

Trang 9

IV XÂY DỰNG GRAPH

• Xây dựng ma trận kề bằng cách chuẩn hóa sao cho trọng số của mỗi nút có tổng bằng 1

• Ma trận bậc của đồ thị

• Dữ liệu sau khi được xây dựng với cấu trúc graph được đưa qua các lớp GCN

có công thức:

Trang 10

V THIẾT LẬP HUẤN LUYỆN

• Sử dụng LibriSpeech dataset bao gồm 1000h (16 kHz)

• Tiến hành mô phỏng âm thanh trong phòng với 3 kiểu theo 3 loại mảng là

linear, circular and distributed

• Với dạng distributed thì chọn ngẫu nhiên vị trí microphone trong phòng

• Thí nghiệm với M (2-4) microphones bao gồm 1 giọng nói và M-1 tín hiệu nhiễu, được chọn ngẫu nhiên từ AudioSet và phân bố ngẫu nhiên trong phòng

• SNR của tín hiệu tổng hợp được chọn từ -7.5 – 7.5 dB

• Dữ liệu train/ development / test được khởi tạo từ 3/2/1 phòng khác nhau

Trang 11

THANK YOU !

Ngày đăng: 13/11/2023, 04:41

w