Mô hình cốt lõi mà WaveNet sử dụng là mô hình tự hồi quy autoregressive model, mô hình cho phép tạo sinh mỗi mẫu âmthanh dựa trên thông tin về phân phối xác suất của các mẫu trước đó.. .
Trang 1Projects in Mathematics and Applications
Mô hình học sâu tự hồi quy trong tạo sinh âm thanh
Ngày 31 tháng 8 năm 2025
Vũ Thị Quỳnh Như ∗ †Phạm Vũ Gia Bảo
Dương Nghiệp Phát ‡ §Nguyễn Xuân Gia Khang
∗Trường THPT Chuyên Huỳnh Mẫn Đạt, Kiên Giang
†Trường THPT Chuyên Lê Quý Đôn, Bà Rịa-Vũng Tàu
‡Trường THPT Nguyễn Thị Minh Khai, TPHCM
§Trường Phổ thông Năng Khiếu, ĐHQG-TPHCM
Trang 2Lời cảm ơn
Chúng em xin chân thành gửi lời cảm ơn tới Ban tổ chức Trại hè PiMA, các nhà tài trợ, cácthầy cô, và Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia TP.HCM đã tận tình hướngdẫn và hỗ trợ chúng em trong suốt 8 ngày học tập và trải nghiệm tại trại Nhờ sự chỉ bảo tậntâm, những góp ý quý báu, và sự đồng hành kiên nhẫn của mọi người, chúng em đã học hỏiđược rất nhiều kiến thức mới về Toán học và các mô hình tạo sinh Đây sẽ là hành trang quantrọng để chúng em tiếp tục phát triển bản thân trong tương lai
Chúng em đặc biệt trân trọng những bài học và sự hướng dẫn của các mentors và chị NguyễnHoàng Ngọc Hà mentor của nhóm, sự cống hiến không ngừng nghỉ ấy chính là động lực đểchúng em thêm yêu thích nghiên cứu và rèn luyện tư duy
Chúng em kính chúc mọi người thật nhiều sức khỏe, niềm vui, và thành công trong sự nghiệpgiảng dạy cũng như nghiên cứu Kính chúc Trại hè PiMA sẽ ngày càng phát triển và mở rộng,mang lại nhiều trải nghiệm bổ ích cho các thế hệ học sinh tiếp theo
Tóm tắt nội dung
WaveNet là một trong những mô hình trí tuệ nhân tạo tiên phong trong lĩnh vực tổng hợpgiọng nói tự nhiên Khác với các phương pháp truyền thống, WaveNet dựa trên mô hình tự hồiquy (autoregressive model) để tạo sinh tín hiệu âm thanh thô (raw waveform) kế tiếp dựa trêntoàn bộ các mẫu tín hiệu âm thanh trước đó, từ đó tái tạo chuỗi âm thanh với độ mượt vàtính chân thực cao Quá trình này được thực hiện bằng cách lượng tử hóa tín hiệu âm thanhthành các mức rời rạc (thường là 256 mức) và biến bài toán dự đoán thành một phân loại đalớp, được tối ưu hóa thông qua hàm mất mát so sánh phân phối xác suất dự đoán với dữ liệugốc Kiến trúc của WaveNet kết hợp nhiều kỹ thuật học sâu quan trọng như tích chập nhânquả (Causal Convolution) để giữ trật tự thời gian, tích chập giãn cách (Dilated Convolution)
để mở rộng phạm vi phụ thuộc, cùng Residual và Skip Connections nhằm khắc phục vấn đềsuy giảm tín hiệu và vanishing gradient khi tăng số tầng mạng Nhờ đó, WaveNet không chỉđạt chất lượng vượt trội trong tổng hợp giọng nói mà còn được ứng dụng rộng rãi trong cácsản phẩm Google và nhiều lĩnh vực khác, từ hỗ trợ bệnh nhân ALS đến dịch ngôn ngữ và cánhân hóa trải nghiệm âm thanh
Trang 3Mục lục
1.1 Động lực nghiên cứu 1
1.2 WaveNet và sự chuyển mình trong tổng hợp giọng nói 1
1.3 Mục tiêu của báo cáo 1
2 Mô hình tự hồi quy 2 3 Xử lý dữ liệu đầu vào và hàm mục tiêu 3 3.1 Vấn đề lượng tử hoá tín hiệu âm thanh 3
3.2 Phân phối softmax 5
3.3 Hàm mục tiêu 6
4 Kiến trúc học sâu của WaveNet 7 4.1 Tổng quan kiến trúc 7
4.2 Tích chập nhân quả (Causal Convolution) 7
4.3 Tích chập giãn cách (Dilated Causal Convolution) 8
4.4 Gated Activation Units 10
4.5 Residual Connections và Skip Connections 11
4.6 Global and local conditional 13
4.7 Lập trình mô phỏng 15
5 Mở rộng: Mô hình Transformer 16 5.1 Giới thiệu về mô hình transformer 16
5.2 Cơ chế self-attention 16
5.3 Cơ chế masking 18
5.4 Ứng dụng của Tranformer trong bài toán tạo sinh audio 20
6 Ứng dụng và tổng kết 20 6.1 Ứng dụng của WaveNet 20
6.2 Tổng kết nội dung nghiên cứu 21
Trang 41 Giới thiệu
1.1 Động lực nghiên cứu
Trong nhiều thập kỷ, hầu hết các mô hình tạo ra giọng nói đều dùng phương pháp ghép nốitrực tiếp xử lý các âm thanh có sẵn để tạo ra đoạn âm thanh mong muốn [1] [2] Điều nàydẫn đến chất lượng âm thanh không ổn định, chưa kể tiêu tốn nguồn năng lượng và chi phí rấtlớn Từ đó, các nhà khoa học bắt đầu nghiên cứu cách để xây dựng một mô hình tạo sinh âmthanh tiên tiến hơn, có thể khác phục các vấn đề trước đó
1.2 WaveNet và sự chuyển mình trong tổng hợp giọng nói
WaveNet là một trong những mô hình trí tuệ nhân tạo đầu tiên có khả năng tạo ra giọng nói
tự nhiên dựa trên nguồn dữ liệu được huấn luyện sẵn [4] Điểm vượt trội của WaveNet so vớicác mô hình trước đó chính là khả năng giải quyết nhiều hạn chế như đã được đề cập ở trên, từ
đó mang lại chất lượng giọng nói gần gũi và chân thực hơn Sự xuất hiện của WaveNet khôngchỉ đánh dấu bước tiến lớn trong lĩnh vực tổng hợp giọng nói, mà còn mở ra nhiều phươngpháp nghiên cứu và công nghệ mới để tái tạo giọng nói tự nhiên Mô hình cốt lõi mà WaveNet
sử dụng là mô hình tự hồi quy (autoregressive model), mô hình cho phép tạo sinh mỗi mẫu âmthanh dựa trên thông tin về phân phối xác suất của các mẫu trước đó
1.3 Mục tiêu của báo cáo
Đầu tiên, chúng em sẽ giới thiệu nền tảng lý thuyết của mô hình tự hồi quy gồm các khái niệm,công thức, chức năng
Tiếp theo, chúng em sẽ phân tích chi tiết thành phần các mô hình Wavenet giúp người đọchiểu được cách mô hình phản ứng với dữ liệu đầu vào và phản ánh động thái của chuỗi thờigian - âm thanh Đồng thời chúng em sẽ nêu những ứng dụng của Wavenet
Cuối cùng, chúng em cũng rộng bài nghiên cứu qua việc nêu ý tưởng chính của mô hìnhTransformer Đồng thời chúng em sẽ so sánh những đặc điểm tương đồng với mô hình Wavenet
và nêu ứng dụng trong tạo sinh âm thanh
Trang 52 Mô hình tự hồi quy
Trong WaveNet, một đoạn âm thanh được xử lý sẽ trở thành dữ liệu chuỗi số theo thứ tự thờiđiểm Những mô hình tự hồi quy khác cũng làm điều tương tự Giả sử ta có một mẫu dữ liệu sốgồm một dãy n giá trị có thứ tự x1, x2, , xn, mô hình tự hồi quy tạo ra xác suất xảy ra của
dữ liệu xn+1 bằng cách sử dụng tập dữ liệu trước đó Khi đó, ta giả sử xác suất của các dữ liệu
x trước đó là x = x1, x2, , xi (i = 1, 2, , n) ảnh hưởng đến xác suất xảy ra dữ liệu xn+1
nên xác suất xảy ra dữ liệu xn+1 có thể được tính toán qua các giá trị xác suất có điều kiện
Và nhờ vào quy tắc chuỗi (chain rule), ta có thể biểu diễn xác suất chung của toàn bộ dãy
dữ liệu như tích của các xác suất có điều kiện, từ đó thu được công thức cho mô hình tự hồi quy
Mô hình tự hồi quy mô hình hoá phân phối xác suất của giá trị x = (x1, x2, , xn+1), x ∈ Rn
viết dưới dạng xác suất có điều kiện như sau:
Hình 1: Minh họa về mô hình tự hồi quy
Ngoài ra, WaveNet còn kết hợp mạng học sâu (một mô hình sử dụng mạng nơ-ron nhân tạo
và các lớp mạng thần kinh học sâu để học và trích xuất đặc trưng từ dữ liệu, được ứng dụngcho hầu hết các mô hình tạo sinh) vào kiến trúc tự hồi quy để ước lượng phân phối xác suấtp(x) Ta có khái niệm mở rộng mà ta có thể sử dụng cho mô hình mà WaveNet sử dụng là môhình học sâu tự hồi quy
Ngoài sử dụng trong tạo sinh dữ liệu âm thanh, mô hình học sâu tự hồi quy còn được ứng dụngtrong nhiều mô hình tạo sinh khác, nổi bật như:
Trang 6• Transformer: một mô hình tạo sinh dữ liệu ngôn ngữ bằng cách tổng hợp thông tin từcác từ xung quanh để xác định nghĩa của từ mới theo một ngôn ngữ nhất định trong ngữcảnh dựa trên cơ chế tự chú ý (self-attention) [10].
• PixelRNN: mô hình có khả năng tổng hợp, tạo và xử lý hình ảnh sử dụng mạng nơ-ronhồi quy để mô hình hoá quan hệ giữa các pixel Hình ảnh được tạo ra từ đây rất đa dạng,logic và có độ phân giải cao [6]
• PixelCNN: cũng là mô hình học máy được sử dụng để tổng hợp, tạo và xử lý hình ảnhbằng cách ứng dụng mạng nơ-ron tích chập thông qua giá trị của các pixel xung quanh
để tạo ra giá trị mới PixelCNN có khả năng xử lý dữ liệu nhanh chóng hơn nhưng lại khógiữ được độ chính xác cao khi so sánh với PixelRNN [5] [7],
• PixelCNN++: là một mô hình được phát triển trên cơ sở của PixelCNN thông qua việcthay đổi nhiều phần kiến trúc để khắc phục các vấn đề lớn của PixelCNN như thất thoátthông tin khi xử lý qua các lớp tích chập, chỉ có 256 giá trị trên mỗi pixel dẫn đến việchình ảnh không bắt mắt và mượt mà [8]
3 Xử lý dữ liệu đầu vào và hàm mục tiêu
3.1 Vấn đề lượng tử hoá tín hiệu âm thanh
Khi ta lượng tử hóa dữ liệu 16bi t, mỗi mẫu âm thanh sẽ sinh ra 216 lớp giá trị khác nhau trênđoạn từ [−1, 1] Số lượng lớp giá trị quá lớn dẫn tới dữ liệu trở nên cồng kềnh hơn, từ đó ảnhhưởng trực tiếp tới việc mô hình dự đoán chính xác phân phối xác suất có điều kiện P (xt | x<t)
Một giải pháp được đề xuất chính là trực tiếp lượng tử hóa tuyến tính âm thanh từ 16bi t xuốngcòn 8bi t Tuy nhiên, phương pháp này phân bổ cùng một độ phân giải cho mọi mức biên độ.Trong khi đó, tai người lại rất nhạy bén với các thay đổi âm thanh ở vùng biên độ thấp và ítnhạy bén hơn ở các vùng biên độ cao, dẫn tới việc khi ta trực tiếp lượng tử hóa 8bi t, ta sẽ dễ
bỏ sót các thay đổi ở các âm thanh với biên độ nhỏ từ đó làm giảm chất lượng âm thanh Hạnchế này là lý do vì sao phương pháp lượng tử hóa tuyến tính thường không được sử dụng vớicác mô hình xử lí âm thanh đề cao cảm nhận âm thanh
Trang 7Để giải quyết vấn đề này, ta sử dụng phương pháp µ-law companding trước khi lượng tử hóa.
Kĩ thuật này giúp phi tuyến tính hóa mẫu dữ liệu đồng thời tận dụng đặc tính của tai người.Hàm biến đổi µ-law companding được định nghĩa như sau :
F (x ) = sgn(x )·ln(1 + µ|x |)
ln(1 + µ)Trong đó:
• x ∈ [−1, 1] là biên độ đầu vào (sau khi lượng tử hóa 16 bit và chuẩn hóa về đoạn [−1, 1])
• µ = 255 là tham số nén (theo chuẩn North America)
Sau đây là đồ thị minh hoạ của hàm µ-law companding :
−1
−0.5
0.51
x
F (x )µ-law Companding, µ = 255
Lí do sử dụng hàm µ-law companding đến từ việc hàm này sử dụng tính chất đặc trưngcủa hàm logarit (hàm số tăng rất nhanh ở các giá trị x nhỏ nhưng lại rất chậm ở cácmức giá trị lớn) giúp khuếch đại tín hiệu yếu đồng thời nén các tín hiệu mạnh, tận dụngđặc tính nhạy bén của tai người Ngoài ra, hàm µ-law companding còn có hàm đảo ngược
F−1(y ) = sgn(y )·1
µ(1 + µ)|y |− 1 giúp ta khôi phục dữ liệu lại về gần đúng với nguyên trạng
Trang 8Sau khi áp dụng µ-law companding kết hợp với lượng tử hóa 8bi t, kết quả sinh ra sẽ là mộtmẫu dữ liệu được cân bằng giữa chất lượng âm thanh và tăng cường hiệu năng tính toán.
Ngoài ra, tìm hiểu về hàm µ-law companding, ta thấy nó còn có sự tương đồng với quy luậtWeber-Fechner trong tâm lý học khi mà cả hai đều tận dụng sự nhạy bén của cảm nhận conngười với các thay đổi nhỏ của các sự vật
3.2 Phân phối softmax
Trong WaveNet, sau khi dữ liệu âm thanh được lượng tử hóa thành một số hữu hạn mức rờirạc (thường là 256 mức), bài toán dự đoán một mẫu âm thanh tiếp theo trở thành một bàitoán phân loại đa lớp Ở mỗi bước thời gian t, mạng sinh ra một vector đầu ra có kích thướcbằng số mức lượng tử K (K trong mạng WaveNet của ta bằng 256)
Để chuyển các giá trị trong vector này thành một phân phối xác suất hợp lệ trên K lớp,WaveNet áp dụng softmax trên 256 lớp Cụ thể, xác suất dự đoán cho lớp thứ k tại thời điểm
trong đó zt,k là giá trị thứ k của vector đầu ra tại thời điểm t
Hàm Softmax đảm bảo hai tính chất quan trọng:
1 Mỗi xác suất pt,k đều nằm trong khoảng (0; 1)
2 Tổng các xác suất trên các lớp bằng 1
Trang 9Hình 2: Minh họa về phân phối softmax
trong đó K là số mức lượng tử của ta
Và ta hoàn toàn có thể tối thiểu hóa NLL qua việc tối ưu hóa hàm cross-entropy nhờ kết quả
Trang 10quan trọng trong bài báo của Zhou Shangnan và Yixu Wang [15].
âm thanh và sinh ra tín hiệu mới tự nhiên
4 Kiến trúc học sâu của WaveNet
4.1 Tổng quan kiến trúc
Một cách tổng quát, mô hình kiến trúc học sâu của Wavenet bao gồm 2 loại tích chập sử dụngkết hợp với nhau là Causal Convolution và Dilated Convolution, Gated Activation Units để lọcthông tin, cuối cùng là Residual và Skip connections giúp tăng hiệu quả lan truyền gradient củakết quả
4.2 Tích chập nhân quả (Causal Convolution)
Trong quá trình cố gắng khôi phục một đoạn dữ liệu như âm thanh thì tính tuần tự của thờigian rất quan trọng, sẽ không thực tế nếu để mô hình sử dụng dữ liệu tương lai trong việc dựđoán và khôi phục Để khắc phục điều đó, mô hình Wavenet sử dụng một loại tích chập đượcgọi là tích chập nhân quả (Causal Convolution)
Từ “causal” (nhân quả) bắt nguồn từ lĩnh vực xử lý tín hiệu, đặc biệt liên quan đến việc phântích các bộ lọc Tín hiệu là các hàm biến thiên theo thời gian và/hoặc không gian Bộ lọc đượcdùng để loại bỏ những thành phần không mong muốn của tín hiệu, chỉ giữ lại các đặc trưngquan trọng (ví dụ: các tần số nhất định hoặc vị trí các mẫu đặc trưng) Bộ lọc tuyến tính là bộlọc mà tại mỗi điểm thời gian hoặc không gian, đầu ra được tính bằng tổng có trọng số hoặc
Trang 11tích phân của các giá trị đầu vào, tức là thông qua tích chập (convolution) Một bộ lọc đượcgọi là causal nếu đầu ra không phụ thuộc vào các giá trị đầu vào trong tương lai.
Tương tự, causal convolution là một loại tích chập hoạt động dựa trên một nguyên tắc đượcgọi là causal constraint Nguyên tắc này đảm bảo rằng dữ liệu đầu ra không được sử dụngthông tin “tương lai”, tức là đầu ra tại thời điểm t chỉ được sử dụng thông tin từ trước thờiđiểm đó
Hình 3: Tích chập nhân quả (Causal Convolution) [4]
Tích chập nhân quả có tác dụng rất lớn đối với mô hình Wavenet, ngoài việc đảm bảo tínhtuần tự của dữ liệu, loại tích chập này còn giúp xử lý song song các dữ liệu trong quá trìnhhuấn luyện, làm tăng độ hiệu quả và mượt mà cho việc huấn luyện mô hình
4.3 Tích chập giãn cách (Dilated Causal Convolution)
Mặc dù lợi hại, nhưng tích chập nhân quả vẫn có hạn chế, vì bị giới hạn bởi kích thước của bộlọc (Kernel) nên vùng dữ liệu mà neuron được nhìn thấy (receptive field) bị giới hạn, khiến cho
dự đoán có khả năng bị sai số lớn hơn
Như đã nói ở trên, việc hạn chế receptive field sẽ làm tăng sai số của kết quả nên ta sử dụngmột loại tích chập đặc biệt gọi là Dilated Causal Convolution Đây là một loại tích chập mà bỏqua một vài dữ liệu đầu vào theo một quy tắc (số bước) nhất định gọi là Dilation rate
Trang 12Kĩ thuật này mở rộng kernel (bộ lọc) bằng cách chèn các khoảng trống giữa các phần tử liêntiếp của nó Nói một cách đơn giản, đây vẫn là tích chập thông thường nhưng có bỏ qua một
số giá trị, nhờ đó có thể bao phủ một vùng lớn hơn của đầu vào
Ví dụ: Với kernel size là 3 và dilation rate là 2, thay vì nhìn [xt−2, xt−1, xt], mô hình sẽ nhìn[xt−4, xt−2, xt]
Trong mô hình Wavenet, ta sử dụng Dilation rate ban đầu là 1 và tăng dần theo cấp số nhân
có công bội là 2 Tức là dilation rate tại tầng thứ n sẽ là 2n tại một giá trị trần, rồi lặp lại chu
kỳ này nhiều lần như (1, 2, 4, , 512, rồi quay lại 1, 2, 4, , 512, ) Khi nhiều lớp tíchchập giãn như vậy được xếp chồng, phạm vi ngữ cảnh theo thời gian mà mạng có thể “nhìnthấy” sẽ tăng theo cấp số nhân Như vậy, để tạo ra một điểm đầu ra, mạng cần xem xét một
số lượng lớn mẫu đầu vào Kiến trúc này được coi là tối ưu vì nó cân bằng được ba yếu tố: khảnăng bao quát ngữ cảnh dài, chi phí tính toán, và chất lượng mô hình [4]
Hình 4: Tích chập giãn cách (Dilated Causal Convolution)
Giả sử chiều rộng bộ lọc (kernel) là 2 và bước nhảy (stride) là 1, tổng trường tiếp nhận R của
mô hình Wavenet với L tầng sử dụng dilated convolution có thể được tính bằng:
Trang 13• 2l: độ giãn (dilation) tại tầng thứ l
Trong mô hình WaveNet, để cải thiện khả năng học các mối quan hệ phức tạp trong tín hiệu
âm thanh, mỗi lớp tích chập được trang bị một hàm cổng kích hoạt (gated activation unit),được lấy cảm hứng từ mô hình PixelCNN [7]
Theo đó mỗi lớp tích chập đều có một activation unit (cơ chế kích hoạt) :
z = tanh(Wf ,k∗ x) ⊙ σ(Wg,k∗ x)
trong đó, x là giá trị đầu vào, ∗ để chỉ phép tích chập, ⊙ để chỉ phép nhân từng phần tử, k chỉ
số lớp tích chập, f và g lần lượt chỉ số kernel của hàm lọc (hàm kích hoạt tanh) và hàm cổng(hàm kích hoạt sigmoid) Wf ,k và Wg,k chỉ các trọng số (weight) có thể học được trong quátrình luyện mô hình
Hàm tanh có công thức tanh(x ) = eexx−e+e−x−x (với x là các feature map đầu vào của hàm tanh)
có công dụng chuẩn hóa phi tuyến tính đầu ra của các lớp tích chập về đoạn [−1, 1] Các giátrị gần 1 (hoặc -1) sẽ là các đặc trưng mà hàm tanh muốn phóng đại hoặc thu nhỏ, các giá trịgần 0 là các tín hiệu yếu không mang các thông tin quan trọng Tính chất đối xứng của hàmtanh rất quan trọng trong các mô hình tạo sinh âm thanh do khả năng nhận biết sự cực tính(polarity) trong mẫu dữ liệu