Báo cáo bài tập lớn phương pháp lpc nén âm thanh số

KHÁI NIỆM VỀ LPC Mã hóa dự đoán tuyến tính LPC là một phương pháp được sử dụng chủ yếu trong xử lý tínhiệu âm thanh và xử lý giọng nói để biểu diễn quang phổ của tín hiệu kỹ thuật số của

TỔNG QUAN VỀ LPC (LINEAR PREDICTIVE CODING)

KHÁI NIỆM VỀ LPC

Mã hóa dự đoán tuyến tính LPC là phương pháp chính trong xử lý tín hiệu âm thanh và giọng nói, giúp biểu diễn quang phổ của tín hiệu kỹ thuật số dưới dạng nén nhờ sử dụng mô hình dự đoán tuyến tính LPC được coi là phương pháp phổ biến nhất trong mã hóa và tổng hợp giọng nói, mang lại hiệu quả cao trong phân tích và tổng hợp tín hiệu thoại Đây là kỹ thuật mạnh mẽ để phân tích giọng nói, giúp mã hóa giọng nói chất lượng tốt với tốc độ bit thấp, phù hợp cho các ứng dụng yêu cầu truyền tải dữ liệu hiệu quả.

TỔNG QUAN

LPC dựa trên giả thuyết rằng tín hiệu giọng nói bắt nguồn từ một bộ rung tại cuối ống thanh quản, có thể kèm theo tiếng rít và âm bật trong các âm không có giọng nói như sibilants và plosives Mặc dù mô hình này còn sơ khai, nó vẫn phản ánh khá chính xác quá trình sản xuất giọng nói thực tế Thanh môn tạo ra tiếng vang qua các nếp gấp thanh quản, đặc trưng bởi cường độ và tần số, trong khi đường thanh âm hình thành trong cổ họng và miệng hoạt động như một ống cộng hưởng, tạo ra các dải tần số đặc trưng cho âm thanh Tiếng rít và tiếng bật xuất hiện do tác động của lưỡi, môi và cổ họng trong các âm sibilants và plosives, góp phần định hình đặc trưng của tín hiệu giọng nói.

LPC phân tích tín hiệu giọng nói bằng cách ước tính các chất tạo hình, giúp loại bỏ ảnh hưởng của chúng khỏi tín hiệu để nâng cao chất lượng âm thanh Quá trình này thực hiện qua kỹ thuật lọc nghịch đảo, nhằm loại bỏ các yếu tố nhiễu và tạo hình không mong muốn trong tín hiệu giọng nói Sau khi trừ đi các tín hiệu đã lọc, phần dư lượng còn lại thể hiện các đặc điểm còn sót lại của tiếng vang và các thành phần phụ trong tín hiệu Phân tích LPC giúp xác định các đặc điểm quan trọng của giọng nói, từ đó cải thiện hiệu quả trong xử lý và nhận dạng âm thanh.

Các con số mô tả cường độ và tần số của buzz, các formants và tín hiệu dư lượng có thể được lưu trữ hoặc truyền tải để phục vụ các ứng dụng phân tích hoặc tái tạo giọng nói Công nghệ LPC xây dựng tín hiệu giọng nói bằng cách đảo ngược quy trình, sử dụng các tham số buzz và dư lượng để tạo nguồn, sau đó dùng các formants làm bộ lọc đại diện cho ống phát âm, chạy nguồn qua bộ lọc để tổng hợp lời nói một cách chính xác.

Tín hiệu giọng nói thay đổi liên tục theo thời gian, do đó, quá trình xử lý thường được thực hiện trên các đoạn ngắn của tín hiệu gọi là khung Mỗi giây, thường từ 30 đến 50 khung hình được sử dụng để phân tích, giúp đảm bảo khả năng diễn đạt rõ ràng của bài phát biểu và tối ưu hoá độ nén dữ liệu.

TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI

TIẾNG NÓI VÀ ĐẶC ĐIỂM CỦA TIẾNG NÓI

Tiếng nói là phương tiện chính để con người giao tiếp, được tạo ra từ tư duy và điều khiển của trung khu thần kinh thông qua hệ thống phát âm Tiếng nói truyền trong không khí dưới dạng sóng âm thanh dọc, đặc trưng bởi sự biến thiên liên tục về thời gian và độ biến đổi tần số rộng, nhưng con người chỉ nhận biết được trong khoảng 20-20,000 Hz Sóng siêu âm có tần số trên 20,000 Hz, còn sóng hạ âm có tần số dưới 20 Hz Trong thực tế, dải tần số của tín hiệu tiếng nói thường được hạn chế từ 300 đến 3,500 Hz, giúp quá trình phân tích và tổng hợp tiếng nói chỉ cần một số tham số chính để biểu diễn tín hiệu này.

Hình 1.1 Mô phỏng quá trình truyền tiếng nói trong không khí

Về bản chất vật lý, sóng âm, sóng siêu âm và sóng hạ âm đều là các loại sóng cơ học, không khác nhau về bản chất Sự phân biệt giữa các loại sóng này dựa trên khả năng cảm thụ của tai người, do đặc tính sinh lý của tai quyết định Vì vậy, sóng âm thanh được phân thành hai loại dựa trên đặc tính vật lý và đặc tính âm học.

1.1 Đặc tính vật lý của âm thanh

Âm thanh tiếng nói là sóng cơ học, mang các đặc tính của sóng cơ học Các đặc tính này trở nên ý nghĩa đặc biệt khi được xét dưới góc độ âm thanh tiếng nói Tín hiệu âm thanh tiếng nói là một tín hiệu ngẫu nhiên không dừng, nhưng có những đặc điểm ổn định trong vài chục mili giây, thời gian đủ để coi nó như gần tuần hoàn và có thể xem như tín hiệu tuần hoàn trong phạm vi ngắn này.

1.1.1 Độ cao (Pitch) Độ cao hay còn gọi là độ trầm bổng của âm thanh chính là tần số của sóng cơ học Âm thanh nào phát ra cũng ở một độ cao nhất định Độ trầm bổng của âm thanh phụ thuộc vào sự chấn động nhanh hay chậm của các phần tử trong không khí trong một đơn vị thời gian nhất định Nói cách khác, độ cao của âm phụ thuộc vào tần số dao động Đối với tiếng nói, tần số dao động của dây thanh quy định độ cao giọng nói của con người và mỗi người có một độ cao giọng nói khác nhau. Độ cao của nữ giới thường cao hơn so với nam giới và độ cao tiếng nói của trẻ em cao hơn so với nữ giới, điều này cũng tương tự đối với tần số của dây thanh.

Cường độ âm thanh thể hiện mức độ to nhỏ của âm, với cường độ lớn hơn giúp âm truyền xa hơn trong môi trường có nhiều nhiễu Trong sóng cơ học, cường độ tương ứng với biên độ dao động của sóng âm, quyết định năng lượng của âm thanh đó Trong tiếng nói, nguyên âm thường có cường độ lớn hơn phụ âm, giúp chúng ta dễ nhận biết hơn Tuy nhiên, đối với tai người, giá trị tuyệt đối của cường độ âm không quan trọng bằng tỷ lệ so với một giá trị chuẩn, được đo bằng mức cường độ âm (L), xác định bằng logarith của tỷ số I/I₀, đơn vị đo là Ben (B).

Trường độ hoặc độ dài của âm phụ thuộc vào tốc độ chấn động của các phần tử không khí, phản ánh mức độ nhanh hay chậm của sóng âm Mặc dù là cùng một âm, nhưng trong các từ khác nhau, độ dài của âm có thể khác nhau do sự khác biệt trong cách phát âm Điều này ảnh hưởng đến cách người nghe cảm nhận và phân biệt các từ có âm giống nhau Hiểu rõ về độ dài của âm giúp cải thiện khả năng phát âm và nhận biết âm trong ngôn ngữ Tối ưu hóa nội dung theo SEO giúp tăng khả năng tiếp cận và truyền đạt thông tin chính xác về đặc điểm của âm trong ngôn ngữ.

1.1.4 Âm sắc Âm sắc là bản sắc, sắc thái riêng của một âm, cùng một nội dung, cùng một độ cao nhưng khi nói mỗi người đều có âm sắc khác nhau.

1.2 Đặc tính âm học của âm thanh

Tín hiệu tiếng nói là dạng tín hiệu tương tự biểu diễn thông tin ngôn ngữ, được mô tả qua các âm vị khác nhau Số lượng âm vị trong mỗi ngôn ngữ thường dao động từ 20 đến 30, và ít khi vượt quá 50 Các âm vị mang các đặc tính âm thanh riêng biệt và được chia thành hai loại chính là nguyên âm và phụ âm Tổ hợp các âm vị này tạo thành âm tiết, đóng vai trò là đơn vịFrom tạo thành các từ mang ý nghĩa trọn vẹn trong ngôn ngữ.

Nguyên âm được hình thành nhờ sự cộng hưởng của dây thanh khi dòng khí được đẩy lên qua thanh môn, tạo ra các âm vị khác nhau Khoang miệng đóng vai trò quan trọng trong việc xác định hình dạng và đặc điểm của từng nguyên âm, với mỗi nguyên âm mang đặc trưng bởi ba formant đầu tiên Số lượng nguyên âm khác nhau phụ thuộc vào đặc điểm của từng ngôn ngữ, trong đó các formant tiếp theo thường ít mang thông tin hơn về âm vị.

Phụ âm được hình thành do dòng khí hỗn loạn phát ra gần các điểm co thắt của đường dẫn âm thanh trong quá trình phát âm Phụ âm tắc được tạo ra khi dòng không khí tại chỗ đóng của vòm miệng bị chặn lại, trong khi phụ âm xát xuất phát từ vùng co thắt lớn nhất trong khẩu hình Các âm tắc xát được phát ra từ khoảng giữa của đường dẫn âm, phụ thuộc vào vị trí co thắt Phụ âm còn có đặc tính hữu thanh hoặc vô thanh, tùy thuộc vào việc dây thanh có dao động để tạo cộng hưởng hay không Đặc tính của phụ âm phụ thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và cách truyền dẫn âm trong quá trình phát âm.

Trong quá trình giao tiếp, thời gian nói và thời gian nghỉ xen kẽ nhau, tạo thành tỷ lệ thời gian nói so với tổng thời gian nói và nghỉ Tỷ lệ này phản ánh tốc độ nói của người nói, giúp phân loại thành các kiểu nói như nói nhanh, nói chậm hay nói bình thường Hiểu rõ tỷ lệ thời gian này có vai trò quan trọng trong phân tích phong cách giao tiếp và ứng dụng trong các lĩnh vực như ngôn ngữ học và giảng dạy.

1.2.4 Hàm năng lượng thời gian ngắn

Hàm năng lượng thời gian ngắn của tiếng nói đo lường năng lượng trong từng đoạn nhỏ của tín hiệu âm thanh Quá trình này thực hiện bằng cách chia tín hiệu tiếng nói thành nhiều khung chứa N mẫu, sau đó tính diện tích trung bình của tổng các mẫu trong mỗi khung để phản ánh năng lượng tại thời điểm đó Các khung này được áp dụng qua một cửa sổ có dạng hàm nhất định nhằm tăng độ chính xác trong phân tích tín hiệu âm thanh, giúp xác định cường độ âm thanh theo thời gian một cách rõ ràng và chính xác hơn.

Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ chữ nhật, cửa sổ Hamming và cửa sổ Hanning

Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau :

Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh.

1.2.5 Tần số vượt qua điểm không

Tần suất vượt qua điểm không đo lường số lần biên độ tín hiệu tiếng nói vượt qua giá trị không trong một khoảng thời gian xác định Thông thường, giá trị này cao hơn đối với âm vô thanh so với âm hữu thanh do đặc tính ngẫu nhiên của âm vô thanh Do đó, tần suất vượt qua điểm không là tham số quan trọng giúp phân biệt giữa âm hữu thanh và âm vô thanh.

Trong xử lý tiếng nói, việc xác định chính xác thời điểm bắt đầu và kết thúc của tín hiệu nói là rất quan trọng, đặc biệt trong môi trường nhiều tiếng ồn hoặc có nhiều người nói Để phát hiện điểm kết thúc của tiếng nói, có nhiều phương pháp khác nhau, trong đó một phương pháp đơn giản là lấy mẫu nhỏ của nền nhiễu trong khoảng thời gian yên tĩnh trước khi bắt đầu nói và sử dụng hàm năng lượng thời gian ngắn để tính năng lượng của mẫu đó Ngưỡng tín hiệu được chọn là giá trị trung bình giữa năng lượng yên tĩnh và năng lượng đỉnh, dựa trên giả thiết rằng điểm cuối xuất hiện khi năng lượng tín hiệu vượt quá ngưỡng này Để định vị chính xác điểm kết thúc, phương pháp so sánh sự thay đổi năng lượng trong vùng yên tĩnh và ngoài ngưỡng giả thiết, xác định điểm cuối khi sự thay đổi trong tần suất xuất hiện vượt qua ngưỡng đã thiết lập.

Dạng sóng của tiếng nói bao gồm phần gần giống nhiễu với biên độ biến đổi ngẫu nhiên và phần tuần hoàn chứa các thành phần tần số điều hòa, trong đó tần số thấp nhất là tần số cơ bản và cũng chính là tần số dao động của dây dây thanh Tần số cơ bản của giọng nói khác nhau giữa các người nói, thường cao hơn ở trẻ em và nữ giới, thấp hơn ở người lớn nam giới; ví dụ, tần số này dao động theo giới tính và tuổi Đối với hai âm có cùng cường độ và độ cao, khả năng phân biệt dựa trên tính tuần hoàn; âm hữu thanh có tín hiệu gần như tuần hoàn sẽ xuất hiện một vạch đặc trưng tại tần số thấp trong phân tích phổ, đặc trưng cho tần số cơ bản của âm Trong giao tiếp bình thường, tần số cơ bản liên tục thay đổi tạo nên ngữ điệu cho tiếng nói, và hình ảnh tín hiệu trên miền thời gian cùng phổ tần số thể hiện rõ các nguyên âm a, i, u, với đỉnh đầu tiên của phổ tương ứng chính là tần số cơ bản F0.

MỘT SỐ KIẾN THỨC CHUNG VỀ XỬ LÝ TÍN HIỆU RỜI RẠC

2.1 Mô hình hệ xử lý tín hiệu rời rạc

Hệ xử lý tín hiệu xác lập mối quan hệ nhân quả giữa tín hiệu vào và tín hiệu ra, được biểu diễn bằng mô hình toán học thông qua phép biến đổi hoặc toán tử T Tín hiệu vào x(n) được gọi là tác động, còn tín hiệu ra y(n) được gọi là đáp ứng của hệ xử lý Mối quan hệ giữa tín hiệu vào và tín hiệu ra của hệ có thể được mô tả rõ ràng qua các biểu diễn toán học, giúp phân tích và thiết kế hệ xử lý tín hiệu hiệu quả hơn.

Hình 1.5 Mô hình hệ xử lý biến đổi tín hiệu vào x(n) thành tín hiệu ra y(n)

Các hệ xử lý được phân thành hai loại chính là hệ tuyến tính và hệ phi tuyến Một hệ thống được gọi là tuyến tính khi nó thỏa mãn nguyên lý xếp chồng, tức là đáp ứng của hệ thống đối với tổng các đầu vào bằng tổng các đáp ứng riêng lẻ của từng đầu vào Điều này có nghĩa rằng hệ thống tuyến tính phải đáp ứng theo các tính chất như cộng tồn và hệ số tỷ lệ, đảm bảo quá trình xử lý tín hiệu diễn ra một cách dễ dàng và chính xác Các hệ phi tuyến không tuân theo nguyên lý xếp chồng, gây ra các phản ứng phức tạp hơn trong quá trình xử lý tín hiệu Hiểu rõ đặc điểm của hệ tuyến tính và phi tuyến giúp lựa chọn phương pháp xử lý phù hợp với từng ứng dụng.

Các hệ tuyến tính đóng vai trò quan trọng trong phân tích và xử lý dữ liệu, giúp đơn giản hóa các hệ phức tạp bằng cách chuyển đổi thành các hệ tuyến tính dễ xử lý hơn Nhờ đó, quá trình xử lý trở nên hiệu quả hơn, đặc biệt khi các hệ phi tuyến được xấp xỉ thành các hệ tuyến tính để thuận tiện trong tính toán Việc này giúp giảm thiểu độ phức tạp và tăng độ chính xác trong phân tích dữ liệu, đóng vai trò quan trọng trong các ứng dụng khoa học và kỹ thuật hiện đại.

Các hệ tuyến tính được phân thành hai loại chính là hệ tuyến tính bất biến và hệ tuyến tính thay đổi theo thời gian Trong lĩnh vực xử lý tín hiệu, thông thường chúng ta tập trung vào các hệ tuyến tính bất biến vì tính ổn định và dễ phân tích của chúng Một hệ tuyến tính được gọi là bất biến theo thời gian khi đáp ứng của hệ đối với tác động x(n) sẽ luôn có dạng y(n), và đáp ứng đối với tác động x(n−k) sẽ là y(n−k), thể hiện tính tuyến tính và quyền chuyển đổi theo thời gian một cách chính xác.

Các hệ tuyến tính bất biến được đặc trưng hoàn toàn bởi đáp ứng xung h(n), là đáp ứng của hệ thống khi tác động là xung Dirac δ(n) Việc biết h(n) cho phép chúng ta dễ dàng tính toán đáp ứng của hệ thống đối với bất kỳ tín hiệu đầu vào nào thông qua phép biến đổi convolution, được thể hiện bằng công thức y(n) = h(n) * x(n) = ∑ x(k) · h(n – k).

Trong xử lý tín hiệu tiếng nói, các hệ thống tuyến tính bất biến đóng vai trò quan trọng, giúp chúng ta dễ dàng ứng dụng các tính chất và kết quả của hệ tuyến tính bất biến để phân tích và khảo sát tín hiệu tiếng nói một cách chính xác và hiệu quả.

MÔ HÌNH TẠO TIẾNG NÓI

Tiếng nói là dạng âm thanh đặc biệt được phân biệt với các âm thanh khác nhờ các đặc tính âm học xuất phát từ cơ chế tạo tiếng nói Trong quá trình phát ra, tiếng nói có hai nguồn âm chính, giúp nhận diện và phân biệt nó so với các loại âm thanh khác.

Nguồn tuần hoàn là nguồn âm phát ra làm cho dây thanh rung, tạo ra các âm trong quá trình phát âm Trong tiếng Việt, nguồn tuần hoàn tương ứng với các nguyên âm và các phụ âm hữu thanh, góp phần hình thành cấu trúc âm của từ vựng Hiểu rõ về nguồn tuần hoàn giúp cải thiện kỹ năng phát âm và nhận diện âm correctly trong tiếng Việt.

Nguồn không tuần hoàn, hay còn gọi là nguồn tạp âm, là loại nguồn âm không gây ra rung động dây thanh khi phát ra Trong tiếng Việt, các nguồn không tuần hoàn thường liên quan đến các phụ âm vô thanh Chúng góp phần tạo ra âm tạp và ảnh hưởng đến đặc điểm âm thanh của lời nói Hiểu rõ về nguồn không tuần hoàn giúp phân tích đặc trưng âm vị và cải thiện chất lượng âm thanh trong nghiên cứu ngôn ngữ.

Trong quá trình tạo tiếng nói, nguồn tuần hoàn nằm tại chính thanh môn, còn nguồn không tuần hoàn xuất phát trong tuyến âm, tức từ thanh môn trở lên đến dưới môi Fant (1960) đã mô hình hoá quá trình này thông qua mô hình đơn giản phản ánh sự truyền sóng âm từ thanh môn đến tuyến âm.

Hình 1.6 Mô hình tạo tiếng nói (Fant - 1960)

Trong mô hình này, tín hiệu đầu vào của hệ thống là một chuỗi xung đơn vị có chu kỳ T0, được xử lý qua bộ lọc thông thấp với hàm truyền đạt để tạo ra tín hiệu nguồn của hệ thống Đây là tín hiệu tuần hoàn với chu kỳ T0, đảm bảo các đặc tính liên tục và ổn định cho quá trình xử lý Bộ lọc thông thấp giúp loại bỏ các thành phần tần số cao không mong muốn, nâng cao chất lượng tín hiệu đầu ra, góp phần duy trì tín hiệu ổn định trong hệ thống.

Tín hiệu nguồn sau đó được truyền qua tuyến ẩm thực, vốn là một hốc cộng hưởng được mô hình hóa bằng K mạch cộng hưởng mắc nối tiếp nhau Hàm truyền đạt của hệ thống này đóng vai trò quan trọng trong việc xác định đặc tính phản hồi của hệ, giúp tối ưu hóa quá trình truyền sóng trong cấu trúc Việc phân tích và mô phỏng các mạch cộng hưởng này giúp nâng cao hiệu suất hoạt động và giảm thiểu mất mát năng lượng, từ đó cải thiện chất lượng tín hiệu đầu ra.

Cuối cùng âm thanh được phát ra ở môi, nơi được coi như một tải âm học Sự tán xạ ở môi được thể hiện qua hàm truyền đạt:

R(z) =C(1-z -1 ) Như vậy theo mô hình Fant, hàm truyền đạt của hệ thống có dạng:

Hình 1.7 Mô hình tạo tiếng nói

Nếu giả thiết là một trong hai điểm cực tại thanh môn bằng -1 ( β = -1 ) Khi đó hàm truyền đạt của hệ thống sẽ có dạng:

Khi đó ta có T(z)= σ/A(z) và A(Z) được gọi là hàm truyền đạt của bộ lọc đảo Mô hình của bộ lọc đảo có thể minh họa như sau:

Hình 1.8 Mô hình bộ lọc đảo

BIỂU DIỄN SỐ TIẾNG NÓI

Tín hiệu tiếng nói là tín hiệu tương tự, gây ra thách thức trong việc biểu diễn và lưu trữ trong hệ thống xử lý tín hiệu số mà không gây mất mát thông tin Việc biểu diễn chính xác và bảo toàn dữ liệu là yếu tố then chốt trong các hệ thống truyền tải và lưu trữ tiếng nói Các vấn đề liên quan đến xử lý tín hiệu tiếng nói trong môi trường số chủ yếu tập trung vào ba khía cạnh quan trọng để đảm bảo chất lượng và hiệu quả của hệ thống.

- Biểu diễn tín hiệu tiếng nói dạng số

- Cài đặt các kỹ thuật xử lý tinh vi.

- Các lớp ứng dụng dựa trên kỹ thuật xử lý số tín hiệu.

Biểu diễn tín hiệu tiếng nói dưới dạng số phụ thuộc lớn vào lý thuyết lấy mẫu, trong đó các trạng thái của tín hiệu có dải tần số giới hạn có thể được biểu diễn bằng các mẫu lấy tuần hoàn theo một chu kỳ cố định gọi là chu kỳ lấy mẫu Quá trình lấy mẫu này đảm bảo hệ thống nhận được các mẫu tín hiệu với tỷ lệ đủ lớn để xử lý chính xác Tất cả các bước trong quá trình xử lý lấy mẫu đều được mô tả rõ ràng trong các tài liệu về xử lý tín hiệu số, giúp đảm bảo quá trình số hóa và phân tích tín hiệu đạt hiệu quả cao.

Hình 1.9 Biểu diễn tín hiệu tiếng nói

Phương pháp biểu diễn tín hiệu theo dạng sóng giữ nguyên hình dạng của tín hiệu sau các bước lấy mẫu và lượng tử hoá, giúp bảo tồn thông tin gốc Trong khi đó, phương pháp biểu diễn theo tham số tập trung vào phản ánh tín hiệu tiếng nói như đầu ra của hệ thống tạo giọng nói, bắt đầu bằng việc biểu diễn tín hiệu theo dạng sóng để thu thập các tham số quan trọng của tín hiệu này Các tham số của mô hình tạo giọng nói được phân loại thành tham số kích thích và tham số của bộ máy phát âm, giúp tái tạo chính xác âm thanh Để áp dụng các phương pháp xử lý tín hiệu số, tín hiệu tiếng nói cần được biểu diễn dưới dạng rời rạc, thông qua quá trình rời rạc hoá gồm các bước cụ thể nhằm đảm bảo dữ liệu phù hợp cho phân tích và xử lý kỹ thuật số.

- Lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu f0

- Lượng tử hoá các mẫu với bước lượng tử q

- Mã hoá và nén tín hiệu.

4.1 Xác định tần số lấy mẫu tín hiệu tiếng nói

Khi lấy mẫu một tín hiệu analog với tần số lấy mẫu f0, cần đảm bảo khả năng khôi phục chính xác tín hiệu ban đầu từ tín hiệu rời rạc Định lý Nyquist-Shannon chỉ ra rằng, để có thể khôi phục lại tín hiệu tương tự từ tín hiệu mẫu rời rạc, tần số lấy mẫu phải ít nhất bằng với tần số lớn nhất của tín hiệu đó Điều kiện này được thể hiện rõ qua mệnh đề: f0 ≥ Fmax, trong đó Fmax là tần số cao nhất của tín hiệu nguồn, nhằm đảm bảo quá trình tái tạo tín hiệu diễn ra chính xác và không mất mát dữ liệu.

Phổ của tín hiệu tiếng nói thường rộng khoảng 12kHz, do đó theo định lý Shannon, tần số lấy mẫu tối thiểu là 24kHz Tuy nhiên, với tần số lấy mẫu cao này, dung lượng bộ nhớ và độ phức tạp tính toán sẽ tăng significantly Để giảm chi phí xử lý tín hiệu số, bộ lọc, truyền tải và ghi âm, người ta thường giới hạn phổ tín hiệu bằng cách sử dụng bộ lọc tần số phù hợp Đối với tín hiệu tiếng nói trong điện thoại, chất lượng vẫn đảm bảo khi giới hạn phổ ở 3400Hz, tương đương với tần số lấy mẫu là 8000Hz Trong các ứng dụng phân tích, tổng hợp hoặc nhận dạng tiếng nói, tần số lấy mẫu thường dao động từ 6000Hz đến 16000Hz Đối với tín hiệu âm thanh như nhạc và tiếng nói, tần số lấy mẫu phù hợp nhất là 48kHz, đảm bảo độ trung thực cao nhất.

Việc biểu diễn số tín hiệu yêu cầu lượng tử hoá mỗi mẫu tín hiệu với giá trị rời rạc hữu hạn để phục vụ mục đích truyền tải hoặc xử lý hiệu quả Trong truyền tải, mỗi mẫu tín hiệu được lượng tử hoá, mã hoá và gửi đi, sau đó bên nhận giải mã để thu được tín hiệu tương tự, trong khi tính thống kê của tín hiệu ảnh hưởng quan trọng đến thuật toán lượng tử hoá Đối với xử lý tín hiệu, luật lượng tử tuỳ thuộc vào hệ thống xử lý, có thể biểu diễn bằng dấu phẩy tĩnh hoặc dấu phẩy động; xử lý bằng dấu phẩy động linh hoạt hơn nhưng chi phí cao, còn xử lý bằng dấu phẩy tĩnh đơn giản hơn nhưng đòi hỏi các điều kiện chặt chẽ cho thuật toán.

4.3 Nén tín hiệu tiếng nói

Lượng tử hoá tín hiệu gây ra các lỗi thành phần giống nhiễu trắng, làm cho tỷ số lượng tử phụ thuộc vào biên độ tín hiệu; do đó, người ta sử dụng luật lượng tử logarithm và biểu diễn mỗi mẫu tín hiệu bằng 8 bit, trong đó tín hiệu âm thanh thường dùng mẫu 16 bit Tốc độ nhị phân, đo bằng bit trên giây, là yếu tố quan trọng trong truyền và lưu trữ dữ liệu, ví dụ đường truyền điện thoại có tốc độ 64Kb/s, trong khi truyền và ghi lại tín hiệu âm thanh yêu cầu tốc độ 768Kb/s Tín hiệu tiếng nói có độ dư thừa lớn, giúp giảm tốc độ tín hiệu dựa trên mục đích xử lý, độ phức tạp của thuật toán và chất lượng biểu diễn tín hiệu Việc lựa chọn phương pháp biểu diễn số phải cân nhắc giữa tiêu chuẩn về chất lượng, tốc độ truyền hay lưu trữ, và điều kiện môi trường Thông thường, số bit dùng để biểu diễn lượng tử cần giảm bớt do hạn chế kỹ thuật, bằng cách bỏ đi các bit ít có ý nghĩa nhất; nếu lượng tử tuyến tính, lỗi lượng tử sẽ tăng theo khoảng cách giá trị của chuỗi Tuy nhiên, trong một số ứng dụng, mức lượng tử tại vùng tần số cao yêu cầu thấp hơn so với vùng tần số thấp, do đó cần sử dụng toán tử tuyến tính để biến đổi tín hiệu phù hợp.

TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

Trong quá khứ vài thập kỷ, nhiều kỹ thuật mã hóa nén tiếng nói đã được phát triển và phân tích, giúp nâng cao chất lượng truyền tải dữ liệu âm thanh Hiện nay, mã hóa tiếng nói thường được phân thành hai lớp chính là mã hóa dạng sóng (waveform coder) và mã hóa nguồn (source coder), trong đó mã hóa dạng sóng cung cấp chất lượng cao với tốc độ bit cao, còn mã hóa nguồn tối ưu cho tốc độ bit thấp nhưng tạo ra tiếng nói nhân tạo Một lớp mới gọi là mã hóa lại (hybrid coder) kết hợp cả hai phương pháp, vừa đảm bảo độ chính xác vừa duy trì tốc độ bit trung bình Đồ thị trong Hình 1.10 trình bày rõ mối quan hệ giữa chất lượng tiếng nói và tốc độ bit của các phương pháp mã hóa dạng sóng và mã hóa nguồn, giúp hiểu rõ ưu nhược điểm của từng kỹ thuật.

Hình 1.10 Chất lượng tiếng nói theo tốc độ bít

Mã hoá dạng sóng là phương pháp tái tạo lại tín hiệu đầu vào của tiếng nói, thường được chia thành các tín hiệu độc lập để mã hoá nhiều loại tín hiệu khác nhau Phương pháp này nổi bật với độ phức tạp thấp, phù hợp để tạo ra chất lượng cao với tốc độ truyền dữ liệu nhanh, thường vượt qua 16kbps Mã hoá dạng sóng có thể thực hiện trên cả miền tần số và miền thời gian, giúp tối ưu hóa quá trình truyền tải và xử lý tín hiệu âm thanh.

5.1.1 Mã hoá trên miền thời gian

Mã hóa trong miền thời gian thực hiện việc xử lý tín hiệu dựa trên khoảng thời gian lấy mẫu của tín hiệu đó Các phương pháp mã hóa phổ biến bao gồm Điều chế mã xung (PCM), Điều chế mã xung thích ứng (APCM), Điều chế mã xung vi phân (DPCM), Điều chế mã xung vi phân thích ứng (ADPCM), Điều chế Delta (DM), Điều chế Delta thích ứng, và Mã hoá dự đoán thích ứng (APC) Những phương pháp này đóng vai trò quan trọng trong việc nén và truyền tải dữ liệu âm thanh và hình ảnh chất lượng cao Tiếp theo, chúng ta sẽ xem xét các phương pháp mã hóa quan trọng trong miền thời gian để hiểu rõ hơn về ứng dụng và ưu điểm của từng kỹ thuật.

Mã hoá PCM là phương pháp đơn giản nhất để điều chế mã xung trong mã hoá dạng sóng, tập trung chủ yếu vào quá trình lượng tử hoá Bất kỳ dạng lượng tử hoá vô hướng nào cũng có thể áp dụng trong phương pháp này, trong đó dạng lượng tử hoá logarit là phổ biến nhất.

Ủy ban tư vấn điện thoại và điện báo quốc tế đã giới thiệu chuẩn G.711 là phương pháp mã hóa tiếng nói thoại phổ biến và được sử dụng rộng rãi Chuẩn G.711 sử dụng mã hóa PCM với 8 bit theo luật u và luật A, trong đó mã hóa theo luật u có lợi thế hơn về khả năng thực hiện và tỉ lệ tín hiệu trên nhiễu tốt hơn, giúp đảm bảo chất lượng cuộc gọi rõ ràng và ổn định.

Mã hoá DPCM và ADPCM

PCM không giả định về tính tự nhiên của dạng sóng đã được mã hóa, giúp nó hoạt động tốt với các tín hiệu ngoài tiếng nói Khi mã hóa tiếng nói, có sự tương quan lớn giữa các mẫu cạnh nhau, điều này có thể được khai thác để xác định tốc độ bit chính xác Phương pháp đơn giản để tận dụng sự tương quan này là truyền chênh lệch giữa các mẫu, giúp tín hiệu có phạm vi dao động nhỏ hơn và dễ lượng tử hóa hơn bằng các bộ vector lượng tử hóa với mức xây dựng thấp hơn Trong kỹ thuật này, mẫu trước đó được dùng để dự đoán giá trị của mẫu hiện tại, và độ chính xác của dự đoán có thể được nâng cao bằng cách sử dụng khối mẫu lớn hơn Phương pháp này gọi là điều chế mã hóa xung vi phân (DPCM), với kiến trúc cụ thể được trình bày trong hình 1.11.

Điều chế mã xung thích ứng ADPCM là phiên bản phát triển của DPCM, trong đó bộ dự đoán và lượng tử hoá được tự động điều chỉnh theo đặc tính của tín hiệu đầu vào ITU đã giới thiệu nhiều chuẩn mã hoá âm thanh dựa trên giải thuật ADPCM, như G.726 với dải tần 8kHz, hoạt động ở tốc độ bit 40, 32, 24 và 16 kbps Độ phức tạp của ADPCM rất thấp, giúp giảm đáng kể tài nguyên xử lý trong khi vẫn cung cấp chất lượng tín hiệu khá cao, với độ giảm nhiễu từ 30 đến 35 dB.

Hình 1.11 mô tả hệ thống DPCM, trong đó khối mã hóa nằm bên trái và khối giải mã ở bên phải Bộ lượng tử hoả đảo (inverse quantizer) đóng vai trò chuyển đổi các mã đã truyền thành tín hiệu u(n), đảm bảo quá trình khôi phục dữ liệu chính xác trong hệ thống.

5.1.2 Mã hoá trong miền tần số

Mã hoá dạng sóng trong miền tần số chia tín hiệu thành các thành phần tần số khác nhau để tiến hành mã hoá từng thành phần này, giúp tối ưu hóa quá trình truyền dữ liệu Số bit sử dụng để mã hoá mỗi thành phần tần số có thể linh hoạt thay đổi nhằm nâng cao chất lượng và hiệu quả truyền tải Phương pháp mã hoá trong miền tần số được phân thành hai nhóm chính là mã hoá bằng con (subband) và mã hoá biến đổi (transform), phù hợp với các ứng dụng khác nhau trong công nghiệp truyền thông.

Mã hoá băng con (subband)

Mã hoá băng con sử dụng bộ lọc dải thông để chia tín hiệu đầu vào thành các tín hiệu con (subband signals) đã được mã hoá, giúp tối ưu hóa quá trình truyền dữ liệu Tại bộ thu, các tín hiệu con này sẽ được giải mã và cộng lại nhằm khôi phục tín hiệu ban đầu một cách chính xác Phương pháp mã hoá bằng con mang lại ưu điểm lớn là hạn chế lượng tử hóa trong từng dải tần, giúp nâng cao chất lượng truyền tải Hiệp hội viễn thông quốc tế ITU đã đưa ra tiêu chuẩn G.722 dựa trên mã hoá bằng con để truyền thông với tốc độ từ 48 kbps đến 64 kbps, phù hợp cho các hệ thống truyền dẫn yêu cầu tốc độ cao.

Mã hoá biến đổi là kỹ thuật sử dụng một khối chuyển đổi của cửa sổ tín hiệu đầu vào thành các thành phần tần số hoặc các miền tương tự để nén và xử lý tín hiệu hiệu quả Quá trình mã hoá thích ứng sẽ phân bổ thêm bit cho các thành phần hệ số quan trọng hơn nhằm tối ưu hóa chất lượng và khả năng nén dữ liệu Tại bộ thu, bộ giải mã thực hiện quá trình chuyển đổi ngược để khôi phục lại tín hiệu ban đầu, giúp duy trì chất lượng tín hiệu sau khi mã hóa Các phép biến đổi phổ biến được sử dụng trong kỹ thuật này gồm có Phép biến đổi Fourier rời rạc (DFT) và Phép biến đổi cosine rời rạc (DCT), mang lại hiệu quả cao trong xử lý tín hiệu số.

Mã hoá nguồn sử dụng một mô hình mô tả quá trình sinh ra nguồn, phân tích tín hiệu mã hoá để lấy các thông số mô hình và truyền đến bộ giải mã Trong lĩnh vực xử lý tiếng nói, mã hoá nguồn được gọi là vocoder (vocal coder) và dựa trên mô hình lọc nguồn như trong hình vẽ Mô hình này xác nhận rằng tiếng nói được tạo ra bằng cách kích thích bộ lọc tuyến tính bằng tín hiệu nhiễu trắng cho âm vô thanh hoặc chuỗi xung giọng nói, với tốc độ bit khoảng 2kbps hoặc thấp hơn Các phương pháp phân tích tham số mô hình đã dẫn đến sự phát triển của nhiều kiểu mã hoá nguồn như viz, mã hoá kênh, mã hoá đồng hình, mã hoá formant và mã hoá dự đoán tuyến tính, dựa trên nguyên lý của mã hoá dự đoán tuyến tính (LPC).

Hình 1.12 Mô hình tạo tiếng nói được sử dụng bởi mã hoá nguồn

Mã hoá lai (hybrid coder) là phương pháp kết hợp giữa mã hóa dạng sóng và mã hóa nguồn nhằm khắc phục nhược điểm của cả hai phương pháp này Trong đó, mã hóa dạng sóng cho chất lượng âm thanh tốt với tốc độ bit khoảng 16 kbps, còn mã hóa nguồn hoạt động ở tốc độ bit rất thấp khoảng 2.4 kbps nhưng không thể tái tạo âm thanh tự nhiên hoàn hảo Phương pháp mã hóa trong miền tần số Analysys - by – Synthesis (ABS) là phương pháp thành công và phổ biến nhất, sử dụng mô hình lọc dự đoán tuyến tính để khôi phục tín hiệu gần giống ban đầu ABS lần đầu được giới thiệu vào năm 1982 bởi Atal và Remde, ban đầu gọi là mã hóa kích thích đa xung (MPE), rồi sau đó phát triển thành các chuẩn như RPE và CELP Nhiều chuẩn mã hoá CELP đã được chuẩn hóa, như G.723.1 hoạt động ở tốc độ 6.3/5.3 kbps, G.729 ở 8 kbps, G.728 ở 16 kbps, cùng các chuẩn mã hóa mạng thoại di động như GSM, IS-54, IS-95.

Hình 1.13 Kiến trúc của mã hoá ABS (a): Mã hoá, (b): Giải mã.

TỔNG QUAN VỀ TỔNG HỢP TIẾNG NÓI

Tổng hợp tiếng nói là quá trình tạo ra âm thanh dựa trên biểu diễn ngữ âm của lời nói và cơ chế sản sinh ra tiếng nói Các kỹ thuật tổng hợp tiếng nói được chia thành hai loại chính, bao gồm tổng hợp dựa trên mẫu và tổng hợp dựa trên mô hình Việc áp dụng công nghệ tổng hợp tiếng nói giúp cải thiện trải nghiệm người dùng trong các ứng dụng như trợ lý ảo, phần mềm đọc sách và hệ thống thoại tự nhiên, góp phần nâng cao chất lượng và độ chính xác của các hệ thống giao tiếp tự nhiên.

Phương pháp tổng hợp tiếng nói trực tiếp dựa trên việc ghép nối các âm đã được ghi lại từ trước, với sự tham gia của con người Đây là cách dễ dàng nhất để tạo ra tiếng nói nhưng yêu cầu lượng lớn dữ liệu ghi âm, đòi hỏi nhiều bộ nhớ lưu trữ Các âm vị, gồm nguyên âm và phụ âm, là đơn vị ghi âm tối thiểu để xây dựng các âm tiết, từ, câu Để giảm thiểu kích thước bộ nhớ, người ta thường sử dụng các âm vị kép (diphone), là tổ hợp của hai âm vị liên tiếp để tổng hợp tiếng nói hiệu quả hơn.

Các phương pháp tổng hợp dựa trên mô hình là các phương pháp sử dụng các mô hình toán học để tổng hợp dữ liệu mà không cần sự can thiệp của con người Những kỹ thuật này thường áp dụng các thuật toán tự động để xử lý thông tin một cách chính xác và hiệu quả Các phương pháp dựa trên mô hình giúp đảm bảo tính nhất quán và khách quan trong quá trình tổng hợp dữ liệu, đồng thời giảm thiểu sai sót do con người gây ra Đây là các kỹ thuật phổ biến trong các hệ thống tự động, phân tích dữ liệu lớn và trí tuệ nhân tạo.

+ Tổng hợp formant: phương pháp này dựa trên các luật xác định tần số cơ bản để tính ra 3 formant đầu tiên ft, fz, f, để tổng hợp tiếng nói.

LPC (Linear Predictive Coding) là phương pháp dựa trên mô hình tiên đoán tuyến tính để phân tích và tổng hợp tín hiệu âm thanh Phương pháp này xác định tín hiệu tiếng nói tại thời điểm n dựa trên tổ hợp tuyến tính của p mẫu tín hiệu trước đó, giúp nắm bắt đặc điểm quan trọng của giọng nói một cách chính xác LPC được sử dụng rộng rãi trong các hệ thống nhận dạng giọng nói và nén âm thanh nhờ khả năng mô phỏng hiệu quả các đặc điểm nguồn âm thanh.

Phương pháp mô phỏng bộ máy phát âm là kỹ thuật mô phỏng hệ thống phát âm của con người, giúp đạt chất lượng cao nhất trong các phương pháp xử lý âm thanh Tuy nhiên, nhược điểm lớn của phương pháp này là độ phức tạp rất cao và khả năng thực hiện gặp nhiều khó khăn.

6.2 Các mô hình tổng hợp tiếng nói

Hình 1.14 Mô hình tổng hợp tiếng nói bằng phương pháp formant Chức năng của từng khối:

- Khối tạo xung: khối này dùng để tạo tín hiệu tuần hoàn

- Khối tạo tạp âm: khối này dùng để tạo tín hiệu không tuần hoàn (các nhiễu ngẫu nhiên)

- Các khối A1, A2, A3, A4: là các khối thay đổi biên độ dùng để tăng giảm biên độ tới âm lượng mong muốn.

- Khoang miệng đặc trưng bởi các mạch cộng hưởng có tần số F1, F2, F3

- Kênh mũi: tương ứng với các phản formant

- B1, B2, B3: là các dải tần khác nhau

Chất lượng của phương pháp này phụ thuộc vào việc điều chỉnh các tham số điều khiển và tín hiệu nghe được, vì vậy, nó không được tự động hoá hoàn toàn 100%.

Hình 1.15 Mô hình tổng hợp tiếng nói bằng phương pháp LPC Chức năng từng khối:

- Khối tạo xung: khối này dùng để tạo các tín hiệu tuần hoàn

- Khối tạo tạp âm: khối này dùng để tạo các tín hiệu không tuần hoàn

- Khối A: là khối thay đổi biên độ

Bộ lọc bậc p xác định các tham số a + a, theo tiêu chí tối thiểu hoá bình phượng toàn phần của lỗi tiên đoán tuyến tính

Phương pháp này được thực hiện tự động 100% nhờ vào tiêu chí xác định các hệ số a rõ ràng, giúp tối ưu quá trình xử lý âm thanh Tuy nhiên, nhược điểm của phương pháp là chất lượng tổng hợp âm mũi không cao, vì LPC chỉ dựa trên mô hình toàn điểm cực với không có điểm không, tức là chỉ mô phỏng khoang miệng mà không phản ánh đúng khoang mũi Do đó, phương pháp này phù hợp chủ yếu để áp dụng trong tổng hợp âm của khoang miệng, hạn chế trong việc tái hiện chính xác âm mũi.

6.2.3 Tổng hợp dùng mô phỏng bộ máy phát âm

Hình 1.16 Mô hình tổng hợp tiếng nói bằng phương pháp mô phỏng nguồn âm

Phương pháp này thực chất là mô phỏng nguồn âm, tuyến âm và nguồn tạp âm đơn giản.

Mô phỏng nguồn âm (nguồn tuần hoàn) là quá trình tái tạo hoạt động của dây thanh để nghiên cứu quá trình phát âm Các phương pháp mô phỏng dây thanh phổ biến bao gồm mô hình một khối, mô hình hai khối, mô hình nhiều khối và mô hình dầm, giúp phân tích chính xác đặc tính và hành vi của dây thanh trong quá trình phát âm Nhờ đó, các nhà nghiên cứu có thể hiểu rõ hơn về cơ chế hoạt động của dây thanh và ứng dụng trong lĩnh vực y học, âm thanh học và thiết kế thiết bị âm thanh.

Mô phỏng tuyến âm là quá trình tái tạo bộ máy phát âm từ thanh môn trở lên, giúp hiểu rõ cơ chế phát âm của con người Quá trình này thực hiện bằng cách rời rạc hoá các đoạn tuyến âm, thay thế từng phần bằng các ống cơ bản hình trụ có chiều dài ngắn Sau đó, các ống này được tính toán để mô phỏng chính xác hoạt động của tuyến âm trong quá trình phát âm.

ỨNG DỤNG CỦA LPC TRONG XỬ LÝ TIẾNG NÓI

PHƯƠNG PHÁP DỰ ĐOÁN TUYẾN TÍNH TRONG XỬ LÝ TIẾNG NÓI

Phương pháp phân tích dự đoán tuyến tính là công cụ mạnh mẽ trong phân tích tiếng nói, vẫn chiếm ưu thế trong việc xác định các tham số cơ bản như tần số cơ bản, các formant, phổ tín hiệu và các hàm truyền đạt của bộ máy phát âm Đây còn là kỹ thuật quan trọng để biểu diễn, truyền tải và lưu trữ tín hiệu tiếng nói với tốc độ dữ liệu thấp, nhờ khả năng cung cấp công cụ dò tìm chính xác và tốc độ tính toán nhanh.

Phương pháp này dựa trên nguồn gốc cơ bản là các mẫu tín hiệu tiếng nói có thể được xấp xỉ hóa bằng tổ hợp tuyến tính của các mẫu quá khứ Bằng cách tối thiểu hóa tổng bình phương phương sai giữa các mẫu hiện tại của tín hiệu và mẫu dự đoán tuyến tính trong một khoảng thời gian xác định, chúng ta có thể xác định tập hợp các tham số dự đoán chính xác.

Nguyên lý cơ bản của phương pháp dự đoán tuyến tính liên hệ mật thiết với mô hình tổng hợp tiếng nói, cho thấy tín hiệu tiếng nói có thể xem là kết quả của hệ tuyến tính biến đổi theo thời gian Phương pháp này cho rằng tiếng nói được kích thích bởi các xung tuần hoàn, như các âm hữu thanh, hoặc bởi các nhiễu ngẫu nhiên, như các âm vô thanh Điều này giúp hiểu rõ quá trình tạo ra tiếng nói và cải thiện các kỹ thuật xử lý, dự đoán và tổng hợp tiếng nói hiệu quả hơn.

Các phương pháp dự đoán tuyên tình đã được áp dụng linh hoạt dựa trên mô hình sóng tín hiệu tiếng nói, mang lại các cách tiếp cận đa dạng phù hợp với từng dạng tín hiệu Mỗi phương pháp có cách nhìn nhận vấn đề riêng biệt, phản ánh sự đa dạng trong ứng dụng và phân tích tín hiệu âm thanh Các kỹ thuật này giúp nâng cao hiệu quả nhận diện và xử lý tín hiệu tiếng nói, hỗ trợ tốt cho các hệ thống speech processing và nhận diện giọng nói tự động Việc lựa chọn phương pháp phù hợp dựa trên đặc điểm của mô hình sóng tín hiệu là yếu tố quyết định thành công trong các ứng dụng thực tế.

- Phương pháp hiệp phương sai

- Phương pháp tự tương quan

- Phương pháp bộ lọc đảo

- Phương pháp khả năng cực đại

- Phương pháp dẫn xuất nội bộ

Mô hình tạo tiếng nói yêu cầu xác định các tham số quan trọng để đảm bảo chất lượng âm thanh Tín hiệu dự đoán trong mô hình được biểu diễn bằng các tham số chính xác, đóng vai trò cốt lõi trong quá trình tái tạo giọng nói tự nhiên Việc xác định đúng các tham số này giúp nâng cao khả năng tạo ra giọng nói chân thực và phù hợp với yêu cầu của người dùng Trong quá trình phát triển, việc tối ưu hóa các tham số dự đoán là yếu tố quyết định thành công của mô hình tạo tiếng nói.

Hình 2.1 Sơ đồ khối của mô hình đơn giản của việc phát âm

Từ công thức (2.2) ta có thể thấy rằng chuỗi sai số dự đoán là đầu ra của hệ thống có hàm truyền đạt như sau :

So sánh công thức (2.1) và (2.3) cho thấy, khi tín hiệu tiếng nói tuân theo mô hình của công thức (2.2) và k = a, thì lỗi dự đoán e(n) chính xác bằng Gu(n) Ngoài ra, bộ lọc sai số dự đoán A(Z) hoạt động như một bộ lọc đảo, giúp cải thiện độ chính xác của quá trình dự đoán tín hiệu tiếng nói trong hệ thống xử lý âm thanh.

502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared

Sai số tiên đoán trung bình thời gian ngắn được định nghĩa như sau :

Trong đó sn(m) là một đoạn tiếng nói đã được chọn trong vùng lân cận của mẫu n, nghĩa là sn(m)= S(n+m)

Chúng ta có thể xác định các giá trị của dị mà tối thiểu hóa hàm E trong biểu thức (2.7) bằng cách thiết lập i từ 1 đến p Phương pháp này dẫn đến công thức liên quan, trong đó α’k là giá trị của αk tại điểm En tối thiểu Do αk là duy nhất, chúng ta sẽ xem đó là αk chính thức để đảm bảo tính chính xác và rõ ràng trong quá trình tối ưu hóa.

Nếu chúng ta định nghĩa :

Thì biểu thức (2.8) được viết ngắn gọn hơn :

Trong bài viết này, tập k biểu thức trong p không biết được tìm thấy một cách hiệu quả nhằm tối ưu hóa hệ số dự đoán không biết Việc này giúp giảm thiểu sai số dự đoán trong đoạn sn(m), đảm bảo độ chính xác cao hơn trong quá trình dự đoán Áp dụng các công thức (2.7) và (2.8), chúng ta có thể xác định chính xác hơn các hệ số dự đoán, từ đó nâng cao hiệu quả của mô hình dự đoán.

Tổng sai số nhỏ nhất bao gồm các thành phần cố định và thành phần phụ thuộc vào hệ số tiên đoán Để xác định hệ số tiên đoán tối ưu, cần tính toán số lượng Rn(i,k) với điều kiện 1 ≤ i, nhằm tối ưu hóa độ chính xác của mô hình dự đoán.

Tiêu đề	Báo Cáo Bài Tập Lớn Phương Pháp LPC – Nén Âm Thanh Số
Tác giả	Đỗ Xuân Bách, Trương Việt Hoàng, Nguyễn Anh Minh
Người hướng dẫn	Nguyễn Tiến Hưng
Trường học	Trường Đại Học Giao Thông Vận Tải
Chuyên ngành	Kỹ thuật Viễn Thông
Thể loại	Báo cáo bài tập lớn
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	68
Dung lượng	1,68 MB