1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp

75 414 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 75
Dung lượng 1,16 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trọng tâm của quá trình này là phát triển khả năng các bộ nén mã hóa tiếng nói tạo ra tiếng nói chất lượng cao với tốc độ dữ liệu thấp, có nghĩa là thực hiện nén/giãn tín hiệu tho

Trang 1

LỜI CAM ĐOAN

Luận văn này được hoàn thành sau một thời gian nghiên cứu và tìm hiểu các nguồn tài liệu đã học, sách báo chuyên ngành cũng như các thông tin trên Internet

mà theo tôi là hoàn toàn tin cậy Tôi xin cam đoan luận văn này không giống với bất

kỳ công trình nghiên cứu hay luận văn nào trước đây mà tôi đã biết

Hà Nội, ngày 11 tháng 11 năm 2016

Người thực hiện

Bùi Đức Chính

Trang 2

MỤC LỤC

LỜI CAM ĐOAN 1

MỤC LỤC 2

DANH MỤC CÁC TỪ VIẾT TẮT 4

DANH MỤC BẢNG BIỂU 6

DANH MỤC HÌNH VẼ 7

MỞ ĐẦU 9

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ CÁC VẤN ĐỀ CƠ BẢN TRONG VIỆC NÉN TIẾNG NÓI 11

1.1 Tổng quan về tiếng nói con người 11

1.1.1 Mô hình tiếng nói con người 11

1.1.2 Các tính chất cơ bản của tiếng nói 15

1.2 Tổng quan về hệ thống nén tiếng nói 17

1.2.1 Cấu trúc của một hệ thống nén tiếng nói 17

1.2.2 Những yêu cầu đối với một bộ nén tiếng nói 20

1.2.3 Phân loại các bộ nén tiếng nói 21

1.3 Một số kỹ thuật mã hóa dạng sóng 24

1.3.1 Một số kỹ thuật mã dạng sóng trong miền thời gian 25

1.3.2 Một số kỹ thuật mã dạng sóng trong miền tần số 25

1.4 Một số kỹ thuật mã hóa tham số 26

1.5 Một số kỹ thuật mã hóa lai 27

1.6 Hiệu năng 30

1.7 Ứng dụng của các mô hình nén tiếng nói 33

1.8 Một số chuẩn nén tiếng nói sử dụng trong thông tin 33

Trang 3

CHƯƠNG 2 THUẬT TOÁN NÉN TIẾNG NÓI CELP VÀ ACELP 35

2.1 Kỹ thuật mã hóa kích thích bằng mã CELP 35

2.1.1 Cấu trúc mô hình thuật toán CELP 35

2.1.2 Mô tả các khối chức năng của bộ mã hóa CELP 38

2.1.3 Mô tả các khối chức năng của bộ giải mã 45

2.2 Kỹ thuật mã hóa kích thích bằng mã đại số ACELP 46

2.2.1 Cấu trúc mô hình thuật toán ACELP 46

2.2.2 Chuẩn mã hóa AMR 49

CHƯƠNG 3 MÔ PHỎNG KỸ THUẬT MÃ HÓA CELP TRÊN MATLAB 66

3.1 Thực hiện chương trình mô phỏng CELP trên MatLab 66

3.1.1 Phân tích LPC 67

3.1.2 Tìm các tham số kích thích 68

3.1.3 Lượng tử các tham số kích thích 69

3.1.4 Tính tín hiệu tổng hợp từ các tham số kích thích 69

3.2 Kết quả 69

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 74

TÀI LIỆU THAM KHẢO 75

Trang 4

DANH MỤC CÁC TỪ VIẾT TẮT

ACB Adaptive Codebook Sách mã thích nghi

ACELP Algebraic Code – Excited Linear

AMR Adaptive Multi Rate Đa tốc độ thích nghi

ATC Adaptive Transform Coding Mã biến đổi thích nghi

CELP Code – Excited Linear Prediction Dự đoán tuyến tính kích thích

bằng mã DAM Diagnostic Acceptability Measure Đo có thể chấp nhận chẩn đoán DCT Discrete Cosine Transform Biến đổi Cosin rời rạc

DFT Discrete Fourier Transform Biến đổi Fourier rời rạc

DPCM Diffrential Pulse Code

Modulation

Điều chế xung mã vi phân

DRT Diagnostic Rhyme Test Kiểm tra vần chẩn đoán

DWHT Discrete Walsh Hadamard

Transform

Biến đổi Walsh Hadamard rời rạc

KLT Karhunen – Loeve Transform Biến đổi Karhunen - Loeve

LP Linear Prediction Dự đoán tuyến tính

LPC Linear Predictive Coding Mã dự đoán tuyến tính

LSP Line Spectrum Pairs Cặp phổ vạch

Trang 5

LTP Long Term Prediction Dự đoán thời gian dài

MELP Mixed – Excitation Linear

Prediction

Dự đoán tuyến tính kích thích kết hợp

MOS Mean Opinion Score Điểm đánh giá trung bình

MPE Multi – Pulse Excitation Kích thích đa xung

MSE Mean Square Error Trung bình bình phương sai số PCM Pulse Code Modulation Điều chế xung mã

PCN Personal Communication Network Mạng truyền thông cá nhân

PESQ Perceptual Evaluation of Speech

RPE-LTP Regular Pulse Excitation – Long

Term Prediction

Kích thích xung đều dự đoán thời gian dài

SNR Signal to Noise Radio Tỉ số tín hiệu trên tạp âm

STP Short Term Prediction Dự đoán thời gian ngắn

UMTS Universal Mobile

Telecommunication System

Hệ thống viễn thông di động toàn cầu

VAD Voice Activity Detector Bộ nhận dạng tiếng nói

VSELP Vector Sum Excited Linear

Prediction

Dự đoán tuyến tính kích thích bằng vectơ tổng

Trang 6

DANH MỤC BẢNG BIỂU

Bảng 1.1 Phân loại các bộ nén tiếng nói theo kỹ thuật nén 22

Bảng 1.2 Một số chuẩn mã hóa tiếng nói 34

Bảng 2.1 Cấu trúc bitstream AMR 51

Bảng 2.2 Cấu trúc sách mã đại số 61

Trang 7

DANH MỤC HÌNH VẼ

Hình 1.1 Các bộ phận tạo ra tiếng nói 13

Hình 1.2 Mô hình cơ học quá trình phát âm người 14

Hình 1.3 Mô hình dạng ống của cơ quan phát âm người 14

Hình 1.4 Mô hình hóa tiếng nói con người 15

Hình 1.5 Dạng sóng tín hiệu tiếng nói 16

Hình 1.6 Sơ đồ khối của hệ thống truyền thông tiếng nói 18

Hình 1.7 Sơ đồ khối của một bộ nén tiếng nói 19

Hình 1.8 Các thành phần của trễ nén 21

Hình 1.9 Chất lượng tiếng nói so với tốc độ bit của các bộ mã hóa 22

Hình 1.10 Sơ đồ khối của một bộ mã hóa lai 24

Hình 1.11 Mô hình kĩ thuật tổng hợp tiếng nói 26

Hình 1.12 Mô hình tổng hợp CELP 28

Hình 1.13 Mô hình phân tích CELP 29

Hình 1.14 Hiệu năng DRT của một số bộ mã hóa 31

Hình 1.15 Hiệu năng DAM của một số bộ mã hóa 32

Hình 1.16 Hiệu năng MOS của một số bộ mã hóa 32

Hình 2.1 Sơ đồ khối bộ tổng hợp tiếng nói CELP 35

Hình 2.2 Sơ đồ khối bộ phân tích tiếng nói CELP 37

Hình 2.3 Cấu trúc của ACB 42

Hình 2.4 Phương pháp tìm kiếm ACB 43

Hình 2.5 Cấu trúc thông thường của sách mã cố định 44

Hình 2.6 Cấu trúc kiểu phủ của sách mã cố định 44

Hình 2.7 Phương pháp tìm kiếm sách mã cố định 44

Trang 8

Hình 2.8 Sơ đồ nguyên lý chung thuật toán ACELP 47

Hình 2.9 Hàm cửa sổ với tốc độ 12.2kbps 53

Hình 2.10 Cơ chế tìm sách mã thích nghi 56

Hình 3.1 Sơ đồ khối bộ nén tín hiệu tiếng nói 70

Hình 3.2 Sơ đồ khối bộ tổng hợp tín hiệu tiếng nói 70

Hình 3.3 Phổ tín hiệu tiếng nói sau khi nén được tổng hợp lại với bậc LP là 5 70

Hình 3.4 Phổ tín hiệu tiếng nói sau khi nén được tổng hợp lại với bậc LP là 10 70

Hình 3.5 Phổ tín hiệu tiếng nói sau khi nén được tổng hợp lại với bậc LP là 25 71

Hình 3.6 Phổ của tín hiệu tiếng nói 1.wav 71

Hình 3.7 Phổ của tín hiệu tiếng nói 2.wav 72

Hình 3.8 Phổ tín hiệu tiếng nói sau khi nén được tổng hợp lại sử dụng CELP 72

Hình 3.9 So sánh phổ của tín hiệu tiếng nói ban đầu và tín hiệu tiếng nói sau khi nén được tổng hợp lại 73

Trang 9

Mặc dù với sự phát triển của công nghệ truyền thông qua sự xuất hiện của cáp quang, băng thông trong thông tin hữu tuyến trở nên rẻ hơn và không còn là vấn

đề lớn trong giá thành của các cuộc gọi truyền thông Tuy nhiên nhu cầu về bảo tồn băng thông và nâng cao tính riêng tư trong truyền thông tế bào không dây và truyền thông vệ tinh vẫn đang gia tăng và cần phải duy trì băng thông ở một mức nhất định Trong thực tế, truyền thông tế bào vẫn có sự phát triển mạnh mẽ trên toàn thế giới và có nhiều thiết bị được thiết kế hướng tới thiết lập truyền thông di động toàn cầu thông qua các mạng truyền thông cá nhân không dây (PCN - personal communication networks) Một hướng phát triển khác là tích hợp các ứng dụng có liên quan tới tiếng nói (ví dụ, thư thoại) trên các máy tính để bàn và các máy tính xách tay (thường trong ngữ cảnh truyền thông đa phương tiện) Hầu hết các ứng dụng này yêu cầu tín hiệu tiếng nói dưới dạng số hóa sao cho có thể xử lý, lưu trữ

và truyền đi nhờ các điều khiển bằng phần mềm Tín hiệu tiếng nói (thoại) số có nhiều cơ hội để thực hiện bảo mật, tuy nhiên tín hiệu thoại số (nếu không nén) vẫn liên quan tới tốc độ cao và vẫn cần yêu cao đối với băng thông phát và dung lượng nhớ lưu trữ Vì vậy việc nén tiếng nói là rất cần thiết, giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn đảm bảo chất lượng của cuộc gọi

Trang 10

Các vấn đề trình bày trên đây là cơ sở chủ yếu để tôi lựa chọn đề tài:

“Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp”, với mục đích nghiên cứu

và tìm hiểu một số thuật toán nén tiếng nói tốc độ thấp nhằm áp dụng vào thực tiễn Trong khuôn khổ của luận văn, chúng ta sẽ tiến hành xem xét và nghiên cứu tổng quan về các vấn đề cơ bản của việc nén tiếng nói và một số thuật toán nén tiếng nói, trong đó tập trung vào việc nghiên cứu thuật toán nén tiếng nói CELP và ACELP

Luận văn bao gồm phần mở đầu, ba chương và phần kết luận:

- Phần mở đầu: Trình bày các cơ sở và lý do lựa chọn luận văn, mục đích, đối

tượng và phương pháp nghiên cứu luận văn

- Chương 1: Nghiên cứu tổng quan về các vấn đề cơ bản trong việc nén tiếng nói

- Chương 2: Tìm hiểu thuật toán nén tiếng nói CELP và ACELP

- Chương 3: Mô phỏng thuật toán CELP trên MatLab

- Phần kết luận: Kết luận chung cho các chương trong luận văn Nhấn mạnh những

vấn đề được giải quyết đồng thời trình bày các vấn đề vẫn chưa được giải quyết và đưa ra kiến nghị, đề xuất

Trong quá trình thực hiện luận văn không tránh khỏi những thiếu sót, tôi mong nhận được những ý kiến đóng góp quý báu của các thầy cô giáo để luận văn hoàn thiện hơn và có ý nghĩa thực tế

Qua đây, tôi cũng xin gửi lời cám ơn tới các thầy cô Viện Điện tử - Viễn thông trường Đại học Bách khoa Hà Nội đã trang bị cho tôi những kiến thức cơ bản, bạn bè và gia đình luôn động viên, hỗ trợ Đặc biệt, tôi xin chân thành cám ơn TS Đặng Quang Hiếu đã nhiệt tình hướng dẫn, giúp đỡ tôi hoàn thành công trình này

Tôi xin chân thành cám ơn!

Trang 11

CHƯƠNG 1: NGHIÊN CỨU TỔNG QUAN VỀ CÁC VẤN ĐỀ

CƠ BẢN TRONG VIỆC NÉN TIẾNG NÓI

Trong khoảng 30 năm trở lại đây đã chứng tỏ quá trình thay thế hướng tới các ứng dụng nén tiếng nói tốc độ thấp trong truyền thông dân sự và quân sự cũng như các ứng dụng tiếng nói có liên quan tới máy tính Trọng tâm của quá trình này

là phát triển khả năng các bộ nén (mã hóa) tiếng nói tạo ra tiếng nói chất lượng cao với tốc độ dữ liệu thấp, có nghĩa là thực hiện nén/giãn tín hiệu thoại Hầu hết các bộ nén tiếng nói này kết hợp chặt chẽ các kỹ thuật để biểu diễn tính chất phổ của tiếng nói, bảo đảm phù hợp dạng sóng tiếng nói và “tối ưu hóa” hiệu năng của bộ mã đối với tai nghe của con người

Chương này giới thiệu ngắn gọn về mô hình quá trình tạo tiếng nói con người, một số tính chất của tiếng nói, một số kỹ thuật nén/giãn tín hiệu tiếng nói và các phép đo hiệu năng

1.1 Tổng quan về tiếng nói con người

1.1.1 Mô hình tiếng nói con người

Tiếng nói là phương tiện giao tiếp cơ bản nhất của con người, tiếng nói được hình thành và phát triển song song với quá trình tiến hóa của con người Đối với con người, giao tiếp bằng tiếng nói là đơn giản và hiệu quả nhất và cũng được sử rộng rãi nhất Tín hiệu tiếng nói do con người phát ra và được hiểu, đánh giá trực tiếp từ con người thông qua các ngôn ngữ cụ thể Do vậy, việc nghiên cứu về tiếng nói không thể thiếu được quá trình tìm hiểu về cơ chế phát ra tiếng nói của con người Mỗi ngôn ngữ có các đặc trưng riêng, có cách tổ chức ngữ âm học khác nhau, đồng thời âm thanh tiếng nói còn phụ thuộc vào nhiều yếu tố ngẫu nhiên như độ tuổi, giới tính…, những nghiên cứu về những vấn đề này sẽ cho cái nhìn tổng thể về quá trình tạo ra tiếng nói của con người

Trang 12

Tín hiệu tiếng nói bản thân là sóng âm thanh và tuân theo các qui luật về âm thanh, cơ học Trên cơ sở đó, tiếng nói được hình thành và lan truyền Hơn nữa, cũng như các tín hiệu khác, tín hiệu tiếng nói có những đặc điểm thống kê riêng Những đặc điểm này được khai thác trong quá trình phân tích tiếng nói với mục tiêu mang lại những biểu diễn tín hiệu tiếng nói một cách trung thực nhất Biểu diễn toán học là không thể thiếu trong quá trình xử lý tín hiệu tiếng nói Các mô hình tạo tiếng nói được phát triển không phải để thu lại một mô tả chính xác giải phẫu thực

và vật lý của hệ thống tiếng nói con người mà mong muốn thu được một biểu diễn toán học đơn giản để tái tạo lại những đặc tính cần thiết của tín hiệu tiếng nói tạo tiền đề cho các phương pháp nén tiếng nói

Quá trình tạo âm thanh tiếng nói bao gồm sự vận động của một luồng không khí Âm biểu diễn tiếng nói là một sóng âm bị nén khởi nguồn từ hệ thống tạo tiếng nói vật lý Một sơ đồ đơn giản của bộ phận tiếng nói con người được đưa ở hình 1.1 [1] Những thành phần chính và chức năng của bộ phận tạo tiếng nói bao gồm:

- Phổi: tạo ra năng lượng

- Khí quản: chuyển đổi năng lượng

- Thanh quản và dây thanh: bộ phát tín hiệu

- Cơ quan phát âm –Vocal tract (họng, khoang miệng, khoang mũi…): Bộ lọc âm học

Trang 13

Hình 1.1 Các bộ phận tạo ra tiếng nói Không khí bị kích thích từ phổi đi lên thanh quản (qua các dây thanh âm) dao động theo sự điều khiển của não bộ và đi dọc theo cơ quan phát âm sẽ tạo ra tiếng nói Sự dao động của các dây thanh âm tạo ra sự đóng mở tương tự như một cánh cửa (thanh môn) Sự đóng mở này sẽ làm cho luồng không khí từ phổi đi lên bị ngắt quãng khác nhau và tạo ra những âm thanh khác nhau của tiếng nói Ngoài tác động chính từ phổi và thanh quản, tiếng nói con người được tạo ra còn phụ thuộc vào cấu tạo của cơ quan phát âm gồm: vòm họng, lưỡi, miệng, khoang mũi và mũi Hình 1.2 biểu diễn mô hình cơ học của quá trình phát âm [2]

Trang 14

Hình 1.2 Mô hình cơ học quá trình phát âm người Với mô hình cơ học như trên, có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau như trong hình 1.3 [2] Chính hình dáng này đã tạo ra sự cộng hưởng âm thanh

và các tần số cộng hưởng này gọi là các tần số formant Các tần số này tạo ra các

âm vị khác nhau tuỳ theo hình dáng cơ quan phát âm Mô hình này có thể được biểu

diễn một cách chính xác bằng một tập hợp các phương trình toán học

Hình 1.3 Mô hình dạng ống của cơ quan phát âm người Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm, do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể Vì vậy ta có thể biểu diễn cơ quan phát âm bằng một hệ thống tuyến tính bất biến theo thời gian; có nghĩa là suốt trong một âm vị, các tham số của hệ thống này sẽ gần như không đổi nhưng chúng sẽ thay đổi rất lớn

từ âm vị này sang âm vị khác

Ngoài mô hình hoá cơ quan phát âm thì mô hình hoá sự kích thích của luồng không khí từ phổi đi qua thanh môn lên cơ quan phát âm cũng rất quan trọng Tùy theo loại âm thanh mà có cách mô hình hoá thích hợp để tiếng nói sau khi tái tạo đạt được chất lượng theo yêu cầu Khi muốn nén và tái tạo tiếng nói, chúng ta có thể

Trang 15

mô hình hóa các tham số thể hiện sự kích thích của phổi và dao động của thanh quản

Cụ thể, để tổng hợp tiếng nói người ta dựa vào các tham số sau (hình 1.4) [3]:

- Kích thích do phổi tạo ra được mô hình bằng nhiễu ngẫu nhiên

- Dao động của thanh quản được mô hình từ bộ lọc “Pitch”

- Đường tạo âm được mô hình hóa từ bộ lọc mã hóa dự đoán tuyến tính LPC (Linear Predictive Coding)

Pitch

Nhiễu

Âm hữu thanh

Âm vô thanh

Tiếng nói

Hình 1.4 Mô hình hóa tiếng nói con người

1.1.2 Các tính chất cơ bản của tiếng nói

Các bộ nén tiếng nói được thiết kế dựa trên việc khai thác các tính chất của tín hiệu tiếng nói Chúng ta nhắc lại ngắn gọn về một vài tính chất quan trọng của tín hiệu tiếng nói Trước hết, các tín hiệu tiếng nói là không dừng và tốt hơn cả chúng được xem là gần như dừng trên các đoạn ngắn, thường từ 5 đến 30ms Các tính chất thống kê và phổ của tiếng nói, vì vậy, được xác định trên các đoạn ngắn Tiếng nói con người được cấu tạo từ hai thành phần chính: âm hữu thanh (voiced)

và âm vô thanh (unvoiced)

- Âm hữu thanh: âm hữu thanh được tạo ra nhờ dao động của thanh quản dưới dạng dãy xung tuần hoàn (các dây thanh âm dao động đóng mở làm ngắt quãng luồng không khí và sự ngắt quãng này được xem gần như là tuần hoàn tác động lên cơ

Trang 16

quan phát âm) Theo thực nghiệm chu kỳ tuần hoàn (pitch) này khoảng 2-20ms Do

đó với âm hữu thanh, tín hiệu kích thích được mô hình hóa là các xung tuần hoàn

Âm hữu thanh được đặc trưng bởi tần số cơ sở của nó, tức là tần số dao động của những dây thanh, và mẫu chỉ định biên độ của những phổ hài Vùng âm hữu thanh chiếm thành phần chủ yếu trong tiếng nói, chứa đựng thông tin nhiều nhất và thời gian lớn nhất trong quá trình nói

- Âm vô thanh: âm vô thanh được tạo ra do phổi kích thích tạo ra không theo quy luật nào cả (không tuần hoàn) Âm vô thanh được xác định chủ yếu thông qua đặc tính phổ đường bao của nó Tín hiệu có dạng gần giống như tạp âm nhiễu có biên

độ ngẫu nhiên Do đó với âm vô thanh, tín hiệu kích thích được mô hình hóa tương

tự như nhiễu Năng lượng của nguồn nhiễu loạn kích thích tuyến âm tạo nên âm vô thanh, năng lượng của tiếng nói vô thanh nhỏ hơn năng lượng của tiếng nói hữu thanh Kích thích hữu thanh và vô thanh không loại trừ lẫn nhau Chúng có thể xảy

ra đồng thời

Hình 1.5 mô tả dạng sóng tín hiệu tiếng nói âm hữu thanh và vô thanh [1]

Hình 1.5 Dạng sóng tín hiệu tiếng nói

a Hữu thanh b Vô thanh

Trang 17

Nhìn chung, các âm của tiếng nói là một trong hai loại âm trên hoặc là sự kết hợp của chúng Theo thống kê, người ta đã xác định được hầu hết các âm là hữu thanh

Khi tổng hợp tiếng nói, hai thành phần hữu thanh và vô thanh của tiếng nói sẽ được đưa qua bộ lọc LPC để tạo ra tiếng nói tổng hợp

Ta có thể thấy hai dạng thông tin có liên quan đến tiếng nói:

- Dao động dây thanh âm phát ra một dãy tín hiệu gần như có chu kì và được đặc trưng bởi tham số pitch

- Sự điều chế của tuyến thanh âm định hình đường bao phổ tín hiệu tiếng nói và được đặc trưng bởi tham số formant Đường bao phổ có các đỉnh công suất tại các tần số formant Đối với tuyến thanh âm trung bình có ba đến năm formant nhỏ hơn 5kHz Biên độ và vị trí của ba formant đầu (thường nằm thấp hơn 3kHz) là rất quan trọng cho cả tổng hợp tiếng nói và tai nghe

1.2 Tổng quan về hệ thống nén tiếng nói

1.2.1 Cấu trúc của một hệ thống nén tiếng nói

Nén tiếng nói là lĩnh vực có liên quan tới việc nhận được biểu diễn số tiếng nói với mục đích truyền hay lưu giữ có hiệu quả Nén tiếng nói, nén thoại hay mã thoại, là một quá trình phân tích và sau đó có thể tái tạo lại tín hiệu tiếng nói yêu cầu: sử dụng càng ít bit càng tốt mà không làm giảm chất lượng tiếng nói Do sự bùng nổ của viễn thông, nên việc nén tiếng nói ngày càng được nghiên cứu và ứng dụng rộng rãi Kỹ thuật vi điện tử và các bộ xử lý khả trình giá rẻ cũng góp phần thúc đẩy và trợ giúp phát triển, chuyển giao công nghệ nhanh chóng từ nghiên cứu đến thực tiễn

Trên hình 1.6 [11] là sơ đồ khối của hệ thống truyền thông tiếng nói Tín hiệu tiếng nói tương tự từ nguồn phát sau khi lọc (khử nhiễu) được số hóa bằng cách lấy mẫu (biến đổi thời gian rời rạc), chuyển đổi tín hiệu rời rạc sang số (lượng

Trang 18

tử hóa) Trong khi việc lấy mẫu lúc nào cũng được thực hiện tuân theo định lý lấy mẫu Nyquist thì lại có nhiều thay đổi trong các phương pháp đề xuất về biểu diễn dạng sóng đã lấy mẫu Việc lượng tử hóa hay mã nguồn (biểu diễn nhị phân dạng sóng đã lấy mẫu) có thể là trực tiếp hay tham số Lượng tử hóa trực tiếp có nghĩa biểu diễn nhị phân của chính các mẫu tiếng nói trong khi lượng tử hóa tham số bao hàm biểu diễn mô hình tiếng nói và/hoặc các tham số phổ

Biến đổi D/A

Giải mã kênh

Tiếng nói ra

Tiếng nói

vào

Hình 1.6 Sơ đồ khối của hệ thống truyền thông tiếng nói Đầu ra của bộ mã nguồn là tiếng nói số đã được nén và thường có tốc độ bit thấp hơn tín hiệu đầu vào, lúc này tín hiệu tiếng nói số đã được nén

Tín hiệu số sau khi nén sẽ tiếp tục được mã hóa kênh để cung cấp khả năng sửa sai cho dòng bit khi truyền trên kênh, vì trên kênh có nhiều loại nhiễu và tạp âm

có thể gây ảnh hưởng đối với tính chân thật của tín hiệu truyền

Tại bên nhận sẽ thực hiện ngược lại: Bộ giải mã kênh sẽ xử lý số liệu có khả năng sửa sai từ kênh vào để khôi phục lại số liệu đã mã hóa Số liệu này sau đó sẽ được giải mã (giãn) nhờ bộ giải mã nguồn để tái tạo tín hiệu tiếng nói số với tốc độ bit ban đầu Tín hiệu tiếng nói số được chuyển đổi thành dạng tương tự và được lọc

Trong các ứng dụng truyền thông, tiếng nói thường có băng thông hạn chế là 4kHz (hoặc 3.2kHz) Theo định lý Nyquist, tần số lấy mẫu phải gấp ít nhất là 2 lần bẳng thông của tín hiệu, do đó tín hiệu thoại thường lấy mẫu với tần số 8kHz Để

Trang 19

chuyển đổi mẫu tương tự sang tín hiệu số, ta sử dụng lượng tử hóa chuẩn và duy trì chất lượng thoại nhiều hơn 8 bits/mẫu Việc sử dụng 16 bits/mẫu sẽ cung cấp chất lượng thoại cao hơn Kỹ thuật nén phi tham số đơn giản nhất là điều chế xung mã (PCM – Pulse Code Modulation), đó chỉ đơn giản là phép lượng tử hóa các biên độ

đã lấy mẫu Nếu số bit lượng tử là 16 cho mỗi mẫu thì tiếng nói được nén đạt tốc độ bit là 8 * 16 = 128kbps Tốc độ bit đầu vào này chính là giá trị mà bộ mã hóa nguồn

cố gắng giảm xuống Đầu ra của mã hóa nguồn sẽ biểu diễn tín hiệu tiếng nói số đã nén có tốc độ bit thấp hơn đầu vào càng nhiều càng tốt PCM được xem như mã

“không nén” và thường được sử dụng như một tham khảo trong so sánh

Trong sơ đồ hình 1.6 để đơn giản chúng ta sẽ gọi bộ mã và giải mã nguồn là

bộ mã (nén) và giải mã (giãn) (Hình 1.7 [11]) Tín hiệu tiếng nói vào (là tín hiệu số

và có tốc độ 128kbps) đi qua bộ mã hóa sẽ tạo thành dòng bit đã mã hóa hay còn được gọi là số liệu tiếng nói nén Tốc độ bit của dòng bit này thường thấp hơn nhiều

so với tiếng nói vào Bộ giải mã sẽ nhận dòng bit đã mã hóa và khôi phục thành tín hiệu đầu ra, là tín hiệu số có cùng tốc độ bit với tín hiệu tiếng nói vào ban đầu Có thể sử dụng nhiều cách tiếp cận khác nhau để thiết kế cặp bộ mã/giải mã Các kỹ thuật nén khác nhau sẽ cho chất lượng tiếng nói, tốc độ bit cũng như độ phức tạp trong thực hiện cũng khác nhau

Tiếng nói ra(128kbps)

Tiếng nói vào

(<128kbps)Hình 1.7 Sơ đồ khối của một bộ nén tiếng nói

Mô hình mã/giải mã trên hình 1.7 được gọi là mô hình nén/giãn tiếng nói, với tín hiệu tiếng nói đầu vào sẽ được nén tạo thành dòng bit tốc độ thấp Dòng bit này được truyền đi và đưa qua bộ giải mã để khôi phục lại tiếng nói với chất lượng gần như ban đầu

Trang 20

1.2.2 Những yêu cầu đối với một bộ nén tiếng nói

Mục đích chủ yếu của nén tiếng nói là đạt chất lượng tốt nhất ở một tốc độ bit cụ thể hoặc là đạt tốc độ bit tối thiểu với một chất lượng cho trước Tốc độ bit thích hợp cho việc truyền thông hay lưu trữ phụ thuộc vào các yêu cầu kỹ thuật đối với ứng dụng, yêu cầu của việc nén tín hiệu tiếng nói số và yêu cầu chất lượng tiếng nói Trong hầu hết các bộ nén tiếng nói, tín hiệu được tái tạo lại thường khác với tín hiệu ban đầu Tốc độ bit được giảm bằng cách biểu diễn lại tín hiệu tiếng nói với độ chính xác thấp hơn và bằng cách loại bỏ độ dư khỏi tín hiệu Một số yêu cầu chủ yếu đối với một bộ nén tiếng nói như sau:

- Tốc độ bit thấp: tốc độ dòng bit sau khi nén càng thấp thì yêu cầu băng thông kênh

truyền càng hẹp làm cho hệ thống hiệu quả hơn Tuy nhiên yêu cầu này thường xung đột với các đặc tính có lợi khác như chất lượng tiếng nói Trong thực tế, ta sẽ phải tìm được một sự cân bằng cần thiết để đảm bảo yêu cầu của một ứng dụng cụ thể

- Chất lượng tiếng nói cao: tiếng nói được giải mã cần có chất lượng chấp nhận

được cho một ứng dụng cụ thể nào đó Chất lượng này có thể từ mức dễ hiểu đến mức đảm bảo tính tự nhiên của tiếng nói

- Hiệu suất cao đối với các vùng không có tiếng nói: Việc nén các vùng không có

tiếng nói đem lại nhiều ưu điểm trong các hệ thống thông tin tiếng nói với kênh thông tin có băng tần bị giới hạn như là nhiễu đồng kênh giảm trong các hệ thống thông tin tế bào, tiết kiệm năng lượng cho thiết bị di động, giảm tỷ lệ mất gói khi truyền tiếng nói thông qua các gói trong mạng Bộ nhận dạng tiếng nói VAD (Voice Activity Detector) [4] được sử dụng để nhận biết vùng có tiếng nói và vùng không

có tiếng nói trong bộ nén/giãn tiếng nói VAD được sử dụng thường xuyên cho từng đoạn tiếng nói có chiều dài 10-20ms và dùng bit nhị phân để thể hiện có tiếng nói hay không có tiếng nói Ở tại phía thu, một bộ tạo nhiễu sẽ tái tạo lại các frame không chứa tiếng nói và kết hợp với các frame có tiếng nói Các thuật toán VAD có cấu trúc chung, trong đó năng lượng được dự đoán sẽ được so sánh với các mức

Trang 21

ngưỡng tương thích Thuật toán chỉ ra rằng các đoạn tín hiệu có năng lượng nhỏ hơn năng lượng trung bình thì sẽ được đánh giá là vùng không chứa tiếng nói

- Dung lượng bộ nhớ và độ phức tạp tính toán thấp: Để giảm giá thành cài đặt khi

triển khai các hệ thống nén tiếng nói vào thực tế

- Độ trễ nén thấp: độ trễ này là khoảng thời gian của tiếng nói đầu ra của bộ giải mã

bị dịch chậm hơn so với tiếng nói đầu vào bộ mã Trễ nén bao gồm: trễ đệm mã hóa, trễ xử lý mã/giải mã, trễ truyền tải Độ trễ nén được xác định bằng tổng của các thành phần trễ kể trên Trong đó, trễ đệm mã hóa có ảnh hưởng lớn nhất vì nó xác định giới hạn trên cho các thành phần trễ còn lại Trong thực tế, trễ mã hóa vào khoảng 1,5-3 lần độ dài khung phụ thuộc vào phương pháp truyền Mức trễ cao sẽ khó được chấp nhận trong hệ thống tiếng nói thời gian thực Hình 1.8 mô tả các thành phần của trễ nén

Thời gian Trễ nén

Hình 1.8 Các thành phần của trễ nén

1.2.3 Phân loại các bộ nén tiếng nói

Các bộ nén tiếng nói có thể được phân loại theo kỹ thuật nén (mã hóa) (Bảng 1.1) gồm ba loại chính là mã hóa dạng sóng, mã hóa tham số và mã hóa lai

Trang 22

Bảng 1.1 Phân loại các bộ nén tiếng nói theo kỹ thuật nén

Dạng sóng Tốc độ cao, chất lượng tốt PCM, ADPCM Tham số Tốc độ thấp, chất lượng chấp nhận được LPC, MELP

Lai Tốc độ trung bình, chất lượng khá CELP, ACELP

Tốc độ bit và chất lượng tiếng nói sau khi tổng hợp lại của các bộ mã hóa này được biểu diễn ở hình 1.9 [2]

Hình 1.9 Chất lượng tiếng nói so với tốc độ bit của các bộ mã hóa

a Mã hóa dạng sóng: người ta chia mã hoá dạng sóng ra làm hai loại chính:

- Trong miền thời gian: mã hóa điều biến xung mã (PCM), điều biến xung

mã vi phân (DPCM - Differential Pulse Code Modulation) và điều biến xung mã vi phân thích nghi (ADPCM - Adaptive Differential Pulse Code Modulation)

- Trong miền tần số: mã hoá băng con (SBC - Subband Coding) và mã hoá

biến đổi thích nghi (ATC - Adaptive Transform Coding)

b Mã hóa tham số:

Mã hoá tham số hay mã hóa nguồn sử dụng mô hình quá trình tạo ra nguồn tín hiệu và khai thác các thông số của mô hình này để mã hoá tín hiệu Những thông

số của mô hình sẽ được truyền đến bộ giải mã Đối với tiếng nói, các bộ mã hoá

Trang 23

nguồn được gọi là Vocoder hoạt động dựa trên mô hình cơ quan phát âm và được kích thích với một nguồn nhiễu trắng đối với các đoạn tiếng nói vô thanh hoặc được kích thích bằng một dãy xung có chu kì bằng chu kì pitch đối với đoạn tiếng nói hữu thanh Do đó thông tin được gởi đến bộ giải mã là các thông số kỹ thuật của bộ lọc, một thông tin chỉ định đoạn tiếng nói là hữu thanh hay vô thanh, sự thay đổi cần thiết của tín hiệu kích thích và chu kì pitch nếu đó là đoạn tiếng nói hữu thanh

Có nhiều kỹ thuật để mã hoá nguồn như: mã hoá kênh (Channel Vocoder),

mã hoá formant (Formant Vocoder), mã hoá đồng hình (Cestral Vocoder) và mã hóa dự đoán tuyến tính (LPC) Tuy nhiên, hiện nay chủ yếu tập trung vào nghiên cứu và phát triển các bộ mã hoá tuyến tính như mã hoá dự đoán tuyến tính LPC, mã hoá dự đoán tuyến tính có sự kích thích kết hợp MELP (Mixed – Excitation Linear Prediction) và mã hoá dự đoán tuyến tính kích thích bằng tín hiệu sau dự đoán RELP (Residual – Excited Linear Prediction) Các bộ mã hoá tham số này thường dùng cho điện thoại qua vệ tinh và trong quân đội

c Mã hóa lai:

Mã hóa lai kết hợp ưu điểm của mã hóa dạng sóng và mã hóa tham số Giống với Vocoder, mã hóa lai dựa trên mô hình tạo tiếng nói, các tham số sẽ được tìm trong quá trình mã hóa Chúng sẽ được tối ưu nhờ đánh giá tín hiệu sai số Giống với mã hóa dạng sóng, tín hiệu khôi phục sau giải mã sẽ được xử lý sao cho phù hợp với tín hiệu ban đầu nhất trong vùng thời gian Mã hóa lai khác với Vocoder ở chỗ chúng còn lượng tử và biểu diễn các tham số của tín hiệu kích thích của mô hình tạo tín hiệu tiếng nói ngoài các tham số khác Hình 1.10 mô tả sơ đồ khối của một bộ mã hóa lai [5]

Trang 24

Hình 1.10 Sơ đồ khối của một bộ mã hóa lai Trong các bộ mã hoá lai, các thông số của hệ thống sẽ được xác định bằng kỹ thuật dự đoán tuyến tính như trong mã hoá tham số và tín hiệu kích thích được xác định bằng một vòng kín (phân tích bằng cách tổng hợp)

Hình 1.10 là một bộ mã hoá lai điển hình Hệ thống này bao gồm một bộ lọc

dự đoán (tổng hợp) thời gian ngắn (STP – Short Term Prediction) A(z), một bộ lọc

dự đoán thời gian dài (LTP – Long Term Prediction) AL(z), bộ lọc cảm nhận W(z)

và một bộ giảm thiểu sai số cung cấp thông tin cần thiết cho bộ tạo tín hiệu kích thích

Trong đó, bộ tạo tín hiệu kích thích là quan trọng nhất vì nó tạo ra hay chọn tín hiệu kích thích sao cho sai số bình phương trung bình đã đi qua W(z) là nhỏ nhất Tuỳ theo mỗi loại mã hoá mà bộ tạo tín hiệu kích thích này khác nhau Mặc dù

sơ đồ trên là chung cho các bộ mã hoá lai nhưng một số loại không sử dụng bộ lọc LTP hoặc vị trí STP và LTP thay đổi

1.3 Một số kỹ thuật mã hóa dạng sóng

Các kỹ thuật mã hóa (nén) dạng sóng tập trung vào biểu diễn dạng sóng tiếng nói sao cho không cần khai thác mô hình tiếng nói cơ bản Các bộ mã dựa trên kỹ thuật này làm việc tốt với một lớp rộng hơn các tín hiệu, tuy nhiên, tốc độ dữ liệu của chúng cao hơn so với các bộ mã hóa dựa trên kỹ thuật khác

Trang 25

1.3.1 Một số kỹ thuật mã dạng sóng trong miền thời gian

Đại diện cho loại này là điều chế mã xung (PCM), điều biến xung mã vi phân (DPCM) và điều chế Delta (DM – Delta Modulation) Đặc trưng của kỹ thuật này là

mã hóa biên độ từng mẫu (như PCM) hoặc chỉ lượng tử độ khác nhau giữa các mẫu

kế tiếp nhau (như DPCM, DM) Lượng tử hóa có thể đều (như trong PCM đều không thích nghi) và không đều (như trong PCM sử dụng luật A và luật µ), trong đó một lượng tử hóa logarit 7 bit đối với tiếng nói đạt chất lượng của lượng tử hóa đều

12 bit Kiểu lượng tử có thể thích nghi (ADM, ADPCM) hoặc không thích nghi Trong phương pháp lượng tử thích nghi có kích thước bước, bộ dự đoán thích nghi

và tìm số liệu thống kê thay đổi theo thời gian của tiếng nói, vì vậy chúng có độ phức tạp tính toán trung bình và thực hiện tốt hơn PCM thông thường, hoạt động ở tốc độ bằng hoặc thấp hơn 32kbps

1.3.2 Một số kỹ thuật mã dạng sóng trong miền tần số

Khả năng giảm tốc độ bit trong các kỹ thuật này nằm ở cấu trúc phổ công suất thời gian ngắn của tiếng nói cũng như trong các tính chất cảm nhận của tai người

Trong kỹ thuật mã băng con (SBC), dải tín hiệu được chia thành các dải con tần số bằng cách sử dụng các bộ lọc thông dải Sau đó đầu ra của mỗi bộ lọc được lấy mẫu và mã hóa Tại bên thu, các tín hiệu được tách kênh, giải mã và sau đó lấy tổng để khôi phục tín hiệu Việc thiết kế dải bộ lọc là việc làm rất quan trọng trong kỹ thuật SBC Dải thông bộ lọc có thể bằng nhau hoặc không bằng nhau

Trong kỹ thuật mã biến đổi (TC – Transform Coding), các thành phần biến đổi của một biến đổi T được lượng tử hóa ở bên phát và được giải mã và biến đổi ngược tại bên thu Khả năng giảm tốc độ bit trong TC xuất phát từ thực tế rằng các biến đổi T loại bỏ độ dư của tín hiệu trong vùng biến đổi, do vậy các mẫu sau biến đổi không còn tương quan gần với nhau và chúng có thể được mã hóa một cách độc lập

Trang 26

Có một số biến đổi rời rạc có thể được sử dụng cho TC, ví dụ biến đổi Cosin rời rạc (DCT), biến đổi Fourier rời rạc (DFT), biến đổi Walsh Hadamard rời rạc (DWHT), biến đổi Karhunen Loeve (KLT), bộ mã biến đổi thích nghi (ATC)

1.4 Một số kỹ thuật mã hóa tham số

Từ tính chất của tín hiệu tiếng nói đã trình bày ở trên, một kỹ thuật mã hóa khác được thực hiện cho “một khối mẫu” bằng việc trích ra “các tham số” của khối mẫu tín hiệu tiếng nói này và mã hóa chúng Đó chính là kỹ thuật mã hóa tham số Đại diện cho kỹ thuật này là các Vocoder (Voice CODER) Liên quan đến mô hình này có thể dùng các khái niệm tương đương nhau:

- Phân tích, nén, mã hóa

- Tổng hợp, giãn, giải mã

Hầu hết các Vocoder đều khai thác mô hình tổng hợp tiếng nói Bằng việc chia các âm thành âm hữu thanh và âm vô thanh, ta có mô hình tổng hợp tiếng nói của Vocoder (Hình 1.11) [5] Mô hình này gồm một hệ thống biến thiên chậm tuyến tính theo thời gian (biểu diễn tuyến thanh âm) được kích hoạt bởi chuỗi xung có chu

kì (đối với tiếng nói âm hữu thanh) và kích hoạt ngẫu nhiên (đối với tiếng nói âm vô thanh)

Bộ lọctuyến thanh âm

tổng hợpPitch

Nhiễu

Hình 1.11 Mô hình kĩ thuật tổng hợp tiếng nói

Có thể kể ra ở đây một số loại Vocoder như:

Trang 27

- Vocoder kênh: dựa trên việc biểu diễn phổ tiếng nói như tích của tuyến thanh âm

và phổ kích hoạt Một biểu diễn đường bao tuyến thanh âm nhận được nhờ các bộ lọc thông dải, gọi là kênh

- Vocoder formant với các đặc tính cộng hưởng của dải bộ lọc trong các Vocoder formant thích nghi với quỹ đạo của các formant

- Vocoder đồng hình: trong đó tuyến thanh âm và phổ log biên độ kích hoạt có thể kết hợp bổ sung để tạo ra phổ log biên độ tiếng nói

- Vocoder dự đoán tuyến tính (Vocoder LPC): Trong phân tích dự đoán tuyến tính, mẫu hiện tại của dãy tiếng nói được dự đoán từ tổ hợp tuyến tính M mẫu trước đó

Có một số thuật toán như sau: LPC, LPC-10, LPC-10e, LPC kích hoạt hỗn hợp, LPC kích hoạt thặng dư Các hệ số dự đoán, đặc tính của âm hữu thanh và vô thanh sẽ được mã hóa và đưa đến bộ tổng hợp

Vocoder LPC sử dụng một bộ lọc dự đoán với các hệ số dự đoán để mô hình hóa tuyến âm thanh Sau đó bộ lọc được kích bởi hoặc các xung có chu kỳ hoặc tạp

âm ngẫu nhiên cho các âm hữu thanh hoặc vô thanh Vocoder làm việc tốt với tốc

độ bit từ 2kbps đến 5kbps, tuy nhiên chất lượng tiếng nói không cải thiện được bao nhiêu ở tốc độ trên 5kbps

1.5 Một số kỹ thuật mã hóa lai

Mã hóa lai kết hợp các đặc điểm của Vocoder truyền thống với các đặc điểm phù hợp dạng sóng của các bộ mã dạng sóng Tuỳ theo cách tạo ra tín hiệu kích thích mà người ta đưa ra các loại mã hoá lai khác nhau như mã hoá kích thích đa xung MPE (Multi-Pulse Excitation), mã hoá kích thích xung đều RPE (Regular Pulse Excitation), mã hoá kích thích bằng mã CELP (Code-Excited Linear Prediction), mã hoá kích thích bằng vectơ tổng VSELP (Vector Sum Excited Linear Prediction) Trong các tiêu chuẩn dùng cho liên lạc di động có ba loại sau đây thường được sử dụng là: RPE-LTP (Regular Pulse Excitation – Long Term Prediction), ACELP (Algebraic Code – Excited Linear Prediction) và VSELP

Trang 28

Một đại diện điển hình của mã hóa lai là mã hóa “dự đoán tuyến tính được kích thích” CELP (Code-Excited Linear Prediction) [5] Mô hình tạo tín hiệu tiếng nói theo CELP hay mô hình tổng hợp CELP (Hình 1.12) như sau:

hợp pitch

Bộ lọc tổng hợp formant

Chỉ số kích Hệ số

tăng ích phân tích pitchCác tham số Các tham số phân tích formant

Hình 1.12 Mô hình tổng hợp CELPChuỗi tín hiệu kích thích được lựa chọn từ một sách mã (codebook) theo chỉ

số Tín hiệu này được tăng ích (gain) đến một mức thích hợp, sau đó được lọc qua

bộ lọc tổng hợp pitch và bộ lọc tổng hợp formant, tín hiệu thu được ở đầu ra của mô hình này là tín hiệu tiếng nói tổng hợp

Kỹ thuật CELP dựa trên mô hình tạo tiếng nói (Hình 1.11) Vì vậy có thể thấy nhiệm vụ của các bộ mã hóa CELP là trích xuất hai dạng thông tin pitch và formant từ tín hiệu tiếng nói theo một cách hiệu quả nhất Tuy nhiên nếu chỉ trích xuất hai dạng thông tin như Vocoder LPC thì chất lượng âm thanh tiếng nói được tái tạo không trung thực, mất tính tự nhiên của người nói Trong CELP phải xây dựng sách mã kích dựa trên “phần dư tiếng nói” nhằm tạo ra âm thanh tiếng nói tự nhiên hơn Cũng vì lý do trên mà sách mã này thường được gọi là “sách mã thích nghi” Mô hình (Hình 1.13 [11]) đưa ra các thành phần chủ yếu của bộ mã hóa CELP

Trang 29

Sách mã kích

Tiếng nói tổng hợp

Bộ lọc tổng hợp pitch

Tính toán hệ

số tăng ích Phân tích phổ

Tối thiểu hóa sai số

Tiếng nói

vào

Hình 1.13 Mô hình phân tích CELP Trong quá trình mã hóa, CELP sử dụng các tham số tách được để tổng hợp tín hiệu và cố gắng tìm kiếm được cấu trúc phổ mịn để tái tạo lại tín hiệu sao cho chính xác nhất Quá trình tối ưu này được gọi là phân tích vòng đóng, mà mục đích của nó là chọn các tham số tốt nhất sao cho tín hiệu tổng hợp được phù hợp với tín hiệu ban đầu nhất Mô hình này ưu việt hơn các Vocoder LPC là nó không cần đến thông tin phân biệt âm hữu thanh/âm vô thanh như Vocoder LPC và thông tin một phần về pha của tín hiệu tiếng nói được lưu giữ lại Nhờ đó mà mã hóa CELP có thể đạt được tiếng nói chất lượng cao ở tốc độ thấp, mà điều này là không thể đạt được bằng các Vocoder mà chất lượng tiếng nói bị hạn chế bởi mô hình

Ngoài CELP thì còn một số kỹ thuật mã hóa lai khác như:

- Mã hoá kích thích bằng xung đều RPE-LTP [5]: Đây là loại mã hoá sử dụng tín

hiệu kích thích kết hợp giữa xung đều và tín hiệu sau dự đoán từ chu kỳ pitch trước

Trang 30

đó, được xác định bằng một bộ dự đoán thời gian dài LTP để tính chu kì pitch và độ lợi (tăng ích) pitch cho tín hiệu kích thích

- Mã hoá kích thích bằng mã đại số ACELP: Mã hoá kích thích bằng mã đại số

ACELP [5] cũng là một dạng mã hoá CELP Tuy nhiên, các vectơ trong stochastic codebook (sách mã ngẫu nhiên) ở ACELP được tạo thành từ các giá trị nhị phân (chỉ gồm hai giá trị) hoặc tam phân (chỉ gồm ba giá trị)

- Mã hoá kích thích bằng tổng vectơ VSELP: Thuật toán VSELP [5] được Gerson

và Jasiuk đề xuất ra ứng dụng trong truyền thông di động Thuật toán này sử dụng các sách mã có cấu trúc tốt để giảm thiểu độ phức tạp trong tính toán Tín hiệu kích thích trong VSELP là sự kết hợp của các vectơ từ ba sách mã gồm sách mã thích nghi và hai sách mã ngẫu nhiên có cấu trúc tốt

1.6 Hiệu năng [5]

Một thuật toán nén tiếng nói được đánh giá dựa trên tốc độ bit, chất lượng của tiếng nói “được nén” sau khi khôi phục, độ phức tạp của thuật toán, độ trễ tín hiệu, và tính mạnh của thuật toán đối với các lỗi kênh và giao thoa âm Trong tiếng nói chất lượng cao nói chung, nén tốc độ thấp đạt được khi dùng thuật toán phức tạp hơn

Đo chất lượng tiếng nói là quan trọng song là một nhiệm vụ rất khó khăn Tỉ

số tín hiệu trên tạp (SNR – Signal to Noise Radio) là một trong những số đo khách quan chung nhất cho đánh giá hiệu năng của một thuật toán nén Tuy nhiên các số

đo khách quan thường nhạy cảm với cả sự biến đổi khuếch đại và giữ chậm Quan trọng hơn, chúng thường không tính đến các tính chất nhận thức của tai Vì vậy, các đánh giá chủ quan khi sử dụng các bản ghi âm tiếng nói cân bằng ngữ âm được yêu cầu vì thiết kế của hầu hết các thuật toán tốc độ thấp đều dựa trên chuẩn thính giác Các thủ tục kiểm tra chủ quan như Kiểm tra vần chẩn đoán (DRT - Diagnostic Rhyme Test), Đo có thể chấp nhận chẩn đoán (DAM - Diagnostic Acceptability Measure), và Điểm đánh giá trung bình (MOS - Mean Opinion Score) dựa trên đánh

Trang 31

giá của người nghe DRT là một số đo độ dễ hiểu khi cần nhận biết một trong hai từ

có trong một bộ các cặp vần (ví dụ, meat – heat) Các điểm DAM dựa trên kết quả các phương pháp đo do những người nghe quy chuẩn đã qua huấn luyện khi đánh giá chất lượng của hệ thống truyền thông dựa trên tính có thể chấp nhận của tiếng nói MOS là số đo được sử dụng rộng rãi, cần nhiều người nghe để đánh giá chất lượng tiếng nói đã mã hóa MOS được đo theo thang đo chất lượng từ 1 đến 5 tương ứng với mức chất lượng từ thấp nhất đến cao nhất Hình 1.14, hình 1.15 và hình 1.16 đưa ra hiệu năng DRT, DAM và MOS của một số bộ mã hóa [5]

020406080100

Trang 32

lý tín hiệu tích hợp cao hơn và nhanh hơn có thể giải quyết được một phần vấn đề này song độ chính xác khi tính toán trên các chip vẫn sẽ là rất quan trọng

Trang 33

1.7 Ứng dụng của các mô hình nén tiếng nói

Nén tiếng nói đóng vai trò quan trọng trong kỹ thuật âm thanh hiện đại, đặc biệt cho truyền thông thoại số, nơi mà chất lượng và độ phức tạp ảnh hưởng trực tiếp đến giá thành và khả năng chiếm lĩnh thị trường của các sản phẩm, dịch vụ Có rất nhiều tiêu chuẩn nén thoại được thiết kế đối với một ứng dụng nén thoại cụ thể như:

- FS1015 LPC: mô hình này được tạo ra từ năm 1984 để cung cấp truyền thông bảo mật cho các ứng dụng quân sự

- TIA IS54 VSELP: mô hình này được tiêu chuẩn hóa từ năm 1989 cho hệ thống điện thoại di động số TDMA ở Bắc Mỹ

- ETSI AMR ACELP: mô hình này được chuẩn hóa năm 1999, là một phần của hệ thống viễn thông di động toàn cầu (UMTS - Universal Mobile Telecommunications

System) liên kết với 3GPP

Những năm gần đây, cùng với sự bùng nổ của internet, rất nhiều công ty tập trung phát triển các ứng dụng dựa vào VoIP Nén thoại cũng đóng vai trò trung tâm trong cuộc cách mạng này

1.8 Một số chuẩn nén tiếng nói sử dụng trong thông tin

Một số chuẩn nén tiếng nói được sử dụng trong thông tin liên lạc được thể hiện trong bảng 1.2 [8]

Trang 34

Bảng 1.2 Một số chuẩn nén tiếng nói

Tên chuẩn Tốc độ bit

(Kbps)

Băng thông (KHz)

Tổ chức đặt ra chuẩn

Trang 35

CHƯƠNG 2 THUẬT TOÁN NÉN TIẾNG NÓI CELP

VÀ ACELP

Chương 1 đã xem xét tổng quan một số phương pháp nén tiếng nói và thấy rõ

ưu, nhược điểm của các loại phương pháp nén tiếng nói trong truyền thông tốc độ thấp Chương 2 sẽ phân tích kỹ hơn về phương pháp mã hóa lai CELP và ACELP, sau đó nghiên cứu tìm hiểu về chuẩn nén tiếng nói AMR dựa trên thuật toán ACELP với các tốc độ khác nhau

2.1 Kỹ thuật mã hóa kích thích bằng mã CELP

2.1.1 Cấu trúc mô hình thuật toán CELP

Sơ đồ khối tổng hợp CELP tổng quát trên hình 1.11 được mô tả chi tiết hơn trên hình 2.1 [11] Trong mô hình này, một khối N mẫu tiếng nói được tổng hợp bằng cách lấy một dãy kích thích hợp từ sách mã (codebook) nhân với hệ số tăng ích g (gain – độ lợi/tăng ích) qua hai bộ lọc biến đổi thời gian

Sách mã thích nghi

Tiếng nói ra

Bộ lọc tổng hợp thời gian ngắn

Tách các thành phần

Dự đoán tăng ích

Chỉ số sách mã đại số

Trễ pitch

Tăng ích Kích quá khứ

Bộ lọc tổng hợp thời gian dài

Trang 36

Bộ lọc đầu tiên là một bộ lọc dự đoán thời gian dài (bộ lọc pitch) nhằm mô hình dãy gần như có chu kỳ trong tín hiệu tiếng nói và bộ lọc thứ hai là bộ lọc thời gian ngắn (bộ lọc formant) mô hình hóa cho đường bao phổ tiếng nói

Bộ lọc tổng hợp pitch được cho bởi:

Bộ lọc tổng hợp formant được cho bởi:

1

( )

( )1

i i i

CELP sử dụng kĩ thuật phân tích nhờ tổng hợp để xác định pitch và các tham

số sách mã Sơ đồ khối một bộ mã hóa CELP được chỉ ra trên hình 2.2 [11]

Trang 37

Sách mã

thích nghi

Tiếng nói vào

Bộ lọc tổng hợp thời gian ngắn

Chỉ số sách mã (k) Trễ pitch (T) Tăng ích

Phân tích LPC lượng

tử và nội suy

Lấy trọng

số cảm nhận Tìm MSE

Lượng tử tăng ích

Thông tin LPC

T 0

Thông tin LPC

Hình 2.2 Sơ đồ khối bộ phân tích tiếng nói CELP Theo kĩ thuật phân tích nhờ tổng hợp, tiếng nói tổng hợp được tính toán cho toàn bộ dãy kích và nhưng chỉ giữ lại một dãy “tốt nhất” là dãy tạo ra tín hiệu tổng hợp gần với tín hiệu gốc dựa trên sai số được lấy trọng số cảm nhận Bộ lọc lấy trọng số cảm nhận làm tăng tính chất phổ tại những vùng formant phổ tiếng nói và được cho bởi:

1 1

1( )( )

( / )

1

M i i i M

i i i i

Ngày đăng: 02/04/2017, 08:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Peter Vary and Rainer Martin, Digital Speech Transmission, John Wiley &amp; Sons Ltd, 2006 Sách, tạp chí
Tiêu đề: Digital Speech Transmission
Tác giả: Peter Vary, Rainer Martin
Nhà XB: John Wiley & Sons Ltd
Năm: 2006
[2]. N. Jayant, Speech Compression: Coding of Speech, Audio, Text, Image and Video, World Scientific Publishing Co. Ltd, 1997 Sách, tạp chí
Tiêu đề: Speech Compression: Coding of Speech, Audio, Text, Image and Video
[3]. Jacob Benesty, M. Mohan Sondhi, Yiteng Huang, Springer Handbook of Speech Processing, Springer – Verlag Berlin Heidelberg, 2008 Sách, tạp chí
Tiêu đề: Springer Handbook of Speech Processing
[4]. Andreas Tyrberg, Data Transmission over Speech Coded Voice Channels, Linkửping, 2006 Sách, tạp chí
Tiêu đề: Data Transmission over Speech Coded Voice Channels
[5]. Andreas Spanias, Speech coding: A tutorial review, Arizona State University, USA, 1994 Sách, tạp chí
Tiêu đề: Speech coding: A tutorial review
Tác giả: Andreas Spanias
Nhà XB: Arizona State University
Năm: 1994
[6]. Mark Hasegawa – Johnson &amp; Abeer Alwan, Speech Coding: Fundamentals and Applications, 1999 Sách, tạp chí
Tiêu đề: Speech Coding: Fundamentals and Applications
Tác giả: Mark Hasegawa – Johnson, Abeer Alwan
Năm: 1999
[7]. J. Makhoul, Markel J.D., Gray A.H. Linear Prediction of speech. Springer- Verlag, Berlin Heidelberg, New York, 1976 Sách, tạp chí
Tiêu đề: Linear Prediction of speech
Tác giả: J. Makhoul, Markel J.D., Gray A.H
Nhà XB: Springer- Verlag
Năm: 1976
[8]. Karthikeyan Ramamurthy, Andreas Spanias, MATLAB Software for the Code Excited Linear Prediction Algorithm The Federal Standard-1016, Synthesis Lectures on Algorithms and Software in Engineering, 2010 Sách, tạp chí
Tiêu đề: MATLAB Software for the Code Excited Linear Prediction Algorithm The Federal Standard-1016
Tác giả: Karthikeyan Ramamurthy, Andreas Spanias
Nhà XB: Synthesis Lectures on Algorithms and Software in Engineering
Năm: 2010
[9]. Ian Mcloughlin, Applied Speech and Audio Processing with Matlab example, Cambridge University Press, 2009 Sách, tạp chí
Tiêu đề: Applied Speech and Audio Processing with Matlab example
[11]. TS. Đinh Như Hà Bình, Thiết kế Modul nén/giãn tín hiệu thoại dựa trên công nghệ DSP, 2007 Sách, tạp chí
Tiêu đề: Thiết kế Modul nén/giãn tín hiệu thoại dựa trên công nghệ DSP
Tác giả: TS. Đinh Như Hà Bình
Năm: 2007
[12]. Perceptual evaluation of speech quality (PESQ), International Telecommunication Union, 2001 Sách, tạp chí
Tiêu đề: Perceptual evaluation of speech quality (PESQ)
[10]. 3G TS 26.090 : “AMR Speech Codec; Transcoding functions&#34 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Các bộ phận tạo ra tiếng nói - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 1.1. Các bộ phận tạo ra tiếng nói (Trang 13)
Hình 1.2. Mô hình cơ học quá trình phát âm người - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 1.2. Mô hình cơ học quá trình phát âm người (Trang 14)
Hình 1.8. Các thành phần của trễ nén - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 1.8. Các thành phần của trễ nén (Trang 21)
Hình 1.14. Hiệu năng DRT của một số bộ mã hóa - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 1.14. Hiệu năng DRT của một số bộ mã hóa (Trang 31)
Hình 1.15. Hiệu năng DAM của một số bộ mã hóa - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 1.15. Hiệu năng DAM của một số bộ mã hóa (Trang 32)
Hình 2.8. Sơ đồ nguyên lý chung thuật toán ACELP - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 2.8. Sơ đồ nguyên lý chung thuật toán ACELP (Trang 47)
Hình 3.1. Sơ đồ khối bộ nén tín hiệu tiếng nói - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 3.1. Sơ đồ khối bộ nén tín hiệu tiếng nói (Trang 66)
Hình 3.2. Sơ đồ khối bộ tổng hợp (giải nén) tín hiệu tiếng nói - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 3.2. Sơ đồ khối bộ tổng hợp (giải nén) tín hiệu tiếng nói (Trang 67)
Hình 3.4. Phổ của tín hiệu tiếng nói sau khi nén được tổng hợp lại với bậc LP là 10 - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 3.4. Phổ của tín hiệu tiếng nói sau khi nén được tổng hợp lại với bậc LP là 10 (Trang 70)
Hình 3.6 .  Phổ của tín hiệu tiếng nói 1.wav - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 3.6 Phổ của tín hiệu tiếng nói 1.wav (Trang 71)
Hình 3.7. Phổ của tín hiệu tiếng nói 2.wav - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 3.7. Phổ của tín hiệu tiếng nói 2.wav (Trang 72)
Hình 3.8. Phổ của tín hiệu tiếng nói sau khi nén được tổng hợp lại sử dụng CELP - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 3.8. Phổ của tín hiệu tiếng nói sau khi nén được tổng hợp lại sử dụng CELP (Trang 72)
Hình 3.9. So sánh phổ của tín hiệu tiếng nói ban đầu và tín hiệu tiếng nói sau khi - Nghiên cứu các thuật toán nén tiếng nói tốc độ thấp
Hình 3.9. So sánh phổ của tín hiệu tiếng nói ban đầu và tín hiệu tiếng nói sau khi (Trang 73)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w