1. Trang chủ
  2. » Luận Văn - Báo Cáo

Các phương pháp mã hóa thoại trong các bộ vocoder

89 153 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 89
Dung lượng 1,42 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xuất phát từ những vấn đề như vậy nên tôi đã quyết định chọn đề tài : "Nghiên cứu các phương pháp mã hóa thoại trong các bộ Vocoder" với mục đích tìm hiểu quá trình xử lý số tín hiệu t

Trang 1

Hà Nội – Năm 2010

Mẫu 1b MẪU TRANG PHỤ BÌA LUẬN VĂN

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

DOÃN THANH BÌNH

CÁC PHƯƠNG PHÁP MÃ HÓA THOẠI TRONG CÁC BỘ VOCODER

Chuyên ngành : KỸ THUẬT ĐIỆN TỬ

LUẬN VĂN THẠC SĨ KHOA HỌC

KỸ THUẬT ĐIỆN TỬ

NGƯỜI HƯỚNG DẪN KHOA HỌC :

1 TS NGUYỄN HỮU TRUNG

Trang 2

Lời Cam Đoan

Tôi xin cam đoan luận văn là do bản thân tôi thực hiện dựa trên những kiến thức đã được học và dựa trên những kinh nghiệm thực tiễn trong quá trình làm việc, dưới sự hướng dẫn của TS.Nguyễn Hữu Trung Tôi xin chịu hoàn toàn trách nhiệm

về nội dung của bản luận văn này

Hà Nội, ngày 25 tháng 10 năm 2010

Học Viên

Doãn Thanh Bình

Trang 3

Mục Lục

Trang Trang phụ bìa

Mục lục Lời cam đoan i Danh mục các ký hiệu, các chữ viết tắt ii

Danh mục bảng iii

Mở Đầu vi

Chương 2 – TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ TÍN HIỆU THOẠI 5

2.2 Tổng quan các bước xử lý tín hiệu thoại 19

Chương 3 – CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU THOẠI 22

Trang 4

4.1.2 Dự đoán tuyến tính trong xử lý thoại 31

4.2 Mô hình xử lý tín hiệu thoại 32

Trang 6

Danh mục các bảng

Bảng 6.1 Sự phân bố bit của các tham số của thuật toán CS-ACELP tốc độ 8Kbit/s

Trang 7

Danh mục các ký hiệu các chữ viết tắt

A/D Analog/Digital

AR Autoregressive

Trang 8

Danh mục các hình vẽ, đồ thị

Hình 1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người 1

Hình 1.3 Mô hình dạng ống của cơ quan phát âm người 4

Hình 2.1 Dạng sóng âm thanh nguyên thủy 6

Hình 2.2 Dạng sóng của tín hiệu 7 Hình 2.3 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số 7

Hình 2.4 Thực hiện việc lấy mẫu 8 Hình 2.5 Kết quả của việc lấy mẫu các giá trị 8

Hình 2.6 Dạng sóng được tái tạo lại 8

Hình 2.7 Mô hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số 9

Hình 2.10 Phân tích tín hiệu âm thanh theo mô hình Sin + Nhiễu + Nốt đệm 13

Hình 2.12 Sơ đồ khối phân rã của quá trình thay đổi tần số lấy mẫu 15

Hình 4.2 Bộ lọc lỗi dự đoán 30

Hình 4.4 Hình vẽ các khung phi thoại 33

Hình 4.5 Sơ đồ của một khung âm thanh phi thoại 34

Hình 4.6 Sơ đồ khung tín hiệu âm thanh thoại 34

Hình 4.7 Sơ đồ của một khung âm thanh thoại 35

Trang 9

Hình 6.1 Sơ đồ nguyên lý của phương pháp tổng hợp CELP 54

Hình 8.3 Tín hiệu tái tạo 76

Trang 10

Với sự xuất hiện của cáp quang thì băng thông dành cho các dịch vụ truyền thông đã được cải thiện một cách đáng kể Tuy nhiên, băng thông trong các cuộc gọi đường dài, các cuộc gọi quốc tế, các cuộc gọi qua vệ tinh hay các cuộc gọi di động thì cần phải duy trì ở một mức nhất định Ngoài ra, việc sử dụng nhiều ứng dụng và dịch vụ trên cùng một đường truyền dẫn đến một nhu cầu cấp thiết là cần phải tối ưu hóa các dịch vụ đó Chính vì thế việc mã hoá tiếng nói là vô cùng cần thiết, giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn đảm bảo chất lượng của cuộc gọi Trong số các công nghệ mã hóa thoại hiện nay thì công nghệ Vocoder là một công nghệ rất ưu việt giúp nén tín hiệu thoại số xuống tốc độ thấp hơn mà chất lượng thoại vẫn đảm bảo ở mức cao Xuất phát từ những

vấn đề như vậy nên tôi đã quyết định chọn đề tài : "Nghiên cứu các phương pháp

mã hóa thoại trong các bộ Vocoder" với mục đích tìm hiểu quá trình xử lý số tín

hiệu thoại nói chung và đặc biệt là một số chuẩn nén trong công nghệ Vocoder Trong quá trình làm luận văn tốt nghiệp, mặc dù tôi cũng đã cố gắng rất nhiều nhưng do trình độ và khả năng nghiên cứu còn nhiều hạn chế nên không thể tránh khỏi những sai sót Tôi rất mong nhận được sự phê bình, hướng dẫn và giúp

đỡ của thầy cô, bạn bè

Trang 11

Tôi cũng chân thành cảm ơn sự giúp đỡ tận tình của thầy giáo TS Nguyễn Hữu Trung, cùng các thầy cô trong khoa Điện Tử Viễn thông đã giúp tôi hoàn thành luận văn tốt nghiệp này

Trang 12

CHƯƠNG 1:

CÁC ĐẶC TRƯNG CƠ BẢN CỦA TÍN HIỆU

THOẠI

Trong chương này, tôi sẽ trình bày một cách khái quát về những đặc trưng,

về mô hình hóa và về tính chất cơ bản của quá trình tạo ra tiếng nói Có thể nói đây

là những kiến thức cơ bản nhất và là nền tảng cho những nghiên cứu về xử lý tín hiệu thoại sau này

1.1 Đặc trưng của âm thanh tương tự

Mục đích của lời nói là dùng để truyền đạt thông tin Có rất nhiều cách mô tả đặc điểm của việc truyền đạt thông tin Dựa vào lý thuyết thông tin, lời nói có thể được đại diện bởi thuật ngữ là nội dung thông điệp, hoặc là thông tin Một cách khác để biểu thị lời nói là tín hiệu mang nội dung thông điệp, như là dạng sóng âm thanh

Hình 1.1 Dạng sóng của tín hiệu ghi nhận được từ âm thanh của người

Kỹ thuật ghi âm đầu tiên sử dụng các thông số về cơ, điện cũng như trường giúp làm nên nhiều cách thức ghi âm ứng với các loại áp suất không khí khác nhau Điện áp đến từ một microphone là tín hiệu tương tự của áp suất không khí (hoặc đôi khi là vận tốc)

Trang 13

Trong các thiết bị tương tự hiện đại ngày nay các tiêu chuẩn xử lý thì hầu như không có gì thay đổi mặc dù công nghệ xử lý tốt hơn Trong hệ thống xử lý âm thanh tương tự, thông tin được truyền đạt bằng thông số liên tục biến thiên vô hạn

Hệ thống xử lý âm thanh số lý tưởng có những tính năng tương tự như hệ thống xử lý âm thanh tương tự lý tưởng: cả hai hoạt động một cách “trong suốt” và tạo lại dạng sóng ban đầu không lỗi Tuy nhiên, trong thế giới thực, các điều kiện lý tưởng rất hiếm tồn tại, cho nên hai loại hệ thống xử lý âm thanh hoạt động sẽ khác nhau trong thực tế Tín hiệu số sẽ truyền trong khoảng cách ngắn hơn tín hiệu tương

tự và với chi phí thấp hơn

Thông tin dùng để truyền đạt của âm thoại về bản chất có tính rời rạc, và nó

có thể được biểu diễn bởi một chuỗi ghép gồm nhiều phần tử từ một tập hữu hạn các ký hiệu (symbol) Các ký hiệu từ mỗi âm thanh có thể được phân loại thành các

âm vị (phoneme) Mỗi ngôn ngữ có các tập âm vị khác nhau, được đặc trưng bởi các con số có giá trị từ 30 đến 50 Ví dụ như tiếng Anh được biểu diễn bởi một tập khoảng 42 âm vị

Vậy tín hiệu thoại được truyền với tốc độ như thế nào? Đối với tín hiệu âm thoại nguyên thủy chưa qua hiệu chỉnh thì tốc độ truyền ước lượng có thể tính được bằng cách lưu ý giới hạn vật lý của việc nói lưu loát của người nói tạo ra âm thanh thoại là khoảng 10 âm vị trong một giây Mỗi một âm vị được biểu diễn bởi một số nhị phân, như vậy một mã gồm 6 bit có thể biểu diễn được tất cả các âm vị của tiếng Anh Với tốc độ truyền trung bình 10 âm vị/giây, và không quan tâm đến vấn

đề luyến âm giữa các âm vị kề nhau, ta có thể ước lượng được tốc độ truyền trung bình của âm thoại khoảng 60bit/giây

Trong hệ thống truyền âm thoại, tín hiệu thoại được truyền lưu trữ và xử lý theo nhiều cách thức khác nhau Tuy nhiên đối với mọi loại hệ thống xử lý âm thanh thì có hai điều cần quan tâm chung là:

1 Việc duy trì nội dung của thông điệp trong tín hiệu thoại

Trang 14

2 Việc biểu diễn tín hiệu thoại phải đạt được mục tiêu tiện lợi cho việc truyền tin hoặc lưu trữ, hoặc ở dạng linh động cho việc hiệu chỉnh tín hiệu thoại sao cho không làm giảm nghiêm trọng nội dung của thông điệp thoại

1.2 Quá trình tạo ra tiếng nói

1.2.1 Mô hình hóa quá trình tạo ra tiếng nói

Khi không khí bị ép từ phổi lên đi qua các dây thanh âm dao động (theo sự điều khiển của não bộ) và đi dọc theo cơ quan phát âm sẽ tạo ra tiếng nói Sự dao động của các dây thanh âm tạo ra sự đóng mở tương tự như một cánh cửa (thanh môn) Sự đóng mở này sẽ làm cho luồng không khí từ phổi đi lên bị ngắt quãng khác nhau, làm cho tiếng nói tạo ra cũng khác nhau Ngoài sự tác động của các dây thanh âm, tiếng nói tạo ra còn phụ thuộc vào sự thay đổi của cơ quan phát âm gồm: vòm họng, lưỡi, miệng, khoang mũi và mũi Hình 1.2 biểu diễn mô hình cơ học của

cơ quan phát âm

Hình 1.2 Mô hình cơ học cơ quan phát âm người

Với mô hình cơ học như trên, có thể biểu diễn cơ quan phát âm bằng một

mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau như trong Hình 1.3 Chính hình dáng này đã tạo ra sự cộng hưởng âm thanh và các tần số cộng hưởng này gọi là các tần số formant Các tần số này tạo ra các âm vị khác nhau tuỳ theo hình dáng cơ quan phát âm Mô hình này có thể được biểu diễn một cách chính xác bằng một tập hợp các phương trình toán học Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm, do đó

Trang 15

trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể Vì vậy ta có thể biểu diễn cơ quan phát âm bằng một hệ thống tuyến tính bất biến theo thời gian; có nghĩa là suốt trong một âm vị, các tham số của hệ thống này sẽ gần như không đổi nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang

âm vị khác

Hình 1.3 Mô hình dạng ống của cơ quan phát âm người

Ngoài mô hình hoá cơ quan phát âm thì mô hình hoá sự kích thích của luồng không khí từ phổi đi qua thanh môn lên cơ quan phát âm cũng rất quan trọng Tuỳ theo loại âm thanh mà có cách mô hình hoá thích hợp để tiếng nói sau khi tái tạo đạt được chất lượng theo yêu cầu

1.2.2 Tính chất cơ bản của quá trình tạo tiếng nói

Trong kỹ thuật mã hoá tiếng nói, dựa vào sự dao động của các dây thanh

âm người ta chia tiếng nói ra thành hai loại âm chính sau đây:

- Âm hữu thanh (voiced sound): Âm hữu thanh được tạo ra khi các dây thanh

âm dao động đóng mở làm ngắt quãng luồng không khí và sự ngắt quãng này được xem gần như là tuần hoàn tác động lên cơ quan phát âm Theo thực nghiệm chu kì tuần hoàn này khoảng từ 2 - 20ms Do đó với âm hữu thanh, tín hiệu kích thích được mô hình hoá là các xung tuần hoàn

- Âm vô thanh (unvoiced sound): Âm vô thanh được tạo ra khi luồng không khí đi qua thanh môn tác động lên cơ quan phát âm không theo một qui luật nào cả (không tuần hoàn) Do đó với âm vô thanh, tín hiệu kích thích được mô hình hoá tương tự như một nhiễu

Nhìn chung, các âm của tiếng nói là một trong hai loại âm trên hoặc là sự kết hợp của chúng Theo thống kê, người ta đã xác định được hầu hết các âm là hữu thanh

Trang 16

CHƯƠNG 2 : TỔNG QUAN VỀ QUÁ TRÌNH XỬ LÝ TÍN

HIỆU THOẠI

Nội dung chính của chương 2 là những vấn đề cơ bản của xử lý tín hiệu

thoại như các kiểu mô hình hóa tín hiệu, các mô hình và kiến trúc xử lý âm thanh đồng thời cũng nêu ra một số chuẩn đánh giá các hệ thống xử lý thoại làm cơ sở để đánh giá tính ưu việt của những phương pháp mã hóa thoại trong các bộ Vocoder được trình bày ở các chương sau Ngoài ra cũng đưa ra một cách khái quát về các bước tiến hành xử lý tín hiệu thoại

2.1 Hệ thống số xử lý âm thanh

2.1.1 Mô hình hóa tín hiệu âm thanh

Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và áp dụng các giải thuật trong việc khôi phục âm thanh Chất lựơng của âm thoại phụ thuộc rất lớn vào

mô hình giả định phù hợp với dữ liệu Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong muốn, mô hình phải tổng quát và không sai lệnh so với giả định Một điều cần lưu ý là trong thực tế hầu hết các tín hiệu âm thoại là các tín hiệu động, mặc dù mô hình thực tiễn thì thường giả định khi phân tích tín hiệu là tín hiệu có tính chất tĩnh trong một khoảng thời gian đang xét Mô hình phù hợp với hầu hết rất nhiều lãnh vực trong việc xử lý chuỗi thời gian, bao gồm việc phục hồi

âm thanh là mô hình Autoregressive (viết tắt AR), được dùng làm mô hình chuẩn cho việc phân tích dự đoán tuyến tính

Tín hiệu hiện tại được biểu diễn bởi tổng giá trị của P tín hiệu trước đó và tín hiệu nhiễu trắng, P là bậc của mô hình AR:

[ ] [ ] [ ]

1

p

i i

s u s n i a e i

=

= ∑ − + (2.1)

Trang 17

Mô hình AR đại diện cho các quá trình tuyến tính tĩnh, chấp nhận tín hiệu tương tự nhiễu và tín hiệu tương tự điều hòa Một mô hình khác phù hợp hơn đối với nhiều tình huống phân tích là mô hình auto regressive moving-average (ARMA) cho phép các điểm cực cũng như điểm 0 Tuy nhiên mô hình AR có tính linh động hơn trong phân tích hơn mô hình ARMA, ví dụ một tín hiệu nhạc phức tạp cần mô hình có bậc P > 100 để biểu diễn dạng sóng của tín hiệu, trong khi các tín hiệu đơn giản hơn chỉ cần biểu diễn bằng bậc 30 Trong nhiều ứng dụng, việc lựa chọn bậc của mô hình phù hợp cho bài toán sao cho đảm bảo việc biểu diễn tín hiệu là thỏa việc không làm mất đi thông tin của tín hiệu là việc hơi phức tạp Có rất nhiều phương pháp dùng để ước lượng bậc của mô hình AR như phương pháp maximum likelihood/least-squares [Makhoul, 1975], và phương pháp robust to noise [Huber,

1981, Spath, 1991], v.v…Tuy nhiên, đối với việc xử lý các tín hiệu âm nhạc phức tạp thì thông thường sử dụng mô hình Sin (Sinusoidal) Mô hình Sin rất phù hợp trong các phương pháp dùng để giảm nhiễu

2.1.2 Kiến trúc hệ thống số xử lý âm thanh

Đối với máy tính số xử lý âm thanh, người ta thường dùng phương pháp Điều chế xung (Pulse Code Modulation, viết tắt PCM) Dạng sóng âm thanh được chuyển sang dãy số PCM như sau, xét tín hiệu hình sin làm ví dụ:

Tín hiệu gốc là tín hiệu như Hình 2.1

Hình 2.1 Dạng sóng âm thanh nguyên thủy

Kế đến, sử dụng một microphone để thu tín hiệu âm thanh (trong không khí) và chuyển đổi thành tín hiệu điện, tầm điện áp ngõ ra của microphone ±1 volt như Hình 2.2

Trang 18

Hình 2.2 Dạng sóng của tín hiệu điện

Tín hiệu điện áp dạng tương tự sau đó được chuyển thành dạng số hóa bằng thiết bị chuyển đổi tương tự-số (analog-to-digital converter) Khi sử dụng bộ chuyển đổi 16bit tương tự-số, tầm số nguyên cửa ra có giá trị –32,768 đến +32,767, được mô tả như hình 2.3

Hình 2.3 Ngõ ra của bộ chuyển đổi tín hiệu tương tự sang tín hiệu số

Vì số lượng điểm dữ liệu là vô hạn nên không thể lấy tất cả các điểm thuộc trục thời gian, việc lấy mẫu sẽ được thực hiện trong một khoảng thời gian đều đặn

Số lượng mẫu trong một giây được gọi là tần số lấy mẫu (sampling rate) Hình 2.4

mô tả 43 mẫu được lấy

Trang 19

Hình 2.4 Thực hiện việc lấy mẫu

Kết quả của việc lấy mẫu là một chuỗi gồm 43 chữ số biểu diễn cho các vị trí của dạng sóng ứng thời gian gian là một chu kỳ (hình 2.5)

Hình 2.5 Kết quả của việc lấy mẫu các giá trị

Máy tính sau đó sẽ xây dựng lại dạng sóng của tín hiệu bằng việc kết nối các điểm dữ liệu lại với nhau Dạng sóng kết quả được mô tả ở Hình 2.6

Hình 2.6 Dạng sóng được tái tạo lại

Lưu ý rằng có một vài điểm khác biệt giữa dạng sóng nguyên thủy và dạng sóng tái tạo (Hình 2.1 và Hình 2.6), lý do:

Trang 20

- Các giá trị được tạo ra tại bộ chuyển đổi tín hiệu tương tự sang tín hiệu số là các số nguyên và được làm tròn giá trị

- Hình dáng của tín hiệu tái tạo phụ thuộc vào số lượng mẫu được ghi nhận Tổng quát, một dãy số hữu hạn (đại diện cho tín hiệu số) chỉ có thể biểu diễn cho một dạng sóng tín hiệu tương tự với độ chính xác hữu hạn

2.1.3 Mô hình xử lý âm thanh

2.1.3.1 Các mô hình lấy mẫu và mã hóa thoại

a Lấy mẫu tín hiệu ở miền thời gian và tái tạo tín hiệu liên tục

Để xử lý một tín hiệu liên tục bằng các phương tiện xử lý tín hiệu số, ta phải đổi tín hiệu liên tục đó ra dạng một chuỗi số bằng các lấy mẫu tín hiệu liên tục một cách tuần hoàn có chu kỳ là T giây Gọi x(n) là tín hiệu rời rạc hình thành do quá trình lấy mẫu, tín hiệu liên tục x t a( ), ta có

x n x nT ( ) ( ) = a −∞< <∞ n (2.2)

Các mẫu x(n) phải được lượng hóa thành một tập các mức biên độ rời rạc rồi mới được đưa vào bộ xử lý số Hình 2.7 minh họa một cấu hình tiêu biểu cho hệ thống xử lý tín hiệu tương tự bằng phương pháp số Trong các phần sau, ta bỏ qua sai số lượng hóa phát sinh trong quá trình biến đổi A/D

( )

a

Hình 2.7 Mô hình hệ thống xử lý tín hiệu tương tự bằng phương pháp số

Để xác định quan hệ giữa phổ của tín hiệu liên tục và phổ của tín hiệu rời rạc tạo ra từ quá trình lấy mẫu tín hiệu, liên tục đó, ta chú ý đến quan hệ giữa biến độc lập t và n của tín hiệu x t a( ) và x n( )

Trang 21

Định lý lấy mẫu: một tín hiệu liên tục có băng tần hữu hạn, có tần số cao nhất là B

Hertz có thể khôi phục từ các mẫu của nó với điều kiện tần số lấy mẫu F s ≥ 2B

b Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu liên tục :

Ta đã biết tín hiệu liên tục có năng lượng hữu hạn thì có phổ liên tục Trong phần này, ta sẽ xét quá trình lấy mẫu của các tín hiệu loại đó một cách tuần hoàn và

sự tái tạo ín hiệu từ các mẫu của phổ của chúng

Xét một tín hiệu liên tục x t a( ) với một phổ liên tục X F a( ) Giả sử ta lấy mẫu X F a( ) tại các thời điểm cách nhau ∂FHertz Ta muốn tái tạo X F a( )hoặc

c Lấy mẫu tín hiệu ở miền tần số và tái tạo tín hiệu rời rạc :

Xét một tín hiệu rời rạc không tuần hoàn x n( ) có phép biến đổi Fourier:

Giả sử ta lấy mẫu X( )ω tuần hoàn tại các điểm cách nhau ∂ω rad Vì X( )ω

tuần hoàn với chu kỳ 2π , chỉ có các mẫu trong phạm vi tần số cơ bản là cần thiết

Để thuận tiện, ta lấy N mẫu cách đều nhau trong khoảng 0 ≤ ≤ω 2π theo khoảng cách ∂ =ω 2 / Nπ

Xét ω= 2πk N/ , ta được 2 ( ) 2 /

0,1, 1

j kn N n

= ∑ − nhận được bằng cách lặp lại tuần hoàn x n( )

tại mỗi N mẫu, tín hiệu này tuần hoàn với chu kỳ N, do đó có thể được triển khai theo khai triển Fourier

Trang 22

x n p( ) là sự mở rộng tuần hoàn của x n( ), nên x n( )có thể được khôi phục

từ x n p( )nếu không có aliasing ở miền thời gian, nghĩa là nếu x n( )có thời gian giới hạn nhỏ hơn hoặc bằng chu kỳ N của x n p( )

2.1.3.2 Các mô hình dùng trong xử lý âm thanh

số các tín hiệu sin, và ta tách việc xử lý riêng tín hiệu này thành phần xử lý Stochastic (Λ) được ký hiệu là e n( )

Trang 23

Thành phần Λ có thể được tính bằng phép biến đổi Short-Time Fourier sử dụng lưu đồ ở hình 2.8

Hình 2.8 Phân tích các thành phần hình sin của phần stochastic

Mô hình sin là một mô hình hữu dụng vì nó cho phép áp dụng việc truyền các âm thanh nhạc lấy từ việc ghi băng thực tế Hình 2.9 mô tả một các bước thực hịên cho việc hiệu chỉnh tín hiệu âm nhạc

Hình 2.9 Cơ cấu tổ chức cho việc biểu diễn việc truyền tín hiệu âm nhạc

Trang 24

Tín hiệu sin-nhiễu-nốt đệm :

Trong mô hình sin + nhiễu, điều cơ bản là các tín hiệu âm thanh là tổng hợp của nhiều tín hiệu sin tần số thấp và các loại nhiễu băng rộng hầu như ở dạng tĩnh Khi đó, một thành phần của âm thanh không được xem xét đến, đó là nốt đệm Việc hiệu chỉnh âm thanh có thể được thực hiện dễ dàng bằng cách tách riêng thành phần nốt đệm để xét riêng Thực tế, hầu hết các dụng cụ âm nhạc mở rộng trường độ của một nốt nhạc không làm ảnh hưởng đến chất lượng xử lý

Với lý do này, một mô hình mới là sin + nhiễu + nốt đệm được phát họa dùng trong việc phân tích âm thanh Ý tưởng chính của việc trích âm đệm trong thực tế từ việc quan sát rằng, các tín hiệu hình sin trong miền thời gian được ánh xạ qua miền tần thành các đỉnh có vị trí xác định, trong khi đó các xung ngắn đối ngẫu trong miền thời gian khi được ánh xạ qua miền tần lại có dạng hình sin Như vậy,

mô hình sin có thể được ứng dụng trong miền tần số biểu diễn các tín hiệu hình sin

Sơ đồ của việc phân tích SNT được mô tả trong Hình 2.10

Hình 2.10 Phân tích tín hiệu âm thanh theo mô hình sin + nhiễu + nốt đệm

Khối DCT trong Hình 2.10 mô tả hoạt động của phép rời rạc cosin Phép biến đổi, được định nghĩa như sau:

( ) 1 ( ) ( )

0

2 1os2

N n

Trang 25

Mô hình LPC :

Mã hóa dự đoán tuyến tính có thể được sử dụng để mô hình phổ tĩnh Tổng hợp LPC được mô tả trong lưu đồ trong Hình 2.11 Về bản chất, mô hình chính là giải thuật trừ tổng hợp thực hiện một tính hiệu có phổ “đặc” được lọc bởi một bộ lọc cực Tín hiệu kích thích có thể sử dụng chính tín hiệu thặng dư e có được qua quá trình phân tích, hoặc có thể dử dụng các thông tin của tín hiệu thoại/phi thoại

Hình 2.11 Tổng hợp LPC

b Mô hình miền thời gian :

Việc mô tả âm thanh trong miền tần số rất có hiệu quả, tuy nhiên trong một vài ứng dụng, để tiện việc nghiên cứu việc tổng hợp âm thanh, việc phân tích trong miền thời gian lại có ưu thế hơn Tôi xin trình bày một số mô hình miền thời gian ứng dụng trong việc mã hóa thoại

Máy tạo dao động số :

Máy tạo dao động số đặc biệt hữu ích trong việc biểu diễn tổng hợp tín hiệu đối với các bộ vi xử lý đa mục đích, khi các phép toán trên dấu chấm động được triển khai Tuy nhiên, phương pháp này dùng cho việc tạo tín hiệu sin có hai bất lợi:

- Việc cập nhật thông số yêu cầu tính toán trên hàm cosin Đây là một điều khó đối với điều chế tốc độ âm thanh, do phải thực hiện phép tính cosin ứng với từng mẫu trong miền thời gian

- Thay đổi tần số của máy dao động số sẽ làm thay đổi biên độ tín hiệu sin Khi

đó bộ phận logic điều khiển biên độ cần được sử dụng để điều chỉnh hạn chế này

Trang 26

Máy tạo dao động bảng sóng :

Trong phương pháp kinh điển và linh động nhất về tổng hợp các dạng sóng

có chu kỳ (bao gồm tín hiệu dạng sin) là việc đọc lặp đi lặp lại một bảng chứa nội dung của một dạng sóng đã được lưu trữ trước Nếu dạng sóng được tổng hợp ở dạng sin, đối xứng thì việc lưu trữ cho phép chỉ cần lưu trữ ¼ chu kỳ, và việc tính toán số học sẽ được nội suy cho cả chu kỳ

Đặt buf[ ] là bộ đệm có nội dung chứa là chu kỳ của dạng sóng, hoặc bảng dạng sóng Máy tạo dao động dạng sóng hoạt động lặp lại theo chu kỳ quét bảng

dạng sóng là bội số của gia số I và đọc nội dung của bảng dạng sóng tại vị trí đó

Gọi B là chiều dài bộ đệm, f0 là tần số mà ta muốn tạo tần số lấy mẫu F s,

khi đó giá trị của gia số I là :

0

s

Bf I F

= (2.10)

Sự thay đổi tần số lấy mẫu :

Bài toán thiết kế máy tạo dao động bảng sóng có thể chuyển thành bài toán thay đổi tần số lấy mẫu, ví dụ như biến đổi tín hiệu được lấy mẫu tại tần số lấy mẫuF s,1 thành tín hiệu được lấy mẫu tại tần số F s,2 Nếu ,2

,1

s s

F = M , với L và M là các số nguyên tối giản, việc thực hiện thay đổi tần số lấy mẫu có thể được thực hiện bằng các bước :

1 Tăng tần số lấy mẫu bằng hệ số L

2 Sử dụng bộ lọc thông thấp

3 Giảm tần số lấy mẫu bằng hệ số M

Hình 2.12 Sơ đồ khối phân rã của quá trình thay đổi tần số lấy mẫu

Trang 27

Hình 2.13 Ví dụ về thay đổi tần số lấy mẫu với L /M=3/2

c Các mô hình phi tuyến :

Điều pha và điều tần :

Kỹ thuật tổng hợp phi tuyến thông dụng nhất là điều tần (FM) Trong liên lạc thông tin, FM được dùng trong các thập kỹ gần đây, nhưng ứng dụng của nó trong giải thuật tổng hợp âm thanh trong miền thời gian rời rạc được biết đến với cái tên John Chowning Về bản chất, Chowning đã thực hiện các nghiên cứu trên các phạm

vi khác nhau của việc tạo tiếng rung bằng các bộ tạo dao động đơn giản, và thu được kết quả là các tần số rung nhanh sẽ tạo ra các thay đổi đầy kịch tính Như vậy, điều chế tần số của một máy tạo dao động cũng đủ tạo ra tín hiệu âm thanh có phổ phức tạp Mô hình FM của Chowning như sau:

x n( ) A sin( = ωc n+ Isin(ωm n)) A sin( = ωc n+ Φn)) (2.11)

Với ωclà tần số sóng mang và ωm là tần số điều chế, I là chỉ số điều chế

Trang 28

Méo phi tuyến :

Khái niệm tổng hợp âm thanh bằng méo phi tuyến – Nonlinear distortion (NLD) rất đơn giản: cửa ra của mạch tạo dao động được dùng như là thông số của một hàm phi tuyến Trong miền thời gian rời rạc số, hàm phi tuyến được lưu trữ trong một bảng, và ngõ ra của bộ dao động được dùng như là chỉ số để truy nhập vào bảng Điều thú vị của NLD là lý thuyết này cho phép thiết kế một bảng méo cho bởi các đặc điểm kỹ thuật của một phổ mong muốn

2.1.4 Các chuẩn mã hóa âm thoại trong các hệ thống xử lý thoại

Chuẩn mã hóa âm thoại thông thường được nghiên cứu và phát triển bởi một nhóm các chuyên gia đã giành hết thời gian và tâm huyết thực hiện các công việc kiểm nghiệm, mô phỏng sao cho đảm bảo một tập các yêu cầu đưa ra đáp ứng được Sau đây là một số hội đồng chuẩn nổi tiếng được nhiều nhà cung cấp sản phẩm tuân theo :

- Liên minh viễn thông quốc tế - International Telecommunications Union (ITU): Các chuẩn viễn thông của ITU (chuẩn ITU-T) có uy tín trong việc định ra các chuẩn mã hóa âm thoại cho hệ thống mạng điện thoại, bao gồm các mạng vô tuyến lẫn hữu tuyến

- Hiệp hội côngnghiệp viễn thông - Telecommunications Industry Association (TIA): có trách nhiệm ban hành các chuẩn mã hóa thoại cho các ứng dụng cụ thể, là một thành viên của Viện tiêu chuẩn quốc gia Hoa Kỳ - National Standards Institute (ANSI) TIA đã thành công trong việc phát triển các chuẩn sử dụng trong các hệ thống tổng đài tế bào số Bắc Mỹ, bao gồm các hệ thống sử dụng chuẩn đa kết phân thời gian – Timedivisionmultiple access (TDMA) và Đa truy nhập phân chia theo mã - Code division multiple access (CDMA)

- Viện tiêu chuẩn viễn thông châu Âu - European Telecommunications Standards Institute (ETSI): ETSI có các hội viên từ các nước cũng như các công ty Châu Âu, là tổ chức đưa ra các chuẩn sản xuất thiết bị tại Châu Âu ETSI được thành lập bởi nhóm có ảnh hưởng nhất trong lãnh vực mã hóa âm thoại là nhóm di

Trang 29

động đặc biệt - Groupe Speciale Mobile (GSM), đã đưa ra rất nhiều chuẩn hữu dụng

và được triển khai rất nhiều trên thế giới

Bảng 2.1 Các chuẩn mã hóa âm thoại chính

1990c ITU-T G.726 ADPCM 16; 24; 32; 40 Sử dụng công cộng

1990b TIA IS54 VSELP 7.95 Hệ thống điện thoại tế

1996a TIA IS641 ACELP 7.4 bào số TDMA Bắc Mỹ Hệ thống điện thoại tế

1999a ETSI AMR-ACELP 12.2;10.2;7.95;7.40; 6.70;5.90;5.15; 4.75 Sử dụng công cộng viễn thông

a Là được mô tả một phần

b Là được giải thích đầy đủ

c Là được mô tả ngắn gọn mà không có mô tả kỹ thuật chi tiết

Trang 30

2.2 Tổng quan các bước xử lý tín hiệu thoại

Biểu diễn tín hiệu tương tự (analog) thành dạng số (digital) là công việc khó khăn Vì bản thân dạng âm thanh như giọng nói con người ở dạng analog do đó cần một số lượng lớn các giá trị digital để biểu diễn biên độ (amplitude), tần số (frequency) và pha (phase), chuyển đổi những giá trị đó thành dạng số nhị phân (zero và one) là rất khó khăn Cần thiết cần có cơ chế dùng để thực hiện sự chuyển đổi này và kết quả của sự phát triển này là sự ra đời của những thiết bị được gọi là codec (coder-decoder) hay là thiết bị mã và giải mã Tín hiệu điện thoại analog (giọng nói con người) được đặt vào đầu vào của thiết bị codec và được chuyển đổi thành chuỗi số nhị phân ở đầu ra Sau đó quá trình này thực hiện trở lại bằng cách chuyển chuỗi số thành dạng analog ở đầu cuối, với cùng qui trình codec

Có 4 bước liên quan đến quá trình số hóa (digitizing) một tín hiệu tương tự (analog): Lấy mẫu, lượng tử hóa, mã hóa, nén

2.2.1 Lấy mẫu (Sampling)

Tín hiệu âm thanh trên mạng điện thoại có phổ năng lượng đạt đến 10Khz Tuy nhiên, hầu hết năng lượng đều tập trung ở phần thấp hơn trong dải này Do đó

để tiết kiệm băng thông trong các hệ thống truyền được ghép kênh theo FDM và cả TDM Các kênh điện thoại thường giới hạn băng tần trong khoảng từ 300 đến 3400Hz Tuy nhiên trong thực tế sẽ có một ít năng lương nhiễu được chuyển qua dưới dạng các tần số cao hơn tần số hiệu dụng 3400Hz Do đó phổ tẩn số có thể được mở rộng đến 4Khz, theo lý thuyết Nyquist: khi một tín hiệu thì được lấy mẫu đồng thời ở mỗi khoảng định kì và có tốc độ ít nhất bằng hai lần phổ tần số cao nhất, sau đó nhũng mẫu này sẽ mang đủ thông tin để cho phép việc tái tạo lại chính xác tín hiệu ở thiết bị nhận Với phổ tần số cao nhất cho thoại là 4000Hz hay 8000 mẫu được lấy trong một giây, khoảng cách giữa mỗi mẫu là 125 micro giây

Trang 31

2.2.2 Lượng tử hóa (Quantization)

Tiến trình kế tiếp của số hóa tín hiệu tuần tự là biểu diễn giá trị chính xác cho mỗi mẫu được lấy Mỗi mẫu có thể được gán cho một giá trị số, tương ứng với biên

độ (theo chiều cao) của mẫu

Sau khi thực hiện giới hạn đầu tiên đối với biên độ tương ứng với dải mẫu, đến lượt mỗi mẫu sẽ được so sánh với một tập hợp các mức lượng tử và gán vào một mức xấp xỉ với nó Qui định rằng tất cả các mẫu trong cùng khoảng giữa hai mức lượng tử được xem có cùng giá trị Sau đó giá trị gán được dùng trong hệ thống truyền Sự phục hồi hình dạng tín hiệu ban đầu đòi hỏi thực hiện theo hướng ngược lại

2.2.3 Mã hóa (Coding)

Mỗi mức lượng tử được chỉ định một giá trị số 8 bit, kết hợp 8 bit có 256 mức hay giá trị Qui ước bit đầu tiên dùng để đánh dấu giá trị âm hoặc dương cho mẫu Bảy bít còn lại biểu diễn cho độ lớn; bit đầu tiên chì nữa trên hay nữa dưới của dãy, bit thứ hai chỉ phần tư trên hay dưới, bit thứ 3 chỉ phần tám trên hay dưới và cứ thế tiếp tục

2.2.4 Nén giọng nói (Voice Compression)

Ba bước tiến trình trên sẽ lặp lại 8000 lần mỗi giây cho dịch vụ kênh điện thoại Dùng bước thứ tư là tùy chọn để nén hay tiết kiệm băng thông Với tùy chọn này thì một kênh có thể mang nhiều cuộc gọi đồng thời

2.3 Các tiêu chí đánh giá

2.3.1 Các tiêu chuẩn đánh giá một bộ Codec

Để đánh giá một bộ Codec, người ta dựa vào những tiêu chuẩn sau:

- Chất lượng: Chất lượng điều chế phải đảm bảo vì chất lượng tồi sẽ làm cho tiếng nói thu được bị méo đi, làm giảm chất lượng chung của hệ thống

- Tốc độ điều chế:Điều chế và giải điều chế là một công đoạn trong toàn bộ cuộc thoại Trễ trong mỗi công đoạn đều cộng thêm vào trễ toàn thể Tốc độ điều

Trang 32

chế và giải điều chế càng cao càng tốt vì nó giúp giảm trễ chung của cuộc truyền, đảm bảo yêu cầu về tính thời gian thực

- Tỉ lệ nén: Qua bộ Codec ,người ta mong muốn dữ liệu được nén càng nhiều càng tốt, nghĩa là cần ít bít để biểu diễn cho một lượng tiếng nói, với mục đích làm cho dòng tiếng nói chiếm ít dải thông của kênh truyền Tỉ lệ nén cao sẽ tiết kiệm được đường truyền

- Độ phức tạp thuật toán: Thuật toán Codec càng phức tạp thì càng đòi hỏi nhiều tài nguyên như CPU, bộ nhớ Codec quá phức tạo sẽ gây khó khăn nhiều hơn

2.3.2 Chỉ tiêu đánh giá thuật toán mã hóa

Hai mục tiêu quan trọng đặt ra là: Tối thiểu hóa tốc độ bit và tối ưu hóa chất lượng, hai mục tiêu này thường có mâu thuẫn với nhau Tốc độ bit được tính bằng bps Chất lượng được đánh giá ở việc được tái tạo lại dạng tương tự với một sai số càng nhỏ càng tốt Việc lấy mẫu không ảnh hưởng đến chất lượng Vòn lượng tử hóa thì có thể gây ra những sai số làm mất mát thông tin so với tín hiệu ban đầu được gọi là nhiễu lượng tử Tỉ số tín hiệu trên nhiễu (SNR) được dùng đánh giá chất lượng tiếng nói Nếu tỷ số này thấp người nghe sẽ thu được tiếng nói không tốt

Chất lượng chấp nhận được có SNR khoảng trên 30dB Theo tính toán việc thêm một bit biểu diễn giá trị lượng tử sẽ làm tăng SNR lên khoảng 6dB, tương tự giảm một bit sẽ làm SNR giảm xuống 6dB

Người ta thường dùng một tiêu chuẩn gọi là MOS (Mean Opinion Score) để

so sánh chất lượng điều chế tiếng nói, với thang giá trị từ 1 đến 5, cho ta biết một thuật toán điều chế đạt được chất lượng có gần với tiếng nói tự nhiên hay không

Trang 33

CHƯƠNG 3 : CÁC PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU THOẠI

Trong chương 3, nội dung chủ yếu là trình bày về các phương pháp xử lý

tín hiệu thoại hiện nay Về cơ bản các bộ mã hóa tiếng nói có ba loại :mã hóa dạng sóng (Waveform), mã hóa nguồn (Source) theo kiểu Vocoder và mã hóa lai (Hybrid) (nghĩa là kết hợp cả hai loại mã hóa trên) Mục đích chính của chương là giúp nhận ra những điểm khác biệt giữa mã hóa thoại theo kiểu Vocoder với những hình thức mã hóa thoại khác Qua đó cũng hiểu được phần nào những ưu việt của các bộ mã hóa thoại Vocoder và lý do vì sao bộ mã hóa thoại này hiện đang được ứng dụng khá rộng rãi

3.1 Mã hóa dạng sóng

Nguyên lý của mã hóa dạng sóng là tìm cách số hóa dạng sóng của tiếng nói theo cách thích hợp Tại phía phát, bộ mã hóa sẽ nhận các tín hiệu nói tương tự liên tục và chuyển thành tín hiệu số trước khi truyền đi Phía thu sẽ làm nhiệm vụ ngược lại để khôi phục tín hiệu tiếng nói Khi không có lỗi truyền dẫn thì dạng sóng của tiếng nói khôi phục rất giống với dạng sóng của tiếng nói gốc.Ưu điểm của loại

mã hóa này là: độ phức tạp, giá thành thiết kế, độ trễ và công suất tiêu thụ thấp Bộ

mã hóa dạng sóng đơn giản nhất là điều chế xung mã (PCM), điều chế Delta (DM) Tuy nhiên, nhược điểm của bộ mã hóa dạng sóng là không tạo được tiếng nói chất lượng cao (dưới 16 Kbit/s) Bộ mã hóa nguồn khắc phục được nhược điểm này Nguyên lý của mã hóa nguồn là mã hóa kiểu phát âm (Vocoder),ví dụ như bộ mã hóa bằng dự đoán tuyến tính (Linear Prediction Coding – LPC).Các bộ mã hóa này

có thể thực hiện được tại tốc độ bít > 2Kbps Hạn chế chủ yếu của mã hóa kiểu phát

âm LPC là việc mô phỏng nguồn kích thích còn đơn giản nên tiếng nói tái tạo được

Trang 34

là tiếng nói dạng tổng hợp, chất lượng không cao và khó có thể nhận ra giọng người nói chuyện

Hình 3.1 Mô hình tổng quát của điều chế tiếng nói theo phương pháp LPC

Sau đây là một số phương pháp xử lý tín hiệu thoại theo kiểu mã hóa dạng

sóng

3.1.1 PCM (Pulse Code Modulation) – G711

PCM đều ( Uniform PCM ) : đầu vào của bộ lượng tử là tín hiệu tương tự đã

được đưa qua bộ lấy mẫu Với một bộ lượng tử dùng N bit từ mã, miền giá trị lượng

tử được chia thành 2N mức, mỗi từ mã N bit tương ứng với một giá trị Khoảng cách giữa các mức gọi là bước lượng tử (Step size) Bộ lượng tử quyết định xem với mỗi giá trị đầu vào gần với mức nào, sẽ tương ứng với một từ mã Nếu giá trị của đầu vào vượt quá miền giá trị biểu diễn của bộ lượng tử thì nó sẽ bị cắt đi, kết quả đầu ra là giá trị lớn nhất của miền giá trị Trong kiểu PCM đều, các giá trị lượng tử cách đều nhau Bước lượng tử phải được chọn sao cho đủ nhỏ để có thể tối thiểu nhiễu lượng tử, nhưng lại cso thể đủ lớn để miền giá trị của cả bộ lượng tử có độ lớn thích hợp Với một bộ lượng tử N bit có step size là S thì miền giá trị là

R = ( 2N)*S Nếu N không đủ lớn thì việc cắt xén tín hiệu vượt qua miền giá trị sẽ xảy ra nhiều hơn và đó dĩ nhiên là một nguyên nhân khác của nhiễu lượng tử

Trang 35

Phương pháp này có nhược điểm là SNR, tức chất lượng không chỉ phụ thuộc vào bước lượng tử mà còn phụ thuộc cả vào biên độ của tín hiệu được lấy mẫu

Nhận thấy : Lượng tử hóa kiểu PCM đều: cần N lớn cỡ 11 bit trở lên để có thể đảm bảo chất lượng tiếng nói Điều này làm cho tốc độ bit lớn nên chúng ít được sử dụng trong thực tế

Lượng tử hóa logarithm (logarithm PCM): mục tiêu của phương pháp này

là duy trì một tỉ số SNR ít thay đổi trong toàn phạm vi giá trị biên độ Thay vì lượng

tử hóa giá trị tượng tự của tín hiệu lấy mẫu ,trước tiên ta tính toán hàm logarit của từng giá trị rồi mới lượng tử hóa chúng SNR sẽ chỉ phụ thuộc vào bước lượng tử Lượng tử logarit là một quá trình nén ,chúng làm giảm miền giá trị của đầu vào một cách đáng kể tùy thuộc vào dạng hàm logarit được dùng Sau khi nén, một quá trình ngược lại là mũ hóa được sử dụng để tái tạo lại tín hiệu nguyên thủy ban đâu Toàn bộ chu trình được gọi là Companding (Compressing/ Expanding) Hai tiêu chuẩn được dùng phổ biến hiện nay là luật µ(dùng ở Bắc Mỹ) và luật A (dùng ở châu Âu) Chúng đều dùng 8 bit lượng tử logarit (như vậy trong thang lượng tử chia thành 16 sector và mỗi sector có 16 step, tổng cộng là 256 phần nhỏ) Chú ý là kích thước của mỗi sector là nhỏ dần về phía gốc 0, càng xa về 2 phía thì kích thước càng lớn,thông thường chúng tăng gấp đôi kích thước giữa 2 sector kề nhau.Theo

đó ta có thể thấy bit đầu tiên được coi là bit dấu (sign bit) Trong mỗi sector , các step có kích thước bằng nhau Như vậy ta thấy bước lượng tử càng nhỏ với những đầu vào càng nhỏ, và chúng lớn dần tương ứng với những đầu vào ở hai phía cực của miền giá trị lượng tử

3.1.2 DM ( Delta Modulation)

Là một trong những phương pháp điều chế vi sai, dựa trên tính chất là tín hiệu tiếng nói tại một thời điểm có ít nhiều phụ thuộc vào tín hiệu ở các thời điểm trước đó, vì thế ta có thể dự đoán tín hiệu tại thời điểm hiện tại ,và chỉ cần lưu trữ giá trị khác biệt giữa các giá trị thực và giá trị dự đoán của tín hiệu, sự sai khác này, giúp tiết kiệm băng thông để đạt hiệu quả cao

Trang 36

Ý tưởng của phương pháp điều chế Delta là chỉ truyền đi giá trị thay đổi tuyệt đối của tín hiệu Dựa vào sự khác nhau của tín hiệu tại thời điểm liền kề nhau mà ta tính được tín hiệu phải truyền trên đường dây Phương pháp này chỉ sử dụng 1 bit

để mã tín hiệu sai khác đó, nghĩa là cho biết tín hiệu tại thời điểm t+1 là lơn hơn hay nhỏ hơn tín hiệu tại thời điểm

3.1.4 ADPCM ( Adaptive Differential PCM) – G726

Là phương pháp mở rộng của DPCM Người ta vẫn dùng một số bít nhất định

để mã hóa sự sai khác giữa tín hiệu tại hai thời điểm kề nhau,nhưng bước lượng tử

có thể được điều chỉnh tại các thời điểm khác nhau để tối ưu hóa việc điều chế Với mục tiêu làm giảm tốc độ bit hơn nữa mà chất lượng tín hiệu tương đương,người ta sử dụng phương pháp thích nghi động giá trị của bước lượng tử trước những thay đổi của biên độ tín hiệu vào Mục đích là duy trì miền giá trị lượng tử phù hợp với miền giá trị của tín hiệu vào.Đây được gọi là phương pháp Adaptive PCM (APCM) Thích nghi bước lượng tử có thể áp dụng cho cả kiểu lượng tử đều và không đều Tiêu chuẩn thay đổi bước lượng tử dựa vào một số thống kê về tín hiệu có liên quan tới biên độ của nó.Có nhiều bước toán để tính toán bước lượng tử.Thông thường có 2 kiểu là feed forward APCM và feedback APCM Trong cả 2 kiểu người ta đều dựa trên những tính toán liên quan đến một khối (block) mẫu thu được trong một thời gian ngắn, về năng lượng ,sự biến đổi và những đo đạc khác Ta còn gọi là block companding Trong kiểu feed back ,việc tính toán bước lượng tử được thực hiện trên mỗi mẫu khi nó được đưa vào xử lý (vẫn dùng giá trị bước lượng tử trước đó), thì cho ra kết quả là một giá trị bước lượng tử mới được dùng xử lý N mẫu tiếp theo

Trang 37

Feed forward theo một cách tiếp cận khác, dùng chính ngay giá trị bước lượng tử được tính toán ngay trên N mẫu để xử lý N mẫu đó Như vậy quá trình xử

lý phải cần tới một bộ đệm để chứa khối dữ liệu lấy mẫu Trong khi kiểu feed back

có ưu điểm là rất nhạy cảm với nhiễu lượng tử vì nó có tính toán bước lượng tử và

sử dụng ngay cho chính block mà từ đó nó thực hiện phép tính

3.2 Mã hóa tiếng nói kiểu Vocoder

Mã hóa tiếng nói kiểu Vocoder hay còn gọi là mã hoá nguồn sử dụng mô hình quá trình tạo ra nguồn tín hiệu và khai thác các thông số của mô hình này để

mã hoá tín hiệu Những thông số của mô hình sẽ được truyền đến bộ giải mã Đối với tiếng nói, các bộ mã hoá nguồn được gọi là vocoder hoạt động dựa trên mô hình

cơ quan phát âm như đã nói ở trên và được kích thích với một nguồn nhiễu trắng đối với các đoạn tiếng nói vô thanh hoặc được kích thích bằng một dãy xung có chu

kì bằng chu kì pitch đối với đoạn tiếng nói hữu thanh Do đó thông tin được gởi đến

bộ giải mã là các thông số kỹ thuật của bộ lọc, một thông tin chỉ định đoạn tiếng nói

là hữu thanh hay vô thanh, sự thay đổi cần thiết của tín hiệu kích thích và chu kì pitch nếu đó là đoạn tiếng nói hữu thanh

Có nhiều kỹ thuật để mã hoá nguồn như: mã hoá kênh, mã hoá formant, mã hoá tham số và mã hoá đồng hình Tuy nhiên, hiện nay chủ yếu tập trung vào nghiên cứu và phát triển các bộ mã hoá tham số như mã hoá dự đoán tuyến tính kích thích bằng hai trạng thái (mã hoá LPC), mã hoá dự đoán tuyến tính có sự kích thích kết hợp MELP và mã hoá dự đoán tuyến tính kích thích bằng tín hiệu sau dự đoán RELP

Ngoài việc đạt được tốc độ bit thấp,Vocoder còn có ưu điểm là phân tích được các tham số nguồn kích thích Bit biểu thị âm sắc ,âm lượng và voice/unvoice bản thân nó là các bit trong khung dữ liệu,nên các sự thay đổi của chúng có thể được sửa đổi trước hoặc trong khi tổng hợp.Vì thê ta có thể biến một âm thanh thành một lời thì thầm khi thiết đặt lại giá trị của bit voice/unvoiced Cũng có thể thay đổi bản thân câu nói bằng cách sửa đổi các tham số cộng hưởng

Trang 38

Nhược điểm của phương pháp này là cho tiếng nói có dạng tổng hợp, khó có khả năng nhận dạng được người nói Các bộ mã hoá tham số này thường dùng cho điện thoại qua vệ tinh và trong quân đội

3.3 Mã hóa lai (Hybrid)

Mã hóa Waveform nói chung không cho phép đạt chất lượng tiếng nói tốt ở tốc độ bit dưới 16 Kbps Mặt khác, mã hóa Vocoder có thể đạt được tốc độ bit rất thấp, tuy nhiên phương pháp này tổng hợp lại tiếng nói nên có nhược điểm là rất khó nhận diện được người nói và thường xuyên gặp vấn đề với nhiễu nền Mã hóa lai cố gắng tận dụng ưu điểm của cả hai phương pháp điều chế trên.Nó mã hóa tiếng

nó ở tốc đột thấp, mà lại cho kết quả tiếng nói tái tạo lại tốt,có thể nhận dạng được người nói Băng thông yêu cầu thường nằm trong khoảng 4.8 Kbps đến 16 Kbps Vấn đề cơ bản đối với Vocoder là nguồn kích thích được mô phỏng một cách đơn giản: tín hiệu tiếng nói chỉ được coi là vô thanh hay hữu thanh, nó làm cho tiếng nói nhận được nhân tạo hơn là vẻ tự nhiên Các phương pháp mã hóa lai cố gắng cải thiện điều này bằng cách thay đổi nguồn kích thích tiếng nói theo các cách khác

Trang 39

CHƯƠNG 4 :

PHÂN TÍCH DỰ ĐOÁN TUYẾN TÍNH

Đối với bất kỳ một giải thuật mã hóa thoại nào thì dự đoán tuyến tính là một phần không thể thiếu và rất quan trọng Chương 4 sẽ trình bày khái khoát về vấn đề này Đồng thời trình bày về cấu trúc của giải thuật dùng mô hình dự đoán tuyến tính LPC

4.1 Dự đoán tuyến tính (Linear prediction - LP )

Ý tưởng cơ bản là một mẫu thoại có thể được xấp xỉ bằng một kết hợp tuyến tính của các mẫu trong quá khứ Trong một khung tín hiệu, các trọng số dùng để tính toán kết hợp tuyến tính được tìm bằng cách tối thiểu hóa bình phương trung bình lỗi dự đoán; các trọng số tổng hợp, hoặc các hệ số dự đoán tuyến tính (LPC) được dùng đại diện cho một khung cụ thể Trong phần chương 3, sự sắp xếp LP theo hệ thống dựa trên mô hình ngược tự động.Trong thực tế, phân tích dự là một tiến trình ước lượng để tìm các thông số của AR, mà các thông số này được cho bởi các mẫu của tín hiệu Như vậy, LP là một kỹ thuật nhận dạng với các thông số của một hệ thống đựoc tìm từ việc quan sát Với giả định là tín hiệu thoại được mô hình như là tín hiệu AR, điều này đã được chứng minh tính đúng đắn của nó trong thực tiễn

Một cách biểu diễn LP khác là phương pháp ước lượng phổ Như đã trình bày

ở trên, phân tích LP cho phép việc tính toán các thông số của AR, đã được định nghĩa trong mật độ phổ công suất (PSD) của chính bản thân tín hiệu Bằng cách tính toán LPC của một khung tín hiệu, ta có thể tạo ra một tín hiệu khác theo cách thức

có nội dung phổ gần như tương đồng với tín hiệu gốc LP cũng có thể được xem như là một quá trình loại bỏ các dư thừa khi thông tin bị lặp lại trong một sự trường hợp cần khử Sau cùng, việc truyền dữ liệu có thể không cần thiết nếu như dữ liệu

Trang 40

cần truyền có thể được dự đoán trước Bằng cách thức chuyển chỗ các dư thừa trong một tín hiệu, số lượng bit cần thiết để mang thông tin sẽ ít hơn và như thế sẽ đạt được mục tiêu nén dữ liệu

4.1.1 Bài toán dự đoán tuyến tính

Dự đoán tuyến tính được mô tả như là một bài toán nhận dạng hệ thống, với các thông số của một mô hình AR được ước lượng từ bản thân tín hiệu

Tín hiệu nhiễu trắng x[n] được lọc bởi quá trình tổng hợp AR để có được tín hiệu AR s[n] , với các thông số AR được ký hiệu là mẫu trong quá khứ:ai Dự đoán tuyến tính thực hiện ước đoán s[n] dựa vào M

[ ] [ ]

1

1

M i i

e n s n s n [ ] [ ] [ ] = − ˆ (4.2)

Hình 4.1 Hệ thống nhận dạng dưới dạng dự đoán tuyến tính

Ngày đăng: 28/02/2021, 07:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w