1. Trang chủ
  2. » Luận Văn - Báo Cáo

THÔNG TIN DI ĐỘNG voice coding

20 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 668,48 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tốc độ bit và chất lượng tiếng nói sau khi tổng hợp lại của các bộ mã hoá này được biểu diễn như hình dưới І.Mã hoá dạng sóng Người ta chia mã hoá dạng sóng ra làm hai loại chính + Tron

Trang 1

Đại Học Quốc Gia Thành Phố Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

-BÀI TẬP LỚN MÔN: THÔNG TIN DI ĐỘNG

VOICE CODING Giảng Viên Hướng Dẫn: Th.S Tạ Trí Nghĩa

Trang 2

MỤC LỤC

1.1.Phương pháp mã hóa PCM (Không vi phân): 5 1.2.Phương pháp mã hóa DPCM ( Điều xung mã vi sai): 8

1.5.Phương pháp mã hóa ADPCM (Điều chế xung mã vi sai thích ứng) (ADAPTIVE DIFFERENTIAL PULSE CODE

2.Mã hóa vùng tần số (Frequence Domain Coding of speech) 13

II/ Phương Pháp Mã Hóa Tham Số Nguồn (Mã Hóa Vocoder) 14

1.Sơ đồ chung của một bộ mã hoá tiếng nói dùng phương pháp mã hoá lai AbS 19

2 Dự đoán tuyến tính (LP) dựa trên mô hình phát âm 19 3.Dự đoán thời gian ngắn (STP)và dự đoán thời gian dài (LTP) 20

5.Một số loại mã hoá lai dùng trong liên lạc di động 20 5.1.Mã hoá kích thích bằng xung đều RPE-LTP: 21 5.2.Mã hoá kích thích bằng mã CELP và ACELP: 21 5.3.Mã hoá kích thích bằng tổng vectơ VSELP: 21

Trang 3

Giới thiệu:

Mã hoá tiếng nói được chia ra thành ba loại chính là mã hoá dạng sóng, mã hoá nguồn và mã hoá lai Tốc độ bit và chất lượng tiếng nói sau khi tổng hợp lại của các bộ mã hoá này được biểu diễn như hình dưới

І.Mã hoá dạng sóng

Người ta chia mã hoá dạng sóng ra làm hai loại chính

+ Trong miền thời gian: mã hoá điều biến xung mã (PCM), điều xung mã vi sai(DPCM), phương pháp DM (điều chế delta), điều chế delta tự thích nghi (ADM) và điều chế xung mã vi sai thích ứng (ADPCM)

+ Trong miền tần số: mã hoá dải nhỏ SBC (subband coding) và mã hoá biến đổi thích nghi ATC (Adaptive Transform Coding)

- Tại phía phát: bộ mã hóa nhận các tín hiệu tiếng nói tương tự và mã hóa thành tín hiệu số trước khi truyền đi

- Tại phía thu: Làm ngược lại để khôi phục tiếng nói

Mã hoá dạng sóng có khả năng khôi phục được tín hiệu sóng giống như tín hiệu gốc Độ phức tạp, giá thành, độ trễ công suất tiêu thụ thấp Tuy nhiên mã hóa dạng sóng chỉ tạo được tiếng nói chất lượng cao tại các tốc độ lớn hơn 16kbps,k hông tạo được tiếng nói chất lượng cao tại tốc độ nhỏ hơn 16kbps

ІІ.Mã hoá tham số nguồn (mã hóa Vocoder)

Mã hoá nguồn sử dụng mô hình quá trình tạo ra nguồn tín hiệu và khai thác các thông số của

mô hình này để mã hoá tín hiệu Những thông số của mô hình sẽ được truyền đến bộ giải mã Đối với tiếng nói, các bộ mã hoá nguồn được gọi là vocoder hoạt động dựa trên mô hình cơ quan phát âm và được kích thích với một nguồn nhiễu trắng đối với các đoạn tiếng nói vô thanh hoặc được kích thích bằng một dãy xung có chu kì bằng chu kì pitch đối với đoạn tiếng nói hữu thanh Do đó thông tin được gởi đến bộ giải mã là các thông số kỹ thuật của bộ lọc, một thông tin chỉ định đoạn tiếng nói là hữu thanh hay vô thanh, sự thay đổi cần thiết của tín hiệu kích thích và chu kì pitch nếu đó là đoạn tiếng nói hữu thanh

Có nhiều kỹ thuật để mã hoá nguồn như: mã hoá nguồn theo kênh, mã hoá formant, mã hóa

Trang 4

thanh được kích thích Tuy nhiên, hiện nay chủ yếu tập trung vào nghiên cứu và phát triển các

bộ mã hoá tham số như mã hoá dự đoán tuyến tính kích thích bằng hai trạng thái (mã hoá LPC),

mã hoá dự đoán tuyến tính có sự kích thích kết hợp MELP và mã hoá dự đoán tuyến tính kích thích bằng tín hiệu sau dự đoán RELP Các bộ mã hoá tham số này thường dùng cho điện thoại qua vệ tinh và trong quân đội

Mã hóa Vocoder có chất lượng phụ thuộc nhiều vào mô hình thoại, các Vocoder có thể phát âm khá giả tạo, các vocoder rất nhạy cảm với lỗi Có thể cung cấp thoại số với tốc độ nhỏ hơn 2kbps.

ІІІ.Mã hoá lai

Mã hóa lai có nhiều phương pháp nhưng phương pháp phổ biến nhất là mã hoá phân tích bằng cách tổng hợp AbS (Analysis-by-Synthesis) Bộ mã hoá này cũng sử dụng mô hình cơ quan phát âm của người giống như mã hoá nguồn Tuy nhiên, thay vì sử dụng các mô hình tín hiệu kích thích đơn giản như mã hoá nguồn thì ở đây tín hiệu kích thích được chọn sao cho cố gắng đạt được dạng sóng tiếng nói tái tạo càng giống với dạng sóng tiếng nói ban đầu càng tốt Đây chính là đặc tính phân biệt sự khác nhau giữa các bộ mã hoá kiểu AbS Thuật toán tìm ra dạng sóng kích thích này quyết định tới độ phức tạp của bộ mã hoá

Ngoài AbS (Analysis-by-Synthesis) mã hóa lai còn có một số dạng khác như RPE-LTP, CELP, ACELP, CS-CELP…

Mã hóa lai sử dụng cả 2 công nghệ mã hoá dạng sóng và mã hoá Vocoder, có thể đạt được chất lượng thoại tốt tại các tốc độ bít 2-16kbps

Trang 5

I/ Mã Hóa Dạng Sóng

1.Mã hóa vùng thời gian:

1.1.Phương pháp mã hóa PCM (Không vi phân):

a) Cấu hình cơ bản của kiểu truyền tin PCM:

Mã hóa là một quá trình so các giá trị rời rạc nhận được bởi quá trình lượng tử hóa với các xung mã Phần lớn các kí hiệu mã so sánh các tín hiệu vào với điện áp chuyển để đánh giá xem có các tín hiệu nào không Như vậy, một bộ phận chuyển đổi D/A hoặc bộ giải mã là cần thiết cho việc tạo ra điện áp chuẩn Trong liên lạc công cộng PCM, tiếng nói được biểu diễn với 8 bits Các từ PCM nhận được, được chuyển đổi thành các tín hiệu PAM bởi bộ giải mã ở phía thu, các xung tương ứng với mỗi kênh được chọn lọc từ các dãy xung ghép kênh để tạo ra các tín hiệu PAM Rồi, các tín hiệu tiếng nói được phục hồi bằng một bộ lọc thông thấp

Quá trình lượng tử hoá, nén và mã hoá các tín hiệu PAM được gọi là quá trình mã hoá và quá trình chuyển đổi các tín hiệu PCM thành D/A, sau đó, lọc chúng sau khi giãn để đưa về tiếng nói ban đầu gọi là quá trình giải mã Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việc thay đổi các tín hiệu tương tự thành các tín hiệu xung mã để truyền Trước tiên các tín hiệu đầu vào được lẫy mẫu một cách tuần tự, sau đó được lượng tử hoá thành các giá trị rời rạc trên trục biên độ Các giá trị lượng tử hoá đặc trưng bởi các mã nhị phân Các mã nhị phân này được mã hoá thành các dạng mã thích hợp tuỳ theo đặc tính của đường truyền dẫn

Thiết bị đầu cuối mã hoá chuyển đổi các tín hiệu thông tin như tiếng nói thành các tín hiệu số như PCM Khi các tín hiệu thông tin là các tín hiệu tương tự, việc chuyển đổi A/D được tiến

Trang 6

trình nén và mã hoá băng tần rộng được tiến hành bằng cách triệt sự dư thừa trong quá trình tiến hành chuyển đổi A/D hoặc D/D)

b) Lấy mẫu:

Nguyên tắc cơ bản của điều xung mã là quá trình chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành thông tin ban đầu Để tiến hành việc này, các phần tử thông tin được rút ra từ các tín hiệu tương tự một cách tuần tự Quá trình này được gọi là công việc lấy mẫu

Quá trình lấy mẫu

Có hai kiểu lấy mẫu tuỳ theo dạng của đỉnh độ rộng xung, lấy mẫu tự nhiên và lấy mẫu đỉnh bằng phẳng Lấy mẫu tự nhiên được tiến hành một cách lý tưởng khi phổ tần số sau khi lấy mẫu trùng với phổ của các tín hiệu ban đầu Tuy nhiên trong các hệ thống thực tế, điều này không thể có được Khi tiến hành lấy mẫu đỉnh bằng phẳng, một sự nén gọi là hiệu ứng biên độ lấy mẫu làm xuất hiện méo Ngoài ra, nếu các phần tử tín hiệu đầu vào vượt quá độ rộng dải tần 4 KHz, xuất hiện sự nén quá nếp gấp Vì vậy, việc lọc băng rộng các tín hiệu đầu vào phải được tiến hành trước khi lấy mẫu

c) Lượng tử hoá:

PAM với biên độ tương tự chuyển đổi thành các tín hiệu số là các tín hiệu rời rạc sau khi đi qua quá trình lượng tử hoá Khi chỉ thị biên độ của tiếng nói liên tục với số lượng hạn chế, nó được đặc trưng với dạng sóng xấp xỉ của bước Tạp âm lượng tử NQ = Q - S tồn tại giữa dạng sóng ban đầu (S) và dạng sóng đã lượng tử (Q); nếu bước nhỏ tạp âm lượng tử được giảm đi nhưng

số lượng bước đầu cần thiết cho lượng tử toàn bộ dải tín hiệu đầu vào trở nên rộng hơn Vì thế

số lượng các dãy số mã hoá tăng lên

Trang 7

Tạp âm lượng tử theo biên độ tín hiệu đầu vào

Tạp âm tạo ra khi biên độ của các tín hiệu đầu vào vượt quá dãy lượng tử gọi là tạp âm quá tải hay tạp âm bão hoà S/NQ được sử dụng như một đơn vị để đánh giá những ưu điểm và nhược điểm của phương pháp PCM Khi số lượng các dãy số mã hoá trên mỗi mẫu tăng lên 1 bit, S/NQ được mở rộng thêm 6 dB

d) Sự nén và giãn:

Như phương pháp tiến hành mã hoá hoặc giải mã, mã đường, mã không phải mã đường và mã đánh giá có thể được lựa chọn theo các kiểu của nguồn thông tin Mã đường là một quá trình triệt số lượng tạp âm lượng tử sinh ra trên thông tin được gửi đi bất chấp mức đầu vào Nó được

sử dụng trong một hệ thống ở đó giá trị tuyệt đối của số lượng tạp âm là tới hạn hơn S/NQ

Mã không phải là mã đường được sử dụng rộng dãi trong một hệ thống ở đó S/N của hệ thống thu được quan trọng hơn số lượng tuyệt đối của tạp âm như tiếng nói Khi bước lượng tử là một hằng số, S/N thay đổi theo mức tín hiệu Chất lượng gọi trở nên xấu hơn khi mức tín hiệu thấp

Vì thế đối với các tín hiệu mức thấp, bước lượng tử được giảm và đối với các tín hiệu mức cao

nó được tăng để ít hoặc nhiều cân bằng S/N với mức tín hiệu đầu vào Những vấn đề trên được tiến hành bằng cách nén biên độ Một cách lý tưởng, đối với các tín hiệu mức thấp đường cong nén và giãn là truyến tính

1.2.Phương pháp mã hóa DPCM ( Điều xung mã vi sai):

Đây là phương pháp dựa trên tính chất tương quan của tín hiệu tiếng nói, chỉ truyền đi độ lệch giữa các mẫu cạnh nhau của tín hiệu tiếng nói:

Trang 8

Tín hiệu tiếng nói tương tự vào qua bộ lọc thông thấp, hạn chế băng tần của tín hiệu vào (thường là một nửa tần số lấy mẫu), lượng tử và mã hóa lượng tử chênh lệch giữa xung lấy mẫu tương tự xn và tín hiệu dự đoỏn xn lấy từ đầu ra bộ dự đoán x`n giá trị dự đoán của mẫu tiếp theo có được nhờ ngoại suy từ p giá trị mẫu cho trước:

ai là hệ số của các bộ dự đoán, độ chênh lệch giữa xung lấy mẫu đầu vào và tín hiệu ra lấy mẫu là:

Đây chính là giá trị dựng để lượng tử hóa và truyền đi, ở phía thu sẽ tiến hành hồi phục lại tín hiệu sai số này và tích phân lại cộng với tín hiệu đã hồi phục trước đó, tuy nhiên để giảm lỗi cộng lại của nhiều lần ta dựng phia thu một bộ dự đoán giống với phía phát Nếu giá trị này càng nhỏ thì chất lượng tiếng nói càng tốt

Trang 9

1.3.Phương pháp DM

Điều chế DM là một loại điều chế DPCM trong đó mỗi từ mã chỉ có một bit nhị phân Tin hiệu thoại sau khi được lọc băng tần ((0,3-3,4)Khz) được rời rạc hóa tạo thành tín hiệu PAM xn, so sánh tín hiệu này với tín hiệu dự đoán x`n, độ lệch giữa hai giá trị này (en) được lượng tử thành một trong hai giá trị -∆ hoặc +∆ Phía ra bộ lượng tử hoạ sẽ truyền đi một bit nhị phân cho mỗi xung lấy mẫu Tại phía thu các giá trị ±∆ được cộng với các giá trị dự đoán tức thời phía ra bộ giải mó khôi phục lại tiếng nói ban đầu Tốc độ bit của điều chế delta bằng tốc độ của tần số lấy

1.4.Điều chế Deta tự thích nghi (ADM):

Phương pháp này cũng gọi là phương pháp điều chế delta có độ dốc thay đổi liên tục Phương pháp này khắc phục cho điều chế delta về khả năng dải động, phương pháp này dựa trên phương pháp thay đổi động hệ số khuyếch đại của bộ tách phức hợp với mức cụng suất trung bình của tín hiệu vào

Trang 10

1.5.Phương pháp mã hóa ADPCM (Điều chế xung mã vi sai thích ứng) (ADAPTIVE DIFFERENTIAL PULSE CODE MODULATION):

SBC-ADPCM là codec mã hóa băng con với PCM delta thích nghi Trong sơ đồ này, tiếng nói lối vào đó được chia thành 8 băng con trong số đó chỉ có 6 băng được truyền đi Các tín hiệu băng con đó được mã hóa bằng mã vi sai với đánh giá ngược và thích nghi để đối lại với SBC-APCM đó được đề nghị, trong đó đánh giá thuận và thích nghi đó được sử dụng ấn định bít của các băng con được đặt cố định, do vậy không có thông tin biên nào được truyền đi, nhờ đó làm cho hệ thống thích nghi với tạp nhiễu hơn và thế không cần mã FEC Tốc độ mã của codec này chỉ 15 kbps

Trang 12

2.Mã hóa vùng tần số (Frequence Domain Coding of speech)

2.1.Phương pháp mã hóa SBC-APCM:

SBC-APCM là codec mã hóa băng con với PCM thích nghi theo khối Codec này sử dụng các

bộ lọc gương cầu phương (QMF: Quadrature Mirror Filter) để phân tách tín hiệu lối vào thành

16 băng con rộng 250 Hz, hai băng cao nhất trong số đó không được truyền đi ấn định bít thích nghi đó được sử dụng trong các băng con trên cơ sở tỷ lệ công suất của một loạt băng cấu thành nên thông tin biên cần truyền đi Tốc độ truyền dẫn tổng cộng của các tín hiệu băng con là 10 kb/s, thông tin biên là 3 kb/s mà chúng được bảo vệ bởi độ dư thừa 3 kb/s của sửa lỗi hướng đi (FEC: Foward Error Correction)

2.2.Mã biến đổi thích nghi (ATC)

Mã hóa biến đổi thích nghi l một kỹ thuật phạm vi tần số khác được dựng để mã hóa tiếng nói thành cụng ở tốc độ bit trong phạm vi từ 9,6kbit/s

đến 20kbit/s Đây là một kỹ thuật phức tạp hơn bao gồm việc biến đổi khối của các đoạn lối vào

đó được chia cửa sổ của dạng sóng tiếng nói Mỗi đoạn được biểu diễn bởi một tập hợp các hệ

số biến đổi, các hệ số này được lượng tử hóa và phát đi một các riêng rẽ ở bộ thu, các hệ số lượng tử hóa được biến đổi ngược lại để sinh ra bản sao của đoạn lối vào gốc Một trong những dạng biến đổi hay dựng và hiệu quả nhất cho mã hóa tiếng nói là biến đổi cosin rời rạc (DCT) Hầu hết các sơ đồ mã hóa biến đổi thực tế làm thay đổi việc phân phối bit giữa các số khácc nhau một cách thích nghi từ khung này sang khung khác, trong khi giữa số bit tổng cộng là không đổi Việc phân phối bit động như vậy được điều khiển bởi các thống kê thay đổi theo thời gian đó được phát đi như một thông tin phụ Điều này tạo thành một tổng phí khoảng 2kbit/s Khung của N mẫu được biến đổi hay biến đổi ngược, được tích luỹ trong bộ đệm của bộ phát hay bộ tương ứng phía thu

Trang 13

Bộ mã hoá nguồn tiếng nói là một loại mã hoá trong đó tín hiệu tiếng nói được phân tích tại bộ phát, phát các thông số suy ra từ phép phân tích và sau đó tổng hợp tại phía thu nhờ các thông

số này Mọi hệ thống mã hoá mã nguồn tiếng nói thực hiện mô tả quá trình phát âm như một quá trình động để tìm ra các thông số Nhìn chung kỹ thuật thực hiện so với phương pháp dạng sóng là phức tạp hơn nhiều cả về thuật toán và yêu cầu tốc độ, về lý thuyết nó đã có từ khá lâu tuy nhiên sự phức tạp của thuật toán và thực hiện các đáp ứng thời gian thực cho nên đòi hỏi tốc

độ xử lý của các mạch điện phải thật nhanh theo tính toán phương pháp CELP cần khoảng 500 triệu phép tính một giây, một số vi xử lý thực hiện các phép nhân chia cần ít nhất là hai chu kỳ máy, cho nên tốc độ của vi xử lý phải cần đạt cỡ > 10 Mhz, phải khoảng đầu những năm 80 của thế kỷ trước các hệ vi xử lý chế tạo theo công nghệ CMOS, NMOS mới đạt được yêu cầu này Nhìn chung kỹ thuật này đạt được hiệu quả về mặt băng tần tuy nhiên chất lượng của chúng phụ thuộc nhiều vào người nói, các kỹ thuật vẫn đang được hoàn thiện (thể hiện ở việc các hãng lớn luôn demos các sản phẩm điện thoại di động với độ trung thực của âm thanh ngày càng cao) Các phương pháp mã hoá sau dựa trên các chuẩn đã được ứng dụng thực tế như ITU-T, IS-54, IMT-2000

Các loại mã hoá mã nguồn tiếng nói bao gồm bộ mã hoá tiên đoán tuyến tính (LPC), bộ mã hoá nguồn tiếng nói theo kênh, bộ mã nguồn tiếng nói formant, bộ mã nguồn tiếng nói phổ tách, bộ mã hoá nguồn dự đoán tuyến tính kích thích (CELP).

Hình vẽ trên trình bày mô hình phát tiếng nói, nó là cơ sở của tất cả các phương pháp mã hoá nguồn, cơ chế phát âm tạo thành “nguồn” và được phân tích một cách tuyến tính từ bộ lọc bộ phận phát âm, với đặc điểm là có thể điều chỉnh các tham số một cách “thông minh” tương ứng với sự thay đổi của quá trình phát âm Tín hiệu tiếng nói giả thiết được tạo thành từ hai nguồn

Ngày đăng: 09/04/2019, 17:32

TỪ KHÓA LIÊN QUAN

w