1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài Thảo Luận Truyền Thông Đa Phương Tiện : Chuẩn nén tiếng nói (ITUTG.7xx)

20 768 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Chuẩn Nén Tiếng Nói (ITU-TG.7xx)
Tác giả Lê Huy Dưỡng, Lê Thị Lân
Người hướng dẫn TS. Trần Bích Thảo
Trường học Đại Học Công Nghệ Thông Tin
Chuyên ngành Công Nghệ Thông Tin
Thể loại Bài Thảo Luận
Định dạng
Số trang 20
Dung lượng 357,05 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1. Mở đầu • Nén dữ liệu âm thanh nói chung và dữ liệu tiếng nói nói riêng đã và đang được các nhà khoa học, công nghệ trên thế giới quan tâm nghiên cứu, các kết quả đạt được đã được ứng dụng nhiều trong lĩnh vực truyền thông và giải trí. Trong lĩnh vực nén âm thanh, người ta đã từng biết đến các chuẩn nén khá nổi tiếng nhưdòng họ nén MPEG, MP3, JPEG... đặc điểm chung của các thuật toán nén trên là: hiệu suất nén cao, chất lượng âm thanh sau khi giải nén tốt. Tuy nhiên do tính phức tạp của các thuật toán đó nên quá trình nén và giải nén luôn phải tách thành hai quá trình riêng biệt. Đặc điểm này làm cho các thuật toán trên không thể sử dụng trong các trường hợp cần nén và giải nén trực tuyến . Vì vậy, việc tìm kiếm và thiết lập các thuật toán nén và giải nén có thể thực hiện trực tuyến đã và đang là vấn đề thời sự. • Hiệp hội viễn thông quốc tế, ITUT ( International Telecommunication Union – Telecommunication ) đã đưa ra những chuẩn nén âm thanh mới nhất như G728, G729, G723.1 v.v… dành cho băng thông thoại thấp với tần số 300 Hz đến 3,4kHz. Các khuyến nghị G.7xx được sử dụng trong hệ thống truyền dẫn kỹ thuật số, và đặc biệt, được sử dụng để mã hóa tín hiệu tương tự thành tín hiệu số. Tất cả các chuẩn này đều dựa trên chuẩn mã hóa CELP (CodeExcited Linear Prediction). Chuẩn nén âm thanh đã được tiêu chuẩn hóa trong mã ANSIC với 2 lý do chính: Độ tin cậy khi tương tác giữa các thiết bị. Giá thành thấp và những tiện ích thực thi dựa trên 16 bit fixpoint DSP. 2. Một số đặc điểm của âm thanh tiếng nói Về nguyên tắc các phương pháp nén audio đều có thể dùng để nén âm thanh tiếng nói –gọi tắt tiếng nói. Tuy nhiên người ta có thể lợi dụng một số đặc tính tiếng nói của con người để nén hiệu quả hơn. Dưới đây là một số tính chất của tiếng nói : Tiếng nói của con người có sự thay đổi về độ to nhỏ (pitch, loundness) chậm hơn so với các thiết bị. Khi nói, ta có thể thu bằng microphone và có thể lấy được các mẫu, các mẫu cạnh nhau tương đối giống nhau, thậm chí các mẫu cách nhau khoảng 20 ms có sự tương quan rất mạnh (strongly correlated) , sự tương quan này là cơ sở của nhiều kiểu nén tiếng nói Chu kỳ sóng âm của tiếng nói nói chung là dài. Chúng ta cần lưu ý rằng khả năng nghe của tai người là từ 16 Hz đến 22.000 Hz, trong khi đó sóng âm của tiêng nói có tần số từ 500 Hz đến 20.000 Hz Tần số này cho chu kỳ có độ dài là 2 ms đên 20 ms chu kỳ như vậy rất dài nó là cơ sở cho một số kỹ thuật nén. Với tiếng nói người ta chỉ mã với tần số lấy mẫu 8 KHz. Nếu dùng 12 bitmẫu ta có 12 x 8000=98 kbps. Khi đó tiếng nói được khôi phục gần như tự nhiên. 3. Thuật toán nén dữ liệu tiếng nói trực tuyến 3.1. Ý tưởng Chúng ta biết rằng đồ thị biểu diễn năng lượng của tiếng nói là một đường cong liên tục hình sin. đường cong hình sin này được cấu thành từ các khúc cong đơn điệu . Chúng ta dùng các đoạn thẳng thay cho các khúc cong đơn điệu là ý tưởng cơ bản của thuật toán này

Trang 1

Bài Thảo Luận

Truyền Thông Đa Phương Tiện

Lớp ĐH Tin3A-Nhóm 18

Giảng viên:TS.Trần Bích Thảo

Các Thành Viên: Lê Huy Dưỡng

Lê Thị Lân

Nội dung báo cáo: Chuẩn nén tiếng nói (ITU-TG.7xx)

1 Mở đầu

• Nén dữ liệu âm thanh nói chung và dữ liệu tiếng nói nói riêng đã và đang được các nhà khoa học, công nghệ trên thế giới quan tâm nghiên cứu, các

Trang 2

kết quả đạt được đã được ứng dụng nhiều trong lĩnh vực truyền thông và giải trí Trong lĩnh vực nén âm thanh, người ta đã từng biết đến các chuẩn nén khá nổi tiếng nhưdòng họ nén MPEG, MP3, JPEG đặc điểm chung của các thuật toán nén trên là: hiệu suất nén cao, chất lượng âm thanh sau khi giải nén tốt Tuy nhiên do tính phức tạp của các thuật toán đó nên quá trình nén

và giải nén luôn phải tách thành hai quá trình riêng biệt Đặc điểm này làm cho các thuật toán trên không thể sử dụng trong các trường hợp cần nén và giải nén trực tuyến Vì vậy, việc tìm kiếm và thiết lập các thuật toán nén và giải nén có thể thực hiện trực tuyến đã và đang là vấn đề thời sự

• Hiệp hội viễn thông quốc tế, ITU-T ( International Telecommunication Union – Telecommunication ) đã đưa ra những chuẩn nén âm thanh mới nhất như G728, G729, G723.1 v.v… dành cho băng thông thoại thấp với tần

số 300 Hz đến 3,4kHz Các khuyến nghị G.7xx được sử dụng trong hệ thống truyền dẫn kỹ thuật số, và đặc biệt, được sử dụng để mã hóa tín hiệu tương

tự thành tín hiệu số Tất cả các chuẩn này đều dựa trên chuẩn mã hóa CELP (Code-Excited Linear Prediction) Chuẩn nén âm thanh đã được tiêu chuẩn hóa trong mã ANSI-C với 2 lý do chính:

Độ tin cậy khi tương tác giữa các thiết bị

Giá thành thấp và những tiện ích thực thi dựa trên 16 bit fixpoint DSP

2 Một số đặc điểm của âm thanh tiếng nói

Về nguyên tắc các phương pháp nén audio đều có thể dùng để nén âm thanh tiếng nói –gọi tắt tiếng nói Tuy nhiên người ta có thể lợi dụng một số đặc tính tiếng nói của con người để nén hiệu quả hơn Dưới đây là một số tính chất của tiếng nói :

- Tiếng nói của con người có sự thay đổi về độ to nhỏ (pitch, loundness) chậm hơn so với các thiết bị

- Khi nói, ta có thể thu bằng microphone và có thể lấy được các mẫu, các mẫu cạnh nhau tương đối giống nhau, thậm chí các mẫu cách nhau

khoảng 20 ms có sự tương quan rất mạnh (strongly correlated) , sự tương quan này là cơ sở của nhiều kiểu nén tiếng nói

Trang 3

- Chu kỳ sóng âm của tiếng nói nói chung là dài Chúng ta cần lưu ý rằng khả năng nghe của tai người là từ 16 Hz đến 22.000 Hz, trong khi đó sóng âm của tiêng nói có tần số từ 500 Hz đến 20.000 Hz

- Tần số này cho chu kỳ có độ dài là 2 ms đên 20 ms chu kỳ như vậy rất dài nó là cơ sở cho một số kỹ thuật nén

- Với tiếng nói người ta chỉ mã với tần số lấy mẫu 8 KHz Nếu dùng 12 bit/mẫu ta có 12 x 8000=98 kbps Khi đó tiếng nói được khôi phục gần như tự nhiên

3 Thuật toán nén dữ liệu tiếng nói trực tuyến

3.1 Ý tưởng

Chúng ta biết rằng đồ thị biểu diễn năng lượng của tiếng nói là một đường cong liên tục hình sin đường cong hình sin này được cấu thành từ các khúc cong đơn điệu Chúng ta dùng các đoạn thẳng thay cho các khúc cong đơn điệu là ý tưởng

cơ bản của thuật toán này

Trang 4

Hình 1 Biểu diễn các khúc cong của hình sin bởi

các đoạn thẳng AB, BC, CD

3.2 Mô tả thuật toán TT1

Giả sử dữ liệu của tiếng nói là dãy S={s1, s2, , sL}, L∈N, si ∈R Ta xét dãy con liên tiếp củaS: {sm, sm+1, , sm+n-1}, 1≤m≤L-n+1, n>0, (hình 2) Khi đó, thay

vì phải lưu trữ n giá trị của dãy con này ta chỉ lưu trữ các giá trị sm, sm+n-1 và n

Trang 5

Hình 2 Biểu diễn dãy con n điểm liên tiếp

của một khúc cong đơn điệu

Đầu vào: Dãy tín hiệu tiếng nói

Đầu ra: Các véctơ có dạng (A,B,n) tương ứng là phần tử đầu, cuối và số phần tử của dãy con đơn điệu

Các biến sử dụng trong thuật toán TT1 mô tả trong hình 3:

Dấu: nhận giá trị +1 hoặc -1 biểu thị dãy con không tăng hay giảm,

s: lưu giá trị tín hiệu,

Y1, Y2: lưu hai giá trị liên tiếp của tín hiệu

A, B: lưu giá trị đầu và cuối của dãy con đơn điệu

n: lưu số phần tử của dãy con đơn điệu

Nhận xét:

1) Thuật toán trên có thể làm việc trực tuyến vì quá trình nén chỉ thực hiện hai thao tác chủ yếu là so sánh hai tín hiệu liên tiếp và đếm

Trang 6

2) Thuật toán mô tả bởi sơ đồ khối hình 3 có thể cải tiến để nâng cao tỷ lệ nén Chúng ta hãy xét hai lần truyền dữ liệu nén liên tiếp trongthuật toán trên là

Output (A,B,n) và Output (B,C,n1), với A, B là phần tử đầu, cuối của dãy con thứ nhất và B, C là phần tử đầu, cuối của dãy con thứ hai Rõ ràng ta có thể bớt đi phần

tử B ở lần truyền thứ hai

3) Thuật toán mô tả trên còn có thể cải tiến để nâng cao tỷ lệ nén bằng cách thay các khúc đường cong AB (bao gồm cả các khúc cong không giảm, không tăng) bằng đoạn thẳng AB nếu mọi điểm trên khúc đường cong AB thỏa mãn điều kiện

|s1-s2|<h (h>0), ở đây s1, s2 nằm trên khúc cong AB, minh họa ở hình 4

Hình 3.Sơ đồ khối thuật toán TT1

Trang 7

Hình 4.Minh họa ý tưởng cải tiến thuật toán TT1.

2.3 Thuật toán giải nén ứng với thuật toán TT1

Dữ liệu nén dạng (A, B, n) do thuật toán TT1 thực hiện được giải nén bằng cách nội suy tuyến tính n điểm cách đều với giá trị đầu, cuối tương ứng là A, B Ký hiệu (y1, y2, , yn) là ngiá trị được giải nén Khi đó:

yi=A+(i-1)*(B-A)/(n-1), với n>1, i=1 n

Ký hiệu thuật toán giải nén ứng với thuật toán TT1 là thuật toán TT2 Thuật toán TT2 được mô tả trong sơ đồ khối hình 5

Đầu vào: Các véc tơ chứa dữ liệu nén dạng (A, B, n), tương ứng là phần tử đầu, cuối và sốphần tử của dãy con đơn điệu

Đầu ra: n giá trị đã được giải nén chứa trong mảng y

Trang 8

Hình 5.Sơ đồ khối thuật toán TT2

4 Thuật toán CS-ACELP

LPC tổng hợp tiếng nói

Mã dự báo tuyến tính LPC (Linear Predictive Coding) là một phương pháp mới khác hoàn toàn với các phương pháp PCM, DPCM và ADPCM để tái hiện bằng số các tín hiệu tương tự Phương pháp này dung bộ lọc ngang (hay các mạch số tương đương) cộng các thành phần phụ để tổng hợp dạng song theo yêu cầu Các tham số của dạng song tổng hợp được số hóa để truyền đi thay vì tín hiệu thực sự.Xét hiệu quả các kết quả nếu quá trình tổng hợp chính xác hoàn toàn với tiến trình tương tự.Vì nó đã có thong số tiếng nói, LPC đặc biệt thích hợp với tổng hợp tiếng nói và tạo tiếng nói

Trang 9

Hình: Tổng hợp tiếng nói

Hình trên mô tả một quá trình tổng hợp tiếng nói bao gồm hai nguồn phát ở đầu vào, một bộ khuếch đại thay đổi độ lợi, và một bộ lọc ngang trong vòng hồi tiếp.Độ lợi của bộ khuếch đại và bộ lọc từng nhánh được điều chỉnh để định dạng tính chất âm thanh (diễn đạt) trên dãi âm tần.Những tiếng có âm được nối vào nguồn phát dãy xung đơn với các tần số thích hợp với các độ cao

Nếu bộ lọc có khoảng 10 nhánh độ lợi, và các tham số được thu thập khoảng 10 đến 25ms, quá trình tổng hợp tiếng nói rất dễ dàng mặc dù hơi giả tạo

Trang 10

Hệ thống LPC- mạch phát

Hệ thống LPC – mạch thu

Trang 11

Xét hệ thống phát LPC.Các giá trị mẫu của tiếng nói ở đầu vào được phân tích để tìm ra các tham số tổng hợp, toàn bộ các giá trị ra so sánh với đầu vào Các kết quả sai khác được mã hóa theo các giá trị tham số từ tín hiệu số được truyền Bộ thu trong hệ thống dung các giá trị tham số và sai số lượng tử để tái tạo lại dạng sóng

âm thanh

Từ mã LPC hoàn chỉnh có khoảng 80 bit – 1 bit để chuyển đổi trường hợp có âm

và không có âm, 6 bit cho cao độ, 5 bit cho độ khuếch đại, 6 bit cho từng độ lợi của

10 nhánh, và một vài bit phát hiện lỗi Ghi nhận các tham số mỗi 10-25ms tương đương lấy mẫu ở tần số 40-100hz, vì thế LPC đòi hỏi tốc độ bit khoảng 3000-8000bps Việc giảm đáng kể tốc độ bit làm cho LPC có khả năng thay thế trong nổ lực cải tiến chất lượng của tổng hợp tiếng nói cho truyền thong thoại

5 Một số chuẩn nén tiếng nói thuộc họ ITU – TG.7XX

Họ tiêu chuẩn G.7xx mã hóa và giải mã âm thanh và giải mã chủ yếu được sử dụng trong điện thoại di động và điện thoại Internet bao gồm kết nối VoIP Có một số giao thức trong họ G.7xx của bộ G mà ITU khuyến nghị, một số chuẩn của họ như:

5.1 Chuẩn G.711: Nén tín hiệu âm thanh cơ bản tại 48Kbps tới 64 Kbps Kỹ thuật

điều chế mã xung nhịp thấp giống như sử dụng trong điện thoại thông thường Có hai phiên bản của tiêu chuẩn này:

+G.711.0: Nén ít hao tổn G.711 điều chế mã xung:mô tả một chương trình

nén ít hao tổn G.711 bitstream, chủ yếu là nhằm mục đích để truyền qua IP (ví dụ, VoIP)

+G.711.1: Wideband(băng thông rộng) nhúng phần mở rộng cho ITU-T G.711 điều chế mã xung:nhúng âm thanh và điều khiển thuật toán mã hóa

âm thanh băng rộng tại 64, 80 và 96 kbit / s

Chuẩn nén G.711:

Giới thiệu:

Chuẩn G.711 là một chuẩn nén âm thanh được sử dụng rộng rãi cho

các hội nghị âm thanh Chuẩn này mô tả phương pháp mã hoá và giải mã âm

thanh với tốc độ 64Kbps

Tốc độ lấy mẫu:

Một giá trị được đề nghị của tần số lấy mẫu là 8000 samples/giây Độ

sai sót thường là +/- 50 phần triệu

Trang 12

Quy luật mã hoá:

Mỗi mẫu âm thanh là một số nhị phân có tám bit được sử dụng cho

phạm vi toàn cầu ITU – T đưa ra hai quy luật mã hóa là mã hóa theo quy luật

A và mã hóa theo quy luật μ

Khi sử dụng luật mã hóa μ trong mạng truyền thông thì việc chặn tất cả

các tín hiệu ký tự 0 là yêu cầu nhất thiết Giá trị lượng tử hóa là kết quả của

luật mã hóa Bất cứ sự chuyển đổi cần thiết giữa các quốc gia đều sử dụng

quy luật μ

Sự chuyển đổi PCM: Giá trị ấn định (decision value) và giá trị lượng

tử (quantizer value) của A-law được kết hợp với giá trị đồng dạng PCM Sự

chuyển đổi từ A-law hoặc μ-law từ giá trị đồng dạng PCM tương ứng với giá

trị ấn đinh là một phần chỉ định của giá trị riêng lẽ

Truyền tín hiệu ký tự:

Khi tín hiệu ký tự được truyền tuần tự trong một tầng vật lý, bit số 1

(bit dấu) được truyền trước tiên và bit số 8 (bit ít có ý nghĩa nhất) được

truyền cuối cùng

5.2 Chuẩn G.718:mô tả một băng hẹp (NB) và băng rộng (WB ) đã được nhúng

biến đổi tốc độ bit mã hóa thuật toán cho giọng nói và hoạt động âm thanh trong khoảng từ 8 đến 32 kbit / s được thiết kế mẽ để xóa khung truuyền

+Codec này có một cấu trúc nhúng có khả năng mở rộng, cho phép sự linh hoạt tối

đa trong việc vận chuyển các gói tin bằng giọng nói thông qua mạng IP Ngoài ra, cấu trúc nhúng của ITU - T G.718 sẽ dễ dàng cho phép các codec được mở rộng để cung cấp một khả năng siêu băng rộng và âm thanh nổi thông qua các lớp bổ sung đang được phát triển Luồng bit có thể được giảm xuống ở phía bộ giải mã hoặc bất cứ thành phần nào của hệ thống thông tin liên lạc ngay lập tức điều chỉnh tốc

độ bit với giá trị mong muốn mà không cần tín hiệu ra của băng thông Bộ mã hóa cho ra một luồng bit có cấu trúc nhúng trong năm lớp tương ứng với tốc độ bit có sẵn : 8, 12 , 16, 24 và 32 kbit / s

+ITU-T G.718 mã hóa có thể chấp nhận các tín hiệu băng thông rộng lấy mẫu 16 kHz , hoặc tín hiệu băng thông hẹp lấy mẫu tại 16kHz hay kHz 8 Tương tự như vậy, đầu ra bộ giải mã có thể là 16 kHz (WB) , ngoài 16kHz hoặc 8kHz (NB) Tín hiệu đầu vào lấy mẫu tại 16 kHz , nhưng với băng thông giới hạn cho (NB), được phát hiện bởi bộ mã hóa

Trang 13

+Đầu ra của các codec G.718 ITU -T có khả năng hoạt động với một băng thông của 300-3400Hz tại 8 và 12kbit / s; 50-7000Hz tại 8 đến 32 kbit / s

Cốt lõi codec chất lượng cao thể hiện một cải tiến hiệu suất đáng kể , cung cấp băng rộng 8 kbit / s chất lượng giọng nói sạch tương đương các codec ITU-T G.722.2 tại 12,65 kbit / s trong khi 8 kbit / s chế độ băng hẹp bộ codec hoạt động cung cấp giọng nói sạch chất lượng tương đương với ITU- T G.729E codec ở 11,8 kbit / s

+Codec hoạt động trên khung truyền 20 ms và có một độ trễ tối đa của khung truyền 42,875 ms cho tín hiệu đầu vào và các tín hiệu đầu ra băng rộng Độ trễ tối

đa cho tín hiệu đầu vào và đầu ra băng hẹp là 43,875 ms Codec cũng có thể được

sử dụng trong một chế độ có độ trễ thấp khi bộ mã hóa và giải mã tốc độ bit tối đa được thiết lập đến 12 kbit / s Trong trường hợp này , độ trễ tối đa được giảm 10 ms

+Codec cũng kết hợp một chế độ mã hóa thay thế, với một tỷ lệ bit tối thiểu 12,65 kbit / s, đó là luồng bit tương thích với các chuẩn của ITU - T G.722.2 , điện thoại

di động 3GPP AMR- WB và 3GPP2 VMR -WB WB tiêu chuẩn mã hóa giọng nói Tùy chọn này thay thế lớp 1 và lớp 2 , và các lớp 3-5 là tương tự như tùy chọn mặc định với các trường hợp ngoại lệ trong lớp 3 bit ít được sử dụng để bù cho các bit đặc biệt của 12,65 kbit/s lõi Bộ giải mã là tiếp tục có khả năng giải mã tất cả ITU

-T chế độ hoạt động khác G.722.2 Hơn nữa, một phụ lục mới chuẩn này đang được phát triển có hiệu quả sẽ cho phép luồng bit có khả năng tương tác với EVRC

WB 3GPP2 codec Chuẩn này cũng bao gồm chế độ truyền dẫn không liên tục ( DTX) và các thuật toán phát sinh tiếng ồn thoải mái (CNG) cho phép tiết kiệm băng thông trong suốt thời gian không hoạt động Tích hợp thuật toán giảm tiếng

ồn có thể được sử dụng đó là phiên giao tiếp với giới hạn đến 12 kbit / s

+Các thuật toán cơ bản được dựa trên một cấu trúc hai giai đoạn mã hóa : dưới hai lớp được dựa trên mã dự đoán tuyến tính kích thích ( CELP ) mã hóa của giọng nói ( 50-6400 Hz) lớp lõi tận dụng phân loại tín hiệu để sử dụng tối ưu hóa chế độ mã hóa cho mỗi khung truyền Các lớp cao hơn mã hóa các tín hiệu báo lỗi trọng từ các lớp thấp hơn bằng cách sử dụng chồng chéo thêm sửa đổi cosin rời rạc chuyển đổi ( MDCT ) chuyển đổi mã hóa

5.3 ChuẩnG.719 :độ phưc tạp thấp, toàn dải âm thanh mã hóa cho chất lượng cao ,

ứng dụng cho đàm thoại

+G.719 cung cấp một bit chuẩn, chỉ rõ điểmcố định đặc điểm kỹ thuật của một giọng nói hoàn chỉnh và điều hành thuật toán mã hóa âm thanh từ 32 kbit / s lên đến 128 kbit / s

Trang 14

+Mặc dù các trường hợp chính sử dụng cho bộ codec đó là cách giao tiếp bằng giọng nói tương tác , có một số trường hợp , trong đó lưu trữ của ITU -T G.719 nén

âm thanh là tất yếu Trường hợp sử dụng này bao gồm :

 Ghi âm một phiên đàm thoại hội nghị, ví dụ như giáo dục

 Thư thoại

 Cuộ gọi nhạc chờ

 Ghi âm trực tuyến

+G.719 không xác định một định dạng lưu trữ đặc biệt đối với ITU - T G.719 , nó chỉ sử dụng ITU -T G.192 bitstream cho mục đích mô phỏng thuật toán

5.4 Chuẩn nén G.723:

Giới thiệu:

Chuẩn G.723 giới thiệu một bộ nén có thể dùng để nén tín hiệu thoại

hoặc những tín hiệu âm thanh khác của các dịch vụ đa phương tiện ở tốc độ

bit rất thấp Trong thiết kế của chuẩn này, nguyên lý ứng dụng làm việc ở tốc

độ truyền bit rất nhỏ Bộ mã hóa này được tích hợp hai tốc độ khác nhau: 5.3

và 6.3kbit/s Cả hai tốc độ đều hỗ trợ bởi bộ mã hóa và giải mã Chúng có thể

chuyển đổi qua lại tại bất kì khung truyền (30 ms) nào Với tốc độ 6.3 kbit/s

chất lượng âm thanh tốt hơn Bộ mã hóa này nén thoại với chất lượng cao ở

cả hai tốc độ nhưng ít sử dụng kĩ thuật phức tạp Các tín hiệu âm thanh khác

sau khi được nén cho âm thanh có chất lượng không thực lắm Về độ trễ, bộ

mã hóa này mã hóa tín hiệu thoại và những tín hiệu âm thanh khác bằng

những khung 30 ms, thêm độ trễ của phần chuyển đổi giữa các khung 7.5 ms,

thời gian trễ tổng cộng là 37.5 ms

Cơ chế mã hóa:

Bộ mã hóa này được thiết kế để thực thi với một tín hiệu số Tín hiệu

này có được bằng cách thực hiện lọc tín hiệu tương tự đầu vào trong băng tần

thoại, sau đó tiến hành lấy mẫu ở tần số 8000 Hz, tiếp theo nó chuyển đổi

thành PCM tuyến tính 16 bit để đưa vào đầu vào của bộ mã hóa Đầu ra của

bộ mã hóa phải được chuyển đổi ngược lại sang tín hiệu tương tự bằng những cách tương tự Những kiểu dữ liệu có đầu vào/đầu ra(input/output) khác, như

dữ liệu PCM 64 kbit/s trong Khuyến nghị G711, phải được chuyển đổi sang

PCM tuyến tính 16 bit trước khi mã hóa hoặc từ PCM tuyến tính 16 bit đến

định dạng đúng sau khi giải mã Luồng bit từ bộ mã hóa sang bộ giải mã

được định nghĩa rõ trong chuẩn này

Bộ mã hóa dựa trên nguyên lý mã hóa phân tích bằng cách tổng hợp(

analysis-by-synthesis) dự đoán tuyến tính và cố gắng tối thiểu tín hiệu trọng

số lỗi một cách trực quan( conceptual) Bộ mã hóa hoạt động dựa trên những

Ngày đăng: 27/08/2014, 10:56

HÌNH ẢNH LIÊN QUAN

Hình 1. Biểu diễn các khúc cong của hình sin bởi - Bài Thảo Luận  Truyền Thông Đa Phương Tiện : Chuẩn nén tiếng nói (ITUTG.7xx)
Hình 1. Biểu diễn các khúc cong của hình sin bởi (Trang 4)
Hình 2. Biểu diễn dãy con n điểm liên tiếp - Bài Thảo Luận  Truyền Thông Đa Phương Tiện : Chuẩn nén tiếng nói (ITUTG.7xx)
Hình 2. Biểu diễn dãy con n điểm liên tiếp (Trang 5)
Hình 3.Sơ đồ khối thuật toán TT1. - Bài Thảo Luận  Truyền Thông Đa Phương Tiện : Chuẩn nén tiếng nói (ITUTG.7xx)
Hình 3. Sơ đồ khối thuật toán TT1 (Trang 6)
Hình 4.Minh họa ý tưởng cải tiến thuật toán TT1. - Bài Thảo Luận  Truyền Thông Đa Phương Tiện : Chuẩn nén tiếng nói (ITUTG.7xx)
Hình 4. Minh họa ý tưởng cải tiến thuật toán TT1 (Trang 7)
Hình 5.Sơ đồ khối thuật toán TT2 - Bài Thảo Luận  Truyền Thông Đa Phương Tiện : Chuẩn nén tiếng nói (ITUTG.7xx)
Hình 5. Sơ đồ khối thuật toán TT2 (Trang 8)
Hình trên mô tả một quá trình tổng hợp tiếng nói bao gồm hai nguồn phát ở đầu  vào, một bộ khuếch đại thay đổi độ lợi, và một bộ lọc ngang trong vòng hồi  tiếp.Độ lợi của bộ khuếch đại và bộ lọc từng nhánh được điều chỉnh để định dạng  tính chất âm thanh  - Bài Thảo Luận  Truyền Thông Đa Phương Tiện : Chuẩn nén tiếng nói (ITUTG.7xx)
Hình tr ên mô tả một quá trình tổng hợp tiếng nói bao gồm hai nguồn phát ở đầu vào, một bộ khuếch đại thay đổi độ lợi, và một bộ lọc ngang trong vòng hồi tiếp.Độ lợi của bộ khuếch đại và bộ lọc từng nhánh được điều chỉnh để định dạng tính chất âm thanh (Trang 9)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w