Chuyên đề mã hóa tiếng nói trong di động

Tiếng nói như một phương tiện chúng ta sử dụng hàng ngày,nhờ có tiếng nói ta có thể biểu hiện những tâm tư, tình cảm, suy nghĩ của mình ,giúp chúng ta giao tiếp,làm việc với mọi người xu

Trang 1

LỜI MỞ ĐẦU

Trong thời đại ngày nay, cùng với sự phát triển mạnh mẽ của khoa học kỹ thuật thì nhu cầu trao đổi thông tin của con người cũng ngày càng tăng lên.từ lúc đầu chỉ giao tiếp ,tương tác thông qua các văn bản giấy tờ, ngày nay nhu cầu sử dụng tiếng nói trong truyền thông, tương tác người và máy càng trở nên cấp thiết hơn.Vì vậy một lĩnh vực kỹ thuật mới đã ra đời, đó là mã hóa tiếng nói

Tiếng nói như một phương tiện chúng ta sử dụng hàng ngày,nhờ có tiếng nói

ta có thể biểu hiện những tâm tư, tình cảm, suy nghĩ của mình ,giúp chúng ta giao tiếp,làm việc với mọi người xung quanh.Khi các phương pháp mã hóa ra đời và đạt được những thành tựu đáng kể và các ứng dụng của việc mã hóa tiếng nói được áp dụng trong rất nhiều các lĩnh vực khác nhau trong xã hội thì ta không thể không kể đến việc mã hóa tiếng nói trong thông tin di động ngày nay.Việc mã hoá tiếng nói là rất cần thiết ,giúp giảm thiểu số lượng tín hiệu trên đường truyền nhưng vẫn đảm bảo chất lượng cuộc gọi Trong bài tiểu luận này,em xin trình bày

3 nội dung chính như sau:

• Chương 1: Tổng quan về tiếng nói

• Chương 2: Các phương pháp mã hóa tiếng nói

• Chương 3: Bộ mã hóa và giải mã tiếng nói trong hệ thống GSM

•

THUẬT NGỮ VIẾT TẮT

AbS Analysis by Synthesis Phân tích bằng tổng hợp

ADPCM Adaptive Differently PCM Điều chế mã xung vi sai thích ứng

DPCM Differential PCM Điều chế mã xung vi sai

GSM Global System For

Mobile Communications Hệ thống thông tin di động toàn cầu

LPC Linear Prediction Coding Mã hoá dự đoán tuyến tính

LTP Long Term Predictor Dự đoán dài hạn

Trang 2

MPE-LTP Multi-Pulse Excited LPC

Codec with Long term Predictor

Dự đoán tuyến tính kích thích đa xung với bộ dự đoán dài hạn

PCM Pulse Code Modulation Điều chế xung mã

PDF Probability Density Function Hàm mật độ xác suất

RELP Residual Excited Linear

Prediction

Dự đoán tuyến tính kích thích bằng tín hiệu sau dự đoán

RPE Regular Pulse Excitation Kích thích xung đều

RPE-LTP Regular Pulse Excited -

Long Term Prediction Kích thích xung đều - Dự đoán dài hạn SNR Signal to Noise Ratio Tỉ số tín hiệu trên nhiễu

STP Short term Predictor Dự đoán ngắn hạn

DANH MỤC HÌNH VẼ

Hình 1.1: Bộ máy phát âm của con người

Hình 1.2: Một đoạn điển hình của các âm hữu thanh

Hình 1.3: Một đoạn điển hình của các âm vô thanh

Hình 2.1: Các phương pháp mã hóa tiếng nói

Hình 2.2: Mô hình toán học của LPC

Hình 3.1: Quá trình mã hóa và giải mã trong thông tin di động

Hình 3.2: Bộ mã hóa dựa trên giải thuật RPE-LTP

Hình 3.3: Sơ đồ khối mô tả quá trình giải mã tiếng theo RPE-LTP

CHƯƠNG I: TỔNG QUAN VỀ TIẾNG NÓI

• Quá trình tạo ra tiếng nói

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin,rất uyển chuyển và đặc biệt.Là công cụ của tư duy và trí tuệ,tiếng nói mang đặc trưng cơ bản của loài người.Nhờ

có ngôn ngữ tiếng nói mà loài người sống thành xã hội tiến bộ, có văn hóa, văn minh như ngày nay.Trong quá trình giao tiếp người nói có nhiều câu nói Mỗi câu gồm nhiều từ, ở tiếng Việt ,số từ thường được sử dụng vào khoảng 6700 âm tiết

Tiếng nói thường xuất hiện dưới nhiều hình thức mà ta gọi là đàm thoại, việc đàm thoại thể hiện kinh nghiệm của con người Đàm thoại là một quá trình gồm nhiều người,

có sự hiểu biết chung và một nghi thức luân phiên nhau nói Những người có điều kiện

Trang 3

thể chất và tinh thần bình thường thì rất dễ diễn đạt tiếng nói của mình, do đó tiếng nói là phương tiện giao tiếp chính trong lúc đàm thoại Tiếng nói có rất nhiều yếu tố khác hỗ trợ nhằm giúp người nghe hiểu được ý cần diễn đạt như biểu hiện trên gương mặt, cử chỉ , điệu bộ Vì các đặc tính tác động qua lại, nên tiếng nói được sử dụng trong nhu cầu giao tiếp nhanh chóng

Sóng âm thoại là một sóng áp suất âm thanh được tạo ra từ nhừng chuyển động có điều khiển của các bộ phận cơ thể con người hình thành nên hệ thống tạo âm thoại Một cấu trúc đơn giản của hệ thống tạo âm thoại được minh họa ở hình vẽ 1.1 Cơ bản, thoại được tạo ra như là sóng âm từ các hốc mũi và miệng khi không khí bị bật ra từ các lá phổi với kết quả là luồng không khí bị xáo trộn bởi sự co thắt ở bên trong cơ thể con người Nguồn năng lượng chính nằm ở thanh môn, Tuyến âm sẽ được kích thích bởi nguồn năng lượng chính tại thanh môn Tiếng nói được tạo ra sóng âm học do kích thích

từ thanh môn phát ra đẩy không khí có trong phổi lên tạo thành dòng khí va chạm vào hai dây thanh trong tuyến âm Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói

• Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng đầu tiên của quá trình tạo thành âm thanh

• Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh quản Ống có độ dài khoảng 17cm đối với người bình thường

• Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu từ mũi, kết thục tại vòm miệng, đối với người bình thường khoang mũi có độ dài 12 cm

• Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm thanh giữa khoang miệng và khoang mũi

Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng khí chỉ đi qua đường mũi, nếu là âm thường thì vòm miệng mở, đường mũi khép lại và dòng khí đi theo khoang miệng ra môi

• Hốc mũi

• Vòm miệng trên

• Ổ răng

• Vòm miệng mềm

• Đầu lưỡi

• Thân lưỡi

• Lưỡi gà

• Cơ miệng

• Yết hầu

• Nắp đóng của thanh quản

• Dây thanh giả

• Dây thanh

• Thanh quản

• Thực quản

• Khí quản

Trang 4

Hình 1.1 Bộ máy phát âm của con người

1.2 Các đặc điểm của tiếng nói

1.2.1 Đặc tính vật lý của âm thanh

Âm thanh trong thế giới tự nhiên về bản chất là những sóng âm được tạo ra từ dao động của vật thể và được truyền đi trong một môi trường truyền âm nhất định

Âm thanh của tiếng nói, tương tự, là những sóng âm được tạo ra từ dao động của các bộ phận trong bộ máy phát âm và được truyền đi trong môi trường truyền âm (thường

là không khí) Những sóng âm này truyền đến tai người nghe, đập vào màng nhĩ - một màng mỏng rất nhạy cảm của tai người – làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một

độ lớn nhất định và người nghe nhận biết được lời nói Liên lạc thông tin bằng tiếng nói

là truyền thông tin từ não người nói sang não người nghe Có thể xem như tiếng nói (thoại) là một trường hợp riêng nhưng phổ biến của âm thanh

Âm thanh có các tham số đánh giá đặc trưng sau đây:

1 Tần số: Tần số của âm đơn là số lần dao động của không khí truyền dẫn âm

trong một đơn vị thời gian là 1 giây Tần số biểu thị độ cao (pitch) của âm thanh Tần số càng lớn thì âm thanh càng cao và ngược lại Ðơn vị để đo tần số của âm thanh là Hertz (viết tắt là Hz)

Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Dải tần số từ 16Hz đến 20000Hz được gọi là dải tần số âm thanh hay

âm tần hoặc sóng âm Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những

âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví dụ loài dơi có thể nghe được sóng siêu âm) Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó sử dụng rất

nhiều trong các thiết bị máy móc hiện nay.Ứng với mỗi tần số dao động f, có chu kỳ dao động T là một bước sóng l của âm thanh được xác định theo biểu thức l = c.T (c là

tốc độ lan truyền của âm thanh trong không khí = 340m/s) Do đó, bước sóng của âm thanh trong dải âm tần là từ 21.25m đến 0.017m.Trong thực tế, một âm phát ra thường không phải là một âm đơn mà là một âm phức bao gồm một âm đơn và một số âm hài

có tần số gấp 2, 3 hoặc 4… lần âm đơn Ngoài ra, trong dải âm tần người ta chia ra: tiếng trầm từ 16Hz đến 300Hz; tiếng vừa từ 300Hz đến 3000Hz và tiếng bổng (tiếng thanh) 3000Hz đến 12000Hz Tiếng nói con người thường có dải tần số từ 300Hz đến 3400Hz

2 Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp Âm thanh truyền

lan đến đâu thì làm thay đổi áp suất không khí ở đó Áp suất do âm thanh tạo thêm ra ở một điểm gọi là thanh áp ở điểm đó Đơn vị đo thanh áp là bar Một bar là thanh áp tác động lên một diện tích 1cm2 một lực là 1dyn 1 bar = 1dyn/cm2 Tuy nhiên, ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo thanh áp 1 bar = 10 Kpa; 1 Pa = 1 N/m2

3 Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong

thời gian một giây Công suất âm thanh P có thể tính bằng biểu thức:

Trang 5

Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và

S là diện tích Công suất âm thanh tính theo đơn vị oát (W).

Thông thường máy bay phản lực có công suất âm thanh là 10.000W; ô tô vận tải phóng nhanh: 0.12W; nói chuyện bình thường: 0.0003W

4 Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một

đơn vị diện tích là 1cm2

Ba đại lượng: áp suất âm thanh, công suất âm thanh; cường độ âm thanh gắn liền với nhau Cả ba đều biểu thị độ lớn nhỏ của âm thanh Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suất của âm thanh càng lớn

5 Ðộ mạnh (Intensity): Do biên độ dao động của vật thể quyết định Biên độ dao

động là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì Biên độ dao động càng lớn, âm thanh càng vang to và ngược lại Ðơn vị đo độ mạnh của âm thanh là décibel (viết tắt là dB) Trong lời nói của một người, độ mạnh của âm thanh là yếu tố cơ bản tạo nên âm lượng của âm và trọng âm của từ

6 Ðộ dài (Length): Do thời gian dao động của vật thể quyết định Ðộ dài của âm

thanh tạo nên sự tương phản giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên các nguyên âm đối lập nhau về độ dài Hai từ "tang" và "tăng" trong tiếng Việt

có sự đối lập âm a dài (trong "tang") và âm a ngắn (trong "tăng")

7 Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia bổ sung

vào các thành phần kết cấu của âm Ðây là vẻ riêng biệt của một âm Âm sắc được quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật thể dao động Một âm có cùng độ cao, độ mạnh, độ dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo to dài,

sẽ khác với từ một ống sáo nhỏ, ngắn; từ việc gẩy sẽ khác với từ việc gõ, búng, cọ xát hoặc thổi

Âm sắc chính là cái sắc thái riêng của từng âm Âm sắc còn được quyết định bởi vật thể dao động theo chu kì đều đặn hay không đều đặn; dao động theo chu kì đều đặn thì tạo ra âm vang(sonants), chu kì không đều đặn thì tạo ra âm ồn hay âm có nhiều tiếng động (non - sonants hoặc bruyants)

1.2.2 Các đặc tính âm học của âm thanh

Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ và được mô tả bởi các âm vị khác nhau Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm

vị nhiều hay ít Thông thường số lượng các âm vị vào khoảng 20 – 30 và nhỏ hơn 50 đối với mọi ngôn ngữ Đối với từng loại âm vị mà có các đặc tính âm thanh khác nhau Các

âm vị được chia thành hai loại nguyên âm và phụ âm Tổ hợp các âm vị tạo nên âm tiết

Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa

1.2.2.1.Nguyên âm:

Nguyên âm được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định Mỗt nguyên âm được đặc trưng bởi 3 formant đầu tiên, các formant tiếp theo thường thì ít mang thông tin hơn

Trang 6

1.2.2.2.Phụ âm:

Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc Những phụ âm xát được phát ra từ chỗ co thắt lớn nhất và các âm tắc xát tạo ra từ khoảng giữa Phụ âm có đặc tính hữu thanh và vô thanh tuỳ thuộc việc dây thanh có dao động để tạo thành cộng hưởng không Đặc tính của phụ âm tuỳ thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và sự truyền dẫn âm

1.2.2.3.Tỷ suất thời gian:

Trong khi nói chuyện, khoảng nói chuyện và khoảng nghỉ xen kẽ nhau Phần trăm thời gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ xuất thời gian Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay nói bình thường

1.2.2.4 Hàm năng lượng thời gian ngắn:

Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành nhiều khung chứa N mẫu và tính diện tích trung bình tổng các mẫu tín hiệu trong mỗi khung Các khung này được đưa qua một cửa sổ có dạng hàm như sau:

Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ chữ nhật, cửa sổ Hamming và cửa sổ Hanning

1.2.2.5 Tần số vượt qua điểm không

Tần suất vượt qua điểm không là số lần biên độ tín hiệu tiếng nói vượt qua giá trị không trong một khoảng thời gian cho trước Thông thường giá trị này đối với âm vô thanh lớn hơn âm hữu thanh do đặc tính ngẫu nhiên của âm vô thanh Do đo tần suất vượt qua điểm không là tham số quan trọng để phân loại âm hữu thanh và âm vô thanh

1.2.2.6.Phát hiện điểm cuối

Trong xử lý tiếng nói việc xác định khi nào bắt đầu xuất hiện tín hiệu tiếng nói và khi nào kết thúc quá trình nói rất cần thiết và quan trọng Trong một môi trường nhiều tiếng ồn (nhiễu ) hoặc môi trường nhiều người nói thì việc phát hiện điểm kết thúc rất khó khăn.Đã có những phương pháp phát hiện điểm cuối của tiếng nói

1.2.2.7 Tần số cơ bản

Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu trong đó biên độ biến đổi ngẫu nhiên và phần tuần hoàn Phần tín hiệu có tính chu kỳ chứa các thành phần tần

số có dạng điều hòa Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của dây dây thanh

Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau Tần số cơ bản của trẻ em thường cao hơn so với người lớn và của nữ giới cao hơn so với nam giới

Bảng 1: Một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:

bản

Trang 7

Đối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởi tính tuần hoàn Một âm hữu thanh có tín hiệu gần như tuần hoàn khi được phân tích phổ sẽ xuất hiện một vạch tại vùng tần số rất thấp Vạch này đặc trưng cho tính tuần hoàn cơ bản của

âm hay đó chính là tần số cơ bản của âm Trong giao tiếp bình thường tần số cơ bản thay đổi liên tục tạo nên ngữ điệu cho tiếng nói

1.2.2.8 Formant

Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ cao nhất xét trong một khoảng nào đó (còn gọi là cực trị địa phương) xác định một formant Ngoài tần số, formant còn được xác định bởi biên độ và dải thông của chúng Về mặt vật lý các tần số formant tương ứng với các tần số cộng hưởng của tuyến âm Trong xử lý tiếng nói và nhất là trong tổng hợp tiếng nói để mô phỏng lại tuyến âm người ta phải xác định được các tham số formant đối với từng loại âm vị, do đó việc đánh giá, ước lượng các formant

có ý nghĩa rất quan trọng

Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó Đồng thời, formant còn phụ thuộc các âm vị trước và sau đó Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạnh và kích thước tuyến âm Thông thường trong phổ tần số của tín hiệu có khoảng 6 formant nhưng chỉ có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, còn các formant còn lại cũng có ảnh hưởng song rất ít Các formant có giá trị tần số xê dịch từ vài trăm đến vài nghìn Hz

Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điều kiện phát âm nhất định Mặc dù phạm vi của các tần số formant tương ứng với mỗi nguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì sự xê dịch của các formant là song song

Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi là phản formant (anti-formant) Phản formant được tạo nên khi luồng khí đi qua khoang mũi Các formant tương ứng nói các điểm cực của hàm truyền đạt vì tại lân cận điểm cực giá trị hàm truyền đạt là rất lớn, tương tự vậy các anti-formant tương ứng với các điểm không của hàm truyền đạt

• Phân loại đơn giản dạng sóng tiếng nói

Phần gần tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi là tiếng nói hữu thanh (voiced speech) Chu kỳ lặp lại đó gọi là chu kì cơ bản T0nghịch đảo của T0 là tần

số cơ bản F0 Âm hữu thanh được phát ra bởi một luồng khí cực mạnh từ thanh môn thổi qua dây thanh làm dung dây thanh, sự dao động của dây thanh tạo nên nguồn tuần hoàn Nguồn tuần hoàn kích thích tuyến âm tạo nên âm hữu thanh Vùng âm hữu thanh chiếm thành phần chủ yếu của sóng tiếng nói, chứa đựng lượng tin nhiều nhất và thời gian lớn nhất trong quá trình nói

Phần tín hiệu có dạng giống như tập âm nhiễu có biên độ ngẫu nhiên còn được gọi

là tiếng nói vô thanh (unvoiced speech) Tiếng nói vô thanh được tạo ra do sự co thắt

theo một dạng nào đó của tuyến âm và luồng khí chạy qua chỗ thắt với tộc độ lớn tạo nên nhiễu loạn, ví dụ như lúc ta nói thì thào (cần phân biệt thì thầm với thì thào, theo từ điển tiếng Việt thì thào là nói chuyện với nhau rất nhỏ tựa như gió thoảng qua tai còn thì thầm

Trang 8

là nói chuyện với nhau không để người ngoài nghe thấy) Năng lượng do nguồn nhiễu loạn tạo ra sẽ kích thích tuyến âm tạo nên tiếng nói vô thanh, năng lượng của tiếng nói vô thanh nhỏ hơn so với tiếng nói hữu thanh

Ta có thể phát hiện ra tiếng nói hữu thanh là khi nói dây thanh rung Còn âm vô thanh khi nói dây thanh không rung Nói thì thào thì ở xa không nghe được do năng lượng của âm vô thanh rất nhỏ và tiếng thì thào là do âm vô thanh tạo nên

Các âm bật - nổ (plosive sound): được tạo ra khi có sự đóng hoàn toàn ở cuống

họng, và áp suất không khí được hình thành ở phía sau được giải phóng đột ngột.->

phụ âm.

Một số âm thanh không được xem như thuộc vào một trong ba loại âm thanh nói trên, tuy nhiên chúng là sự hỗn hợp Ví dụ như các âm xát (phụ âm xát hoặc rít – cọ xát) được hình thành khi các có sự rung động của dây thanh âm và khe hẹp trong cuống họng được hình thành

Hình 1.2 Một đoạn điển hình của các âm hữu thanh

Hình 1.3 Một đoạn điển hình của các âm vô thanh

CHƯƠNG II: TỔNG QUAN VỀ MÃ HÓA TIẾNG

NÓI

Trong một vài thập kỷ vừa qua, đã có rất nhiều kỹ thuật mã hoá nén tiếng nói được đưa ra, phân tích và phát triển Trong chương này , giới thiệu một số kỹ thuật đang được

sử dụng hiện nay Thông thường thì mã hoá tiếng nói được chia làm ba phương pháp đó là: mã hoá dạng sóng (waveform coder) và mã hoá nguồn (source coder) (hay còn được gọi là mã hoá thông số) và mã hóa lai (hybrid coder) Mã hoá dạng sóng được thực hiện ở tốc độ bít cao và cho chất lượng mã hoá tiếng nói tốt Mã hoá nguồn thực hiện ở tốc độ bít thấp, nhưng nó có xu hướng tạo ra tiếng nói có chất lượng nhân tạo, mã hoá lai (hybrid coder), đây là kỹ thuật mã hoá tổng hợp của phương pháp mã hoá dạng sóng và

mã hoá nguồn, nó cho chất lượng tiếng nói khá tốt và thực hiện ở tốc độ bít trung bình

wop8412.tmpMicrosoft_Visio_2003-2010_Drawing.vsd

Hình 2.1 Các phương pháp mã hóa tiếng nói

Trang 9

2.1 Mã hóa dạng sóng

Mã hoá dạng sóng nhằm tái tạo lại tín hiệu đầu vào của tiếng nói Nó thường được chia thành các tín hiệu độc lập do vậy nó có thể được dùng để mã hoá rất nhiều loại tín hiệu Thông thường, đây là phương pháp mã hoá có độ phức tạp thấp tuy nhiên lại cho chất lượng cao với tốc độ bít cao (lớn hơn khoảng 16kbps) Mã hoá dạng sóng có thể được thực hiện trên cả miền tần số cũng như trên miền thời gian

2.1.1 Mã hóa trên miền thời gian

Mã hoá trên miền thời gian thực hiện việc mã hóa trên khoảng thời gian lấy mẫu của tín hiệu Các phương pháp mã hoá trong miền thời gian thường được dùng gồm có: Điều chế mã xung (PCM), điều chế mã xung thích ứng (APCM), điều chế mã xung vi phân (DPCM), điều chế mã xung vi phân thích ứng (ADPCM), điều chế Delta (DM), điều chế Delta thích ứng, và mã hoá dự đoán thích ứng (APC) Tiếp theo ta sẽ xem xét một vài phương pháp mã hoá quan trọng trong miền thời gian

Mã hóa PCM

Điều chế mã xung là phương pháp đơn giản nhất trong mã hoá dạng sóng Điểm cốt yếu của phương pháp này chính là quá trình lượng tử hóa Bất cứ dạng lượng tử hoá vô hướng nào cũng có thể được sử dụng trong phương pháp này, nhưng dạng hay được dùng nhất là lượng tử hoá logarit Uỷ ban tư vấn điện thoại và điện báo quốc tế đã giới thiệu G.711 như là phương pháp chuẩn cho việc mã hoá tiếng nói thoại Chuẩn G.711 xác định

8 bit theo luật μ và luật A của PCM Mã hoá dùng luật μ có ít lợi thế hơn trong việc thực hiện vì nó cho tỉ số tín hiệu trên nhiễu bé hơn

Mã hoá DPCM và ADPCM

PCM không giả định về tính tự nhiên của dạng sóng được mã hóa, do đó nó làm việc tốt với các tín hiệu mà không phải là tiếng nói Tuy nhiên, khi mã hoá tiếng nói thì

sẽ có sự tương quan rất lớn giữa các mẫu cạnh nhau Sự tương quan này có thể được sử dụng để khôi phục được tốc độ bít của kết quả Một phương pháp đơn giản để thực hiện việc này đó là chỉ truyền sự sai khác giữa các mẫu Tín hiệu khác biệt này sẽ có phạm vi dao động nhỏ hơn so với tín hiệu tiếng nói ban đầu, do vậy nó có thể lượng tử hoá một cách hiệu quả bằng việc sử dụng các bộ vector lượng tử hoá với mức xây dựng lại thấp hơn Trong phương pháp trên, mẫu trước được sử dụng để dự đoán giá trị của mẫu hiện tại Sự dự đoán này có thể được cải thiện nếu như ta sử dụng một khối lớn hơn của tín hiệu tiếng nói cho việc dự đoán Phương pháp này được gọi là điều chế mã hoá xung vi phân (DPCM)

Một phiên bản phát triển của DPCM là điều chế mã xung thích ứng ADPCM Trong ADPCM, bộ dự đoán và lượng tử hoá được thích ứng với các đặc tính của tín hiệu đầu vào Có một số chuẩn được ITU giới thiệu cho việc mã hoá tín hiệu âm thanh dựa vào giải thuật ADPCM (với dải thông hẹp khoảng 8kHz) ví dụ như G.726 thực hiện ở các tốc

độ bít 40, 32, 24 và 16 kbps Độ phức tạp của ADPCM là thực sự thấp Mã hoá ADPCM

sẽ cho tín hiệu tín hiệu trên nhiễu cao (vào khoảng 30 đến 35 dB)

2.1.2 Mã hóa trên miền tần số

Mã hoá dạng sóng trong miền tần số chia tín hiệu thành các thành phần tần số khác nhau và tiến hành mã hoá từng thành thành phần này Số bít sử dụng để mã hoá từng thành phần tần số có thể thay đổi Mã hoá trong miền tần số được chia ra làm hai nhóm là: mã hoá băng con (subband) và mã hoá biến đổi (transform)

Mã hoá băng con (subband)

Mã hoá băng con sử dụng một số bộ lọc dải thông để chia tín hiệu đầu vào thành các tín hiệu con (subband signal) mà đã được mã hoá Tại bộ thu các tín hiệu con được

Trang 10

giải mã và cộng lại nhằm khôi phục lại tín hiệu ban đầu Ưu điểm chính của phương pháp

mã hoá băng con đó là nhiễu lượng tử hoá sinh ra trong một dải tần sẽ bị hạn chế trong chính dải tần đấy Hiệp hội viễn thông quốc tế ITU đã đưa ra chuẩn G.722 trong mã hoá băng con (subband) để truyền thông với các tốc độ 48, 56 hay là 64 kbps

Mã hoá biến đổi (transform)

Kỹ thuật này cần có một khối chuyển đổi của cửa sổ tín hiệu đầu vào thành các thành phần tần số, hoặc một vài miền tương tự Mã hoá thích ứng sau đó sẽ hoàn thành bằng cách phân bổ thêm bít vào các thành phần hệ số quan trọng hơn Tại bộ thu thì bộ giải mã sẽ thực hiện việc chuyển đổi ngược để thu lại tín hiệu cần khôi phục Ta có thể sử dụng một số phép biến đổi như: phép biến đổi Fourier rời rạc (DFT) hay là phép biến đổi cosine rời rạc (DCT)

2.2 Mã hóa nguồn

Mã hóa ADPCM không thể cho chất lượng tốt nếu tốc độ bit giảm dưới 16 Kbps

Để tiếp tục giảm tốc độ bit, cần phải khai thác mô hình tạo tiếng nói Từ đây, người ta

có khái niệm mã hóa nguồn hay còn gọi là mã hóa dựa trên mô hình

Ở đây, các bộ mã hóa nguồn hoạt động sử dụng mô hình nguồn tín hiệu được tạo

ra như thế nào và cố gắng trích chọn ra từ tín hiệu đang được mã hóa các tham số của

mô hình và truyền chúng tới bộ giải mã Các bộ mã hóa nguồn cho tín hiệu thoại còn được gọi là Vocoder (Voice + Coder)

Ưu điểm của loại mã hóa này là nó rất có hiệu quả đối với âm thanh thoại, dễ hiểu, trong khi nó lại có nhược điểm là phức tạp hơn nhiều so với phương pháp mã hóa dạng sóng và nó chỉ có thể xử lý được tiếng nói của con người Mã hóa tham số hoạt động với tốc độ bit thấp (xuống đến 2,4 Kbps) và mặc dù là tiếng nói được tái tạo lại

là hoàn toàn dễ hiểu nhưng chúng lại khác khá nhiều so với giọng nói tự nhiên của con người

2.2.1 Nguyên tắc mã hóa Vocoder

Mã hóa Vocoder là kiểu mã hóa tiếng nói dựa trên các tham số mô phỏng bộ máy phát âm, khác với mã hóa dạng sóng của tiếng nói tương tự, gọi là mã hóa nguồn( Vocoder).Nguyên lý dựa trên việc tuyến âm thanh thay đổi từ từ trạng thái và cấu hình của chúng tại bất cứ thời điểm nào và có thể được mô phỏng một cách gần đúng bằng một tập nhỏ các tham số Nhờ việc tuyến âm có tốc độ thay đổi từ từ cho phép mỗi tập tham số có thể đại diên cho trạng thái của nó qua một khoảng thời gian 25ms.Hầu hết mã hóa Vocoder biểu diễn đặc tính của nguồn kích thích và tuyến âm chỉ bằng một tập tham số Nó gồm khoảng 10 đến 15 hệ số của bộ lọc để định nghĩa các đặc tính cộng hưởng của tuyến âm, một tham số, hai giá trị đơn giản để chỉ ra nguồn phát âm là âm vô thanh hay âm hữu thanh, một tham số chỉ ra năng lượng kích thích và một tham số chỉ ra chu kì cơ bản ( âm săc, chỉ có với âm hữu thanh) Trạng thái của tuyến âm được suy ra bằng cách phân tích dạng sóng tiếng nói trong khoảng thời gian

10 đến 25ms và tính toán ra một tập mới các tham ( một khung dữ liệu) tại phần cuối của khoảng thời gian đó Khung dữ liệu này được truyền đi và sau đó được dung để điều khiển việc tổng hợp lại tiếng nói Mã hóa Vocoder có khả năng chuyển giữa hai kiểu nguồn kích thích là nguồn xung đối với âm hữu thành cà nhiều trắng đối với âm vô thanh Bên phía tống hợp sẽ dùng một trong hai nguồn này cho đi qua bộ lọc gồm các

hệ số của khung dữ liệu để tổng hợp tiếng nói

Ngoài việc đạt được tốc độ bít thấp, Vocoder có ưu điểm là phân tích được các tham số nguồn kích thích Bít biểu thị âm sắc,âm lượng,âm hữu thanh và âm vô thanh Bản thân nó là các bít trong khung dự liệu, nên các sự thay đổi của chúng có thể được

Định dạng
Số trang	16
Dung lượng	555,3 KB