Báo cáo khoa học: "mã tín hiệu điện thoại" ppt

Bμi báo nghiên cứu nguyên lý của mã hoá tham số nguồn dựa trên tính chất của tín hiệu tiếng nói vμ phương pháp lượng tử hoá vector.. Mô hình cơ quan phát âm vμ các tính chất của tín hiệ

Trang 1

mã tín hiệu điện thoại

KS đào thanh toản

Bộ môn Kỹ thuật Điện tử - ĐH GTVT

Tóm tắt: Mã hoá PCM truyền thống tốc độ bít lμ 64Kbps lμ phương pháp mã hoá được sử dụng

từ lâu, đây lμ phương pháp có chất lượng mã hoá cao song băng tần truyền dẫn lại lớn Mã hoá tham

số nguồn hiện nay đã đến giai đoạn hoμn thiện về mặt kỹ thuật với tốc độ bit rất thấp khoảng từ 4

đến13 Kbps đã vμ đang ứng dụng cho các dịch vụ viễn thông hiện đại như VoIP, thông tin di động,

đIện thoại internet, iPAS Bμi báo nghiên cứu nguyên lý của mã hoá tham số nguồn dựa trên tính chất của tín hiệu tiếng nói vμ phương pháp lượng tử hoá vector

Summary: The conventional coding method PCM - 64 Kbps has long been in use It has high

coding quality but its transmission bandwidth is great The source parameter vocoder is perfect in terms of technology with very low bit speed of 4 to 13 Kbps, which is being applied in advanced telecoms services, such as VoIP, mobile information, Internet Telephony, iPAS… The newspaper presents the principles of source parameter coding based on characteristics of voice signal and vector quantification method

1 Mô hình cơ quan phát âm vμ các

tính chất của tín hiệu tiếng nói

Quá trình phát âm được mô hình hoá là một

mạch cộng hưởng có tần số cộng hưởng khác

nhau, được kích thích bằng chuỗi xung tuần hoàn

hay nguồn nhiễu ngẫu nhiên (hình 1)

Hàm truyền mạch lọc:

H(z) =

∑

=

ư

ư p 1 k

k

kz a 1

G

G - tham số khuếch đại của bộ lọc;

ak - các tham số của bộ lọc;

P - bậc của bộ lọc thông thường giá trị này là

10 (GSM, LD-CELP) Bộ lọc này còn có tên là bộ

lọc dự đoán tuyến tính LPC[1,3]

Tín hiệu tiếng nói có một số tính chất có thể

khai thác được khi tiến hành mã hoá tín hiệu như

sau:

- Tính chất quan trọng nhất mà tất cả các

bộ mã hoá khai thác đó là tính chất dải tần hạn chế:16 Hz - 20 kHz [1] Một độ rộng dải tần giới hạn có nghĩa là nó có thể được rời rạc hoá về mặt thời gian với một tốc độ giới hạn và được khôi phục lại hoàn toàn đầy đủ từ các mẫu của nó với

điều kiện thoả mãn điều kiện lấy mẫu Nyquiet, áp dụng cho phương pháp mã hoá vùng thời gian (PCM, ADPCM…)

- Tính chất thường dùng nhất là sự phân

bố xác suất không đều của biên độ tiếng nói, có sự tự tương quan giữa các mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu tiếng nói sự tồn tại của các thành phần âm kêu (voiced) và âm không kêu (unvoiced) và tính chất tựa tuần hoàn của các tín hiệu tiếng nói, áp dụng cho phương pháp mã hoá tham số nguồn (CELP) [1], [2]

Phân tích bản chất của quá trình phát âm không những giúp cho việc mã hoá tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổng hợp tiếng nói, và nhận dạng tiếng nói

Trang 2

Cả ba lĩnh vực công nghệ này đang được các nhà

khoa học rất quan tâm

2 Phân loại

Bộ mã hoá tiếng nói được phân thành hai

loại lớn: bộ mã hoá dạng sóng và bộ mã hoá

tham số nguồn

Bộ mã hoá dạng sóng nhằm tạo ra dạng

sóng thời gian của tín hiệu tiếng nói càng giống

với tín hiệu ban đầu càng tốt như PCM (điều chế

xung mã), ADPCM (PCM vi sai thích nghi ),

chúng được thiết kế độc lập với nguồn tín hiệu (có

nghĩa là có thể áp dụng cho cả loại tín hiệu khác)

nên chất lượng không phụ thuộc nhiều vào nguồn

tín hiệu ưu điểm là chất lượng ổn định với phạm

vi rộng của các đặc trưng tiếng nói và các môi

trường có độ ồn khác nhau Tuy nhiên băng tần

truyền dẫn lại lớn, cho nên sẽ không khả thi trong

môi trường mạng viễn thông có giới hạn về băng

tần

Phương pháp mã hoá tham số nguồn: đây là

phương pháp mã hoá dựa trên bản chất của tín

hiệu tiếng nói, các phương pháp hay dùng:

LD-CELP, CS-ACELP, Q-CELP Nhìn chung các

phương pháp này đạt được hiệu quả về mặt băng

tần tuy nhiên chất lượng của chúng phụ thuộc

nhiều vào người nói, và các bộ vi xử lý phảI có tốc độ thì mới thực hiện được, kỹ thuật mã hoá vẫn đang trong quá trình hoàn thiện

Còn mã hoá tham số nguồn, các bộ mã hoá

và giải mã có cùng chung một quyển sách mã (codebook) đã xác định trước, được đánh chỉ số (giống như có một quyển từ điển) chữa thông tin

đơn vị gọi là các vector, một vector bao gồm: tín hiệu ngẫu nhiên (nhiễu trắng) (unvoiced), chuỗi xung (voiced), thông tin về cao độ của âm (pitch), thông tin về các tham số bộ lọc (tham số a

3 Phương pháp mã hoá tham số nguồn

Các hệ thống xử lý tín hiệu tiếng nói nói chung gồm các quá trình chính:

Số hoá -> xử lý tín hiệu số -> bit truyền

Phương pháp lượng tử hoá truyền thống như PCM: rời rạc hoá với tần số 8 kHz, sau đó lượng

tử với mỗi mẫu 8 bit theo các luật nén giãn A hay μ

i), thông tin về biên độ (G) các thông tin này có

được là nhờ quá trình luyện tập, thống kê với nhiều người và nhiều ngôn ngữ khác nhau, vector giống như một từ trong quyển từ điển [4], [5] Trong mỗi khoảng lượng tử hoá, bộ mã hoá tìm trong sổ mã (codebook) của nó một mã, mà mã này cho cảm nhận tốt nhất hoà hợp với âm

Cơ vòng

Miệng

Buồng cộng hưởng Thanh quản

Bức xạ

Loa Khuếch

đại: G

Cộng hưởng

Nguồn nhiễu

ngẫu nhiên

Bộ dao động

tích thoát

Nguồn

âm

Nguồn không

âm

răng

Qúa trình phát âm

Mô phỏng quá trình pháp âm

Địa chỉ được số hoá và truyền đi

Hình 1 Mô hình cơ quan phát âm vμ một mẫu âm thanh:

"A" giai đoạn kết thúc âm thu được từ chương trình

nghiên cứu của tác giả

Trang 3

thanh, khi dùng như một bộ kích thích đầu vào

của bộ lọc dự đoán tuyến tính LPC (Linear

Prediction Code), chỉ số sổ mã khi có hoà hợp tốt

nhất, thì chỉ số của vector này

sẽ được mã hoá và phát đi Phía

thu căn cứ vào các chỉ số này

để "lấy" ra các tham số của

vector tương ứng và đưa đến bộ

tổng hợp để tạo ra tín hiệu hồi

phục (hình 2)

Các phương pháp mã hoá

tham số nguồn khác có điểm

khác chính là phương pháp tìm

vector trong sổ mã Để tìm các

giá trị tối ưu, ta thực hiện việc

tìm giá trị đó sao cho sai số

trung bình bình phương MSE

(Mean Square Error) là nhỏ

nhất (cực tiểu hoá) Có nhiều đề

xuất cho giải thuật tìm giá trị tối

ưu này như sử dụng phương

thức tự tương quan, phương thức

đồng phương sai tuy nhiên

phương thức tự tương quan với

giải thuật Levinson - Durbin hay

được dùng hơn cả vì nó phù hợp

với phương pháp lập trình cấu

trúc

Nội dung như sau:

Ma trận của tham số phỏng đoán tuyến tính

LPC có dạng:

(

∑

=

ư

p 1 k

n

kR i k

a ) = Rn(i) (2)

với i = 1, , p Khởi tạo: E0 = R(0) (3)

1 i 1 j

1 i

j R(i j) /E a

) i (

ư

=

ư

⎟

⎠

⎞

⎜

⎝

⎛

ư

ư∑

với i = 1, , p i

i

= - k

i

j

a aijư1 i i 1

j i

Ei = ( 2) i 1

i E k

quá trình trên lặp đi lặp lại cho đến khi:

aj =

với j =1, , p (8) p

j

a

(Xem tiếp trang 72)

R(i) = , tương quan của mẫu phỏng đoán và mẫu cần mã hoá

∑

=

ư N

i n

) i n ( S ) n ( S

Kết quả phép tính tìm được ak của (1) Lý do băng tần giảm được bởi khung thời gian quan sát tín hiệu của nó thường từ (10 - 30) ms, khác với PCM là 10-3 ms, số bit lập mã trung bình một mẫu thấp hơn phương pháp vùng thời gian nhiều lần như GSM, QCELP (13 Kbps): 260/160 = 1,625 bít/mẫu < 8bit/mẫu (PCM)

4 Phương pháp thực hiện

Dạng tín hiệu rời rạc

t

Một vectơ

j

Hình 2 Mô hình hoá của lượng tử hoá vector

Địa chỉ được

số hoá và truyền đi i

Trang 4

Như đã phân tích mã hoá tốc độ thấp có ứng

dụng trong rất nhiều dịch vụ viễn thông, chúng

được chia làm hai mảng lớn

Với các đầu cuối của thiết bị cầm tay, xử lý

tín hiệu tiếng nói do một chip đảm nhận, sổ mã

sẽ được nạp vào bộ nhớ chỉ đọc (ROM) của vi xử

lý, thuật toán phức tạp và ý nghĩa thực tiễn của

truyền tiếng nói là thời gian thực cho nên các chip

phải đạt tốc độ nào đó mới thực hiện được thông

thường khoảng (10 - 30) MIPS (đơn vị triệu phép

tính trên giây)

Với các hệ thống đi cùng các ứng dụng khác

như đồ gia dụng nối mạng, máy tính tín hiệu

tiếng nói được số hoá nhờ cạc âm thanh hay thiết

bị giao tiếp, và thuật toán thực hiện chủ yếu bằng

phần mềm dựa trên các hàm hệ thống của hệ

điều hành như hệ điều hành Window đã co sẵn

hàm cho nén theo chuẩn GSM, hoặc cũng có thể

xây dựng các modul riêng tạo thành chương trình

ứng dụng cụ thể

Hiện nay trên mạng có rất nhiều các mhóm

làm việc chuyên về xử lý tín hiệu tiếng nói như Tổ

chức Freely speak, Nhóm làm việc của microsoft,

nhóm làm việc của ITU-T, các sản phẩm được

dùng phổ biến hiện nay, tất cả đều miễn phí sử

dụng:

Yahoo messenger (www.messenger.yahoo.com)

IP telephony(www.iptelphone.com),

Freelyspeak(www.freelyspeak.org)

5 Kết luận

Với sự phát triển mạnh của công nghệ chế

tạo phần cứng xử lý tín hiệu số nói chung và xử lý

tín hiệu tiếng nói riêng cũng đạt được rất nhiều

thành tựu, giúp cho thực hiện được các thuật toán

tinh vi phức tạp Kết quả này không những thực

hiện được cho các thiết bị đầu cuối đa năng mà

còn góp phần quyết định cho các lý thuyết viễn

thông đi vào thực tế chẳng hạn như điện thoại di

động thế hệ thứ ba (3G), điện thoại IP đa dịch vụ

qua vệ tinh, hệ thống thông tin truy nhập cá nhân

(iPAS) Gần đây người ta còn chú ý nhiều đến

việc áp dụng kỹ thuật phân tích Walets vào lĩnh

vực xử lý tín hiệu số trong đó có tín hiệu tiếng nói (các phương thức đã trình bày chỉ là áp dụng các biến đổi Furier truyền thống), góp phần hoàn thiện cho kỹ thuật mã hoá này, tốc độ mã hoá ngày càng thấp hơn và chất lượng ngày càng tốt hơn

Tài liệu tham khảo

[1] R W Schafer & L R Rabiner Digital Processing of

Speech Signals ISBN Editor,1976

[2] Biing Hwang Juang Fundamentals of Speech

Recognition ISBN Editor,1990

[3] www.lab-bells.com [4] www.itu-t.int [5] www.eee.wasshington.eduĂ

Định dạng
Số trang	4
Dung lượng	173,35 KB