Bμi báo nghiên cứu nguyên lý của mã hoá tham số nguồn dựa trên tính chất của tín hiệu tiếng nói vμ phương pháp lượng tử hoá vector.. Mô hình cơ quan phát âm vμ các tính chất của tín hiệ
Trang 1mã tín hiệu điện thoại
KS đào thanh toản
Bộ môn Kỹ thuật Điện tử - ĐH GTVT
Tóm tắt: Mã hoá PCM truyền thống tốc độ bít lμ 64Kbps lμ phương pháp mã hoá được sử dụng
từ lâu, đây lμ phương pháp có chất lượng mã hoá cao song băng tần truyền dẫn lại lớn Mã hoá tham
số nguồn hiện nay đã đến giai đoạn hoμn thiện về mặt kỹ thuật với tốc độ bit rất thấp khoảng từ 4
đến13 Kbps đã vμ đang ứng dụng cho các dịch vụ viễn thông hiện đại như VoIP, thông tin di động,
đIện thoại internet, iPAS Bμi báo nghiên cứu nguyên lý của mã hoá tham số nguồn dựa trên tính chất của tín hiệu tiếng nói vμ phương pháp lượng tử hoá vector
Summary: The conventional coding method PCM - 64 Kbps has long been in use It has high
coding quality but its transmission bandwidth is great The source parameter vocoder is perfect in terms of technology with very low bit speed of 4 to 13 Kbps, which is being applied in advanced telecoms services, such as VoIP, mobile information, Internet Telephony, iPAS… The newspaper presents the principles of source parameter coding based on characteristics of voice signal and vector quantification method
1 Mô hình cơ quan phát âm vμ các
tính chất của tín hiệu tiếng nói
Quá trình phát âm được mô hình hoá là một
mạch cộng hưởng có tần số cộng hưởng khác
nhau, được kích thích bằng chuỗi xung tuần hoàn
hay nguồn nhiễu ngẫu nhiên (hình 1)
Hàm truyền mạch lọc:
H(z) =
∑
=
ư
ư p 1 k
k
kz a 1
G
G - tham số khuếch đại của bộ lọc;
ak - các tham số của bộ lọc;
P - bậc của bộ lọc thông thường giá trị này là
10 (GSM, LD-CELP) Bộ lọc này còn có tên là bộ
lọc dự đoán tuyến tính LPC[1,3]
Tín hiệu tiếng nói có một số tính chất có thể
khai thác được khi tiến hành mã hoá tín hiệu như
sau:
- Tính chất quan trọng nhất mà tất cả các
bộ mã hoá khai thác đó là tính chất dải tần hạn chế:16 Hz - 20 kHz [1] Một độ rộng dải tần giới hạn có nghĩa là nó có thể được rời rạc hoá về mặt thời gian với một tốc độ giới hạn và được khôi phục lại hoàn toàn đầy đủ từ các mẫu của nó với
điều kiện thoả mãn điều kiện lấy mẫu Nyquiet, áp dụng cho phương pháp mã hoá vùng thời gian (PCM, ADPCM…)
- Tính chất thường dùng nhất là sự phân
bố xác suất không đều của biên độ tiếng nói, có sự tự tương quan giữa các mẫu liên tiếp, bản chất không phẳng của phổ tín hiệu tiếng nói sự tồn tại của các thành phần âm kêu (voiced) và âm không kêu (unvoiced) và tính chất tựa tuần hoàn của các tín hiệu tiếng nói, áp dụng cho phương pháp mã hoá tham số nguồn (CELP) [1], [2]
Phân tích bản chất của quá trình phát âm không những giúp cho việc mã hoá tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổng hợp tiếng nói, và nhận dạng tiếng nói
Trang 2Cả ba lĩnh vực công nghệ này đang được các nhà
khoa học rất quan tâm
2 Phân loại
Bộ mã hoá tiếng nói được phân thành hai
loại lớn: bộ mã hoá dạng sóng và bộ mã hoá
tham số nguồn
Bộ mã hoá dạng sóng nhằm tạo ra dạng
sóng thời gian của tín hiệu tiếng nói càng giống
với tín hiệu ban đầu càng tốt như PCM (điều chế
xung mã), ADPCM (PCM vi sai thích nghi ),
chúng được thiết kế độc lập với nguồn tín hiệu (có
nghĩa là có thể áp dụng cho cả loại tín hiệu khác)
nên chất lượng không phụ thuộc nhiều vào nguồn
tín hiệu ưu điểm là chất lượng ổn định với phạm
vi rộng của các đặc trưng tiếng nói và các môi
trường có độ ồn khác nhau Tuy nhiên băng tần
truyền dẫn lại lớn, cho nên sẽ không khả thi trong
môi trường mạng viễn thông có giới hạn về băng
tần
Phương pháp mã hoá tham số nguồn: đây là
phương pháp mã hoá dựa trên bản chất của tín
hiệu tiếng nói, các phương pháp hay dùng:
LD-CELP, CS-ACELP, Q-CELP Nhìn chung các
phương pháp này đạt được hiệu quả về mặt băng
tần tuy nhiên chất lượng của chúng phụ thuộc
nhiều vào người nói, và các bộ vi xử lý phảI có tốc độ thì mới thực hiện được, kỹ thuật mã hoá vẫn đang trong quá trình hoàn thiện
Còn mã hoá tham số nguồn, các bộ mã hoá
và giải mã có cùng chung một quyển sách mã (codebook) đã xác định trước, được đánh chỉ số (giống như có một quyển từ điển) chữa thông tin
đơn vị gọi là các vector, một vector bao gồm: tín hiệu ngẫu nhiên (nhiễu trắng) (unvoiced), chuỗi xung (voiced), thông tin về cao độ của âm (pitch), thông tin về các tham số bộ lọc (tham số a
3 Phương pháp mã hoá tham số nguồn
Các hệ thống xử lý tín hiệu tiếng nói nói chung gồm các quá trình chính:
Số hoá -> xử lý tín hiệu số -> bit truyền
Phương pháp lượng tử hoá truyền thống như PCM: rời rạc hoá với tần số 8 kHz, sau đó lượng
tử với mỗi mẫu 8 bit theo các luật nén giãn A hay μ
i), thông tin về biên độ (G) các thông tin này có
được là nhờ quá trình luyện tập, thống kê với nhiều người và nhiều ngôn ngữ khác nhau, vector giống như một từ trong quyển từ điển [4], [5] Trong mỗi khoảng lượng tử hoá, bộ mã hoá tìm trong sổ mã (codebook) của nó một mã, mà mã này cho cảm nhận tốt nhất hoà hợp với âm
Cơ vòng
Miệng
Buồng cộng hưởng Thanh quản
Bức xạ
Loa Khuếch
đại: G
Cộng hưởng
Nguồn nhiễu
ngẫu nhiên
Bộ dao động
tích thoát
Nguồn
âm
Nguồn không
âm
răng
Qúa trình phát âm
Mô phỏng quá trình pháp âm
Địa chỉ được số hoá và truyền đi
Hình 1 Mô hình cơ quan phát âm vμ một mẫu âm thanh:
"A" giai đoạn kết thúc âm thu được từ chương trình
nghiên cứu của tác giả
Trang 3thanh, khi dùng như một bộ kích thích đầu vào
của bộ lọc dự đoán tuyến tính LPC (Linear
Prediction Code), chỉ số sổ mã khi có hoà hợp tốt
nhất, thì chỉ số của vector này
sẽ được mã hoá và phát đi Phía
thu căn cứ vào các chỉ số này
để "lấy" ra các tham số của
vector tương ứng và đưa đến bộ
tổng hợp để tạo ra tín hiệu hồi
phục (hình 2)
Các phương pháp mã hoá
tham số nguồn khác có điểm
khác chính là phương pháp tìm
vector trong sổ mã Để tìm các
giá trị tối ưu, ta thực hiện việc
tìm giá trị đó sao cho sai số
trung bình bình phương MSE
(Mean Square Error) là nhỏ
nhất (cực tiểu hoá) Có nhiều đề
xuất cho giải thuật tìm giá trị tối
ưu này như sử dụng phương
thức tự tương quan, phương thức
đồng phương sai tuy nhiên
phương thức tự tương quan với
giải thuật Levinson - Durbin hay
được dùng hơn cả vì nó phù hợp
với phương pháp lập trình cấu
trúc
Nội dung như sau:
Ma trận của tham số phỏng đoán tuyến tính
LPC có dạng:
(
∑
=
ư
p 1 k
n
kR i k
a ) = Rn(i) (2)
với i = 1, , p Khởi tạo: E0 = R(0) (3)
1 i 1 j
1 i
j R(i j) /E a
) i (
ư
=
ư
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
ư
ư∑
với i = 1, , p i
i
= - k
i
j
a aijư1 i i 1
j i
Ei = ( 2) i 1
i E k
quá trình trên lặp đi lặp lại cho đến khi:
aj =
với j =1, , p (8) p
j
a
(Xem tiếp trang 72)
R(i) = , tương quan của mẫu phỏng đoán và mẫu cần mã hoá
∑
=
ư N
i n
) i n ( S ) n ( S
Kết quả phép tính tìm được ak của (1) Lý do băng tần giảm được bởi khung thời gian quan sát tín hiệu của nó thường từ (10 - 30) ms, khác với PCM là 10-3 ms, số bit lập mã trung bình một mẫu thấp hơn phương pháp vùng thời gian nhiều lần như GSM, QCELP (13 Kbps): 260/160 = 1,625 bít/mẫu < 8bit/mẫu (PCM)
4 Phương pháp thực hiện
Dạng tín hiệu rời rạc
t
Một vectơ
j
Hình 2 Mô hình hoá của lượng tử hoá vector
Địa chỉ được
số hoá và truyền đi i
Trang 4Như đã phân tích mã hoá tốc độ thấp có ứng
dụng trong rất nhiều dịch vụ viễn thông, chúng
được chia làm hai mảng lớn
Với các đầu cuối của thiết bị cầm tay, xử lý
tín hiệu tiếng nói do một chip đảm nhận, sổ mã
sẽ được nạp vào bộ nhớ chỉ đọc (ROM) của vi xử
lý, thuật toán phức tạp và ý nghĩa thực tiễn của
truyền tiếng nói là thời gian thực cho nên các chip
phải đạt tốc độ nào đó mới thực hiện được thông
thường khoảng (10 - 30) MIPS (đơn vị triệu phép
tính trên giây)
Với các hệ thống đi cùng các ứng dụng khác
như đồ gia dụng nối mạng, máy tính tín hiệu
tiếng nói được số hoá nhờ cạc âm thanh hay thiết
bị giao tiếp, và thuật toán thực hiện chủ yếu bằng
phần mềm dựa trên các hàm hệ thống của hệ
điều hành như hệ điều hành Window đã co sẵn
hàm cho nén theo chuẩn GSM, hoặc cũng có thể
xây dựng các modul riêng tạo thành chương trình
ứng dụng cụ thể
Hiện nay trên mạng có rất nhiều các mhóm
làm việc chuyên về xử lý tín hiệu tiếng nói như Tổ
chức Freely speak, Nhóm làm việc của microsoft,
nhóm làm việc của ITU-T, các sản phẩm được
dùng phổ biến hiện nay, tất cả đều miễn phí sử
dụng:
Yahoo messenger (www.messenger.yahoo.com)
IP telephony(www.iptelphone.com),
Freelyspeak(www.freelyspeak.org)
5 Kết luận
Với sự phát triển mạnh của công nghệ chế
tạo phần cứng xử lý tín hiệu số nói chung và xử lý
tín hiệu tiếng nói riêng cũng đạt được rất nhiều
thành tựu, giúp cho thực hiện được các thuật toán
tinh vi phức tạp Kết quả này không những thực
hiện được cho các thiết bị đầu cuối đa năng mà
còn góp phần quyết định cho các lý thuyết viễn
thông đi vào thực tế chẳng hạn như điện thoại di
động thế hệ thứ ba (3G), điện thoại IP đa dịch vụ
qua vệ tinh, hệ thống thông tin truy nhập cá nhân
(iPAS) Gần đây người ta còn chú ý nhiều đến
việc áp dụng kỹ thuật phân tích Walets vào lĩnh
vực xử lý tín hiệu số trong đó có tín hiệu tiếng nói (các phương thức đã trình bày chỉ là áp dụng các biến đổi Furier truyền thống), góp phần hoàn thiện cho kỹ thuật mã hoá này, tốc độ mã hoá ngày càng thấp hơn và chất lượng ngày càng tốt hơn
Tài liệu tham khảo
[1] R W Schafer & L R Rabiner Digital Processing of
Speech Signals ISBN Editor,1976
[2] Biing Hwang Juang Fundamentals of Speech
Recognition ISBN Editor,1990
[3] www.lab-bells.com [4] www.itu-t.int [5] www.eee.wasshington.eduĂ