Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu Để truyền dẫn trong mạng điện thoại cố định và di động một cách hiệu quả, tín hiệu tiếng nói cần được mã hóa, đảm bảo cân
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Trang 3SĐH.QT9.BM11
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Phan Quốc Thắng
Đề tài luận văn: Mã hóa và giải mã tín hiệu tiếng nói trong mạng điện thoại
Trang 42
MỤC LỤC……… 2
Danh mục các ký hiệu, các chữ viết tắt 3
Danh mục các bảng 4
Danh mục các hình vẽ, đồ thị 5
MỞ ĐẦU……….7
CHƯƠNG I TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 9
1.1 Tín hiệu tiếng nói 9
1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông 11
1.3 Giới thiệu về các dạng mã hóa tiếng nói 12
CHƯƠNG II MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG MẠNG ĐIỆN THOẠI CỐ ĐỊNH 17 2.1 Mã hóa dạng sóng PCM 17
2.2 Nén và giải nén luật A/Mu trong PCM 28
2.3 Đánh giá tín hiệu PCM 31
CHƯƠNG III MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG MẠNG ĐIỆN THOẠI DI ĐỘNG 32 3.1 Phương pháp mã hóa và giải mã tiếng nói trong mạng di động 32
3.2 Nguyên lý bộ mã hóa và giải mã RPE-LTP 34
3.2.1 Nguyên lý bộ mã hóa RPE-LTP 38
3.2.2 Nguyên lý bộ giải mã RPE-LTP 40
3.2.3 Các dãy thông số quan trọng của bộ mã RPE-LTP 40
3.3 Chi tiết chức năng bộ mã hóa và giải mã tiếng nói RPE-LTP 42
3.3.1 Chi tiết các chức năng của bộ mã hóa RPE-LTP 42
3.3.2 Chi tiết các chức năng của bộ giải mã RPE-LTP 55
CHƯƠNG IV XÂY DỰNG CHƯƠNG TRÌNH MÔ PHỎNG 59
4.1 Mô phỏng mã hóa và giải mã tiếng nói trong mạng điện thoại cố định 59
4.2 Mô phỏng mã hóa và giải mã tiếng nói trong mạng điện thoại di động 63
4.2.1 Thực hiện tính toán bộ mã hóa RPE – LTP 66
4.2.2 Thực hiện tính toán bộ giải mã RPE – LTP 83
4.2.3 Các bảng được dùng trong quá trình tính toán 87
4.2.4 Kết quả chương trình mô phỏng mã RPE-LTP 89
KẾT LUẬN.……… 95
Tài liệu tham khảo 96
Trang 53
Danh mục các ký hiệu, các chữ viết tắt
ADPCM Adaptive Differential PCM Điều chế mã xung vi sai thích
nghi CELP Codebook Excitation Linear Prediction Dự đoán tuyến tính kích thích
mã DSP Digital Signal Processor Bộ xử lý tín hiệu số
ETSI European Telecommunication
ITU International Telecommunication
Union
Liên minh Viễn thông Quốc tế
LPC Linear Predictive Coding Mã dự đoán tuyến tính
MOS Mean Opinion Score Điểm số đánh giá trung bình PAM Pulse Amplitude Modulation Tín hiệu điều biên xung
PSTN Public Switched Telephone Network Mạng điện thoại chuyển mạch
công cộng RPE Regular Pulse Excitation Kích thích xung đều
SNqR Signal-to-quantization-noise ratio Tỉ lệ tín hiệu trên nhiễu
TIA Telecommunications Industry
Association
Hiệp hội Công nghiệp Viễn thông
Trang 64
Danh mục các bảng
Bảng 1 1 Các tiêu chuẩn mã hóa tiếng nói 15
Bảng 3 1 Các thông số đầu ra bộ mã hóa theo thứ tự xuất hiện và bit cấp phát trong khung tiếng nói 260 bits/ 20 ms 41
Bảng 3 2 Lượng tử hóa LAR(i) 47
Bảng 3 3 Nội suy các thông số LAR 48
Bảng 3 4 Bảng lượng tử hóa cho hệ số tăng ích LTP b 51
Bảng 3 5 Đáp ứng xung của bộ “block filter” (lọc trọng số) 53
Bảng 3 6 Lượng tử hóa khối lớn nhất xmax 54
Bảng 3 7 Lượng tử hóa các mẫu RPE đã chuẩn hóa 55
Bảng 4 1 Lượng tử hóa tỉ số log tiết diên – LAR 87
Bảng 4 2 1/A[1…8] 87
Bảng 4 3 a Mức quyết định của bộ lượng tử hóa hệ số tăng ích LTP - bc 87
Bảng 4 3 b Mức lượng tử của bộ lượng tử hóa hệ số tăng ích LTP – bc………….87
Bảng 4 4 Các hệ số của bộ lọc trọng số 88
Bảng 4 5 Nghịch đảo cơ số được chuẩn hóa sử dụng tính xM/xmax 88
Bảng 4 6 Cơ số được chuẩn hóa dùng để tính xM/xmax 88
Trang 75
Danh mục các hình vẽ, đồ thị
Hình 1.1 Sơ đồ bộ máy phát âm 9
Hình 1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông 11
Hình 1.3 Quan hệ chất lượng và tốc độ các phương pháp mã hóa tiếng nói 13
Hình 2.1 Quá trình mã hóa PCM 18
Hình 2.2 Quá trình lấy mẫu tín hiệu 18
Hình 2.3 Ví dụ quá trình lượng tử hóa 20
Hình 2.4 Lượng tử đều đối xứng cắt nửa mức lượng tử 21
Hình 2.5 Lượng tử đều đối xứng cắt nửa bước lượng tử 22
Hình 2.6 Minh họa tín hiệu tương tự, lượng tử và nhiễu 23
Hình 2.7 Đặc tính nhiễu lượng tử 24
Hình 2.8 Sóng tín hiệu tương tự, lượng tử và nhiễu 25
Hình 2.9 Lượng tử không đều với 8 mức 26
Hình 2.10 Lượng tử không đều với cách tiếp cận gián tiếp 27
Hình 2.11 Đặc tuyến xấp xỉ tuyến tính luật A – 13 đoạn 28
Hình 2.12 Đặc tính nén logarit 29
Hình 2.13 Tương quan tín hiệu nén và giải nén luật A 30
Hình 2 14 Tương quan tín hiệu nén và giải nén luật Mu 30
Hình 3 1 Mô tả tín hiệu vào ra bộ mã hóa RPE-LTP 34
Hình 3 2 Mô hình tạo tiếng nói LPC 35
Hình 3 3 Tín hiệu tiếng nói gốc, bộ lọc LPC, tín hiệu thặng dư LPC 36
Hình 3 4 Quá trình xử lý của bộ mã RPE-LTP 37
Hình 3 5 Sơ đồ khối đơn giản của bộ mã hóa RPE-LTP 38
Hình 3 6 Sồ đồ khối đơn giản của bộ giải mã RPE-LTP 40
Hình 3 7 Sơ đồ khối bộ mã hóa RPE-LTP 44
Trang 86
Hình 3 8 Phân tích LPC sử dụng đệ quy Schur 46
Hình 3 9 Bộ lọc phân tích ngắn hạn 49
Hình 3 10 Sơ đồ khối bộ giải mã RPE-LTP 56
Hình 3 11 Bộ lọc tổng hợp ngắn hạn 57
Hình 4 1 Sơ đồ khối chương trình mô phỏng PCM trong mạng PSTN 59
Hình 4 2 Giao diện chính mô phỏng nén luật A/Mu 62
Hình 4 3 Kết quả khi thực hiện nén và giải nén luật Mu 62
Hình 4 4 Sơ đồ khối chương trình mô phỏng RPE-LTP trong mạng GSM 63
Hình 4 5 Giao diện chính chương trình mô phỏng RPE-LTP 89
Hình 4 6 Giao diện quan sát quá trình mã hóa RPE-LTP 90
Hình 4 7 Giao diện quan sát quá trình giải mã RPE-LTP 90
Hình 4 8 Kết quả mở một file tiếng nói 91
Hình 4 9 Kết quả thực hiện mã hóa và giải mã 92
Hình 4 10 Xét một khung quan sát xử lý 92
Hình 4 11 Khung tiếng nói đầu vào s0 được chọn mã hóa 93
Hình 4 12 Tín hiệu dư ngắn hạn d và ước lượng d” phía mã hóa 93
Hình 4 13 Tín hiệu dư dài hạn e sau khi qua bộ lọc trọng số phía mã hóa 94
Hình 4 14 Tín hiệu dư dài hạn e sau thu được khi giải mã RPE 94
Trang 9Mã hóa tiếng nói là một trong những yếu tố thiết yếu trong viễn thông nói riêng và truyền thông đa phương tiện nói chung Nó chính là nền tảng cho hoạt động của hai mạng được phát triển đáp ứng giao tiếp thoại mà ta đang sử dụng hàng ngày: mạng điện thoại cố định và di động Để hiểu rõ bản chất và phương pháp mã hóa tiếng nói thích hợp được áp dụng cho giao tiếp qua mạng điện thoại cố định và di động, tôi đã
thực hiện đề tài: Mã hóa và giải mã tiếng nói trong mạng điện thoại cố định và di
động
Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu
Để truyền dẫn trong mạng điện thoại cố định và di động một cách hiệu quả, tín hiệu tiếng nói cần được mã hóa, đảm bảo cân bằng giữa chất lượng của tiếng nói sau khi được tái tạo và sự giới hạn nhất định về băng thông đường truyền Mã hóa tiếng nói
là một bài toán với nhiều các câu hỏi: mã hóa tiếng nói dựa trên nguyên lý nào, sự nén của tín hiệu đạt được bằng cách nào, tính tự nhiên của tiếng nói sau khi được tái tạo có được đảm bảo, nhiễu trong quá trình mã hóa giải quyết ra sao Đề tài này sẽ giúp ta trả lời những câu hỏi đó
Hiện tại, điện thoại cố định và di động vẫn đang được sử dụng một cách phổ biến Bên cạnh đó, cùng với sự phát triển của công nghệ, nhiều phương thức để truyền dẫn tiếng nói ra đời, ví dụ như truyền tiếng nói qua giao thức IP - VoIP (Voice over Internet Protocol), truyền tiếng nói qua Wifi - VoWiFi (Voice over Wi-Fi) Cơ sở của các tiêu chuẩn mã hóa tiếng nói áp dụng cho những công nghệ mới này được kế
Trang 10Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả
Luận văn đạt được một số điểm cơ bản và đóng góp như sau:
- Giới thiệu khái quát, đưa ra cái nhìn tổng quan về các kỹ thuật mã hóa và giải
mã tiếng nói: mã hóa dạng sóng, mã hóa nguồn, mã hóa lai
- Làm rõ nguyên lý, đặc trưng của phương pháp mã hóa và giải mã tiếng nói áp dụng trong mạng điện thoại cố định và di động: mã hóa dạng sóng PCM cho mạng điện thoại cố định PSTN, mã hóa dạng lai RPE-LTP cho mạng điện thoại di động GSM
- Xây dựng thành công chương trình mô phỏng thể hiện quá trình mã hóa và giải
mã tiếng nói của phương pháp PCM và RPE-LTP
Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn dựa trên những đặc tính tự nhiên của tiếng nói, cấu tạo bộ máy phát âm của con người, dạng sóng tín hiệu tiếng nói Sau đó đưa ra mô hình hóa toán học cho cơ chế tạo tiếng nói, các nguyên lý phân tích và tổng hợp tiếng nói, đảm bảo chất lượng tín hiệu sau khi được tái tạo đáp ứng cho truyền thông thoại
Trang 119
CHƯƠNG I TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI
1.1 Tín hiệu tiếng nói
Tiếng nói bản chất là một tín hiệu âm thanh được tạo ra từ một bộ máy phát âm Bộ
máy phát âm gồm dây thanh (vocal folds), phần khoảng không ở giữa hai dây thanh
là thanh môn, vị trí nguồn tuần hoàn nằm ở thanh môn, khoang mũi (nasal cavity), khoang miệng (mouth cavity), vòm miệng mềm (soft plate), nắp thanh quản (epiglottis), khí quản (trachea), họng (pharynx)
Sơ đồ khối bộ máy phát âm:
Hình 1.1 Sơ đồ bộ máy phát âm [6]
Tiếng nói được phân biệt với các âm thanh khác bởi đặc tính âm học có nguồn gốc
từ cơ chế tạo tiếng nói Có 2 loại nguồn âm: nguồn tuần hoàn (dây thanh rung), kích thích đầu vào gần như là một dãy xung có chu kỳ, tạo ra các nguyên âm và phụ âm hữu thanh; và nguồn tạp âm (dây thanh không rung), tạo ra các phụ âm vô thanh Chu kỳ dao động của dây thanh gọi là chu kỳ cơ bản T0, tần số cơ bản F0 = 1/T0 Vùng không có tín hiệu tiếng nói là khoảng lặng Trong khoảng lặng, không có cung cấp kích thích nào tới tuyến âm và do đó không có tín hiệu ra Tuy nhiên,
Trang 1210
khoảng lặng là một phần không thể tách rời của tiếng nói Nếu không có sự xuất
hiện của khoảng lặng, bài phát biểu sẽ không dễ để hiểu
Tín hiệu tiếng nói là sóng cơ học nên có các tính chất cơ bản của sóng cơ học Chu
kỳ cao độ (pitch) cũng được tham chiếu như là tần số cơ bản F0 Âm thanh nào phát
ra cũng ở một cao độ nhất định, nếu có bất kỳ sự thay đổi nào của cao độ thì ta dễ dàng nhận ra điều đó
Tín hiệu nguồn kích thích tuyến âm và tuyến âm có tính cộng hưởng Khi qua tuyến
âm có một số tần số được tăng cường lên, tần số được tăng cường gọi là “formant” Các đặc tính quan trọng của tiếng nói:
- Biên độ âm hữu thanh lớn hơn nhiều so với âm vô thanh
- Năng lượng phổ của âm vô thanh chia thành hai miền tần số, năng lượng phổ chủ yếu tập trung ở miền tần số cao và trong mỗi miền thì phổ phân bố khá đều Năng lượng phổ của âm hữu thanh chủ yếu tập trung ở vùng tần số thấp, độ dốc phổ hữu thanh đi xuống khoảng -12 dB/octave
- Tỉ lệ biến thiên qua giá trị 0 của tín hiệu tiếng nói là số lần biến thiên của tín hiệu tiếng nói qua trục 0 trong một đơn vị thời gian, gọi là tỉ lệ biến thiên qua giá trị không Thông thường giá trị này với âm vô thanh lớn hơn nhiều so với âm hữu thanh Do đó, tỉ lệ biến thiên qua điểm 0 là tham số quan trọng để phân biệt âm hữu thanh và vô thanh
- Tính tự tương quan chính là tương quan chéo của tín hiệu với chính nó Nó được tính bằng sự tương quan của chuỗi thời gian được so sánh và những điểm giống nhau giữa giá trị của chính nó trong quá khứ và tương lai, một cách hiểu đơn giản là
so sánh tín hiệu với phiên bản trễ của nó Tính tự tương quan được tiếp cận với mục đích phát hiện cao độ của tiếng nói
Trang 1311
1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông
Mô hình hệ thống truyền thông số
Việc phân tích và thiết kế một hệ thống truyền thông số liên quan đến việc truyền tải thông tin ở dạng số từ nguồn tạo thông tin tới một hoặc nhiều điểm đến
Trong một hệ thống truyền thông số, các thông điệp được tạo ra bởi phía nguồn được biến đổi thành một dãy số nhị phân, loại bỏ các bit dư thừa không cần thiết, giúp giảm băng thông truyền dẫn Quá trình biến đổi tín hiệu nguồn thành dãy số nhị phân đó được gọi là mã hóa nguồn hoặc nén dữ liệu
Hình 1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông
Chuỗi dãy số nhị phân từ bộ mã hóa nguồn là dãy thông tin được chuyển đến bộ mã hóa kênh Mã hóa kênh là quá trình chèn thêm các bit dư vào chuỗi ký tự theo một quy luật nào đó, với mục đích bảo vệ dòng tín hiệu tránh bị nhiễu từ những kênh thông tin khác, các bit thêm vào được bên thu dùng để phát hiện và sửa lỗi xảy ra trên kênh truyền Điều này làm tăng độ tin cậy của tín hiệu nhận được
Chuỗi nhị phân từ bộ mã hóa kênh được chuyển tới bộ điều chế số, nó đóng vai trò như là giao diện của kênh truyền thông Bởi vì gần như tất cả các kênh truyền thông gặp trong thực thế có khả năng truyền tín hiệu điện (dạng sóng), mục đích chính của điều chế số là gán thông tin nhị phân vào một tải tin để truyền đi
Trang 1412
Kênh truyền thông là môi trường vật lý được sử dụng để gửi tín hiệu từ máy phát đến máy thu Trong truyền dẫn không dây, kênh có thể là không khí Mặt khác, các kênh điện thoại thường sử dụng nhiều phương tiện vật lý, bao gồm dây đồng, cáp quang và không dây
Dù phương tiện vật lý được sử dụng cho truyền dẫn thông tin, tín hiệu đươc truyền
có thể bị hỏng một cách ngẫu nhiên bởi một loạt các yếu tố có thể, chẳng hạn như tạp âm nhiệt được tạo ra từ thiết bị điện tử, tiếng ồn do con người tạo ra, …
Ở đầu cuối của hệ thống truyền thông số, bộ giải điều chế thực hiện quá trình tách sóng, là quá trình tách lấy tín hiệu thông tin ra khỏi sóng mang cao tần Dãy số này được chuyển đến bộ giải mã kênh, cố gắng tái tạo dãy thông tin ban đầu từ những
mã bit thêm vào ở phía mã hóa kênh
Bộ giải mã nguồn tiếp nhận dãy đầu ra từ mã hóa kênh và từ phương thức mã hóa nguồn được sử dụng để tái tạo lại tín hiệu ban đầu Bởi vì có lỗi mã hóa kênh và biến dạng có thể từ mã hóa nguồn, tín hiệu đầu ra ở bộ giải mã nguồn là xấp xỉ với tín hiệu ban đầu
Một số điểm chú ý:
- Thuật toán mã hóa nguồn đóng vai trò quan trọng trong tỉ lệ mã hóa cao hay thấp
- Bộ mã hóa kênh thêm vào sự dư thừa trong dữ liệu
- Điều chế đóng vai trò quan trọng trong quyết định tỉ lệ dữ liệu và khả năng hạn chế lỗi gây ra bởi kênh truyền
1.3 Giới thiệu về các dạng mã hóa tiếng nói
Mã hóa và giải mã tiếng nói nhằm loại bỏ sự dư thừa trong biểu điểu tiếng nói với mục đích giảm băng thông truyền tải và không gian lưu trữ, từ đó giảm chi phí Có
ba kỹ thuật nén tiếng nói cơ bản là mã hóa dạng sóng (waveform-based), mã hóa tham số (parametric-based) và mã hóa lai (hybrid coding) [10]
Trang 1513
Các bộ mã hóa tiếng nói có sự khác nhau ở tốc độ bit, độ phức tạp, độ trễ và chất lượng cảm nhận của tiếng nói sau khi tái tạo
Mã hóa dạng sóng được thực hiện ở tốc độ bit cao và cho chất lượng tiếng nói tốt
Mã hóa tham số thực hiện ở tốc độ bit thấp, tạo ra tiếng nói với chất lượng nhân tạo
Mã hóa lai là tổng hợp của phương pháp mã hóa dạng sóng và mã hóa tham số, nó cho chất lượng tiếng nói khá tốt và thực hiện ở tốc độ bit trung bình
Chất lượng tiếng nói được định lượng bằng thông số MOS (Mean Opinion Score)
Hình 1.3 Quan hệ chất lượng và tốc độ các phương pháp mã hóa tiếng nói [6]
Mã hóa dạng sóng, như tên gọi là kỹ thuật mã hóa chủ yếu loại bỏ sự dư thừa trong dạng sóng tiếng nói và tái tạo dạng sóng tiếng nói ở phía giải mã sao cho giống với dạng sóng ban đầu Các kỹ thuật mã hóa dạng sóng thường đơn giản, độ phức tạp thấp và cũng cho tỷ lệ nén ở mức thấp Dải tốc độ bit (bit/s) điển hình của mã hóa dạng sóng từ 64 kb/s đến 16 kb/s Ở tốc độ bit thấp hơn 16 kb/s, lỗi lượng tử hóa cho mã hóa dạng sóng rất lớn, điều này sẽ dẫn đến chất lượng thấp hơn Các codec
Trang 1614
điển hình của mã hóa dạng sóng là Điều chế mã xung PCM (Pulse code modulation)
và Điều chế mã xung vi sai thích nghi ADPCM (Adaptive differential PCM) Mã hóa dạng sóng được áp dụng trong mã hóa tiếng nói cho mạng điện thoại cố định PSTN
Mã hóa tham số là kỹ thuật dựa trên nguyên lý tiếng nói được tạo ra như thế nào, nên kỹ thuật này còn có tên gọi là mã hóa nguồn Nó dựa trên các đặc tính rằng tiếng nói là tĩnh hay hình dạng của tuyến âm là ổn định trong khoảng thời gian ngắn (cỡ 20ms) Trong khoảng thời gian này, một đoạn tiếng nói có thể được chia thành đoạn âm vô thanh hay âm hữu thanh Các đặc tính của tuyến âm có thể được đại diện bởi một bộ lọc số biến đổi theo thời gian (time-varying digital filter) Với mỗi đoạn tiếng nói, các tham số bộ lọc tuyến âm, quyết định âm vô thanh hay hữu thanh,
các tham số chu kỳ cao độ (pith period) và độ tăng ích (gain) sẽ được thu thập thông
qua phân tích tiếng nói ở phía mã hóa Các tham số này sau đó được mã hóa thành luồng bit nhị phân và gửi tới kênh truyền Bộ giải mã ở phía nhận sẽ tái tạo tiếng nói (thực hiện tổng hợp tiếng nói) dựa trên các tham số đã nhận được
So với mã hóa dạng sóng, mã hóa tham số có độ phức tạp cao hơn trong thực hiện
và đạt được tỉ lệ nén tốt hơn Một trong những codec mã hóa dạng tham số điển hình là Mã dự đoán tuyến tính - LPC (Linear Prediction Coding), có tốc độ bit từ 1.2 đến 4.8 kb/s và thường được sử dụng trong hệ thống truyền thông di động không dây với sự giới hạn về băng thông
Vì mã hóa tham số không thể đạt được chất lượng tiếng nói cao khi nó phân loại đơn giản các đoạn tiếng nói thành âm hữu thanh hoặc âm vô thanh, biểu diễn đơn giản tiếng nói hữu thanh với dãy xung tuần hoàn (impulse period train) Mã hóa lai
ra đời là kỹ thuật kết hợp các tính năng của mã hóa dạng sóng và mã hóa tham số
Nó giữ bản chất của của mã hóa tham số bao gồm bộ lọc tuyến âm, phân tích chu kỳ cao độ và quyết định hữu thanh hay vô thanh Thay vì sử dụng một dãy xung tuần
hoàn đơn giản để biểu diễn tín hiệu kích thích cho đoạn tiếng hữu thanh, nó sử dụng
tín hiệu kích thích dạng sóng cho các đoạn âm hữu thanh, vô thanh hoặc chuyển tiếp (bao gồm cả hữu thanh và vô thanh) Nhiều kỹ thuật khác nhau được phát triển để
Trang 1715
biểu diễn tín hiệu kích thích dạng sóng như kích thích đa xung (multi-pulse excitation), kích thích mã (codebook excitation) và lượng tử vectơ Được biết tới nhiều nhất là CELP – Codebook Excitation Linear Prediction, đã tạo ra thành công lớn cho kỹ thuật mã hóa lai ở dải tốc độ bit 4.8 kb/s đến 16 kb/s cho kết nối di động/không dây/vệ tinh, đạt chất lượng MOS trên 3.5
Các tiêu chuẩn nén điển hình được đưa ra bởi các tổ chức, Liên minh Viễn thông
Quốc tế ITU - International Telecommunication Union, Viện Tiêu chuẩn Viễn thông Châu Âu ETSI - European Telecommunication Standards Institute, Hiệp hội Công nghiệp Viễn thông Bắc Mỹ TIA - North America’s Telecommunications
Industry Association
Bảng 1 1 Các tiêu chuẩn mã hóa tiếng nói [7]
Các tiêu chuẩn cho mạng điện thoại cố định – Landline public switched telephone service networks – PSTN, được thiết lập bởi ITU International Telecommunication Union ITU đã ban hành một số tiêu chuẩn mã hóa tiếng nói dạng sóng quan trọng với tốc độ bit cao và với độ trễ rất thấp, gồm G.711 (PCM), G.727 và G.726
(ADPCM), G.728 (LDCELP) [7]
Trang 1816
Các tiêu chuẩn cho mạng điện thoại di động ở Châu Âu được thiết lập bởi ETSI European Telecommunications Standards Institute Các tiêu chuẩn mã hóa tiếng nói ETSI được công bố bởi tiểu ban Global System for Mobile Telecommunications (GSM) Mã tiêu chuẩn đầu tiên cho mạng di động GSM dựa trên tiền thân của CELP được gọi là Kích thích xung đều với dự đoán dài hạn, RPE-LTP (Regular
Pulse Excitation with Long-Term Prediction)
Trong luận văn này, ta sẽ làm rõ mã hóa - giải mã tiếng nói Điều chế mã xung PCM
áp dụng trong mạng điện điện thoại cố định PSTN và Kích thích xung đều - Dự đoán tuyến tính RPE-LTP áp dụng cho điện thoại di động GSM đang được sử dụng tại Việt Nam
Trang 192.1 Mã hóa dạng sóng PCM
Trước hết, ta cần biết lý do tại sao cần phải biến đổi tín hiệu tương tự sang dạng số,
vì tín hiệu số:
- có thế xử lý tự động (bằng máy tính)
- giảm được nhiễu
- cho phép sao lưu nhiều lần mà chất lượng không thay đổi
- các bộ xử lý tín hiệu số DSP khi được chế tạo hàng loạt có chất lượng xử lý đồng nhất và chất lượng xử lý không thay đổi theo thời gian
Vì những lý do trên, xu hướng tất yếu ngày nay là biến đổi tín hiệu tương tự sang tín hiệu số Điều chế mã xung PCM là chuyển đổi tương tự - số nơi thông tin chứa trong các mẫu tức thời của một tín hiệu tương tự được đại diện bởi các từ mã trong một dòng bit nối tiếp
Điều chế mã xung PCM bao gồm 3 bước để số hóa một tín hiệu tương tự:
- Lấy mẫu (Sampling)
- Lượng tử hóa (Quantization)
- Mã hóa nhị phân (Binary encoding)
Trang 2018
Trước khi thực hiện lấy mẫu, tín hiệu được cho qua bộ lọc thông thấp (Low Pass Filter) để giới hạn tần số lớn nhất, loại các thành phần tần số cao để đảm bảo định lý lấy mẫu Shannon
Hình 2.1 Quá trình mã hóa PCM LẤY MẪU
Biên độ của tín hiệu tương tự là liên tục theo thời gian Lấy mẫu là quá trình lấy biên độ của tín hiệu tương tự ở từng khoảng thời gian nhất định Do vậy các mẫu lấy được sẽ gián đoạn theo thời gian Dãy mẫu này gọi là tín hiệu điều biên xung PAM - Pulse Amplitude Modulation Khoảng thời gian nhất định nói trên được gọi
là chu kỳ lấy mẫu Ts, Fs = 1/Ts là tần số lấy mẫu
Hình 2.2 Quá trình lấy mẫu tín hiệu
Trang 21Một yếu tố quan trọng trong lấy mẫu là phía phát lấy mẫu cho tín hiệu tương tự theo tần số nào đó để cho phía thu có thể tái tạo lại được tín hiệu ban đầu Theo định lý Nyquist-Shannon, bằng cách lấy mẫu tín hiệu tương tự theo tần số cao hơn ít nhất hai lần tần số cao nhất của tín hiệu thì có thể tái tạo lại dạng tín hiệu ban đầu từ các mẫu đó
Đối với tín hiệu thoại hoạt động ở băng tần 0.3 - 3.4kHz, tần số lấy mẫu là 8kHz để đáp ứng yêu cầu về chất lượng truyền dẫn, phía thu sẽ khôi phục tín hiệu tương tự
có độ méo trong phạm vi cho phép
LƯỢNG TỬ HÓA
Kết quả quá trình lấy mẫu là một chuỗi các xung với giá trị biên độ khác nhau, các giá trị này nằm trong dải giới hạn bởi một giá trị bé nhất và một giá trị lớn nhất Ta cần ánh xạ các giá trị biên độ với tập hữu hạn các giá trị đã biết Điều này đạt được bằng cách chia khoảng cách giữa giá trị bé nhất và lớn nhất thành q vùng, mỗi vùng
Đó là lượng tử hóa, quá trình làm tròn mỗi giá trị được lấy mẫu tới giá trị gần nhất
Lý do để lấy xấp xỉ điểm giữa là để giảm thiểu tối đa lỗi lượng tử
Trang 2220
Ví dụ:
Giả sử có một tín hiệu điện áp với biên độ: Vmin = -20V, Vmax = +20V
Ta muốn dùng q=8 mức lượng tử Chiều rộng mỗi vùng: ∆ = (20- -20)/8 = 5
Ta có 8 vùng: -20 đến -15, -15 đến -10, -10 đến -5, -5 đến 0, từ 0 đến 5, từ 5 đến 10,
từ 10 đến 15, từ 15 đến 20
Điểm giữa mỗi vùng: -17,5; -12,5; -7,5; -2,5; 2,5; 7,5; 12,5; 17,5
Mỗi một vùng được gán với một mã nhị phân
Số bit được yêu cầu để mã hóa mỗi vùng hay số bit trên mỗi mẫu, v= log2(q)
Với ví dụ này thì số bit được yêu cầu là: v = log2(8) = 3
Các mã nhị phân đại diện cho 8 vùng (8 mức) là: 000, 001, 010, 011, 100, 101, 110,
111
Ánh xạ các mã tới các vùng: 000 sẽ tham chiếu tới vùng -20 đến 15, 001 tham chiếu tới vùng -15 đến -10,
Hình 2.3 Ví dụ quá trình lượng tử hóa
Giả sử mức lượng tử là 16 (24) thì số bit được yêu cầu để đại điện cho mỗi mẫu là 4 bit Nếu mức lượng tử không phải là một lũy thừa 2, ví dụ để phân biệt 10 mức
Trang 2321
lượng tử (23 <10 < 24), 4 bit được yêu cầu Thực thế 4 bit có thể mã hóa cho 16 mức lượng tử, sử dụng 10 mã trên 16 để biểu diễn cho các mẫu
Có hai loại lượng tử hóa:
- Lượng tử hóa đều: bước lượng tử cố định
- Lượng tử hóa không đều: bước lượng tử thay đổi theo biên độ tín hiệu
Lượng tử đều
- Hầu hết biến đổi tương tự - số sử dụng lượng tử đều
- Các mức lượng tử của tượng tử đều là phân chia một cách bằng nhau
- Lượng tử đều là tối ưu cho những tín hiệu có phân bố đều
- Có hai dạng lượng tử đều: dạng đối xứng cắt nửa mức lượng tử (symmetrical type of mid rise quantizer), dạng đối xứng cắt nửa bước lượng tử (symmetrical type
of mid tread quantizer)
Lượng tử đều đối xứng cắt nửa mức lượng tử
Hình 2.4 Lượng tử đều đối xứng cắt nửa mức lượng tử
Trang 2422
Dạng lượng tử đều đối xứng cắt nửa mức lượng tử được mô tả một cách dễ hiểu như hình 2.4 Lưu ý rằng trong dạng đối xứng cắt nửa mức lượng tử, bất kỳ giá trị đầu vào nào giữa 0 và ∆ được ánh xạ tới đầu ra có giá trị ∆/2, bất kỳ đầu vào có giá trị giữa ∆ đến 2∆ được ánh xạ tới đầu ra có giá trị 3∆/2 và cứ tiếp như vậy
Đặc tính cắt nửa mức lượng tử được mong muốn vì tính đối xứng và với vì nó sử dụng 2v mức của v mã bit một cách hiệu quả Điểm bất lợi của cắt nửa mức lượng tử
là nó không thể đại diện cho mức đầu ra bằng 0
Lượng tử đều đối xứng cắt nửa bước lượng tử
Hình 2.5 Lượng tử đều đối xứng cắt nửa bước lượng tử
Dạng lượng tử đều đối xứng cắt nửa bước lượng tử được mô tả như hình 2.5 Lưu ý rằng trong dạng cắt nửa bước lượng tử, bất kỳ giá trị đầu vào giữa -∆/2 đến +∆/2 thì được ánh xạ tới đầu ra có giá trị 0, bất kỳ đầu vào có giá trị giữa +∆/2 tới 3/2∆ được ánh xạ tới đầu ra có giá trị ∆ và cứ tiếp như vậy
Hạn chế của dạng đối xứng cắt nửa bước lượng tử là có số mức lượng tử là một số
lẻ (nếu nó đối xứng) hoặc nó phải không đối xứng qua trục 0 Vì vậy nó không sử dụng hết 2v mức lượng tử của v bit mã một cách hiệu quả
Trang 2523
Minh họa quá trình lượng tử hóa của một tín hiệu tương tự và nhiễu
Hình 2.6 Minh họa tín hiệu tương tự, lượng tử và nhiễu
2 Méo gây ra bởi lượng tử hóa
- Quá tải hoặc bóp méo
Méo quá tải xảy ra khi tín hiệu đầu vào vượt quá ngưỡng đầu vào của bộ lượng tử, đầu ra sẽ duy trì ở mức giá trị lớn nhất (hoặc bé nhất) cho đến khi tín hiệu vào rơi vào dải đầu vào của bộ lượng tử Méo quá tải tạo ra một tín hiệu bị cắt xén Để tránh bị cắt xén, bộ lượng tử cần được ánh xạ với tín hiệu đầu vào
Trang 2624
- Méo lượng tử
Hình 2.7 mô tả nhiễu sinh ra bởi quá trình lượng tử hóa Ta có thể thấy rằng nhiễu lượng tử xảy ra khi tín hiệu đầu vào nằm trong dài đầu vào của bộ lượng tử Nó sinh
ra bởi sự khác nhau giữa biên độ đầu vào với biên độ mẫu được lượng tử hóa và bởi
sự giới hạn của tần số lấy mẫu Tín hiệu sai khác tạo ra nhiễu lượng tử hoặc méo trong tín hiệu được tái tạo Phổ tần số của nó bao gồm dải thông lớn Bộ lọc thông thấp được sử dụng để làm trơn dạng sóng, sẽ loại bỏ phần lớn lỗi lượng tử ở trên miền tần số của nó Tuy nhiên, một số nhiễu lượng tử lại ở trong dải tín hiệu và không thể loại bỏ bằng bộ lọc thông thấp Điều này tạo ra âm "gằn" ở đầu ra của hệ
thống PCM, gọi là nhiễu lượng tử
Hình 2.7 Đặc tính nhiễu lượng tử
Nhiễu lượng tử là kết quả của quá trình lượng tử hóa Vì quá trình lượng tử điều
chỉnh biên độ của mỗi mẫu, nên dạng sóng ban đầu không thể được tái tạo lại một cách hoàn toàn chính xác khi sử dụng một bộ lọc thông thấp như trường hợp với tín hiệu PAM và định lý lấy mẫu cổ điển Tần số lấy mẫu cũng ảnh hưởng đến nhiễu lượng tử, lỗi lượng tử sẽ trở nên lớn hơn khi tần số lấy mẫu giảm
Hình 2.8 cho thấy một tín hiệu tương tự ở đầu vào và dạng sóng được lượng tử hóa của nó Phần dưới chỉ ra kết quả nhiễu lượng tử Biên độ cực đại của nhiễu là 1/2 khoảng lượng tử Trong một khoảng thời gian nhỏ, tín hiệu lỗi xuất hiện dạng sóng răng cưa
Trang 2725
Hình 2.8 Sóng tín hiệu tương tự, lượng tử và nhiễu
Lỗi lượng tử là do sử dụng mã hóa nén để số hóa tín hiệu tiếng nói Mã hóa nén cho phép tỉ lệ tín hiệu trên nhiễu SNqR (signal-to-quantization-noise ratio) cao hơn mã hóa tuyến tính Tỉ lệ này được xác định với S là mức tín hiệu tiếng nói, Nq là nhiễu gây ra bởi nhiễu lượng tử Một cách rõ ràng, giữ cho nhiễu lượng tử bé tức là làm cho tỉ lệ SNqR cao Khi biên độ tín hiệu nhỏ hơn, Nq phải nhỏ để giữ cho SNqR không giảm Nén tín hiệu sẽ đáp ứng yêu cầu này bằng cách giảm độ lớn nhiễu lượng tử của các tín hiệu có biên độ thấp hơn
Lượng tử không đều
Với lượng tử không đều, kích thước mỗi bước lượng tử sẽ không được cố định trên toàn bộ dải đầu vào mà giá trị của nó phụ thuộc vào tín hiệu đầu vào Ví dụ, kích thước bước lượng tử sẽ giảm với mức biên độ thấp và tăng với mức biên độ cao
Trang 2826
Hình 2.9 Lượng tử không đều với 8 mức
Điểm quan trọng của lượng tử không đều:
Các tín hiệu tiếng nói có biên độ gần bằng 0 nhiều hơn là ở các biên độ lớn Các tín hiệu với giá trị biên độ thấp hơn sẽ ảnh hưởng nhiều hơn tới nhiễu lượng tử cũng như dải nhiễu: ∆/2, được cố định cho tất cả các mức tín hiệu
Lượng tử không đều được sử dụng để giải quyết vấn đề này Mục đích là để cho tỉ
lệ SNqR cố định cho tất cả các giá trị mẫu
Có hai cách tiếp cận cho Lượng tử không đều:
Tiếp cận trực tiếp
Các mức lượng tử sẽ theo một đường cong logarit ∆ bé hơn ứng với biên độ bé hơn
và ∆ lớn hơn ứng với biên độ cao hơn Nhưng xử lý cách này với thay đổi của ∆ một cách trực tiếp là rất khó khăn
Tiếp cận gián tiếp
Lượng tử không tuyến tính có để đạt được bằng cách: đầu tiên truyền các giá trị mẫu tới một bộ nén, sau đó đưa tới bộ lượng tử hóa đều Luật nén được áp dụng trong điều chế mã xung tín hiệu điện thoại là luật logarit Kỹ thuật này sẽ làm tăng các biên độ gần mức 0 Để bù lại ảnh hưởng nén xảy ra ở phía gửi, giá trị các mẫu được truyền qua một bộ giải nén ở phía thu
Trang 2927
Quá trình nén, lượng tử đều, giải nén trong cách tiếp cận gián tiếp được mô tả như hình 2.10
Hình 2.10 Lượng tử không đều với cách tiếp cận gián tiếp
Có hai luật nén logarit áp dụng cho tín hiệu điện thoại là luật A và luật Mu:
- Luật Mu được sử dụng ở Bắc Mỹ, Nhật Bản
- Luật A được sử dụng ở châu Âu và những nơi còn lại
Hai tiêu chuẩn nén luật A và luật Mu sẽ được nói rõ hơn ở mục 2.2
MÃ HÓA NHỊ PHÂN
Thuật toán nén áp dụng cho hai hệ thống Mỹ và châu Âu dựa trên việc xấp xỉ các đường cong đặc trưng nén tương tự tương ứng với hai chuẩn Mu và A Với hệ Mỹ, đường cong đặc trưng được xấp xỉ bằng 15 đoạn thẳng (bao gồm 7 đoạn dương, 7 đoạn âm và một đoạn qua gốc) Với hệ châu Âu, được xấp xỉ bởi 13 đoạn thẳng (gồm 6 đoạn dương, 6 đoạn âm và một đoạn qua gốc được chia thành 4 phân đoạn) Các giá trị mức lượng tử ứng với các xung PAM được mã hóa bằng các tổ hợp mã nhị phân để truyền đi trên hệ thống truyền dẫn số Việc mã hóa nhị phân được thực hiện bằng các tổ hợp 8 bit đối với cả hệ Mỹ và châu Âu, có dạng PXYZABCD Trong đó, bit P chỉ thị cực tính giá trị lượng tử của mẫu tín hiệu: P=1 với tín hiệu dương và P=0 với giá trị âm Ba bit XYZ dùng để mã các đoạn thẳng (phân đoạn)
Trang 3028
làm gần đúng tuyến tính với các luật nén (A hay Mu), bốn bit ABCD dùng để mã 16 mức lượng tử đều trong từng đoạn
Hình 2.11 Đặc tuyến xấp xỉ tuyến tính luật A – 13 đoạn
2.2 Nén và giải nén luật A/Mu trong PCM
Nén và giải nén (Companding) đề cấp đến quá trình mà đầu tiên tín hiệu đầu vào trước tiên sẽ được nén lại (Compressing), sau đó thực hiện giải nén (Expanding) tín hiệu trở lại kích thước ban đầu khi nó được truyền tới đích
Trong quá trình nén, các mẫu tín hiệu tương tự đầu vào được nén vào các phân đoạn logarit Mỗi đoạn sau đó được lượng tử và mã hóa sử dụng lượng tử đều Quá trình nén logarit, tỉ lệ nén tăng lên khi biên độ mẫu tín hiệu tăng lên, hay nói cách khác, mẫu tín hiệu có biên độ lớn hơn sẽ được nén nhiều hơn so với các mẫu tín hiệu có biên độ nhỏ hơn, các mẫu tín hiệu có biên độ nhỏ hơn sẽ được hưởng mức lượng tử
bé Điều này giúp giữ tỉ lệ SNqR không thay đổi với các giá trị biên độ mẫu khác nhau Hình 2.12, thể hiện đặc tính nén logarit
Trang 3230
x = Vµ(e|y| log(1+µ)V − 1)sgn(y)
Trong đó, µ là tham số nén của luật Mu, V là cực đại của tín hiệu x, log là logarit tự nhiên, sgn là hàm dấu Thông thường, giá trị phổ biến của µ là 255
Đường cong nén luật A và luật Mu:
Hình 2.13 Tương quan tín hiệu nén và giải nén luật A
Hình 2 14 Tương quan tín hiệu nén và giải nén luật Mu
Giống nhau giữa luật A và luật Mu:
- Cả hai đều là xấp xỉ tuyến tính của quan hệ đầu vào/đầu ra logarit
- Cả hai đểu sử dụng 8 mã bit (256 mức, cho mỗi khoảng lượng tử)
- 8 bit cho tốc độ bit 64 kbps (8 kHz x 8 bits = 64 kbps)
(2.2b)
Trang 3331
Khác nhau giữa luật A và luật Mu:
- Xấp xỉ tuyến tính khác nhau dẫn dến độ dài và độ dốc khác nhau
- Luật A cung cấp dải động lớn hơn luật Mu
- Luật Mu đạt hiệu suất tín hiệu/nhiễu với tín hiệu biên độ thấp tốt hơn luật A
- Luật A yêu cầu 13 bit cho một PCM đều tương đương, luật Mu yêu cầu 14 bit cho một PCM đều tương đương
2.3 Đánh giá tín hiệu PCM
Ưu điểm của PCM:
- Cho tín hiệu thoại có chất lượng cao, tốc độ bit cao và độ trễ thấp
- Mạch điện số tương đối rẻ tiền nên có thể sử dụng một cách rộng rãi
- Tín hiệu PCM sinh ra từ tất các loại nguồn tương tự có thể được sát nhập với tín hiệu dữ liệu và được truyền qua một hệ thống truyền thông số tốc độ cao
- Hiệu suất tiếng ồn của hệ thống số được cải thiện vượt trội so với hệ thống tương tự
- Xác suất lỗi của đầu ra hệ thống có thể được giảm thiểu hơn nữa bằng cách sử dụng các kỹ thuật mã hóa thích hợp
Trang 3432
CHƯƠNG III MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG MẠNG ĐIỆN THOẠI DI ĐỘNG
3.1 Phương pháp mã hóa và giải mã tiếng nói trong mạng di động
Như đã đề cập phạm vi nghiên cứu của đề tài, ở chương này ta sẽ làm rõ phương pháp mã hóa lai RPE-LTP áp dụng cho mạng điện thoại di động GSM
Việc lựa chọn bộ mã hóa và giải mã tiếng nói thích hợp nhất cho hệ thống GSM đã được dựa trên tập các bộ đề xuất, được thử nghiệm một cách rõ ràng, rộng rãi với các ngôn ngữ khác nhau, trong các điều kiện hoạt động khác nhau, đảm bảo khắt khe các yêu cầu về chất lượng tiếng nói, lỗi kênh, độ trễ cũng như độ phức tạp của phương pháp Ban đầu, hơn 20 đề xuất từ 9 quốc gia Châu Âu đươc đưa ra Trước khi chính thức thử nghiệm, con số này được giảm xuống còn 6
Đánh giá sơ bộ được đưa ra dựa vào các so sánh thử nghiệm của các bộ mã hóa và giải mã đó với bộ mã hóa và giải mã đang được sử dụng trong hệ thống FM vào thời điểm lúc bấy giờ Kết quả là 2 trong số các codec bị loại bỏ, còn lại 4 codec: 2
mã hóa kích thích xung và 2 mã hóa phân giải 4 codec nêu ra sau đây sẽ được đánh giá và đưa ra lựa chọn cuối cùng
RPE-LTP : Regular Pulse Excitation – Long Term Prediction – Linear Predictive Coder (Bộ mã Kích thích xung đều – Dự đoán dài hạn – Dự đoán
tuyến tính) – được đề xuất bởi nước Đức (Philips)
MPE-LTP : Multipule Excitation – Long Term Prediction (Kích thích đa
xung – Dự đoán dài hạn) – được đề xuất bởi nước Pháp (IBM) Việc thực thi bộ
mã hóa và giải mã tiếng nói này được sử dụng trong thử nghiệm so sánh đòi hỏi tốc độ bit truyền dẫn 13,2 kbps và mã sửa lỗi hướng tiến FEC (Forward Error Correction) được nhúng vào đó với tốc độ 2,8 kbps nữa để bảo vệ các bit quan trọng nhất của bộ mã hóa và giải mã tiếng nói, như vậy tốc độ bit tổng là 16 kbps
Trang 3533
SBC–APCM : Subband coding – Adaptive Pulse Code Modulation (Mã hóa
phân giải – Điều chế mã xung thích nghi) – được đề xuất bởi nước Thủy Điển (Ellemtel) Là codec mã hóa phân giải băng con với PCM thích nghi theo khối
Codec này sử dụng các bộ lọc gương cầu phương QMF – Quadrature Mirror Filter để phân tách tín hiệu đầu vào thành 16 băng con rộng 250 Hz, hai băng
cao nhất trong số đó không được truyền đi Ấn định bit thích nghi đã được sử dụng trong các băng con trên cơ sở tỷ lệ công suất của một loạt băng cấu thành thông tin biên cần truyền đi Tốc độ truyền dẫn tổng cộng của các tín hiệu băng con là 10 kbps, thông tin biên là 3 kbps mà chúng được bảo vệ bởi 3 kbps của
mã sửa lỗi hướng tiến FEC, như vậy tốc độ bit tổng cộng là 16 kbps
SBC–ADPCM : Subband coding – Adaptive Differential Pulse Code Modulation (Mã hóa phân giải – Điều chế mã xung vi sai thích nghi) – được đề
xuất bởi nước Anh ( British Telecom Research) Là codec mã hóa băng con với PCM delta thích nghi Tín hiệu tiếng nói đầu vào đã được chia thành 8 băng con trong số đó chỉ có 6 băng con được truyền đi Việc phân bổ bit của các băng con được cố định, vì thế không có thông tin biên được truyền, nhờ đó làm cho hệ thống thích nghi với nhiễu tốt hơn và không cần mã FEC Tốc độ bit của codec này chi là 15 kbps
Các kiểm tra để đánh giá và lựa chọn cuối cùng được thử nghiệm trên 7 ngôn ngữ, 3 cấp độ đầu vào khác nhau (12 dB, 22 dB, 32 dB), ảnh hưởng của tỷ lệ lỗi bit (0, 1:1000, 1:100), truyền mã và 2 dạng của tiếng ồn môi trường Kết quả đánh giá thu được chỉ ra tính vượt trội của phương pháp RPE–LTP, đáp ứng phù hợp cho hệ thống GSM [1]
Trong mã hóa RPE-LTP, một ánh xạ giữa các khối đầu vào của 160 mẫu tín hiệu tiếng nói dạng PCM đều 13 bit tới các khối đã được mã hóa 260 bit và từ các khối
đã được mã hóa đó tới các khối đầu ra của 160 mẫu tín hiệu tiếng nói được tái tạo Tần số lấy mẫu tín hiệu đầu vào là 8000 Hz dẫn tới tốc độ bit trung bình cho luồng bit được mã hóa là 13 kbit/s (260 bit* 8000 Hz/ 160 mẫu)
Trang 36LPC là một trong những kỹ thuật phân tích tiếng nói mạnh mẽ nhất và là một phương thức hiệu quả cho mã hóa tiếng nói chất lượng tốt ở tốc độ bit thấp Nó cung cấp chính xác các ước lượng các thông số tiếng nói và tương đối hiệu quả trong thực hiện tính toán
LPC giả định rằng tính hiệu tiếng nói được tạo ra bởi kích thích đầu vào một ống hình trụ Thanh môn (phần khoảng không ở giữa hai dây thanh) tạo ra âm thanh
kích thích, được đặc trưng bởi cường độ và tần số Tuyến âm (cổ họng và miệng) có
dạng ống và có tính cộng hưởng, khi qua truyến âm có một số tần số được tăng cường lên, gọi là các formant
LPC phân tích tiếng nói bằng cách ước lượng các formant, loại bỏ hiểu ứng của chúng từ tín hiệu tiếng nói Quá trình loại bỏ các formant gọi là lọc đảo và tín hiệu còn lại gọi là tín hiệu thặng dư Tín hiệu thặng dư và formant là hai phần của tiếng nói mã hóa LPC
Mô hình toán học tạo tiếng nói được mô tả ở hình 3.2 Tùy thuộc là âm hữu thanh hay vô thanh mà tín hiệu kích thích tiếng nói x(n) sẽ chuyển đổi giữa dãy xung tuần hoàn (kiểm soát bởi chu kỳ cao độ pitch cho âm hữu thanh) hay nhiễu ngẫu nhiên (cho âm vô thanh) Tín hiệu kích thích đó được khuếch đại bởi độ tăng ích G (năng lượng của tín hiệu) và sau đó được gửi tới bộ lọc LPC Bộ lọc tuyến tính LPC dựa
RPE-LTP encoder
RPE-LTP decoder
Trang 37Hình 3 2 Mô hình tạo tiếng nói LPC [10]
Các thông số của mô hình bộ lọc toàn điểm cực được xác định từ các mẫu tín hiệu tiếng nói sử dụng dự đoán tuyến tính Đầu ra của bộ lọc dự đoán tuyến tính là:
ŝ(n) = − ∑ ap(j)s(n − j)
p
j=1
Sai số tiên đoán: e(n) = s(n) - ŝ(n)
Trong miền thời gian, tín hiệu tiếng nói được tạo ra s(n) từ phương trình (iv) Nhận
thấy, tín hiệu tiếng nói s(n) có thể được dự đoán từ ∑ của các mẫu tín hiệu tiếng nói quá khứ s(n-j), hoặc từ sự kết hợp giữa các mẫu quá khứ (nên có tên là Mã dự đoán
tuyến tính), tín hiệu kích thích x(n) và độ tăng ích G Phương trình (iv), biểu diễn
khái quát mô hình LPC gồm hai thành phần chính: phần kích thích tuyến âm và bộ lọc LPC
Trang 3836
LPC tổng hợp tín hiệu tiếng nói bằng xử lý ngược: sử dụng tín hiệu thặng dư để tạo
ra một tín hiệu nguồn, sử dụng các formant để tạo ra một bộ lọc đảo (đại diện cho tuyến âm), sau đó cho tín hiệu nguồn qua bộ lọc đảo, kết quả cho ra tiếng nói
Bởi vì tín hiệu tiếng nói thay đổi theo thời gian, quá trình phân tích sẽ được thực hiện trên các đoạn ngắn của tín hiệu tiếng nói, được gọi là các khung Thường 30 -
50 khung trong một giây (33 tới 20 ms trên một khung) kết quả cho ra tiếng nói và
tỉ lệ nén tốt
Hình 3 3 Tín hiệu tiếng nói gốc, bộ lọc LPC, tín hiệu thặng dư LPC [10]
Bộ lọc LPC chỉ có thể loại bỏ tương quan ngắn hạn giữa các mẫu, không loại bỏ được tương quan dài hạn Phổ của tín hiệu thặng dư có được từ bộ lọc LPC là phẳng hơn (với các formant đã được loại bỏ) Tuy nhiên, tần số cao độ (pitch frequency)
và các tần số hài của nó vẫn còn và cần được loại bỏ bởi bộ lọc cao độ (Pitch filter), gọi là bộ lọc dự đoán dài hạn LTP
Bộ lọc Dự đoán dài hạn LTP (Long-term Prediction) mô phỏng các hài của tiếng nói sử dụng sự kết hợp giữa khung tiếng nói hiện tại và quá khứ Các thông số độ
Trang 39Quá trình tạo Kích thích xung đều RPE (Regular Pulse Excitation) bao gồm việc giảm 40 mẫu thặng dư dài hạn xuống 4 bộ dãy con 13 bit thông qua việc kết hợp của đan xen và trích mẫu Chuỗi con tối ưu được xác định năng lượng lớn nhất và được mã hóa sử dụng APCM thành 45 bit
Tóm lại, phân tích ngắn hạn LPC để xác định các hệ số bộ lọc tuyến âm (các hệ số
bộ lọc đảo), liên quan đến formant của tín hiệu tiếng nói Phân tích dài hạn LTP liên quan đến cao độ pitch của tiếng nói (thanh điệu, ngữ điệu) Và quá trình tạo RPE là
để xác định nguồn âm (nguồn âm kích thích cho tuyến âm)
Hình 3 4 Quá trình xử lý của bộ mã RPE-LTP
Trang 4038
3.2.1 Nguyên lý bộ mã hóa RPE-LTP
Sơ đồ khối đơn giản của bộ mã hóa RPE – LTP được thể hiện ở hình 3.5 Trong sơ
đồ này chức năng mã hóa và lượng tử chưa được chỉ ra rõ ràng
Hình 3 5 Sơ đồ khối đơn giản của bộ mã hóa RPE-LTP [4]
Khung tiếng nói đầu vào, gồm 160 mẫu tín hiệu (các mẫu PCM đều 13 bit), đầu tiên
được tiền xử lý để tạo ra một tín hiệu không khoảng trống (offset-free), tiếp sau đó
được đưa tới bộ lọc hiệu chỉnh (pre-emphasis filter) 160 mẫu thu được sẽ được
phân tích để xác định các hệ số cho bộ lọc phân tích ngắn hạn (short term analysis filter) (Phân tích LPC) Các thông số thu được sẽ dùng cho quá trình lọc phân tích ngắn hạn 160 mẫu Kết quả sau khi thực hiện phân tích đó là 160 mẫu tín hiệu dư
ngắn hạn (1) (short term residual signal) Các thông số bộ lọc phân tích ngắn hạn được gọi là các hệ số phản xạ (reflection coefficient), sẽ được biến đổi thành các tỉ
số log tiết diện (log area ratios), LARs, trước khi truyền đi
Đối với các bước thực hiện sau đó, khung tiếng nói được chia thành 4 khung nhỏ (sub-frame), với mỗi sub-frame là 40 mẫu của tín hiệu dư ngắn hạn (1) Mỗi một sub-frame sẽ được xử lý bởi dãy các khâu chức năng tiếp theo