1. Trang chủ
  2. » Luận Văn - Báo Cáo

Mã hóa và giải mã tín hiệu tiếng nói trong mạng điện thoại cố định và di động

98 20 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 98
Dung lượng 2,74 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu Để truyền dẫn trong mạng điện thoại cố định và di động một cách hiệu quả, tín hiệu tiếng nói cần được mã hóa, đảm bảo cân

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 3

SĐH.QT9.BM11

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Họ và tên tác giả luận văn : Phan Quốc Thắng

Đề tài luận văn: Mã hóa và giải mã tín hiệu tiếng nói trong mạng điện thoại

Trang 4

2

MỤC LỤC……… 2

Danh mục các ký hiệu, các chữ viết tắt 3

Danh mục các bảng 4

Danh mục các hình vẽ, đồ thị 5

MỞ ĐẦU……….7

CHƯƠNG I TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 9

1.1 Tín hiệu tiếng nói 9

1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông 11

1.3 Giới thiệu về các dạng mã hóa tiếng nói 12

CHƯƠNG II MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG MẠNG ĐIỆN THOẠI CỐ ĐỊNH 17 2.1 Mã hóa dạng sóng PCM 17

2.2 Nén và giải nén luật A/Mu trong PCM 28

2.3 Đánh giá tín hiệu PCM 31

CHƯƠNG III MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG MẠNG ĐIỆN THOẠI DI ĐỘNG 32 3.1 Phương pháp mã hóa và giải mã tiếng nói trong mạng di động 32

3.2 Nguyên lý bộ mã hóa và giải mã RPE-LTP 34

3.2.1 Nguyên lý bộ mã hóa RPE-LTP 38

3.2.2 Nguyên lý bộ giải mã RPE-LTP 40

3.2.3 Các dãy thông số quan trọng của bộ mã RPE-LTP 40

3.3 Chi tiết chức năng bộ mã hóa và giải mã tiếng nói RPE-LTP 42

3.3.1 Chi tiết các chức năng của bộ mã hóa RPE-LTP 42

3.3.2 Chi tiết các chức năng của bộ giải mã RPE-LTP 55

CHƯƠNG IV XÂY DỰNG CHƯƠNG TRÌNH MÔ PHỎNG 59

4.1 Mô phỏng mã hóa và giải mã tiếng nói trong mạng điện thoại cố định 59

4.2 Mô phỏng mã hóa và giải mã tiếng nói trong mạng điện thoại di động 63

4.2.1 Thực hiện tính toán bộ mã hóa RPE – LTP 66

4.2.2 Thực hiện tính toán bộ giải mã RPE – LTP 83

4.2.3 Các bảng được dùng trong quá trình tính toán 87

4.2.4 Kết quả chương trình mô phỏng mã RPE-LTP 89

KẾT LUẬN.……… 95

Tài liệu tham khảo 96

Trang 5

3

Danh mục các ký hiệu, các chữ viết tắt

ADPCM Adaptive Differential PCM Điều chế mã xung vi sai thích

nghi CELP Codebook Excitation Linear Prediction Dự đoán tuyến tính kích thích

mã DSP Digital Signal Processor Bộ xử lý tín hiệu số

ETSI European Telecommunication

ITU International Telecommunication

Union

Liên minh Viễn thông Quốc tế

LPC Linear Predictive Coding Mã dự đoán tuyến tính

MOS Mean Opinion Score Điểm số đánh giá trung bình PAM Pulse Amplitude Modulation Tín hiệu điều biên xung

PSTN Public Switched Telephone Network Mạng điện thoại chuyển mạch

công cộng RPE Regular Pulse Excitation Kích thích xung đều

SNqR Signal-to-quantization-noise ratio Tỉ lệ tín hiệu trên nhiễu

TIA Telecommunications Industry

Association

Hiệp hội Công nghiệp Viễn thông

Trang 6

4

Danh mục các bảng

Bảng 1 1 Các tiêu chuẩn mã hóa tiếng nói 15

Bảng 3 1 Các thông số đầu ra bộ mã hóa theo thứ tự xuất hiện và bit cấp phát trong khung tiếng nói 260 bits/ 20 ms 41

Bảng 3 2 Lượng tử hóa LAR(i) 47

Bảng 3 3 Nội suy các thông số LAR 48

Bảng 3 4 Bảng lượng tử hóa cho hệ số tăng ích LTP b 51

Bảng 3 5 Đáp ứng xung của bộ “block filter” (lọc trọng số) 53

Bảng 3 6 Lượng tử hóa khối lớn nhất xmax 54

Bảng 3 7 Lượng tử hóa các mẫu RPE đã chuẩn hóa 55

Bảng 4 1 Lượng tử hóa tỉ số log tiết diên – LAR 87

Bảng 4 2 1/A[1…8] 87

Bảng 4 3 a Mức quyết định của bộ lượng tử hóa hệ số tăng ích LTP - bc 87

Bảng 4 3 b Mức lượng tử của bộ lượng tử hóa hệ số tăng ích LTP – bc………….87

Bảng 4 4 Các hệ số của bộ lọc trọng số 88

Bảng 4 5 Nghịch đảo cơ số được chuẩn hóa sử dụng tính xM/xmax 88

Bảng 4 6 Cơ số được chuẩn hóa dùng để tính xM/xmax 88

Trang 7

5

Danh mục các hình vẽ, đồ thị

Hình 1.1 Sơ đồ bộ máy phát âm 9

Hình 1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông 11

Hình 1.3 Quan hệ chất lượng và tốc độ các phương pháp mã hóa tiếng nói 13

Hình 2.1 Quá trình mã hóa PCM 18

Hình 2.2 Quá trình lấy mẫu tín hiệu 18

Hình 2.3 Ví dụ quá trình lượng tử hóa 20

Hình 2.4 Lượng tử đều đối xứng cắt nửa mức lượng tử 21

Hình 2.5 Lượng tử đều đối xứng cắt nửa bước lượng tử 22

Hình 2.6 Minh họa tín hiệu tương tự, lượng tử và nhiễu 23

Hình 2.7 Đặc tính nhiễu lượng tử 24

Hình 2.8 Sóng tín hiệu tương tự, lượng tử và nhiễu 25

Hình 2.9 Lượng tử không đều với 8 mức 26

Hình 2.10 Lượng tử không đều với cách tiếp cận gián tiếp 27

Hình 2.11 Đặc tuyến xấp xỉ tuyến tính luật A – 13 đoạn 28

Hình 2.12 Đặc tính nén logarit 29

Hình 2.13 Tương quan tín hiệu nén và giải nén luật A 30

Hình 2 14 Tương quan tín hiệu nén và giải nén luật Mu 30

Hình 3 1 Mô tả tín hiệu vào ra bộ mã hóa RPE-LTP 34

Hình 3 2 Mô hình tạo tiếng nói LPC 35

Hình 3 3 Tín hiệu tiếng nói gốc, bộ lọc LPC, tín hiệu thặng dư LPC 36

Hình 3 4 Quá trình xử lý của bộ mã RPE-LTP 37

Hình 3 5 Sơ đồ khối đơn giản của bộ mã hóa RPE-LTP 38

Hình 3 6 Sồ đồ khối đơn giản của bộ giải mã RPE-LTP 40

Hình 3 7 Sơ đồ khối bộ mã hóa RPE-LTP 44

Trang 8

6

Hình 3 8 Phân tích LPC sử dụng đệ quy Schur 46

Hình 3 9 Bộ lọc phân tích ngắn hạn 49

Hình 3 10 Sơ đồ khối bộ giải mã RPE-LTP 56

Hình 3 11 Bộ lọc tổng hợp ngắn hạn 57

Hình 4 1 Sơ đồ khối chương trình mô phỏng PCM trong mạng PSTN 59

Hình 4 2 Giao diện chính mô phỏng nén luật A/Mu 62

Hình 4 3 Kết quả khi thực hiện nén và giải nén luật Mu 62

Hình 4 4 Sơ đồ khối chương trình mô phỏng RPE-LTP trong mạng GSM 63

Hình 4 5 Giao diện chính chương trình mô phỏng RPE-LTP 89

Hình 4 6 Giao diện quan sát quá trình mã hóa RPE-LTP 90

Hình 4 7 Giao diện quan sát quá trình giải mã RPE-LTP 90

Hình 4 8 Kết quả mở một file tiếng nói 91

Hình 4 9 Kết quả thực hiện mã hóa và giải mã 92

Hình 4 10 Xét một khung quan sát xử lý 92

Hình 4 11 Khung tiếng nói đầu vào s0 được chọn mã hóa 93

Hình 4 12 Tín hiệu dư ngắn hạn d và ước lượng d” phía mã hóa 93

Hình 4 13 Tín hiệu dư dài hạn e sau khi qua bộ lọc trọng số phía mã hóa 94

Hình 4 14 Tín hiệu dư dài hạn e sau thu được khi giải mã RPE 94

Trang 9

Mã hóa tiếng nói là một trong những yếu tố thiết yếu trong viễn thông nói riêng và truyền thông đa phương tiện nói chung Nó chính là nền tảng cho hoạt động của hai mạng được phát triển đáp ứng giao tiếp thoại mà ta đang sử dụng hàng ngày: mạng điện thoại cố định và di động Để hiểu rõ bản chất và phương pháp mã hóa tiếng nói thích hợp được áp dụng cho giao tiếp qua mạng điện thoại cố định và di động, tôi đã

thực hiện đề tài: Mã hóa và giải mã tiếng nói trong mạng điện thoại cố định và di

động

Mục đích nghiên cứu của luận văn, đối tượng, phạm vi nghiên cứu

Để truyền dẫn trong mạng điện thoại cố định và di động một cách hiệu quả, tín hiệu tiếng nói cần được mã hóa, đảm bảo cân bằng giữa chất lượng của tiếng nói sau khi được tái tạo và sự giới hạn nhất định về băng thông đường truyền Mã hóa tiếng nói

là một bài toán với nhiều các câu hỏi: mã hóa tiếng nói dựa trên nguyên lý nào, sự nén của tín hiệu đạt được bằng cách nào, tính tự nhiên của tiếng nói sau khi được tái tạo có được đảm bảo, nhiễu trong quá trình mã hóa giải quyết ra sao Đề tài này sẽ giúp ta trả lời những câu hỏi đó

Hiện tại, điện thoại cố định và di động vẫn đang được sử dụng một cách phổ biến Bên cạnh đó, cùng với sự phát triển của công nghệ, nhiều phương thức để truyền dẫn tiếng nói ra đời, ví dụ như truyền tiếng nói qua giao thức IP - VoIP (Voice over Internet Protocol), truyền tiếng nói qua Wifi - VoWiFi (Voice over Wi-Fi) Cơ sở của các tiêu chuẩn mã hóa tiếng nói áp dụng cho những công nghệ mới này được kế

Trang 10

Tóm tắt cô đọng các luận điểm cơ bản và đóng góp mới của tác giả

Luận văn đạt được một số điểm cơ bản và đóng góp như sau:

- Giới thiệu khái quát, đưa ra cái nhìn tổng quan về các kỹ thuật mã hóa và giải

mã tiếng nói: mã hóa dạng sóng, mã hóa nguồn, mã hóa lai

- Làm rõ nguyên lý, đặc trưng của phương pháp mã hóa và giải mã tiếng nói áp dụng trong mạng điện thoại cố định và di động: mã hóa dạng sóng PCM cho mạng điện thoại cố định PSTN, mã hóa dạng lai RPE-LTP cho mạng điện thoại di động GSM

- Xây dựng thành công chương trình mô phỏng thể hiện quá trình mã hóa và giải

mã tiếng nói của phương pháp PCM và RPE-LTP

Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn dựa trên những đặc tính tự nhiên của tiếng nói, cấu tạo bộ máy phát âm của con người, dạng sóng tín hiệu tiếng nói Sau đó đưa ra mô hình hóa toán học cho cơ chế tạo tiếng nói, các nguyên lý phân tích và tổng hợp tiếng nói, đảm bảo chất lượng tín hiệu sau khi được tái tạo đáp ứng cho truyền thông thoại

Trang 11

9

CHƯƠNG I TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1 Tín hiệu tiếng nói

Tiếng nói bản chất là một tín hiệu âm thanh được tạo ra từ một bộ máy phát âm Bộ

máy phát âm gồm dây thanh (vocal folds), phần khoảng không ở giữa hai dây thanh

là thanh môn, vị trí nguồn tuần hoàn nằm ở thanh môn, khoang mũi (nasal cavity), khoang miệng (mouth cavity), vòm miệng mềm (soft plate), nắp thanh quản (epiglottis), khí quản (trachea), họng (pharynx)

Sơ đồ khối bộ máy phát âm:

Hình 1.1 Sơ đồ bộ máy phát âm [6]

Tiếng nói được phân biệt với các âm thanh khác bởi đặc tính âm học có nguồn gốc

từ cơ chế tạo tiếng nói Có 2 loại nguồn âm: nguồn tuần hoàn (dây thanh rung), kích thích đầu vào gần như là một dãy xung có chu kỳ, tạo ra các nguyên âm và phụ âm hữu thanh; và nguồn tạp âm (dây thanh không rung), tạo ra các phụ âm vô thanh Chu kỳ dao động của dây thanh gọi là chu kỳ cơ bản T0, tần số cơ bản F0 = 1/T0 Vùng không có tín hiệu tiếng nói là khoảng lặng Trong khoảng lặng, không có cung cấp kích thích nào tới tuyến âm và do đó không có tín hiệu ra Tuy nhiên,

Trang 12

10

khoảng lặng là một phần không thể tách rời của tiếng nói Nếu không có sự xuất

hiện của khoảng lặng, bài phát biểu sẽ không dễ để hiểu

Tín hiệu tiếng nói là sóng cơ học nên có các tính chất cơ bản của sóng cơ học Chu

kỳ cao độ (pitch) cũng được tham chiếu như là tần số cơ bản F0 Âm thanh nào phát

ra cũng ở một cao độ nhất định, nếu có bất kỳ sự thay đổi nào của cao độ thì ta dễ dàng nhận ra điều đó

Tín hiệu nguồn kích thích tuyến âm và tuyến âm có tính cộng hưởng Khi qua tuyến

âm có một số tần số được tăng cường lên, tần số được tăng cường gọi là “formant” Các đặc tính quan trọng của tiếng nói:

- Biên độ âm hữu thanh lớn hơn nhiều so với âm vô thanh

- Năng lượng phổ của âm vô thanh chia thành hai miền tần số, năng lượng phổ chủ yếu tập trung ở miền tần số cao và trong mỗi miền thì phổ phân bố khá đều Năng lượng phổ của âm hữu thanh chủ yếu tập trung ở vùng tần số thấp, độ dốc phổ hữu thanh đi xuống khoảng -12 dB/octave

- Tỉ lệ biến thiên qua giá trị 0 của tín hiệu tiếng nói là số lần biến thiên của tín hiệu tiếng nói qua trục 0 trong một đơn vị thời gian, gọi là tỉ lệ biến thiên qua giá trị không Thông thường giá trị này với âm vô thanh lớn hơn nhiều so với âm hữu thanh Do đó, tỉ lệ biến thiên qua điểm 0 là tham số quan trọng để phân biệt âm hữu thanh và vô thanh

- Tính tự tương quan chính là tương quan chéo của tín hiệu với chính nó Nó được tính bằng sự tương quan của chuỗi thời gian được so sánh và những điểm giống nhau giữa giá trị của chính nó trong quá khứ và tương lai, một cách hiểu đơn giản là

so sánh tín hiệu với phiên bản trễ của nó Tính tự tương quan được tiếp cận với mục đích phát hiện cao độ của tiếng nói

Trang 13

11

1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông

Mô hình hệ thống truyền thông số

Việc phân tích và thiết kế một hệ thống truyền thông số liên quan đến việc truyền tải thông tin ở dạng số từ nguồn tạo thông tin tới một hoặc nhiều điểm đến

Trong một hệ thống truyền thông số, các thông điệp được tạo ra bởi phía nguồn được biến đổi thành một dãy số nhị phân, loại bỏ các bit dư thừa không cần thiết, giúp giảm băng thông truyền dẫn Quá trình biến đổi tín hiệu nguồn thành dãy số nhị phân đó được gọi là mã hóa nguồn hoặc nén dữ liệu

Hình 1.2 Quá trình xử lý tiếng nói trong hệ thống truyền thông

Chuỗi dãy số nhị phân từ bộ mã hóa nguồn là dãy thông tin được chuyển đến bộ mã hóa kênh Mã hóa kênh là quá trình chèn thêm các bit dư vào chuỗi ký tự theo một quy luật nào đó, với mục đích bảo vệ dòng tín hiệu tránh bị nhiễu từ những kênh thông tin khác, các bit thêm vào được bên thu dùng để phát hiện và sửa lỗi xảy ra trên kênh truyền Điều này làm tăng độ tin cậy của tín hiệu nhận được

Chuỗi nhị phân từ bộ mã hóa kênh được chuyển tới bộ điều chế số, nó đóng vai trò như là giao diện của kênh truyền thông Bởi vì gần như tất cả các kênh truyền thông gặp trong thực thế có khả năng truyền tín hiệu điện (dạng sóng), mục đích chính của điều chế số là gán thông tin nhị phân vào một tải tin để truyền đi

Trang 14

12

Kênh truyền thông là môi trường vật lý được sử dụng để gửi tín hiệu từ máy phát đến máy thu Trong truyền dẫn không dây, kênh có thể là không khí Mặt khác, các kênh điện thoại thường sử dụng nhiều phương tiện vật lý, bao gồm dây đồng, cáp quang và không dây

Dù phương tiện vật lý được sử dụng cho truyền dẫn thông tin, tín hiệu đươc truyền

có thể bị hỏng một cách ngẫu nhiên bởi một loạt các yếu tố có thể, chẳng hạn như tạp âm nhiệt được tạo ra từ thiết bị điện tử, tiếng ồn do con người tạo ra, …

Ở đầu cuối của hệ thống truyền thông số, bộ giải điều chế thực hiện quá trình tách sóng, là quá trình tách lấy tín hiệu thông tin ra khỏi sóng mang cao tần Dãy số này được chuyển đến bộ giải mã kênh, cố gắng tái tạo dãy thông tin ban đầu từ những

mã bit thêm vào ở phía mã hóa kênh

Bộ giải mã nguồn tiếp nhận dãy đầu ra từ mã hóa kênh và từ phương thức mã hóa nguồn được sử dụng để tái tạo lại tín hiệu ban đầu Bởi vì có lỗi mã hóa kênh và biến dạng có thể từ mã hóa nguồn, tín hiệu đầu ra ở bộ giải mã nguồn là xấp xỉ với tín hiệu ban đầu

Một số điểm chú ý:

- Thuật toán mã hóa nguồn đóng vai trò quan trọng trong tỉ lệ mã hóa cao hay thấp

- Bộ mã hóa kênh thêm vào sự dư thừa trong dữ liệu

- Điều chế đóng vai trò quan trọng trong quyết định tỉ lệ dữ liệu và khả năng hạn chế lỗi gây ra bởi kênh truyền

1.3 Giới thiệu về các dạng mã hóa tiếng nói

Mã hóa và giải mã tiếng nói nhằm loại bỏ sự dư thừa trong biểu điểu tiếng nói với mục đích giảm băng thông truyền tải và không gian lưu trữ, từ đó giảm chi phí Có

ba kỹ thuật nén tiếng nói cơ bản là mã hóa dạng sóng (waveform-based), mã hóa tham số (parametric-based) và mã hóa lai (hybrid coding) [10]

Trang 15

13

Các bộ mã hóa tiếng nói có sự khác nhau ở tốc độ bit, độ phức tạp, độ trễ và chất lượng cảm nhận của tiếng nói sau khi tái tạo

Mã hóa dạng sóng được thực hiện ở tốc độ bit cao và cho chất lượng tiếng nói tốt

Mã hóa tham số thực hiện ở tốc độ bit thấp, tạo ra tiếng nói với chất lượng nhân tạo

Mã hóa lai là tổng hợp của phương pháp mã hóa dạng sóng và mã hóa tham số, nó cho chất lượng tiếng nói khá tốt và thực hiện ở tốc độ bit trung bình

Chất lượng tiếng nói được định lượng bằng thông số MOS (Mean Opinion Score)

Hình 1.3 Quan hệ chất lượng và tốc độ các phương pháp mã hóa tiếng nói [6]

Mã hóa dạng sóng, như tên gọi là kỹ thuật mã hóa chủ yếu loại bỏ sự dư thừa trong dạng sóng tiếng nói và tái tạo dạng sóng tiếng nói ở phía giải mã sao cho giống với dạng sóng ban đầu Các kỹ thuật mã hóa dạng sóng thường đơn giản, độ phức tạp thấp và cũng cho tỷ lệ nén ở mức thấp Dải tốc độ bit (bit/s) điển hình của mã hóa dạng sóng từ 64 kb/s đến 16 kb/s Ở tốc độ bit thấp hơn 16 kb/s, lỗi lượng tử hóa cho mã hóa dạng sóng rất lớn, điều này sẽ dẫn đến chất lượng thấp hơn Các codec

Trang 16

14

điển hình của mã hóa dạng sóng là Điều chế mã xung PCM (Pulse code modulation)

và Điều chế mã xung vi sai thích nghi ADPCM (Adaptive differential PCM) Mã hóa dạng sóng được áp dụng trong mã hóa tiếng nói cho mạng điện thoại cố định PSTN

Mã hóa tham số là kỹ thuật dựa trên nguyên lý tiếng nói được tạo ra như thế nào, nên kỹ thuật này còn có tên gọi là mã hóa nguồn Nó dựa trên các đặc tính rằng tiếng nói là tĩnh hay hình dạng của tuyến âm là ổn định trong khoảng thời gian ngắn (cỡ 20ms) Trong khoảng thời gian này, một đoạn tiếng nói có thể được chia thành đoạn âm vô thanh hay âm hữu thanh Các đặc tính của tuyến âm có thể được đại diện bởi một bộ lọc số biến đổi theo thời gian (time-varying digital filter) Với mỗi đoạn tiếng nói, các tham số bộ lọc tuyến âm, quyết định âm vô thanh hay hữu thanh,

các tham số chu kỳ cao độ (pith period) và độ tăng ích (gain) sẽ được thu thập thông

qua phân tích tiếng nói ở phía mã hóa Các tham số này sau đó được mã hóa thành luồng bit nhị phân và gửi tới kênh truyền Bộ giải mã ở phía nhận sẽ tái tạo tiếng nói (thực hiện tổng hợp tiếng nói) dựa trên các tham số đã nhận được

So với mã hóa dạng sóng, mã hóa tham số có độ phức tạp cao hơn trong thực hiện

và đạt được tỉ lệ nén tốt hơn Một trong những codec mã hóa dạng tham số điển hình là Mã dự đoán tuyến tính - LPC (Linear Prediction Coding), có tốc độ bit từ 1.2 đến 4.8 kb/s và thường được sử dụng trong hệ thống truyền thông di động không dây với sự giới hạn về băng thông

Vì mã hóa tham số không thể đạt được chất lượng tiếng nói cao khi nó phân loại đơn giản các đoạn tiếng nói thành âm hữu thanh hoặc âm vô thanh, biểu diễn đơn giản tiếng nói hữu thanh với dãy xung tuần hoàn (impulse period train) Mã hóa lai

ra đời là kỹ thuật kết hợp các tính năng của mã hóa dạng sóng và mã hóa tham số

Nó giữ bản chất của của mã hóa tham số bao gồm bộ lọc tuyến âm, phân tích chu kỳ cao độ và quyết định hữu thanh hay vô thanh Thay vì sử dụng một dãy xung tuần

hoàn đơn giản để biểu diễn tín hiệu kích thích cho đoạn tiếng hữu thanh, nó sử dụng

tín hiệu kích thích dạng sóng cho các đoạn âm hữu thanh, vô thanh hoặc chuyển tiếp (bao gồm cả hữu thanh và vô thanh) Nhiều kỹ thuật khác nhau được phát triển để

Trang 17

15

biểu diễn tín hiệu kích thích dạng sóng như kích thích đa xung (multi-pulse excitation), kích thích mã (codebook excitation) và lượng tử vectơ Được biết tới nhiều nhất là CELP – Codebook Excitation Linear Prediction, đã tạo ra thành công lớn cho kỹ thuật mã hóa lai ở dải tốc độ bit 4.8 kb/s đến 16 kb/s cho kết nối di động/không dây/vệ tinh, đạt chất lượng MOS trên 3.5

Các tiêu chuẩn nén điển hình được đưa ra bởi các tổ chức, Liên minh Viễn thông

Quốc tế ITU - International Telecommunication Union, Viện Tiêu chuẩn Viễn thông Châu Âu ETSI - European Telecommunication Standards Institute, Hiệp hội Công nghiệp Viễn thông Bắc Mỹ TIA - North America’s Telecommunications

Industry Association

Bảng 1 1 Các tiêu chuẩn mã hóa tiếng nói [7]

Các tiêu chuẩn cho mạng điện thoại cố định – Landline public switched telephone service networks – PSTN, được thiết lập bởi ITU International Telecommunication Union ITU đã ban hành một số tiêu chuẩn mã hóa tiếng nói dạng sóng quan trọng với tốc độ bit cao và với độ trễ rất thấp, gồm G.711 (PCM), G.727 và G.726

(ADPCM), G.728 (LDCELP) [7]

Trang 18

16

Các tiêu chuẩn cho mạng điện thoại di động ở Châu Âu được thiết lập bởi ETSI European Telecommunications Standards Institute Các tiêu chuẩn mã hóa tiếng nói ETSI được công bố bởi tiểu ban Global System for Mobile Telecommunications (GSM) Mã tiêu chuẩn đầu tiên cho mạng di động GSM dựa trên tiền thân của CELP được gọi là Kích thích xung đều với dự đoán dài hạn, RPE-LTP (Regular

Pulse Excitation with Long-Term Prediction)

Trong luận văn này, ta sẽ làm rõ mã hóa - giải mã tiếng nói Điều chế mã xung PCM

áp dụng trong mạng điện điện thoại cố định PSTN và Kích thích xung đều - Dự đoán tuyến tính RPE-LTP áp dụng cho điện thoại di động GSM đang được sử dụng tại Việt Nam

Trang 19

2.1 Mã hóa dạng sóng PCM

Trước hết, ta cần biết lý do tại sao cần phải biến đổi tín hiệu tương tự sang dạng số,

vì tín hiệu số:

- có thế xử lý tự động (bằng máy tính)

- giảm được nhiễu

- cho phép sao lưu nhiều lần mà chất lượng không thay đổi

- các bộ xử lý tín hiệu số DSP khi được chế tạo hàng loạt có chất lượng xử lý đồng nhất và chất lượng xử lý không thay đổi theo thời gian

Vì những lý do trên, xu hướng tất yếu ngày nay là biến đổi tín hiệu tương tự sang tín hiệu số Điều chế mã xung PCM là chuyển đổi tương tự - số nơi thông tin chứa trong các mẫu tức thời của một tín hiệu tương tự được đại diện bởi các từ mã trong một dòng bit nối tiếp

Điều chế mã xung PCM bao gồm 3 bước để số hóa một tín hiệu tương tự:

- Lấy mẫu (Sampling)

- Lượng tử hóa (Quantization)

- Mã hóa nhị phân (Binary encoding)

Trang 20

18

Trước khi thực hiện lấy mẫu, tín hiệu được cho qua bộ lọc thông thấp (Low Pass Filter) để giới hạn tần số lớn nhất, loại các thành phần tần số cao để đảm bảo định lý lấy mẫu Shannon

Hình 2.1 Quá trình mã hóa PCM LẤY MẪU

Biên độ của tín hiệu tương tự là liên tục theo thời gian Lấy mẫu là quá trình lấy biên độ của tín hiệu tương tự ở từng khoảng thời gian nhất định Do vậy các mẫu lấy được sẽ gián đoạn theo thời gian Dãy mẫu này gọi là tín hiệu điều biên xung PAM - Pulse Amplitude Modulation Khoảng thời gian nhất định nói trên được gọi

là chu kỳ lấy mẫu Ts, Fs = 1/Ts là tần số lấy mẫu

Hình 2.2 Quá trình lấy mẫu tín hiệu

Trang 21

Một yếu tố quan trọng trong lấy mẫu là phía phát lấy mẫu cho tín hiệu tương tự theo tần số nào đó để cho phía thu có thể tái tạo lại được tín hiệu ban đầu Theo định lý Nyquist-Shannon, bằng cách lấy mẫu tín hiệu tương tự theo tần số cao hơn ít nhất hai lần tần số cao nhất của tín hiệu thì có thể tái tạo lại dạng tín hiệu ban đầu từ các mẫu đó

Đối với tín hiệu thoại hoạt động ở băng tần 0.3 - 3.4kHz, tần số lấy mẫu là 8kHz để đáp ứng yêu cầu về chất lượng truyền dẫn, phía thu sẽ khôi phục tín hiệu tương tự

có độ méo trong phạm vi cho phép

LƯỢNG TỬ HÓA

Kết quả quá trình lấy mẫu là một chuỗi các xung với giá trị biên độ khác nhau, các giá trị này nằm trong dải giới hạn bởi một giá trị bé nhất và một giá trị lớn nhất Ta cần ánh xạ các giá trị biên độ với tập hữu hạn các giá trị đã biết Điều này đạt được bằng cách chia khoảng cách giữa giá trị bé nhất và lớn nhất thành q vùng, mỗi vùng

Đó là lượng tử hóa, quá trình làm tròn mỗi giá trị được lấy mẫu tới giá trị gần nhất

Lý do để lấy xấp xỉ điểm giữa là để giảm thiểu tối đa lỗi lượng tử

Trang 22

20

Ví dụ:

Giả sử có một tín hiệu điện áp với biên độ: Vmin = -20V, Vmax = +20V

Ta muốn dùng q=8 mức lượng tử Chiều rộng mỗi vùng: ∆ = (20- -20)/8 = 5

Ta có 8 vùng: -20 đến -15, -15 đến -10, -10 đến -5, -5 đến 0, từ 0 đến 5, từ 5 đến 10,

từ 10 đến 15, từ 15 đến 20

Điểm giữa mỗi vùng: -17,5; -12,5; -7,5; -2,5; 2,5; 7,5; 12,5; 17,5

Mỗi một vùng được gán với một mã nhị phân

Số bit được yêu cầu để mã hóa mỗi vùng hay số bit trên mỗi mẫu, v= log2(q)

Với ví dụ này thì số bit được yêu cầu là: v = log2(8) = 3

Các mã nhị phân đại diện cho 8 vùng (8 mức) là: 000, 001, 010, 011, 100, 101, 110,

111

Ánh xạ các mã tới các vùng: 000 sẽ tham chiếu tới vùng -20 đến 15, 001 tham chiếu tới vùng -15 đến -10,

Hình 2.3 Ví dụ quá trình lượng tử hóa

Giả sử mức lượng tử là 16 (24) thì số bit được yêu cầu để đại điện cho mỗi mẫu là 4 bit Nếu mức lượng tử không phải là một lũy thừa 2, ví dụ để phân biệt 10 mức

Trang 23

21

lượng tử (23 <10 < 24), 4 bit được yêu cầu Thực thế 4 bit có thể mã hóa cho 16 mức lượng tử, sử dụng 10 mã trên 16 để biểu diễn cho các mẫu

Có hai loại lượng tử hóa:

- Lượng tử hóa đều: bước lượng tử cố định

- Lượng tử hóa không đều: bước lượng tử thay đổi theo biên độ tín hiệu

Lượng tử đều

- Hầu hết biến đổi tương tự - số sử dụng lượng tử đều

- Các mức lượng tử của tượng tử đều là phân chia một cách bằng nhau

- Lượng tử đều là tối ưu cho những tín hiệu có phân bố đều

- Có hai dạng lượng tử đều: dạng đối xứng cắt nửa mức lượng tử (symmetrical type of mid rise quantizer), dạng đối xứng cắt nửa bước lượng tử (symmetrical type

of mid tread quantizer)

Lượng tử đều đối xứng cắt nửa mức lượng tử

Hình 2.4 Lượng tử đều đối xứng cắt nửa mức lượng tử

Trang 24

22

Dạng lượng tử đều đối xứng cắt nửa mức lượng tử được mô tả một cách dễ hiểu như hình 2.4 Lưu ý rằng trong dạng đối xứng cắt nửa mức lượng tử, bất kỳ giá trị đầu vào nào giữa 0 và ∆ được ánh xạ tới đầu ra có giá trị ∆/2, bất kỳ đầu vào có giá trị giữa ∆ đến 2∆ được ánh xạ tới đầu ra có giá trị 3∆/2 và cứ tiếp như vậy

Đặc tính cắt nửa mức lượng tử được mong muốn vì tính đối xứng và với vì nó sử dụng 2v mức của v mã bit một cách hiệu quả Điểm bất lợi của cắt nửa mức lượng tử

là nó không thể đại diện cho mức đầu ra bằng 0

Lượng tử đều đối xứng cắt nửa bước lượng tử

Hình 2.5 Lượng tử đều đối xứng cắt nửa bước lượng tử

Dạng lượng tử đều đối xứng cắt nửa bước lượng tử được mô tả như hình 2.5 Lưu ý rằng trong dạng cắt nửa bước lượng tử, bất kỳ giá trị đầu vào giữa -∆/2 đến +∆/2 thì được ánh xạ tới đầu ra có giá trị 0, bất kỳ đầu vào có giá trị giữa +∆/2 tới 3/2∆ được ánh xạ tới đầu ra có giá trị ∆ và cứ tiếp như vậy

Hạn chế của dạng đối xứng cắt nửa bước lượng tử là có số mức lượng tử là một số

lẻ (nếu nó đối xứng) hoặc nó phải không đối xứng qua trục 0 Vì vậy nó không sử dụng hết 2v mức lượng tử của v bit mã một cách hiệu quả

Trang 25

23

Minh họa quá trình lượng tử hóa của một tín hiệu tương tự và nhiễu

Hình 2.6 Minh họa tín hiệu tương tự, lượng tử và nhiễu

2 Méo gây ra bởi lượng tử hóa

- Quá tải hoặc bóp méo

Méo quá tải xảy ra khi tín hiệu đầu vào vượt quá ngưỡng đầu vào của bộ lượng tử, đầu ra sẽ duy trì ở mức giá trị lớn nhất (hoặc bé nhất) cho đến khi tín hiệu vào rơi vào dải đầu vào của bộ lượng tử Méo quá tải tạo ra một tín hiệu bị cắt xén Để tránh bị cắt xén, bộ lượng tử cần được ánh xạ với tín hiệu đầu vào

Trang 26

24

- Méo lượng tử

Hình 2.7 mô tả nhiễu sinh ra bởi quá trình lượng tử hóa Ta có thể thấy rằng nhiễu lượng tử xảy ra khi tín hiệu đầu vào nằm trong dài đầu vào của bộ lượng tử Nó sinh

ra bởi sự khác nhau giữa biên độ đầu vào với biên độ mẫu được lượng tử hóa và bởi

sự giới hạn của tần số lấy mẫu Tín hiệu sai khác tạo ra nhiễu lượng tử hoặc méo trong tín hiệu được tái tạo Phổ tần số của nó bao gồm dải thông lớn Bộ lọc thông thấp được sử dụng để làm trơn dạng sóng, sẽ loại bỏ phần lớn lỗi lượng tử ở trên miền tần số của nó Tuy nhiên, một số nhiễu lượng tử lại ở trong dải tín hiệu và không thể loại bỏ bằng bộ lọc thông thấp Điều này tạo ra âm "gằn" ở đầu ra của hệ

thống PCM, gọi là nhiễu lượng tử

Hình 2.7 Đặc tính nhiễu lượng tử

Nhiễu lượng tử là kết quả của quá trình lượng tử hóa Vì quá trình lượng tử điều

chỉnh biên độ của mỗi mẫu, nên dạng sóng ban đầu không thể được tái tạo lại một cách hoàn toàn chính xác khi sử dụng một bộ lọc thông thấp như trường hợp với tín hiệu PAM và định lý lấy mẫu cổ điển Tần số lấy mẫu cũng ảnh hưởng đến nhiễu lượng tử, lỗi lượng tử sẽ trở nên lớn hơn khi tần số lấy mẫu giảm

Hình 2.8 cho thấy một tín hiệu tương tự ở đầu vào và dạng sóng được lượng tử hóa của nó Phần dưới chỉ ra kết quả nhiễu lượng tử Biên độ cực đại của nhiễu là 1/2 khoảng lượng tử Trong một khoảng thời gian nhỏ, tín hiệu lỗi xuất hiện dạng sóng răng cưa

Trang 27

25

Hình 2.8 Sóng tín hiệu tương tự, lượng tử và nhiễu

Lỗi lượng tử là do sử dụng mã hóa nén để số hóa tín hiệu tiếng nói Mã hóa nén cho phép tỉ lệ tín hiệu trên nhiễu SNqR (signal-to-quantization-noise ratio) cao hơn mã hóa tuyến tính Tỉ lệ này được xác định với S là mức tín hiệu tiếng nói, Nq là nhiễu gây ra bởi nhiễu lượng tử Một cách rõ ràng, giữ cho nhiễu lượng tử bé tức là làm cho tỉ lệ SNqR cao Khi biên độ tín hiệu nhỏ hơn, Nq phải nhỏ để giữ cho SNqR không giảm Nén tín hiệu sẽ đáp ứng yêu cầu này bằng cách giảm độ lớn nhiễu lượng tử của các tín hiệu có biên độ thấp hơn

Lượng tử không đều

Với lượng tử không đều, kích thước mỗi bước lượng tử sẽ không được cố định trên toàn bộ dải đầu vào mà giá trị của nó phụ thuộc vào tín hiệu đầu vào Ví dụ, kích thước bước lượng tử sẽ giảm với mức biên độ thấp và tăng với mức biên độ cao

Trang 28

26

Hình 2.9 Lượng tử không đều với 8 mức

Điểm quan trọng của lượng tử không đều:

Các tín hiệu tiếng nói có biên độ gần bằng 0 nhiều hơn là ở các biên độ lớn Các tín hiệu với giá trị biên độ thấp hơn sẽ ảnh hưởng nhiều hơn tới nhiễu lượng tử cũng như dải nhiễu: ∆/2, được cố định cho tất cả các mức tín hiệu

Lượng tử không đều được sử dụng để giải quyết vấn đề này Mục đích là để cho tỉ

lệ SNqR cố định cho tất cả các giá trị mẫu

Có hai cách tiếp cận cho Lượng tử không đều:

Tiếp cận trực tiếp

Các mức lượng tử sẽ theo một đường cong logarit ∆ bé hơn ứng với biên độ bé hơn

và ∆ lớn hơn ứng với biên độ cao hơn Nhưng xử lý cách này với thay đổi của ∆ một cách trực tiếp là rất khó khăn

Tiếp cận gián tiếp

Lượng tử không tuyến tính có để đạt được bằng cách: đầu tiên truyền các giá trị mẫu tới một bộ nén, sau đó đưa tới bộ lượng tử hóa đều Luật nén được áp dụng trong điều chế mã xung tín hiệu điện thoại là luật logarit Kỹ thuật này sẽ làm tăng các biên độ gần mức 0 Để bù lại ảnh hưởng nén xảy ra ở phía gửi, giá trị các mẫu được truyền qua một bộ giải nén ở phía thu

Trang 29

27

Quá trình nén, lượng tử đều, giải nén trong cách tiếp cận gián tiếp được mô tả như hình 2.10

Hình 2.10 Lượng tử không đều với cách tiếp cận gián tiếp

Có hai luật nén logarit áp dụng cho tín hiệu điện thoại là luật A và luật Mu:

- Luật Mu được sử dụng ở Bắc Mỹ, Nhật Bản

- Luật A được sử dụng ở châu Âu và những nơi còn lại

Hai tiêu chuẩn nén luật A và luật Mu sẽ được nói rõ hơn ở mục 2.2

MÃ HÓA NHỊ PHÂN

Thuật toán nén áp dụng cho hai hệ thống Mỹ và châu Âu dựa trên việc xấp xỉ các đường cong đặc trưng nén tương tự tương ứng với hai chuẩn Mu và A Với hệ Mỹ, đường cong đặc trưng được xấp xỉ bằng 15 đoạn thẳng (bao gồm 7 đoạn dương, 7 đoạn âm và một đoạn qua gốc) Với hệ châu Âu, được xấp xỉ bởi 13 đoạn thẳng (gồm 6 đoạn dương, 6 đoạn âm và một đoạn qua gốc được chia thành 4 phân đoạn) Các giá trị mức lượng tử ứng với các xung PAM được mã hóa bằng các tổ hợp mã nhị phân để truyền đi trên hệ thống truyền dẫn số Việc mã hóa nhị phân được thực hiện bằng các tổ hợp 8 bit đối với cả hệ Mỹ và châu Âu, có dạng PXYZABCD Trong đó, bit P chỉ thị cực tính giá trị lượng tử của mẫu tín hiệu: P=1 với tín hiệu dương và P=0 với giá trị âm Ba bit XYZ dùng để mã các đoạn thẳng (phân đoạn)

Trang 30

28

làm gần đúng tuyến tính với các luật nén (A hay Mu), bốn bit ABCD dùng để mã 16 mức lượng tử đều trong từng đoạn

Hình 2.11 Đặc tuyến xấp xỉ tuyến tính luật A – 13 đoạn

2.2 Nén và giải nén luật A/Mu trong PCM

Nén và giải nén (Companding) đề cấp đến quá trình mà đầu tiên tín hiệu đầu vào trước tiên sẽ được nén lại (Compressing), sau đó thực hiện giải nén (Expanding) tín hiệu trở lại kích thước ban đầu khi nó được truyền tới đích

Trong quá trình nén, các mẫu tín hiệu tương tự đầu vào được nén vào các phân đoạn logarit Mỗi đoạn sau đó được lượng tử và mã hóa sử dụng lượng tử đều Quá trình nén logarit, tỉ lệ nén tăng lên khi biên độ mẫu tín hiệu tăng lên, hay nói cách khác, mẫu tín hiệu có biên độ lớn hơn sẽ được nén nhiều hơn so với các mẫu tín hiệu có biên độ nhỏ hơn, các mẫu tín hiệu có biên độ nhỏ hơn sẽ được hưởng mức lượng tử

bé Điều này giúp giữ tỉ lệ SNqR không thay đổi với các giá trị biên độ mẫu khác nhau Hình 2.12, thể hiện đặc tính nén logarit

Trang 32

30

x = Vµ(e|y| log(1+µ)V − 1)sgn(y)

Trong đó, µ là tham số nén của luật Mu, V là cực đại của tín hiệu x, log là logarit tự nhiên, sgn là hàm dấu Thông thường, giá trị phổ biến của µ là 255

Đường cong nén luật A và luật Mu:

Hình 2.13 Tương quan tín hiệu nén và giải nén luật A

Hình 2 14 Tương quan tín hiệu nén và giải nén luật Mu

Giống nhau giữa luật A và luật Mu:

- Cả hai đều là xấp xỉ tuyến tính của quan hệ đầu vào/đầu ra logarit

- Cả hai đểu sử dụng 8 mã bit (256 mức, cho mỗi khoảng lượng tử)

- 8 bit cho tốc độ bit 64 kbps (8 kHz x 8 bits = 64 kbps)

(2.2b)

Trang 33

31

Khác nhau giữa luật A và luật Mu:

- Xấp xỉ tuyến tính khác nhau dẫn dến độ dài và độ dốc khác nhau

- Luật A cung cấp dải động lớn hơn luật Mu

- Luật Mu đạt hiệu suất tín hiệu/nhiễu với tín hiệu biên độ thấp tốt hơn luật A

- Luật A yêu cầu 13 bit cho một PCM đều tương đương, luật Mu yêu cầu 14 bit cho một PCM đều tương đương

2.3 Đánh giá tín hiệu PCM

Ưu điểm của PCM:

- Cho tín hiệu thoại có chất lượng cao, tốc độ bit cao và độ trễ thấp

- Mạch điện số tương đối rẻ tiền nên có thể sử dụng một cách rộng rãi

- Tín hiệu PCM sinh ra từ tất các loại nguồn tương tự có thể được sát nhập với tín hiệu dữ liệu và được truyền qua một hệ thống truyền thông số tốc độ cao

- Hiệu suất tiếng ồn của hệ thống số được cải thiện vượt trội so với hệ thống tương tự

- Xác suất lỗi của đầu ra hệ thống có thể được giảm thiểu hơn nữa bằng cách sử dụng các kỹ thuật mã hóa thích hợp

Trang 34

32

CHƯƠNG III MÃ HÓA VÀ GIẢI MÃ TIẾNG NÓI TRONG MẠNG ĐIỆN THOẠI DI ĐỘNG

3.1 Phương pháp mã hóa và giải mã tiếng nói trong mạng di động

Như đã đề cập phạm vi nghiên cứu của đề tài, ở chương này ta sẽ làm rõ phương pháp mã hóa lai RPE-LTP áp dụng cho mạng điện thoại di động GSM

Việc lựa chọn bộ mã hóa và giải mã tiếng nói thích hợp nhất cho hệ thống GSM đã được dựa trên tập các bộ đề xuất, được thử nghiệm một cách rõ ràng, rộng rãi với các ngôn ngữ khác nhau, trong các điều kiện hoạt động khác nhau, đảm bảo khắt khe các yêu cầu về chất lượng tiếng nói, lỗi kênh, độ trễ cũng như độ phức tạp của phương pháp Ban đầu, hơn 20 đề xuất từ 9 quốc gia Châu Âu đươc đưa ra Trước khi chính thức thử nghiệm, con số này được giảm xuống còn 6

Đánh giá sơ bộ được đưa ra dựa vào các so sánh thử nghiệm của các bộ mã hóa và giải mã đó với bộ mã hóa và giải mã đang được sử dụng trong hệ thống FM vào thời điểm lúc bấy giờ Kết quả là 2 trong số các codec bị loại bỏ, còn lại 4 codec: 2

mã hóa kích thích xung và 2 mã hóa phân giải 4 codec nêu ra sau đây sẽ được đánh giá và đưa ra lựa chọn cuối cùng

 RPE-LTP : Regular Pulse Excitation – Long Term Prediction – Linear Predictive Coder (Bộ mã Kích thích xung đều – Dự đoán dài hạn – Dự đoán

tuyến tính) – được đề xuất bởi nước Đức (Philips)

 MPE-LTP : Multipule Excitation – Long Term Prediction (Kích thích đa

xung – Dự đoán dài hạn) – được đề xuất bởi nước Pháp (IBM) Việc thực thi bộ

mã hóa và giải mã tiếng nói này được sử dụng trong thử nghiệm so sánh đòi hỏi tốc độ bit truyền dẫn 13,2 kbps và mã sửa lỗi hướng tiến FEC (Forward Error Correction) được nhúng vào đó với tốc độ 2,8 kbps nữa để bảo vệ các bit quan trọng nhất của bộ mã hóa và giải mã tiếng nói, như vậy tốc độ bit tổng là 16 kbps

Trang 35

33

 SBC–APCM : Subband coding – Adaptive Pulse Code Modulation (Mã hóa

phân giải – Điều chế mã xung thích nghi) – được đề xuất bởi nước Thủy Điển (Ellemtel) Là codec mã hóa phân giải băng con với PCM thích nghi theo khối

Codec này sử dụng các bộ lọc gương cầu phương QMF – Quadrature Mirror Filter để phân tách tín hiệu đầu vào thành 16 băng con rộng 250 Hz, hai băng

cao nhất trong số đó không được truyền đi Ấn định bit thích nghi đã được sử dụng trong các băng con trên cơ sở tỷ lệ công suất của một loạt băng cấu thành thông tin biên cần truyền đi Tốc độ truyền dẫn tổng cộng của các tín hiệu băng con là 10 kbps, thông tin biên là 3 kbps mà chúng được bảo vệ bởi 3 kbps của

mã sửa lỗi hướng tiến FEC, như vậy tốc độ bit tổng cộng là 16 kbps

 SBC–ADPCM : Subband coding – Adaptive Differential Pulse Code Modulation (Mã hóa phân giải – Điều chế mã xung vi sai thích nghi) – được đề

xuất bởi nước Anh ( British Telecom Research) Là codec mã hóa băng con với PCM delta thích nghi Tín hiệu tiếng nói đầu vào đã được chia thành 8 băng con trong số đó chỉ có 6 băng con được truyền đi Việc phân bổ bit của các băng con được cố định, vì thế không có thông tin biên được truyền, nhờ đó làm cho hệ thống thích nghi với nhiễu tốt hơn và không cần mã FEC Tốc độ bit của codec này chi là 15 kbps

Các kiểm tra để đánh giá và lựa chọn cuối cùng được thử nghiệm trên 7 ngôn ngữ, 3 cấp độ đầu vào khác nhau (12 dB, 22 dB, 32 dB), ảnh hưởng của tỷ lệ lỗi bit (0, 1:1000, 1:100), truyền mã và 2 dạng của tiếng ồn môi trường Kết quả đánh giá thu được chỉ ra tính vượt trội của phương pháp RPE–LTP, đáp ứng phù hợp cho hệ thống GSM [1]

Trong mã hóa RPE-LTP, một ánh xạ giữa các khối đầu vào của 160 mẫu tín hiệu tiếng nói dạng PCM đều 13 bit tới các khối đã được mã hóa 260 bit và từ các khối

đã được mã hóa đó tới các khối đầu ra của 160 mẫu tín hiệu tiếng nói được tái tạo Tần số lấy mẫu tín hiệu đầu vào là 8000 Hz dẫn tới tốc độ bit trung bình cho luồng bit được mã hóa là 13 kbit/s (260 bit* 8000 Hz/ 160 mẫu)

Trang 36

LPC là một trong những kỹ thuật phân tích tiếng nói mạnh mẽ nhất và là một phương thức hiệu quả cho mã hóa tiếng nói chất lượng tốt ở tốc độ bit thấp Nó cung cấp chính xác các ước lượng các thông số tiếng nói và tương đối hiệu quả trong thực hiện tính toán

LPC giả định rằng tính hiệu tiếng nói được tạo ra bởi kích thích đầu vào một ống hình trụ Thanh môn (phần khoảng không ở giữa hai dây thanh) tạo ra âm thanh

kích thích, được đặc trưng bởi cường độ và tần số Tuyến âm (cổ họng và miệng) có

dạng ống và có tính cộng hưởng, khi qua truyến âm có một số tần số được tăng cường lên, gọi là các formant

LPC phân tích tiếng nói bằng cách ước lượng các formant, loại bỏ hiểu ứng của chúng từ tín hiệu tiếng nói Quá trình loại bỏ các formant gọi là lọc đảo và tín hiệu còn lại gọi là tín hiệu thặng dư Tín hiệu thặng dư và formant là hai phần của tiếng nói mã hóa LPC

Mô hình toán học tạo tiếng nói được mô tả ở hình 3.2 Tùy thuộc là âm hữu thanh hay vô thanh mà tín hiệu kích thích tiếng nói x(n) sẽ chuyển đổi giữa dãy xung tuần hoàn (kiểm soát bởi chu kỳ cao độ pitch cho âm hữu thanh) hay nhiễu ngẫu nhiên (cho âm vô thanh) Tín hiệu kích thích đó được khuếch đại bởi độ tăng ích G (năng lượng của tín hiệu) và sau đó được gửi tới bộ lọc LPC Bộ lọc tuyến tính LPC dựa

RPE-LTP encoder

RPE-LTP decoder

Trang 37

Hình 3 2 Mô hình tạo tiếng nói LPC [10]

Các thông số của mô hình bộ lọc toàn điểm cực được xác định từ các mẫu tín hiệu tiếng nói sử dụng dự đoán tuyến tính Đầu ra của bộ lọc dự đoán tuyến tính là:

ŝ(n) = − ∑ ap(j)s(n − j)

p

j=1

Sai số tiên đoán: e(n) = s(n) - ŝ(n)

Trong miền thời gian, tín hiệu tiếng nói được tạo ra s(n) từ phương trình (iv) Nhận

thấy, tín hiệu tiếng nói s(n) có thể được dự đoán từ ∑ của các mẫu tín hiệu tiếng nói quá khứ s(n-j), hoặc từ sự kết hợp giữa các mẫu quá khứ (nên có tên là Mã dự đoán

tuyến tính), tín hiệu kích thích x(n) và độ tăng ích G Phương trình (iv), biểu diễn

khái quát mô hình LPC gồm hai thành phần chính: phần kích thích tuyến âm và bộ lọc LPC

Trang 38

36

LPC tổng hợp tín hiệu tiếng nói bằng xử lý ngược: sử dụng tín hiệu thặng dư để tạo

ra một tín hiệu nguồn, sử dụng các formant để tạo ra một bộ lọc đảo (đại diện cho tuyến âm), sau đó cho tín hiệu nguồn qua bộ lọc đảo, kết quả cho ra tiếng nói

Bởi vì tín hiệu tiếng nói thay đổi theo thời gian, quá trình phân tích sẽ được thực hiện trên các đoạn ngắn của tín hiệu tiếng nói, được gọi là các khung Thường 30 -

50 khung trong một giây (33 tới 20 ms trên một khung) kết quả cho ra tiếng nói và

tỉ lệ nén tốt

Hình 3 3 Tín hiệu tiếng nói gốc, bộ lọc LPC, tín hiệu thặng dư LPC [10]

Bộ lọc LPC chỉ có thể loại bỏ tương quan ngắn hạn giữa các mẫu, không loại bỏ được tương quan dài hạn Phổ của tín hiệu thặng dư có được từ bộ lọc LPC là phẳng hơn (với các formant đã được loại bỏ) Tuy nhiên, tần số cao độ (pitch frequency)

và các tần số hài của nó vẫn còn và cần được loại bỏ bởi bộ lọc cao độ (Pitch filter), gọi là bộ lọc dự đoán dài hạn LTP

Bộ lọc Dự đoán dài hạn LTP (Long-term Prediction) mô phỏng các hài của tiếng nói sử dụng sự kết hợp giữa khung tiếng nói hiện tại và quá khứ Các thông số độ

Trang 39

Quá trình tạo Kích thích xung đều RPE (Regular Pulse Excitation) bao gồm việc giảm 40 mẫu thặng dư dài hạn xuống 4 bộ dãy con 13 bit thông qua việc kết hợp của đan xen và trích mẫu Chuỗi con tối ưu được xác định năng lượng lớn nhất và được mã hóa sử dụng APCM thành 45 bit

Tóm lại, phân tích ngắn hạn LPC để xác định các hệ số bộ lọc tuyến âm (các hệ số

bộ lọc đảo), liên quan đến formant của tín hiệu tiếng nói Phân tích dài hạn LTP liên quan đến cao độ pitch của tiếng nói (thanh điệu, ngữ điệu) Và quá trình tạo RPE là

để xác định nguồn âm (nguồn âm kích thích cho tuyến âm)

Hình 3 4 Quá trình xử lý của bộ mã RPE-LTP

Trang 40

38

3.2.1 Nguyên lý bộ mã hóa RPE-LTP

Sơ đồ khối đơn giản của bộ mã hóa RPE – LTP được thể hiện ở hình 3.5 Trong sơ

đồ này chức năng mã hóa và lượng tử chưa được chỉ ra rõ ràng

Hình 3 5 Sơ đồ khối đơn giản của bộ mã hóa RPE-LTP [4]

Khung tiếng nói đầu vào, gồm 160 mẫu tín hiệu (các mẫu PCM đều 13 bit), đầu tiên

được tiền xử lý để tạo ra một tín hiệu không khoảng trống (offset-free), tiếp sau đó

được đưa tới bộ lọc hiệu chỉnh (pre-emphasis filter) 160 mẫu thu được sẽ được

phân tích để xác định các hệ số cho bộ lọc phân tích ngắn hạn (short term analysis filter) (Phân tích LPC) Các thông số thu được sẽ dùng cho quá trình lọc phân tích ngắn hạn 160 mẫu Kết quả sau khi thực hiện phân tích đó là 160 mẫu tín hiệu dư

ngắn hạn (1) (short term residual signal) Các thông số bộ lọc phân tích ngắn hạn được gọi là các hệ số phản xạ (reflection coefficient), sẽ được biến đổi thành các tỉ

số log tiết diện (log area ratios), LARs, trước khi truyền đi

Đối với các bước thực hiện sau đó, khung tiếng nói được chia thành 4 khung nhỏ (sub-frame), với mỗi sub-frame là 40 mẫu của tín hiệu dư ngắn hạn (1) Mỗi một sub-frame sẽ được xử lý bởi dãy các khâu chức năng tiếp theo

Ngày đăng: 23/02/2021, 13:11

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Asha Mehrotra (1997), GSM System Engineering, Artech House, London Sách, tạp chí
Tiêu đề: GSM System Engineering
Tác giả: Asha Mehrotra
Năm: 1997
[2]. Cisco Systems, Inc (2006), Waveform Coding Techniques, (Document ID: 8123) Sách, tạp chí
Tiêu đề: Waveform Coding Techniques
Tác giả: Cisco Systems, Inc
Năm: 2006
[3]. Eberspacher, J.; Vogel, H-J.; Bettstetter, C.; Hartmann, C. (2009), GSM - Architecture, Protocols and Services, John Wiley &amp; Sons, United Kingdom Sách, tạp chí
Tiêu đề: GSM - Architecture, Protocols and Services
Tác giả: Eberspacher, J.; Vogel, H-J.; Bettstetter, C.; Hartmann, C
Năm: 2009
[4]. European Telecommunications Standards Institute (1997), ETS 300 961 - Digital cellular telecommunications system, France Sách, tạp chí
Tiêu đề: ETS 300 961 - Digital cellular telecommunications system
Tác giả: European Telecommunications Standards Institute
Năm: 1997
[6]. Kristo Lehtonen (2003), T-61.246 Digital Signal Processing and Filtering GSM Codec, pp. 4-11 Sách, tạp chí
Tiêu đề: T-61.246 Digital Signal Processing and Filtering GSM Codec
Tác giả: Kristo Lehtonen
Năm: 2003
[7]. Mark, H.J; Abeer, A. (2003), Speech Coding: Fundamentals and Applications, pp. 1-3 Sách, tạp chí
Tiêu đề: Speech Coding: Fundamentals and Applications
Tác giả: Mark, H.J; Abeer, A
Năm: 2003
[8]. Monzur Kabir (2009), Cellular Mobile Systems and Services (TCOM1010) - GSM Radio – Part 2, pp. 2-4 Sách, tạp chí
Tiêu đề: ), Cellular Mobile Systems and Services (TCOM1010) - GSM Radio – Part 2
Tác giả: Monzur Kabir
Năm: 2009
[9]. Roger L. Freeman (2004), Telecommunication System Engineering, 4th edition, John Wiley &amp; Sons, Inc., Canada Sách, tạp chí
Tiêu đề: Telecommunication System Engineering, 4th edition
Tác giả: Roger L. Freeman
Năm: 2004
[10]. Sun, L.; Mkwawa, I.-H.; Jammeh, E.; Ifeachor, E. (2013), Guide to Voice and Video over IP For Fixed and Mobile Networks, Springer, London, pp. 17-45 Sách, tạp chí
Tiêu đề: Guide to Voice and Video over IP For Fixed and Mobile Networks
Tác giả: Sun, L.; Mkwawa, I.-H.; Jammeh, E.; Ifeachor, E
Năm: 2013
[5]. ITU International Telecommunication Union (1988), G.711 : Pulse code modulation (PCM) of voice frequencies Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w