• Chất lượng thoại cao: tín hiệu âm thoại đã giải mã phải có chất lượng có thể chấp nhận được đối với ứng dụng cần đạt.. • Trong một khung tín hiệu, các trọng số dùng để tính toán kết hợ
Trang 1BÀI 4
CÔNG NGHỆ XỬ LÝ THÔNG TIN
TRONG VOIP
CÔNG NGHỆ THOẠI IP
Trang 2Xử lý âm thanh trong VoIP
• Độ nhạy của tai người rất cao, tai người nhạy nhất ở
khoảng tần số 1KHz ~ 5KHz
• Có rất nhiều kỹ thuật xử lý tín hiệu được mô hình hóa và
áp dụng các giải thuật trong việc khôi phục âm thanh
• Đối với tín hiệu âm thanh, bao gồm âm thoại, nhạc và nhiễu không mong muốn, mô hình không sai lệnh so với giả định
• Để xử lý một tín hiệu liên tục bằng các phương tiện xử
lý tín hiệu số, ta phải đổi tín hiệu liên tục đó ra dạng một chuỗi số bằng các lấy mẫu tín hiệu liên tục tuần hoàn
Trang 3Hệ thống mã hóa âm thoại
• Tín hiệu âm thoại tương tự được số hóa bởi bộ một bộ lọc chuẩn, bộ lấy mẫu (bộ chuyển đổi thời gian rời rạc),
và bộ chuyển tín hiệu tương tự sang tín hiệu số
• Tín hiệu ngõ ra là tín hiệu âm thoại thời gian rời rạc, tín hiệu này được xem là tín hiệu âm thoại số.
Trang 4Mã hóa và giải mã âm thoại
• Mã hóa thoại là tối đa hóa chất lượng nghe tại một tốc độ bit nào
đó, hoặc tối thiểu hóa tốc độ bit ứng với một chất lượng đặc thù.
• Các yêu cầu của một bộ mã hóa thoại:
• Tốc độ bit thấp: đối với chuỗi bit mã hóa có tốc bit tỉ
lệ thuận với băng thông cần cho truyền dữ liệu
• Chất lượng thoại cao: tín hiệu âm thoại đã giải mã
phải có chất lượng có thể chấp nhận được đối với ứng dụng cần đạt
• Kích thước bộ nhớ thấp và độ phức tạp tính toán thấp
• Độ trễ mã hóa thấp: trong quá trình xử lý mã hóa và giải mã thoại,
Trang 5Kiến trúc của bộ mã/giải mã âm thoại
Trang 6Mô hình dự đoán tuyến tính
• Dự đoán tuyến tính (Linear prediction, viết tắt là LP) là một phần không thể thiếu của hầu hết tất cả giải thuật mã hóa thoại hiện đại ngày nay Ý tưởng là một mẫu thoại có thể được xấp
xỉ bằng một kết hợp tuyến tính của các mẫu trong quá khứ.
• Trong một khung tín hiệu, các trọng số dùng để tính toán kết hợp tuyến tính được tìm bằng cách tối thiểu hóa bình phương trung bình lỗi dự đoán; các trọng số tổng hợp,
• Giải thuật dự đoán tuyến tính (LPC) là một trong những giải thuật áp dụng tạo các bộ mã hóa chuẩn cho việc xử lý âm hoạt động ở tần số thấp
• Dự đoán tuyến tính thực hiện ước đoán s[n] dựa vào M mẫu
trong quá khứ:
Trang 7Yêu cầu xử lý tín hiệu thoại
• Trong mỗi khung, các thông số của mô hình được ước lượng
từ các mẫu thoại, các thông số bao gồm:
• Dạng: tín hiệu thuộc khung là thoại hay phi thoại
• Độ lợi: liên quan chủ yếu đến mức năng lượng của khung
• Hệ số lọc: định rõ đáp ứng của bộ lọc tổng hợp
• Chu kỳ âm thanh: trong trường hợp đối với khung thoại,
là chiều dài thời gian giữa các xung kích thích liên tiếp nhau.
• Thay vì truyền các xung PCM, các thông số của mô hình sẽ được gửi đi Giảm thiểu nhiễu và sự méo tín hiệu, các bít
truyền được cấp phát theo chỉ định ứng với từng thông số, và
tỉ số nén tối ưu có thể đạt được.
Trang 8Mô hình LPC tổng hợp tiếng nói
Trang 9 Việc kích thích sẽ được tối ưu hoá bằng các
cực tiểu hoá sai lệch,các tính trọng số thụ cảm, giữa tiếng nói gốc và tiếng nói tổng hợp.
Trang 10Chuẩn nén G.729
• Chuẩn G.729 được đưa ra vào tháng 03/96 bởi ITU, đây là chuẩn sử dụng phương pháp CS-ACELP
(Conjugate-Structure Algebraic-Excited
Linear-Prediction) để mã hóa tín hiệu âm thanh với tốc độ 8kbit/s
• Chuẩn nén G.729 được thiết kế để thực thi với tín
hiệu số nhận được từ bộ lọc băng thông thoại đầu của tín hiệu tương tự ở đầu vào, sau đó tiến hành lấy mẫu
ở tần số từ 8000 Hz và chuyển đổi các mẫu âm thanh này thành PCM tuyến tính 16 bits để chuyển đến bộ
mã hóa ở đầu vào
Trang 11Cấu trúc Frame G.729
Trang 12• Tín hiệu đầu vào được chuyển lên bộ lọc chất lượng cao và được chia
tỷ lệ trong những khối trước khi xử lý Tín hiệu tiền xử lý cung cấp như là tín hiệu đầu vào để dùng cho tất cả những việc phân tích tiếp theo
• Việc phân tích dự đoán tuyến tính (Linear Prediction - LP) được làm một lần trên một khung 10 ms để tiến hành tính toán hệ số lọc LP Các
hệ số này được chuyển sang dạng quang phổ vạch dạng đôi (Line
Spectrum Pairs - LSP) và dạng lượng tử hóa sử dùng dự đoán hai giai đoạn vector lượng tử (VQ) 18 bits
• Sự kích hoạt tín hiệu được chọn bằng cách dùng một thủ tục tìm kiếm phân tích tổng hợp, trong đó những lỗi giữa âm thanh nguồn và âm
thanh sau khi được tổng hợp lại giảm đến mức tối thiểu việc đo lường trọng lượng không chính xác.
Trang 13Sơ đồ hoạt động của thuật toán nén G.729
Trang 14Công nghệ xử lý chất lượng cuộc gọi
• Dịch vụ thoại là dịch vụ cơ bản và quan trọng nhất
trong các dịch vụ cung cấp cho khách hàng Để đảm bảo hỗ trợ tốt khách hàng nhằm đạt được lợi thế cạnh tranh, các nhà khai thác di động cần hỗ trợ chất lượng cuộc gọi tốt nhất
• Việc áp dụng các công nghệ xử lý chất lượng cuộc
gọi tốt có khả năng nâng cao đáng kể chất lượng âm thanh cuộc gọi
Trang 15Chất lượng cuộc gọi trong VoIP
• Độ trễ (Delay/Latency)
• Jitter
• Echo (Tiếng vang)
• Packet Loss (Mất gói tin)
Trang 16• Trễ xử lý cũng được gọi là quá trình xác định nhiều
nguyên nhân khác nhau của sự chậm trễ (sự đóng gói gói tin thực tế, nén, và chuyển mạch gói) và bị gây ra bởi các thiết bị mà phía trước frame qua mạng.
Trang 17Độ trễ trong VoIP
• (ITU-T) G.114 khuyến khích thời gian trễ giữa 2 thiết bị đầu cuối không được vượt quá 150 mili giây (ms) để đảm bảo chất lượng tốt nhất của âm thanh.
Fixed Delay Variable
Delay Coder Delay G.729 (5 ms Look Ahead) 5 ms
Coder Delay G.729 (10 ms Per Frame) 20 ms
Packetization Delay Included in Coder Delay
Queuing Delay 64 kbps Trunk 6 ms
Serialization Delay 64 kbps Trunk 3 ms
Propagation Delay (Private Lines) 32 ms
Network Delay (For Example, Public Frame Relay Svc)
Dejitter Buffer 2-200 ms Total - Assuming 50 ms Jitter Buffer 110 ms
Trang 18Trễ xử lý
• Thiết bị chuyển tiếp frame qua mạng xử lý gây ra sự chậm trễ Xử lý sự chậm trễ có thể tác động đến các mạng điện thoại truyền thống, nhưng sự chậm trễ này
là một vấn đề lớn hơn
• Trong các sản phẩm của Cisco IOS VoIP, việc xử lý tín hiệu số (DSP) tạo ra một mẫu âm mỗi 10 ms khi
sử dụng G.729 Hai trong số các mẫu âm (cả hai với
10 ms của sự chậm trễ) sau đó được đặt trong một
gói Các gói tin là chậm trễ, do đó, 20 ms
• Một khởi tạo ban đầu trước 5 ms xảy ra khi sử dụng G.729, tạo ra một sự chậm trễ ban đầu là 25 ms cho frame Voice đầu tiên
Trang 19Queuing Delay (Hàng đợi độ trễ)
• Khi các gói dữ liệu được tổ chức ở một hàng đợi bởi vì tắc nghẽn trên một giao diện (interface) ra bên ngoài, kết quả là xếp hàng chậm trễ
• Xếp hàng chậm trễ xảy ra khi các gói tin được gửi ra nhiều hơn so với giao diện có thể xử lý tại một khoảng thời gian nhất định Việc trì hoãn xếp hàng thực tế của hàng đợi đầu
ra là một nguyên nhân của sự chậm trễ
• Chúng ta nên giữ yếu tố này để ít hơn 10 ms bất cứ khi nào
ta có thể bằng cách sử dụng bất kỳ phương pháp xếp hàng là tối ưu cho mạng của mình
Trang 20Jitter
• jitter là sự biến đổi của thời gian đến các gói tin Jitter là một trong những vấn đề tồn tại trong chuyển gói dữ liệu trên mạng
• Khi một gói tin trong môi trường tiếng nói, người gửi dự kiến sẽ truyền tải các gói dữ liệu đáng tin cậy tiếng nói tại một khoảng thời thường xuyên (ví dụ, gửi một trong những frame mỗi 20 ms)
• Những gói Voice có thể được trì hoãn trong suốt mạng gói và không phải đến đó cùng một khoảng thời thường xuyên tại các trạm tiếp nhận (ví dụ, họ có thể sẽ không nhận được mỗi 20 ms; xem hình 7-2)
• Sự khác biệt giữa thời gian dự kiến và thời gian
thực sự nhận được là jitter
Trang 21Ví dụ Jitter
• Trong hình trên, ta
có thể thấy rằng số lượng thời gian cần cho gói A và B để gửi và nhận bằng
nhau (D1 = D2) Gói
C gặp sự chậm trễ trong mạng, tuy
nhiên, cũng được
nhận sau khi được mong đợi
Trang 22Jitter
• Đây là lý do tại sao một bộ đệm jitter, cái mà che giấu biến inter-arrival thể chậm, là cần thiết
• Gói tin voice trong các mạng IP có gói biến khoảng
interarrival cao Khuyến khích thực hành là để đếm số lượng các gói tin rằng đến trễ và tạo ra một tỷ lệ của các gói dữ liệu về số lượng các gói dữ liệu được xử lý thành công
• Có thể sử dụng tỷ lệ này để điều chỉnh bộ đệm jitter để nhắm mục tiêu chọn một tỷ lệ, cho phép định trước gói tin cuối
• Điều này thích ứng của bộ đệm kích thước jitter là hiệu quả trong việc đền bù cho sự chậm trễ
Trang 23Echo (Tiếng vang)
• Nghe tiếng nói trong máy nhận dùng loa trong khi nói chuyện bằng VoIP rất phổ biến Nghe lại tiếng nói của mình trong loa với một độ trễ gây ảnh hưởng cuộc đàm thoại.
• Echo có hai nhược điểm: Nó có thể lớn, và nó có thể
được dài Các echo to hơn và dài hơn trở nên khó chịu hơn.
• Mạng lưới điện thoại ở những nơi trên thế giới mà tiếng nói tương tự được sử dụng chủ yếu được sử dụng loại
bỏ echo, trong đó loại bỏ echo bởi suất trở kháng trên một mạch.
Trang 24• Trong một số mạng lưới truyền thống, echo thường gây ra do không phù hợp trong trở kháng từ bốn dây mạng chuyển mạch chuyển đổi để hai vòng dây cục bộ
• Echo, trong các tiêu chuẩn PSTN, được quy định với việc loại
bỏ echo và kiểm soát chặt chẽ trên một trở kháng không phù hợp tại các điểm phản xạ phổ biến,
Echo (Tiếng vang)
Trang 25• Trong gói dữ liệu trên mạng ngày nay, có thể xây dựng
cancellers echo thành codec tỷ lệ bit thấp và vận hành chúng trên mỗi hệ thống
• Trong việc triển khai một số nhà sản xuất, hủy bỏ echo được thực hiện trong phần mềm; thực hành này làm giảm mạnh lợi ích của việc hủy bỏ echo
Echo (Tiếng vang)
Trang 26• Để loại bỏ tiếng vang từ dòng này, người sử dụng điện thoại là nói chuyện qua (router A) giữ một hình ảnh ngược của bài
phát biểu của một người sử dụng trong một khoảng thời gian nhất định Điều này được gọi là nghịch đảo nói (G) Điều này cho canceller echo lắng nghe những âm thanh đến từ người sử dụng B và trừ các G để loại bỏ bất kỳ echo.
Trang 27Echo
cancellers
• Cancellers Echo được giới hạn bởi thời gian tổng cộng đợi cho bài phát
biểu phản ánh được nhận, một hiện tượng được gọi là đuôi echo Cisco có đuôi echo cấu hình của 16, 24, 32, 64, và 128 ms.
• Điều quan trọng để cấu hình hủy bỏ echo khi khởi tạo cài đặt ban đầu thiết
bị VoIP Nếu không cấu hình đủ hủy bỏ echo, người gọi sẽ nghe vang trong điện thoại Nếu cấu hình hủy bỏ quá nhiều echo, nó sẽ kéo dài lâu hơn cho canceller echo để hội tụ và loại bỏ echo.
Trang 28Packet Loss (Mất gói tin)
• Khi đặt giọng nói trên các mạng dữ liệu, điều quan trọng
để xây dựng một mạng thành công là có thể vận chuyển bằng giọng nói một cách đáng tin cậy và kịp thời Ngoài
ra, nó là hữu ích khi có thể sử dụng một cơ chế để làm cho tiếng nói phần nào khả năng chống mất gói định kỳ.
• Nếu một gói bằng giọng nói không nhận được khi dự kiến (thời gian dự kiến là biến), nó được giả định là bị mất và các gói dữ liệu cuối cùng nhận được là replayed Bởi vì các gói dữ liệu bị mất chỉ 20 ms của lời nói, người nghe trung bình không nhận thấy sự khác biệt về chất lượng
giọng nói.
Trang 29• Điều che giấu là chạy lại gói cuối cùng nhận được (trong
trường hợp này, gói 3), vì vậy nghe không nghe thấy những khoảng trống của sự im lặng
• Bởi vì mất chỉ 20 ms, người nghe nhiều khả năng
không nghe thấy sự khác biệt
Trang 30Packet Loss (Mất gói tin)
• Nếu liên tiếp các gói dữ liệu bị mất, các chiến lược che giấu là chỉ chạy một lần cho đến khi gói khác là nhận được
• Với các chiến lược che giấu của G.729, G.729 chịu được đến khoảng bình quân năm phần trăm mất gói giữa một cuộc gọi
Trang 31Phát hiện hoạt động giọng nói
Voice Activity Detection
• Trong cuộc hội thoại bằng giọng nói bình thường, có người nói và
người khác lắng nghe Số mạng ngày nay chứa một bi-directional,
64.000 bit / giây (bps) kênh, bất kể là ai nói
• Điều này có nghĩa rằng trong một chuyện bình thường, ít nhất 50 phần trăm của tổng số băng thông là lãng phí Số lượng băng thông lãng phí trên thực tế có thể cao hơn nhiều nếu tham gia một mẫu thống kê của các vi phạm và tạm dừng ở các mô hình phát biểu của một người bình thường.
• Khi sử dụng VoIP, có thể sử dụng từ "lãng phí" băng thông cho các mục đích khác khi hoạt động phát hiện giọng nói (VAD) được kích hoạt
Trang 33Chất lượng dịch vụ -
Quality of Service (QoS)
• Chất lượng dịch vụ (QoS) là tập hợp các chỉ tiêu đặc trưng cho yêu cầu của từng loại lưu lượng cụ thể trên mạng bao gồm: độ trễ, jitter, tỷ lệ mất gói
• Các chỉ tiêu chất lượng dịch vụ liên quan đến lượng băng thông dành cho mạng
• Để tối thiểu thời gian trễ của các gói thoại so với các gói của các dịch vụ khác, các gói thoại được truyền bởi giao thức UDP (User Datagram Protocol) Giao thức UDP không cung cấp cơ chế truyền lại do vậy gói thoại sẽ được xử lý nhanh hơn
Trang 34QoS cho các ứng dụng VoIP
• QoS có thể giúp giải quyết các vấn đề như mất mát gói tin,
sự mất ổn định, và quản lý độ trể
• Một trong số những vấn đề QoS không thể giải quyết được
là độ trể truyền sóng, độ trễ mã hóa và giải mã, độ trễ lấy mẫu, và độ trễ số hóa
• Ứng dụng VoIP là một ứng dụng quan trọng và đòi hỏi phải lập kế hoạch để đảm bảo rằng các dịch vụ thích hợp mức độ thỏa thuận (SLA) có thể được đáp ứng
Trang 35Các công cụ hỗ trợ cho QoS
• Dùng giao thức tối giản: Compressed Real-Time Transport Protocol (cRTP)
• Quản lý băng thông
• Sử dụng các công cụ hàng đợi (Queuing)
Trang 36Những giới hạn về băng thông
• Mối quan tâm đầu tiên khi thiết kế một mạng VoIP đó là
những giới hạn băng thông
• Tùy lọai Codec nào sử dụng và số lượng mẫu âm thanh trên một gói tin, mà lượng băng thông trên mỗi cuộc gọi có thể tăng một cách đáng kể Để giải thích việc kích thước gói tin
và lượng băng thông tiêu thụ , xem bảng bên dưới:
Trang 37Sử dụng băng thông
Bandwidth Consumed with cRTP (2-Byte
Trang 38Giao thức cRTP
Compressed Real Time Transport Protocol
• Để giảm một lượng lớn tỉ lệ băng thông tiêu thụ trong liên kết WAN Point-to-point bởi một cuộc thoại G.729, có thể
sử dụng giao thức cRTP
• cRTP cho phép nén 40 byte header IP/RTP/UDP đến 2-4 byte trên hầu hết thời gian
Trang 39Gói tin trong giao thức cRTP Figure 8-2 RTP Header Compression
Trang 40
Giao thức cRTP
• Với cRTP, lượng truy cập trên mỗi cuộc gọi VoIP được
giảm từ 24 kbps còn 11.2 kbps Đây là một cải tiến lớn cho liên kết dải thông thấp
• Ví dụ, một liên kết 56 kbps bây giờ có thể thưc hiện 4 cuộc thoại VoIP G.729 tại mỗi 11.2 kbps, nếu không có cRTP, chỉ có 2 cuộc thoại G.729 tại 24 kbps được sử dụng
• Để tránh việc tiêu thụ không cần thiết những băng thông có sẵn, cRTP được sử dụng vào một liên kết như một liên kết
cơ sở
Trang 41Giao thức cRTP
• Kỹ thuật nén này làm giảm header IP/RTP/UDP đến
2 byte khi chế độ checksums UDP không được sử
dụng, hoặc 4 byte khi checksums UDP sử dụng
• cRTP sử dụng một số kỹ thuật tương tự như nén
Header TCP Trong nén Header TCP, yếu tố giảm tốc
độ xử lý dữ liệu xảy ra bởi vì một nữa số byte trong Header IP và TCP vẫn không đổi trong quá trình kêt nối
Trang 42HẾT BÀI 4