Tìm hiểu về kỹ thuật điều xung mã PCM trong mã hoá giọng nói
Trang 1KỸ THUẬT ĐIỀU XUNG MÃ PCM TRONG MÃ HÓA GIỌNG NÓI
I. Giới thiệu chung :
Tiếng nói là phương tiện chủ yếu mà con người sử dụng để liên lạc và giao tiếp hằng ngày Ngày nay khi các phương tiện truyền thông phát triển và số người sử dụng các phương tiện liên lạc tăng lên thì mã hoá tiếng nói được nghiên cứu và ứng dụng rộng rãi trong các cuộc gọi điện thoại truyền thống, gọi qua mạng di dộng, qua mạng Internet, qua vệ tinh, v.v
Mặc dù với sự phát triển của công nghệ truyền thông qua cáp quang đã làm cho băng thông không còn là vấn đề lớn trong giá thành của các cuộc gọi truyền thống Tuy nhiên, băng thông trong các cuộc gọi đường dài, các cuộc gọi quốc tế, các cuộc gọi qua vệ tinh hay các cuộc gọi di động thì cần phải duy trì băng thông ở một mức nhất định Vì vậy việc mã hoá tiếng nói là rất cần thiết, giúp giảm thiểu số lượng tín hiệu cần truyền đi trên đường truyền nhưng vẫn đảm bảo chất lượng của cuộc gọi
Trang 2Mô hình cơ học cơ quan phát âm của con người
Khi không khí bị ép từ phổi lên đi qua các dây thanh âm dao động (theo sự điều khiển của não bộ) và đi dọc theo cơ quan phát âm sẽ tạo ra tiếng nói Sự dao động của các dây thanh âm tạo ra sự đóng mở tương tự như một cánh cửa (thanh môn) Sự đóng mở này sẽ làm cho luồng không khí từ phổi đi lên bị ngắt quãng khác nhau, làm cho tiếng nói tạo ra cũng khác nhau Ngoài sự tác động của các dây thanh âm, tiếng nói tạo ra còn phụ thuộc vào sự thay đổi của cơ quan phát âm gồm: vòm họng, lưỡi, miệng, khoang mũi và mũi
Với mô hình cơ học như trên, có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng
có đường kính khác nhau
Mô hình dạng ống của cơ quan phát âm người
Chính hình dáng này đã tạo ra sự cộng hưởng âm thanh và các tần số cộng hưởng này gọi là các tần số formant Các tần số này tạo ra các âm vị khác nhau tuỳ theo hình dáng cơ quan phát âm Mô hình này có thể được biểu diễn một cách chính xác bằng một tập hợp các phương trình toán học [5] Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát
Trang 3âm thay đổi rất chậm , do đó trong một khoảng thời gian ngắn (trong một
âm vị) có thể xem như sự thay đổi là không đáng kể Vì vậy ta có thể biểu diễn cơ quan phát âm bằng một hệ thống tuyến tính bất biến theo thời gian; có nghĩa là suốt trong một âm vị, các tham số của hệ thống này sẽ gần như không đổi nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm
vị khác
Trong kỹ thuật mã hoá tiếng nói, dựa vào sự dao động của các dây thanh âm người ta chia tiếng nói ra thành hai loại âm chính sau đây:
+ Âm hữu thanh (voiced sound): âm hữu thanh được tạo ra khi các dây thanh âm dao động đóng mở làm ngắt quãng luồng không khí và sự ngắt quãng này được xem gần như là tuần hoàn tác động lên cơ quan phát
âm Theo thực nghiệm chu kì tuần hoàn này khoảng từ 2 -20ms Do đó với âm hữu thanh, tín hiệu kích thích được mô hình hoá là các xung tuần hoàn
+ Âm vô thanh (unvoiced sound): âm vô thanh được tạo ra khi
luồng không khí đi qua thanh môn tác động lên cơ quan phát âm không theo một qui luật nào cả (không tuần hoàn) Do đó với âm vô thanh, tín hiệu kích thích được mô hình hoá tương tự như một nhiễu
+ Formant là tần số cộng hưởng cơ bản của cơ quan phát âm,nó phụ thuộc vào cỡ,hình dạng của toàn bộ cơ quan phát âm Năng lượng của những tần số này được tăng cường do có sự phản xạ đồng thời của các thành phần khác,còn năng lượng ở những thành phần tần số khác có
khuynh hướng suy giảm đặc biệt là tại các tần số triệt tiêu ,năng lượng bị làm nhụt Quan sát trên máy phân tích phổ tần số cộng hưởng formant xuất hiện như một cái bướu
Trang 4Dạng sóng âm của tiếng nói Ngôn ngữ khác nhau trên thế giới chỉ là sự khác nhau giữa các tần số formant cho nên để xây dựng một hệ thống mã hóa tham số nguồn hiệu quả thì cần phải gắn cả yếu tố dân tộc ,ngôn ngữ vào đó
Phân tích bản chất quá trình phát âm không những giúp việc mã hóa tín hiệu tiếng nói mà còn đóng vai trò quan trọng trong quá trình tổng hợp tiếng nói , và nhận dạng tiếng nói.Cả ba lĩnh vực công nghệ này đều đang được Việt Nam rất quan tâm
Trang 53. Sự phân tầng bộ mã hóa giọng nói:
Mô hình phân tầng bộ mã hóa tiếng nói
Mã hoá dạng sóng: người ta chia mã hoá dạng sóng ra làm hai loại chínhTrong miền thời gian: mã hoá điều biến xung mã (PCM), điều biến xung mã sai lệch (DPCM) và điều biến xung mã sai lệch thích nghi (ADPCM).Trong miền tần số: mã hoá băng con SBC (subband coding) và mã hoá biến đổi thích nghi ATC (Adaptive Transform Coding)
Mã hoá nguồn sử dụng mô hình quá trình tạo ra nguồn tín hiệu
và khai thác các thông số của mô hình này để mã hoá tín hiệu
Trang 6Những thông số của mô hình sẽ được truyền đến bộ giải mã Đối với tiếng nói, các bộ mã hoá nguồn được gọi là vocoder hoạt động dựa trên mô hình cơ quan phát âm như đã nói ở trên và được kích thích với một nguồn nhiễu trắng đối với các đoạn tiếng nói vô thanh hoặc được kích thích bằng một dãy xung có chu kì bằng chu kì pitch đối với đoạn tiếng nói hữu thanh Do đó thông tin được gởi đến bộ giải mã là các thông số kỹ thuật của bộ lọc, một thông tin chỉ định đoạn tiếng nói là hữu thanh hay vô thanh, sự thay đổi cần thiết của tín hiệu kích thích và chu kì pitch nếu đó là đoạn tiếng nói hữu thanh
Có nhiều kỹ thuật để mã hoá nguồn như: mã hoá kênh, mã hoá formant, mã hoá tham số và mã hoá đồng hình Tuy nhiên, hiện nay chủ yếu tập trung vào nghiên cứu và phát triển các bộ mã hoá tham
số như mã hoá dự đoán tuyến tính kích thích bằng hai trạng thái (mã hoá LPC), mã hoá dự đoán tuyến tính có sự kích thích kết hợp
MELP và mã hoá dự đoán tuyến tính kích thích bằng tín hiệu sau dự đoán RELP Các bộ mã hoá tham số này thường dùng cho điện thoại qua vệ tinh và trong quân đội
Ngoài ra còn có mã hóa lai,mã hóa lai có nhiều phương pháp nhưng phương pháp phổ biến nhất là mã hoá phân tích bằng cách tổng hợp AbS (Analysis-by-Synthesis) Bộ mã hoá này cũng sử dụng mô hình cơ quan phát âm của người giống như mã hoá nguồn Tuy nhiên, thay vì sử dụng các mô hình tín hiệu kích thích đơn giản như mã hoá nguồn thì ở đây tín hiệu kích thích được chọn sao cho
cố gắng đạt được dạng sóng tiếng nói tái tạo càng giống với dạng sóng tiếng nói ban đầu càng tốt Đây chính là đặc tính phân biệt sự khác nhau giữa các bộ mã hoá kiểu AbS Thuật toán tìm ra dạng sóng kích thích này quyết định tới độ phức tạp của bộ mã hoá
Trang 7Chất lượng tiếng nói so với tốc độ bit của các bộ mã hóa
II. Mã hóa điều biến xung mã PCM :
Mã hóa là quá trình biến đổi các giá trị rời rạc thành các mã tương ứng Nhìn chung,việc lấy mẫu liên quan tới quá trình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thời gian gọi là
PAM(điều chế biên độ xung) Việc mã hóa là quá trình lượng tử hóa các giá trị mẫu này thành các giá trị rời rạc của trường biên độ và sau đó biến đổi chúng thành mã nhị phân hay các mã ghép kênh Khi truyền thông tin
mã ,nhiều xung được yêu cầu cho mỗi giá trị lấy mẫu và vì thế độ rộng dải tần số cần thiết cho truyền dẫn phải được mở rộng Đồng thời xuyên âm,tạp âm nhiệt, được sinh ra trong lúc tiến hành lấy mẫu và mã hóa Việc giải mã là quá trình khôi phục các tín hiệu đã mã hóa thành các tín hiệu PAM được lượng tử hóa Mặt khác quá trình lượng tử hóa,nén và mã hóa các tín hiệu PAM được gọi là quá trình mã hóa và quá trình chuyển đổi các tín hiệu PAM thành D/A,sau đó, lọc chúng sau khi giãn để đưa về tiếng nói ban đầu gọi là quá trình giải mã
Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việc thay đổi các tín hiệu tương tự thành các tín hiệu xung mã để truyền dẫn được
Trang 8thể hiện ở hỡnh dưới.
Trước tiờn cỏc tớn hiệu đầu vào được lấy mẫu một cỏch tuần tự ,sau đú được lượng tử húa húa thành cỏc giỏ trị rời rạc trờn trục biờn độ.Cỏc giỏ trị lượng tử húa đặc trưng bởi cỏc mó nhị phõn Cỏc mó nhị phõn này được mó húa thành cỏc dạng mó thớch hợp tựy theo đặc tớnh của đường truyền dẫn
Thiết bị đầu cuối mã hoá chuyển đổi các tín hiệu thông tin như tiếng nói thành các tín hiệu số như PCM Khi các tín hiệu thông tin là các tín hiệu tương tự, việc chuyển đổi A/D được tiến hành và việc chuyển đổi D/D được tiến hành ở trường hợp của các tín hiệu số Đôi khi, quá trình nén và mã hoá băng tần rộng được tiến hành bằng cách triệt sự dư thừa trong quá trình tiến hành chuyển đổi A/D hoặc D/D).
Với một bộ lượng tử dựng N bit từ mó,miền giỏ trị lượng tử được chia thành 2N mức, mỗi từ mó N bit tương ứng với 1 giỏ trị Khoảng cỏch giữa cỏc mức gọi là bước lượng tử Cỏc giỏ trị lượng tử cỏch đều nhau Bước lượng tử phải được chọn sao cho đủ nhỏ để cú thể tối thiểu nhiễu lượng
tử nhưng phải đủ lớn để miền giỏ trị của cả bộ lượng tử là thớch hợp.Nếu
N khụng đủ lớn thỡ việc cắt xộn tớn hiệu vượt qua miền giỏ trị sẽ xảy ra
Trang 9nhiều hơn Và chất lượng không phụ thuộc vào bước lượng tử mà còn phụ thuộc vào độ của tín hiệu lấy mẫu.Thông thường để đảm bảo chất lượng tiếng nói cần N cỡ 11 bit trở lên Điều này làm tốc độ bit lớn nên PCM đều ít được sử dụng trong thực tế.Ta sẽ không đi sâu vào tìm hiểu cách
mã hóa này mà sẽ tìm hiểu về PCM đối số( logarithm PCM)
Mục tiêu của phương pháp này là duy trì một tỷ số SNR ít thay đổi trong phạm vi giá trị biên độ Là một quá trình nén ,làm giảm miền giá trị đầu vào một cách đáng kể ,sau đó để giải nén là một quá trình mũ hóa để tái tạo lại tín hiệu nguyên thủy ban đầu
Quy trình :
chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành thông tin ban đầu Để tiến hành việc này ,các phần tử thông tin được rút ra từ các tín hiệu tương tự một cách tuần tự Quá trình này được gọi là công việc lấy mẫu
Theo thuyết lấy mẫu của Shannon,các tín hiệu ban đầu có thể được khôi phục khi tiến hành công việc lấy mẫu trên các phần tử tín hiệu được truyền đi ở chu kỳ hai lần nhan hơn tần số cao nhất
Nói cách khác ,khi độ rộng dải tần của tín hiệu được truyền đi gọi là BW,tỷ lệ lấy mẫu tới hạn là tỷ lệ Nyquitst trở thành Rmax = 2
x BW Các tín hiệu xung lấy mẫu là tín hiệu dạng sóng chu kỳ k,là
Trang 10tổng cỏc tớn hiệu súng hài cú đường bao hàm số sin đối với cỏc tần
số
PAM với biờn độ tương tự chuyển đổi thành cỏc tớn hiệu số là cỏc tớn hiệu rời rạc sau khi đi qua quỏ trỡnh lượng tử húa Khi chỉ thị biờn độ của tiếng núi liờn tục với số lượng hạn chế,nú được đặc trưng với dạng súng xấp xỉ của bước Tạp õm lượng tử NQ = Q – S tồn tại giữa dạng súng ban đầu (S) và dạng súng lượng tử (Q), nếu bước nhỏ tạp õm lượng tử được giảm đi nhưng số lượng bước đầu cần thiết cho lượng tử toàn bộ dải tớn hiệu đầu vào trở nờn rộng hơn Vỡ thế số lượng cỏc dóy số mó húa tăng lờn
Tạp õm tạo ra khi biờn độ của cỏc tớn hiệu đầu vào vượt qua dóy lượng
tử gọi là tạp õm quỏ tải hay tạp õm bóo hũa S/NQ được sử dụng như một đơn vị để đỏnh giỏ những ưu điểm và nhược điểm của phương phỏp
PCM Khi số lượng cỏc dóy số mó húa trờn mỗi mẫu tăng lờn 1 bit,S/NQ được mở rộng thờm 6dB
Như phương pháp tiến hành mã hoá hoặc giải mã, mã đường, mã không phải mã đường và mã đánh giá có thể được lựa chọn theo các kiểu của nguồn thông tin Mã đường là một quá trình triệt số lượng tạp âm
lượng tử sinh ra trên thông tin được gửi đi bất chấp mức đầu vào Nó được
sử dụng trong một hệ thống ở đó giá trị tuyệt đối của số lượng tạp âm là tới hạn hơn S/NQ Mã không phải là mã đường được sử dụng rộng dãi trong một hệ thống ở đó S/N của hệ thống thu được quan trọng hơn số lượng tuyệt đối của tạp âm như tiếng nói Khi bước lượng tử là một hằng số, S/N thay đổi theo mức tín hiệu Chất lượng gọi trở nên xấu hơn khi mức tín hiệu thấp Vì thế đối với các tín hiệu mức thấp, bước lượng tử được giảm và đối với các tín hiệu mức cao nó được tăng để ít hoặc nhiều cân bằng S/N với mức tín hiệu đầu vào Những vấn đề trên được tiến hành bằng cách nén biên độ Một cách lý tưởng, đối với các tín hiệu mức thấp đường cong nén
Trang 11và giãn là truyến tính Đối với các tín hiệu mức cao chúng đặc trưng bởi
đường cong đại số Hiện nay, ITU-T khuyến nghị luật u (u =255) là phương pháp 15 đoạn(các hệ thống của Hoa Kỳ và Nhật) và luật (A= 87,6) (các hệ thống của châu âu, trong đó có Việt nam) là phương pháp 13 đoạn như là phương pháp nén đoạn mà các hàm đại số được biểu diễn gần đúng với một vài đường tuyến tính.
Mó húa là quỏ trỡnh so cỏc giỏ trị rời rạc nhận được bởi quỏ trỡnh lượng
tử húa với cỏc xung mó
Thụng thường cỏc mó nhị phõn được sử dụng cho việc mó húa là cỏc
mó nhị phõn tự nhiờn,cỏc mó Gray(cỏc mó nhị phõn phản xạ),và cỏc mó nhị phõn kộp Phần lớn cỏc ký hiệu mó so sỏnh cỏc tớn hiệu vào với điện
ỏp chuyển để đỏnh giỏ xem cú cỏc tớn hiệu nào.Như vậy,một bộ phận chuyển đổi D/A hoặc bộ giải mó là cần thiết cho việc tạo ra điện ỏp
chuẩn Trong liờn lạc cụng cộng PCM,tiếng núi được biểu diễn với 8 bits Tuy nhiờn trong trường hợp của luật u,cỏc từ PCM được lập nờn như sau(8 bits)
Bit phõn cực = {0,1}
Bit phõn đoạn = {000,001, 111}
Bit phõn bước = {0000,0001,…,1111}
Từ đoạn thứ nhất của tớn hiệu “+” và tớn hiệu “-” là cỏc đường thẳng ,cú 15 phõn đoạn Cực “+” của dạng súng tớn hiệu tương ứng với bit phõn cực 0 và cực “-” với 1
Trang 12Mã hóa từ PCM Các từ PCM nhận được,được chuyển đổi thành các tín hiệu PAM bởi
bộ giải mã Ở phía thu,các xung tương ứng với mỗi kênh được chọn lọc
từ các dãy xung ghép kênh để tạo ra các tín hiệu PAM Rồi các tín hiệu tiếng nói được phục hồi bằng một bộ lọc thông thấp
Trang 13Quá trình giải mã
• Đánh giá theo phương pháp đánh giá trung bình MOS: được mô tả trong Khuyến nghị P.800 của ITU-T,MOS là một phép đo chất lượng thoại nổi tiếng Người ta sắp xếp chất lượng theo các cấp độ sau đây :
Trang 14Ta có thể thấy chuẩn mã hóa PCM được cho điểm cao nhất trong số các chuẩn mã hóa được chấm điểm ở trên Điều này cho thấy PCM cho ra chất lượng âm thanh tốt nhất
• PCM và các phương pháp mã hóa dạng sóng
khác(ADPCM,DPCM, ): PCM là phương pháp mã hóa đơn giản nhất trong các phương pháp mã hóa dạng sóng Cho đầu ra chất lượng âm thanh tốt hơn so với các phương pháp mã hóa dạng sóng khác
• PCM và các phượng pháp mã hóa tham số nguồn :
Chất lượng không phụ thuộc
nhiều vào nguồn tín hiệu,chất
lượng ổn định với phạm vi rộng
của các đặc trưng tiếng nói,và các
môi trường ồn khác nhau
Tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn định không cao
Trang 15Sử dụng phần mềm Cool Edit Pro : là một phần mềm chuyên dùng để thu
âm và mix nhạc Cho phép định dạng xuất của file âm thanh và kiểu mã hóa PCM,ADPCM,
Giao diện chính :
Trang 16 Lựa chọn các thông số cơ bản cho chất lượng âm thanh,ở đây chọn Rate 64000,Resolution 32 bit
Sau khi đã ghi âm xong,ta sẽ lưu lại file âm thanh này và chọn định dạng kèm theo chuẩn mã hóa
Ở đây file âm thanh trên đã được lưu lại với định dạng file
wma,ta có thể thấy sự khác nhau rất lớn về dung lượng file
giữa 2 cách mã hóa là PCM và ADPCM.
Khi phát hai file âm thanh trên thì chất lượng âm nghe được
hầu như là không khác nhau.
chuẩn mã hóa PCM như sử dụng trong các mạng điện thoại
cũng như hệ thống phát thanh.