Trên phương diện khác, phương pháp biểu diễn tín hiệu theo tham số được xem xét đến trên khía cạnh biểu diễn tín hiệu tiếng nói như đầu ra của hệ thống tạo tiếng nói.. Điều này có nghĩa
Trang 1ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ MỸ LỆ
NGHIÊN CỨU KỸ THUẬT MÃ HÓA TIẾNG NÓI
VÀ PHƯƠNG PHÁP THÁM
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN, NĂM 2015
Trang 2ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
HƯỚNG DẪN KHOA HỌC: TIẾN SỸ HỒ VĂN CANH
THÁI NGUYÊN, NĂM 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan, những nội dung liên quan tới đề tài được trình bày trong luận văn là do bản thân tự nghiên cứu, tổng hợp dưới sự hướng dẫn khoa học của
TS Hồ Văn Canh Các nhận xét, kết luận được trích dẫn đầy đủ theo bản gốc
Tôi xin chịu trách nhiệm trước pháp luật lời cam đoan của mình
Thái Nguyên, ngày 8 tháng 10 năm 2015
Học viên viên thực hiện
Lê Mỹ Lệ
Trang 4thầy cô, gia đình, bạn bè
Với lòng biết ơn sâu sắc nhất, em xin gửi tới quý Thầy/cô thuộc Viện Công nghệ Thông tin-Viện Hàn lâm Khoa học và Công nghệ Việt Nam và Thầy/cô thuộc
ĐH Thái Nguyên - Trường Đại học Công nghệ Thông tin và Truyền thông đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho chúng em
trong suốt thời gian học tập tại trường Em xin chân thành cảm ơn Ts Hồ Văn Canh
đã hướng dẫn em trong quá trình làm luận văn
Quá trình thực hiện và hoàn thành luận văn kiến thức của em con hạn chế và nhiều bỡ ngỡ Do vậy, không tránh khỏi những thiếu sót là điều chắc chắn, em rất mong nhận được những ý kiến đóng góp quý báu của quý Thầy Cô và các bạn học cùng lớp để kiến thức của em trong lĩnh vực này được hoàn thiện hơn
Sau cùng, em xin kính chúc quý Thầy Cô và đặc biệt là Ts Hồ Văn Canh thật
dồi dào sức khoẻ, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau
Trân trọng!
Thái Nguyên, ngày 8 tháng 10 năm 2015
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC TỪ VIẾT TẮT vi
DANH MỤC BẢNG BIỂU, ĐỒ THỊ vii
MỞ ĐẦU 1
Chương 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 3
1.1 Mở đầu 3
1.2 Tổng quan bộ máy phát âm 3
1.2.1 Bộ máy phát âm 3
1.2.2 Cơ chế phát âm 4
1.3 Biểu diễn tín hiệu tiếng nói 5
1.3.1 Xác định tần số lấy mẫu 7
1.3.2 Nén tín hiệu tiếng nói 8
1.4 Đặc tính của tiếng nói 9
1.4.1 Âm hữu thanh 9
1.4.2 Âm vô thanh 9
1.4.3 Âm vị 10
1.4.4 Nguyên âm 10
1.4.5 Phụ âm 10
1.4.6 Các đặc tính khác 10
1.5 Mô hình tạo tiếng nói 12
1.6 Kỹ thuật xử lý tiếng nói cơ bản 15
1.6.1 Tổng hợp tiếng nói 15
1.6.2 Nhận dạng tiếng nói 16
1.6.3 Phương pháp ghép nối 19
1.7 Mã hoá tham số tín hiệu 21
1.8 Kết luận chương 22 Chương 2: TỔNG QUAN CÁC PHƯƠNG PHÁP MÃ HÓA VÀ THÁM MÃ
Trang 6TIẾNG NÓI 23
2.1 Mã hoá vùng thời gian 23
2.1.1 Công nghệ PCM 23
2.2 Mã hoá vùng tần số (Frequence Domain Coding of speech) 27
2.3 Mã hoá dải nhỏ(Sbc) 28
2.4 Mã hoá biến đổi thích nghi (ATC) 30
2.5 Mã hoá tham số nguồn (resourd parameters method) 31
2.5.1 Bộ mã hoá nguồn theo kênh 32
2.5.2 Phương pháp dự đoán tuyến tính LPC 33
2.6 Mã hoá theo hệ mật mã khoá đối xứng AES 34
2.6.1 Giới thiệu khái quát 35
2.7 Các phương pháp mã hoá khác 43
2.7.1 Phương pháp mã hoá DPCM ( Điều xung mã vi sai) 44
2.7.2 Phương pháp DM ( điều chế delta) 45
2.7.3 Phương pháp mã hoá ADPCM 46
2.8 Phép biến đổi Fourier 46
2.8.1 Sự hội tụ của phép biến đổi Fourier 46
2.8.2 Phép biến đổi Fourier rời rạc (Discriete Fourier Transform - DFT) 47
2.8.3 Phép biến đổi fourier nhanh (FFT) 47
2.8.4 Quan hệ giữa biến đổi Z và biến đổi Fourier 48
2.8.5 Phép biến đổi Fourier ngược 49
2.8.6 Các tính chất của phép biến đổi Fourier 49
2.9 Tổng quát phương pháp thám 50
2.9.1 Tấn công bản mã khi đã có từ giả định 50
2.9.2 Tấn công bản mã khi không có đoạn tiếng nói gốc cho trước (không có từ giả định) đối với hệ thống phép hoán vị cố định 51
2.9.3 Tấn công vào bản mã khi thay đổi hệ thống phép hoán vị 54
2.10 Kết luận chương 57
Chương 3: ỨNG DỤNG HỆ MẬT MÃ AES TRONG MÃ HOÁ TIẾNG NÓI 59 3.1 Các khái niệm và quy ước 59
3.2 Sơ đồ luồng thực hiện 60
Trang 73.2.1 Chi tiết các bước thực hiện quá trình mã hóa 61
3.2.2 Cấu trúc lớp trong chương trình 61
3.3 Phương pháp thám 61
3.3.1 Bước 1: Phân loại bản mã 63
3.3.2 Bước 2 : Xác định mã pháp 64
3.4 Đề mô chương trình 67
KẾT LUẬN 68
DANH MỤC TÀI LIỆU THAM KHẢO 69
Trang 8DANH MỤC TỪ VIẾT TẮT
ADC Analog Digital Converter
ADM Adaptive Delta Modulation
ADPCM Adaptive Differential Pulse Code Modulation AES Advanced Encryption Standard
CSR Continuous Speech Recognition
DCT Discrete cosine transform
DFT Discrete furier transform
DHT Discrete wash – Had transform
Trang 9DANH MỤC BẢNG BIỂU, HÌNH VẼ
Danh mục bảng biểu:
Bảng 1.1 Giá trị tần số cơ bản của con người 11
Bảng 2.1 Chia dải tần của tiếng nói bằng phương pháp Sbc 29
Bảng 2.2 Bảng thế S-BOX của AES 40
Bảng 2.3 Việc tấn công vào bản mã (có từ giả định) 51
Bảng 2.4 Tỷ lệ % của các thành phần qua 2 phép biến đổi DCT và DFT 53
Bảng 2.5 Lược đồ phân bố vị trí thành phần đối với tiếng nói mã hóa bằng cách sử dụng lược đồ DCT 53
Bảng 2.6 Đo khoảng cánh thể hiện(c/minh) chất lượng tiếng nói 54
Danh mục hình: Hình 1 1 Bộ máy phát âm con người 4
Hình 1.2 Biểu diễn tín hiệu tiếng nói 6
Hình 1.3 Thông lượng cho các phương pháp biểu diễn tiếng nói 7
Hình 1.4 Mô hình hoá nguồn âm đối với âm hữu thanh 12
Hình 1.5 Chuỗi 5 đoạn ống âm học lý tưởng 13
Hình 1.6 Các biểu diễn lý học và toán học 14
Hình 1.7 Mô hình số của hệ thống phát âm 14
Hình 1.8 Một vài ứng dụng xử lý tiếng nói 15
Hình 1.9 Cấu trúc cơ bản của một bộ tổng hợp Formant nối tiếp 18
Hình 1.10 Cấu trúc cơ bản của một bộ tổng hợp Formant song song 18
Hình 1.11 Sự phân tầng bộ mã hoá tiếng nói 20
Hình 2.1 Cấu hình cơ bản của phương pháp thông tin PCM 24
Hình 2.2 Quá trình lấy mẫu 25
Hình 2.3 Tạp âm lượng tử theo biên độ tín hiệu đầu vào 26
Hình 2.4 Đặc tính nén và giãn 27
Hình 2.5 Sơ đồ bộ mã hóa và giải mã dải nhỏ 30
Hình 2.6 Mô tả State trong thuật toán mã hóa AES được biểu diễn dạng ma trận 4x4 36
Hình 2.7 Lưu đồ mã hóa của thuật toán mã hóa AES 37
Trang 10Hình 2.8 Lưu đồ thực hiện SB và ISB 38
Hình 2.9 Biến đổi SubBytes () đối với mảng trạng thái 39
Hình 2.10 Lưu đồ thực hiện SR 41
Hình 2.11 Quá trình xử lý MixColumns 41
Hình 2.12 Mô tả bước trong Key scheduling 43
Hình 2.13 Sơ đồ mã hóa và giải mã DPCM 44
Hình 2.14 Sơ đồ mã hóa và giải mã AD 45
Hình 3.1 Lưu đồ cấu trúc lặp của thuật toán mã hóa AES 59
Hình 3.2 Sơ đồ mã hoá tiếng nói bằng AES - áp dụng FFT 60
Hình 3.3 Quy trình giải mã AES 62
Trang 11MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu
Những nghiên cứu đầu tiên về nhận dạng tiếng nói đã xuất hiện từ những năm
1950, với hệ thống nhận dạng các chữ số riêng biệt cho 1 người nói của Davis, Bidulph, và Balashek tại phòng thí nghiệm Bell Và đến những năm 1980 thì các hệ thống nhận dạng tiếng nói đã được hoàn thiện với những thuật toán hiện đại Những hệ thống với vốn từ vựng lớn, độ chính xác cao, nhận dạng tiếng nói liên tục, nhận dạng câu, cũng đã được xây dựng thành công Và đến ngày nay, ngày càng nhiều các quốc gia thành công trong việc nghiên cứu các hệ thống tự động nhận dạng tiếng nói (ASR – Automatique Speech Recognition)
Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một công cụ
vô cùng hữu ích trợ giúp con người xử lý thông tin Cùng với sự phát triển của xã hội, khối lượng thông tin mà máy tính cần xử lý tăng rất nhanh trong khi thời gian dành cho những công việc này lại giảm đi Vì vậy, việc tăng tốc độ xử lý thông tin, trong đó có tốc độ trao đổi thông tin giữa con người và máy tính, trở thành một yêu cầu cấp thiết Hiện tại, giao tiếp người-máy được thực hiện bằng các thiết bị như bàn phím, chuột, màn hình, với tốc độ tương đối chậm nên cần có các phương pháp trao đổi thông tin mới giúp con người làm việc hiệu quả hơn với máy tính Một trong những hướng nghiên cứu này là sử dụng tiếng nói trong trao đổi thông tin người-máy Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó
có tổng hợp tiếng nói Tổng hợp tiếng nói là lĩnh vực đang được nghiên cứu khá rộng rãi trên thế giới và đã cho những kết quả khá tốt
Và vì vậy, cũng giống như các dữ liệu thông tin khác, tiếng nói cũng cần được bảo mật, nhất là trong một số lĩnh vực Ta biết rằng phương pháp bảo mật thông tin có hiệu quả nhất chính là phương pháp mã hoá Hầu hết các nước trên thế giới khi trao đổi thông tin trên kênh truyền thông hoặc lưu chúng trong các bộ nhớ máy tính trên mạng
Trang 12đều sử dụng phương thức mã hoá Có nhiều loại Hệ mật mã khác nhau nhưng chúng đều có chung một tính chất bảo mật thông tin Trong mỗi hệ mật mã đó có nhiều loại như: mã hoá bản text, mã hoá hình ảnh, mã hoá tiếng nói, mã hoá dữ liệu,… Ở nước ta,
Cơ quan chịu trách nhiệm chính nghiên cứu, phát triển và ứng dụng các hệ mật mã là Ban Cơ yếu Chính phủ Trước đây nó là một Ban trực thuộc Chính phủ nay trực thuộc
Bộ Quốc phòng Mấy năm gần đây, do nhu cầu an toàn - bảo mật thông tin ngày càng tăng, nhiều trường Đại học và Học viện đã có một số đề tài nghiên cứu vấn đề này, chủ yếu là dùng cho Thương mại Một nội dung rất quan trọng chưa được các trường Đại học hay Học viện quan tâm nhiều là mã hoá hình ảnh hay mã hoá tiếng nói Trong lúc
đó, mã hoá tiếng nói đóng một vai trò quan trọng và cần thiết trong lực lượng vũ trang của chúng ta Đặc biệt là trong hải quân và trong các đơn vị chiến đầu ở chiến trường
Được sự gợi ý của Thầy hướng dẫn em đã chọn đề tài: “ Nghiên cứu kỹ thuật
mã hoá tiếng nói và phương pháp thám.” làm đề tài tốt nghiệp luận văn cao học của
em
Nội dung của luận văn gồm: phần mở đầu, ba chương chính, kết luận và tài liệu tham khảo, cụ thể:
Phần mở đầu: Trình bày lý do chọn đề tài, mục tiêu, đối tượng và phạm vi
nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu, phương pháp nghiên cứu
Chương 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
Chương 2 TỔNG QUAN CÁC PHƯƠNG PHÁP MÃ HÓA VÀ THÁM MÃ
TIẾNG NÓI
Chương 3 ỨNG DỤNG HỆ MẬT MÃ AES TRONG MÃ HOÁ TIẾNG NÓI Phần kết luận: Tóm tắt các kết quả đạt được và đề cập những hạn chế bất cập
của đề tài
Trang 13Chương 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
1.1 Mở đầu
Tiếng nói là một phương tiện trao đổi thông tin của con người Tiếng nói được tạo ra từ tư duy của con người: trung khu thần kinh điều khiển hệ thống phát âm làm việc tạo ra âm thanh Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính
âm học có nguồn gốc từ cơ chế tạo tiếng nói.Về bản chất, tiếng nói là sự dao động của không khí có mang theo thông tin Các dao động này tạo thành những áp lực đến tai, được tai phát hiện, phân tích và chuyển kết quả đến trung khu thần kinh Lúc này tại trung khu thần kinh, thông tin được tái tạo lại dưới dạng tư duy logic mà con người có thể hiểu được
Tín hiệu tiếng nói được tạo thành bởi các chuỗi các âm vị liên tiếp Sự sắp xếp của các âm vị được chi phối bởi các quy tắc của ngôn ngữ Việc nghiên cứu một cách chi tiết về những quy tắc này cũng như những khía cạnh khác bên trong tiếng nói thuộc
về chuyên ngành ngôn ngữ Việc phân loại các âm vị của tiếng nói thuộc về chuyên ngành ngữ âm học Khi nghiên cứu các mô hình toán học của cơ chế tạo tiếng nói, việc nghiên cứu về các âm vị là rất cần thiết
Mỗi người bình thường đều có một hệ thống phát ra âm thanh, hay tiếng nói Không khí được đưa vào phổi thông qua cơ chế hít thở thông thường, sau đó được đẩy
từ phổi qua khí quản và làm rung các dây thanh quản Các dòng khí được ngắt thành các dao động tuần hoàn khi đi qua khoang họng, khoang miệng, và cả khoang mũi Tuỳ thuộc vào vị trí khác nhau của các bộ phận phát âm (hàm, lưỡi, môi, miệng ) mà các
âm thanh khác nhau được phát ra
1.2 Tổng quan bộ máy phát âm
1.2.1 Bộ máy phát âm
Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh quản, và các đường dẫn miệng, mũi Trong đó:
- Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần thiết
để tạo ra âm thanh
- Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh quản
Trang 14- Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm miệng, có độ dài cố định khoảng 12cm đối với người lớn
- Vòm miệng là các nếp cơ chuyển động
Hình 1 1 Bộ máy phát âm con người
1.2.2 Cơ chế phát âm
Quá trình phát âm của con người được mô tả như sau:
Áp lực tạo ra từ phổi làm cho các thanh quản phát ra các rung động Lỗ giãn giữa các thanh quản gọi là thanh môn, thanh môn giống như một nút cổ chai, không khí
đi qua đây sẽ có áp suất thay đổi đột ngột tạo thành xung lực, ảnh hưởng của thanh môn chính là sự phóng các chuỗi không khí bị nén đến các hốc cộng hưởng âm với tần
số thay đổi theo sự giãn nở này (do thần kinh điều khiển) Luồng khí xuyên qua các hốc, phản xạ lên các vật chắn (là các bộ phận giới hạn cơ quan phát âm như các cơ), đi qua các hốc cộng hưởng cuối cùng phát ra ở môi và lỗ mũi dưới dạng sóng áp lực, còn gọi là sóng áp lực âm thanh tiếng nói Thanh quản có thể bị làm cứng, hoặc nới lỏng (do thần kinh điều khiển các cơ) để thay đổi tốc độ dãn
Cơ quan chắn giữa khoang mũi và khoang miệng hoạt động như một cổng giữa hốc âm mũi và hốc âm miệng, nó có thể đóng để cô lập hay mở để kết hợp với hốc âm miệng một cách hài hoà trong các tình huống khác nhau (ví dụ như khi hát, khi nói chuyện, khi nói thầm) và trong các ngôn ngữ khác nhau (ví dụ Tiếng pháp thường phát
ra nhiều âm mũi hơn Tiếng việt)
Lưỡi, quai hàm, răng, môi được thay đổi vị trí không gian để thay đổi hình dạng (tức là thay đổi tần số cộng hưởng) của hốc âm miệng, sóng áp lực âm thanh phát ra từ
Trang 15miệng phụ thuộc vào sự liên kết giữa các âm phát ra và sự suy hao trên các cơ quan phản xạ
Sóng áp lực âm thanh tồn tại dưới dạng sự di chuyển liên tục của các luồng khí, khi đến cơ quan thính giác thì được phản ánh qua các thông số: độ rõ, âm sắc, độ cao,
độ lớn của âm
Cơ quan phát âm được kích thích bởi luồng khí từ phổi, nguồn kích thích này có thể tạo ra âm kêu hoặc không kêu âm kêu ứng với quá trình sau: Thanh đới dao động tại tần số gọi là “tần số căn bản”, hay còn của âm, có thể trực tiếp kiểm tra bằng cách đặt ngón tay vào cổ họng khi nói, nếu có sự rung động sang tay thì đó là âm kêu
Còn âm không kêu ứng với quá trình sau: Khi thanh đới không dao động, tức là
bị “làm cứng” bởi các cơ, luồng khí hoặc cũng được phát ra cơ quan phát âm hoặc bị thanh môn chặn lại hiệu ứng của chúng là có sự hỗn loạn của các luồng khí đi qua các
cơ quan
Bởi vậy trong thời gian xem xét sóng âm thanh phát ra là sự kết hợp của âm thanh và âm vô thanh
1.3 Biểu diễn tín hiệu tiếng nói
Sản phẩm của các quá trình xử lý tín hiệu tiếng nói phải được phản ánh bởi chính con người thông qua cơ quan thính giác Các thông tin của thính giác liên quan đến vấn đề mã hoá tín hiệu là:
Thính giác có tính quán tính: Đáp ứng của thính giác với tác động của âm thanh không phải là ngay tức thì, mà là có tính trễ, các thí nghiệm đã cho kết quả với môi trường truyền âm bình thường sau khi bắt đầu khoảng 200-ms thính giác mới xác định âm lượng của nó khi âm ngừng cảm nhận còn âm kéo dài chừng 150-200-ms thính giác không phân biệt được hai âm giống nhau đi liền nhau khoảng nhỏ hơn 50-
ms, tức là có hiện tượng che lấp của âm, phải qua tác động vài chu kỳ thì tai người mới
“quen” với cao độ của âm (tần số cao hay thấp)
- Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai tai với hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khi tiến hành kiểm tra hệ thống
- Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu không phải là tỉ lệ thuận với độ rộng dải tần, ảnh hưởng của nó là méo âm thanh do
Trang 16thêm thành phần sóng hài, không gây ra sai lệch cho người nghe bằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phần tần số không bội
- Đặc điểm về giới tính, lứa tuổi thậm trí cả yếu tố dân tộc: tức là những yếu
tố trên là khác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trước khi đưa ra đánh giá
Tín hiệu tiếng nói là tín hiệu tương tự Do đó khi biểu diễn tín hiệu tiếng nói trong môi trường tính toán của tín hiệu số, việc biểu diễn và lưu trữ sao cho không bị mất mát thông tin là vấn đề hết sức quan trọng trong các hệ thống thông tin có sử dụng tín hiệu tiếng nói Việc xem xét các vấn đề xử lý tín hiệu tiếng nói trong các hệ thống này dựa trên ba vấn đề chính:
- Biểu diễn tín hiệu tiếng nói dạng số
- Cài đặt các kỹ thuật xử lý
- Các lớp ứng dụng dựa trên kỹ thuật xử lý tín hiệu số
Phần này trình bày vấn đề biểu diễn tiếng nói dưới dạng số Mô hình tổng quát
các phương pháp biểu diễn tín hiệu tiếng nói được trình bày trên hình 1.1
Hình 1.2 Biểu diễn tín hiệu tiếng nói
Trên phương diện khác, phương pháp biểu diễn tín hiệu theo tham số được xem xét đến trên khía cạnh biểu diễn tín hiệu tiếng nói như đầu ra của hệ thống tạo tiếng nói Để thu được các tham số biểu diễn, bước đầu tiên của phương pháp này lại thường
là biểu diễn tín hiệu theo dạng sóng Điều này có nghĩa là tín hiệu tiếng nói được lấy mẫu và lượng tử hoá giống như phương pháp biểu diễn tín hiệu tiếng nói dạng sóng, sau đó tiến hành xử lý để thu được các tham số của tín hiệu tiếng nói của mô hình tạo
Trang 17tiếng nói nêu trên Các tham số của mô hình tạo tiếng nói này thường được phân loại thành các tham số tín hiệu nguồn (có quan hệ mật thiết với nguồn của tiếng nói) và các tham số của bộ máy phát âm tương ứng (có quan hệ mật thiết với giọng nói của từng người) Hình 1.3 chỉ ra những sự khác nhau của một số dạng biểu diễn tín hiệu tiếng nói theo các yêu cầu của thông lượng (bits/s):
Hình 1.3 Thông lượng cho các phương pháp biểu diễn tiếng nói
Đường phân cách ở giữa (tương ứng với thông lượng 15.000 bits/s) chia khoảng
dữ liệu thành hai phần riêng biệt: phần thông lượng cao dành cho dạng biểu diễn tín hiệu dạng sóng ở phía trái và phần thông lượng thấp ở bên phải dành cho biểu diễn tín hiệu dạng tham số Hình trên chỉ ra sự thay đổi trong khoảng từ 75 bits/s (xấp xỉ thông lượng khi tổng hợp văn bản) cho tới thông lượng trên 200.000 bits/s cho các dạng biểu diễn sóng đơn giản Điều này cho phép biểu diễn từ 1 đến 3.000 cách cho thông lượng tuỳ thuộc vào tín hiệu nói cần biểu diễn Tất nhiên là thông lượng không chỉ phụ thuộc tín hiệu cần biểu diễn mà nó còn phụ thuộc vào các yếu tố khác như giá thành, sự mềm dẻo của phương pháp biểu diễn, chất lượng của tiếng nói Vì tiếng nói là tín hiệu liên tục nên để áp dụng các phương pháp xử lý tín hiệu thì tiếng nói phải được biểu diễn dưới dạng rời rạc Quá trình rời rạc hoá tín hiệu tiếng nói bao gồm các bước sau:
- Lấy mẫu tín hiệu tiếng nói với tần số lấy mẫu f0
- Lượng tử hoá các mẫu với các bước lượng tử q
- Mã hoá và nén tín hiệu
1.3.1 Xác định tần số lấy mẫu
Khi lấy mẫu một tín hiệu tương tự với tần số lấy mẫu f0 cần đảm bảo rằng việc khôi phục lại tín hiệu đó từ tín hiệu rời rạc tương ứng phải thực hiện được
Trang 18Shanon đã đưa ra một định lý mà theo đó người ta có thể xác định tần số lấy mẫu đảm bảo yêu cầu trên Theo Shanon, điều kiện cần và đủ để khôi phục lại tín hiệu tương tự từ tín hiệu đã được rời rạc hoá với tần số f0 là: f0≥ fMAX với fMAX là tần số lớn nhất của tín hiệu tương tự Phổ của tín hiệu tiếng nói trải rộng trong khoảng 12kHz, do đó theo định lý Shanon thì tần số lấy mẫu tối thiểu là 24kHz Với tần số lấy mẫu lớn như thế thì khối lượng bộ nhớ dành cho việc ghi âm sẽ rất lớn và làm tăng sự phức tạp trong tính toán Nhưng chi phí cho việc xử lý tín hiệu số, bộ lọc, sự truyền và ghi âm có thể giảm đi nếu chấp nhận giới hạn phổ bằng cách cho tín hiệu qua một bộ lọc tần số thích hợp Đối với tín hiệu tiếng nói cho điện thoại, người ta thấy rằng tín hiệu tiếng nói đạt chất lượng cần thiết để mức độ ngữ nghĩa của thông tin vẫn bảo đảm khi phổ được giới hạn ở 3400Hz Khi đó tần số lấy mẫu sẽ là 8000Hz Trong kỹ thuật phân tích, tổng hợp hay nhận dạng tiếng nói, tần số lấy mẫu
có thể dao động trong khoảng 6.000 - 16.000Hz Đối với tín hiệu âm thanh (bao gồm cả tiếng nói và âm nhạc) tần số lấy mẫu cần thiết là 48kHz
Lượng tử hoá: Việc biểu diễn số tín hiệu đòi hỏi việc lượng tử hoá mỗi mẫu tín hiệu với một giá trị rời rạc hữu hạn Mục tiêu của công việc này hoặc là để truyền tải hoặc là xử lý có hiệu quả Trong trường hợp thứ nhất mỗi mẫu tín hiệu được lượng tử hoá, mã hoá rồi truyền đi Bên thu nhận tín hiệu giải mã và thu được tín hiệu tương tự Tính thống kê của tín hiệu được bảo toàn sẽ ảnh hưởng quan trọng đến thuật toán lượng tử hoá Trong trường hợp xử lý tín hiệu, luật lượng tử hoá được quy định bởi hệ thống xử lý, nó có thể được biểu diễn bằng dấu phẩy tĩnh hay dấu phẩy động Việc xử lý bằng dấu phẩy động cho phép thao tác với tín hiệu khá mềm dẻo mặc dù chi phí tính toán cao Việc xử lý bằng dấu phẩy tĩnh đơn giản hơn nhiều nhưng đòi hỏi các điều kiện chặt chẽ đối với các thuật toán xử lý
1.3.2 Nén tín hiệu tiếng nói
Lượng tử hoá tín hiệu gây ra các lỗi có thành phần giống nhiễu trắng, như vậy
số bước lượng tử cần được phân bố theo tỷ lệ trên lỗi thích hợp Nếu số bước lượng tử
là cố định thì tỷ số này là hàm của biên độ tín hiệu, người ta sử dụng luật lượng tử logarithm và mỗi mẫu tín hiệu được biểu diễn bằng 8 bit Đối với tín hiệu âm thanh kích thước mẫu thường là 16 bit Một đặc trưng cần thiết của phép biểu diễn tín hiệu số
là tốc độ nhị phân tính bằng bit/s Đó là giá trị quan trọng trong khi thực hiện truyền dữ liệu cũng như lưu trữ dữ liệu
Trang 19Đường truyền điện thoại có tốc độ là 8(kHz)*8(bit)=64kb/s Khi thực hiện truyền và ghi lại tín hiệu âm thanh, tốc độ cần thiết 768 kb/s Ta biết rằng tín hiệu tiếng nói có độ dư thừa rất lớn, do đó có thể giảm tốc độ tín hiệu tuỳ thuộc mục đích xử lý khi xem xét đến mức độ phức tạp của các thuật toán cũng như xem xét đến chất lượng của việc biểu diễn tín hiệu tiếng nói Có nhiều kỹ thuật đưa ra để đạt được các mục đích trên Sự lựa chọn một phương pháp biểu diễn số tín hiệu thoả mãn giữa các tiêu chuẩn về chất lượng của của phép biểu diễn, tốc độ lưu truyền hay lưu trữ và cuối cùng
là các điều kiện môi trường (như nhiễu, ) Thông thường số bit có nghĩa dùng để biểu diễn chuỗi lượng tử cần phải giảm bớt vì lý do kỹ thuật Việc này có thể thực hiện được bằng cách bỏ đi các bit ít có nghĩa nhất, nếu phép lượng tử là tuyến tính, lỗi lượng tử tăng cùng với khoảng giá trị của chuỗi Nhưng đối với một vài ứng dụng, mức lượng
tử ở vùng tần số cao có yêu cầu thấp hơn so với mức lượng tử ở vùng tần số thấp hay ngược lại, trong trường hợp đó cần sử dụng toán tử tuyến tính để biến đổi tín hiệu Kỹ thuật truyền tin trong điện thoại thường sử dụng luật nén tín hiệu theo đường cong logarithm Có hai luật nén được sử dụng phổ biến hiện nay là luật μ và luật A
1.4 Đặc tính của tiếng nói
1.4.1 Âm hữu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau đó thanh môn xẹp xuống do không khí chạy qua Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần như tuần hoàn Phổ của âm hữu thanh có nhiều thành phần hài tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản (pitch)
1.4.2 Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộng hưởng Âm vô thanh có hai loại
cơ bản là âm xát và âm tắc Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong tuyến âm Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên Thông thường điểm co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít đến đặc tính của âm xát được tạo ra Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một
số điểm làm cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột Sự giải phóng đột ngột này tạo ra kích thích nhất thời của tuyến âm Sự kích thích này có thể
Trang 20xảy ra với sự cộng hưởng hoặc không cộng hưởng của dây thanh tương ứng với âm tắc hữu thanh hoặc vô thanh
1.4.3 Âm vị
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ
và được mô tả bởi các âm vị khác nhau Như vậy, âm vị là đơn vị nhỏ nhất của ngôn ngữ Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiều hay ít (thông thường
số lượng các âm vị vào khoảng 20 – 30) Các âm vị được chia thành hai loại: nguyên
âm và phụ âm
1.4.4 Nguyên âm
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định
1.4.5 Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Phụ âm có đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để tạo nên cộng hưởng không Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc Phụ âm xát được phát
ra từ chỗ co thắt lớn nhất
1.4.6 Các đặc tính khác
1.4.6.1 Tỷ suất thời gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen kẽ nhau Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là tỷ suất thời gian Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay nói bình thường
1.4.6.2 Hàm năng lượng thời gian ngắn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia tín hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu Các khung này được đưa qua một cửa sổ có dạng hàm như sau:
Trang 21Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming, cửa sổ Hanning và cửa sổ chữ nhật Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh
1.4.6.3 Tần số cơ bản
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như tuần hoàn) Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều hòa Tần
số thấp nhất chính là tần số cơ bản và cũng chính là tần số dao động của dây thanh Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau Dưới đây là một số giá trị tần số cơ bản tương ứng với giới tính và tuổi:
Giá trị tần số cơ bản Người nói
Trang 22có liên hệ chặt chẽ với hình dạng và kích thước tuyến âm Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, các formant còn lại cũng có ảnh hưởng song rất ít Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điều kiện phát âm nhất định Mặc dù phạm vi của các tần số formant tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng vị trí giữa các formant là không đổi vì sự
xê dịch của các formant là song song
1.5 Mô hình tạo tiếng nói
Nhằm đơn giản hoá việc phân tích và nghiên cứu bộ máy phát âm, người ta chia
bộ máy phát âm ra làm hai phần cơ bản: nguồn âm và hệ thống đáp ứng
Hệ thống đáp ứng bao gồm thanh môn, tuyến âm, môi và mũi Việc mô hình hoá này sử dụng hàm truyền đạt trong biến đổi Z
Đối với các âm hữu thanh, nguồn âm là một dạng sóng tuần hoàn đặc biệt Dạng sóng này được mô phỏng bởi đáp ứng của bộ lọc thông thấp có hai điểm cực thực và tần số cắt vào khoảng 100 Hz
Hình 1.4 Mô hình hoá nguồn âm đối với âm hữu thanh
Đối với âm vô thanh nguồn âm là một nhiễu trắng với biên độ biến đổi gần như ngẫu nhiên Để tạo tiếng nói, người ta dùng các mô hình khác nhau để mô phỏng bộ máy phát âm Theo quan điểm giải phẫu học, ta có thể giả thiết rằng tuyến âm được biểu diễn bằng một chuỗi M đoạn ống âm học lý tưởng, là những đoạn ống có độ dài bằng nhau, và từng đoạn riêng biệt có thiết diện mặt cắt là Am (gọi tắt là thiết diện) khác nhau theo chiều dài đoạn ống Tổ hợp thiết diện {Am} của các đoạn ống được chọn sao cho chúng xấp xỉ với hàm thiết diện A(x)của tuyến âm
Trang 23Hình 1.5 Chuỗi 5 đoạn ống âm học lý tưởng
Các đoạn ống được coi là lý tưởng khi:
- Độ dài mỗi đoạn đủ nhỏ so với bước sóng âm truyền qua nó được coi là sóng phẳng
- Các đoạn đủ cứng sao cho sự hao tổn bên trong do dao động thành ống, tính dính và đẫn nhiệt không đáng kể
Ngoài ra ta giả thiết thêm mô hình tuyến âm lúc này là tuyến tính và không nối với thanh môn, hiệu ứng của tuyến mũi được bỏ qua, ta sẽ có mô hình tạo tiếng nói lý tưởng và việc phân tích mô hình ống âm học trở nên phức tạp hơn Tiếp theo chúng ta
có thể thấy rằng mô hình này có nhiều tính chất chung với mạch lọc số nên nó có thể được biểu diễn bằng cấu trúc mạch lọc số với các tham số thay đổi phù hợp với sự thay đổi tham số của ống âm học Sự chuyển động của không khí trong một đoạn ống âm học có thể được mô tả bằng áp suất âm thanh và thông lượng, đó là những hàm phụ thuộc độ dài ống (x) và thời gian (t) Trong những đoạn riêng biệt đó, các giá trị của hai hàm này được coi là tổ hợp tuyến tính các giá trị của chúng đối với sóng thuận và sóng ngược (được ký hiệu lần lượt bằng dấu cộng ‘+’ và dấu trừ ‘-’) Sóng thuận là sóng truyền từ thanh môn đến môi, trong khi sóng ngược lại truyền lừ môi đến thanh môn Nếu đoạn thứ m chúng ta xét có thiết diện Am thì hàm thông lượng và hàm áp suất của đoạn này là:
Ở đây:
- um, um là sóng thuận và sóng ngược
- c là tốc độ âm thanh
- ρ là mật độ không khí trong đoạn
- x=0 vị trí trung tâm của đoạn
Trang 24Mối quan hệ giữa sóng thuận và sóng ngược trong những đoạn kế tiếp phải đảm bảo áp suất và thông lượng liên tục cả về thời gian và không gian tại mọi điểm trong hệ thống Trong hình 1.6.a ta thấy khi sóng thuận trong một đoạn gặp phần thay đổi về thiết diện (mối nối giữa hai đoạn kế tiếp), một phần của nó truyền sang đoạn kế tiếp, một phần kia lại phản xạ dưới dạng sóng ngược Hoàn toàn tương tự, khi sóng ngược gặp mối nối, một phần được chuyển tiếp sang đoạn trước đó, còn phần kia lại phản xạ lại dưới dạng sóng thuận
Hình 1.6 Các biểu diễn lý học và toán học
a Mô hình lý học giữa đoạn ống m và m+1
b Mô hình toán học giữa đoạn ống thứ m
Hình 1.7 Mô hình số của hệ thống phát âm
Trang 25Tuyến âm được coi như một chuỗi liên tiếp các ống âm học và được mô hình hoá bởi một chuỗi gồm Kbộcộng hưởng Khi đó hàm truyền đạt của tuyến âm có dạng:
Mỗi bộ cộng hưởng sẽ tạo ra một formant được đặc trưng bởi tần số trung tâm, tính theo công thức:
1.6 Kỹ thuật xử lý tiếng nói cơ bản
Dựa trên cơ sở lựa chọn các cách biểu diễn tín hiệu và phương pháp xử lý, đã có rất nhiều các ứng dụng quan trọng đã được triển khai Hình vẽ dưới đây sẽ chỉ ra một
số ứng dụng trong lĩnh vực xử lý tiếng nói
Hình 1.8 Một vài ứng dụng xử lý tiếng nói
1.6.1 Tổng hợp tiếng nói
Tổng hợp tiếng nói là phát sinh tiếng nói từ sóng tiếng nói Trong vài thập niên gần đây, các bộ tổng hợp tiếng nói có chất lượng ngày càng cao.Tuy nhiên chất lượng của các phương pháp hiện nay mới chỉ đạt đến mức phù hợp cho một vài ứng dụng, chẳng hạn như đa phương tiện và truyền thông Hiện nay có ba phương pháp tổng hợp tiếng nói Phương pháp đơn giản nhất để phát sinh tiếng nói tổng hợp là phát các mẫu tiếng nói đã thu từ tiếng nói tự nhiên (như các từ hoặc câu) Phương pháp này cho chất lượng tương đối tốt nhưng gặp phải hạn chế là số lượng từ vựng trong cơ sở dữ liệu rất lớn Bên cạnh đó tiếng nói cũng có thể tạo ra bằng cách mô phỏng hệ thống phát âm Phương pháp này cho chất lượng rất tốt nhưng thực hiện khá phức tạp Một phương
Trang 26pháp nữa cũng được dùng để tổng hợp tiếng nói là tổng hợp formant Các phương pháp tổng hợp tiếng nói cùng với những đặc điểm cơ bản nhất sẽ được giới thiệu trong phần tiếp theo
Tổng hợp tiếng nói là quá trình tạo ra tín hiệu âm thanh bằng cách điều khiển một mô hình mẫu với một tập các tham số Nếu mô hình mẫu này và các tham số được xây dựng một cách hoàn hảo thì tiếng nói tổng hợp có thể giống với tiếng nói tự nhiên Hiện có hai phương pháp tổng hợp tiếng nói:
1.6.1.1 Tổng hợp tiếng nói theo cách phát âm
Đây là cách tiếp cận trực tiếp để mô hình hoá hệ thống một cách chi tiết Trong phương pháp này hệ thống tổng hợp được mô phỏng giống như quá trình tạo ra âm thanh và lan truyền âm thanh trong hệ thống phát âm của con người Hướng nghiên cứu này vẫn đang tiếp tục và cho một số kết quả nhất định Phương pháp này có thể tạo ra hầu hết các tiếng nói tự nhiên
1.6.1.2 Tổng hợp đầu cuối tự nhiên
Theo hướng mô hình hoá này, người ta dựa trên các đặc tính đáp ứng tần số của dây thanh và tuyến âm để mô phỏng lại cơ chế tạo tiếng nói Mô hình này gọi là
mô hình nguồn-lọc Bộ tổng hợp tiếng nói theo hướng này được thực hiện bằng cách sử dụng hệ thống tương tự với cơ chế tạo tiếng nói tại những điểm quan sát
Cơ quan phát âm được mô hình hoá thành một hệ thống bao gồm một nguồn âm biểu diễn cho thanh môn và một bộ lọc biểu diên cho tuyến âm Quá trình tổng hợp
sẽ bao gồm hai phần cơ bản:
- Tổng hợp tín hiệu nguồn dựa vào tần số cơ bản và tính chất tuần hoàn của nguồn
- Xây dựng lại hàm truyền đạt của tuyến âm (bao gồm cả mũi và miệng) dựa vào các tham số đặc trưng cho tuyến âm Hiện nay người ta thường sử dụng hai bộ tham số đặc trưng cho tuyến âm (các bộ tham số này có thể được tổng kết từ các quá trình phân tích tiếng nói):
+ Bộ tham số formant
+ Bộ tham số của bộ lọc đảo
1.6.2 Nhận dạng tiếng nói
Nhận dạng tiếng nói là lĩnh vực nghiên cứu với mục đích tạo ra được một thiết
bị, máy móc hoặc phần mềm có khả năng nhận biết một cách chính xác tiếng nói của
Trang 27con người từ bất kỳ một nguồn phát âm nào Nhận dạng tiếng nói có hai ứng dụng chính là nhận dạng tiếng nói và nhận dạng người nói
về ngữ nghĩa Nhận dạng ngữ nghĩa bao gồm nhận dạng từ và nhận dạng câu
1.6.2.2 Nhân dạng người nói
Trong thế giới ngày nay tồn tại nhiều hệ thống yêu cầu độ an toàn bảo mật cao
Từ đó nảy sinh ra yêu cầu phải nhận dạng được người nói bằng những đặc điểm riêng biệt mà không ai có thể sao chép được Bên cạnh các cách thức nhận dạng qua chữ ký, ảnh chân dung, chữ viết , ngày nay người ta còn dùng tiếng nói để nhận dạng bởi vì tiếng nói có những đặc tính riêng biệt với từng người Tại một số công ty đã xuất hiện những hệ thống kiểm tra người qua cửa bằng nhận dạng tiếng nói hoặc nhận dạng mỗi người qua thẻ nhận dạng mà những thông tin lưu trữ trên thẻ chính là đặc điểm về tiếng nói của người đó
Nguyên tắc của nhận dạng người nói là sử dụng những từ khoá đã được xác định từ trước mà những từ khoá này đặc trưng cho từng người một Có hai yếu tố để khẳng định sự khác nhau trong tiếng nói của mỗi người:
- Các đặc tính cơ quan phát âm khác nhau như: độ dài của tuyến âm, tần số cộng hưởng của dây thanh, các tần số formant, dải thông, sự biến đổi của đường bao phổ Đó là tập hợp những đặc tính có liên quan đến tính độc lập của nội dung âm vị của từ ngữ
- Sự khác nhau trong cách phát âm của từng người: tốc độ và chiều dài từ luôn luôn khác nhau Trong tất cả các đặc tính trên đường bao phổ và tần số cơ bản là hai đặc tính quan trọng nhất Đường bao phổ được miêu tả bằng những giá trị trung bình của các bộ lọc thông dải, của các tần số formant, của các hệ số tiên đoán tuyến tính, của
hệ số cepstre và các tham số khác
1.6.2.3 Phương pháp mô phỏng hệ thống phát âm
Phương pháp mô phỏng hệ thống phát âm (articulatory synthesis) cố gắng mô phỏng hệ thống phát âm của con người một cách hoàn hảo nhất, do đó có thể đạt tới
Trang 28chất lượng cao trong tổng hợp tiếng nói Nhưng cũng chính vì vậy mà phương pháp này khó có thể thực hiện được, vì việc mô phỏng hệ thống phát âm của con người rất khó thực hiện Sau khi phương pháp tổng hợp Formant ra đời thì phương pháp mô phỏng hệ thống phát âm ít khi được sử dụng trong các hệ thống Nhưng từ khi có sự xuất hiện của máy tính thì nó lại được phát triển
1.6.2.4 Phương pháp tổng hợp Formant
Phương pháp tổng hợp formant (formant synthesis) yêu cầu phải tổng hợp được tối thiểu 3 formant để hiểu được tiếng nói, và để có được tiếng nói chất lượng cao thì cần tới 5 formant Tiếng nói được tạo ra từ các bộ tổng hợp formant với thành phần chính là các bộ cộng hưởng Tuỳ theo cách bố trí các bộ cộng hưởng mà ta có bộ tổng hợp formant là nối tiếp hay song song
Bộ tổng hợp formant nối tiếp
Bộ tổng hợp formant nối tiếp là một bộ tổng hợp formant có các tầng nối tiếp, đầu ra của bộ cộng hưởng này là đầu vào của bộ cộng hưởng kia
Hình 1.9 Cấu trúc cơ bản của một bộ tổng hợp Formant nối tiếp
Bộ tổng hợp formant song song
Bộ tổng hợp formant song song bao gồm các bộ cộng hưởng mắc song song Đầu ra là kết hợp của tín hiệu nguồn và tất cả các formant Cấu trúc song song cần nhiều thông tin để điều khiển hơn
Hình 1.10 Cấu trúc cơ bản của một bộ tổng hợp Formant song song
Trang 29Tổng hợp formant là một phương pháp tổng hợp cho chất lượng chấp nhận được nhưng nếu yêu cầu chất lượng cao thì phương pháp này chưa đáp ứng được
1.6.3 Phương pháp ghép nối
Tổng hợp bằng cách ghép nối các âm được tổng hợp từ các lời nói tự nhiên
đã được thu từ trước có lẽ là cách dễ nhất để sản sinh lời nói Phương pháp tổng hợp ghép nối cho chất lượng cao và tương đối tự nhiên Phương pháp này rất phù hợp với các hệ thống phát thanh và các hệ thống thông tin Tuy nhiên phương pháp này thường chỉ áp dụng cho một giọng và phải sử dụng nhiều bộ nhớ hơn các phương pháp khác do số lượng từ vựng rất lớn Để khắc phục nhược điểm này người ta xây dựng các phương pháp tổng hợp ghép nối từ những đơn vị nhỏ như âm vị, âm tiết, diphone (âm vị kép) Ngoài các diphone, chúng ta còn sử dụng triphone, tetraphone hay syllable, demisyllable, nhưng chủ yếu vẫn là các diphone, được thu
từ tiếng nói tự nhiên Các diphone được cắt ra từ tín hiệu rồi sau đó được tổng hợp lại theo yêu cầu dựa trên một thuật toán ghép nối Phương pháp này có một số khác biệt so với các phương pháp khác:
- Xuất hiện sự biến dạng của tiếng nói tổng hợp do tính không liên tục của việc ghép nối các diphone với nhau Vì vậy phải sử dụng biện pháp làm trơn tín hiệu
- Bộ nhớ yêu cầu cao, nhất là khi các đơn vị kết nối dài như là các âm vị hay các từ
- Sưu tầm và gắn nhãn dữ liệu tiếng nói cần nhiều thời gian và công sức Về
lý thuyết tất cả các mẫu cần phải được lưu trữ Số lượng và chất lượng các mẫu lưu trữ là một vấn đề cần giải quyết khi tiến hành lưu trữ Hiện nay phương pháp này đang được sử dụng rộng rãi trên thế giới và ngày càng cho chất lượng tốt hơn nhờ
sự trợ giúp của máy tính Phần tiếp theo sẽ giới thiệu về một phương pháp tổng hợp ghép nối được áp dụng phổ biến cho tín hiệu tiếng nói, phương pháp ghép nối dựa trên giải thuật PSOLA
1.6.3.1 Mã hoá tín hiệu tiếng nói
Như trên đã phân tích các bản chất của tín hiệu tiếng nói với mô hình cho cơ quan phát âm, nhìn chung xử lý tín hiệu tiếng nói trong viễn thông có thể dùng điều biến tương tự, tuy nhiên kỹ thuật này đã trở nên lỗi thời, hiện nay chúng ta đều dùng kỹ thuật số cho tất cả các loại tín hiệu do vậy tín hiệu tiếng nói cũng phải xem xét trong
Trang 30mô hình số Như vậy bản chất của mã hoá tín hiệu thoại chỉ là xử lý số thông thường Các phương pháp tiếp cận đối tượng khác nhau cho ta các phương pháp mã hoá khác nhau, căn cứ vào cách tiếp cận đối tượng ta chia các phương pháp mã hoá như hình sau:
Hình 1.11 Sự phân tầng bộ mã hoá tiếng nói
1.6.3.2 Mã hoá trực tiếp tín hiệu
Phương pháp mã hoá trực tiếp hay phổ tín hiệu cho phép biểu diễn một cách trung thực nhất tín hiệu Mã hoá trực tiếp thực chất là biểu diễn mỗi mẫu tín hiệu hay phổ tín hiệu độc lập khác với các mẫu khác Một hệ thống mã hoá tín hiệu khá phổ biến hiện nay theo phương pháp này thực hiện trong miền thời gian là mã hoá xung PCM (Pulse Code Mudulation) Để bảo đảm biểu diễn tín hiệu đạt chất lượng cao phải bảm bảo được thông lượng cần thiết Do tần số lấy mẫu đã được cố định, muốn giảm được thông lượng này phải giảm số bit dùng biểu diễn một mẫu Muốn vậy phải áp dụng luật lượng tử phù hợp với thống kê bậc một của tín hiệu, nghĩa là phù hợp với mật độ phân
bố và sự thay đổi của tín hiệu Hệ thống PCM có thể giảm thông lượng xuống còn 64 kb/s Cũng theo hướng này người ta dùng hàm tự hồi quy để thực hiện nén tín hiệu Khi đó mỗi mẫu mới của tín hiệu tiếng nói lại không chứa các đặc điểm hoàn toàn mới,
nó chắc chắn có liên quan đến các mẫu trước đó Như vậy mỗi mẫu tín hiệu tiếng nói, bằng nhiều phương pháp có thể tiên đoán nhờ một số mẫu trước đó, khi đó chỉ cần tính toán sai số dự đoán và biến đổi Tại nơi nhận tín hiệu, một phép biến đổi ngược lại được thực hiện và người ta thấy rằng hệ số khuếch đại của hệ thống đối với thông lượng là hàm chất lượng của phép tiên đoán Các hệ thống hoạt động theo nguyên tắc này có:
Trang 31- DPCM (Differential PCM): Hệ thống PCM dùng phép tiên đoán cố định Thay vì truyền mẫu tín hiệu, phương pháp này truyền đi các hệ số tiên đoán và sai
số dự đoán
- ADPCM (Adaptive DPCM): Hệ thống PCM dùng phép tiên đoán thích nghi
Hệ thống này là hệ thống cải tiến của hệ thống DPCM, người ta sẽ dùng hàm tự hồi quy trong thời gian ngắn để tính toán các hệ số tiên đoán với một đoạn mẫu tín hiệu khoảng 20 ms Những tính toán này thực hiện trong thời gian thực
Biểu diễn số của tín hiệu có thể thực hiện trong cả miền tần số bằng cách mã hoá biến đổi Fourier của tín hiệu Trong miền tần số, phép mã hoá trực tiếp ít được áp dụng Các kỹ thuật giảm bớt thông lượng được thực hiện bằng cách giảm độ dư thừa tự nhiên của tín hiệu tiếng nói trên phổ tín hiệu Theo phương pháp này người ta dùng cách mã hoá băng thấp hay mã hoá thích nghi theo biến đổi ATC
1.7 Mã hoá tham số tín hiệu
Để giảm hơn nữa thông lượng của tiếng nói tới khoảng giá trị 2000 – 3000 b/s, cần phải dùng các kết quả nghiên cứu về phương thức tạo ra tiếng nói con người Có nhiều phương pháp cho phép đánh giá các tham số của mô hình tạo tiếng nói bao gồm hàm đặc trưng của tuyến âm và các đặc trưng của nguồn âm Tín hiệu tiếng nói được coi gần như dừng trong khoảng thời gian là 20ms; như vậy các tham số được tính toán lại sau 20 ms và được thực hiện trong thời gian thực Người ta thấy rằng việc truyền tham số này cho phép thông lượng giảm xuống còn khoảng 2500b/s Phương pháp mã hoá này gọi là phương pháp mã hoá nguồn tham số tín hiệu Một tập hợp các tham số khi truyền hay lưu trữ đặc trưng cho phổ thời gian ngắn, có nghĩa là nó chỉ được chấp nhận trong một thời gian hạn chế Tai người rất nhạy cảm với các phổ thời gian này, do
đó có thể cho rằng tai người có thể phân biệt được một số hữu hạn các phổ thời gian ngắn Giả sử M = 2B Như vậy với mỗi phổ thời gian ngắn, ta gán cho nó một giá trị biểu diễn bằng một từ B bit và từ này sẽ được truyền đi hay lưu trữ Bằng cách này thông lượng có thể giảm xuống còn 1000 b/s
Tín hiệu tổng hợp bằng mã hoá theo tham số các tín hiệu tiếng nói thường không bảo đảm chất lượng trong hệ thống điện thoại thông thường Giọng nói sẽ rất khó nhận ra trong trường hợp dùng phương pháp này Do đó kỹ thuật mã hoá này chỉ ứng dụng trong điện thoại di động và quân sự đây chính là điều mà luận văn của em
đề cập đến
Trang 321.8 Kết luận chương
Trong chương này đã mô tả khái quá quá trình tạo tiếng nói theo mô hình vật lý
và toán học; tổng quát các quá trình xử lý tiếng nói Qua kết quả nghiên cứu cho thấy, ngày nay dưới sự phát triển của công nghệ thông tin, vấn đề xử lý, bảo mật cơ sở dữ liệu đa phương (trong đó có tiếng nói) đóng vai trò quan trọng Do vậy, vấn đề tổng hợp và xử dữ liệu này đóng vai trò chính, nhất là việc mã hóa tiếng nói nhằm đáp ưng yêu cầu phát triển công nghệ nói chung và bảo mật tiếng nói trong môi trường “nhạy cảm” nói riêng
Trang 33Chương 2 TỔNG QUAN CÁC PHƯƠNG PHÁP MÃ HÓA
VÀ THÁM MÃ TIẾNG NÓI
2.1 Mã hoá vùng thời gian
Mã hoá là một quá trình so các giá trị rời rạc nhận được bởi quá trình lượng tử hoá với các xung mã Thông thường các mã nhị phân được sử dụng cho việc mã hoá là các mã nhị phân tự nhiên, các mã Gray (các mã nhị phân phản xạ), và các mã nhị phân kép Phần lớn các kí hiệu mã so sánh các tín hiệu vào với điện áp chuyển để đánh giá xem có các tín hiệu nào không
Như vậy, một bộ phận chuyển đổi D/A hoặc bộ giải mã là cần thiết cho việc tạo
ra điện áp chuẩn
2.1.1 Công nghệ PCM
2.1.1.1 Cấu hình cơ bản của kiểu truyền tin PCM
Mã hoá là quá trình biến đổi các giá trị rời rạc thành các mã tương ứng Nhìn chung, việc lấy mẫu liên quan tới quá trình biến đổi các tín hiệu liên tục thành các tín hiệu rời rạc của trường thời gian gọi là PAM (điều chế biên độ xung) Việc mã hoá là quá trình lượng tử hoá các giá trị mẫu này thành các giá trị rời rạc của trường biên độ
và sau đó biến đổi chúng thành mã nhị phân hay các mã ghép kênh Khi truyền thông tin mã, nhiều xung được yêu cầu cho mỗi giá trị lấy mẫu và vì thế độ rộng dải tần số cần thiết cho truyền dẫn phải được mở rộng Đồng thời xuyên âm, tạp âm nhiệt, biến dạng mẫu, mất xung mẫu, biến dạng nén, tạp âm mã hoá, tạp âm san bằng được sinh ra trong lúc tiến hành lấy mẫu và mã hoá Việc giải mã là quá trình khôi phục các tín hiệu
đã mã hoá thành các tín hiệu PAM được lượng tử hoá Quá trình này tiến hành theo thứ
tự đảo đúng như quá trình mã hoá Mặt khác quá trình lượng tử hoá, nén và mã hoá các tín hiệu PAM được gọi là quá trình mã hoá và quá trình chuyển đổi các tín hiệu PCM thành D/A, sau đó, lọc chúng sau khi giãn để đưa về tiếng nói ban đầu gọi là quá trình giải mã Cấu hình cơ sở của hệ thống truyền dẫn PCM đối với việc thay đổi các tín hiệu tương tự thành các tín hiệu xung mã để truyền dẫn được thể hiện ở hình (pcm1) Trước tiên các tín hiệu đầu vào được lẫy mẫu một cách tuần tự, sau đó được lượng tử hoá thành các giá trị rời rạc trên trục biên độ Các giá trị lượng tử hoá đặc trưng bởi các mã
Trang 34nhị phân Các mã nhị phân này được mã hoá thành các dạng mã thích hợp tuỳ theo đặc tính của đường truyền dẫn
Hình 2.1 Cấu hình cơ bản của phương pháp thông tin PCM
Thiết bị đầu cuối mã hoá chuyển đổi các tín hiệu thông tin như tiếng nói thành các tín hiệu số như PCM Khi các tín hiệu thông tin là các tín hiệu tương tự, việc chuyển đổi A/D được tiến hành và việc chuyển đổi D/D đợc tiến hành ở trường hợp của các tín hiệu số Đôi khi, quá trình nén và mã hoá băng tần rộng được tiến hành bằng cách triệt sự dư thừa trong quá trình tiến hành chuyển đổi A/D hoặc D/D)
2.1.1.2 Lấy mẫu
Nguyên tắc cơ bản của điều xung mã là quá trình chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành thông tin ban đầu Để tiến hành việc này, các phần tử thông tin được rút ra từ các tín hiệu tương
tự một cách tuần tự Quá trình này được gọi là công việc lấy mẫu
(a) Tín hiệu tiếng nói m(t)
(b) Xung lấy mẫu s(t)
(c) Chức danh lấy mẫu
(d) Tín hiệu PAM đã lấy mẫu
Trang 35Hình 2.2 Quá trình lấy mẫu
Theo thuyết lấy mẫu của Shannon, các tín hiệu ban đầu có thể được khôi phục khi tiến hành công việc lấy mẫu trên các phần tử tín hiệu được truyền đi ở chu kỳ hai lần nhan hơn tần số cao nhất Nói cách khác, khi độ rộng dải tần của tín hiệu được truyền đi gọi là BW, tỷ lệ lấy mẫu tới hạn là tỷ lệ Nyquitst trở thành Rmax = 2 x BW Các tín hiệu xung lấy mẫu là tín hiệu dạng sóng chu k, là tổng các tín hiệu sóng hài có đường bao hàm số sin đối với các tần số
2.1.1.3 Lượng tử hoá
PAM với biên độ tương tự chuyển đổi thành các tín hiệu số là các tín hiệu rời rạc sau khi đi qua quá trình lượng tử hoá Khi chỉ thị biên độ của tiếng nói liên tục với số lượng hạn chế, nó được đặc trưng với dạng sóng xấp xỉ của bước Tạp âm lượng tử NQ = Q - S tồn tại giữa dạng sóng ban đầu (S) và dạng sóng đã lượng tử (Q); nếu bước nhỏ tạp âm lượng tử được giảm đi nhưng số lượng bước đầu cần thiết cho lượng tử toàn bộ dải tín hiệu đầu vào trở nên rộng hơn Vì thế số lượng các dãy
số mã hoá tăng lên
Trang 36Hình 2.3 Tạp âm lượng tử theo biên độ tín hiệu đầu vào
Tạp âm tạo ra khi biên độ của các tín hiệu đầu vào vượt quá dãy lượng tử gọi là tạp âm quá tải hay tạp âm bão hoà S/NQ được sử dụng như một đơn vị để đánh giá những ưu điểm và nhược điểm của phương pháp PCM Khi số lượng các dãy số mã hoá trên mỗi mẫu tăng lên 1 bit, S/NQ được mở rộng thêm 6 dB
2.1.1.4 Sự nén và giãn
Như phương pháp tiến hành mã hoá hoặc giải mã, mã đường, mã không phải
mã đường và mã đánh giá có thể được lựa chọn theo các kiểu của nguồn thông tin Mã đường là một quá trình triệt số lượng tạp âm lượng tử sinh ra trên thông tin được gửi đi bất chấp mức đầu vào Nó được sử dụng trong một hệ thống ở đó giá trị tuyệt đối của
số lượng tạp âm là tới hạn hơn S/NQ Mã không phải là mã đường được sử dụng rộng dãi trong một hệ thống ở đó S/N của hệ thống thu được quan trọng hơn số lượng tuyệt đối của tạp âm như tiếng nói Khi bước lượng tử là một hằng số, S/N thay đổi theo mức tín hiệu Chất lượng gọi trở nên xấu hơn khi mức tín hiệu thấp Vì thế đối với các tín hiệu mức thấp, bước lượng tử được giảm và đối với các tín hiệu mức cao nó được tăng
để ít hoặc nhiều cân bằng S/N với mức tín hiệu đầu vào Những vấn đề trên được tiến hành bằng cách nén biên độ Một cách lý tưởng, đối với các tín hiệu mức thấp đường cong nén và giãn là truyến tính Đối với các tín hiệu mức cao chúng đặc trưng bởi đường cong đại số Hiện nay, ITU-T khuyến nghị luật μ (μ =255) là phương pháp 15 đoạn(các hệ thống của Hoa Kỳ và Nhật) và luật (A= 87,6) (các hệ thống của châu âu,
Trang 37trong đó có Việt nam) là phương pháp 13 đoạn như là phương pháp nén đoạn mà các hàm đại số được biểu diễn gần đúng với một vài đường tuyến tính
Ymax và Ymax là các biên độ lớn nhất của đầu vào
Hình 2.4 Đặc tính nén và giãn
Với việc sử dụng công nghệ nén được mô tả ở trên, những đặc tính tạp âm ở các tín hiệu mức thấp có thể được giảm đến mức hầu như giống với mức của mã tuyến tính 13 bits Một bộ nén - giãn đôi khi được nói tới như là một từ viết tắt kết hợp nén và bộ dãn
Cả hai phương pháp mã hoá và phương pháp nén là đồng thời được tiến hành qua bước nén số - số hoặc tự mã hoá mà không thêm những mạch riêng rẽ khác bởi sử dụng tính chất tuyến tính của phương pháp nén đoạn trong số
2.2 Mã hoá vùng tần số (Frequence Domain Coding of speech)
Các bộ mã hoá phạm vi tần số là một lớp của bộ mã hoá tiếng nói, nó lấy được những ưu điểm của các mô hình phát và thu tiếng nói mà không cần có các thuật toán
Trang 38phụ thuộc hoàn toàn vào các mô hình được sử dụng Trong cách này của các bộ mã hoá tín hiệu tiếng nói được chia thành một bộ (tập hợp) của các thành phần tần số, chúng được lượng tử hoá và mã hoá một cách riêng rẽ, các dải tần số khác nhau có thể được lập mã một các ưu tiên phù hợp với các tiêu chuẩn cảm nhận cho mỗi dải (chuẩn cảm nhận tức là muốn nói đến tiêu chuẩn chất lượng cho phương pháp chia dải - nó phụ thuộc vào chuẩn quốc gia, chuẩn hãng, ), như vậy nhiễu lượng tử hoá có thể được chứa bên trong dải và ngăn cản sự tạo nên những méo hoà âm bên ngoài dải Các sơ đồ
mà có ưu điểm là số bit sử dụng cho việc lập mã mỗi thành phần tần số có thể thay đổi một cách động và được chia sẻ giữa các dải tần khác nhau Nhiều thuật toán mã hoá phạm vi tần số, xắp xếp từ đơn giản đến phức tạp đã được sử dụng Các loại phổ biến nhất của mã hoá phạm vi tần số bao gồm mã hoá dải nhỏ (SCB) và mã hoá biến đổi khối (BTC) Trong khi một bộ mã dải nhỏ tín hiệu tiếng nói thành nhiều dải nhỏ hơn,
và lập mã mỗi dải nhỏ một cách riêng rẽ theo một chuẩn cảm nhận nào đó, thì bộ mã hoá biến đổi mã hoá sự biến đổi theo thời gian ngắn của một chuỗi được chia cửa sổ của các mẫu và lập mã chúng với số bit tỷ lệ với chuẩn “cảm nhận” của nó
2.3 Mã hoá dải nhỏ(Sbc)
Phương pháp này được dùng cho hệ thống điện thoại di động CT2 của Hàn Quốc Mã hoá dải nhỏ có thể nghĩ như là một phương pháp điều khiển và phân bố nhiễu lượng tử hoá thông qua phổ tín hiệu Lượng tử hoá là một hành động phi tuyến, sinh ra các sản phẩm của méo, được mở rộng một cách điển hình về phổ Cơ quan thính giác của con người không phát hiện sự méo lượng tử tốt như nhau tại mọi tần số (như đã nói ở phần đặc tính tín hiệu tiếng nói) Do đó, có thể đạt được một sự cải thiện đáng kể về mặt chất lượng, bằng cách mã hoá tín hiệu trong các dải hẹp hơn Trong một bột mã hoá dải nhỏ, tiếng nói được chia một cách điển hình thành bốn hay tám dải nhỏ bằng một dãy các bộ lọc, và mỗi dải nhỏ được lấy mẫu bởi tốc độ Nyquist thông dải (thấp hơn tốc độ lấy mẫu nguyên gốc) và được lập mã với sự chính xác khác nhau tuỳ thuộc vào chuẩn cảm nhận(không có khuyến nghị nên thường theo nghiên cứu của các hãng) Việc tách dải có thể làm theo nhiều cách Một trong các cách là chia toàn bộ dải tiếng nói thành các dải nhỏ không bằng nhau nhưng đóng góp chỉ số của đọ rõ đều bằng nhau Một cách chia dải tần của tiếng nói theo phương pháp này, được thực hiện như sau:
Trang 39Bảng 2.1 Chia dải tần của tiếng nói bằng phương pháp Sbc
Một cách mã hoá là chia dải tần tiếng nói chúng thành các dải nhỏ độ rộng bằng nhau và gán cho mỗi dải nhỏ số bit tỷ lệ với giá trị cảm nhận trong khi mã hoá chúng Thay cho việc chia thành các dải độ rộng bằng nhau, cũng thường dùng cách tách dải theo bát độ (ôcta) Vì tai người có độ nhậy giảm theo hàm mũ với tần số, việc tách kiểu này điều hưởng tốt hơn với quá trình cảm nhận Có nhiều phương pháp khác nhau để
xử lý các tín hiệu dải nhỏ Một cách hiển nhiên nhất là tạo nên sự dịch chuyển thông thấp của tín hiệu dải nhỏ với tần số 0 bằng một quá trình điều biến tương đương với điều biến đơn biên Loại dịch chuyển này làm dễ dàng việc giảm tốc độ lấy mẫu và có được những lợi ích khác vốn có do việc mã hoá các tín hiệu thông thấp
Hình dưới trình bày một cách đơn giản của phương pháp dịch chuyển thông thấp Tín hiệu lối vào được lọc bằng bộ lọc thông dải có độ rộng ωn đối với dải thứ n thì: thành phần ω1n là biên thấp của dải và ω2n là biên cao của dải Tín hiệu tổng sn(t) được điều chế biến bằng một sóng hình sin, cos(ω1nt) và được lọc bằng vộ lọc thông thấp hn(t) với độ rộng dải 0- ωn Tín hiệu tổng rn(t) tương ứng với loại dịch chuyển thông thấp của sn(t) có thể được biểu thị bằng: rn(t) = [Sn(t)cos(ωln(t)] x hn(t); trong đó
“x” ký hiệu toán tử chập
Nhưng với những tín hiệu rời rạc chứ không phải thoại tương tự ) thì sau khi qua bộ lọc thông thấp để tránh tiếng ồn không mong muốn thường dùng bộ thập phân (bộ triệt), theo một tỉ lệ thích hợp nào đó, vì vậy phía thu ta có bộ nội suy để khôi phục lại phần bị triệt này Tín hiệu này được lấy mẫu ở tốc dộ 2ωn Tin hiệu này sau đó được lập mã theo kiểu số hoá (có thể dùng một trong các phương thức đã bàn trên: AD, ADPCM, PCM, ) và được dồn kênh với các tín hiệu đã mã hoá từ các kênh khác ở bộ thu dữ liệu được phân kênh thành các kênh riêng rẽ, giải mã và dịch chuyên dải thông
để đánh giá rn(t) cho kênh thứ n