hoá giố ng như phương pháp biể u diễ n tín hiệ u tiế ng nói dạ ng sóng, sau đó tiế n hành xử lý để thu được các tham số củ a tín hiệ u tiế ng nói củ a mô hình tạ o tiế ng nói nêu trên..
Trang 1Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN, NĂM 2015
Trang 2Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
HƯỚNG DẪN KHOA HỌC: TIẾN SỸ HỒ VĂN CANH
THÁI NGUYÊN, NĂM 2015
Trang 3Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
LỜI CAM ĐOAN
Tôi xin cam đoan, những nội dung liên quan tới đề tài được trình bày trong luận văn là do bản thân tự nghiên cứu, tổng hợp dưới sự hướng dẫn khoa học của
TS Hồ Văn Canh Các nhận xét, kết luận được trích dẫn đầy đủ theo bản gốc
Tôi xin chịu trách nhiệm trước pháp luật lời cam đoan của mình
Thái Nguyên, ngày 8 tháng 10 năm 2015
Học viên viên thực hiện
Lê Mỹ Lệ
Trang 4Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắ n liề n với những nỗ lực củ a bả n thân sự hỗ trợ, giúp đỡ dù ít hay nhiề u, dù trực tiế p hay gián tiế p củ a người khác Trong suố t thời gian từ khi bắ t đầ u họ c
tậ p ở Đạ i họ c Thái Nguyên -Trường Đạ i học CNTT & TT đế n nay em đã
nhậ n được rấ t nhiề u sự quan tâm, giúp đỡ củ a quý thầ y cô, gia đình, bạ n
bè
Với lòng biế t ơn sâu sắ c nhấ t, em xin gửi tới quý Thầ y/cô thuộ c Việ n Công nghệ Thông tin-Việ n Hàn lâm Khoa họ c và Công nghệ Việ t Nam và Thầ y/cô thuộ c ĐH Thái Nguyên - Trường Đạ i họ c Công nghệ Thông tin và Truyề n thông đã cùng với tri thức và tâm huyế t củ a mình để truyề n đạ t vố n kiế n thức quý báu cho chúng em trong suố t thời gian họ c
tậ p tạ i trường Em xin chân thành cả m ơn Ts Hồ Văn Canh đã hướng
dẫ n em trong quá trình làm luậ n văn
Quá trình thực hiệ n và hoàn thành luậ n văn kiế n thức củ a em con
hạ n chế và nhiề u bỡ ngỡ Do vậ y, không tránh khỏ i những thiế u sót là điề u chắ c chắ n, em rấ t mong nhậ n được những ý kiế n đóng góp quý báu
củ a quý Thầ y Cô và các bạ n họ c cùng lớp để kiế n thức củ a em trong lĩnh vực này được hoàn thiệ n hơn
Sau cùng, em xin kính chúc quý Thầ y Cô và đặ c biệ t là Ts Hồ Văn
Canh thậ t dồ i dào sức khoẻ , niề m tin để tiế p tụ c thực hiệ n sứ mệ nh cao
đẹ p củ a mình là truyề n đạ t kiế n thức cho thế hệ mai sau
Trân trọ ng!
Thái Nguyên, ngày 8 tháng 10 năm 2015
Trang 5Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC TỪ VIẾT TẮT vi
DANH MỤC BẢNG BIỂU, ĐỒ THỊ vii
MỞ ĐẦU 1
Chương 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI 3
1.1 Mở đầu 3
1.2 Tổng quan bộ máy phát âm 4
1.2.1 Bộ máy phát âm 4
1.2.2 Cơ chế phát âm 5
1.3 Biểu diễn tín hiệu tiếng nói 6
1.3.1 Xác định tần số lấy mẫu 9
1.3.2 Nén tín hiệu tiếng nói 10
1.4 Đặc tính của tiếng nói 11
1.4.1 Âm hữu thanh 11
1.4.2 Âm vô thanh 11
1.4.3 Âm vị 11
1.4.4 Nguyên âm 12
1.4.5 Phụ âm 12
1.4.6 Các đặc tính khác 12
1.5 Mô hình tạo tiếng nói 14
1.6 Kỹ thuật xử lý tiếng nói cơ bản 17
Trang 6Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
1.6.1 Tổng hợp tiếng nói 18
1.6.2 Nhận dạng tiếng nói 19
1.6.3 Phương pháp ghép nối 22
1.7 Mã hoá tham số tín hiệu 25
1.8 Kết luận chương 25
Chương 2: TỔNG QUAN CÁC PHƯƠNG PHÁP MÃ HÓA VÀ THÁM MÃ TIẾNG NÓI 27
2.1 Mã hoá vùng thời gian 27
2.1.1 Công nghệ PCM 27
2.2 Mã hoá vùng tần số (Frequence Domain Coding of speech) 32
2.3 Mã hoá dải nhỏ(Sbc) 32
2.4 Mã hoá biến đổi thích nghi (ATC) 35
2.5 Mã hoá tham số nguồn (resourd parameters method) 37
2.5.1 Bộ mã hoá nguồn theo kênh 38
2.5.2 Phương pháp dự đoán tuyến tính LPC 39
2.6 Mã hoá theo hệ mật mã khoá đối xứng AES 40
2.6.1 Giới thiệu khái quát 42
2.7 Các phương pháp mã hoá khác 50
2.7.1 Phương pháp mã hoá DPCM ( Điều xung mã vi sai) 51
2.7.2 Phương pháp DM ( điều chế delta) 52
2.7.3 Phương pháp mã hoá ADPCM 53
2.8 Phép biến đổi Fourier 53
2.8.1 Sự hội tụ của phép biến đổi Fourier 54
2.8.2 Phép biến đổi Fourier rời rạc (Discriete Fourier Transform - DFT) 54
2.8.3 Phép biến đổi fourier nhanh (FFT) 55
2.8.4 Quan hệ giữa biến đổi Z và biến đổi Fourier 56
2.8.5 Phép biến đổi Fourier ngược 57
2.8.6 Các tính chất của phép biến đổi Fourier 57
2.9 Tổng quát phương pháp thám 58
2.9.1 Tấn công bản mã khi đã có từ giả định 58
Trang 7Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
2.9.2 Tấn công bản mã khi không có đoạn tiếng nói gốc cho trước (không có
từ giả định) đối với hệ thống phép hoán vị cố định 59
2.9.3 Tấn công vào bản mã khi thay đổi hệ thống phép hoán vị 62
2.10 Kết luận chương 66
Chương 3: ỨNG DỤNG HỆ MẬT MÃ AES TRONG MÃ HOÁ TIẾNG NÓI 69 3.1 Các khái niệm và quy ước 69
3.2 Sơ đồ luồng thực hiện 70
3.2.1 Chi tiết các bước thực hiện quá trình mã hóa 71
3.2.2 Cấu trúc lớp trong chương trình 71
3.3 Phương pháp thám 71
3.3.1 Bước 1: Phân loại bản mã 73
3.3.2 Bước 2 : Xác định mã pháp 74
3.4 Đề mô chương trình 77
KẾT LUẬN 78
DANH MỤC TÀI LIỆU THAM KHẢO 79
Trang 8Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
DANH MỤC TỪ VIẾT TẮT
ADC Analog Digital Converter
ADM Adaptive Delta Modulation
ADPCM Adaptive Differential Pulse Code Modulation
AES Advanced Encryption Standard
ARK AddRoundKey
CSR Continuous Speech Recognition
DCT Discrete cosine transform
DFT Discrete furier transform
DHT Discrete wash – Had transform
Trang 9Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
SB SubBytes
DANH MỤC BẢNG BIỂU, HÌNH VẼ
Danh mục bảng biểu:
Bảng 1.1 Giá trị tần số cơ bản của con người 13
Bảng 2.1 Chia dải tần của tiếng nói bằng phương pháp Sbc 33
Bảng 2.2 Bảng thế S-BOX của AES 47
Bảng 2.3 Việc tấn công vào bản mã (có từ giả định) 59
Bảng 2.4 Tỷ lệ % của các thành phần qua 2 phép biến đổi DCT và DFT 61
Bả 62
Bảng 2.6 Đo khoảng cánh thể hiện(c/minh) chất lượng tiếng nói 62
Danh mục hình: Hình 1 1 Bộ máy phát âm con người 5
Hình 1.2 Biểu diễn tín hiệu tiếng nói 7
Hình 1.3 Thông lượng cho các phương pháp biểu diễn tiếng nói 8
Hình 1.4 Mô hình hoá nguồn âm đối với âm hữu thanh 14
Hình 1.5 Chuỗi 5 đoạn ống âm học lý tưởng 15
Hình 1.6 Các biểu diễn lý học và toán học 16
Hình 1.7 Mô hình số của hệ thống phát âm 17
Hình 1.8 Một vài ứng dụng xử lý tiếng nói 18
Hình 1.9 Cấu trúc cơ bản của một bộ tổng hợp Formant nối tiếp 21
Hình 1.10 Cấu trúc cơ bản của một bộ tổng hợp Formant song song 22
Hình 1.11 Sự phân tầng bộ mã hoá tiếng nói 24
Hình 2.1 Cấu hình cơ bản của phương pháp thông tin PCM 28
Hình 2.2 Quá trình lấy mẫu 29
Hình 2.3 Tạp âm lượng tử theo biên độ tín hiệu đầu vào 30
Trang 10Số hóa bởi Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/
Hình 2.4 Đặc tính nén và giãn 31
Hình 2.5 Sơ đồ bộ mã hóa và giải mã dải nhỏ 35
Hình 2.6 Mô tả State trong thuật toán mã hóa AES được biểu diễn dạng ma trận 4x4 43
44
Hình 2.8 Lưu đồ thực hiện SB và ISB 45
Hình 2.9 Biến đổi SubBytes () đối với mảng trạng thái 46
Hình 2.10 Lưu đồ thực hiện SR 48
Hình 2.11 Quá trình xử lý MixColumns 48
Hình 2.12 Mô tả bước trong Key scheduling 50
Hình 2.13 Sơ đồ mã hóa và giải mã DPCM 51
Hình 2.14 Sơ đồ mã hóa và giải mã AD 53
Hình 3.1 Lưu đồ cấu trúc lặp của thuật toán mã hóa AES 69
Hình 3.2 Sơ đồ mã hoá tiếng nói bằng AES - áp dụng FFT 70
Hình 3.3 Quy trình giải mã AES 72
Trang 11Những nghiên cứu đầ u tiên về nhậ n dạ ng tiế ng nói đã xuấ t hiệ n từ những năm 1950, với hệ thố ng nhậ n dạ ng các chữ số riêng biệ t cho 1 người nói củ a Davis, Bidulph, và Balashek tạ i phòng thí nghiệ m Bell Và
đế n những năm 1980 thì các hệ thố ng nhậ n dạ ng tiế ng nói đã được hoàn thiệ n với những thuậ t toán hiệ n đạ i Những hệ thố ng với vố n từ vựng lớn, độ chính xác cao, nhậ n dạ ng tiế ng nói liên tụ c, nhậ n dạ ng câu, cũng
đã được xây dựng thành công Và đế n ngày nay, ngày càng nhiề u các quố c gia thành công trong việ c nghiên cứu các hệ thố ng tự độ ng nhậ n dạ ng tiế ng nói (ASR – Automatique Speech Recognition)
Kể từ khi xuấ t hiệ n, máy tính càng ngày càng chứng tỏ rằ ng đó là
mộ t công cụ vô cùng hữu ích trợ giúp con người xử lý thông tin Cùng với
sự phát triể n củ a xã hộ i, khố i lượng thông tin mà máy tính cầ n xử lý tăng
rấ t nhanh trong khi thời gian dành cho những công việ c này lạ i giả m đi Vì
vậ y, việ c tăng tố c độ xử lý thông tin, trong đó có tố c độ trao đổ i thông tin giữa con người và máy tính, trở thành mộ t yêu cầ u cấ p thiế t Hiệ n tạ i, giao tiế p người-máy được thực hiệ n bằ ng các thiế t bị như bàn phím, chuộ t, màn hình, với tố c độ tương đố i chậ m nên cầ n có các phương pháp trao đổ i thông tin mới giúp con người làm việ c hiệ u quả hơn với máy tính Mộ t trong những hướng nghiên cứu này là sử dụ ng tiế ng nói trong trao đổ i thông tin người-máy Những nghiên cứu này liên quan trực tiế p tới các kế t quả củ a chuyên ngành xử lý tiế ng nói, trong đó có tổ ng
Trang 12hợp tiế ng nói Tổ ng hợp tiế ng nói là lĩnh vực đang được nghiên cứu khá
rộ ng rãi trên thế giới và đã cho những kế t quả khá tố t
Và vì vậ y, cũng giố ng như các dữ liệ u thông tin khác, tiế ng nói cũng
cầ n được bả o mậ t, nhấ t là trong mộ t số lĩnh vực Ta biế t rằ ng phương pháp bả o mậ t thông tin có hiệ u quả nhấ t chính là phương pháp mã hoá
Hầ u hế t các nước trên thế giới khi trao đổ i thông tin trên kênh truyề n thông hoặ c lưu chúng trong các bộ nhớ máy tính trên mạ ng đề u sử dụ ng phương thức mã hoá Có nhiề u loạ i Hệ mậ t mã khác nhau nhưng chúng
đề u có chung mộ t tính chấ t bả o mậ t thông tin Trong mỗ i hệ mậ t mã đó có nhiề u loạ i như: mã hoá bả n text, mã hoá hình ả nh, mã hoá tiế ng nói, mã hoá dữ liệ u,… Ở nước ta, Cơ quan chị u trách nhiệ m chính nghiên cứu, phát triể n và ứng dụ ng các hệ mậ t mã là Ban Cơ yế u Chính phủ Trước đây nó là mộ t Ban trực thuộ c Chính phủ nay trực thuộ c Bộ Quố c phòng
Mấ y năm gầ n đây, do nhu cầ u an toàn - bả o mậ t thông tin ngày càng tăng, nhiề u trường Đạ i họ c và Họ c việ n đã có mộ t số đề tài nghiên cứu vấ n đề này, chủ yế u là dùng cho Thương mạ i Mộ t nộ i dung rấ t quan trọ ng chưa được các trường Đạ i họ c hay Họ c việ n quan tâm nhiề u là mã hoá hình
ảnh hay mã hoá tiế ng nói Trong lúc đó, mã hoá tiế ng nói đóng mộ t vai trò quan trọ ng và cầ n thiế t trong lực lượng vũ trang củ a chúng ta Đặ c biệ t là trong hả i quân và trong các đơn vị chiế n đầ u ở chiế n trường
Được sự gợi ý củ a Thầ y hướng dẫ n em đã chọ n đề tài: “ Nghiên
cứu kỹ thuậ t mã hoá tiế ng nói và phương pháp thám.” làm đề tài tố t
nghiệ p luậ n văn cao họ c củ a em
Nộ i dung củ a luậ n văn gồ m: phầ n mở đầ u, ba chương chính, kế t luậ n và tài liệ u tham khả o, cụ thể :
Phần mở đầu: Trình bày lý do chọn đề tài, mục tiêu, đối tượng và phạm vi
nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu, phương pháp nghiên cứu
Chương 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ XỬ LÝ TIẾNG NÓI
Trang 13Chương 2 TỔNG QUAN CÁC PHƯƠNG PHÁP MÃ HÓA VÀ THÁM
1.1 Mở đầ u
Tiế ng nói là mộ t phương tiệ n trao đổ i thông tin củ a con người Tiế ng nói được tạ o ra từ tư duy củ a con người: trung khu thầ n kinh điề u khiể n hệ thố ng phát âm làm việ c tạ o ra âm thanh Tiế ng nói được phân biệ t với các âm thanh khác bởi các đặ c tính âm họ c có nguồ n gố c từ cơ chế
tạ o tiế ng nói.Về bả n chấ t, tiế ng nói là sự dao độ ng củ a không khí có mang theo thông tin Các dao độ ng này tạ o thành những áp lực đế n tai, được tai phát hiệ n, phân tích và chuyể n kế t quả đế n trung khu thầ n kinh Lúc này
tạ i trung khu thầ n kinh, thông tin được tái tạ o lạ i dưới dạ ng tư duy logic
mà con người có thể hiể u được
Tín hiệ u tiế ng nói được tạ o thành bởi các chuỗ i các âm vị liên tiế p
Sự sắ p xế p củ a các âm vị được chi phố i bởi các quy tắ c củ a ngôn ngữ Việ c nghiên cứu mộ t cách chi tiế t về những quy tắ c này cũng như những khía cạ nh khác bên trong tiế ng nói thuộ c về chuyên ngành ngôn ngữ Việ c phân loạ i các âm vị củ a tiế ng nói thuộ c về chuyên ngành ngữ âm họ c Khi
Trang 14nghiên cứu các mô hình toán họ c củ a cơ chế tạ o tiế ng nói, việ c nghiên cứu
về các âm vị là rấ t cầ n thiế t
Mỗ i người bình thường đề u có mộ t hệ thố ng phát ra âm thanh, hay tiế ng nói Không khí được đưa vào phổ i thông qua cơ chế hít thở thông thường, sau đó được đẩ y từ phổ i qua khí quả n và làm rung các dây thanh quả n Các dòng khí được ngắ t thành các dao độ ng tuầ n hoàn khi đi qua khoang họ ng, khoang miệ ng, và cả khoang mũi Tuỳ thuộ c vào vị trí khác nhau củ a các bộ phậ n phát âm (hàm, lưỡi, môi, miệ ng ) mà các âm thanh khác nhau được phát ra
1.2 Tổ ng quan bộ máy phát âm
Trang 15Hình 1 1 Bộ máy phát âm con người
1.2.2 Cơ chế phát âm
Quá trình phát âm củ a con người được mô tả như sau:
Áp lực tạ o ra từ phổ i làm cho các thanh quả n phát ra các rung độ ng
Lỗ giãn giữa các thanh quả n gọ i là thanh môn, thanh môn giố ng như mộ t nút cổ chai, không khí đi qua đây sẽ có áp suấ t thay đổ i độ t ngộ t tạ o thành xung lực, ả nh hưởng củ a thanh môn chính là sự phóng các chuỗ i không khí
bị nén đế n các hố c cộ ng hưởng âm với tầ n số thay đổ i theo sự giãn nở này (do thầ n kinh điề u khiể n) Luồ ng khí xuyên qua các hố c, phả n xạ lên các vậ t chắ n (là các bộ phậ n giới hạ n cơ quan phát âm như các cơ), đi qua các hố c cộ ng hưởng cuố i cùng phát ra ở môi và lỗ mũi dưới dạ ng sóng áp lực, còn gọ i là sóng áp lực âm thanh tiế ng nói Thanh quả n có thể bị làm cứng, hoặ c nới lỏ ng (do thầ n kinh điề u khiể n các cơ) để thay đổ i tố c độ dãn
Cơ quan chắ n giữa khoang mũi và khoang miệ ng hoạ t độ ng như
mộ t cổ ng giữa hố c âm mũi và hố c âm miệ ng, nó có thể đóng để cô lậ p hay
mở để kế t hợp với hố c âm miệ ng mộ t cách hài hoà trong các tình huố ng khác nhau (ví dụ như khi hát, khi nói chuyệ n, khi nói thầ m) và trong các ngôn ngữ khác nhau (ví dụ Tiế ng pháp thường phát ra nhiề u âm mũi hơn Tiế ng việ t)
Lưỡi, quai hàm, răng, môi được thay đổ i vị trí không gian để thay
đổ i hình dạ ng (tức là thay đổ i tầ n số cộ ng hưởng) củ a hố c âm miệ ng, sóng áp lực âm thanh phát ra từ miệ ng phụ thuộ c vào sự liên kế t giữa các
âm phát ra và sự suy hao trên các cơ quan phả n xạ
Sóng áp lực âm thanh tồ n tạ i dưới dạ ng sự di chuyể n liên tụ c củ a các luồ ng khí, khi đế n cơ quan thính giác thì được phả n ánh qua các thông
số : độ rõ, âm sắ c, độ cao, độ lớn củ a âm
Cơ quan phát âm được kích thích bởi luồ ng khí từ phổ i, nguồ n kích thích này có thể tạ o ra âm kêu hoặ c không kêu âm kêu ứng với quá trình
Trang 16sau: Thanh đới dao độ ng tạ i tầ n số gọ i là “tầ n số căn bả n”, hay còn củ a
âm, có thể trực tiế p kiể m tra bằ ng cách đặ t ngón tay vào cổ họ ng khi nói,
nế u có sự rung độ ng sang tay thì đó là âm kêu
Còn âm không kêu ứng với quá trình sau: Khi thanh đới không dao
độ ng, tức là bị “làm cứng” bởi các cơ, luồ ng khí hoặ c cũng được phát ra
cơ quan phát âm hoặ c bị thanh môn chặ n lạ i hiệ u ứng củ a chúng là có sự
hỗ n loạ n củ a các luồ ng khí đi qua các cơ quan
Bởi vậ y trong thời gian xem xét sóng âm thanh phát ra là sự kế t hợp
củ a âm thanh và âm vô thanh
1.3 Biể u diễ n tín hiệ u tiế ng nói
Sả n phẩ m củ a các quá trình xử lý tín hiệ u tiế ng nói phả i được phả n ánh bởi chính con người thông qua cơ quan thính giác Các thông tin củ a thính giác liên quan đế n vấ n đề mã hoá tín hiệ u là:
Thính giác có tính quán tính: Đáp ứng củ a thính giác với tác độ ng
củ a âm thanh không phả i là ngay tức thì, mà là có tính trễ , các thí nghiệ m đã cho kế t quả với môi trường truyề n âm bình thường sau khi bắ t đầ u khoả ng 200-ms thính giác mới xác đị nh âm lượng củ a nó khi âm ngừng
cả m nhậ n còn âm kéo dài chừng 150-200-ms thính giác không phân biệ t được hai âm giố ng nhau đi liề n nhau khoả ng nhỏ hơn 50-ms, tức là có hiệ n tượng che lấ p củ a âm, phả i qua tác độ ng vài chu kỳ thì tai người mới
“quen” với cao độ củ a âm (tầ n số cao hay thấ p)
- Hiệu ứng không gian (stereo) của tai người là hiệu ứng cảm ứng hai tai với hai nguồn âm tương quan, điều này có ảnh hưởng đến độ rõ của âm khi tiến hành kiểm tra hệ thống
- Tính phi tuyến của thính giác, thính giác có mức độ cảm thụ âm nhiễu không phải là tỉ lệ thuận với độ rộng dải tần, ảnh hưởng của nó là méo âm thanh do thêm thành phần sóng hài, không gây ra sai lệch cho người nghe bằng do thêm thành tần số không bội, khi mã hoá phải chú ý đến thành phần tần số không bội
- Đặc điểm về giới tính, lứa tuổi thậm trí cả yếu tố dân tộc: tức là những yếu
Trang 17tố trên là khác nhau không những âm thanh phát ra có khác nhau mà cả việc cảm thụ về âm thanh cũng khác nhau, cho nên phải có sự kiểm tra trên diện rộng trước khi đưa ra đánh giá
Tín hiệ u tiế ng nói là tín hiệ u tương tự Do đó khi biể u diễ n tín hiệ u tiế ng nói trong môi trường tính toán củ a tín hiệ u số , việ c biể u diễ n và lưu trữ sao cho không bị mấ t mát thông tin là vấ n đề hế t sức quan trọ ng trong các hệ thố ng thông tin có sử dụ ng tín hiệ u tiế ng nói Việ c xem xét các
vấ n đề xử lý tín hiệ u tiế ng nói trong các hệ thố ng này dựa trên ba vấ n đề chính:
- Biể u diễ n tín hiệ u tiế ng nói dạ ng số
- Cài đặ t các kỹ thuậ t xử lý
- Các lớp ứng dụ ng dựa trên kỹ thuậ t xử lý tín hiệ u số
Phầ n này trình bày vấ n đề biể u diễ n tiế ng nói dưới dạ ng số Mô hình tổ ng quát các phương pháp biể u diễ n tín hiệ u tiế ng nói được trình
bày trên hình 1.1
Hình 1.2 Biểu diễn tín hiệu tiếng nói
Trên phương diệ n khác, phương pháp biể u diễ n tín hiệ u theo tham
số được xem xét đế n trên khía cạ nh biể u diễ n tín hiệ u tiế ng nói như đầ u
ra củ a hệ thố ng tạ o tiế ng nói Để thu được các tham số biể u diễ n, bước
đầ u tiên củ a phương pháp này lạ i thường là biể u diễ n tín hiệ u theo dạ ng sóng Điề u này có nghĩa là tín hiệ u tiế ng nói được lấ y mẫ u và lượng tử
Trang 18hoá giố ng như phương pháp biể u diễ n tín hiệ u tiế ng nói dạ ng sóng, sau
đó tiế n hành xử lý để thu được các tham số củ a tín hiệ u tiế ng nói củ a mô hình tạ o tiế ng nói nêu trên Các tham số củ a mô hình tạ o tiế ng nói này thường được phân loạ i thành các tham số tín hiệ u nguồ n (có quan hệ mậ t thiế t với nguồ n củ a tiế ng nói) và các tham số củ a bộ máy phát âm tương ứng (có quan hệ mậ t thiế t với giọ ng nói củ a từng người) Hình 1.3 chỉ ra những sự khác nhau củ a mộ t số dạ ng biể u diễ n tín hiệ u tiế ng nói theo các yêu cầ u củ a thông lượng (bits/s):
Hình 1.3 Thông lượng cho các phương pháp biểu diễn tiếng nói
Đường phân cách ở giữa (tương ứng với thông lượng 15.000 bits/s) chia khoả ng dữ liệ u thành hai phầ n riêng biệ t: phầ n thông lượng cao dành cho dạ ng biể u diễ n tín hiệ u dạ ng sóng ở phía trái và phầ n thông lượng thấ p ở bên phả i dành cho biể u diễ n tín hiệ u dạ ng tham số Hình trên chỉ
ra sự thay đổ i trong khoả ng từ 75 bits/s (xấ p xỉ thông lượng khi tổ ng hợp văn bả n) cho tới thông lượng trên 200.000 bits/s cho các dạ ng biể u diễ n sóng đơn giả n Điề u này cho phép biể u diễ n từ 1 đế n 3.000 cách cho thông lượng tuỳ thuộ c vào tín hiệ u nói cầ n biể u diễ n Tấ t nhiên là thông lượng không chỉ phụ thuộ c tín hiệ u cầ n biể u diễ n mà nó còn phụ thuộ c vào các
yế u tố khác như giá thành, sự mề m dẻ o củ a phương pháp biể u diễ n, chấ t lượng củ a tiế ng nói Vì tiế ng nói là tín hiệ u liên tụ c nên để áp dụ ng các phương pháp xử lý tín hiệ u thì tiế ng nói phả i được biể u diễ n dưới dạ ng
Trang 19rời rạ c Quá trình rời rạ c hoá tín hiệ u tiế ng nói bao gồ m các bước sau:
- Lấ y mẫ u tín hiệ u tiế ng nói với tầ n số lấ y mẫ u f0
- Lượng tử hoá các mẫ u với các bước lượng tử q
- Mã hoá và nén tín hiệ u
1.3.1 Xác đị nh tầ n số lấ y mẫ u
Khi lấ y mẫ u mộ t tín hiệ u tương tự với tầ n số lấ y mẫ u f0 cầ n
đả m bả o rằ ng việ c khôi phụ c lạ i tín hiệ u đó từ tín hiệ u rời rạ c tương ứng phả i thực hiệ n được Shanon đã đưa ra mộ t đị nh lý mà theo đó người ta có thể xác đị nh tầ n số lấ y mẫ u đả m bả o yêu cầ u trên Theo Shanon, điề u kiệ n cầ n và đủ để khôi phụ c lạ i tín hiệ u tương tự từ tín hiệ u đã được rời rạ c hoá với tầ n số f0 là: f0≥ fMAX với fMAX là tầ n số lớn nhấ t củ a tín hiệ u tương tự Phổ củ a tín hiệ u tiế ng nói trả i rộ ng trong khoả ng 12kHz, do đó theo đị nh lý Shanon thì tầ n số lấ y mẫ u tố i thiể u
là 24kHz Với tầ n số lấ y mẫ u lớn như thế thì khố i lượng bộ nhớ dành cho việ c ghi âm sẽ rấ t lớn và làm tăng sự phức tạ p trong tính toán Nhưng chi phí cho việ c xử lý tín hiệ u số , bộ lọ c, sự truyề n và ghi âm có thể giả m đi nế u chấ p nhậ n giới hạ n phổ bằ ng cách cho tín hiệ u qua
mộ t bộ lọ c tầ n số thích hợp Đố i với tín hiệ u tiế ng nói cho điệ n thoạ i, người ta thấ y rằ ng tín hiệ u tiế ng nói đạ t chấ t lượng cầ n thiế t để mức
độ ngữ nghĩa củ a thông tin vẫ n bả o đả m khi phổ được giới hạ n ở 3400Hz Khi đó tầ n số lấ y mẫ u sẽ là 8000Hz Trong kỹ thuậ t phân tích,
tổ ng hợp hay nhậ n dạ ng tiế ng nói, tầ n số lấ y mẫ u có thể dao độ ng trong khoả ng 6.000 - 16.000Hz Đố i với tín hiệ u âm thanh (bao gồ m cả tiế ng nói và âm nhạ c) tầ n số lấ y mẫ u cầ n thiế t là 48kHz
Lượng tử hoá: Việ c biể u diễ n số tín hiệ u đòi hỏ i việ c lượng tử hoá mỗ i mẫ u tín hiệ u với mộ t giá trị rời rạ c hữu hạ n Mụ c tiêu củ a công việ c này hoặ c là để truyề n tả i hoặ c là xử lý có hiệ u quả Trong trường hợp thứ nhấ t mỗ i mẫ u tín hiệ u được lượng tử hoá, mã hoá rồ i truyề n đi Bên thu nhậ n tín hiệ u giả i mã và thu được tín hiệ u tương tự Tính thố ng kê củ a tín hiệ u được bả o toàn sẽ ả nh hưởng quan trọ ng
Trang 20đế n thuậ t toán lượng tử hoá Trong trường hợp xử lý tín hiệ u, luậ t lượng tử hoá được quy đị nh bởi hệ thố ng xử lý, nó có thể được biể u diễ n bằ ng dấ u phẩ y tĩnh hay dấ u phẩ y độ ng Việ c xử lý bằ ng dấ u phẩ y độ ng cho phép thao tác với tín hiệ u khá mề m dẻ o mặ c dù chi phí tính toán cao Việ c xử lý bằ ng dấ u phẩ y tĩnh đơn giả n hơn nhiề u nhưng đòi hỏ i các điề u kiệ n chặ t chẽ đố i với các thuậ t toán xử lý
1.3.2 Nén tín hiệ u tiế ng nói
Lượng tử hoá tín hiệ u gây ra các lỗ i có thành phầ n giố ng nhiễ u trắ ng, như vậ y số bước lượng tử cầ n được phân bố theo tỷ lệ trên lỗ i thích hợp Nế u số bước lượng tử là cố đị nh thì tỷ số này là hàm củ a biên
độ tín hiệ u, người ta sử dụ ng luậ t lượng tử logarithm và mỗ i mẫ u tín hiệ u được biể u diễ n bằ ng 8 bit Đố i với tín hiệ u âm thanh kích thước
mẫ u thường là 16 bit Mộ t đặ c trưng cầ n thiế t củ a phép biể u diễ n tín hiệ u số là tố c độ nhị phân tính bằ ng bit/s Đó là giá trị quan trọ ng trong khi thực hiệ n truyề n dữ liệ u cũng như lưu trữ dữ liệ u
Đường truyề n điệ n thoạ i có tố c độ là 8(kHz)*8(bit)=64kb/s Khi thực hiệ n truyề n và ghi lạ i tín hiệ u âm thanh, tố c độ cầ n thiế t 768 kb/s Ta biế t rằ ng tín hiệ u tiế ng nói có độ dư thừa rấ t lớn, do đó có thể giả m tố c
độ tín hiệ u tuỳ thuộ c mụ c đích xử lý khi xem xét đế n mức độ phức tạ p
củ a các thuậ t toán cũng như xem xét đế n chấ t lượng củ a việ c biể u diễ n tín hiệ u tiế ng nói Có nhiề u kỹ thuậ t đưa ra để đạ t được các mụ c đích trên Sự lựa chọ n mộ t phương pháp biể u diễ n số tín hiệ u thoả mãn giữa các tiêu chuẩ n về chấ t lượng củ a củ a phép biể u diễ n, tố c độ lưu truyề n hay lưu trữ và cuố i cùng là các điề u kiệ n môi trường (như nhiễ u, ) Thông thường số bit có nghĩa dùng để biể u diễ n chuỗ i lượng tử cầ n phả i giả m bớt vì lý do kỹ thuậ t Việ c này có thể thực hiệ n được bằ ng cách bỏ đi các bit ít có nghĩa nhấ t, nế u phép lượng tử là tuyế n tính, lỗ i lượng tử tăng cùng với khoả ng giá trị củ a chuỗ i Nhưng đố i với mộ t vài ứng dụ ng, mức lượng tử ở vùng tầ n số cao có yêu cầ u thấ p hơn so với mức lượng
Trang 21tử ở vùng tầ n số thấ p hay ngược lạ i, trong trường hợp đó cầ n sử dụ ng toán tử tuyế n tính để biế n đổ i tín hiệ u Kỹ thuậ t truyề n tin trong điệ n thoạ i thường sử dụ ng luậ t nén tín hiệ u theo đường cong logarithm Có hai luậ t nén được sử dụ ng phổ biế n hiệ n nay là luậ t μ và luậ t A
1.4 Đặ c tính củ a tiế ng nói
1.4.1 Âm hữu thanh
Âm hữu thanh được tạ o ra từ các dây thanh bị căng đồ ng thời và chúng rung độ ng ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra
và sau đó thanh môn xẹ p xuố ng do không khí chạ y qua Do sự cộ ng hưởng
củ a dây thanh, sóng âm tạ o ra có dạ ng tuầ n hoàn hoặ c gầ n như tuầ n hoàn Phổ củ a âm hữu thanh có nhiề u thành phầ n hài tạ i giá trị bộ i số củ a tầ n
số cộ ng hưởng, còn gọ i là tầ n số cơ bả n (pitch)
1.4.2 Âm vô thanh
Khi tạ o ra âm vô thanh dây thanh không cộ ng hưởng Âm vô thanh có hai loạ i cơ bả n là âm xát và âm tắ c Âm xát (ví dụ như âm s) được tạ o ra khi có sự co thắ t tạ i vài điể m trong tuyế n âm Không khí khi đi qua điể m co thắ t sẽ chuyể n thành chuyể n độ ng hỗ n loạ n tạ o nên kích thích giố ng như nhiễ u ngẫ u nhiên Thông thường điể m co thắ t xả y ra gầ n miệ ng nên sự
cộ ng hưởng củ a tuyế n âm ả nh hưởng rấ t ít đế n đặ c tính củ a âm xát được tạ o ra Âm tắ c (ví dụ như âm p) được tạ o ra khi tuyế n âm đóng tạ i
mộ t số điể m làm cho áp suấ t không khí tăng lên và sau đó được giả i phóng
độ t ngộ t Sự giả i phóng độ t ngộ t này tạ o ra kích thích nhấ t thời củ a tuyế n
âm Sự kích thích này có thể xả y ra với sự cộ ng hưởng hoặ c không cộ ng hưởng củ a dây thanh tương ứng với âm tắ c hữu thanh hoặ c vô thanh
1.4.3 Âm vị
Tín hiệ u tiế ng nói là tín hiệ u tương tự biể u diễ n cho thông tin về
mặ t ngôn ngữ và được mô tả bởi các âm vị khác nhau Như vậ y, âm vị là đơn vị nhỏ nhấ t củ a ngôn ngữ Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiề u hay ít (thông thường số lượng các âm vị vào
Trang 22khoả ng 20 – 30) Các âm vị được chia thành hai loạ i: nguyên âm và phụ âm
1.4.4 Nguyên âm
Nguyên âm là âm hữu thanh được tạ o ra bằ ng sự cộ ng hưởng củ a dây thanh khi dòng khí được thanh môn đẩ y lên Khoang miệ ng được tạ o
lậ p thành nhiề u hình dạ ng nhấ t đị nh tạ o thành các nguyên âm khác nhau
Số lượng các nguyên âm phụ thuộ c vào từng ngôn ngữ nhấ t đị nh
1.4.5 Phụ âm
Phụ âm được tạ o ra bởi các dòng khí hỗ n loạ n được phát ra gầ n những điể m co thắ t củ a đường dẫ n âm thanh do cách phát âm tạ o thành Phụ âm có đặ c tính hữu thanh hay vô thanh tuỳ thuộ c vào việ c dây thanh có dao độ ng để tạ o nên cộ ng hưởng không Dòng không khí tạ i chỗ đóng củ a vòm miệ ng tạ o ra phụ âm tắ c Phụ âm xát được phát ra từ chỗ co thắ t lớn nhấ t
1.4.6 Các đặ c tính khác
1.4.6.1 Tỷ suấ t thờ i gian
Trong khi nói chuyệ n, khoả ng thời gian nói và khoả ng thời gian nghỉ xen kẽ nhau Tỷ lệ % thời gian nói trên tổ ng số thời gian nói và nghỉ được gọ i là tỷ suấ t thời gian Giá trị này biế n đổ i tuỳ thuộ c vào tố c độ nói và từ đó ta có thể phân loạ i thành nói nhanh, nói chậ m hay nói bình thường
1.4.6.2 Hàm năng lư ợ ng thờ i gian ngắ n
Hàm năng lượng thời gian ngắ n củ a tiế ng nói được tính bằ ng cách chia tín hiệ u tiế ng nói thành nhiề u khung, mỗ i khung chứa N mẫ u Các khung này được đưa qua mộ t cửa sổ có dạ ng hàm như sau:
Trang 23Thông thường có ba dạ ng cửa sổ được sử dụ ng đó là cửa sổ Hamming, cửa sổ Hanning và cửa sổ chữ nhậ t Hàm năng lượng thời gian ngắ n củ a âm hữu thanh thường lớn hơn so với âm vô thanh
1.4.6.3 Tầ n số cơ bả n
Dạ ng sóng củ a tiế ng nói gồ m hai phầ n: Phầ n gầ n giố ng nhiễ u (trong đó biên độ biế n đổ i ngẫ u nhiên) và phầ n có tính chu kỳ (trong đó tín hiệ u lặ p lạ i gầ n như tuầ n hoàn) Phầ n tín hiệ u có tính chu kỳ chứa các thành phầ n tầ n số có dạ ng điề u hòa Tầ n số thấ p nhấ t chính là tầ n số cơ
bả n và cũng chính là tầ n số dao độ ng củ a dây thanh Đố i với những người nói khác nhau, tầ n số cơ bả n cũng khác nhau Dưới đây là mộ t số giá trị
tầ n số cơ bả n tương ứng với giới tính và tuổ i:
mặ t vậ t lý các formant tương ứng với các tầ n số cộ ng hưởng củ a tuyế n
âm Trong xử lý tiế ng nói và nhấ t là trong tổ ng hợp tiế ng nói, để mô phỏ ng lạ i tuyế n âm người ta phả i xác đị nh được các tham số formant đố i với từng loạ i âm vị , do đó việ c đánh giá, ước lượng các formant có ý nghĩa
rấ t quan trọ ng Tầ n số formant biế n đổ i trong mộ t khoả ng rộ ng phụ thuộ c vào giới tính củ a người nói và phụ thuộ c vào các dạ ng âm vị tương ứng với formant đó Đồ ng thời, formant còn phụ thuộ c các âm vị trước và sau đó Về cấ u trúc tự nhiên, tầ n số formant có liên hệ chặ t chẽ với hình
Trang 24dạ ng và kích thước tuyế n âm Thông thường phổ củ a tín hiệ u tiế ng nói có khoả ng 5 formant nhưng chỉ có 3 formant đầ u tiên ả nh hưởng quan trọ ng
đế n các đặ c tính củ a các âm vị , các formant còn lạ i cũng có ả nh hưởng song rấ t ít Tầ n số formant đặ c trưng cho các nguyên âm biế n đổ i tuỳ thuộ c vào người nói trong điề u kiệ n phát âm nhấ t đị nh Mặ c dù phạ m vi
củ a các tầ n số formant tương ứng với mỗ i nguyên âm có thể trùm lên nhau nhưng vị trí giữa các formant là không đổ i vì sự xê dị ch củ a các formant là song song
1.5 Mô hình tạ o tiế ng nói
Nhằm đơn giản hoá việc phân tích và nghiên cứu bộ máy phát âm, người ta chia
bộ máy phát âm ra làm hai phần cơ bản: nguồn âm và hệ thống đáp ứng
Hệ thố ng đáp ứng bao gồ m thanh môn, tuyế n âm, môi và mũi Việ c
mô hình hoá này sử dụ ng hàm truyề n đạ t trong biế n đổ i Z
Đố i với các âm hữu thanh, nguồ n âm là mộ t dạ ng sóng tuầ n hoàn
đặ c biệ t Dạ ng sóng này được mô phỏ ng bởi đáp ứng củ a bộ lọ c thông thấ p có hai điể m cực thực và tầ n số cắ t vào khoả ng 100 Hz
Hình 1.4 Mô hình hoá nguồn âm đối với âm hữu thanh
Đố i với âm vô thanh nguồ n âm là mộ t nhiễ u trắ ng với biên độ biế n
đổ i gầ n như ngẫ u nhiên Để tạ o tiế ng nói, người ta dùng các mô hình khác nhau để mô phỏ ng bộ máy phát âm Theo quan điể m giả i phẫ u họ c, ta có thể giả thiế t rằ ng tuyế n âm được biể u diễ n bằ ng mộ t chuỗ i M đoạ n
ống âm họ c lý tưởng, là những đoạ n ố ng có độ dài bằ ng nhau, và từng đoạ n riêng biệ t có thiế t diệ n mặ t cắ t là Am (gọ i tắ t là thiế t diệ n) khác
Trang 25nhau theo chiề u dài đoạ n ố ng Tổ hợp thiế t diệ n {Am} củ a các đoạ n ố ng được chọ n sao cho chúng xấ p xỉ với hàm thiế t diệ n A(x)củ a tuyế n âm
Hình 1.5 Chuỗi 5 đoạn ống âm học lý tưởng
Các đoạ n ố ng được coi là lý tưởng khi:
- Độ dài mỗ i đoạ n đủ nhỏ so với bước sóng âm truyề n qua nó được coi là sóng phẳ ng
- Các đoạ n đủ cứng sao cho sự hao tổ n bên trong do dao độ ng thành ố ng, tính dính và đẫ n nhiệ t không đáng kể
Ngoài ra ta giả thiế t thêm mô hình tuyế n âm lúc này là tuyế n tính và không nố i với thanh môn, hiệ u ứng củ a tuyế n mũi được bỏ qua, ta sẽ có
mô hình tạ o tiế ng nói lý tưởng và việ c phân tích mô hình ố ng âm họ c trở nên phức tạ p hơn Tiế p theo chúng ta có thể thấ y rằ ng mô hình này có nhiề u tính chấ t chung với mạ ch lọ c số nên nó có thể được biể u diễ n
bằ ng cấ u trúc mạ ch lọ c số với các tham số thay đổ i phù hợp với sự thay
đổ i tham số củ a ố ng âm họ c Sự chuyể n độ ng củ a không khí trong mộ t đoạ n ố ng âm họ c có thể được mô tả bằ ng áp suấ t âm thanh và thông lượng, đó là những hàm phụ thuộ c độ dài ố ng (x) và thời gian (t) Trong những đoạ n riêng biệ t đó, các giá trị củ a hai hàm này được coi là tổ hợp tuyế n tính các giá trị củ a chúng đố i với sóng thuậ n và sóng ngược (được
ký hiệ u lầ n lượt bằ ng dấ u cộ ng „+‟ và dấ u trừ „-‟) Sóng thuậ n là sóng truyề n từ thanh môn đế n môi, trong khi sóng ngược lạ i truyề n lừ môi đế n thanh môn Nế u đoạ n thứ m chúng ta xét có thiế t diệ n Am thì hàm thông lượng và hàm áp suấ t củ a đoạ n này là:
Trang 26Ở đây:
- um, um là sóng thuậ n và sóng ngược
- c là tố c độ âm thanh
- ρ là mậ t độ không khí trong đoạ n
- x=0 vị trí trung tâm củ a đoạ n
Mố i quan hệ giữa sóng thuậ n và sóng ngược trong những đoạ n kế tiế p phả i đả m bả o áp suấ t và thông lượng liên tụ c cả về thời gian và không gian tạ i mọ i điể m trong hệ thố ng Trong hình 1.6.a ta thấ y khi sóng thuậ n trong mộ t đoạ n gặ p phầ n thay đổ i về thiế t diệ n (mố i nố i giữa hai đoạ n kế tiế p), mộ t phầ n củ a nó truyề n sang đoạ n kế tiế p, mộ t phầ n kia lạ i phả n xạ dưới dạ ng sóng ngược Hoàn toàn tương tự, khi sóng ngược gặ p mố i nố i, mộ t phầ n được chuyể n tiế p sang đoạ n trước đó, còn phầ n kia lạ i phả n xạ lạ i dưới dạ ng sóng thuậ n
Hình 1.6 Các biểu diễn lý học và toán học
a Mô hình lý học giữa đoạn ống m và m+1
Trang 27b Mô hình toán học giữa đoạn ống thứ m
Hình 1.7 Mô hình số của hệ thống phát âm
Tuyế n âm được coi như mộ t chuỗ i liên tiế p các ố ng âm họ c và được mô hình hoá bởi mộ t chuỗ i gồ m Kbộ cộ ng hưởng Khi đó hàm truyề n đạ t củ a tuyế n âm có dạ ng:
Mỗ i bộ cộ ng hưởng sẽ tạ o ra mộ t formant được đặ c trưng bởi tầ n
số trung tâm, tính theo công thức:
1.6 Kỹ thuậ t xử lý tiế ng nói cơ bả n
Dựa trên cơ sở lựa chọ n các cách biể u diễ n tín hiệ u và phương pháp
xử lý, đã có rấ t nhiề u các ứng dụ ng quan trọ ng đã được triể n khai Hình
vẽ dưới đây sẽ chỉ ra mộ t số ứng dụ ng trong lĩnh vực xử lý tiế ng nói
Trang 28Hình 1.8 Một vài ứng dụng xử lý tiếng nói
1.6.1 Tổ ng hợp tiế ng nói
Tổng hợp tiếng nói là phát sinh tiếng nói từ sóng tiếng nói Trong vài thập niên gần đây, các bộ tổng hợp tiếng nói có chất lượng ngày càng cao.Tuy nhiên chất lượng của các phương pháp hiện nay mới chỉ đạt đến mức phù hợp cho mộ t vài ứng dụ ng, chẳ ng hạ n như đa phương tiệ n và truyề n thông Hiệ n nay có ba phương pháp tổ ng hợp tiế ng nói Phương pháp đơn giả n nhấ t để phát sinh tiế ng nói tổ ng hợp là phát các mẫ u tiế ng nói đã thu từ tiế ng nói tự nhiên (như các từ hoặ c câu) Phương pháp này cho chấ t lượng tương đố i tố t nhưng
gặ p phả i hạ n chế là số lượng từ vựng trong cơ sở dữ liệ u rấ t lớn Bên
cạ nh đó tiế ng nói cũng có thể tạ o ra bằ ng cách mô phỏ ng hệ thố ng phát
âm Phương pháp này cho chấ t lượng rấ t tố t nhưng thực hiệ n khá phức
tạ p Mộ t phương pháp nữa cũng được dùng để tổ ng hợp tiế ng nói là
tổ ng hợp formant Các phương pháp tổ ng hợp tiế ng nói cùng với những
đặ c điể m cơ bả n nhấ t sẽ được giới thiệ u trong phầ n tiế p theo
Tổ ng hợp tiế ng nói là quá trình tạ o ra tín hiệ u âm thanh bằ ng cách điề u khiể n mộ t mô hình mẫ u với mộ t tậ p các tham số Nế u mô hình mẫ u này và các tham số được xây dựng mộ t cách hoàn hả o thì tiế ng nói tổ ng hợp có thể giố ng với tiế ng nói tự nhiên Hiệ n có hai phương pháp tổ ng hợp tiế ng nói:
1.6.1.1 Tổ ng hợ p tiế ng nói theo cách phát âm
Đây là cách tiế p cậ n trực tiế p để mô hình hoá hệ thố ng mộ t cách chi tiế t Trong phương pháp này hệ thố ng tổ ng hợp được mô phỏ ng giố ng
Trang 29như quá trình tạ o ra âm thanh và lan truyề n âm thanh trong hệ thố ng phát
âm củ a con người Hướng nghiên cứu này vẫ n đang tiế p tụ c và cho mộ t
số kế t quả nhấ t đị nh Phương pháp này có thể tạ o ra hầ u hế t các tiế ng nói tự nhiên
1.6.1.2 Tổ ng hợ p đầ u cuố i tự nhiên
Theo hướng mô hình hoá này, người ta dựa trên các đặ c tính đáp ứng tầ n số củ a dây thanh và tuyế n âm để mô phỏ ng lạ i cơ chế tạ o tiế ng nói Mô hình này gọ i là mô hình nguồ n-lọ c Bộ tổ ng hợp tiế ng nói theo hướng này được thực hiệ n bằ ng cách sử dụ ng hệ thố ng tương tự với cơ chế tạ o tiế ng nói tạ i những điể m quan sát Cơ quan phát âm được mô hình hoá thành mộ t hệ thố ng bao gồ m mộ t nguồ n âm biể u diễ n cho thanh môn và mộ t bộ lọ c biể u diên cho tuyế n âm Quá trình
tổ ng hợp sẽ bao gồ m hai phầ n cơ bả n:
- Tổ ng hợp tín hiệ u nguồ n dựa vào tầ n số cơ bả n và tính chấ t tuầ n hoàn củ a nguồ n
- Xây dựng lạ i hàm truyề n đạ t củ a tuyế n âm (bao gồ m cả mũi và miệ ng) dựa vào các tham số đặ c trưng cho tuyế n âm Hiệ n nay người ta thường sử dụ ng hai bộ tham số đặ c trưng cho tuyế n âm (các bộ tham số này có thể được tổ ng kế t từ các quá trình phân tích tiế ng nói):
1.6.2.1 Nhậ n dạ ng ngữ nghĩa
Thông thường để điề u khiể n các thiế t bị máy móc người ta thường
sử dụ ng cách giao tiế p thông qua sự vào ra cơ khí Khi áp dụ ng tiế ng nói
Trang 30vào giao tiế p, lợi ích củ a nó có thể dễ dàng nhậ n thấ y: đó là tính tiệ n lợi,
dễ sử dụ ng, tố c độ giao tiế p cao Để có thể sử dụ ng tiế ng nói như mộ t công cụ giao tiế p thì hệ thố ng cầ n có khả năng tiế ng nói về ngữ nghĩa Nhậ n dạ ng ngữ nghĩa bao gồ m nhậ n dạ ng từ và nhậ n dạ ng câu
1.6.2.2 Nhân dạ ng ngườ i nói
Trong thế giới ngày nay tồ n tạ i nhiề u hệ thố ng yêu cầ u độ an toàn
bả o mậ t cao Từ đó nả y sinh ra yêu cầ u phả i nhậ n dạ ng được người nói
bằ ng những đặ c điể m riêng biệ t mà không ai có thể sao chép được Bên
cạ nh các cách thức nhậ n dạ ng qua chữ ký, ả nh chân dung, chữ viế t , ngày nay người ta còn dùng tiế ng nói để nhậ n dạ ng bởi vì tiế ng nói có những
đặ c tính riêng biệ t với từng người Tạ i mộ t số công ty đã xuấ t hiệ n những
hệ thố ng kiể m tra người qua cửa bằ ng nhậ n dạ ng tiế ng nói hoặ c nhậ n
dạ ng mỗ i người qua thẻ nhậ n dạ ng mà những thông tin lưu trữ trên thẻ chính là đặ c điể m về tiế ng nói củ a người đó
Nguyên tắ c củ a nhậ n dạ ng người nói là sử dụ ng những từ khoá đã được xác đị nh từ trước mà những từ khoá này đặ c trưng cho từng người
mộ t Có hai yế u tố để khẳ ng đị nh sự khác nhau trong tiế ng nói củ a mỗ i người:
- Các đặ c tính cơ quan phát âm khác nhau như: độ dài củ a tuyế n âm,
tầ n số cộ ng hưởng củ a dây thanh, các tầ n số formant, dả i thông, sự biế n
đổ i củ a đường bao phổ Đó là tậ p hợp những đặ c tính có liên quan đế n tính độ c lậ p củ a nộ i dung âm vị củ a từ ngữ
- Sự khác nhau trong cách phát âm củ a từng người: tố c độ và chiề u dài từ luôn luôn khác nhau Trong tấ t cả các đặ c tính trên đường bao phổ
và tầ n số cơ bả n là hai đặ c tính quan trọ ng nhấ t Đường bao phổ được miêu tả bằ ng những giá trị trung bình củ a các bộ lọ c thông dả i, củ a các
tầ n số formant, củ a các hệ số tiên đoán tuyế n tính, củ a hệ số cepstre và các tham số khác
1.6.2.3 Phươ ng pháp mô phỏ ng hệ thố ng phát âm
Phương pháp mô phỏ ng hệ thố ng phát âm (articulatory synthesis) cố
Trang 31gắ ng mô phỏ ng hệ thố ng phát âm củ a con người mộ t cách hoàn hả o nhấ t,
do đó có thể đạ t tới chấ t lượng cao trong tổ ng hợp tiế ng nói Nhưng cũng chính vì vậ y mà phương pháp này khó có thể thực hiệ n được, vì việ c mô phỏ ng hệ thố ng phát âm củ a con người rấ t khó thực hiệ n Sau khi phương pháp tổ ng hợp Formant ra đời thì phương pháp mô phỏ ng hệ thố ng phát âm ít khi được sử dụ ng trong các hệ thố ng Nhưng từ khi có sự xuấ t hiệ n củ a máy tính thì nó lạ i được phát triể n
1.6.2.4 Phươ ng pháp tổ ng hợ p Formant
Phương pháp tổ ng hợp formant (formant synthesis) yêu cầ u phả i
tổ ng hợp được tố i thiể u 3 formant để hiể u được tiế ng nói, và để có được tiế ng nói chấ t lượng cao thì cầ n tới 5 formant Tiế ng nói được tạ o ra từ các
bộ tổ ng hợp formant với thành phầ n chính là các bộ cộ ng hưởng Tuỳ theo cách bố trí các bộ cộ ng hưởng mà ta có bộ tổ ng hợp formant là nố i tiế p hay song song
Bộ tổ ng hợp formant nố i tiế p
Bộ tổ ng hợp formant nố i tiế p là mộ t bộ tổ ng hợp formant có các
tầ ng nố i tiế p, đầ u ra củ a bộ cộ ng hưởng này là đầ u vào củ a bộ cộ ng hưởng kia
Hình 1.9 Cấu trúc cơ bản của một bộ tổng hợp Formant nối tiếp
Bộ tổ ng hợp formant song song
Bộ tổ ng hợp formant song song bao gồ m các bộ cộ ng hưởng mắ c song song Đầ u ra là kế t hợp củ a tín hiệ u nguồ n và tấ t cả các formant
Cấ u trúc song song cầ n nhiề u thông tin để điề u khiể n hơn
Trang 32Hình 1.10 Cấu trúc cơ bản của một bộ tổng hợp Formant song song
Tổ ng hợp formant là mộ t phương pháp tổ ng hợp cho chấ t lượng chấ p nhậ n được nhưng nế u yêu cầ u chấ t lượng cao thì phương pháp này chưa đáp ứng được
1.6.3 Phương pháp ghép nố i
Tổ ng hợp bằ ng cách ghép nố i các âm được tổ ng hợp từ các lời nói
tự nhiên đã được thu từ trước có lẽ là cách dễ nhấ t để sả n sinh lời nói Phương pháp tổ ng hợp ghép nố i cho chấ t lượng cao và tương đố i tự nhiên Phương pháp này rấ t phù hợp với các hệ thố ng phát thanh và các
hệ thố ng thông tin Tuy nhiên phương pháp này thường chỉ áp dụ ng cho mộ t giọ ng và phả i sử dụ ng nhiề u bộ nhớ hơn các phương pháp khác do số lượng từ vựng rấ t lớn Để khắ c phụ c nhược điể m này người ta xây dựng các phương pháp tổ ng hợp ghép nố i từ những đơn
vị nhỏ như âm vị , âm tiế t, diphone (âm vị kép) Ngoài các diphone, chúng ta còn sử dụ ng triphone, tetraphone hay syllable, demisyllable, nhưng chủ yế u vẫ n là các diphone, được thu từ tiế ng nói tự nhiên Các diphone được cắ t ra từ tín hiệ u rồ i sau đó được tổ ng hợp lạ i theo yêu
cầ u dựa trên mộ t thuậ t toán ghép nố i Phương pháp này có mộ t số khác biệ t so với các phương pháp khác:
- Xuấ t hiệ n sự biế n dạ ng củ a tiế ng nói tổ ng hợp do tính không liên
tụ c củ a việ c ghép nố i các diphone với nhau Vì vậ y phả i sử dụ ng biệ n
Trang 331.6.3.1 Mã hoá tín hiệ u tiế ng nói
Như trên đã phân tích các bả n chấ t củ a tín hiệ u tiế ng nói với mô hình cho cơ quan phát âm, nhìn chung xử lý tín hiệ u tiế ng nói trong viễ n thông có thể dùng điề u biế n tương tự, tuy nhiên kỹ thuậ t này đã trở nên
lỗ i thời, hiệ n nay chúng ta đề u dùng kỹ thuậ t số cho tấ t cả các loạ i tín hiệ u do vậ y tín hiệ u tiế ng nói cũng phả i xem xét trong mô hình số Như
vậ y bả n chấ t củ a mã hoá tín hiệ u thoạ i chỉ là xử lý số thông thường Các phương pháp tiế p cậ n đố i tượng khác nhau cho ta các phương pháp mã hoá khác nhau, căn cứ vào cách tiế p cậ n đố i tượng ta chia các phương pháp
mã hoá như hình sau:
Trang 34Hình 1.11 Sự phân tầng bộ mã hoá tiếng nói 1.6.3.2 Mã hoá trự c tiế p tín hiệ u
Phương pháp mã hoá trực tiế p hay phổ tín hiệ u cho phép biể u diễ n
mộ t cách trung thực nhấ t tín hiệ u Mã hoá trực tiế p thực chấ t là biể u diễ n
mỗ i mẫ u tín hiệ u hay phổ tín hiệ u độ c lậ p khác với các mẫ u khác Mộ t
hệ thố ng mã hoá tín hiệ u khá phổ biế n hiệ n nay theo phương pháp này thực hiệ n trong miề n thời gian là mã hoá xung PCM (Pulse Code Mudulation) Để bả o đả m biể u diễ n tín hiệ u đạ t chấ t lượng cao phả i
bả m bả o được thông lượng cầ n thiế t Do tầ n số lấ y mẫ u đã được cố
đị nh, muố n giả m được thông lượng này phả i giả m số bit dùng biể u diễ n mộ t mẫ u Muố n vậ y phả i áp dụ ng luậ t lượng tử phù hợp với thố ng kê bậ c mộ t củ a tín hiệ u, nghĩa là phù hợp với mậ t độ phân bố và sự thay đổ i củ a tín hiệ u Hệ thố ng PCM có thể giả m thông lượng xuố ng còn
64 kb/s Cũng theo hướng này người ta dùng hàm tự hồ i quy để thực hiệ n nén tín hiệ u Khi đó mỗ i mẫ u mới củ a tín hiệ u tiế ng nói lạ i không chứa các đặ c điể m hoàn toàn mới, nó chắ c chắ n có liên quan đế n các mẫ u trước
đó Như vậ y mỗ i mẫ u tín hiệ u tiế ng nói, bằ ng nhiề u phương pháp có thể tiên đoán nhờ mộ t số mẫ u trước đó, khi đó chỉ cầ n tính toán sai số dự đoán và biế n đổ i Tạ i nơi nhậ n tín hiệ u, mộ t phép biế n đổ i ngược lạ i được thực hiệ n và người ta thấ y rằ ng hệ số khuế ch đạ i củ a hệ thố ng
đố i với thông lượng là hàm chấ t lượng củ a phép tiên đoán Các hệ thố ng hoạ t độ ng theo nguyên tắ c này có:
- DPCM (Differential PCM): Hệ thố ng PCM dùng phép tiên đoán cố
đị nh Thay vì truyề n mẫ u tín hiệ u, phương pháp này truyề n đi các hệ
số tiên đoán và sai số dự đoán
- ADPCM (Adaptive DPCM): Hệ thố ng PCM dùng phép tiên đoán thích nghi Hệ thố ng này là hệ thố ng cả i tiế n củ a hệ thố ng DPCM, người
ta sẽ dùng hàm tự hồ i quy trong thời gian ngắ n để tính toán các hệ số tiên đoán với mộ t đoạ n mẫ u tín hiệ u khoả ng 20 ms Những tính toán này thực
Trang 35hiệ n trong thời gian thực
Biể u diễ n số củ a tín hiệ u có thể thực hiệ n trong cả miề n tầ n số
bằ ng cách mã hoá biế n đổ i Fourier củ a tín hiệ u Trong miề n tầ n số , phép
mã hoá trực tiế p ít được áp dụ ng Các kỹ thuậ t giả m bớt thông lượng được thực hiệ n bằ ng cách giả m độ dư thừa tự nhiên củ a tín hiệ u tiế ng nói trên phổ tín hiệ u Theo phương pháp này người ta dùng cách mã hoá băng thấ p hay mã hoá thích nghi theo biế n đổ i ATC
1.7 Mã hoá tham số tín hiệ u
Để giả m hơn nữa thông lượng củ a tiế ng nói tới khoả ng giá trị 2000 – 3000 b/s, cầ n phả i dùng các kế t quả nghiên cứu về phương thức tạ o ra tiế ng nói con người Có nhiề u phương pháp cho phép đánh giá các tham số
củ a mô hình tạ o tiế ng nói bao gồ m hàm đặ c trưng củ a tuyế n âm và các
đặ c trưng củ a nguồ n âm Tín hiệ u tiế ng nói được coi gầ n như dừng trong khoả ng thời gian là 20ms; như vậ y các tham số được tính toán lạ i sau 20 ms
và được thực hiệ n trong thời gian thực Người ta thấ y rằ ng việ c truyề n tham số này cho phép thông lượng giả m xuố ng còn khoả ng 2500b/s Phương pháp mã hoá này gọ i là phương pháp mã hoá nguồ n tham số tín hiệ u Mộ t tậ p hợp các tham số khi truyề n hay lưu trữ đặ c trưng cho phổ thời gian ngắ n, có nghĩa là nó chỉ được chấ p nhậ n trong mộ t thời gian
hạ n chế Tai người rấ t nhạ y cả m với các phổ thời gian này, do đó có thể cho rằ ng tai người có thể phân biệ t được mộ t số hữu hạ n các phổ thời gian ngắ n Giả sử M = 2B Như vậ y với mỗ i phổ thời gian ngắ n, ta gán cho nó mộ t giá trị biể u diễ n bằ ng mộ t từ B bit và từ này sẽ được truyề n
đi hay lưu trữ Bằ ng cách này thông lượng có thể giả m xuố ng còn 1000 b/s
Tín hiệ u tổ ng hợp bằ ng mã hoá theo tham số các tín hiệ u tiế ng nói thường không bả o đả m chấ t lượng trong hệ thố ng điệ n thoạ i thông thường Giọ ng nói sẽ rấ t khó nhậ n ra trong trường hợp dùng phương pháp này Do đó kỹ thuậ t mã hoá này chỉ ứng dụ ng trong điệ n thoạ i di
độ ng và quân sự đây chính là điề u mà luậ n văn củ a em đề cậ p đế n
1.8 Kế t luậ n chương
Trang 36Trong chương này đã mô tả khái quá quá trình tạ o tiế ng nói theo mô hình vậ t lý và toán họ c; tổ ng quát các quá trình xử lý tiế ng nói Qua kế t quả nghiên cứu cho thấ y, ngày nay dưới sự phát triể n củ a công nghệ thông tin,
vấ n đề xử lý, bả o mậ t cơ sở dữ liệ u đa phương (trong đó có tiế ng nói) đóng vai trò quan trọ ng Do vậ y, vấ n đề tổ ng hợp và xử dữ liệ u này đóng vai trò chính, nhấ t là việ c mã hóa tiế ng nói nhằ m đáp ưng yêu cầ u phát triể n công nghệ nói chung và bả o mậ t tiế ng nói trong môi trường “nhạ y
cả m” nói riêng
Trang 37Chương 2 TỔNG QUAN CÁC PHƯƠNG PHÁP MÃ HÓA
VÀ THÁM MÃ TIẾNG NÓI
2.1 Mã hoá vùng thời gian
Mã hoá là mộ t quá trình so các giá trị rời rạ c nhậ n được bởi quá trình lượng tử hoá với các xung mã Thông thường các mã nhị phân được
sử dụ ng cho việ c mã hoá là các mã nhị phân tự nhiên, các mã Gray (các mã nhị phân phả n xạ ), và các mã nhị phân kép Phầ n lớn các kí hiệ u mã so sánh các tín hiệ u vào với điệ n áp chuyể n để đánh giá xem có các tín hiệ u nào không
Như vậ y, mộ t bộ phậ n chuyể n đổ i D/A hoặ c bộ giả i mã là cầ n thiế t cho việ c tạ o ra điệ n áp chuẩ n
2.1.1 Công nghệ PCM
2.1.1.1 Cấ u hình cơ bả n củ a kiể u truyề n tin PCM
Mã hoá là quá trình biế n đổ i các giá trị rời rạ c thành các mã tương ứng Nhìn chung, việ c lấ y mẫ u liên quan tới quá trình biế n đổ i các tín hiệ u liên tụ c thành các tín hiệ u rời rạ c củ a trường thời gian gọ i là PAM (điề u chế biên độ xung) Việ c mã hoá là quá trình lượng tử hoá các giá trị mẫ u này thành các giá trị rời rạ c củ a trường biên độ và sau đó biế n đổ i chúng thành mã nhị phân hay các mã ghép kênh Khi truyề n thông tin mã, nhiề u xung được yêu cầ u cho mỗ i giá trị lấ y mẫ u và vì thế độ rộ ng dả i tầ n số
cầ n thiế t cho truyề n dẫ n phả i được mở rộ ng Đồ ng thời xuyên âm, tạ p
âm nhiệ t, biế n dạ ng mẫ u, mấ t xung mẫ u, biế n dạ ng nén, tạ p âm mã hoá,
tạ p âm san bằ ng được sinh ra trong lúc tiế n hành lấ y mẫ u và mã hoá Việ c giả i mã là quá trình khôi phụ c các tín hiệ u đã mã hoá thành các tín hiệ u PAM được lượng tử hoá Quá trình này tiế n hành theo thứ tự đả o đúng như quá trình mã hoá Mặ t khác quá trình lượng tử hoá, nén và mã hoá các tín hiệ u PAM được gọ i là quá trình mã hoá và quá trình chuyể n đổ i các tín
Trang 38hiệ u PCM thành D/A, sau đó, lọ c chúng sau khi giãn để đưa về tiế ng nói ban đầ u gọ i là quá trình giả i mã Cấ u hình cơ sở củ a hệ thố ng truyề n dẫ n PCM đố i với việ c thay đổ i các tín hiệ u tương tự thành các tín hiệ u xung
mã để truyề n dẫ n được thể hiệ n ở hình (pcm1) Trước tiên các tín hiệ u
đầ u vào được lẫ y mẫ u mộ t cách tuầ n tự, sau đó được lượng tử hoá thành các giá trị rời rạ c trên trụ c biên độ Các giá trị lượng tử hoá đặ c trưng bởi các mã nhị phân Các mã nhị phân này được mã hoá thành các dạ ng mã thích hợp tuỳ theo đặ c tính củ a đường truyề n dẫ n
Hình 2.1 Cấu hình cơ bản của phương pháp thông tin PCM
Thiế t bị đầ u cuố i mã hoá chuyể n đổ i các tín hiệ u thông tin như tiế ng nói thành các tín hiệ u số như PCM Khi các tín hiệ u thông tin là các tín hiệ u tương tự, việ c chuyể n đổ i A/D được tiế n hành và việ c chuyể n đổ i D/D đợc tiế n hành ở trường hợp củ a các tín hiệ u số Đôi khi, quá trình nén
và mã hoá băng tầ n rộ ng được tiế n hành bằ ng cách triệ t sự dư thừa trong quá trình tiế n hành chuyể n đổ i A/D hoặ c D/D)
2.1.1.2 Lấ y mẫ u
Nguyên tắc cơ bản của điều xung mã là quá trình chuyển đổi các tín hiệu liên tục như tiếng nói thành tín hiệu số rời rạc và sau đó tái tạo chúng lại thành thông tin ban đầu Để tiến hành việc này, các phần tử thông tin được rút ra từ các tín hiệu tương
tự một cách tuần tự Quá trình này được gọi là công việ c lấ y mẫ u
(a) Tín hiệ u tiế ng nói m(t)
(b) Xung lấ y mẫ u s(t)
Trang 39(c) Chức danh lấ y mẫ u
(d) Tín hiệ u PAM đã lấ y mẫ u
Hình 2.2 Quá trình lấy mẫu
Theo thuyế t lấ y mẫ u củ a Shannon, các tín hiệ u ban đầ u có thể được khôi phụ c khi tiế n hành công việ c lấ y mẫ u trên các phầ n tử tín hiệ u được truyề n đi ở chu kỳ hai lầ n nhan hơn tầ n số cao nhấ t Nói cách khác, khi độ
rộ ng dả i tầ n củ a tín hiệ u được truyề n đi gọ i là BW, tỷ lệ lấ y mẫ u tới
hạ n là tỷ lệ Nyquitst trở thành Rmax = 2 x BW Các tín hiệ u xung lấ y mẫ u
là tín hiệ u dạ ng sóng chu k, là tổ ng các tín hiệ u sóng hài có đường bao hàm
Trang 40Hình 2.3 Tạp âm lượng tử theo biên độ tín hiệu đầu vào
Tạ p âm tạ o ra khi biên độ củ a các tín hiệ u đầ u vào vượt quá dãy lượng tử gọ i là tạ p âm quá tả i hay tạ p âm bão hoà S/NQ được sử dụ ng như mộ t đơn vị để đánh giá những ưu điể m và nhược điể m củ a phương pháp PCM Khi số lượng các dãy số mã hoá trên mỗ i mẫ u tăng lên 1 bit, S/NQ được mở rộ ng thêm 6 dB
tạ p âm là tới hạ n hơn S/NQ Mã không phả i là mã đường được sử dụ ng
rộ ng dãi trong mộ t hệ thố ng ở đó S/N củ a hệ thố ng thu được quan trọ ng hơn số lượng tuyệ t đố i củ a tạ p âm như tiế ng nói Khi bước lượng tử là
mộ t hằ ng số , S/N thay đổ i theo mức tín hiệ u Chấ t lượng gọ i trở nên xấ u hơn khi mức tín hiệ u thấ p Vì thế đố i với các tín hiệ u mức thấ p, bước lượng tử được giả m và đố i với các tín hiệ u mức cao nó được tăng để ít