Câu 2: Bộ lọc thính giác: Giới thiệu Phân tích tần số và phân tách tín hiệu âm thanh là yếu tố then chốt khả năng di chuyển trong nhiều ứng dụng được thảo luận trong cuốn sách này đối v
Trang 1ỦY BAN NHÂN DÂN TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC SÀI GÒN
Trịnh Công Vinh MSV: 3117500067
Nhóm: 01
TIỂU LUẬN MÔN HỌC
XỬ LÝ TIẾNG NÓI
NGÀNH: KỸ THUẬT ĐIỆN TỬ - TRUYỀN THÔNG
TRÌNH ĐỘ ĐÀO TẠO: ĐẠI HỌC
TP HỒ CHÍ MINH, THÁNG 6 NĂM 2021
Trang 2ỦY BAN NHÂN DÂN TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC SÀI GÕN
Trang 3LỜI CAM ĐOAN
Em xin cam đoan tiểu luận “Xử lý tiếng nói” là công trình nghiên cứu của em
Em xin hoàn toàn chịu trách nhiệm về tính trung thực của các nội dung khác trong đề tài của mình
TP HCM, ngày…tháng…năm……
Tác giả đề tài
Trịnh Công Vinh
Trang 4
Câu 1: Hệ thống thính giác ngoại vi
Các yếu tố vật lý của hệ thống thính giác của con người (hệ thống thính giác ngoại vi) được thể hiện trong Hình 5.1
Hình 5.1: Hệ thống thính giác ngoại vi
- Vành tai: thường được gọi là "tai" và bao gồm một vạt da cùng với sụn có
hình dạng cụ thể ở mỗi bêncủa người đứng đầu Loa tai tạo thành cái được gọi là
"tai ngoài" cùng nhau với ống tai Loa tai được tạo hình đặc biệt để định hướng sóng âm vào ống tai và hướng ra phần còn lại của ngoại vi Nó đóng vai trò quan trọng đóng vai trò trong việc cung cấp các dấu hiệu vị trí âm thanh hai tai và đơn
âm do sự khác biệt đáng kể về độ lớn cảm nhận được và âm sắc của âm thanh tùy thuộc vào vị trí và hướng của nguồn
- Ống Tai: là một ống rỗng liên kết màng nhĩ với loa tai Mặc dù sinh lý của ống
tai của mỗi người có thể khác nhau đáng kể, kích thước của một ống tai điển hình sao cho sự cộng hưởng ở khoảng 2–5kHz sẽ nhấn mạnh đáng kể dải tần số này
- Màng Nhĩ: là một màng kéo dài qua phần cuối của ống tai (nó còn được gọi là
màng nhĩ) Nó có thể rung qua dải tần số nghe của con người và truyền rung động qua ossicles đến ốc tai qua cửa sổ hình bầu dục
- Xương ống (Malleus, Incus và Stapes): là ba xương rất nhỏ liên kết với màng
nhĩ, được gây ra rung động bởi màng tym và khuếch đại rung động trước khi truyền nó đến cửa sổ hình bầu dục của ốc tai Chúng truyền âm thanh truyền qua không khí, các sóng chắc chắn khiến màng nhĩ truyền rung động đến sóng áp suất
âm thanh truyền chất lỏng trong ốc tai
- Cửa sổ Bầu dục: là một màng trên lối vào của ốc tai Các ossicles rung cửa sổ
hình bầu dục truyền năng lượng âm thanh đến cơ sở màng và chất lỏng bên trong
ốc tai
Trang 5- Màng cơ bản (BM): là một xương phân chia hình xoắn ốc ốc tai Nó hoạt động
như một máy phân tích phổ logarit, phân chia vật lý và cô lập các thành phần tần
số rung động đầu vào đến các vị trí vật lý khác nhau dọc theo chiều dài của nó Các tế bào thần kinh thính giác được kết nối với các các loại tế bào có lông (trong
và ngoài) lần lượt gắn vào màng đệm mem đáy Do đó, sự rung động của màng đáy được truyền tới các trung tâm cao hơn của con đường thần kinh thính giác thông qua các tế bào lông này
Màng cơ bản (BM):
Màng đáy hẹp và cứng ở đáy và gần đỉnh nó rộng hơn và ít cứng hơn Biên
độ cực đại của dao động dọc theo BM là phụ thuộc vào tần số của âm thanh đã nghe Tần số cao hơn có biên độ đỉnh gần cơ sở, tần số thấp hơn có biên độ đỉnh gần đỉnh Do đó, vật lý của BM và ốc tai có thể được coi là như một tập hợp các
bộ lọc thông dải Chuyển động BM được truyền tới stereocilia Các
stereocilia là những bó tóc gắn trên đỉnh của mỗi tế bào lông Điều này dẫn đến
sự hoạt động của các tế bào thần kinh thính giác ngoại vi Phản ứng vật lý của
BM theo khoảng cách và tần số được minh họa trong Hình 5.4 và 5.5 Hình 5.2 cho thấy một mặt cắt bên trong ốc tai được lấy từ Grey’s giải phẫu học [7] Hình này cho thấy màng đáy là một đường ngang Phía trên BM, bốn hàng tế bào lông thính giác cũng được hiển thị Bốn cái này các hàng được ngăn cách thành một hàng tế bào thính giác gọi là lông trong tế bào và ba hàng tế bào lông thính giác gọi là tế bào lông ngoài Những các tế bào lông khác nhau và các cơ chế thính giác trong ốc tai có thể để hoạt động trên một dải động rất lớn khoảng 100dB Ốc tai của con người có khoảng 3.500 tế bào lông bên trong và 12.000 tế bào lông ngoài lúc mới sinh [2]
Trang 6bối cảnh Với SNR trên mỗi bit được cung cấp bởi (2.46), SNR của một đĩa CD
âm thanh là khoảng 16 × 6 =96 dB, gần với dải động 100dBs của thính giác con
người Những câu chuyện về thính giác được thảo luận ở phần sau của chương này nên được xem xét
trong bối cảnh của các kết nối tiến và lùi này Ngoài ra, các chuỗi xử lý thính giác trái và phải được liên kết với nhau Các liên kết này cung cấp viện trợ để cân bằng trong một số trường hợp và là cơ chế thông qua đó bản địa hóa ba chiều được giả định sẽ được ban hành
Câu 2: Bộ lọc thính giác: Giới thiệu
Phân tích tần số và phân tách tín hiệu âm thanh là yếu tố then chốt khả năng di chuyển trong nhiều ứng dụng được thảo luận trong cuốn sách này (đối với
ví dụ: nén, nhận dạng giọng nói, mã hóa giọng nói, v.v.) Như nhiều các phương pháp hiệu quả nhất trong các ứng dụng này đã cố gắng bắt chước các khía cạnh của hệ thống âm thanh con người, đánh giá cơ bản về cách thức rằng con người (và động vật có vú) cảm nhận được tần số âm thanh là điều cần thiết để loại bỏ hiểu các ứng dụng tiếp theo Đối với các ứng dụng phân tích giọng nói như như các nhiệm vụ nhận dạng, nó thường hiệu quả nhất để cô lập và mô tả đặc điểm của bao quang phổ của một phần âm thanh thời gian nhỏ Điều này là do nó có được tìm thấy trong phần lớn các trường hợp rằng ý nghĩa ngữ nghĩa của lời nói không phụ thuộc hoặc chứa trong cao độ hoặc thành phần kích thích của tín hiệu lời nói Các phương pháp đặc trưng cho vùng bao quang phổ ngắn hạn này bao gồm Biến đổi Fourier Ngắn hạn (STFT-chúng tôi triển khai thường xuyên nhất- ing windowed FFT) và Mã hóa dự đoán tuyến tính (LPC) Trong lịch sử như vậy
đã đạt được đặc tính và phân tích bằng cách sử dụng một ngân hàng chồng chéo các bộ lọc thông dải Cấu trúc này của một tập hợp các bộ lọc thông dải (được gọi
là quan trọng ban nhạc) là quan điểm đồng thuận hiện tại về phân tích tần số con người / nghe- cơ chế ing và được khám phá chi tiết hơn trong chương này
Trang 7Hình 5.3: Các đường dẫn âm thanh liên kết tai trái và tai phải với thính giác vỏ não (kết nối tiến
và lùi)
Câu 3: Các dải quan trọng:
Các dải tần quan trọng của thính giác có thể được định nghĩa là dải tần của
âm thanh trong đó một giai điệu che sẽ cản trở nhận thức của một giai điệu khác thông qua các cơ chế che giấu thính giác khác nhau Các hiểu và sử dụng các dải quan trọng là chìa khóa cho việc triển khai xử lý âm thanh dựa trên tần số cảm nhận được sử dụng trong các ứng dụng như nén băng thông rộng (ví dụ: nén MP3)
Để hiểu miền âm thanh tần số tri giác, cần phải luận để hiểu được cái gọi là
mô hình biến đổi tần số-vị trí Mô hình này giả thuyết rằng mỗi tần số âm thanh liên quan đến một địa điểm cụ thể trong ốc tai của con người và cụ thể là một vị trí dọc theo ghi nhớ cơ bản brane (BM)
Trang 8Một làn sóng âm thanh đi vào tai có đặc điểm rung truyền đến cửa sổ bầu dục thông qua sự rung động của màng nhĩ và các ossicles (thể hiện trong Hình 5.1 ) Sự rung động của cửa sổ hình bầu dục sau đó gây ra sự rung động của BM cuộn (cũng được thể hiện trong Hình 5.1 khi cuộn cấu trúc xoắn ốc) Đối với âm thuần, độ lớn dao động lớn nhất của BM được đặt tại một vị trí vật lý cụ thể dọc theo BM (vị trí được sắp xếp gọn gàng về tần số cơ bản của âm) Như khoảng cách từ cửa sổ hình bầu dục tăng lên, chiều rộng của BM tăng lên và ngược lại độ cứng của nó giảm đi Ảnh hưởng của các đặc điểm vật lý này là tần số cao hơn có biên độ đỉnh dọc theo BM gần với cửa sổ hình bầu dục và đinh ghim (và ngược lại, có một cửa sổ hình bầu dục xa hơn cửa sổ hình bầu dục hướng về đỉnh BM cho các tần số thấp hơn) Khi đến gần vị trí dịch chuyển cực đại này sóng chậm lại, đạt đến đỉnh (tại vị trí đã cho) và sau đó nhanh chóng phân hủy dọc theo chiều dài còn lại của BM
Hình minh họa về một phản hồi đơn dọc theo BM cho âm thanh ở tần số 200Hz là được thể hiện trong Hình 5.4 Bốn đồ thị trong hình này cho thấy sự dịch chuyển BM biên độ tại bốn thời điểm gần nhau (với phản ứng biên độ được hiển thị như một đường chấm) Đáp ứng biên độ dọc theo BM đến tám âm thuần của các trung tâm tần số 25, 50, 100, 200, 400, 800 và 1600Hz được hiển thị trong Khoảng cách từ cửa sổ hình bầu dục (mm)
Hình 5.4: Đáp ứng dịch chuyển của BM đối với âm thuần 200Hz ( trục x là khoảng cách dọc theo BM và trục y là độ dời) Bốn đồ thị cho thấy sự dịch chuyển tại bốn thời điểm gần
nhau Tái bản với sự cho phép: Từ G Von Békésy Thử nghiệm về thính giác McGraw-Hill
loạt bài trong Tâm lý học McGraw-Hill, 1960 Bản quyền 1960, Acoustic Society of Châu Mỹ [19]
Hình 5.5 Điều này cho thấy rằng đối với một giai điệu thuần túy, biên độ tối đa của rung động BM nằm ở một vị trí cụ thể tương ứng với một tần số Đối với một giai điệu phức tạp hơn, thành phần hài về mặt vật lý kích thích các vị trí đặt dọc
BM theo cấu trúc sóng hài (và độ lớn của âm thanh) Cơ chế phân tách tần số vật
lý này,do đó, đại diện cho một chuyển đổi tần số đến địa điểm tương tự như một ngân hàng các bộ lọc thông dải chồng chéo hoặc phân tách tần số tương tự từ góc
độ xử lý tín hiệu
Ngoài ra, như được minh họa trong Hình 5.4 và 5.5, mỗi dải thông của "bộ lọc BM" vật lý trước hết là phi tuyến tính, thứ hai là không đối xứng và cuối cùng có băng thông không đồng nhất với băng thông tăng theo tần suất ngày càng tăng Các bang thông BM này và băng thông của chúng có thể nằm trong- lần
Trang 9lượt được gọi là "băng tần quan trọng" và "băng thông quan trọng" Nó có được chỉ ra rằng nếu các thành phần tần số của tín hiệu âm thanh đủ tách biệt chúng sẽ được mã hóa riêng biệt bởi hệ thống thính giác với một bộ bộ lọc thính giác Tuy nhiên, cần lưu ý rằng nhận thức về cao độ nhiều hơn phức tạp hơn “lý thuyết địa điểm” đơn giản này (tức là lý thuyết mà
ception của cao độ tương ứng với một vị trí đặt trên BM) Hơn nữa, "Lý thuyết vị trí" đưa ra một minh họa tốt về cách HAS có một dải biến đổi- độ rộng của ảnh hưởng với tần số Nguyên tắc chung này đã được sao lưu bằng vô số thử nghiệm
và phép đo thực nghiệm không chỉ có đã cố gắng tạo ra các mô hình về băng thông của các bộ lọc thính giác nhưng nhưng hình dạng thực tế của chúng (xem bên dưới)
HÌNH 5.5: Biên độ dịch chuyển của màng đáy trong tám tông màu trong sáng Tái bản với sự
cho phép Người gửi: G Von Békésy Thử nghiệm trong Thính giác Bộ truyện McGraw-Hill
trong Tâm lý học McGraw-Hill, 1960 Bản quyền Hiệp hội Âm thanh Hoa Kỳ [19]
Câu 4: Mô hình dải quan trọng:
Fletcher [4] đã cố gắng đo độ rộng của các dải quan trọng của âm thanh thử các bộ lọc bằng cách sử dụng âm thử nghiệm và tiếng ồn băng rộng đồng vị trí (như được minh họa trong Hình 5.6) Ngưỡng cảm nhận đối với một giai điệu thử nghiệm duy nhất được đo bằng sự hiện diện của nhiễu băng thông rộng Tiếng ồn
là của một băng thông được đặt tập trung vào giai điệu thử nghiệm Băng thông này thay đổi như minh họa trong Hình 5.7 dẫn đến trong một ngưỡng cảm nhận
Trang 10đối với âm thử nghiệm cho mỗi băng thông nhiễu Các kết quả cho thấy rằng khi băng thông tiếng ồn băng rộng tăng lên, thì cường độ (ngưỡng cảm nhận) của giai
điệu đồng vị trí lên đến một điểm nhất định (của ∆ f) Quá thời điểm này, ngưỡng
không tăng và vẫn ổn định ở
cùng giá trị Toàn bộ thí nghiệm được lặp lại cho tần số âm thanh khác nhau cho kết quả như trong Hình 5.8 Con số này thực sự là từ việc lặp lại các thí nghiệm tương tự của Schooneveldt và Moore [6] vào năm 1987 Hình này cho thấy rõ ràng ngưỡng tăng khi băng thông nhiễu tăng lên đến băng thông quan trọng 400Hz và sau đó không đổi sau đó
HÌNH 5.6: Thí nghiệm "băng thông quan trọng" nhiễu băng rộng của Fletcher [4]
HÌNH 5.7: Hình minh họa các thí nghiệm của Fletcher [4]
Trang 11HÌNH 5.8: Ngưỡng âm dẫn đến nhiễu băng rộng đồng vị trí (đối với tần số 2kHz âm thử) Tái bản với sự cho phép Từ: GP Schooneveldt và BCJ Moore Phát hành mặt nạ điều hòa cho các
đơn âm và hai tai khác nhau sự kết hợp của tín hiệu, tần số và các dải tần J Acoust Soc Là., 1
(85): 262-272, 1987 Bản quyền 1987, Acoustic Society of America [6] Với "mô hình phổ công suất của thính giác", băng thông quan trọng nomena là kết quả của việc phát hiện thính giác về tín hiệu thành tiếng ồn (SNR) tiêu chí [11] Cụ thể, khi băng thông của tiếng ồn bắt đầu tăng lên rất ít bị suy giảm bởi bộ lọc thính giác cục bộ và do đó để giữ lại SNR cho một người nghe nhất định, ngưỡng sẽ tăng lên Ngược lại, khi tiếng ồn băng thông tăng vào các dải dừng của bộ lọc, lượng cảm nhận được nhiễu sẽ không đổi và do đó ngưỡng không đổi
Một biểu diễn chính và thường được sử dụng của miền băng tần quan trọng là
“Bark Tỉ lệ" Thang Bark thường được định nghĩa là một bảng các giá trị tần số (xem Bảng 5.1) Các giá trị này xác định tần số trung tâm và dải tần số (và do đó
là các băng thông quan trọng) của các băng tần quan trọng Chúng đã được lấy từ bài báo của Zwicker [21] mà ban đầu định nghĩa thang đo Bark
Mặc dù thang đo Bark được định nghĩa như bảng trong Bảng 5.1, một số biểu thức phân tích cho sự chuyển đổi giữa tần số (tính bằng Hz)
BẢNG 5.1: Thang âm thanh: số dải, tần số trung tâm và các dải tần số:
Trang 12và thang đo Bark đã được đề xuất Thường được sử dụng nhất là được định nghĩa bởi Zwicker [22] được chỉ ra trong (5.1) Cần lưu ý rằng phương trình này (và các
mô hình liên quan khác) lấy giá trị của tần số ( f ) làm giá trị trên tần số của phạm
vi cho tốc độ băng tần quan trọng trong Barks (giá trị phù hợp trong cột bên phải trong Bảng 5.1)
Listing 5.1: Mã Matlab để tạo Hình 5.9
Hình 5.9 cho thấy các giá trị này từ bảng 5.1 kết hợp với giá trị xấp xỉ mation Phương trình (5.1)
Hơn nữa, các băng thông của mỗi bộ lọc Bark có thể được tính gần đúng bằng hàm sau được xác định bởi Zwicker và Terhardt [22]:
Phương trình này phù hợp với các giá trị băng thông được lập bảng cho trong bảng 5.1 từ DC đến 15kHz trong vòng 10%
Đã có thêm các bản cập nhật và chỉnh sửa đối với công thức Bark (đặc biệt là của Traunmuller [18], Schoeder và cộng sự [15] và Wang và cộng sự [20]) Một trong các phép gần đúng được sử dụng gần đây nhất đối với thang Bark được cung cấp bởi Wang
et al [20]
Trang 13HÌNH 5.9: So sánh các giá trị thang đo Bark từ Bảng 5.1 và (5.1)
Công thức này được sử dụng trong trích xuất tính năng cảm nhận PLP-RASTA quy trình [8] như được mô tả trong Chương 9
Thang đo tri giác Mel:
Một thang tần số tri giác phổ biến khác là Mel (viết tắt của Melody) tỉ lệ Nó
có nguồn gốc từ tác phẩm gốc của Stevens et al [16] vào năm 1937 Tương tự như thang đo Bark, có rất nhiều công thức được sử dụng để chuyển đổi giữa thang đo tri giác Mel và tần số tuyến tính (tính bằng Hz) A công thức phổ biến
và thông dụng để chuyển đổi từ tần số sang Mels là:
Nó được sử dụng với các phương pháp khai thác tính năng MFCC được mô tả trong Phần 9.6 như được triển khai trong bộ công cụ phát biểu phổ biến HTK [3]
Trang 14HÌNH 5.10: Thang đo Mel như được hiển thị bởi (5.4) được tạo bởi mã trong Danh sách 5.2 Listing 5.2: Mã Matlab để tạo thang đo Mel Hình 5.10
Nhiều thí nghiệm khác nhau đã được tiến hành để thu được hình dạng của bộ lọc thính giác [9, 11, 12, 13] Một nỗ lực ban đầu đáng kể để mô tả đặc điểm và đo hình dạng của bộ lọc thính giác được thực hiện bởi Patterson [12] Mẫu- Son đã tiến hành một số thử nghiệm bằng cách sử dụng một giai điệu thử nghiệm cố định
và mức cao hoặc nhiễu băng thông rộng thông thấp của băng thông thay đổi Tín hiệu mặt nạ này là được chọn là nhiễu băng rộng, dưới dạng tín hiệu hình sin và tín hiệu nhiễu băng hẹp đã được tìm thấy để cung cấp cho các đồ tạo tác thời gian (ví dụ, đập bằng hình sin) [11] hình 5.11 cho thấy một minh họa về các thí nghiệm như vậy với nhiễu thông thấp (lấy từ Patterson [12]) Đầu tiên, mục đích của những thử nghiệm này là để tìm ra ngưỡng phát hiện đối với một âm kiểm tra (được hiển thị dưới dạng một đường thẳng đứng trong giữa của hình) Tiếng ồn thông thấp sau đó được thay đổi trong băng thông (từ DC đến một tần số cắt cho
trước) Điều này được phản ánh trong tham số ∆ f được hiển thị trong hình cho
biết khoảng cách giữa các cạnh của tiếng ồn và giọng điệu Sử dụng cái được gọi
là "mô hình phổ công suất", khu vực của chồng chéo giữa nhiễu và bộ lọc (nghĩa
là tích hợp sản phẩm của nhiễu và chức năng lọc) có liên quan trực tiếp đến ngưỡng phát hiện đối với giai điệu thử nghiệm Mô hình chồng chéo này được Patterson [12] xây dựng như sau:
Trong đó: P s là công suất của tín hiệu ở ngưỡng cảm nhận, K là hằng số, H (f )
là hàm truyền của phản ứng bộ lọc thính giác và N ( f ) là phổ công suất che tiếng
ồn băng rộng Rõ ràng, nếu băng thông rộng tiếng ồn là một bộ lọc tiếng ồn thông