1. Trang chủ
  2. » Giáo Dục - Đào Tạo

tiểu luận môn học xử lý tiếng nói

28 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 28
Dung lượng 1,46 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Câu 2: Bộ lọc thính giác: Giới thiệu Phân tích tần số và phân tách tín hiệu âm thanh là yếu tố then chốt khả năng di chuyển trong nhiều ứng dụng được thảo luận trong cuốn sách này đối v

Trang 1

ỦY BAN NHÂN DÂN TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC SÀI GÒN

Trịnh Công Vinh MSV: 3117500067

Nhóm: 01

TIỂU LUẬN MÔN HỌC

XỬ LÝ TIẾNG NÓI

NGÀNH: KỸ THUẬT ĐIỆN TỬ - TRUYỀN THÔNG

TRÌNH ĐỘ ĐÀO TẠO: ĐẠI HỌC

TP HỒ CHÍ MINH, THÁNG 6 NĂM 2021

Trang 2

ỦY BAN NHÂN DÂN TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC SÀI GÕN

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan tiểu luận “Xử lý tiếng nói” là công trình nghiên cứu của em

Em xin hoàn toàn chịu trách nhiệm về tính trung thực của các nội dung khác trong đề tài của mình

TP HCM, ngày…tháng…năm……

Tác giả đề tài

Trịnh Công Vinh

Trang 4

Câu 1: Hệ thống thính giác ngoại vi

Các yếu tố vật lý của hệ thống thính giác của con người (hệ thống thính giác ngoại vi) được thể hiện trong Hình 5.1

Hình 5.1: Hệ thống thính giác ngoại vi

- Vành tai: thường được gọi là "tai" và bao gồm một vạt da cùng với sụn có

hình dạng cụ thể ở mỗi bêncủa người đứng đầu Loa tai tạo thành cái được gọi là

"tai ngoài" cùng nhau với ống tai Loa tai được tạo hình đặc biệt để định hướng sóng âm vào ống tai và hướng ra phần còn lại của ngoại vi Nó đóng vai trò quan trọng đóng vai trò trong việc cung cấp các dấu hiệu vị trí âm thanh hai tai và đơn

âm do sự khác biệt đáng kể về độ lớn cảm nhận được và âm sắc của âm thanh tùy thuộc vào vị trí và hướng của nguồn

- Ống Tai: là một ống rỗng liên kết màng nhĩ với loa tai Mặc dù sinh lý của ống

tai của mỗi người có thể khác nhau đáng kể, kích thước của một ống tai điển hình sao cho sự cộng hưởng ở khoảng 2–5kHz sẽ nhấn mạnh đáng kể dải tần số này

- Màng Nhĩ: là một màng kéo dài qua phần cuối của ống tai (nó còn được gọi là

màng nhĩ) Nó có thể rung qua dải tần số nghe của con người và truyền rung động qua ossicles đến ốc tai qua cửa sổ hình bầu dục

- Xương ống (Malleus, Incus và Stapes): là ba xương rất nhỏ liên kết với màng

nhĩ, được gây ra rung động bởi màng tym và khuếch đại rung động trước khi truyền nó đến cửa sổ hình bầu dục của ốc tai Chúng truyền âm thanh truyền qua không khí, các sóng chắc chắn khiến màng nhĩ truyền rung động đến sóng áp suất

âm thanh truyền chất lỏng trong ốc tai

- Cửa sổ Bầu dục: là một màng trên lối vào của ốc tai Các ossicles rung cửa sổ

hình bầu dục truyền năng lượng âm thanh đến cơ sở màng và chất lỏng bên trong

ốc tai

Trang 5

- Màng cơ bản (BM): là một xương phân chia hình xoắn ốc ốc tai Nó hoạt động

như một máy phân tích phổ logarit, phân chia vật lý và cô lập các thành phần tần

số rung động đầu vào đến các vị trí vật lý khác nhau dọc theo chiều dài của nó Các tế bào thần kinh thính giác được kết nối với các các loại tế bào có lông (trong

và ngoài) lần lượt gắn vào màng đệm mem đáy Do đó, sự rung động của màng đáy được truyền tới các trung tâm cao hơn của con đường thần kinh thính giác thông qua các tế bào lông này

Màng cơ bản (BM):

Màng đáy hẹp và cứng ở đáy và gần đỉnh nó rộng hơn và ít cứng hơn Biên

độ cực đại của dao động dọc theo BM là phụ thuộc vào tần số của âm thanh đã nghe Tần số cao hơn có biên độ đỉnh gần cơ sở, tần số thấp hơn có biên độ đỉnh gần đỉnh Do đó, vật lý của BM và ốc tai có thể được coi là như một tập hợp các

bộ lọc thông dải Chuyển động BM được truyền tới stereocilia Các

stereocilia là những bó tóc gắn trên đỉnh của mỗi tế bào lông Điều này dẫn đến

sự hoạt động của các tế bào thần kinh thính giác ngoại vi Phản ứng vật lý của

BM theo khoảng cách và tần số được minh họa trong Hình 5.4 và 5.5 Hình 5.2 cho thấy một mặt cắt bên trong ốc tai được lấy từ Grey’s giải phẫu học [7] Hình này cho thấy màng đáy là một đường ngang Phía trên BM, bốn hàng tế bào lông thính giác cũng được hiển thị Bốn cái này các hàng được ngăn cách thành một hàng tế bào thính giác gọi là lông trong tế bào và ba hàng tế bào lông thính giác gọi là tế bào lông ngoài Những các tế bào lông khác nhau và các cơ chế thính giác trong ốc tai có thể để hoạt động trên một dải động rất lớn khoảng 100dB Ốc tai của con người có khoảng 3.500 tế bào lông bên trong và 12.000 tế bào lông ngoài lúc mới sinh [2]

Trang 6

bối cảnh Với SNR trên mỗi bit được cung cấp bởi (2.46), SNR của một đĩa CD

âm thanh là khoảng 16 × 6 =96 dB, gần với dải động 100dBs của thính giác con

người Những câu chuyện về thính giác được thảo luận ở phần sau của chương này nên được xem xét

trong bối cảnh của các kết nối tiến và lùi này Ngoài ra, các chuỗi xử lý thính giác trái và phải được liên kết với nhau Các liên kết này cung cấp viện trợ để cân bằng trong một số trường hợp và là cơ chế thông qua đó bản địa hóa ba chiều được giả định sẽ được ban hành

Câu 2: Bộ lọc thính giác: Giới thiệu

Phân tích tần số và phân tách tín hiệu âm thanh là yếu tố then chốt khả năng di chuyển trong nhiều ứng dụng được thảo luận trong cuốn sách này (đối với

ví dụ: nén, nhận dạng giọng nói, mã hóa giọng nói, v.v.) Như nhiều các phương pháp hiệu quả nhất trong các ứng dụng này đã cố gắng bắt chước các khía cạnh của hệ thống âm thanh con người, đánh giá cơ bản về cách thức rằng con người (và động vật có vú) cảm nhận được tần số âm thanh là điều cần thiết để loại bỏ hiểu các ứng dụng tiếp theo Đối với các ứng dụng phân tích giọng nói như như các nhiệm vụ nhận dạng, nó thường hiệu quả nhất để cô lập và mô tả đặc điểm của bao quang phổ của một phần âm thanh thời gian nhỏ Điều này là do nó có được tìm thấy trong phần lớn các trường hợp rằng ý nghĩa ngữ nghĩa của lời nói không phụ thuộc hoặc chứa trong cao độ hoặc thành phần kích thích của tín hiệu lời nói Các phương pháp đặc trưng cho vùng bao quang phổ ngắn hạn này bao gồm Biến đổi Fourier Ngắn hạn (STFT-chúng tôi triển khai thường xuyên nhất- ing windowed FFT) và Mã hóa dự đoán tuyến tính (LPC) Trong lịch sử như vậy

đã đạt được đặc tính và phân tích bằng cách sử dụng một ngân hàng chồng chéo các bộ lọc thông dải Cấu trúc này của một tập hợp các bộ lọc thông dải (được gọi

là quan trọng ban nhạc) là quan điểm đồng thuận hiện tại về phân tích tần số con người / nghe- cơ chế ing và được khám phá chi tiết hơn trong chương này

Trang 7

Hình 5.3: Các đường dẫn âm thanh liên kết tai trái và tai phải với thính giác vỏ não (kết nối tiến

và lùi)

Câu 3: Các dải quan trọng:

Các dải tần quan trọng của thính giác có thể được định nghĩa là dải tần của

âm thanh trong đó một giai điệu che sẽ cản trở nhận thức của một giai điệu khác thông qua các cơ chế che giấu thính giác khác nhau Các hiểu và sử dụng các dải quan trọng là chìa khóa cho việc triển khai xử lý âm thanh dựa trên tần số cảm nhận được sử dụng trong các ứng dụng như nén băng thông rộng (ví dụ: nén MP3)

Để hiểu miền âm thanh tần số tri giác, cần phải luận để hiểu được cái gọi là

mô hình biến đổi tần số-vị trí Mô hình này giả thuyết rằng mỗi tần số âm thanh liên quan đến một địa điểm cụ thể trong ốc tai của con người và cụ thể là một vị trí dọc theo ghi nhớ cơ bản brane (BM)

Trang 8

Một làn sóng âm thanh đi vào tai có đặc điểm rung truyền đến cửa sổ bầu dục thông qua sự rung động của màng nhĩ và các ossicles (thể hiện trong Hình 5.1 ) Sự rung động của cửa sổ hình bầu dục sau đó gây ra sự rung động của BM cuộn (cũng được thể hiện trong Hình 5.1 khi cuộn cấu trúc xoắn ốc) Đối với âm thuần, độ lớn dao động lớn nhất của BM được đặt tại một vị trí vật lý cụ thể dọc theo BM (vị trí được sắp xếp gọn gàng về tần số cơ bản của âm) Như khoảng cách từ cửa sổ hình bầu dục tăng lên, chiều rộng của BM tăng lên và ngược lại độ cứng của nó giảm đi Ảnh hưởng của các đặc điểm vật lý này là tần số cao hơn có biên độ đỉnh dọc theo BM gần với cửa sổ hình bầu dục và đinh ghim (và ngược lại, có một cửa sổ hình bầu dục xa hơn cửa sổ hình bầu dục hướng về đỉnh BM cho các tần số thấp hơn) Khi đến gần vị trí dịch chuyển cực đại này sóng chậm lại, đạt đến đỉnh (tại vị trí đã cho) và sau đó nhanh chóng phân hủy dọc theo chiều dài còn lại của BM

Hình minh họa về một phản hồi đơn dọc theo BM cho âm thanh ở tần số 200Hz là được thể hiện trong Hình 5.4 Bốn đồ thị trong hình này cho thấy sự dịch chuyển BM biên độ tại bốn thời điểm gần nhau (với phản ứng biên độ được hiển thị như một đường chấm) Đáp ứng biên độ dọc theo BM đến tám âm thuần của các trung tâm tần số 25, 50, 100, 200, 400, 800 và 1600Hz được hiển thị trong Khoảng cách từ cửa sổ hình bầu dục (mm)

Hình 5.4: Đáp ứng dịch chuyển của BM đối với âm thuần 200Hz ( trục x là khoảng cách dọc theo BM và trục y là độ dời) Bốn đồ thị cho thấy sự dịch chuyển tại bốn thời điểm gần

nhau Tái bản với sự cho phép: Từ G Von Békésy Thử nghiệm về thính giác McGraw-Hill

loạt bài trong Tâm lý học McGraw-Hill, 1960 Bản quyền 1960, Acoustic Society of Châu Mỹ [19]

Hình 5.5 Điều này cho thấy rằng đối với một giai điệu thuần túy, biên độ tối đa của rung động BM nằm ở một vị trí cụ thể tương ứng với một tần số Đối với một giai điệu phức tạp hơn, thành phần hài về mặt vật lý kích thích các vị trí đặt dọc

BM theo cấu trúc sóng hài (và độ lớn của âm thanh) Cơ chế phân tách tần số vật

lý này,do đó, đại diện cho một chuyển đổi tần số đến địa điểm tương tự như một ngân hàng các bộ lọc thông dải chồng chéo hoặc phân tách tần số tương tự từ góc

độ xử lý tín hiệu

Ngoài ra, như được minh họa trong Hình 5.4 và 5.5, mỗi dải thông của "bộ lọc BM" vật lý trước hết là phi tuyến tính, thứ hai là không đối xứng và cuối cùng có băng thông không đồng nhất với băng thông tăng theo tần suất ngày càng tăng Các bang thông BM này và băng thông của chúng có thể nằm trong- lần

Trang 9

lượt được gọi là "băng tần quan trọng" và "băng thông quan trọng" Nó có được chỉ ra rằng nếu các thành phần tần số của tín hiệu âm thanh đủ tách biệt chúng sẽ được mã hóa riêng biệt bởi hệ thống thính giác với một bộ bộ lọc thính giác Tuy nhiên, cần lưu ý rằng nhận thức về cao độ nhiều hơn phức tạp hơn “lý thuyết địa điểm” đơn giản này (tức là lý thuyết mà

ception của cao độ tương ứng với một vị trí đặt trên BM) Hơn nữa, "Lý thuyết vị trí" đưa ra một minh họa tốt về cách HAS có một dải biến đổi- độ rộng của ảnh hưởng với tần số Nguyên tắc chung này đã được sao lưu bằng vô số thử nghiệm

và phép đo thực nghiệm không chỉ có đã cố gắng tạo ra các mô hình về băng thông của các bộ lọc thính giác nhưng nhưng hình dạng thực tế của chúng (xem bên dưới)

HÌNH 5.5: Biên độ dịch chuyển của màng đáy trong tám tông màu trong sáng Tái bản với sự

cho phép Người gửi: G Von Békésy Thử nghiệm trong Thính giác Bộ truyện McGraw-Hill

trong Tâm lý học McGraw-Hill, 1960 Bản quyền Hiệp hội Âm thanh Hoa Kỳ [19]

Câu 4: Mô hình dải quan trọng:

Fletcher [4] đã cố gắng đo độ rộng của các dải quan trọng của âm thanh thử các bộ lọc bằng cách sử dụng âm thử nghiệm và tiếng ồn băng rộng đồng vị trí (như được minh họa trong Hình 5.6) Ngưỡng cảm nhận đối với một giai điệu thử nghiệm duy nhất được đo bằng sự hiện diện của nhiễu băng thông rộng Tiếng ồn

là của một băng thông được đặt tập trung vào giai điệu thử nghiệm Băng thông này thay đổi như minh họa trong Hình 5.7 dẫn đến trong một ngưỡng cảm nhận

Trang 10

đối với âm thử nghiệm cho mỗi băng thông nhiễu Các kết quả cho thấy rằng khi băng thông tiếng ồn băng rộng tăng lên, thì cường độ (ngưỡng cảm nhận) của giai

điệu đồng vị trí lên đến một điểm nhất định (của ∆ f) Quá thời điểm này, ngưỡng

không tăng và vẫn ổn định ở

cùng giá trị Toàn bộ thí nghiệm được lặp lại cho tần số âm thanh khác nhau cho kết quả như trong Hình 5.8 Con số này thực sự là từ việc lặp lại các thí nghiệm tương tự của Schooneveldt và Moore [6] vào năm 1987 Hình này cho thấy rõ ràng ngưỡng tăng khi băng thông nhiễu tăng lên đến băng thông quan trọng 400Hz và sau đó không đổi sau đó

HÌNH 5.6: Thí nghiệm "băng thông quan trọng" nhiễu băng rộng của Fletcher [4]

HÌNH 5.7: Hình minh họa các thí nghiệm của Fletcher [4]

Trang 11

HÌNH 5.8: Ngưỡng âm dẫn đến nhiễu băng rộng đồng vị trí (đối với tần số 2kHz âm thử) Tái bản với sự cho phép Từ: GP Schooneveldt và BCJ Moore Phát hành mặt nạ điều hòa cho các

đơn âm và hai tai khác nhau sự kết hợp của tín hiệu, tần số và các dải tần J Acoust Soc Là., 1

(85): 262-272, 1987 Bản quyền 1987, Acoustic Society of America [6] Với "mô hình phổ công suất của thính giác", băng thông quan trọng nomena là kết quả của việc phát hiện thính giác về tín hiệu thành tiếng ồn (SNR) tiêu chí [11] Cụ thể, khi băng thông của tiếng ồn bắt đầu tăng lên rất ít bị suy giảm bởi bộ lọc thính giác cục bộ và do đó để giữ lại SNR cho một người nghe nhất định, ngưỡng sẽ tăng lên Ngược lại, khi tiếng ồn băng thông tăng vào các dải dừng của bộ lọc, lượng cảm nhận được nhiễu sẽ không đổi và do đó ngưỡng không đổi

Một biểu diễn chính và thường được sử dụng của miền băng tần quan trọng là

“Bark Tỉ lệ" Thang Bark thường được định nghĩa là một bảng các giá trị tần số (xem Bảng 5.1) Các giá trị này xác định tần số trung tâm và dải tần số (và do đó

là các băng thông quan trọng) của các băng tần quan trọng Chúng đã được lấy từ bài báo của Zwicker [21] mà ban đầu định nghĩa thang đo Bark

Mặc dù thang đo Bark được định nghĩa như bảng trong Bảng 5.1, một số biểu thức phân tích cho sự chuyển đổi giữa tần số (tính bằng Hz)

BẢNG 5.1: Thang âm thanh: số dải, tần số trung tâm và các dải tần số:

Trang 12

và thang đo Bark đã được đề xuất Thường được sử dụng nhất là được định nghĩa bởi Zwicker [22] được chỉ ra trong (5.1) Cần lưu ý rằng phương trình này (và các

mô hình liên quan khác) lấy giá trị của tần số ( f ) làm giá trị trên tần số của phạm

vi cho tốc độ băng tần quan trọng trong Barks (giá trị phù hợp trong cột bên phải trong Bảng 5.1)

Listing 5.1: Mã Matlab để tạo Hình 5.9

Hình 5.9 cho thấy các giá trị này từ bảng 5.1 kết hợp với giá trị xấp xỉ mation Phương trình (5.1)

Hơn nữa, các băng thông của mỗi bộ lọc Bark có thể được tính gần đúng bằng hàm sau được xác định bởi Zwicker và Terhardt [22]:

Phương trình này phù hợp với các giá trị băng thông được lập bảng cho trong bảng 5.1 từ DC đến 15kHz trong vòng 10%

Đã có thêm các bản cập nhật và chỉnh sửa đối với công thức Bark (đặc biệt là của Traunmuller [18], Schoeder và cộng sự [15] và Wang và cộng sự [20]) Một trong các phép gần đúng được sử dụng gần đây nhất đối với thang Bark được cung cấp bởi Wang

et al [20]

Trang 13

HÌNH 5.9: So sánh các giá trị thang đo Bark từ Bảng 5.1 và (5.1)

Công thức này được sử dụng trong trích xuất tính năng cảm nhận PLP-RASTA quy trình [8] như được mô tả trong Chương 9

 Thang đo tri giác Mel:

Một thang tần số tri giác phổ biến khác là Mel (viết tắt của Melody) tỉ lệ Nó

có nguồn gốc từ tác phẩm gốc của Stevens et al [16] vào năm 1937 Tương tự như thang đo Bark, có rất nhiều công thức được sử dụng để chuyển đổi giữa thang đo tri giác Mel và tần số tuyến tính (tính bằng Hz) A công thức phổ biến

và thông dụng để chuyển đổi từ tần số sang Mels là:

Nó được sử dụng với các phương pháp khai thác tính năng MFCC được mô tả trong Phần 9.6 như được triển khai trong bộ công cụ phát biểu phổ biến HTK [3]

Trang 14

HÌNH 5.10: Thang đo Mel như được hiển thị bởi (5.4) được tạo bởi mã trong Danh sách 5.2 Listing 5.2: Mã Matlab để tạo thang đo Mel Hình 5.10

Nhiều thí nghiệm khác nhau đã được tiến hành để thu được hình dạng của bộ lọc thính giác [9, 11, 12, 13] Một nỗ lực ban đầu đáng kể để mô tả đặc điểm và đo hình dạng của bộ lọc thính giác được thực hiện bởi Patterson [12] Mẫu- Son đã tiến hành một số thử nghiệm bằng cách sử dụng một giai điệu thử nghiệm cố định

và mức cao hoặc nhiễu băng thông rộng thông thấp của băng thông thay đổi Tín hiệu mặt nạ này là được chọn là nhiễu băng rộng, dưới dạng tín hiệu hình sin và tín hiệu nhiễu băng hẹp đã được tìm thấy để cung cấp cho các đồ tạo tác thời gian (ví dụ, đập bằng hình sin) [11] hình 5.11 cho thấy một minh họa về các thí nghiệm như vậy với nhiễu thông thấp (lấy từ Patterson [12]) Đầu tiên, mục đích của những thử nghiệm này là để tìm ra ngưỡng phát hiện đối với một âm kiểm tra (được hiển thị dưới dạng một đường thẳng đứng trong giữa của hình) Tiếng ồn thông thấp sau đó được thay đổi trong băng thông (từ DC đến một tần số cắt cho

trước) Điều này được phản ánh trong tham số ∆ f được hiển thị trong hình cho

biết khoảng cách giữa các cạnh của tiếng ồn và giọng điệu Sử dụng cái được gọi

là "mô hình phổ công suất", khu vực của chồng chéo giữa nhiễu và bộ lọc (nghĩa

là tích hợp sản phẩm của nhiễu và chức năng lọc) có liên quan trực tiếp đến ngưỡng phát hiện đối với giai điệu thử nghiệm Mô hình chồng chéo này được Patterson [12] xây dựng như sau:

Trong đó: P s là công suất của tín hiệu ở ngưỡng cảm nhận, K là hằng số, H (f )

là hàm truyền của phản ứng bộ lọc thính giác và N ( f ) là phổ công suất che tiếng

ồn băng rộng Rõ ràng, nếu băng thông rộng tiếng ồn là một bộ lọc tiếng ồn thông

Ngày đăng: 10/01/2022, 18:33

HÌNH ẢNH LIÊN QUAN

Hình 5.1: Hệ thống thính giác ngoại vi. - tiểu luận môn học xử lý tiếng nói
Hình 5.1 Hệ thống thính giác ngoại vi (Trang 4)
- Màng cơ bản (BM): là một xương phân chia hình xoắn ốc ốc tai. Nó hoạt động như một máy phân tích phổ logarit, phân chia vật lý và cô lập các thành phần tần  số rung động đầu vào đến các vị trí vật lý khác nhau dọc theo chiều dài của nó - tiểu luận môn học xử lý tiếng nói
ng cơ bản (BM): là một xương phân chia hình xoắn ốc ốc tai. Nó hoạt động như một máy phân tích phổ logarit, phân chia vật lý và cô lập các thành phần tần số rung động đầu vào đến các vị trí vật lý khác nhau dọc theo chiều dài của nó (Trang 5)
Hình 5.3: Các đường dẫn âm thanh liên kết tai trái và tai phải với thính giác vỏ não (kết nối tiến và lùi) - tiểu luận môn học xử lý tiếng nói
Hình 5.3 Các đường dẫn âm thanh liên kết tai trái và tai phải với thính giác vỏ não (kết nối tiến và lùi) (Trang 7)
HÌNH 5.5: Biên độ dịch chuyển của màng đáy trong tám tông màu trong sáng. Tái bản với sự cho phép - tiểu luận môn học xử lý tiếng nói
HÌNH 5.5 Biên độ dịch chuyển của màng đáy trong tám tông màu trong sáng. Tái bản với sự cho phép (Trang 9)
tương tự của Schooneveldt và Moore [6] vào năm 1987. Hình này cho thấy rõ ràng  ngưỡng  tăng  khi  băng  thông  nhiễu  tăng  lên  đến  băng  thông  quan  trọng  400Hz và sau đó không đổi sau đó - tiểu luận môn học xử lý tiếng nói
t ương tự của Schooneveldt và Moore [6] vào năm 1987. Hình này cho thấy rõ ràng ngưỡng tăng khi băng thông nhiễu tăng lên đến băng thông quan trọng 400Hz và sau đó không đổi sau đó (Trang 10)
kết quả như trong Hình 5.8. Con số này thực sự là từ việc lặp lại các thí nghiệm - tiểu luận môn học xử lý tiếng nói
k ết quả như trong Hình 5.8. Con số này thực sự là từ việc lặp lại các thí nghiệm (Trang 10)
HÌNH 5.8: Ngưỡng âm dẫn đến nhiễu băng rộng đồng vị trí (đối với tần số 2kHz âm thử). Tái bản với sự cho phép - tiểu luận môn học xử lý tiếng nói
HÌNH 5.8 Ngưỡng âm dẫn đến nhiễu băng rộng đồng vị trí (đối với tần số 2kHz âm thử). Tái bản với sự cho phép (Trang 11)
(xem Bảng 5.1). Các giá trị này xác định tần số trung tâm và dải tần số (và do đó - tiểu luận môn học xử lý tiếng nói
xem Bảng 5.1). Các giá trị này xác định tần số trung tâm và dải tần số (và do đó (Trang 11)
HÌNH 5.9: So sánh các giá trị thang đo Bark từ Bảng 5.1 và (5.1). - tiểu luận môn học xử lý tiếng nói
HÌNH 5.9 So sánh các giá trị thang đo Bark từ Bảng 5.1 và (5.1) (Trang 13)
HÌNH 5.10: Thang đo Mel như được hiển thị bởi (5.4) được tạo bởi mã trong Danh sách 5.2 Listing 5.2:  Mã Matlab để tạo thang đo Mel Hình 5.10  - tiểu luận môn học xử lý tiếng nói
HÌNH 5.10 Thang đo Mel như được hiển thị bởi (5.4) được tạo bởi mã trong Danh sách 5.2 Listing 5.2: Mã Matlab để tạo thang đo Mel Hình 5.10 (Trang 14)
HÌNH 5.12: Kết quả thí nghiệm ngưỡng nhiễu đối với dải cao, dải rộng tiếng ồn. Tái bản với sự cho phép - tiểu luận môn học xử lý tiếng nói
HÌNH 5.12 Kết quả thí nghiệm ngưỡng nhiễu đối với dải cao, dải rộng tiếng ồn. Tái bản với sự cho phép (Trang 16)
HÌNH 5.11: Kết quả thí nghiệm ngưỡng nhiễu đối với dải tần thấp, dải rộng tiếng ồn. Tái bản với sự cho phép - tiểu luận môn học xử lý tiếng nói
HÌNH 5.11 Kết quả thí nghiệm ngưỡng nhiễu đối với dải tần thấp, dải rộng tiếng ồn. Tái bản với sự cho phép (Trang 16)
Listing 5.3: Mã Matlab để tạo Hình 5.13: - tiểu luận môn học xử lý tiếng nói
isting 5.3: Mã Matlab để tạo Hình 5.13: (Trang 17)
HÌNH 5.13: Mô hình bộ lọc thính giác đối xứng do Patterson đề xuất [12] (sử dụng ba giá trị α {20,  50,  80})  cho  thấy  rằng  băng  thông  của  bộ  lọc  tăng  khi α tăng  (từ  Công  thức  (5.7)) - tiểu luận môn học xử lý tiếng nói
HÌNH 5.13 Mô hình bộ lọc thính giác đối xứng do Patterson đề xuất [12] (sử dụng ba giá trị α {20, 50, 80}) cho thấy rằng băng thông của bộ lọc tăng khi α tăng (từ Công thức (5.7)) (Trang 17)
trong minh họa dưới cùng trong Hình 5.14). Các thí nghiệm về tiếng ồn có khía - tiểu luận môn học xử lý tiếng nói
trong minh họa dưới cùng trong Hình 5.14). Các thí nghiệm về tiếng ồn có khía (Trang 18)
HÌNH 5.15: Ba bộ lọc RoEx với băng thông hình chữ nhật tương đương. - tiểu luận môn học xử lý tiếng nói
HÌNH 5.15 Ba bộ lọc RoEx với băng thông hình chữ nhật tương đương (Trang 20)
HÌNH 5.16: Dây đeo hình chữ nhật tương đương (ERB) - tiểu luận môn học xử lý tiếng nói
HÌNH 5.16 Dây đeo hình chữ nhật tương đương (ERB) (Trang 20)
Listing 5.5: Mã Matlab để tạo Hình 5.18: - tiểu luận môn học xử lý tiếng nói
isting 5.5: Mã Matlab để tạo Hình 5.18: (Trang 22)
Listing 5.4: Mã Matlab để tạo Hình 5.17: - tiểu luận môn học xử lý tiếng nói
isting 5.4: Mã Matlab để tạo Hình 5.17: (Trang 22)
HÌNH 5.18: So sánh các mô hình băng thông tới hạn 2. - tiểu luận môn học xử lý tiếng nói
HÌNH 5.18 So sánh các mô hình băng thông tới hạn 2 (Trang 23)
HÌNH 5.17: So sánh các mô hình băng thông tới hạn 1. - tiểu luận môn học xử lý tiếng nói
HÌNH 5.17 So sánh các mô hình băng thông tới hạn 1 (Trang 23)
HÌNH 5.19: Mô hình kích thích của âm 1kHz có thể được tạo ra như thế nào được nâng cấp thông qua đầu ra của bộ lọc thính giác như một chức năng của trung tâm bộ lọc tần số - tiểu luận môn học xử lý tiếng nói
HÌNH 5.19 Mô hình kích thích của âm 1kHz có thể được tạo ra như thế nào được nâng cấp thông qua đầu ra của bộ lọc thính giác như một chức năng của trung tâm bộ lọc tần số (Trang 25)
HÌNH 5.20: Sự thích nghi của một tế bào thần kinh thính giác. Hình này cho thấy một Bài- Biểu đồ thời gian kích thích (PSTH) cho một tế bào thần kinh thính giác - tiểu luận môn học xử lý tiếng nói
HÌNH 5.20 Sự thích nghi của một tế bào thần kinh thính giác. Hình này cho thấy một Bài- Biểu đồ thời gian kích thích (PSTH) cho một tế bào thần kinh thính giác (Trang 26)
HÌNH 5.21: Sự ức chế hai âm của một tế bào thần kinh thính giác. Hình này cho thấy kết quả chỉ dẫn của Biểu đồ thời gian sau kích thích (PSTH)  - tiểu luận môn học xử lý tiếng nói
HÌNH 5.21 Sự ức chế hai âm của một tế bào thần kinh thính giác. Hình này cho thấy kết quả chỉ dẫn của Biểu đồ thời gian sau kích thích (PSTH) (Trang 27)
HÌNH 5.22: Đường cong điều chỉnh của tế bào thần kinh và các vùng của hai âm sắc cho phép- sion - tiểu luận môn học xử lý tiếng nói
HÌNH 5.22 Đường cong điều chỉnh của tế bào thần kinh và các vùng của hai âm sắc cho phép- sion (Trang 27)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w