Audio and Speech Processing with MATLAB Audio and Speech Processing with MATLAB Automatic Speech Recognition ASR 8 1 Speech Recognition History Nhận dạng giọng nói đã có lịch sử lâu đời trong hơn 100[.]
Trang 1Audio and Speech Processing
with MATLAB
Trang 2Automatic Speech Recognition: ASR
8.1 Speech Recognition: History
Nhận dạng giọng nói đã có lịch sử lâu đời trong hơn 100 năm qua Tuy nhiên, chỉ gần đây ước mơ
“nói chuyện với máy tính” mới trở thành hiện thực Một trong những điều đáng chú ý nhất và sớm nhất về nhận dạng giọng nói là Radio Rex Không có nỗ lực nghiêm túc nào đối với ASR trong
30 năm tiếp khi Bell Labs phát triển một hệ thống nhận dạng chữ số riêng biệt Từ thời điểm đó, các phương pháp nhận dạng giọng nói đã được cải thiện dần dần với sự gia tăng về vốn từ vựng
và độ vững chắc Các hệ thống nhận dạng giọng nói hiện tại sử dụng deep networks có hiệu suất nhận dạng rất gần với hiệu suất nhận dạng của con người
Trang 31922: Radio Rex: Đồ chơi thời kỳ đầu, trình biên dịch một từ.
1939: Voder và Vocoder: Tổng hợp giọng nói, v.v Voder là hệ thống tổng hợp giọng
nói do Homer Dudley phát triển Nó sử dụng đòn bẩy và điều khiển để điều khiển âm thanh được tạo ra bằng điện tử nhằm tổng hợp giả tạo âm thanh của lời nói
1952: Bell Labs: Nhận dạng chữ số biệt lập từ một người đối thoại duy nhất.
1957: 10 âm tiết của một người nói duy nhất: Olson và Belar (phòng thí nghiệm
RCA)
Những năm 1950: Nhận dạng 10 nguyên âm độc lập với loa: (MIT).
Những năm 1980: Worlds of Wonder’s Julie Doll Đồ chơi / búp bê nhận dạng giọng
nói và tổng hợp giọng nói
Những năm 1990: Dragon Dictate
Những năm 2008: Tìm kiếm bằng giọng nói của Google
Những năm 2010: Siri, Cortana, Alexa, Trợ lý Google
Trang 48.1.1 Radio Rex
Radio Rex là một món đồ chơi nhận dạng giọng nói được sản xuất tại Hoa Kỳ vào năm 1922 bởi Elmwood Button Co Nó bao gồm một con chó làm bằng nhựa xenlulo gắn với một đế sắt Nó được giữ bên trong cũi gỗ bằng một nam châm điện
chống lại lực của lò xo Dòng điện tới nam châm điện chạy qua một đầu nối chạm lỏng lẻo Kết nối vật lý này nhạy cảm với năng lượng âm khoảng
500 cps Đây xấp xỉ năng lượng của một người
nói bình thường nói từ “Rex” gần với đồ chơi Do
đó, khi nói "Rex", kết nối bị đứt, nam châm điện tắt
và lò xo đẩy con chó ra khỏi cũi
Trang 58.1.2 Speech Recognition: History: 1952 Bell Labs Digits
Bộ nhận dạng chữ số đơn lẻ được phát triển bởi Bell Labs là hệ thống nhận dạng giọng nói thành công đầu tiên trên nhiều từ vựng Nó ước tính năng lượng trong các công thức (cộng hưởng âm thanh) cho mỗi chữ số nói 0,1,2,3,4,5,6,7,8 và 9 Mặc dù thô sơ, nó đã tích hợp một số ý tưởng mạnh mẽ (không nhạy cảm với biên độ, thời gian thay đổi ,
vv ) Những điểm yếu chính trong hệ thống được tìm thấy là do công nghệ (độ mạnh của các mạch và linh kiện vật lý) Sơ đồ mạch của hệ thống đã phát triển (lấy từ) được thể hiện trong Hình 8.1
Trang 78.1.3 Advances 1960s–Present Day
Những tiến bộ công nghệ sau là chìa khóa trong việc phát triển hiện trạng của hệ thống nhận dạng giọng nói có thể đạt được hiệu suất nhận dạng gần như con người Các
phương pháp này được liệt kê từ cũ nhất đến mới nhất
+ Phân tích quang phổ - FFT
+ Cepstrum
+ Dynamic time warp
+ Hidden Markov Models (HMM)
+ Language models
+ Integration with Deep Neural Network Methods
Trang 88.2 ASR-Problem Formulation
Nhận dạng giọng nói tự động đặt ra một số vấn đề kỹ thuật cực kỳ khó khăn Các vấn đề
có thể được phân loại như sau (theo mức độ khó dần):
• Hệ thống nhận dạng từ đơn (ví dụ: bộ nhận dạng một chữ số của Bell Labs)
• Single speaker ASR
• Hệ thống từ điển nhỏ
• Các tác vụ nhận dạng từ điển lớn không bị giới hạn
Trang 9Một hệ thống ASR phải có khả năng tính đến những điều sau:
- Timing variation:
+ Thay đổi thời gian thay đổi giữa người đối thoại
+ Thay đổi thời gian thay đổi giữa cùng một người đối thoại trong các môi trường khác nhau
Trang 108.3 ASR Structune
8.3.1 Linguistic Categories for Speech Recognition
Các vectơ đặc trưng có thể được trích xuất từ một tín hiệu tiếng nói đã biết
và được sử dụng làm đại diện cho các phạm trù ngôn ngữ (hoặc chuỗi các danh mục) trong tín hiệu
Trang 118.3.2 Basic Units for ASR
Trang 128.4 Phones
Thoại là đơn vị phụ từ ngữ âm là đơn vị cơ bản phổ biến nhất cho hệ thống nhận dạng giọng nói tự động Điện thoại được ưu tiên làm đơn vị cơ bản cho ASR
chung hơn các từ và cụm từ
Trang 138.4.1 Phones versus Phonemes versus Graphemes
Âm vị và Điện thoại thường bị nhầm lẫn trong tài liệu nhận dạng giọng nói Âm vị là cấu trúc từ phụ trừu tượng giúp phân biệt ý nghĩa trong một ngôn ngữ Ngược lại, điện thoại
là một ví dụ thực tế của âm vị, tức là cách nó thực sự được phát âm( tức là chúng chỉ được nói hoặc phát âm theo một cách xác định)
Trang 148.5 Phonetic Alphabets(Bảng chữ cái phiên âm)
Bảng chữ cái phiên âm phổ biến nhất là Bảng chữ cái phiên âm quốc tế (IPA)
• 75 phụ âm
• 25 nguyên âm
• Mỗi ngữ âm là một ký tự xác định trong dấu ngoặc vuông, ví dụ: [p], [t]
• (Most common phonetic alphabet reference) Tài liệu kham
khảo bảng chữ cái phiên âm phổ biến nhất
• Bao gồm hầu hết các ngôn ngữ
• Biểu đồ đầy đủ về bảng chữ cái IPA có sẵn miễn phí từ IPA
https://www.internationalphoneticassociation.org/
Trang 15An alternative TIMIT phoneset contains
• 61 phones
• English specific (Tiếng anh cụ thể)
• Mỗi ngữ âm được xác định là ký hiệu ASCII (máy có thể đọc được)
• Được liên kết với tập dữ liệu sự thật TIMIT ASR
HÌNH 8.2: Các nguyên
âm của Bảng chữ cái
phiên âm quốc tế (IPA)
Trang 168.6 Deterministic Sequence Recognition
• Nhận dạng trình tự xác định dựa trên đối sánh mẫu dựa trên từ như minh họa trong Hình 8.3
HÌNH 8.3: Đối sánh mẫu dựa trên từ xác định
• Can be used for both isolated and connected word
recognition(Có thể được sử dụng cho cả hai cô lập và nhận dạng
từ được kết nối)
• Xác định: Được thay thế bằng phương pháp thống kê
• Phổ biến vào cuối những năm 1970 đến giữa những năm 1980
Trang 178.7 Statistical sequence recognition
Nhận dạng trình tự thống kê có thể được định nghĩa về mặt toán học như sau:
W là một chuỗi các từ (hoặc điện thoại): w1, w2 , , wN
W ∗ là chuỗi có nhiều khả năng
X là dãy các đặc trưng âm học: x1, x2 , , xT
• Θ là tập các tham số của mô hình
Trình tự có nhiều khả năng nhất W ∗ được thu được bằng cách sử dụng Maximum A-Posteriori (MAP)
Hệ thống Bayes
Trang 188.8 Language and Auditory Models
Trong khi mô hình âm học mô phỏng tai người thì mô hình ngôn ngữ mô
tả não người
Mô hình ngôn ngữ lưu trữ những những tri thức (prior knowledge) về từ ngữ, về ngữ pháp, nói chung là những thông tin liên quan đến knowledge của một ngôn ngữ
Mô hình ngôn ngữ cần được update thường xuyên
Mô hình ngôn ngữ đơn giản và phổ biến hiện nay là mô hình n-gram
Trong mô hình này, xác suất của từ thứ n được xác định dựa trên (n-1) từ đứng trước nó P(Wn|Wn-1 W1) N thường bằng 3 hoặc 4 cho các hệ
thống nhận dạng tiếng nói hiện nay Mô hình ngôn ngữ n-gram tuy đơn
giản nhưng cũng có nhược điểm là không mô tả được sự phụ thuộc dài do giới hạn của n
Trang 198.9 SPEECH RECOGNITION DATASETS ( dữ liệu của nhận dạng tiếng nói)
TIMIT
CMU AN4
COMMON VOICE
SWITCHBOARD HUB5’00
Trang 208.10 SUMMARY
• Nhận dạng tiếng nói đã có hơn 100 năm lịch sử
• Các phần cơ bản của nhận dạng tiếng nói bao gồm thoại và