Automatic speech recognition asr

Audio and Speech Processing with MATLAB Audio and Speech Processing with MATLAB Automatic Speech Recognition ASR 8 1 Speech Recognition History Nhận dạng giọng nói đã có lịch sử lâu đời trong hơn 100[.]

Trang 1

Audio and Speech Processing

with MATLAB

Trang 2

Automatic Speech Recognition: ASR

8.1 Speech Recognition: History

Nhận dạng giọng nói đã có lịch sử lâu đời trong hơn 100 năm qua Tuy nhiên, chỉ gần đây ước mơ

“nói chuyện với máy tính” mới trở thành hiện thực Một trong những điều đáng chú ý nhất và sớm nhất về nhận dạng giọng nói là Radio Rex Không có nỗ lực nghiêm túc nào đối với ASR trong

30 năm tiếp khi Bell Labs phát triển một hệ thống nhận dạng chữ số riêng biệt Từ thời điểm đó, các phương pháp nhận dạng giọng nói đã được cải thiện dần dần với sự gia tăng về vốn từ vựng

và độ vững chắc Các hệ thống nhận dạng giọng nói hiện tại sử dụng deep networks có hiệu suất nhận dạng rất gần với hiệu suất nhận dạng của con người

Trang 3

1922: Radio Rex: Đồ chơi thời kỳ đầu, trình biên dịch một từ.

1939: Voder và Vocoder: Tổng hợp giọng nói, v.v Voder là hệ thống tổng hợp giọng

nói do Homer Dudley phát triển Nó sử dụng đòn bẩy và điều khiển để điều khiển âm thanh được tạo ra bằng điện tử nhằm tổng hợp giả tạo âm thanh của lời nói

1952: Bell Labs: Nhận dạng chữ số biệt lập từ một người đối thoại duy nhất.

1957: 10 âm tiết của một người nói duy nhất: Olson và Belar (phòng thí nghiệm

RCA)

Những năm 1950: Nhận dạng 10 nguyên âm độc lập với loa: (MIT).

Những năm 1980: Worlds of Wonder’s Julie Doll Đồ chơi / búp bê nhận dạng giọng

nói và tổng hợp giọng nói

Những năm 1990: Dragon Dictate

Những năm 2008: Tìm kiếm bằng giọng nói của Google

Những năm 2010: Siri, Cortana, Alexa, Trợ lý Google

Trang 4

8.1.1 Radio Rex

Radio Rex là một món đồ chơi nhận dạng giọng nói được sản xuất tại Hoa Kỳ vào năm 1922 bởi Elmwood Button Co Nó bao gồm một con chó làm bằng nhựa xenlulo gắn với một đế sắt Nó được giữ bên trong cũi gỗ bằng một nam châm điện

chống lại lực của lò xo Dòng điện tới nam châm điện chạy qua một đầu nối chạm lỏng lẻo Kết nối vật lý này nhạy cảm với năng lượng âm khoảng

500 cps Đây xấp xỉ năng lượng của một người

nói bình thường nói từ “Rex” gần với đồ chơi Do

đó, khi nói "Rex", kết nối bị đứt, nam châm điện tắt

và lò xo đẩy con chó ra khỏi cũi

Trang 5

8.1.2 Speech Recognition: History: 1952 Bell Labs Digits

Bộ nhận dạng chữ số đơn lẻ được phát triển bởi Bell Labs là hệ thống nhận dạng giọng nói thành công đầu tiên trên nhiều từ vựng Nó ước tính năng lượng trong các công thức (cộng hưởng âm thanh) cho mỗi chữ số nói 0,1,2,3,4,5,6,7,8 và 9 Mặc dù thô sơ, nó đã tích hợp một số ý tưởng mạnh mẽ (không nhạy cảm với biên độ, thời gian thay đổi ,

vv ) Những điểm yếu chính trong hệ thống được tìm thấy là do công nghệ (độ mạnh của các mạch và linh kiện vật lý) Sơ đồ mạch của hệ thống đã phát triển (lấy từ) được thể hiện trong Hình 8.1

Trang 7

8.1.3 Advances 1960s–Present Day

Những tiến bộ công nghệ sau là chìa khóa trong việc phát triển hiện trạng của hệ thống nhận dạng giọng nói có thể đạt được hiệu suất nhận dạng gần như con người Các

phương pháp này được liệt kê từ cũ nhất đến mới nhất

+ Phân tích quang phổ - FFT

+ Cepstrum

+ Dynamic time warp

+ Hidden Markov Models (HMM)

+ Language models

+ Integration with Deep Neural Network Methods

Trang 8

8.2 ASR-Problem Formulation

Nhận dạng giọng nói tự động đặt ra một số vấn đề kỹ thuật cực kỳ khó khăn Các vấn đề

có thể được phân loại như sau (theo mức độ khó dần):

• Hệ thống nhận dạng từ đơn (ví dụ: bộ nhận dạng một chữ số của Bell Labs)

• Single speaker ASR

• Hệ thống từ điển nhỏ

• Các tác vụ nhận dạng từ điển lớn không bị giới hạn

Trang 9

Một hệ thống ASR phải có khả năng tính đến những điều sau:

- Timing variation:

+ Thay đổi thời gian thay đổi giữa người đối thoại

+ Thay đổi thời gian thay đổi giữa cùng một người đối thoại trong các môi trường khác nhau

Trang 10

8.3 ASR Structune

8.3.1 Linguistic Categories for Speech Recognition

Các vectơ đặc trưng có thể được trích xuất từ một tín hiệu tiếng nói đã biết

và được sử dụng làm đại diện cho các phạm trù ngôn ngữ (hoặc chuỗi các danh mục) trong tín hiệu

Trang 11

8.3.2 Basic Units for ASR

Trang 12

8.4 Phones

Thoại là đơn vị phụ từ ngữ âm là đơn vị cơ bản phổ biến nhất cho hệ thống nhận dạng giọng nói tự động Điện thoại được ưu tiên làm đơn vị cơ bản cho ASR

chung hơn các từ và cụm từ

Trang 13

8.4.1 Phones versus Phonemes versus Graphemes

Âm vị và Điện thoại thường bị nhầm lẫn trong tài liệu nhận dạng giọng nói Âm vị là cấu trúc từ phụ trừu tượng giúp phân biệt ý nghĩa trong một ngôn ngữ Ngược lại, điện thoại

là một ví dụ thực tế của âm vị, tức là cách nó thực sự được phát âm( tức là chúng chỉ được nói hoặc phát âm theo một cách xác định)

Trang 14

8.5 Phonetic Alphabets(Bảng chữ cái phiên âm)

Bảng chữ cái phiên âm phổ biến nhất là Bảng chữ cái phiên âm quốc tế (IPA)

• 75 phụ âm

• 25 nguyên âm

• Mỗi ngữ âm là một ký tự xác định trong dấu ngoặc vuông, ví dụ: [p], [t]

• (Most common phonetic alphabet reference) Tài liệu kham

khảo bảng chữ cái phiên âm phổ biến nhất

• Bao gồm hầu hết các ngôn ngữ

• Biểu đồ đầy đủ về bảng chữ cái IPA có sẵn miễn phí từ IPA

https://www.internationalphoneticassociation.org/

Trang 15

An alternative TIMIT phoneset contains

• 61 phones

• English specific (Tiếng anh cụ thể)

• Mỗi ngữ âm được xác định là ký hiệu ASCII (máy có thể đọc được)

• Được liên kết với tập dữ liệu sự thật TIMIT ASR

HÌNH 8.2: Các nguyên

âm của Bảng chữ cái

phiên âm quốc tế (IPA)

Trang 16

8.6 Deterministic Sequence Recognition

• Nhận dạng trình tự xác định dựa trên đối sánh mẫu dựa trên từ như minh họa trong Hình 8.3

HÌNH 8.3: Đối sánh mẫu dựa trên từ xác định

• Can be used for both isolated and connected word

recognition(Có thể được sử dụng cho cả hai cô lập và nhận dạng

từ được kết nối)

• Xác định: Được thay thế bằng phương pháp thống kê

• Phổ biến vào cuối những năm 1970 đến giữa những năm 1980

Trang 17

8.7 Statistical sequence recognition

Nhận dạng trình tự thống kê có thể được định nghĩa về mặt toán học như sau:

W là một chuỗi các từ (hoặc điện thoại): w1, w2 , , wN

W ∗ là chuỗi có nhiều khả năng

X là dãy các đặc trưng âm học: x1, x2 , , xT

• Θ là tập các tham số của mô hình

Trình tự có nhiều khả năng nhất W ∗ được thu được bằng cách sử dụng Maximum A-Posteriori (MAP)

Hệ thống Bayes

Trang 18

8.8 Language and Auditory Models

Trong khi mô hình âm học mô phỏng tai người thì mô hình ngôn ngữ mô

tả não người

Mô hình ngôn ngữ lưu trữ những những tri thức (prior knowledge) về từ ngữ, về ngữ pháp, nói chung là những thông tin liên quan đến knowledge của một ngôn ngữ

Mô hình ngôn ngữ cần được update thường xuyên

Mô hình ngôn ngữ đơn giản và phổ biến hiện nay là mô hình n-gram

Trong mô hình này, xác suất của từ thứ n được xác định dựa trên (n-1) từ đứng trước nó P(Wn|Wn-1 W1) N thường bằng 3 hoặc 4 cho các hệ

thống nhận dạng tiếng nói hiện nay Mô hình ngôn ngữ n-gram tuy đơn

giản nhưng cũng có nhược điểm là không mô tả được sự phụ thuộc dài do giới hạn của n

Trang 19

8.9 SPEECH RECOGNITION DATASETS ( dữ liệu của nhận dạng tiếng nói)

TIMIT

CMU AN4

COMMON VOICE

SWITCHBOARD HUB5’00

Trang 20

8.10 SUMMARY

• Nhận dạng tiếng nói đã có hơn 100 năm lịch sử

• Các phần cơ bản của nhận dạng tiếng nói bao gồm thoại và

Tiêu đề	Automatic Speech Recognition: ASR
Trường học	Trường Đại học Bách Khoa Hà Nội
Chuyên ngành	Xử lý âm thanh và giọng nói
Thể loại	Báo cáo hoặc bài viết học thuật
Năm xuất bản	2024
Thành phố	Hà Nội

Định dạng
Số trang	21
Dung lượng	601,96 KB