1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng tiếng việt truyền qua mạng

90 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 2,65 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhận dạng tiếng việt truyền qua mạng Nhận dạng tiếng việt truyền qua mạng Nhận dạng tiếng việt truyền qua mạng luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

MỤC LỤC

LỜI CAM ĐOAN 4

LỜI CẢM ƠN 5

MỞ ĐẦU 6

DANH MỤC HÌNH VẼ 7

DANH MỤC BẢNG 8

DANH MỤC TỪ VIẾT TẮT 9

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI 11

1.1 Xử lý tiếng nói 11

1.1.1 Phân tích Fourier 11

1.1.2 Bộ lọc 15

1.1.3 Dự báo tuyến tính 17

1.1.4 Trích chọn đặc trưng tiếng nói 20

1.1.4.1 Các đặc trưng LP 20

1.1.4.2 Đặc trưng MFCCs (Mel-Frequency Cepstral Coefficients) 21 1.1.4.3 Đặc trưng PLP (Perceptual Linear Prediction) 24

1.2 Nhận dạng tự động tiếng nói 25

1.3 Mô hình Markov ẩn (Hidden Markov models) 27

1.4 Mô hình thứ bậc 30

1.5 Các thuật giải cho mô hình Markov ẩn 31

1.6 Các đặc trưng âm học 34

1.7 Mô hình âm học 35

1.7.1 Mô hình Gauss hỗn hợp (GMM) 35

1.7.2 Các mô hình âm (Phone models) 36

1.8 Mô hình ngôn ngữ 38

1.8.1 Mô hình n-grams 40

Trang 2

1.9 Tìm kiếm dãy từ phù hợp 44

1.10 Đánh giá chất lượng của hệ thống nhận dạng tiếng nói 47

CHƯƠNG 2: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT NÓI TRUYỀN QUA MẠNG 49

2.1 Giới thiệu 49

2.2 Lựa chọn giao thức giao tiếp 50

2.2.1 Mục tiêu 50

2.2.2 Giao thức WebSocket 52

2.3 Kiến trúc hệ thống 55

2.3.1 Khái quát 55

2.3.2 Các thành phần của hệ thống 56

2.3.2.1 Máy chủ 56

2.3.2.2 Bộ nhận dạng tiếng Việt nói 57

2.3.2.3 Máy khách 58

CHƯƠNG 3: THỬ NGHIỆM HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TRUYỀN QUA MẠNG VỚI KALDI 59

3.1 Bộ nhận dạng tiếng nói 59

3.1.1 Giới thiệu Kaldi Toolkit 59

3.1.2 Tải và cài đặt Kaldi Toolkit 61

3.1.3 Chuẩn bị dữ liệu 62

3.1.3.1 Dữ liệu âm thanh 62

3.1.3.2 Dữ liệu thông tin về các file âm thanh 62

3.1.3.3 Dữ liệu ngôn ngữ 64

3.1.4 Huấn luyện mô hình với tham số MFCC 65

3.1.5 Huấn luyện mô hình với tham số MFCC và cao độ (pitch) 69

3.1.6 Huấn luyện mô hình với tham số PLP và cao độ (pitch) 73

3.2 Thành phần chủ (master) và nhánh (slave) 74

3.3 Kết nối bộ nhận dạng tiếng Việt nói với nhánh 74

3.3.1 Giới thiệu GStreamer 75

Trang 3

3.3.2 Các khái niệm cơ bản của GStreamer 76

3.3.2.1 Các thành phần (Elements) 76

3.3.2.2 Pads 76

3.3.2.3 Bins và pipelines 77

3.3.2.4 Giao tiếp 78

3.3.2.5 Cài đặt Gstreamer 79

3.3.3 Phương pháp kết nối bộ nhận dạng vào nhánh 79

CHƯƠNG 4: KẾT LUẬN 81

4.1 Kết quả thử nghiệm 81

4.1.1 Phương pháp đánh giá 81

4.1.2 Kết quả đánh giá 81

4.2 Kết luận 83

PHỤ LỤC: CÁC CÂU THU ÂM 85

TÀI LIỆU THAM KHẢO 90

Trang 4

LỜI CAM ĐOAN

Tác giả luận văn xin cam đoan rằng:

Số liệu và kết quả nghiên cứu trong luận văn này là trung thực và chưa hề được sử dụng hoặc công bố trong bất kỳ công trình nào khác

Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận văn này đã được cảm ơn và các thông tin trích dẫn trong luận văn đã được ghi rõ nguồn gốc

Tác giả luận văn

Nguyễn Đình Anh

Trang 5

LỜI CẢM ƠN

Trước hết, em xin gửi lời cảm ơn chân thành đến PGS TS Trịnh Văn Loan Nếu không có sự hướng dẫn nhiệt tình và tạo điều kiện của thầy thì có lẽ em đã không thể hoàn thành được luận văn này

Em cũng xin gửi lời cảm ơn đến các thầy cô trong trường đã giảng dạy và tạo điều kiện cho chúng em học tập và nghiên cứu trong suốt thời gian theo học tại trường

Ngoài ra em cũng không thể không cảm ơn sự động viên chăm sóc của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh thần của bạn bè

Trang 6

MỞ ĐẦU

Với sự phát triển của khoa học kỹ thuật, máy móc đã trở thành một công cụ đắc lực hỗ trợ con người Chính vì vậy, nhiều người đã bỏ rất nhiều thời gian và công sức nghiên cứu để có thể tạo ra những cỗ máy có thể giao tiếp với con người bằng công cụ giao tiếp hiệu quả nhất là tiếng nói Nhận dạng tiếng nói là một phần quan trọng trong những nỗ lực ấy

Trên thế giới, người ta đã đưa ra rất nhiều công trình nghiên cứu với các phương pháp nhận dạng tiếng nói khác nhau Đã có nhiều nghiên cứu có những thành công đáng kể cùng với các sản phẩm hỗ trợ cho việc thiết kế các hệ thống nhận dạng tiếng nói ví dụ như CMU Sphinx của đại học Carnegie Mellon, HTK Toolkit của đại học Cambridge, Kaldi của Daniel Povey và các cộng sự… Những sản phẩm này đang ngày càng trở nên phổ biến

Luận văn này được xây dựng với mong muốn có thể tiếp cận được các kiến thức về nhận dạng tiếng nói và từ đó xây dựng một ứng dụng nhận dạng tiếng Việt nói truyền qua mạng

Trang 7

DANH MỤC HÌNH VẼ

Hình 1.1: Mô tả xấp xỉ bởi hàm điều hoà 12

Hình 1.2: Ví dụ biến đổi Fourier 14

Hình 1.3: Ví dụ dự báo tuyến tính 19

Hình 1.4: Mô tả băng lọc thang Mel 23

Hình 1.5: Kiến trúc nhận dạng tiếng nói theo phương pháp thống kê 25

Hình 1.6: Tổng quan về huấn luyện và nhận dạng trong HT nhận dạng tiếng nói 27

Hình 1.7: Hai biểu diễn của mô hình Markov ẩn 29

Hình 1.8: Mô hình thứ bậc trong nhận dạng tiếng nói mô hình Markov ẩn 31

Hình 1.9: Mô tả lập trình động 32

Hình 1.10: Một mô hình ngôn ngữ trạng thái hữu hạn 38

Hình 1.11: Một bigram có thể được viết dưới dạng mạng trạng thái hữu hạn có trọng số mà các cung có xác suất gán vào chúng 41

Hình 1.12: Quá trình biên soạn một mạng nhận dạng 45

Hình 2.1: Phác thảo hệ thống nhận dạng tiếng Việt nói truyền qua mạng 50

Hình 2.2: Minh hoạ đơn giản về truyền bán song công 51

Hình 2.3: Minh hoạ đơn giản về truyền song công toàn phần 51

Hình 2.4: Một mô tả nhanh về WebSocket 52

Hình 2.5: Khái quát kiến trúc hệ thống 55

Hình 3.1: Các thành phần cơ bản của Kaldi Toolkit 68

Hình 3.2: Một pipeline đơn giản cho một trình chơi tập tin ogg 78

Hình 3.3: Mô phỏng giao tiếp giữa ứng dụng và pipeline 79

Hình 3.4: Pipeline luận văn sử dụng 80

Trang 8

DANH MỤC BẢNG

Bảng 1: Kết quả đánh giá nhận dạng với MFCC 81 Bảng 2: Kết quả đánh giá nhận dạng với MFCC+pitch 82 Bảng 3: Kết quả đánh giá nhận dạng với PLP+pitch 82

Trang 9

DANH MỤC TỪ VIẾT TẮT

DCT Discrete Fourier Transform Biến đổi Fourier rời rạc

DSP Digital Signal Processing Xử lý tính hiệu số

FFT Fast Fourier Transform Biến đổi Fourier nhanh

MFCC Mel Frequency Cepstral Coeficients Các hệ số Cepstral theo thang

đo tần số Mel

PLP Perceptual Linear Prediction Dự báo tiên đoán tuyến tính GMM Gaussian Mixture Model Mô hình Gauss hỗn hợp

EM Expectation Maximization Tối đa hoá kỳ vọng

SER Sentence Error Rate Tỷ lệ câu lỗi

HTTP Hypertext Transfer Protocol Giao thức truyền tải siêu văn

bản TCP Transmission Control Protocol Giao thức điều khiển truyền

vận BLAS Boosted Maximum Mutual

Information

Thư viện đại số tuyến tính cơ bản

Trang 10

NCCF Normalized Cross Correlation

Transform

Biến đổi tuyến tính tối đa khả năng

Trang 11

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG TỰ ĐỘNG

TIẾNG NÓI 1.1 Xử lý tiếng nói

Xử lý tiếng nói là nghiên cứu về các tín hiệu tiếng nói và các phương pháp

xử lý những tín hiệu đó Các tín hiệu thường được xử lý dưới dạng biểu diễn tín hiệu số, nên xử lý tiếng nói có thể coi là một trường hợp đặc biệt của xử lý tín hiệu

số áp dụng lên các tín hiệu tiếng nói Phần này sẽ giới thiệu một số khái niệm và kỹ thuật quan trọng trong xử lý tiếng nói đang được sử dụng rộng rãi ngày nay

1.1.1 Phân tích Fourier

Đầu tiên ta sẽ nhắc đến phân tích Fourier bởi đây là một trong những phân tích phổ biến trong xử lý tiếng nói Phân tích Fourier xuất phát từ một thực tế đơn giản: Bất kỳ dạng sóng tuần hoàn nào đều có thể được biểu diễn bằng tổng của các hàm sin, mỗi hàm thay đổi biên độ, tần số và được dịch trong thời gian bởi những hằng số phù hợp Hơn nữa, chỉ duy nhất những hàm sin mà có tần số là một bội số nguyên của tần số cơ bản (fundamental frequency) của dãy tuần hoàn là cần thiết Những hàm sin này được gọi là các hàm điều hoà (harmonics) của tần số cơ bản

Để có một xấp xỉ tốt cho bất kỳ một dạng sóng tuần hoàn nào, việc tính đến một số lượng rất lớn các hàm sin có thể là cần thiết, tức là có thể xuất hiện những hàm sin có tần số rất cao Tuy nhiên, các tham số của bất kỳ hàm sin riêng lẻ nào

mà đem đến sự xấp xỉ tốt nhất không phụ thuộc vào việc bao nhiêu hàm sin được sử dụng Do đó, xấp xỉ tốt nhất mà sử dụng chỉ một vài hàm sin có thể được suy ra từ một xấp xỉ bậc cao hơn và chính xác hơn đơn giản bằng cách bỏ đi một số hàm điều hoà

Việc chỉ những hàm sin là các hàm điều hoà (các bội số nguyên của tần số cơ bản) có liên quan là hoàn toàn hợp lý do chỉ có những hàm sin này sẽ hoàn chỉnh một số nguyên chính xác của các chu kỳ trong chu kỳ cơ bản; bất kỳ hàm sin khác

Trang 12

hợp một dạng sóng mà giống hệt nhau trong mọi chu kỳ

Hình 1.1: Mô tả bất kỳ hàm tuần hoàn nào có thể được xấp xỉ bởi các hàm điều hoà

(Daniel P W Ellis - An Introduction to Signal Processing for Speech)

Hình trên mô tả khái niệm Chuỗi Fourier (Fourier Series) Dạng sóng tuần

hoàn ban đầu là một sóng vuông, với các chuyển dịch đột ngột từ +1 đến -1 và ngược lại ở mỗi chu kỳ Điều đặc biệt đáng ngạc nhiên là tổng của một chuỗi các hàm sin mịn thậm chí có thể xấp xỉ một hàm không liên tục như vậy, hình vẽ trên

mô tả năm thành phần Fourier đầu tiên (trong trường hợp này chỉ gổm các bội lẻ lần của tần số cơ bản) tăng cường và khử lẫn nhau để khớp với sóng vuông ban đầu Ta cũng lưu ý rằng trong trường hợp đặc biệt của sóng vuông, các biên độ của hàm điều hoà là tỉ lệ nghịch với số điều hoà (harmonic number)

Việc tìm các hệ số của Chuỗi Fourier – các hằng số tỉ lệ tối ưu và các độ dịch pha cho mỗi hàm điều hoà – là rất đơn giản: Tất cả những gì cần làm là nhân dạng sóng với một hàm điều hoà ứng viên, và tính tổng lại (lấy tích phân) trên một chu

Trang 13

kỳ đầy đủ; điều này được biết đến như lấy tích chập (inner product) giữa dạng sóng

và hàm điều hoà, và đưa ra hằng số tỉ lệ cần thiết cho hàm điều hoà đó Điều này thực hiện được vì các hàm điều hoà là trực giao (orthogonal), nghĩa là tích chập giữa các hàm điều hoà khác nhau là chính xác bằng 0, nên nếu ta coi dạng sóng ban đầu là một tổng của các hàm điều hoà, chỉ số hạng liên quan đến hàm điều hoà ứng viên xuất hiện trong kết quả của tích chập Tìm pha cần thực hiện tích chập hai lần, một lần với hàm điều hoà pha cosin và một lần với hàm điều hoà pha sin, ta được hai hàm điều hoà mà có thể cộng lại với nhau để cung cấp một hàm sin của tần số tương ứng ở bất kỳ biên độ và pha nào

Hai biểu diễn – dạng sóng dưới dạng hàm của thời gian, hay các hệ số Fourier như một hàm của tần số – có thể được nhắc đến như là các mô tả tương đương hợp lệ của hàm Cụ thể, chúng cùng với nhau tạo nên một cặp chuyển đổi, một trong miền thời gian, và một trong miền tần số hay miền Fourier

Nếu phân tích Fourier chỉ có thể áp dụng lên các tín hiệu tuần hoàn hoàn toàn thì sẽ không có gì nhiều để quan tâm, bởi một tín hiệu tuần hoàn hoàn toàn, lặp lại chính xác tới thời gian vô hạn theo cả hai phương, là một khái niệm trừu tượng toán học không tồn tại trong thực tế Tuy nhiên, xem xét việc kéo dãn chu kỳ của việc lặp lại trở nên dài và dài hơn nữa Phân tích Fourier chỉ ra rằng trong chu kỳ rất dài này ta có thể có bất kỳ dạng sóng tuỳ ý và duy nhất và ta vẫn có thể biểu diễn nó chính xác như ta mong muốn Tất cả những gì xảy ra là “các hàm điều hoà” của chu

kỳ rất dài của ta trở nên càng lúc càng gần nhau hơn về tần số (do chúng là các bội nguyên lần của một tần số cơ bản được tính bằng 1 chia cho chu kỳ cơ bản mà đang trở nên rất lớn) Nói cách khác, để nắm được chi tiết lên tới một tần số giới hạn trên

cố định, ta sẽ cần phải xác định ngày càng nhiều hàm điều hoà

Bây giờ, bằng cách để cho chu kỳ cơ bản tiến đến vô cùng, ta được một tín hiện mà không còn tuần hoàn, bởi chỉ có duy nhất không gian cho chỉ một lần lặp trong toàn bộ trục thời gian thực; đồng thời, khoảng cách giữa các hàm điều hoà tiến tới không, nghĩa là chuỗi Fourier giờ trở thành một hàm liên tục của tần số, chứ

Trang 14

không phải một chuỗi các giá trị rời rạc Tuy nhiên, không có gì cần thay đổi- và, đặc biệt, ta vẫn có thể tìm giá trị của hàm biến đổi Fouier đơn giản bằng cách tính tích phân tích chập Đó chính là dạng tổng quát nhất của biến đổi Fourier, ghép cặp một dạng sóng liên tục không lặp lại theo thời gian với một hàm liên tục của tần số

Hình 1.2: Ví dụ biến đổi Fourier (Daniel P W Ellis - An Introduction to Signal

Processing for Speech) Một loại sóng không tuần hoàn mà ta có thể quan tâm là một dạng sóng chiều dài hữu hạn, ví dụ một dải tín hiệu tồn tại trên một khoảng thời gian giới hạn, nhưng bằng không ở tất cả những chỗ khác Vì nó không bao giờ lặp lại, biến đổi Fourier của nó là liên tục Tuy nhiên, ràng buộc mức độ hữu hạn về thời gian tác động lên độ mịn trong miền tần số, nghĩa là ta có thể chắc chắn không bỏ lỡ bất kỳ

Trang 15

chi tiết quan trọng nào nếu ta chỉ đánh giá biến đổi Fourier tại một số giới hạn các điểm tần số cách đều

Hình 1.3 là một ví dụ chỉ ra một trích đoạn tiếng nói ngắn cùng với cường độ của biến đổi Fourier của nó, lên tới 4kHz Một đồ thị cường độ biến đổi Fourier như vậy thường được biết đến như một phổ biên độ hay chỉ đơn giản là phổ Nó được chỉ ra dưới hai dạng: đồ thị ở giữa sử dụng một trục cường độ tuyến tính, và đồ thị dưới cùng vẽ cường độ theo deciBels(dB), một thang logarit vạch ra nhiều chi tiết hơn ở những phần biên độ thấp của phổ Lưu ý rằng dải đứng 80dB trong biểu đồ dưới cùng tương ứng với một tỷ số của cường độ tuyến tính 10 000:1 giữa các giá trị cường độ cao nhất và thấp nhất Dạng sóng thời gian đã được thu nhỏ bởi một cửa sổ hình nón (thể hiện bằng đường chấm) để tránh các chuyển dịch đột ngột về không tại hai bên mà nếu không thì chúng sẽ đưa ra các thành phần cao tần lạ Tín hiệu miền thời gian bằng không ở mọi nơi không thể hiện trong hình Ta nhận thấy các đỉnh cách đều dày đặc trong phổ; điều này xuất hiện bởi tính chu kỳ cao độ hiển nhiên trong dạng sóng (cụ thể sự lặp lại ở khoảng 10ms) Nếu tín hiệu là chính xác tuần hoàn và lặp lại vô tận, những đỉnh phổ này sẽ trở nên vô cùng hẹp, tồn tại chỉ ở các hàm điều hoà của tần số cơ bản; biến đổi Fourier sẽ trở thành Chuỗi Fourier Ở trên cùng cấu trúc tinh này ta thấy một đỉnh rộng trong phổ xung quanh 2400Hz; đây là cộng hưởng thanh quản được điều khiển bởi các sự rung cao độ, và tương ứng với các dao động nhanh và giảm dần ta nhận thấy xung quanh mỗi rung cao độ trong miền thời gian Một phép đếm nhanh xác nhận rằng những dao động này thực hiện khoảng 12 chu kỳ trong 5ms, mà thực sự tương ứng với tần số 2400Hz Phổ không có năng lượng đáng kể trên 4kHz, mặc dù đồ thị miền dB chỉ ra rằng những năng lượng này không hoàn toàn rơi vào không

1.1.2 Bộ lọc

Trong xử lý tín hiệu, một bộ lọc cơ bản là bất kỳ hệ thống nào với một đầu vào và một đầu ra, thuật ngữ bộ lọc ngụ ý rằng các tính chất của hệ thống này là nhấn mạnh các khía cạnh xác định của tín hiệu trong khi giảm và loại bỏ những

Trang 16

khía cạnh xác định khác Trong một bộ lọc tuyến tính bất biến, các thành phần Fourier – các hàm sin có tần số khác nhau – được lựa chọn, nghĩa là chúng hoặc được tăng cường hoặc giảm xuống Có vô cùng nhiều các bộ lọc có thể có, nhưng chúng thường được phân loại theo các tính chất rõ ràng về các ảnh hưởng của chúng: một bộ lọc thông thấp (low-pass filter) khuếch đại các tần số thấp gần với không; một bộ lọc thông cao (high-pass filter) thực hiện việc chuyển đổi, làm suy giảm các tần số thấp hơn; bộ lọc thông giải (band pass filter) chọn các tần số trong một khoảng giới hạn và bộ lọc chặn dải (band stop filter) loại bỏ các khoảng tần số xác định Lưu ý rằng sự cộng hưởng đơn giản chính là một loại bộ lọc thông dải Một cách để tạo một bộ lọc chặn dải là loại bỏ ra năng lượng tại những tần số xác định (cụ thể bằng cách cộng nó với một phiên bản đảo dấu của nó, tương ứng với một dộ dịch pha 180o), để lại các tần số thấp vào cao Cộng hưởng trong các hệ thống thường được gọi là các cực (poles), đề cập đến một đặc trưng của mô tả toán học của hệ thống; các khía cạnh sự suy giảm nội tại, như trong các bộ lọc chặn dải, được biết đến như các số không (zeros) bởi chúng có thể loại bỏ các đầu vào hình sin để đưa ra đầu ra không

Rất nhiều nền tảng của xử lý tín hiệu liên quan các kỹ thuật để thiết kể và xây dựng các bộ lọc để đạt được các mục tiêu và đặc điểm xác định Có một số các thủ tục “tối ưu” để thiết kế các bộ lọc, để cài đặt trong điện tử hay phần mềm, mà làm công việc tốt nhất có thể theo nghĩa giữ một số tần số không thay đổi trong khi loại bỏ những tần số khác, chịu các ràng buộc khác nhau như chi phí hay độ phức tạp Trong khi lọc tuyến tính là một phần tương đối giới hạn của tất cả các sự thay đổi tín hiệu có thể, nó lại rất có ích trong một phạm vi ứng dụng rộng, đặc biệt khi

cố gắng tách một phần cụ thể của thông tin như một tiếng nói cụ thể từ giữa một lượng lớn tiếng ồn môi trường

Như ta đã nhắc đến, các bộ lọc có thể được cài đặt đa dạng : có thể tạo các hệ thống âm học với các tính chất cộng hưởng đã được điều chỉnh như một ống đàn là một bộ lọc thông dải Tuy nhiên, sự xuất hiện của xử lý tín hiệu xảy ra khi có thể biểu diễn các tín hiệu như các điện áp và xử lý chúng sử dụng các mạch điện Rất

Trang 17

nhiều nền tảng lý thuyết là dựa trên điện tử tương tự, nhưng từ những năm 1960 trở

về sau ngày càng nhiều xử lý tín hiệu được thực hiện trên các máy tính số sử dụng tín hiệu biểu diễn dưới dạng dãy các giá trị được lưu trong bộ nhớ

Điều này dẫn đến các nền tảng lý thuyết thay đổi, được biết đến như xử lý tín hiệu số (digital signal processing – DSP), bởi trong khi một điện thế tương tự có thể theo lý thuyết thay đổi tại bất kỳ tần số nào từ rất chậm cho đến vô cùng nhanh, một biểu diễn số liên quan đến đo và lưu trữ điện thế chỉ tại một tập các thời điểm rời rạc (thông thường là cách đều) Các hệ thống xử lý tín hiệu số thường có tần số lấy mẫu cố định (số mẫu được lấy mỗi giây) và bất kỳ sự biến đổi nào trong tín hiệu mà liên quan đến chi tiết quan trọng dưới thang thời gian của việc lấy mẫu sẽ không được thu thập chính xác Trong thực tế, để lưu trữ các thành phần tới một tần số cụ thể ta cần lấy mẫu ở ít nhất là gấp đôi tần số đó, do đó tần số được biểu diễn chính xác cao nhất là một nửa của tần số lấy mẫu, được biết đến với tên tần số Nyquist Ví

dụ, trong một đĩa CD âm thanh số, tần số lấy mẫu được chọn là 44.1 kHz để đảm bảo rằng các tần số cao nhất có thể được nhận thức bởi con người – khoảng 20 kHz – có thể được biểu diễn đầy đủ, với 10 phần trăm thêm cung cấp không gian nghỉ để

dễ dàng hơn trong việc xây dựng các bộ chuyển đổi số sang tương tự cần thiết để phân giải biểu diễn số trở lại thành âm thanh vật lý thực cho người nghe

1.1.3 Dự báo tuyến tính

Giả sử ta có một hệ thống và ta muốn biết làm thế nào để tạo một bản sao –

một hệ thống nhân tạo với cùng các tính chất (vấn đề này đôi khi được gọi là định

danh hệ thống – system identification) Ta có thể đo độ tăng và dịch pha của nó tại

một tập các tần số khác nhau Ta có thể sau đó tạo một băng các bộ lọc thông dải, điều chỉnh các độ tăng của mỗi cái cho phù hợp với các độ tăng đã đo tại mỗi tần

số, rồi cộng các đầu ra với nhau một lần nữa, và ta có một hệ thống thực hiện rất giống ban đầu Nhưng nó sẽ chỉ là một xấp xỉ, và nó sẽ liên quan đến một lượng rất lớn các tính toán Nếu ta biết rằng hệ thống ta đang cố gắng sao lưu bao gồm chỉ một số ít các cộng hưởng đơn giản, theo lý thuyết ta có thể tạo ra một bản sao chính

Trang 18

xác hơn và hiệu quả hơn nhiều bằng cách chỉ ra các tham số của những cộng hưởng

đó (các tần số và sự điều chỉnh tốt nhất của chúng), rồi triển khai một hệ thống cộng hưởng tương đương

Khi điều đó xảy ra, có một thủ tục hiệu quả và chính xác để làm điều đó Trong cài đặt thời gian rời rạc, một bộ lọc cộng hưởng gồm một số trễ được áp dụng vào tín hiệu đầu ra, rồi đưa trở lại những đầu ra có trễ này (với các hằng số điều chỉnh xác định) tới đầu vào (số trễ xác định bậc của bộ lọc, cụ thể, bao nhiêu cộng hưởng phân biệt nó sẽ có) Kết quả, trong sự vắng mặt của các đầu vào, đầu ra tại một thời điểm xác định là một kết hợp tuyến tính của một vài giá trị đầu ra vừa xong, và quá trình khớp một bộ lọc cộng hưởng với một tín hiệu cụ thể gồm chọn các hằng số điều chỉnh mà thực hiện công việc tốt nhất trong so khớp (hay dự báo) mỗi mẫu đầu ra từ các việc làm ngay trước nó Vì lý do này, kỹ thuật này được biết với tên dự báo tuyến tính (Linear Prediction – LP) Nó là một kỹ thuật mạnh mẽ và hữu ích mà có thể xuất hiện ở những nơi khác dưới những cái tên như mô hình toàn cực (all-pole modeling) hay mô hình tự hồi quy (autoregressive modeling)

Toán học thực sự ít liên quan nhưng kết quả cuối cùng là nó cho trước chỉ một phân đoạn của đầu ra của hệ thống, phân tích dự báo tuyến tính tìm một bộ lọc cộng hưởng đơn giản mà làm công việc tốt nhất trong giải thích cho phổ của tín hiệu đang được phân tích, cùng với tín hiệu đầu vào (được gọi là “phần dư”) mà khi đưa vào hệ thống cộng hưởng, sẽ tái tạo tín hiệu ban đầu Cách tiếp cận tối thiểu hoá năng lượng của phần dư đạt được bằng cách làm nó càng gần với một dãy thuần ngẫu nhiên càng tốt – nhưng bất kỳ cấu truc tín hiệu nào mà không thể được giải thích bởi bộ lọc cộng hưởng, hoặc bởi vì mô hình có bậc thấp hơn bộ lọc đúng, hoặc

vì đầu vào của hệ thống ban đâu, có thể bị đăt trong phần dư Điều này làm cho cách tiếp cận đặc biệt chính xác – nó thực hiện công việc tốt nhất có thể trong giới hạn của mô hình, nhưng nó có thể xấp xỉ hoàn hảo những tín hiệu và hệ thống phức tập hơn

Giới hạn lớn nhất của dự báo tuyến tính là nó chỉ có thể mô hình các hệ

Trang 19

thống gồm toàn các cộng hưởng (cực) , trong khi rất nhiều hệ thống được quan tâm

sẽ chứa cả các giá trị không Không cách tiếp cận nào so sánh được về mặt đơn giản

và mạnh mẽ tồn tại để mô hình các hệ thống với các giá trị không – một phần bởi vì một khi các giá trị không xuất hiện, nó trở nên khó hơn để định nghĩa sự duy nhất,

hệ thống tốt nhất để xấp xỉ bất kỳ tín hiệu nào, do các kết quả giống nhau có thể đạt được trong nhiều trường hợp với hoặc các cực hoặc các giá trị không Tuy nhiên, có một hệ thống đáng quan tâm mà được xấp xỉ bởi một mô hình toàn đỉnh (all-pole), gọi là thanh quản Ngoài các âm mũi, trong đó các đường mũi song song gây sự tăng cho các giá trị không trên toàn phổ, hầu hết âm thanh tiếng nói được xấp xỉ tốt như một tín hiệu đầu vào phổ phẳng – thường được gọi là nguồn kích thích, nhưng tương đương với phần dư LP – được định hình vởi một tập các cộng hưởng mà nói chung được xác định với bộ lọc bị ảnh hưởng các lỗ bất định của thanh quản Trong thực tế, mô hình bộ lọc nguồn LP này dẫn đến các mô phỏng có thể dùng được của

âm thanh tiếng nói; nó từng là chìa khoá cho ứng dụng tổng hợp tiếng nói đầu tiên,

và nó là trái tim của mọi thuật toán nén âm thanh, kể cả GSM và các cơ chế mã hoá điện thoại di động khác

Hình 1.3: Các ví dụ của các mô hình dự báo tuyến tính với các bậc khác nhau (đồ thị dưới) (Daniel P W Ellis - An Introduction to Signal Processing for Speech)

Trang 20

Hình trên mô tả các loại của các xấp xỉ mà kết quả từ mô hình LP Hình trên cùng chỉ ra phổ của một phân đoạn 30ms của tiếng nói, tương tự như hình 1.1 Phía dưới là các phổ (độ tăng như là một hàm của tần số) cho chuỗi của các xấp xỉ LP cho các mô hình bậc 2,4,6,8,10 và 12 Mỗi cộng hưởng thực sự cần hai cực để được

mô hình, nên mô hình bậc thứ 12 (với 12 cực) có thể tái tạo lại tới sáu đỉnh cộng hưởng Đây là những bộ lọc LP tương đối nhỏ không thể tái tạo các chi tiết phổ của các đỉnh điều hoà, mà được cung cấp bởi kích thích trong một hệ thống hoàn chỉnh Trong tiếng nói con người, cấu trúc điều hoà tới từ các dao động không tuyến tính cùa các hốc thanh, không phải từ các cộng hưởng của thanh quản

1.1.4 Trích chọn đặc trƣng tiếng nói

Trích chọn đặc trưng tìm cách cung cấp một biểu diễn thu gọn của sóng tiếng nói Bước này cần tối thiểu hoá sự mất mát của thông tin mà có thể dùng để phân biệt rõ các từ với nhau và giảm những tác động không có lợi mang tính môi trường lên tiếng nói ví dụ như:

- Sự khác biệt giữa cách phát âm của các người nói phụ thuộc vào giới tính, thổ ngữ, …

- Tiếng ồn môi trường

- Kênh ghi âm: ví dụ tín hiệu điện thoại(telephone) được giảm xuống dải tần số từ 300Hz đến 3000Hz Chất lượng của tín hiệu điện thoại di động cũng ảnh hưởng đến chất lượng của tín hiệu âm thanh

Hai phương pháp thành công nhất để trích chọn đặc trưng tiếng nói trong những thập kỷ vừa qua là Mel Frequency Cepstral Coefficients (MFCCs) và Perceptual Linear Prediction (PLP) Các biến đổi MFCC và PLP được áp dụng lên tín hiệu âm thanh đã được lấy mẫu và lượng tử hoá Các phương pháp này rất hiệu quả về mặt tính toán và cải thiện đáng kể chất lượng của nhận dạng tiếng nói

1.1.4.1 Các đặc trưng LP

Một cách để tránh việc lấy các chi tiết phổ không cần thiết để nhận dạng âm được nói là đặt một mô hình bậc thấp có ràng buộc như dự đoán tuyến tính Như mô

Trang 21

tả trong hình 1.6, một mô hình LP bậc thấp sẽ thu các hình dạng phổ của tiếng nói

và làm mịn đi các hàm điều hoà cao độ - một ưu điểm cho các ngôn ngữ như tiếng anh khi mà cao độ đóng góp rất ít thông tin Bằng đối số mà mô hình hoá LP đang xác định xấp xỉ các cộng hưởng xuất hiện trong hình dạng và trạng thái của thanh quản (điều khiển chính xác các âm thanh khác nhau được tổng hợp như thế nào) ta thậm chí có một đặc trưng trực tiếp và gọn mô tả bản chất của trạng thái thanh quản

Sự thành công của các nhiệm vụ phân loại phụ thuộc vào các chi tiết về các giá trị đặc trưng thay đổi như thế nào và nó phù hợp với bộ phân loại được sử dụng tốt như thế nào; đơn giản hoá toán học của các mô hình LP mở ra một trải rộng của các mô

tả mang theo các thông tin giống nhau nhưng có các tính chất thứ hai làm cho chúng phù hợp hơn vỡi các nhiệm vụ khác nhau như phân loại, suy diễn và nén Tuy nhiên, các mô hình LP có phần dễ bị ảnh hưởng bởi các tiếng ồn môi trường do các cực sẽ cố gắng để mô hình bất kỳ năng lượng nào trong tín hiệu ban đầu, dù nó có phải tiếng ồn hay không

1.1.4.2 Đặc trưng MFCCs (Mel-Frequency Cepstral Coefficients)

MFCCs được sử dụng rộng rãi trong nhận dạng tiếng nói và nhận dạng người nói Chúng được giới thiệu vởi Davis và Mermelstein vào những năm 1980 Phần này chúng ta sẽ xem xét các khía cạnh cơ bản của MFCC

Về cơ bản để tính toán MFCCs gồm các bước sau:

Chia tín hiệu thành các khung nhỏ

Một tín hiệu âm thanh thay đổi liên tục, do đó để đơn giản hoá ta coi rằng trong những khoảng thời gian ngắn thì tín hiệu âm thanh không thay đổi nhiều Đó chính là lý do ta chia nhỏ tín hiệu thành các khung 20-40ms (thường lấy giá trị 25ms) Nếu khung quá nhỏ thì ta sẽ không có đủ mẫu để thu được ước lượng các phổ đáng tin cậy, nếu khung lớn hơn thì tín hiệu thay đổi quá nhiều trong khung đó

Xét trường hợp dùng khung 25ms, điều này có nghĩa là chiều dài khung của một tín hiệu có tần số lấy mẫu 16kHz là 0.0025*16000 = 400 mẫu Khoảng cách

Trang 22

Khung 400 mẫu đầu tiên bắt đầu từ mẫu thứ không Khung 400 mẫu tiếp theo bắt đầu từ mẫu thứ 160 và tiếp tục cho đến khi kết thúc tiếng nói

Ta gọi tín hiệu tiếng nói miền thời gian là s(n) Sau khi chia nhỏ ta sẽ được

s i (n) với i là chỉ số khung và 1≤ n ≤ N (N là số mẫu trong một khung, như ở ví dụ

trên N=400)

Các bước tiếp theo áp dụng lên từng khung một, một bộ 12-13 hệ số MFCC được trích chọn cho mỗi khung

Với mỗi khung, tính ước lượng của phổ năng lượng

Bước này tính phổ năng lượng của mỗi khung Bước này được thúc đẩy bởi đặc điểm cảm thụ âm của ốc tai con người Đặc điểm đó là ốc tai người rung ở những vị trí khác nhau phụ thuộc vào tần số của các âm thanh Dựa vào vị trí rung trong ốc tai người, các tín hiệu thần kinh khác nhau báo hiệu cho bộ não biết các tần

số cụ thể nào xuất hiện Bước này cũng thực hiện một công việc tương tự là xác định các tần số nào xuất hiện trong khung

Ở bước này ta thực hiện biến đổi Fourier rời rạc (DFT) :

( ) ∑ ( ) ( )

Với h(n) là cửa sổ phân tích N mẫu (thường là Hamming), K là chiều dài của biến đổi Fourier rời rạc (Discrete Fourier Transform – DFT) Ước lượng phổ năng lượng của khung tiếng nói si(n) được tính bằng

( ) | ( )| (1.2) Việc tính biến đổi Fourier rời rạc có thể được thực hiện trên máy tính sử dụng thuật toán biến đổi Fourier nhanh(Fast Fourier Transform – FFT)

Lọc qua băng lọc thang Mel (Mel scale filterbank)

Sau bước ước lượng trên, vẫn còn rất nhiều thông tin không cần thiết cho nhận dạng tiếng nói Đặc biệt, ốc tai người không thể phân biệt sự khác nhau giữa hai tần số gần nhau Điều này càng trở nên rõ hơn khi các tần số tăng lên

Trang 23

Tai của con người nhận biết được những âm thanh có tần số thấp (<1kHz) tốt hơn những âm thanh có tần số cao Vì vậy điều quan trọng là cần làm nổi bật các

âm thanh có tần số thấp hơn là tần số cao

Với nỗ lực nhằm mô tả chính xác sự tiếp nhạ n tần số của tai ngu ời, mọ t thang tần số đu ợc xây dựng - thang tần số Mel(Mel scale) dựa trên co sở thực nghiẹ m cảm nhạ n nghe của ngu ời

Công thức để chuyển đổi từ tần số sang thang Mel là:

( ) (

) (1.3)

Để chuyển ngược lại sang tần số:

( ) ( ( ) ) (1.4) Với thang Mel, ta sẽ xây dựng một băng lọc thang Mel Đây là một tập hợp 20-40(thông thường lấy 26) các bộ lọc tam giác được thực hiện trên ước lượng năng lượng phổ ở bước trước Kết thúc bước này ta thu được các giá trị chỉ ra cho chúng

ta có bao nhiêu năng lượng trong mỗi băng lọc

Trang 24

Hình 1.4:Mô tả băng lọc thang Mel (Wikipedia)

Tính logarit

Sau khi lọc qua dãy lọc Mel, tính logarit các giá trị thu được ở bước trước

Áp dụng biến đổi cosin rời rạc (DCT) lên log filterbank energies

Ở bước này, ta thực hiện biến đổi cosin rời rạc DCT cho các log năng lượng phổ thu được từ bước trước Lý do chính để thực hiện điều này là do các dải lọc ta

sử dụng có chồng lên nhau, các năng lượng qua dải lọc là khá tương quan với nhau Biến đổi cosin rời rạc làm giảm sự tương quan này nghĩa là các ma trận hiệp phương sai chéo có thể được dùng để mô hình các đặc trưng Cuối cùng để phục vụ cho nhận dạng tiếng nói ta chỉ giữ lại 12-13 hệ số

1.1.4.3 Đặc trưng PLP (Perceptual Linear Prediction)

Nhìn nhận sâu sắc hơn vào các đặc trưng tiếng nói có thể được thu bằng việc

so sánh MFCCs với một biểu diễn thay thế phổ biến khác gọi là PLP Các đặc trưng PLP thường thực hiện so sánh với MFCCs, mặc dù mỗi đặc trưng lại phù hợp với các nhiệm vụ khác nhau Các đặc trưng PLP sử dụng thang âm Bark, và các cửa sổ hình thang thay vì các cửa sổ tam giác, để tạo ra phổ âm Sau đó thay vì làm mịn phổ âm bằng cách giữ lại các hệ số bậc thấp, dự đoán tuyến tính được sử dụng để tìm phổ mịn chỉ chứa các một số đỉnh cộng hưởng (thường là 4-6) mà phù hợp với phổ Bark Mặc dù kết quả dự đoán tuyến tính không tương ứng với bất kỳ dạng sóng thời gian nào được tính toán trên đó, nó vẫn có thể thực hiện sự phù hợp này

sử dụng một phần khéo léo của toán học là tìm giải pháp LP bắt đầu chỉ từ các phổ năng lượng hơn là dạng sóng Cuối cùng, phổ PLP đã được làm mịn được một lần nữa chuyển thành các hệ số cepstral gọn nhẹ và không tương quan thông qua một thủ thuật toán học khéo léo để tìm cepstral trực tiếp từ mô hình LP – Mặc dù kết quả tương tự sẽ thu được bằng tính toán các giá trị của độ tăng mô hình LP ở những tần số cách đều, chuyển thành log, và thực hiện biến đổi Fourier cuối cùng

Trang 25

1.2 Nhận dạng tự động tiếng nói

Các phương pháp thống kê để nhận dạng tiếng nói liên tục đã được xây dựng

từ hơn 30 năm trước Trong đó, các phương pháp thống kê phổ biến nhất là dựa trên việc mô hình hoá âm học sử dụng các mô hình Markov ẩn (HMMs) và các mô hình ngôn ngữ n-grams Về cơ bản kiến trúc của một bộ nhận dạng tiếng nói theo phương pháp thống kê có thể được mô tả như hình sau :

Hình 1.5: Kiến

trúc nhận dạng tiếng nói theo phương pháp thống kê

Sự phân chia của vấn đề nhận dạng tiếng nói thành mô hình âm học và mô hình ngôn ngữ là rất phù hợp với cách nhìn thống kê của vấn đề Nếu X là một dãy các véc tơ đặc trưng âm học (trích chọn ra từ dạng sóng âm), thì mục tiêu của nhận dạng tiếng nói – trong ngôn ngữ xác suất – là khôi phục lại dãy các từ có khả năng xảy ra nhất W* cho trước X Ta có thể viết như sau:

( | ) (2.1) Nghĩa là ghi lại câu nói sử dụng dãy từ W* mà có xác suất hậu nghiệm (posterior probability) P(W|X) lớn nhất Vấn đề của kỹ thuật nhận dạng tự động tiếng nói liên quan đến tìm các cách để có thể biểu diễn, xấp xỉ và đánh giá hiệu quả các xác suất dạng này Bước đầu tiên là biểu diễn lại xác suất có điều kiện này bằng định lý Bayes:

Bộ Nhận dạng

Trích chọn đặc trưng

Mô hình âm học Từ điển phát âm

Tiếng nói

Các véc tơ

Mô hình ngôn ngữ

W*

X

Trang 26

( | ) ( | ) ( ) ( ) (2.2) Bây giờ, ta nhận thấy rằng việc tìm W* trong (2.1) không phụ thuộc vào giá trị chính xác của xác suất hậu nghiệm được tính cho mỗi dãy từ Điều cần thiết là có thể so sánh chính xác các xác suất hậu nghiệm của các dãy từ khác nhau cho trước cùng đặc trưng âm học X Do đó các nhân tố chung của mọi dãy từ là không cần thiết phải xem xét Ta có thể viết lại (2.1)

( | ) ( ) (2.3) Điều này chia vấn đề thành hai phần: một mô hình âm học cung cấp P(X|W)

mà mô hình ngôn ngữ P(W) Mô hình âm học thường được ước lượng sử dụng một văn bản ghi lại tiếng nói; mô hình ngôn ngữ mà độc lập với đặc trưng âm học có thể ước lượng từ văn bản

Tách vấn đề theo cách này là một ví dụ của mô hình hoá tổng quát

(generative modeling), một kỹ thuật mạnh mẽ được sử dụng trong nhận dạng mẫu

thống kê và học máy Trong cách tiếp cận này ta coi rằng có một mô hình ẩn M tạo

ra các tiếng nói quan sát được biểu diễn bởi dãy các véc tơ đặc trưng âm học X Mô

hình âm học cung cấp một phân phối xác suất liên tục trên không gian của các dãy véc tơ đặc trưng âm học cho khả năng của một dãy véc tơ đặc trưng cụ thể được sinh ra bởi một dãy từ cụ thể Mô hình ngôn ngữ có thể được nhắc đến như cung cấp xác suất tiên nghiệm cho mỗi dãy từ

Mô hình hoá tổng quát là đơn giản về mặt khái niệm, mặc dù ban đầu có vẻ như là mô hình làm điều ngược lại những gì mong đợi Trong cách tiếp cận này ta không nghĩ theo kiểu dạng sóng tiếng nói đi vào mô hình và dãy từ được nhận dạng

đi ra Thay vào đó, một mô hình được xây dựng cho mỗi dãy từ mà ta muốn nhận dạng Để thực hiện nhận dạng, chúng ta đòi hỏi mô hình cho mỗi dãy từ lần lượt sinh ra đặc trưng âm học Mô hình nào có thể sinh ra các mẫu quan sát với xác suất cao nhất là mô hình cần tìm

Trang 27

(a) Sơ đồ tổng quát huấn luyện một hệ thống nhận dạng tiếng nói

thống đã được huấn luyện Hình 1.6: Sơ đồ tổng quan về huấn luyện và nhận dạng trong một hệ thống nhận

dạng tự động tiếng nói

1.3 Mô hình Markov ẩn (Hidden Markov models)

Trong thực tế, người ta sử dụng các mô hình mà có thể cung cấp khả năng (likelihood) dưới dạng P(X|W) dễ làm về mặt toán học và có thể được huấn luyện hay ước lượng từ dữ liệu Thêm vào đó các mô hình phải được tạo nên từ những

Tiếng nói đã ghi âm

Không gian tìm kiếm Văn bản nhận dạng tiếng nói

Trang 28

đơn vị cơ bản, bởi việc có một mô hình ước lượng riêng biệt cho mỗi dãy từ là không thể

Các mô hình âm học cho nhận dạng tiếng nói thường được dựa trên mô hình Markov ẩn Mô hình Markov ẩn là các máy trạng thái hữu hạn theo xác suất (probabilistic finite state machines – chính xác hơn chúng là bộ tạo trạng thái hữu hạn theo xác suất) Một mô hình Markov ẩn bao gồm một tập các trạng thái, liên kết bởi các chuyển tiếp Để tạo ra một chuỗi đặc trưng từ một mô hình Markov, đầu tiên ta tạo một dãy trạng thái bằng cách duyệt một đường từ trạng thái này đến trạng thái khác, theo các chuyển tiếp Ở mỗi thời điểm, một véc tơ đặc trưng duy nhất được sinh ra bởi một quá trình đầu ra thuộc về trạng thái đó Bằng việc đi qua một chuỗi các trạng thái theo một thứ tự xác định, ta có thể sinh ra một chuỗi các véc tơ đặc trưng Do đó các mô hình Markov ẩn là phù hợp tốt cho việc tạo dữ liệu tuần tự như là tiếng nói Cấu trúc liên kết (topology) của mô hình Markov ẩn (cụ thể cách các chuyển tiếp kết nói các trạng thái) có thể được sử dụng để cung cấp một ràng buộc về loại của các dãy mà mô hình có thể tạo ra Ta có thể mô tả bằng hình sau

(a) Biểu diễn hữu hạn trạng thái của mô hình Markov ẩn Mô hình Markov ẩn

này có topo từ trái sang phải với ba trạng thái (q 1 , q 2 , q 3 ) Thêm vào đó còn

có trạng thái bắt đầu q s và trạng thái kết thúc q e mà không có đầu ra tương ứng nhưng rất có ích khi kết hợp các mô hình Markov ẩn thành các mô hình

lớn hơn

Trang 29

(b) Biểu diễn phụ thuộc xác suất của một mô hình Markov ẩn chỉ ra quan hệ

giữa trạng thái q và các biến quan sát x

Hình 1.7: Hai biểu diễn của mô hình Markov ẩn, nhấn mạnh bản chất hữu hạn trạng thái của mô hình (a) và các phụ thuộc xác suất giữa các biến (b) Cả hai hình mô tả hai giả định bên dưới cách sử dụng của các mô hình Markov ẩn: quá trình Markov bậc một và tính độc lập có điều kiện của các véc tơ quan sát cho trước trạng thái

hiện tạiCác mô hình Markov ẩn có thể được coi như là một quá trình ngẫu nhiên hai lần(doubly stochastic) Chuỗi trạng thái đã được tạo ra được quản lý bởi cấu trúc liên kết của mô hình và các xác suất chuyển tiếp tương ứng với mỗi chuyển tiếp trạng thái Quá trình ngẫu nhiên thứ hai là có liên quan với việc tạo ra các đặc trưng

âm học tại mỗi trạng thái Quá trình này lấy dạng của một phân phối xác suất đa chiều trên không gian của các véc tơ đặc trưng âm học Phân phối xác suất đầu ra là phần quan trọng nhất của cách tiếp cận mô hình Markov ẩn trong nhận dạng tiếng nói Một dạng phân phối xác suất đầu ra đơn giản là một Gauss nhiều chiều Trong

trường hợp này, cho một trạng thái q mô hình Markov ẩn, mật độ xác suất của một

véc tơ âm học d chiều x có thể được viết như sau :

( | ) ( ) |∑ | ( ( ) ∑ ( )) (2.4) Với q là véc tơ kỳ vọng và q là ma trận hiệp phương sai cho Gauss gắn với trạng thái q Trong thực tế, số chiều cần cho mô hình âm học là tương đối nhiều Ví

dụ, các véc tơ đặc trưng âm học bao gồm 12 hệ số MFCC và delta log năng lượng

sẽ dẫn đến một Gauss 13 chiều

Trang 30

Việc sử dụng các mô hình Markov ẩn cho mô hình âm học gắn với hai giả định chính Đầu tiên, dãy trạng thái là một tíến trình Markov: xác suất việc rơi vào một trạng thái xác định phụ thuộc chỉ vào trạng thái trước Thứ hai, các quan sát được coi là chỉ phụ thuộc vào trạng thái hiện tại: cho trước trạng thái hiện tại, một véc tơ đặc trưng âm học được quan sát là độc lập có điều kiện với tất cả những quan sát trong quá khứ và tương lai Ta có thể nói giả định thứ hai theo cách khác bằng cách nói rằng tất cả các thông tin về lịch sử của những véc tơ đặc trưng âm học quan sát được được cho bởi trạng thái hiện tại Những giả định này được thể hiện rõ ràng nếu một mô hình Markov ẩn được biểu diễn dưới các điều kiện của các phụ thuộc xác suất

Những giả định trên là khá phi thực tế, và nhìn qua nó không cung cấp một nền tảng tốt để mô hình tiếng nói Nhưng, chúng cho phép mô hình trở nên dễ dàng

về mặt tính toán và toán học và cho phép huấn luyện từ một lượng dữ liệu rất lớn

1.4 Mô hình thứ bậc

Dường như có một khoảng cách lớn giữa mô hình Markov ẩn đơn giản mô tả

ở phần trước và mô hình của dãy từ yêu cầu bởi các biểu thức (2.1 - 2.3) Tuy nhiên, bằng cách sử dụng một cách tiếp cận mô hình thứ bậc, ta hoàn toàn có thể tạo các mô hình dãy từ xuất phát từ những khối mô hình Markov ẩn đơn giản Để làm điều này, ta chỉ ra một vài đơn vị cơ bản của tiếng nói, thông thường là các mô hình

âm Các mô hình từ được xây dựng từ các mô hình âm bằng cách kết nối một dãy các mô hình Markov ẩn, và các dãy từ được tạo ra bằng cách kết nối các mô hình

từ Do đó một dãy từ được biểu diễn bởi một mô hình Markov ẩn lớn từ trái qua phải như trong hình dưới Lưu ý rằng số các trạng thái phân biệt của mô hình Markov ẩn trong hệ thống được xác định bởi kích cỡ của danh sách các đơn vị cơ bản, và không phụ thuộc vào độ lớn của từ vựng Hình 1.8 mô tả mô hình thứ bậc trong nhận dạng tiếng nói sử dụng mô hình Markov ẩn: Xây dựng một mô hình dãy các từ từ các mô hình âm vị cơ bản

Trang 31

Hình 1.8: Mô hình thứ bậc trong nhận dạng tiếng nói mô hình Markov ẩn(Steve

Renals và Simon King – Automatic Speech Recognition)

1.5 Các thuật giải cho mô hình Markov ẩn

Có ba thuật giải cơ bản cần thiết để sử dụng các mô hình Markov ẩn trong nhận dạng tiếng nói

Căn chỉnh: Vấn đề căn chỉnh mô hình Markov ẩn như sau: Với một mô hình

Markov ẩn suy ra từ một dãy các từ đã biết W, và một dãy các véc tơ đặc trưng âm học X, dãy các trạng thái mà có khả năng cao nhất tạo ra các các đặc trưng âm học quan sát X là gì?

Giải mã: Trong vấn đề giải mã mô hình Markov ẩn một dãy các véc tơ đặc

trưng âm học X được quan sát, nhưng dãy từ là không biết Vấn đề là giải mã dãy

Trang 32

Huấn luyện: Vấn đề huấn luyện mô hình Markov ẩn là để tìm các tham số

của các mô hình – các xác suất chuyển tiếp và các tham số của phân phối đầu ra (ví

dụ các véc tơ kỳ vọng và các ma trận hiệp phương sai của Gauss) – cho trước một tập huấn luyện Một tập huấn luyện thông thường gồm một tập các véc tơ đặc trưng

âm học văn bản chính xác tương ứng của chúng

Ba thuật giải này là liên quan mật thiết và có dùng các ưu điểm của các giả định mô hình Markov ẩn Đặc biệt là thuộc tính mà trạng thái qt tại thời điểm t chỉ phụ thuộc vào trạng thái ở thời điểm trước đó qt-1

Để giải quyết vấn đề căn chỉnh, ta cần tìm dãy trạng thái mô hình Markov ẩn sinh ra các âm thanh đã quan sát với xác suất cao nhất Về khái niệm, điều này liên quan đến việc duyệt qua mọi dãy trạng thái có thể và tính xác suất sinh ra các âm thanh đã quan sát của mỗi cái Thực hiện những tính toán như vậy có vẻ không khả thi Tuy nhiên, điều đó có thể thực hiện được bằng thuật giải Viterbi

Hình 1.9: Mô tả lập trình động: ở trạng thái c, các xác suất của các đường a,b,c và x,y,c được so sánh và chỉ đường với xác suất cao nhất cần được giữ lại

Thuật giải Viterbi khai thác thuộc tính đầu tiên trong các mô hình Markov

ẩn Xem xét hai đường tại trạng thái c cùng lúc a,b,c và x,y,c Do thuộc tính Markov, rõ ràng là nếu a,b,c có một xác suất cao hơn x,y,c, thì bất kỳ các đường tiếp theo với tiền tố a,b,c sẽ có xác suất cao hơn các đường với tiền tố x,y,c Do đó tại mỗi thời điểm chỉ có đường phù hợp nhất cần được giữ lại ở mỗi trạng thái Điều này dẫn đến tiết kiệm rất lớn về mặt tính toán và được mô tả bởi hình trên

Giải mã cũng dựa trên thuật giải Virterbi Tuy nhiên, vấn đề là phức tạp hơn

Trang 33

căn chỉnh bởi dãy từ là chưa biết: trong trường hợp nhận dạng tiếng nói liên tục điều này nghĩa là mỗi từ có thể bắt đầu ở mọi thời điểm, dẫn đến một vấn đề tìm kiếm lớn mà cần phải xấp xỉ, hay cắt tỉa(pruning), cho các bộ từ vựng có nhiều hơn vài trăm từ Vấn đề tìm kiếm sẽ được nói cụ thể hơn ở phần sau

Khả năng huấn luyện các hệ thống mô hình Markov ẩn với hàng triệu các tham số từ hàng trăm giờ của dữ liệu huấn luyện là yếu tố quan trọng nhất trong sự thành công của các mô hình Markov ẩn cho nhận dạng tiếng nói Một khía cạnh quan trọng của huấn luyện mô hình Markov ẩn là: một văn bản chép lại là tất cả những gì cần thiết Điều chỉnh thời gian hay chép lại ngữ âm là không cần thiết Trong quá trình huấn luyện một mô hình Markov ẩn được xây dựng cho mỗi dãy từ, như được mô tả phía trên Nếu điều chỉnh của các âm học tiếng nói với dãy trạng thái là đã biết, thì huấn luyện sẽ khá dễ dàng, do các thống kê có thể được thu thập tại mỗi trạng thái cho phép các tham số mô hình Markov ẩn được ước lượng (ví dụ: véc tơ kỳ vọng Gauss được ước lượng như là trung bình của các véc tơ âm học điều chỉnh với trạng thái đó) Tuy nhiên, việc điều chỉnh trạng thái tiếng nói là không biết Trong trường hợp này một thuật toán lặp được biết đến là tối đa hoá kỳ vọng (expectation maximization) phải được cài đặt Thuật toán này được phát triển ban đầu bởi Baum(1972) trong ngữ cảnh của các mô hình Markov ẩn, và được nhắc đến như thuật toán Baum-Welch Trong huấn luyện Baum-Welch của các mô hình Markov ẩn, một điều quan trọng phải được ước lượng là xác suất hậu nghiệm của một mô hình Markov ẩn ở một trạng thái cụ thể tại một thời điểm cụ thể, cho trước dãy các véc tơ âm học đã quan sát Những xác suất hậu nghiệm này, có thể được tính toán đệ quy sử dụng hai quá trình – cấu trúc tương tự như thuật toán Viterbi – được biết đến như các đệ quy tiến và lùi, và rồi được sử dụng để ước lượng một điều chỉnh trạng thái tiếng nói mềm Mỗi véc tơ âm học được gán về mặt xác suất cho các trạng thái mô hình Markov ẩn tương ứng với những xác suất đó, và các tham số mô hình Markov ẩn được cập nhật tương ứng với điều chỉnh mềm này Baum(1972) và Dempster(1977) đã chỉ ra rằng thuật giải này đảm bảo tăng khả

Trang 34

này, huấn luyện mô hình Markov ẩn theo cách này được nhắc đến như một ví dụ của ước lượng tham số tối đa hoá khả năng

1.6 Các đặc trƣng âm học

Như đã nhắc tới ở các phần trước, dạng sóng cường độ thay đổi theo thời gian trải qua một hình thức xử lý tín hiệu, goi là trích chọn đặc trưng âm học, trước khi được mô hình bởi một mô hình Markov ẩn Mục tiêu chính của trích chọn đặc trưng là tìm ra ra một biểu diễn mà làm rõ các khía cạnh của tín hiệu tiếng nói liên quan đến nhận dạng tự động tiếng nói, và loại bỏ những khía cảnh không quan trọng Các cách biểu diễn đặc trưng được sử dụng rộng rãi nhất trong nhận dạng tiếng nói là MFCCs và PLP Cả hai đều đã được nhắc đến ở chương trước Một khung với tần số vào khoảng 10ms thường được sử dụng, dẫn đến trong 1 giây tiếng nói được đặc trưng bởi một dãy gồm 100 véc tơ đặc trưng âm học Mỗi véc tơ đặc trưng có thể chứa các đạo hàm bậc một và bậc hai theo thời gian của các đặc trưng

đã trích chọn để cung cấp một số thông tin về các biến động thời gian địa phương của tín hiệu tiếng nói, dẫn đến một véc tơ đặc trưng thông thường có kích cỡ 39 hệ

số nếu quá trình xử lý cơ bản đưa ra 12 hệ số cepstral cùng với năng lượng delta Các biểu diễn đặc trưng phù hợp hơn cho nhận dạng tự động tiếng nói đã được phát triển cùng với sự phát triển của các mô hình Markov ẩn sử dụng các hàm mật độ phân phối đầu ra Gauss đa biến hay Gauss hỗn hợp Đặc biệt, để khiến mô hình sử dụng Gaussians dễ dàng hơn, các đặc trưng không nên tương quan, và để tiết kiệm tính toán và giảm số các tham số mô hình phải được huấn luyện, các đặc trưng nên

có số lượng nhỏ nhất có thể

Các đặc trưng nổi bật là các đặc trưng mà liên quan trực tiếp đến âm được nói: cụ thể, hình dạng thanh quản Thông thường, chỉ đặc trưng nguồn nổi bật là toàn bộ năng lượng của tín hiệu tiếng nói, mặc dù trong các ngôn ngữ thanh điệu (tone languages) tần số cơ bản cũng mang theo thông tin phân đoạn nên có thể được

sử dụng như một đặc trưng trong các hệ thống thiết kế cho những ngôn ngữ như vậy

Trang 35

1.7 Mô hình âm học

Ta đã có các nền tảng cơ sở của nhận dạng tiếng nói thống kê dựa trên cấu trúc mô hình Markov ẩn thứ bậc Tuy nhiên, cách tiếp cận cơ bản này một mình không tạo ra một mô hình nhận dạng tiếng nói chính xác Trong thực tế, các hệ thống dựa trên các mô hình âm HMM đơn giản với phân phối đầu ra Gaussian sẽ dẫn đến tỷ lệ lỗi nhận dạng tiếng nói cao Qua hai thập kỷ, một vài cách tiếp cận mô hình đã được giới thiệu, kết hợp và dẫn đến các nhận dạng tiếng nói chính xác hơn đáng kể

1.7.1 Mô hình Gauss hỗn hợp (GMM)

Mặc dù các phân phối Gaussian là thuận tiện và đơn giản về mặt toán học để ước lượng từ dữ liệu, chúng bị ràng buộc trong các phân phối mà chúng có thể biểu diễn Cụ thể chúng không thể biểu diễn các phân phối với nhiều hơn một cách Một cách mạnh mẽ để giải quyết những giới hạn là thông qua một kỹ thuật gọi là mô hình hỗn hợp Một mô hình hỗn hợp là một kết hợp tuyến tính của một số hàm mật

độ thành phần Ví dụ nếu một mô hình Gaussian hỗn hợp k thành phần pmix(x|q)

được sử dụng để mô hình mật độ đầu ra của trạng thái q thì ta có :

( | ) ∑ ( | ) ( | ) (2.5) Với pcomp(x|j,q) là k thành phần Gaussian tạo nên mô hình hỗn hợp Thêm vào các véc tơ kỳ vọng và các ma trận hiệp phương sai của mỗi thành phần Gaussian, một mô hình hỗn hợp có một tập các tham số khác, các trọng số hỗn hợp

P(j|q) mà tổng của chúng bằng một

Các mô hình GMM làm giảm đáng kể các giả định phân phối bị áp đặt bởi Gaussians: với đủ các thành phần hỗn hợp, bất kỳ hàm mật độ xác suất nào có thể được nhận ra bởi một GMM Thêm vào đó, GMM co thể được huấn luyện sử dụng thuật toán tối đa hoá ước lượng EM, theo cách tương tự như HMMs: trong trường hợp này các biến số ẩn là thành phần hỗn hợp chứ không phải trạng thái Juang (1986) chỉ ra rằng thuật toán EM có thể được mở rộng theo một cách dễ dàng để

Trang 36

ước lượng các tham số cho một mô hình Markov ẩn mà phân phối đầu ra trạng thái của nó được cho bởi GMMs Đây chính là mô hình âm học chính được sử dụng trong hầu hết các hệ thống nhận dạng tiếng nói Trong một hệ thống nhận dạng tiếng nói từ vựng lớn thông thường, mỗi phân phối đầu ra sẽ có 16 hoặc hơn các thành phần hỗn hợp, con số chính xác được lựa chọn bởi một quá trình điều khiển bởi dữ liệu Để giảm số các tham số cần được ước lượng thông thường mỗi thành phần Gaussian có một ma trận hiệp phương sai chéo mà các thành phần không nằm trên đường chéo là không Điều này làm giảm hiệu quả số các tham số để ước lượng cho mỗi Gaussian (từ (d2+3d)/2 xuống 2d cho Gaussian d chiều)

1.7.2 Các mô hình âm (Phone models)

Mô hình hoá thứ bậc dụa trên một tập của các đơn vị tiếng nói cơ bản Trong tất cả các hệ thống (ngoại trừ các hệ thống nhận dạng tiếng nói từ vựng nhỏ nhất như các bộ nhận dạng chữ số) mô hình trực tiếp các từ là không khả thi vì dữ liệu huấn luyện sẽ không cung cấp đủ các ví dụ của mọi từ trong từ vựng để ước lượng đáng tin cậy toàn bộ các mô hình từ Do đó nhận dạng tiếng nói cần các mô hình con của từ mà có thể được sử dụng những thành phần xây dựng cho mô hình từ và câu Mặc dù các đơn vị như các âm tiết được thúc đẩy từ ngôn ngữ, các mô hình ước lượng cho những đơn vị như vậy là khó về cả sự thưa thớt dữ liệu và thực tế rằng các đơn vị âm tiết thể hiện một bậc cao của các phổ và biến đổi theo thời gian

Hầu hết các hệ thống nhận dạng tiếng nói đều dựa trên các mô hình âm vị Điều này giảm vấn đề của việc thưa thớt dữ liệu do kể cả chỉ với các lượng trung bình của dữ liệu huấn luyện sẽ cung cấp khá nhiều ví dụ cho cho mỗi mô hình âm

vị Thêm vào đó các mô hình âm vị lại phù hợp tốt với các từ điển cách phát âm, mà thường được viết ra bởi các nhà chuyên gia Tuy nhiên, sự phụ thuộc vào ngữ cảnh

âm bao quanh cũng như các nhân tố như tần số nói khiến một mô hình âm vị phải đối phó với các biến đổi đáng kể Cách quan trọng nhất để tăng sức mạnh mô hình của một hệ thống mô hình Markov ẩn là mở rộng không gian trạng thái Điều này

có thể được hiểu một cách đơn giản như là mỗi trạng thái mô hình Markov ẩn cần

Trang 37

mô hình một phần nhỏ hơn của không gian đặc trưng âm thanh Để tránh trực tiếp tăng sự phức tạp của các mô hình Markov ẩn âm vị riêng lẻ, cách thông thường để

mở rộng không gian trạng thái mô hình Markov ẩn là sử dụng nhiều mô hình phụ thuộc ngữ cảnh cho mỗi âm vị mà mỗi mô hình lại phụ thuộc vào ngữ cảnh xung quanh âm vị

Mô hình âm vị phụ thuộc ngữ cảnh là một cách tiếp cận chia để trị, trong đó

số các ngữ cảnh khác nhau được xác định bởi dữ liệu – khi lượng dữ liệu huấn luyện tăng thì nhiều ngữ cảnh hơn có thể được sử dụng cho mỗi âm vị, và mỗi mô hình Markov ẩn âm vị phụ thuộc ngữ cảnh riêng là cần để phủ ít không gian âm thanh Mô hình âm vị phụ thuộc ngữ cảnh đơn giản nhất được nhắc đến là mô hình triphone Trong mô hình triphone cơ bản, có một mô hình Markov ẩn âm vị phụ thuộc ngữ cảnh riêng cho mỗi ngữ cảnh âm của một âm vị cụ thể, dựa trên bên các

âm vị kề cận bên trái và bên phải Nói tóm lại, mô hình âm vị phụ thuộc ngữ cảnh gồm các ngữ cảnh là kết quả của các thành phần bên cạnh Cách tiếp cận này cung cấp mô hình âm vị chi tiết hơn nhiều bằng cách mở rộng không gian trạng thái cực lớn, nhưng, không có sự thay đổi, thi khó để ước lượng từ dữ liệu do số các mô hình tiềm năng là rất lớn: với một hệ thống 40 âm vị, điều này dẫn đến 402 = 1600 mô hình triphone mỗi âm vị, tổng số là 64000 mô hình Hầu hết chúng sẽ không được quan sát thấy và do đó không thể được ước lượng từ dữ liệu huấn luyện Một giải pháp cho vấn đề thưa thớt dữ liệu là thu lại(back off) về các mô hình độc lập ngữ cảnh nếu đủ các ví dụ của âm vị trong một ngữ cảnh cho trước chưa được quan sát

Thu lại mô hình phụ thuộc ngữ cảnh là một cải tiến dựa trên mô hình hoá độc lập ngữ cảnh, nhưng không thể có ưu điểm của thực tế rằng các ngữ cảnh âm học tương đồng có thể bị nhóm để cung cấp mô hình phụ thuộc ngữ cảnh chính xác hơn Cách tiếp cận này được giới thiệu bởi Lee(1989) người phát triển cách tiếp cận của các triphone tổng quát hoá mà tổng số các triphone đã bị giới hạn bằng cách phân nhóm các ngữ cảnh âm học Young (1994) phat triển một cách tiếp cận tiên tiến hơn, các cây quyết định được tự động xây dựng được sử dụng để suy luận các ngữ

Trang 38

huấn luyện dần dần được tinh chế và chuyên sâu hoá miễn là dữ liệu huấn luyện có thể hỗ trợ một ngữ cảnh Cách tiếp cận này phụ thuộc vào một tập định nghĩa trước các “câu hỏi” âm vị âm thanh về ngữ cảnh Tại mỗi điểm trong cây quyết đinh, một thông tin tiêu chuẩn lý thuyết được sử dụng để chọn một câu hỏi để phân chia dữ liệu, dẫn đến có nhiều nhiều các ngữ cảnh khi càng nhiều dữ liệu huấn luyện Ý tưởng chia sẻ các thành phần mô hình trong dữ liệu huấn luyện đã được phát triển thêm thành một kỹ thuật gọi là gắn tổng quát(generalized tying – Young & Woodland, 1994) Các hệ thống nhận dạng tiếng nói tiên tiến, được huấn luyện trên lượng khổng lồ dữ liệu, có thể sử dụng các mô hình với lượng lớn ngữ cảnh âm, ví

dụ như các mô hình septaphone được phát triển bởi Chen(2006) Các cách tiếp cận thay thế để tăng sức mạnh mô hình sử dụng các mô hình triphone với các phân bố GMM với số các thành phần lớn hơn hay cấu trúc hiệp phương sai phức tạp hơn

1.8 Mô hình ngôn ngữ

ngôn ngữ trạng thái hữu hạn cho lĩnh vực giới hạn: đặt một vé tàu

Lưu ý các trạng thái bắt đầu và kết thúc đặc biệt của câu

Trong công thức (2.3), xác suất của dãy từ, P(W), được tính toán bởi mô hình ngôn ngữ Xác suất P(W) được gọi là tiên nghiệm bởi vì nó có thể được tính toán trước khi tín hiệu tiếng nói X được quan sát – nó là một mô hình của các hiểu biết

tiên nghiệm về các dãy khác nhau có khả năng xảy ra như thế nào Mô hình ngôn

Trang 39

ngữ sẽ giúp loại bỏ sự mập mờ giữa các từ tương tự về âm Ví dụ, trong tiếng anh thì hai cụm từ “the nudist play” và “the new display” có thể có các cách phát âm giống nhau, dẫn đến sự đồng nhất của các mô hình Markov ẩn Trong trường hợp này, mô hình âm học sẽ trả về các giá trị bằng nhau cho các hàm khả năng P(X|“the nudist play”) và P(X|“the new display”) Các hiểu biết tiên nghiệm phải được sử dụng để quyết định cái nào là phù hợp nhất: ví dụ, mô hình ngôn ngữ có thể ước lượng rằng “the new display” là cụm từ phù hợp hơn Kết quả cuối cùng của nhận dạng phụ thuộc cả vào các dấu hiệu âm học và vào các kỳ vọng tiên nghiệm, cũng giống như trong nhận dạng tiếng nói của con người

Mô hình ngôn ngữ mô tả bất kỳ dãy từ nào có khả năng xảy ra như thế nào Đây là thành phần cần thiết trong hầu hết các bộ nhận dạng tiếng nói Càng chính xác thì mô hình ngôn ngữ càng có thể dự đoán dãy từ, độ chính xác mong muốn của toàn hệ thống sẽ càng cao Nếu không có mô hình ngôn ngữ, độ chính xác của nhận dạng tiếng nói nói chung là rất thấp

Trong một số lĩnh vực áp dụng giới hạn, một mạng trạng thái hữu hạn đơn giản có thể được viết ra để mô tả tất cả các câu cho phép Hình 2.6 là một mạng ví

dụ có thể tạo ra các câu về đặt vé tàu Ta hoàn toàn có thể dễ dàng nghĩ đến một câu

mà mạng này không thể xử lý (ví dụ: “Đi Hà Nội một vé”) Tuy nhiên, nếu tiếng nói đầu vào phù hợp chính xác với mạng từ này thì ta có thể mong đợi sự chính xác cao của nhận dạng tiếng nói, bởi vì mạng này cung cấp các ràng buộc rất mạnh Vẫn đề

là ở chỗ tạo ra một mạng như vậy bằng tay mà cho phép tất cả các câu cần thiết cho ứng dụng, trong khi hạn chế các câu không cần thiết ít nhất có thể Cách tiếp cận như vậy có thể hoạt động rất tốt trong những lĩnh vực giới hạn nhưng không có ích cho các ứng dụng như ghi chép lại một cuộc gặp công việc chẳng hạn Các ứng dụng như vậy cần các mô hình ngôn ngữ chính xác với độ phủ rộng

Các ngữ pháp truyền thống bao gồm các tập hợp các luật, mô tả cách các câu hợp lệ có thể được dựng lên từ các thành phần như danh từ, động từ, mệnh đề, … Chúng thường được viết lại bằng tay Tạo ra một tập các luật đủ nhiều để có thể phủ

Trang 40

nhiều các câu tự nhiên là rất tốn thời gian Ngữ pháp thủ công không gán các xác suất, chúng chỉ đơn giản là chấp nhận hoặc từ chối các câu Để có thể sử dụng trong nhận dạng tiếng nói, một ngữ pháp phải là xác suất, có độ phủ rộng, và phù hợp với các thuật toán tìm kiếm từ trái sang phải

1.8.1 Mô hình n-grams

Mặc dù các ngữ pháp theo xác suất phủ rộng là có sẵn, chúng lại không thể hiện được sự xuất sắc trong nhận dạng tiếng nói từ vựng lớn Mô hình ngôn ngữ thống kê cho nhận dạng tiếng nói được dựa trên các mô hình n-grams Một mô hình ngôn ngữ như vậy có vẻ như ít phức tạp hơn nhiều kể cả so với lý thuyết đơn giản nhất về cú pháp, nhưng có những lý do cho điều này Các mô hình ngôn ngữ thống

kê phải có khả năng phủ những câu nói sai ngữ pháp, chúng phải dễ dàng học từ lượng dữ liệu khổng lồ, chúng phải được tính toán hiệu quả để sử dụng và chúng phải có khả năng gán một xác suất cho một phần của một câu nói

Mô hình n-gram thoả mãn tất cả các yêu cầu đó Mô hình này ước lượng P(W) bằng sử dụng một xấp xỉ: Xác suất của một từ phụ thuộc chỉ vào n-1 từ trước

đó Những dãy ngắn của n từ được gọi là “n-grams” Nếu n=2, mô hình được gọi là bigram, và nó ước lượng P(W) như sau:

W = {W1, W2, … WM}

P(W) = P(W1)P(W2|W1) P(W3|W1, W2)… P(WM|W1, W2,… WM-1) (2.6)

 P(W1)P(W2|W1) P(W3|W2)… P(WM|WM-1) (2.7) Biểu thức (2.6) là chính xác, nhưng nó thường không thực tế Biểu thức (2.7)

là xấp xỉ sử dụng bigrams Việc xấp xỉ là tốt hơn với n lớn hơn N-grams với n = 3 được gọi là trigrams Chúng là mô hình ngôn ngữ phổ biến nhất được sử dụng hiện tại trong nhận dạng tiếng nói

Các tham số của mô hình n-gram là các xác suất có điều kiện trong (2.7), cho mọi dãy có thể của n từ được xây dựng từ từ vựng Chúng có thể được ước lượng từ một số dữ liệu huấn luyện (mà chỉ cần văn bản, không cần tiếng nói) Xác suất

Ngày đăng: 12/02/2021, 21:27

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. D. Talkin, “A robust algorithm for pitch tracking(RAPT)”,1995 Sách, tạp chí
Tiêu đề: A robust algorithm for pitch tracking(RAPT)
[2]. Daniel P.W. Ellis, “An introduction to signal processing for speech”, LabROSA, Columbia University, New York, 2008 Sách, tạp chí
Tiêu đề: An introduction to signal processing for speech
[3]. Daniel Povey, “The Kaldi Speech Recognition Toolkit” Sách, tạp chí
Tiêu đề: The Kaldi Speech Recognition Toolkit
[4]. Dan Jurafsky, James H. Martin, “Speech and Language Processing”, 2000 [5]. Dang Ngoc Duc, Nguyen Tien Dung, Luong Chi Mai, “Mô hình và phiên âm tiếng Việt mức âm vị”, 2011 Sách, tạp chí
Tiêu đề: Speech and Language Processing”, 2000 [5]. Dang Ngoc Duc, Nguyen Tien Dung, Luong Chi Mai, “Mô hình và phiên âm tiếng Việt mức âm vị
[6]. John Laver, Fiona E. Gibbon, William J. Hardcastle, “The handbook of phonetic sciences 2nd edition”, 2010 Sách, tạp chí
Tiêu đề: The handbook of phonetic sciences 2nd edition
[7]. Mark Gales, Steve Young, “The Application of Hidden Markov Models in Speech Recognition”, 2007 Sách, tạp chí
Tiêu đề: The Application of Hidden Markov Models in Speech Recognition
[8]. Pegah Ghahremani, Bagher BabaAli, Daniel Povey,Korbinian Riedhammer, Jan Trmal, Sanjeev Khudanpur , “A pitch extraction algorithm tuned for automatic speech recognition”, 2014 Sách, tạp chí
Tiêu đề: A pitch extraction algorithm tuned for automatic speech recognition
[10]. Xuedong Huang, Alex Acero, Hsiao-wuen Hon, “Spoken language Processing”, Carnegie Mellon University, 2001 Sách, tạp chí
Tiêu đề: Spoken language Processing

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w