1. Trang chủ
  2. » Luận Văn - Báo Cáo

XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI

54 359 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 54
Dung lượng 2,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO Trường Đại học Yersin Đà Lạt Khoa Công Nghệ Thông Tin -    -

XỬ LÝ VÀ NHẬN DẠNG

TIẾNG NÓI

LUẬN VĂN CỬ NHÂN TIN HỌC

GIÁO VIÊN HƯỚNG DẪN:

TS Nguyễn Đức Minh

Niên khóa 2010 - 2014

Trang 2

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN

Đà Lạt, ngày……tháng….năm 2014

GIÁO VIÊN HƯỚNG DẪN

Trang 3

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN

Trang 4

LỜI CẢM ƠN

Xin chân thành cảm ơn thầy Nguyễn Đức Minh đã tận tình hướng dẫn em để em có thể hoàn thành luận văn này Các buổi học cùng thầy trên khoa cùng những tài liệu mà thầy đã cung cấp cho

em thật là quý giá, không những thầy đã dạy kiến thức chuyên ngành mà còn truyền đạt những kỹ năng và phương pháp học tiếng anh giúp em cải thiện hơn vốn tiếng anh hiện có

Em xin gởi lời cảm ơn đến các thầy cô trong trường, đặc biệt

là các thầy cô trong khoa Công Nghệ Thông Tin đã tạo điều kiện tốt nhất để em có thể học tập và nghiên cứu

Em cũng không thể không nhắc đến sự động viên chăm sóc của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh thần của bạn bè

Em xin được tri ơn tất cả.

Đà lạt, tháng 06 năm 2014

Trần Mạnh Hải

Trang 5

MỤC LỤC

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 1

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 2

LỜI CẢM ƠN 3

LỜI NÓI ĐẦU 5

DANH SÁCH HÌNH VẼ 6

Chương I – TỔNG QUAN VỀ NHẬN DẠNG GIỌNG NÓI 7

I Nhận dạng 7

II Các tính chất đặc trưng của nhận dạng tiếng nói 11

1 Tiếng nói con người 11

2 Phân loại nhận dạng tiếng nói 11

3 Những khó khăn 12

III Ứng dụng 12

Chương II – XỮ LÝ VÀ RÚT TRÍCH ĐẶC TRƯNG TIẾNG NÓI 13

I Quá trình xữ lý và lấy mẫu 13

1 Mô hình tổng quan 13

II Rút trích đặc trưng 14

1 Phân khung tín hiệu 15

2 Lấy cửa sổ 16

3 Biến đổi tín hiệu sang miền tần số (Biến đổi Fourier rời rạc - DFT) 20

4 Đặc trưng MFCC (Mel Frenquency Cepstral Coefficients) 21

5. Đặc trưng Mã hóa dự đoán tuyến tính (LPC) 25

III Nhận xét 30

Chương III –NHẬN DẠNG BẰNG MÔ HÌNH MẠNG NEURAL 31

I Tổng quan 31

II Quá trình hoạt động 32

1) Tế bào của mạng 32

2) Mạng Neural truyền thẳng nhiều lớp 34

a) Mô hình cơ bản: 34

b) Luật học của mạng: 34

III Quá trình huấn luyện 36

1) Thuật toán lan truyền ngược 36

a) Khái niệm và ý tưởng 36

b) Mô hình minh họa 36

c) Tính toán các giá trị và tham số 38

d) Các bước xây dựng thuật toán 42

2) Mô phỏng trên Matlab và ứng dụng vào nhận dạng tiếng nói 44

IV Kết luận 50

Trang 6

LỜI NÓI ĐẦU

Ngày nay với sự phát triển mạnh mẽ của công nghệ, con người đã tự động hóa khá nhiều công việc mà ngày trước phải tốn sức người là chính Các hệ thống thông minh ra đời đã nâng cao nâng suất cũng như chất lượng của công việc Tuy nhiên để điều khiển máy móc, con người phải làm khá nhiều thao tác tốn nhiều thời gian và cần phải được đào tạo Điều này gây trở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật Trong khi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, như: điện thoại di động, máy Palm/Pocket PC,…

Con người dễ dàng để hiểu nhau nhờ ngôn ngữ, nhưng điều đó là khó khăn đối với máy móc Nhưng không phải là không làm được, trên thế giới đã hình thành các hệ thống nhận dạng tiếng nói từ đơn giản tới các hệ thống cực kỳ phức

tạp, chứng tỏ rằng máy móc sau quá trình huấn luyện của con người thì chúng cũng

có khả năng hiểu chúng ta qua tiếng nói

Luận văn này em tập trung vào nghiên cứu hai phần lớn trong nhận dạng tiếng nói đó là rút trích đặc trưng và phương pháp Neural cho nhận dạng và huấn luyện

Luận văn gồm các phần chính như sau:

CHƯƠNG I: Cung cấp cái nhìn tổng quan về tín hiệu tiếng nói và nhận dạng tiếng nói

CHƯƠNG II: Xữ lý và rút trích đặc trưng Giới thiệu các bộ lọc cơ bản cho xử lý tín hiệu, mô hình và các phương pháp rút trích đặc trưng

CHƯƠNG III: Phương pháp nhận dạng Mạng Neural Giới thiệu về mạng Neural, phương pháp huấn luyện trên mạng

Trang 7

DANH SÁCH HÌNH VẼ

Hình 1 1 Cấu trúc của tai người _ 7 Hình 1 2 Mô hình nhận dạng tiếng nói 8 Hình 1 3 Mô hình mô phỏng phương pháp HMM _ 10

Hình 2 1 Sơ đồ các khối của mô hình lấy mẫu _ 13 Hình 2 2 Trình tự rút trích đặc trưng 14 Hình 2 3 Khung tín hiệu với N = 256 15 Hình 2 4 Phân đoạn tiếng nói thành các khung chồng lấp 16 Hình 2 5 Cửa sổ Hamming theo miền thời gian và tần số _ 17 Hình 2 6 Cửa sổ Hann theo miền thời gian và tần số _ 18 Hình 2 7 Cửa sổ Tam giác theo miền thời gian và tần số _ 19 Hình 2 8 Minh họa cửa sổ hình chữ nhật _ 19 Hình 2 9 Âm “a” theo cửa sổ Hann _ 20 Hình 2 10 Âm “a” với cửa sổ Hamming _ 20 Hình 2 11 Minh họa biến đổi Fourier 21 Hình 2 12 a) Mel và tần số _ 22 Hình 2 13 Minh họa bộ lọc tam giác _ 24 Hình 2 14 Bộ lọc tam giác thực tế trên miền tần số _ 25 Hình 2 15 Sơ đồ xử lý LPC dùng cho trích đặc trưng tiếng nói 27

Hình 3 1 Mô hình chi tiết 1 tế bào neural _ 32 Hình 3 2 Mô hình mạng nhiều lớp _ 34 Hình 3 3 Mô hình tổng quát 3 lớp _ 37 Hình 3 4 Mô hình chi tiết cơ bản _ 37 Hình 3 5 Hình minh họa đồ thị _ 44 Hình 3 6 Hình minh họa quá trình huấn luyện _ 46 Hình 3 7 Đồ thị dạng tam giác (xi) 46 Hình 3 8 Mạng Neural sử dụng _ 47

Trang 8

Chương I – TỔNG QUAN VỀ NHẬN DẠNG GIỌNG

NÓI

I Nhận dạng

Như chúng ta đã biết nhận biết được tiếng nói là một khả năng tuyệt vời mà tạo hóa ban cho chúng ta, như đôi mắt giúp con người nhìn thấy được sự chuyển động biến đổi của thế giới thì đôi tai giúp con người nghe được những âm thanh

mà môi trường xung quanh muốn truyền đạt tới chúng ta Quá trình nhận thức được một âm than h, tiếng nói trong cơ thể chúng ta là một quá trinh vô cùng phức tạp và tinh vi

Sóng âm thanh được truyền vào trong tai người và tạo nên các rung động cơ học trên các bộ phận trong tai Trong cùng của tai là Ốc tai, đây là nơi tín hiệu được phân tích thành những khung tần số nhất định

Hình 1 1 Cấu trúc của tai người

Trang 9

Quá trình xữ lý và nhận dạng trong bộ não con người là một quá trình rất phức tạp và độ chính xác vô cùng cao Các mô hình nhận dạng tiếng nói

về mặt lý thuyết đều dựa trên sự mô phỏng giống như tai người, về cấu trúc lẫn hoạt cách thức hoạt động

Dưới đây là mô hình nhận dạng tiếng nói tổng quát:

Kết quả

Huấn luyện

Tín hiệu tiếng nói

Hình 1 2 Mô hình nhận dạng tiếng nói

Trang 10

 Tín hiệu tiếng nói được thu lại thông qua các thiết bị ghi âm như: microphone… và nó được chuyển sang tín hiệu điện

ra tín hiệu mẫu tốt nhất Sau đó sử dụng các phương pháp để rút trích các đặc trưng cơ bản của tín hiệu đó

và rút trích đặc trưng được lưu lại thông qua quá trình huấn luyện hay học bằng các mô hình nhận dạng

rút trích đặc trưng có thể là tín hiệu cần nhận dạng Nó được đem so sánh với mẫu bằng các phương pháp nhận dạng tiếng nói Nếu như tín hiệu đó so khớp nhất ứng với một lớp tín hiệu nào đó thì hệ thống nhận dạng xác định tín hiệu đó thuộc vào nhóm tín hiệu nào đó với một tỉ lệ nhất định

kết quả đầu ra sẻ khác nhau

Các mô hình nhận dạng tiếng nói phổ biến:

Mô hình Markov - ẩn (Hidden Markov Model – HMM)

thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp

Trang 11

 Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái

Mô hình mạng Neural

(sẽ được trình bày kỹ ở chương III)

Hình 1 3 Mô hình mô phỏng phương pháp HMM

Trang 12

II Các tính chất đặc trưng của nhận dạng tiếng nói

1 Tiếng nói con người

thanh, nó lan truyền trong không khí nhờ sự giản nở của không khí Tín hiệu

âm thanh tiếng nói là tín hiệu biến thiên liên tục về mặt thời gian Dải tần mà tai người có thể nghe được là 20Hz đến 20kHz

những âm vị này được chi phối bởi các quy luật ngôn ngữ cho nên các mô hình toán học khi được áp dụng thì phải gắn bó mật thiết với các quy luật ngôn ngữ

Ba đặc trưng:

tần số của âm thanh trong một khoảng thời gian Âm nào cũng có một cao độ nhất định, độ trầm bổng phụ thuộc vào tần số giao động và đối với tiếng nói thì tần số dao động của dây thanh quy định quyết định độ cao của giọng nói con người Và mỗi người có một độ cao giọng nói khác nhau

một khoảng thời gian và cao độ Cường độ chính là độ to nhỏ của âm thanh,

cường độ càng lớn thì âm càng truyền được xa hơn, nếu xét về mặt sóng âm thì cường độ chính là biên độ giao động, nó quyết định năng lượng của sóng

âm

các đặc tính động của âm thanh như là điều biên, tăng lên hay rớt xuống của

tín hiệu Cùng một cao độ nhưng mỗi người lại có một âm sắc khác nhau

2 Phân loại nhận dạng tiếng nói

Trang 13

3 Những khó khăn

giọng nữ

bị thu

III Ứng dụng

khiển bằng tiếng nói của con người như: “chạy chương trình”, “tắt máy”… Các

hệ thống thông minh nhận lệnh trực tiếp của con người thông qua tiếng nói

bằng tiếng nói thay vì bằng cách thủ công là ngồi đánh máy

trong danh bạ thay vì bấm số Truy cập các ứng dụng, viết tin nhắn bằng tiếng nói…

Trang 14

và lấy mẫu tối ưu nhất, các khối trong mô hình có thể thay đổi vị trí cho nhau, tùy vào từng trường hợp

lớn nhất Vì vậy, ta chọn tần số lấy mẫu sẽ là 40 – 44kHz (gấp đôi tần số nghe của tai người 20kHz) Như vậy có thể chống Biệt danh Khối lọc thấp sẽ lọc các tín hiệu có tần số cao tạo độ mịn cho tín hiệu đầu ra

thiên nhỏ nhất

Lượng tử hóa: việc biểu diễn số tín hiệu đòi hỏi lượng tử hóa mỗi mẫu tín hiệu với một giá trị rời rạc hữu hạn Mỗi mẫu tín hiệu được lượng tử hóa, mã hóa rồi truyền đi Bên thu nhận tín hiệu sẽ giải mã và thu được tín hiệu tương tự

Hình 2 1 Sơ đồ các khối của mô hình lấy mẫu

Trang 15

II Rút trích đặc trưng

Để cho việc nhận dạng tiếng nói dễ dàng hơn và giảm chi phí thì việc rút trích đặc trƣng tín hiệu là một phần vô cùng quan trọng Tín hiệu thô ban đầu có dung lƣợng rất lớn, và độ phức tạp cao Việc rút trích các đặc trƣng từ tín hiệu

đó sẽ giúp cho khâu so sánh khớp mẫu dễ dàng hơn, và tạo ra độ chính xác cao hơn

Hình 2 2 Trình tự rút trích đặc trưng

Trang 16

1 Phân khung tín hiệu

Tín hiệu sau quá trình lấy mẫu được phân khung, chẳng hạn một luồng của tín hiệu âm thanh được chuyển thành tập các khung tín hiệu Trong bước này tín hiệu được chia thành các khung mỗi khung ứng với N mẫu, khoảng cách giữa các khung là M mẫu Độ dài thời gian cho mỗi khung khoảng 20~30ms Nếu thời gian khung quá lớn, chúng ta không thể nắm bắt các đặc điểm khác nhau theo thời gian của tín hiệu Ngược lại, nếu thời gian khung quá nhỏ, thì chúng ta không thể rút trích các đặc trưng hợp lệ hoặc có giá trị Nói chung, một khung tín hiệu cần chứa vài chu kỳ cơ bản của tín hiệu âm thanh nhất định, thường kích thước của khung bằng với mũ cơ số 2 (chẳng hạn 256,

512, 1024 ) như vậy có khả năng để biến đổi Fourier nhanh

Nếu chúng ta muốn giảm bớt sự khác biệt giữa các khung lân cận, chúng

ta có thể sử dụng các khung chồng lấp nhau, thường thực hiện chồng lấp 1/3

Hình 2 3 Khung tín hiệu với N = 256

Trang 17

hoặc 2/3 của khung tín hiệu gốc Khung chồng lắp nhiều, yêu cầu tính toán cũng nhiều hơn Như hình 1.2 minh họa chồng lấp 1/3 Khung thứ nhất có N mẫu, khung thứ hai bắt đầu từ mẫu thứ M và kết thúc ở vị trí M+N Khi M << N thì khung này sang khung khác được hoàn toàn trơn Ngược lại, nếu M > N thì sẽ không có sự chồng lấp giữa các khung kề nhau, dẫn đến một số mẫu tiếng nói bị mất (tức là không xuất hiện trong bất kỳ khung nào)

Hình 2 4 Phân đoạn tiếng nói thành các khung chồng lấp

Giả sử các tín hiệu âm thanh trong một khung là không thay đổi, chúng ta

có thể trích các đặc trưng chẳng hạn như tỷ lệ điểm qua zero, âm lượng, cao độ, MFCC, LPC,…

Chúng ta có thể thực hiện phát hiện điểm đầu và cuối của tín hiệu dựa tỷ

lệ điểm qua zero và âm lượng, và giữ lại các khung tín hiệu có tiếng nói để phân tích về sau

2 Lấy cửa sổ

Bước tiếp theo trong xử lý là lấy cửa sổ tín hiệu ứng với mỗi khung để giảm

thiểu sự gián đoạn tín hiệu ở đầu và cuối mỗi khung Gọi mẫu thứ n của khung

l ĥ n = l h n w(n) n∈ {0,1,…, N-1}

Các dạng cửa sổ tín hiệu:

Trang 18

Trong xử lý tín hiệu số, các cửa sổ thường dùng được biểu diễn thông qua

cửa sổ Hamming:

Hình 2 5 Cửa sổ Hamming theo miền thời gian và tần số

Với cửa sổ Hamming phổ tần số rơi xuống một cách nhanh chóng, vì thế nó cho phép cô lập tín hiệu tốt nhất Tuy nhiên, các sóng âm có cao độ lớn bị giữ lại hoàn toàn một cách bằng phẳng và nó che phủ phần lớn phổ tần số Mặc dù vậy,

nó vẫn phổ biến nhất nhờ vào tính kế thừa

Cửa sổ Hann (Hanning): đây là một loại khác của cửa sổ Hamming Sự khác biệt giữa chúng là cửa sổ Hann đặt 0 cho n=0 và n= N-1 Giá trị Zero ở khúc

đuôi có thể có hoặc không mong muốn phụ thuộc vào trường hợp chúng ta xử lý tín hiệu và giải thích cho điều này là khi dần tiến về Zero, mật độ dữ liệu không được sử dụng Tuy nhiên trong nhận dạng giọng nói, nó không có vấn đề gì hết bởi vì chúng thường có vừa đủ khung chồng lên nhau trong việc tính toán đặc trưng

Trang 19

𝑤 𝑛 = 0.5 1 − cos 2𝜋𝑛

Với cửa sổ Hamming thì các tần số thấp rơi xuống một cách nhanh chóng và sau đó gần như trở thành phẳng với các tần số cao Mặt khác, cửa sổ Hann rơi chậm hơn một chút với tần số cao nhưng nhanh chóng với tần số thấp Vì vậy, với mỗi loại đều có ưu điểm hoặc hạn chế riêng của chúng

Cửa sổ Tam giác: như tên gọi thì nó chỉ là một tam giác với đỉnh nằm ở

2) Cửa sổ này quan trọng và thường được sử dụng

trong phương pháp MFCC Biểu thức của cửa sổ tam giác:

Hình 2 6 Cửa sổ Hann theo miền thời gian và tần số

Trang 20

Nhƣ phổ tần số hình 1.5 thì nó rơi xuống khá đột ngột Các sóng có tần số cao có độ rộng nhiều hơn so với hai cửa sổ trên

Cửa sổ hình chữ nhật:

Hình 2 7 Cửa sổ Tam giác theo miền thời gian và tần số

Hình 2 8 Minh họa cửa sổ hình chữ nhật

Trang 21

Một số ví dụ minh họa:

3 Biến đổi tín hiệu sang miền tần số (Biến đổi Fourier rời rạc - DFT)

Bước tiếp theo trong việc xữ lý tín hiệu tiếng nói để có thể tính toán được các đặc trưng quang phổ là biến đổi Fourier rời rạc trên các cửa sổ tín hiệu

𝐻

𝑁−1 𝑛=0

𝑁−1 𝑛=0

Hình 2 9 Âm “a” theo cửa sổ Hann

Hình 2 10 Âm “a” với cửa sổ Hamming

Trang 22

Khi k = {0,1,…,N-1} là chỉ số của miền tần số với k = 0 tương ứng với thành phần DC và k = N/2 ứng với tần số gấp

Phép biến đổi nhanh fourier rời rạc (FFT)

Phép biến đổi nhanh này đều dựa trên kỹ thuật phân chia theo cơ số 2, nghĩa là thay vì biến đổi trên toàn bộ tín hiệu thì phép biến đổi này sẽ phân chia chuỗi tín hiệu thành 2 chuỗi tín hiệu con, và lại áp dụng phép biến đổi lần nữa cho 2 phần này một cách đệ quy Do phép chia cho 2, nên chuỗi tín hiệu đòi hỏi phải có chiều dài là lũy thừa của 2 (điều này có thể dễ dàng giải quyết được bằng cách tăng kích thước chuỗi tín hiệu lên và điền 0 vào)

4 Đặc trưng MFCC (Mel Frenquency Cepstral Coefficients)

Định nghĩa Mel (Melody): Mel là từ viết tắt của âm điệu (melody), nó là

một đơn vị của âm vực.Nó được xác định là bằng với 1000 Pitch trong một tần

số âm vực 1000 Hz với biên độ là 40dB nằm trên ngưỡng nghe

Hình 2 11 Minh họa biến đổi Fourier

Trang 23

Đặc trưng trích ra nhờ dựa trên khả năng cảm nhận âm của thính giác con người, và thang đo trong hệ thống nhận dạng của con người không phải là thang tuyến tính Ứng với MFCC thì ta dùng thang Mel

Hình 2 12 a) Mel và tần số

b) Mel và tần số được chia trên thang Log

Trang 24

Ta có công thức định nghĩa cho MFCC:

2𝑀

𝑙 𝑀−1

𝑚=0 𝑙

Trang 25

Lọc tín hiệu theo thang Mel

Hình 2 13 Minh họa bộ lọc tam giác

Dãy bộ lọc Mel-scale bao gồm một dãy các bộ lọc tam giác chồng lên nhau với tần số và độ rộng dãy tính theo tỉ lệ tần số Mel Tỉ lệ tần số Mel, giống như tỉ lệ Bark sử dụng cho phương pháp PLP, được dựa trên những kết quả nghiên cứu tâm lý từ con người Mỗi khoảng nghỉ trong tỉ lệ Mel ứng với một cao độ tương đối của một tone mà con người cảm nhận

Trang 26

Hình 2 14 Bộ lọc tam giác thực tế trên miền tần số

Sau đó chúng ta lấy Logaric và biến đổi Cosin (DCT) chúng ta sẽ có được các ma trận đặc trưng

5 Đặc trưng Mã hóa dự đoán tuyến tính (LPC)

LPC là một trong những phương pháp được sử dụng nhiều nhất trong lĩnh vực

xữ lý tiếng nói Bởi lẽ nó cung cấp công cụ dò tìm một cách đúng đắn và tốc độ tính toán nhanh Nguồn gốc cơ bản của phương pháp này là các mẫu tín hiệu tiếng nói được xấp xỉ hóa như là tổ hợp tuyến tính của một số mẫu trong quá khứ Nguyên lý cơ bản của LPC liên hệ mật thiết với mô hình tổng hợp tiếng nói, trong

đó chỉ ra rằng tín hiệu tiếng nói có thể được coi như là kết quả đầu ra của hệ tuyến

Trang 27

tính biến đổi theo thời gian và được kích thích bởi các xung tuần hoàn hay là các nhiễu ngẫu nhiên

Ý tưởng cơ bản của phương pháp LPC là tại thời điểm n, mẫu tiếng nói s(n)

có thể được xấp xỉ bởi một tổ hợp tuyến tính của p mẫu trước đó

Bài toán cơ bản của phân tích tiên đoán tuyến tính là đề xác định tập hợp các

gian của tín hiệu tiếng nói nên các hệ số tiên đoán phải được tính trong các đoạn ngắn tín hiện Cách tiếp cận cơ bản là tìm một tập các hệ số tiên đoán mà sai số tiên đoán là nhỏ nhất đối với một đoạn ngắn tín hiệu

Với cách tiếp cận trên sẽ hướng đến một vài kết quả hữu ích mà có thể không được quan sát thẩy ngay lập tức, nhưng có thể điểu chính bằng nhiều cách Đối với

số tiên đoán phù hợp với nhận xét này Thứ hai, dựa vào thực tế là nếu tín hiệu được sinh ra bởi công thức (l) với không có sự biến đối về thời gian của các hệ số

và được kích thích bằng cách một xung đơn lẻ hay một chuỗi nhiều trắng không thay đổi, thì nó có thể thấy rằng các hệ số dự đoán có kết quả từ việc tối thiểu hoá bình phương sai số tiên đoán giống với hệ số của công thức (l) Cuối cùng, sự điều chính hợp lý cho việc tối thiếu hoá sai số hình phương trung hình, sai số tiên đoán như là cơ sở cho việc xác định các tham số của mô hình là cách tiếp cận hướng đến tập của các công thức tuyến tính

Ngày đăng: 17/07/2015, 12:45

HÌNH ẢNH LIÊN QUAN

Hình 1. 1 Cấu trúc của tai người - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 1. 1 Cấu trúc của tai người (Trang 8)
Hình 1. 2 Mô hình nhận dạng tiếng nói - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 1. 2 Mô hình nhận dạng tiếng nói (Trang 9)
Hình 1. 3 Mô hình mô phỏng phương pháp HMM - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 1. 3 Mô hình mô phỏng phương pháp HMM (Trang 11)
Hình 2. 3 Khung tín hiệu với N = 256 - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 2. 3 Khung tín hiệu với N = 256 (Trang 16)
Hình 2. 4 Phân đoạn tiếng nói thành các khung chồng lấp - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 2. 4 Phân đoạn tiếng nói thành các khung chồng lấp (Trang 17)
Hình 2. 6  Cửa sổ Hann theo miền thời gian và tần số. - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 2. 6 Cửa sổ Hann theo miền thời gian và tần số (Trang 19)
Hình 2. 7 Cửa sổ Tam giác theo miền thời gian và tần số - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 2. 7 Cửa sổ Tam giác theo miền thời gian và tần số (Trang 20)
Hình 2. 8 Minh họa cửa sổ hình chữ nhật - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 2. 8 Minh họa cửa sổ hình chữ nhật (Trang 20)
Hình 2. 12 a) Mel và tần số - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 2. 12 a) Mel và tần số (Trang 23)
Hình 2. 14 Bộ lọc tam giác thực tế trên miền tần số - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 2. 14 Bộ lọc tam giác thực tế trên miền tần số (Trang 26)
Hình 3. 2 Mô hình mạng nhiều lớp - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 3. 2 Mô hình mạng nhiều lớp (Trang 35)
Hình 3. 3 Mô hình tổng quát 3 lớp - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 3. 3 Mô hình tổng quát 3 lớp (Trang 38)
Hình 3. 7 Đồ thị dạng tam giác (xi) - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 3. 7 Đồ thị dạng tam giác (xi) (Trang 47)
Hình 3. 6  Hình minh họa quá trình huấn luyện - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 3. 6 Hình minh họa quá trình huấn luyện (Trang 47)
Hình 3. 8 Mạng Neural sử dụng - XỬ LÝ VÀ NHẬN DẠNG TIẾNG NÓI
Hình 3. 8 Mạng Neural sử dụng (Trang 48)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w