ĐIỆN tử VIỄN THÔNG chapter 2 fundamental of speech signal processing khotailieu

Tiếng nói được tạo ra do tín hiệu nguồn từ thanh môn phát ra, đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm.. Hai dây thanh dao động sẽ tạo

Trang 1

Multimedia Engineering

-Lecture 2: Fundamental of Speech

Signal Processing

Lecturer: Dr Đỗ Văn Tuấn

Department of Electronics and

Telecommunications

Email: tuandv@epu.edu.vn

Trang 2

1 Introduction

2 Speech signal analysis

3 Speech signal synthesis

4 Introduction to Vietnamese analysis and

synthesis

Lecture contents

Trang 3

 Speech signal is complicated:

 Noise + periodic segments

 Nonlinear

 Time variant

Introduction

Trang 4

Bộ máy phát âm

10 Nắp đóng của thanh quản

11 Dây thanh giả

12 Dây thanh

13 Thanh quản

14 Thực quản

15 Khí quản

Trang 5

 Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản,

thanh quản, và các đường dẫn miệng, mũi

 Trong đó:

 Thanh quản chứa đôi dây thanh có thể dao động tạo ra sự cộng hưởng

cần thiết để tạo ra âm thanh

 Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh

hoặc thanh quản

 Khoang mũi là ống không đều bắt đầu từ môi, kết thúc bởi vòm

miệng, có độ dài cố định khoảng 12cm đối với người lớn

 Vòm miệng là các nếp cơ chuyển động

Bộ máy phát âm

Trang 6

 Trong quá trình tạo âm không phải là âm mũi, vòm miệng mở, khoang mũi

đóng lại, dòng khí sẽ chỉ đi qua khoang miệng

 Khi phát âm mũi, vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang

mũi

 Tuyến âm sẽ được kích thích (excitation) bởi nguồn năng lượng chính tại

thanh môn Tiếng nói được tạo ra do tín hiệu nguồn từ thanh môn phát ra, đẩy không khí có trong phổi lên tạo thành dòng khí, va chạm vào hai dây thanh trong tuyến âm Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm sẽ được lan truyền theo tuyến âm (tính từ thanh môn đến khoang miệng) và sau khi đi qua khoang mũi, môi, sẽ tạo ra tiếng nói

 Tín hiệu tiếng nói được hình thành thông qua 2 yếu tố:

 Excitation

 Signal shaping

Cơ chế phát âm

Trang 7

 Voiced excitation by its periodicity,

 voiceless excitation by its noise-like waveform,

 transient excitation by a certain sequence in the temporal course

Excitation

Trang 8

 A speech sound is not only determined by the excitation signal, but also

strongly by the "forming" of the air stream in the vocal tract The most important components are the lips and tongue

 The components in the vocal tract contributing substantially to the timbre

(âm sắc) of the speech signal are:

 tongue position

 lip position

Signal shaping

Trang 9

 Speech signal is continuous Presentation of the speech signal digitally in

order to maintain the characteristics of signal is very important

Presentation of speech signal

Speech signal presentation

Parametric excitation

Parameters of vocal

tract

Trang 10

 Sampling: in order to recover the signal without loosing information,

sampling rate f0 ≥2Fmax (Shannon theorem) (for example: telephone – 8Kz, music and voice – 48Kz)

 Quantizing: Each sample needs to be quantized for efficient processing

and transmission This will produce white noise

 Compressing: When transmitted, the speech signal contains a huge

‘redundancy’ Hence, the signal normally is compressed with a

compression technique to have a compact signal for delivery

Presentation of speech signal

Trang 12

 Âm hữu thanh

 Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và

chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn

mở ra và sau đó thanh môn xẹp xuống do không khí chạy qua

 Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn

hoặc gần như tuần hoàn Phổ của âm hữu thanh có nhiều thành phần hài tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản (pitch)

Đặc điểm của tín hiệu tiếng nói

Trang 13

 Âm vô thanh

 Khi tạo ra âm vô thanh dây thanh không cộng hưởng Âm vô thanh có

hai loại cơ bản là âm xát và âm tắc

 Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm

trong tuyến âm Không khí khi đi qua điểm co thắt trở nên chuyển động hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên Thông thường điểm co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến

âm ảnh hưởng rất ít đến đặc tính của âm xát được tạo ra

 Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số

điểm làm cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột Sự giải phóng đột ngột này tạo ra kích thích nhất thời của tuyến âm Sự kích thích này có thể xảy ra với sự cộng hưởng hoặc không cộng hưởng của dây thanh tương ứng với âm tắc hữu thanh hoặc vô thanh

Trang 14

 Nguyên âm

 Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây

thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định

 Phụ âm

 Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những

điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Phụ

âm có đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh

có dao động để tạo nên cộng hưởng không Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc Phụ âm xát được phát ra từ chỗ co thắt lớn nhất Các âm tắc được tạo ra từ khoảng giữa

Trang 15

 Hàm năng lượng ngắn hạn

 Hàm năng lượng ngắn hạn của tiếng nói được tính bằng cách chia tín

hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu Các khung

này được đưa qua một cửa sổ có dạng hàm như sau:

 Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau:

 Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ

Hamming, cửa sổ Hanning và cửa sổ chữ nhật Hàm năng lượng ngắn hạn của âm hữu thanh thường lớn hơn so với âm vô thanh

n

W n

Trang 16

 Tần số cơ bản

 Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong

đó biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như tuần hoàn) Phần tín hiệu có tính chu kỳ chứa các thành phần tần số có dạng điều hòa Tần số thấp nhất chính là tần số

cơ bản và cũng chính là tần số dao động của dây thanh

Giá trị tần số cơ bản Người nói

80 – 200 Hz giới

150 – 450 Hz Phụ nữ

200 – 600 Hz Trẻ em

Trang 17

 Formant

 Với phổ của tín hiệu tiếng nói, mỗi đỉnh

có biên độ lớn nhất xét trong một khoảng nào đó (cực đại cục bộ) tương ứng với một formant Ngoài tần số, các formant còn được xác định bởi biên độ và dải thông của chúng Về mặt vật lý các formant tương ứng với các tần số cộng hưởng của tuyến âm

 Tần số formant biến đổi trong một

khoảng rộng phụ thuộc vào giới tính của người nói và phụ thuộc vào các dạng âm

vị tương ứng với formant đó

Trang 18

1 Introduction

synthesis

Lecture contents

Trang 19

 Tuyến âm của con người là một bộ lọc phi tuyến phụ thuộc thời gian (tham số

thay đổi theo thời gian) rất phức tạp và được kích thích bằng nhiều nguồn

năng lượng khác nhau Mô hình thực cho các tính chất âm học là vô cùng phức tạp

 Để tạo ra mô hình thì đơn giản hóa như sau

 Tuyến âm được biểu diễn bằng một bộ lọc tuyến tính không mất mát với

một đầu vào duy nhất

 Nguồn kích thích hoặc là dãy xung tuần hoàn hoặc là nhiễu, phụ thuộc vào

tiếng nói là hữu thanh hay vô thanh

 Các đặc tính của bộ lọc và nguồn kích thích là tĩnh (không biến đổi) trong

các chu kỳ khoảng 10 ms.



Bộ lọc nguồn

Trang 20

 Mô hình

 Khi được dùng cho tổng hợp, các tham số bộ lọc được cập nhật theo chu kỳ

khoảng 10 ms

 Khi được dùng cho phân tích, tín hiệu tiếng nói được phân chia thành các

khung độ dài khoảng 10-25 ms Với mỗi khung, một tập các tham số bộ lọc được xác định bằng cách tối thiểu sự khác biệt giữa tiếng nói được tạo bằng

Bộ lọc nguồn

Trang 21

 Là mô hình bộ lọc–nguồn trong đó tuyến âm được biểu diễn bằng một bộ lọc

số phụ thuộc thời gian có đáp ứng tần số là:

 Hệ thống có thể được kích thích bởi một dãy xung đối với tiếng nói hữu thanh

hay một dãy nhiễu ngẫu nhiên đối với tiếng nói vô thanh Tần số cơ bản và các tham số hữu thanh/ vô thanh có thể được xác định bằng sử dụng phân tích tiên

đoán tuyến tính Các mẫu tiếng nói s(n) có thể có được bằng cách sử dụng

G z

U

z

S z

H

1

) (

n

s

1

.

Trang 22

 Hàm tương quan dùng để khảo sát tính tương quan giữa hai hàm bằng cách so

sánh chồng hai hàm lên nhau và với một trong hai hàm dịch sang trái hay sang phải

-k) g(m).h(m

)

k

m h m k

g k

R

Trang 23

 Định nghĩa

 Nếu tín hiệu x(n) tuần hoàn với chu kỳ P thì hàm tự tương quan cũng tuần

hoàn với chu kỳ P:

 Tính chất

 Là hàm chẵn

 R(k) đạt giá trị cực đại tại 0

 Giá trị R(0) chính bằng năng lượng của tín hiệu:

 Sử dụng hàm tự tương quan để phân tích tần số cơ bản

Trang 24

 Tiên đoán tuyến tính

 Bộ tiên đoán tuyến tính với các hệ số tiên đoán và bậc p là một hệ

thống có đầu ra là:

 Sai số tiên đoán

 Bộ lọc sai số tiên đoán là hệ thống có hàm truyền đạt

 hàm truyền đạt của mô hình toàn cực

Kỹ thuật tiên đoán tuyến tính (LP)

k s n k n

s

1

.)

k s n k n

s n

e

1

.)

k

k z z

Trang 25

 Tiên đoán tuyến tính

 Tín hiệu đầu ra của hàm truyền đạt

 Nếu thì và với điều kiện đó, bộ lọc lỗi tiên

đoán A(z) sẽ là một bộ lọc đảo của hệ H(z):

Kỹ thuật tiên đoán tuyến tính (LP)

n

s

1

.

k

k a

)(

)

(

z A

G z

Trang 26

 Xét một mẫu tín hiệu s(n), ta tìm cách biểu diễn mẫu tín hiệu thành một tổ hợp

tuyến tính của các mẫu trước nó Lỗi tiên đoán trung bình ngắn hạn

 Tối thiểu lỗi tuyến tính bình phương để tìm các giá trị

E 2( )    

n

n s n

s E

n s n

Trang 27

 Tìm hiểu cách giải bài toán tiên đoán tuyến tính LP

 Sử dụng hàm tự tương quan (giải thuật đệ quy Levison-Durbin )

 Sử dụng phương pháp covariant

 Đọc thêm về phổ tiên đoán tuyến tính

Tự đọc thêm

Trang 28

1 Introduction

synthesis

Lecture contents

Trang 29

 Được chia làm 3 nhóm:

 Tổng hợp mô phỏng bộ máy phát âm: Mô phỏng lại quá trình xử lý vật lý

bộ máy phát âm của con người một cách trực tiếp

 Tổng hợp Formant: Mô phỏng các tần số điểm cực của tín hiệu tiếng nói

hoặc hàm truyền đạt của tuyến âm dựa trên mô hình bộ lọc-nguồn

 Tổng hợp trực tiếp: Sử dụng các mẫu tiếng nói ghi âm có chiều dài khác

nhau từ tiếng nói tự nhiên

 Phương pháp tổng hợp bằng LP (mã hóa và tổng hợp LP - Presentation)

Phương pháp tổng hợp tiếng nói

Trang 30

1 Introduction

synthesis – your task

Lecture contents

Trang 31

End of the lecture

Định dạng
Số trang	31
Dung lượng	550 KB