1. Trang chủ
  2. » Giáo án - Bài giảng

Xử lý tiếng nói

63 1,4K 3
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xử lý tiếng nói
Tác giả Trịnh Văn Loan
Trường học FIT-HUT
Chuyên ngành Xử lý tiếng nói
Thể loại Tiểu luận
Định dạng
Số trang 63
Dung lượng 1,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giáo trình xử lý tiếng nói

Trang 1

TrÞnh V¨n Loan

FIT-HUT

Trang 2

Tµi liÖu tham kh¶o

1 La parole et son traitement automatique

Calliope, Masson, 1989

2 Traitement de la parole

Rene Boite et Murat Kunt, Presse Polytechniques

Romandes, 1987

3 Fundamentals of Speech Signal Processing

Saito S., Nakata K , Academic Press, 1985

Trang 3

Néi dung

1 Mét sè kh¸i niÖm c¬ b¶n

2 Xö lý tin hiÖu tiÕng nãi

3 M· ho¸ tiÕng nãi

4 Tæng hîp tiÕng nãi

5 NhËn d¹ng tiÕng nãi

Trang 4

Xử lý tiếng nói ?

Xử lý thông tin chứa trong tín

hiệu tiếng nói nhằm truyền, lưu trữ

tín hiệu này hoặc tổng hợp, nhận

dạng tiếng nói.

Các nghiên cứu được tiến hành

để xử lý tiếng nói yêu cầu những hiểu biết trên nhiều lĩnh vực ngày càng đa dạng: từ ngữ âm và ngôn ngữ học cho đến xử lý tín hiệu

Trang 5

Mục đích

hiệu tiếng nói để truyền và lưu trữ tiếng

nói.

tới giao tiếp người-máy bằng tiếng nói.

nói đều cần phải dựa trên các kết quả

của

Trang 6

Phân biệt tiếng nói và âm thanh:

Tiếng nói được phân biệt với các âm thanh

khác bởi các đặc tính âm học có nguồn gốc

từ cơ chế tạo tiếng nói.

Có 2 loại nguồn âm

tuần hoàn (dây thanh rung)

tạp âm (dây thanh không rung)

Trang 7

Thực quảnNắp thanh quản

Khí quản

Dây thanh

Vòm miệng cứng

Vòm miệng mềmKhoang mũi

Lưỡi

Trang 8

Sơ đồ khối bộ máy phát âm

Trang 9

Thanh môn

Dây thanh

Trang 10

Thanh m«n (2)

Trang 11

Dây thanh trong một chu kỳ dao động

Trang 12

BiÓu diÔn tÝn hiÖu tiÕng nãi

Trang 13

BiÓu diÔn tÝn hiÖu tiÕng nãi

Trang 14

BiÓu diÔn tÝn hiÖu tiÕng nãi

Trang 15

T¹o ©m h÷u thanh Formant vµ

antiformant

Trang 16

T¹o ©m v« thanh

Trang 17

Một số đặc điểm ngữ âm tiếng Việt

điệu kèm theo biến đổi nghĩa

Trang 18

M« h×nh t¹o tiÕng nãi (Fant-1960)

) z 1

)(

z 1

(

A )

z (

β + α

= K

1 k

2 k 2

1 k

1 z b z ) b

1 (

B )

z ( V

) z 1 ( C )

z (

R = − − 1

P Läc th«ng

thÊp G(z)

Läc th«ng thÊp G(z)

TuyÕn ©m V(z)

TuyÕn ©m V(z)

T¶i bøc x¹ R(z) T¶i bøc x¹ R(z)

Trang 19

A(z): Hàm truyền đạt của bộ lọc đảo

Mô hình toàn điểm cực (AR)

) z ( A

) z ( R ) z ( V ) z ( G )

z (

i

i z a 1

) z ( A

) n ( u )

i n ( x a )

n ( x

p

1 i

i − = σ

+ ∑

=

) z ( A

) z (

Trang 20

Nếu tính đến khoang mũi 

xuất hiện các điểm không(ARMA)

) z ( A

) z (

C )

z ( A )

z ( A

) z

(

T

2

2 1

1 + σ = σ

σ

0 i

= ∑

c

) i n ( u c )

i n ( x a )

n ( x

q

0 i

i

p

1 i

i − = σ −

=

=

Trang 21

Hàm truyền đạt của một bộ lọc số ở tần số formant Fk được cho bởi:

trong đó , , T: chu kỳ lấy mẫu, : dải thông.

1 Vẽ các điểm cực của Hk(z) trong mặt phẳng Z

2 Viết phương trình sai phân mô tả quan hệ giữa tín hiệu ra yk(n) và tín hiệu vào xk(n)

3 Vẽ sơ đồ khối của bộ lọc số này với 3 bộ nhân.

4 Bằng cách sắp xếp lại các số hạng của phương trình sai phân,

vẽ sơ đồ khối của bộ lọc số chỉ có 2 bộ nhân

k T k

z = e−σ

k 2 F Tk

Trang 22

Bài tập

Bài 1.

Hàm truyền đạt của một bộ lọc số ở tần số formant Fk được cho bởi:

trong đó , , T: chu kỳ lấy mẫu, : dải thông

Trang 23

Bài tập

1 0,7

Trang 25

Bài tập

a) Xác định biến đổi z của g(n): Tra bảng

Trang 26

Ph©n tÝch phæ tÝn hiÖu tiÕng nãi

2 Xö lý tÝn hiÖu tiÕng nãi

Bé läc hiÖu chØnh

Trang 27

X’(f) = X(f) * W(f)

Trang 28

FFT -1 {log[H( ω )]}: thông tin vê`h(n):

FFT -1 {log[E( ω )]}: thông tin vê`nguô`n:

s(n) )

h(n) )

e(n) )

Trang 29

Sơ đồ khối xử lý đồng hình

Bộ lọc hiệu chỉnh

?

Trang 30

h(n) )

ˆ s(n) h(n) e(n) ˆ

Trang 31

Tiªn ®o¸n tuyÕn tÝnh (Linear Prediction Coding)

i x ( n i ) aˆ

) n ( xˆ

Sai sè tiªn ®o¸n e ( n ) = x ( n )xˆ ( n )

n

2 ( n ) e

i − = σ + ∑

=

Trang 32

Xác định tần số cơ bản Fo

Giọng nam: 80 250 Hz Giọng nữ: 150 500 Hz

Xác định Fo

Xác định Fo

Dựa vào hàm tự tương quan

Dựa vào hàm vi sai biên độ trung bình

Dùng bộ lọc đảo và hàm tự tương quan

Xử lý đồng hình

Trang 33

Dựa vào hàm tự tương quan

Trang 34

Dựa vào hàm tự tương quan

Hạn chế, loại bỏ |x|<C L

Trang 35

Dựa vào hàm vi sai biên độ trung bình (Average Magnitude Difference Function) (1)

1/2 N-1

n=0

N

λ λ λ

k n

x n

x k

n

, , 1

, 0

) (

) ( )

Trang 36

Dựa vào hàm vi sai biên độ trung bình (Average Magnitude Difference Function) (2)

1000 1050 1100 1150 1200 1250 -0.25

-0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 0.2 0.25

n

50 100 150 200 0

10 20 30 40 50

k

Trang 39

Xử lý đồng hình

Trang 40

Xử lý đồng hình

Xác định formant (1)

Bộ lọc hiệu chỉnh

Trang 41

Xử lý đồng hình

Xác định formant (1)

Trang 42

Tiên đoán tuyến tính (LPC)

F k ,B k s(n)

Bộ lọc hiệu chỉnh

Tìm cực đại

Tính nghiệm của A(z)

Tính nghiệm của A(z)

Quyết định

Xác định formant (2)

Trang 43

3 M· ho¸ tiÕng nãi

D·y thao t¸c m· ho¸ vµ gi¶i m·

Trang 45

Giá trị trung bình và phương sai

• Giá trị trung bình của tín hiệu dừng

với tín hiệu tiếng nói, giả thiết à x = 0

• Phương sai

1 ( ) d lim ( )

Trang 47

Thông lượng (1)

• Tín hiệu lượng tử 8 bit (256 mức), Fs = 8

kHz Thông lượng = 64 kbit/s

• Tín hiệu lượng tử 16 bit (65536 mức), Fs =

16 kHz Thông lượng = 256 kbit/s ,

1 giờ tiếng nói ≈ 100 Mbyte

• Cần phải mã hoá tín hiệu tiếng nói (MPEG, GSM, G723, ) để truyền tiếng nói trên mạng hoặc lưu trữ

Trang 48

Thông lượng (2)

Tần số lấy mẫu (kHz) Số bit cho 1 mẫu luợng kbit/s Thông

Dung lượng / phút (kbyte) Lĩnh vực

Trang 49

Lượng tử đều

Trang 50

Lượng tử đều

L = 9

Trang 51

Lượng tử đều

L = ?

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

Trang 52

Lượng tử đều

L = 16

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

Trang 53

Lượng tử đều

-1 0 1

-1 0 1

-1 0 1

-0.2 0 0.2

Quantification Error

Trang 55

Các tính chất lượng tử đều

• Tỷ số tín hiệu trên nhiễu

2 2

10 lg x (d B) 6, 02 4, 77 20 lg s

x e

x

σ σ

Trang 56

Tỷ số tín hiệu trên nhiễu

Trang 59

Lượng tử logarit

log(1 ) log(1 )

Trang 62

M· ho¸ vi sai (DPCM)

Trang 63

Linear Predictive Encoding (Xerox), 5 kbps

Code Excited Linear Prediction (CELP)

Digital Video Interactive : ~ADPCM, 4 đến 8 bits

VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)

Ngày đăng: 08/06/2014, 23:40

HÌNH ẢNH LIÊN QUAN

Sơ đồ khối bộ máy phát âm - Xử lý tiếng nói
Sơ đồ kh ối bộ máy phát âm (Trang 8)
Sơ đồ khối xử lý đồng hình - Xử lý tiếng nói
Sơ đồ kh ối xử lý đồng hình (Trang 29)

TỪ KHÓA LIÊN QUAN

w