1. Trang chủ
  2. » Công Nghệ Thông Tin

slike bài giảng xử lý tiếng nói - trịnh văn loan

30 476 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 1,32 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xử lý tín hiệu tiếng nói 3.. Nhận dạng tiếng nói 4 hợp, nhận dạng tiếng nói.. „ Tổng hợp và à nh nh ận dạng tiếng nói tiến tới giao tiếp người-máy bằng tiếng nói.. „ Tất cả các ứng dụng

Trang 1

Tài liệu tham khảo

„ La parole et son traitement automatique

Calliope, Masson, 1989

„ Traitement de la parole

Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987

„ Fundamentals of Speech Signal Processing

Saito S., Nakata K , Academic Press, 1985

„ Digital Processing of Speech Signals

Lawrence R Rabiner, Ronald W Schafer, Prentice-Hall 1978

„ Discrete-Time Processing of Speech Signals

John R Deller, John G Proakis, Hansen John H L 1999

„ Tiếng Việt hiện đại (Ngữ âm, ngữ pháp, phong cách)

Nguyễn Hữu Quỳnh, Hà Nội, 1994

1 Một số khái niệm cơ bản

2 Xử lý tín hiệu tiếng nói

3 Mã hoá tiếng nói

4 Tổng hợp tiếng nói

5 Nhận dạng tiếng nói

4

hợp, nhận dạng tiếng nói.

tiếng nói yêu cầu những hiểu biết trên nhiều

Trang 2

Mục đích

tiếng nói để truyền và lưu trữ tiếng nói.

„ Tổng hợp và à nh nh ận dạng tiếng nói tiến

tới giao tiếp người-máy bằng tiếng nói.

„ Tất cả các ứng dụng của xử lý tiếng

nói đều cần phải dựa trên các kết quả

của a phân t phân t ích tiếng nói

6

„ Phân biệt tiếng nói và âm thanh Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói.

„ Có 2 loại nguồn âm

7

8

Trang 3

NASAL CAVITY: Khoang mũi SOFT PALATE: Vịm miệng mềm EPIGLOTTIS: Nắp thanh quản VOCAL FOLDS (CORDS): Dây thanh OESOPHAGUS: Thực quản TRACHEA: Khí quản PHARYNX: Họng

A Glotte pendant la respiration B Glotte pour la phonation

1 Glotte 2 Cordes vocales 3 Epiglotte 5 Cartilages aryténọdes

Thanh mơn

Trang 4

Dây thanh trong một chu kỳ

dao động

14

Biểu diễn tín hiệu tiếng nói

„ Dạng sóng theo thời gian

Biểu diễn tín hiệu tiếng nói

„ Phổ t n hiệu tiếng nói

Trang 5

Biểu diễn tín hiệu tiếng nói

„ Thu bằng micro khác loại

Trang 6

Biểu diễn tín hiệu tiếng nói

„ Hai giọng khác nhau cho cùng một âm

22

Biểu diễn tín hiệu tiếng nói

„ Cùng người nói, cùng một âm

Trang 7

„ Đơn âm tiết

„ Có thanh điệu (6), biến đổi thanh điệu kèm theo biến đổi nghĩa

„ Không biến đổi hình thái

tiếng Việt

„ Hệ thống âm vị: 14 nguyên âm (11

nguyên âm đơn, 3 nguyên âm đôi, 22 phụ âm)

Trang 8

tiếng Việt

„ Phân loại nguyên âm theo độ nâng

của lưỡi và chuyển động của lưỡi

30

Hàng

Độ mở h ng trước

h ng sau không tròn môi

h ng sau tròn môi

Hữu thanh b đ

Vị trí cấu âm Đầu lưỡi

Môi Răng Vòm miệng

Tắc

Mặt lưỡi

tiếng Việt

„ Phân loại phụ âm theo tắc hay xát,

hữu thanh hay vô thanh, mũi hó

32

tiếng Việt

âm.

thời tạo nên tiếng thanh

Trang 9

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms

Time in ms

Trang 10

KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms

XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms

Time in ms

Trang 11

MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms

TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms

Time in ms

Trang 12

VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms

NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms

Time in ms

Trang 13

TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms

TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms

Time in ms

Trang 14

= K

1

2 k 1

b 1 (

B )

z (

V

) z 1 ( C ) z (

z 1

(

A )

z

(

β α +

=

54

) z ( A ) z ( R ) z ( V ) z ( G ) z (

p 2K 1

p

1 i

+ ∑

=

) z ( A ) z (

T = σ

P = 2K+1

Mô hình toàn điểm cực (AR)

„ A(z): Hàm truyền đạt của bộ lọc đảo

55

Mô hình ARMA

) z ( A ) z ( C ) z (

= ∑

c

) n ( u c ) n ( x a )

n

(

x

q 0 i i p

Trang 15

frame <= N/2, >0

59

Xử lý đồng hình (homomorphic)

F -1 {log[S(ω)]} = F -1 {log[H(ω)]} + F -1 {log[E(ω)]}

Cửa sổ

FFT -1

Trang 16

Tối thiểu hóa sai số

Đánh giá kết quả

„ Dựa vào hàm tự tương quan

„ Dựa vào hàm vi sai biên độ trung bình

„ Dùng bộ lọc đảo và hàm tự tương quan

„ Xử lý đồng hình

Trang 17

Dựa vào hàm tự tương quan

„ Tính hàm tự tương quan R(k)c a tín hiệu tiếng nó

bình (Average Magnitude Difference Function)

0 0.1 0.3

n

0 50 100 150 200 250 300 -0.01

-0.005 0 0.005 0.01 0.015

k

0 50 100 150 200 250 300 0

0.05 0.1 0.15 0.2

k

700 750 800 850 900 950 1000 1050 1100 1150 -0.2

0 0.1 0.3

n

0 50 100 150 200 250 300 -0.01

-0.005 0 0.005 0.01 0.015

k

0 50 100 150 200 250 300 0

0.05 0.1 0.15 0.2

k

Trang 18

tiếng nói

Trang 19

Xử lý đồng hình

74

Fk,Bks(n)

Tính nghiệm của A(z)

3 Mã hóa tiếng nói

„ Dãy thao tác mã hoá và giải mã

76 0

( ) lim [ /(2 1)]

x N

n ∈[-N, ,N]

Trang 20

„ Giá trị trung bình của tín hiệu dừng

với tín hiệu tiếng nói µx = 0

„ Phương sai

78

„ Luật lượng tử y = Q(x) được định nghĩa:

– (L+1) mức tín hiệu x(0), x(1), , x(L) – L mức lượng tử hoá

„ Mỗi mức lượng tử hoá biểu diễn bằng từ b bit

L = 2 b

„ Sai số lượng tử (tạp âm lượng tử) e = Q(x) - x

„ Bước lượng tử : hiệu 2 mức tín hiệu kề nhau

δ(i) = x(i)-x(i-1)

„ Thông lượng I = bFs (bit/s) Fs : tần số lấy mẫ

79

GSM, G723, )đ truyền tiếng nói trên mạng

hoặc lưu trữ

Thông lượng

80

T n số lấy mẫu (kHz) Số 1 mẫ bit cho luợng kbit/s Thông Dung lượng / phút (kbyte) Lĩnh vực

Trang 21

Lượng tử đều

„ Tổng quát, bước lượng tử là h m của biên độ t n

hiệu x (lượng tử không đều) → đơn giản nhất là

-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1

Lượng tử đều

„ L = 16

Trang 22

σ σ

„ Tỷ số t n hiệu trờn nhiễ

Với b ≥ 6, tăng6 dB mỗi khi tăng 1 bit lượng tử Để

W SN

SN = 20 log Biê n độ tín hiệu

Biê n độ nhiễu

Trang 23

+

= +

8 bit logarit ~ 12 bit lượng tử đề

Trang 24

„ Linear Predictive Encoding (Xerox), 5 kbps

„ Code Excited Linear Prediction (CELP)

„ Digital Video Interactive : ~ADPCM, 4 đ n 8 bits

„ VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s)

Trang 25

– âm vị – âm tiết (diphone) – từ

– tổ hợp từ – câu

Trang 26

Mô phỏng dây thanh:Mô hình một khối, Mô hình

hai khối, Mô hình nhiều khối, Mô hình hai dầm

Tham số điều khiể

thiên diện tích không quá đột ngột

Trang 27

Ống tiết diện đều, không tổn hao

„ Ống tiết diện đều và

đường dây tương đương

ρ0/A: Điện cảm âm học L: Điện cảm A/ρ0c 2 : Điện dung âm học C: Điện dung

107

Xét trong miền tần số

– Điều kiện biên tại thanh môn

– Điều kiện biên tại môi

( ) cos( / )

G

U H

(2 1) 4

= l 17,5 , 500,1500, 2500 cm c=350 m/s

=

= l

Trang 28

Tiếp giáp

112

Hiệu ứng của các tổn hao

„ Tổn hao do dịch chuyển không khí trong tuyến âm – Do tính lỏng của không khí

– Do truyền nhiệt – Do rung vách ngăn

truyền nhiệt

tính lỏng

rung

Trang 29

Hiệu ứng của các tổn hao

„ Tổn hao do bức xạ tại môi

– Mô hình quả óng vô hạ

– Trở kháng bức xạ

( ) ( , )

r r r

j L R p

Z

Ω Ω

„ Từ vựng nhiều hơn (vài nghìn từ), một người nói

„ Như trên nhưng cho hệ thống nhiều người nói

„ Nhận dạng các từ đi với nhau, từ vựng ít (hàng chục từ)

„ Nhận dạng câu ngắn, từ vựng hạn chế, một người

n i

„ Như trên nhưng cho hệ thống nhiều người nói

„ Nhận dạng lời nói liên tục, một hoặc nhiều người

n i

Trang 30

Nhận dạng người nói (Speaker Recognition)

„ Kiểm tra (verification) giọng nói

„ Định danh (identification) giọng nói

Ngày đăng: 24/10/2014, 12:43

HÌNH ẢNH LIÊN QUAN

Sơ đồ Sơ đ ồ khố kh ố i xử i x ử lý đ  lý đồ ồng h ng hì ình nh - slike bài giảng xử lý tiếng nói - trịnh văn loan
kh ố kh ố i xử i x ử lý đ lý đồ ồng h ng hì ình nh (Trang 15)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm