BÁO CÁO môn học xử lý TIẾNG nói

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH KHOA KỸ THUẬT ĐIỆN TỬ II BÁO CÁO MÔN HỌC XỬ LÝ TIẾNG NÓI Nhóm sinh viên thực hiện nhóm 4 Giảng viên hướng dẫn THS Hồ Nhựt Minh.

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH

VIỄN THÔNG

CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH

KHOA KỸ THUẬT ĐIỆN TỬ II

BÁO CÁO MÔN HỌC

XỬ LÝ TIẾNG NÓI

Nhóm sinh viên thực hiện: nhóm 4

Giảng viên hướng dẫn : THS Hồ Nhựt Minh

Thành phố Hồ Chí Minh

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH

VIỄN THÔNG

CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH

KHOA KỸ THUẬT ĐIỆN TỬ II

BÁO CÁO MÔN HỌC

XỬ LÝ TIẾNG NÓI

Giảng viên hướng dẫn : THS Hồ Nhựt Minh

Trang 3

Mục Lục

Trang 4

Chương 1: Phần bài tập xử lý tiếng nói

1.Trong các cặp âm điệu đưới đây âm điệu nào được xem là to hơn.

Cho nên pitch( mels ) = 3322log (1+5000/1000) = 2585,02

3 Một tín hiệu đầu vào x(n) xác định trong miền -∞< n < n << ωs, tần số lấy mẫu theo rad của hệ thống số) Có quan hệ:

Trang 5

b Nếu tín hiệu đầu vào có dạng x2 (n) = r n cos(ω0n)u(n), | r |<< ωs) và giả sử ω0 = 2π.500, r = 0.9 và Fs = 10000Hz.

Trang 7

4 Xem xét một hệ thống bậc nhất: y(n) = αy(n-1) + x(n).

a Tìm hàm H(z) của hệ thống Biến đổi z 2 vế cho y(n)

Trang 8

6 Việc tính toán năng lượng ngắn hạn thông qua biểu thức sau

sẽ có giá trị hữu hạn vậy sẽ tồn tại năng lượng En

7 Hàm nào dưới đây không phải là hàm tự tương quan? Tại sao?

a R(τ) = 2ⅇ −τ 2 , -∞ < � < ∞

Trang 9

Có vì R(0) có giá trị cực đại duy nhất

b R(τ) = |�|ⅇ −|�| , -∞ < � < ∞

Không vì R(0) không có cực đại

Trang 11

e R(τ) = (0.2 cos(3��)) 3 - ∞ < � < ∞

Có vì R(0) có giá trị bằng với giá trị cực đại

8 Cho tín hiệu x(n) = cos(w0n)

a Hàm tự tương quan ф(k) = ∑ cos(�0�) ∞ �= − ∞ cos(�0(� −

�))

b Vẽ và biểu diễn Φ(k) như là hàm của k

Tại Φ(0) = ∑ ��2 (�0�) ∞ �= − ∞

Các Φ(k) khác thì = ∑ cos(�0�) ∞ �= ∞ cos(�0(� − �)) Vậy

Xem k như là 1 biến liên tục thì :

Trang 12

Tích phân phân kỳ Vậy ta sẽ không vẽ được phổ chính xác của tín hiệu

c Tìm và biểu diễn hàm tự tương quan của tín hiệu:

y(n) = 1 �(�) ≥ 0 và 0 �(�) < 0

y(n) = u(n)

Tự tương quan của tín hiệu y(n) :

9 Một hệ thống tuyến tính bất biến có hàm H(z) như sau:

Chuyển sang dạng phổ e jw

Trang 14

*Cc

Trang 16

11 Quan sát thời tiết trong mỗi ngày (tại thời điểm trưa) và phân loại như sau:

S1:mưa, S2: mây, S3: nắng với xác suất chuyển bậc là:

a Vẽ mô hình Markov

Trang 17

b Giả sử thời tiết ngày đầu tiên là nắng, tìm xác suất để thời tiết cho 7 ngàytiếp theo là “nắng-nắng-mưa-mưa-nắng-mây-nắng

Và xác suất chuyển bằng nhau bằng 1/3 (Giả sử xác suất trạng thái đầu tiên

là 1/3 )

a Quan sát chuỗi sự kiện O=HHHHTHTTT

Chuỗi sự kiện trên tương đương với chuỗi trạng thái nào nhất? Xác suấtcủa chuỗi sự kiện quan sát và chuỗi trạng thái này là bao nhiêu?

Xác suất của chuổi sự kiện trên là 1/29 = 1/512

Xác xuất của chuổi sự kiện trên gần với chuổi trạng tháiS2S2S2S2S3S2S3S3S3

Trang 18

PS1 = (0.5)9*(1/3)8 =1/3359232

c Nếu xác suất chuyển trạng thái được cho như sau:

Trả lời câu hỏi như trên phần a

Xác suất của chuổi sự kiện trên là 1/29 = 1/512

Xác xuất của chuổi sự kiện trên gần với chuổi trạng tháiS2S2S2S2S3S2S3S3S3

PTrạng thái = 0.759 *0.1*0.1*0.1*0.45*0.45*0.45*0.1*0.1 = 6.84x10-8

Trang 19

7 w1 = (-N/2+1:(N/2)); % Vector tan so trung tam

8 w = w1.*fs/N; % LAY MOT TAN SO MAU

9 H = a./(a + 1i*w); %H nam o trung tam

10 Hshift = fftshift(H); %H khong nam o trung tam

11 Y = X *Hshift' ; % loc tin hieu

12 y = real(ifft(Y));

13 sound(x,fs);% am thanh goc

14 sound(y,fs); % am thanh sau khi qua bo loc thong thap

15 subplot(2,1,1);

16 plot(w,abs(fftshift(X))) % abs lay bien do cua so phuc, dich tan so ve trung tam

17 title('Tin hieu ban dau');

18 subplot(2,1,2);

19 plot(w,abs(fftshift(Y)))

20 title('Tin hieu loc')

Kết luận: Đối với các tín hiệu tiếng nói thì bộ lọc thông thấp có dải tần càng rộng thì sẽ có khả năng lọc được tín hiệu tốt hơn và hạn chế được tác động của nhiễu khi truyền đi xa

2 Xác định tần số cơ bản, tần số Formant

Trang 20

% get Linear prediction filter

ncoeff=2+fs/1000; % rule of thumb for formant estimation

r=roots(a); % find roots of polynomial a

r=r(imag(r)>0.01); % only look for roots >0Hz up to fs/2

Trang 29

7 Hệ thống nhận dạng tiếng nói dựa trên mô hình HMI

Mô hình HMM trong nhận dạng âm thanh là mô hình left-to-right HMM (left-to-right

do sử dụng thuật toán Viterbi, chuỗi xác suất được sinh ra là ma trận dạng đường chéo

đi từ trái sang phải)

Một từ đơn lẻ sẽ bao gồm các âm vị (âm tiết), một âm sẽ chia ra thành 3 trạng thái bắt

đầu, giữa, cuối nối tiếp nhau Như từ smile sẽ bao gồm các âm “s”, “m”, “ay”, “l”, như thế có 12 trạng thái cho từ smile Các trạng thái nối tiếp nhau theo trình tự thời gian

nên một trạng thái sẽ đi kèm với các xác suất chuyển trạng thái ( xác suất “s” => “s”hoặc “s” => “m”)

8 Hệ thống nhận dạng tiếng nói (10 từ vựng) dựa trên mô hình mạng neural

Mạng neural nhân tạo hay thường gọi ngắn gọn là mạng neural (tiếng Anh là ArtificialNeural network - ANN hay Neural Network) là một mô hình toán học hay mô hìnhtính toán được xây dựng dựa trên các mạng neural sinh học Nó gồm có một nhómcác neural nhân tạo (nút) nối với nhau, và xử lý thông tin bằng cách truyền theo cáckết nối và tính giá trị mới tại các nút (cách tiếp cận connectionism đối với tính toán).Trong nhiều trường hợp, mạng neural nhân tạo là một hệ thống thích ứng (adaptive

system) tự thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trong

Trang 30

Trong thực tế sử dụng, nhiều mạng neural là các công cụ mô hình hóa dữ liệu thống kêphi tuyến Chúng có thể được dùng để mô hình hóa các mối quan hệ phức tạp giữa dữliệu vào và kết quả hoặc để tìm kiếm các dạng/mẫu trong dữ liệu.

Định dạng
Số trang	30
Dung lượng	2,11 MB
File đính kèm	file dinh kem.rar (123 KB)