HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH KHOA KỸ THUẬT ĐIỆN TỬ II BÁO CÁO MÔN HỌC XỬ LÝ TIẾNG NÓI Nhóm sinh viên thực hiện nhóm 4 Giảng viên hướng dẫn THS Hồ Nhựt Minh.
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH
VIỄN THÔNG
CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH
KHOA KỸ THUẬT ĐIỆN TỬ II
BÁO CÁO MÔN HỌC
XỬ LÝ TIẾNG NÓI
Nhóm sinh viên thực hiện: nhóm 4
Giảng viên hướng dẫn : THS Hồ Nhựt Minh
Thành phố Hồ Chí Minh
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH
VIỄN THÔNG
CƠ SỞ TẠI THÀNH PHỐ HỒ CHÍ MINH
KHOA KỸ THUẬT ĐIỆN TỬ II
BÁO CÁO MÔN HỌC
XỬ LÝ TIẾNG NÓI
Giảng viên hướng dẫn : THS Hồ Nhựt Minh
Trang 3Mục Lục
Trang 4Chương 1: Phần bài tập xử lý tiếng nói
1.Trong các cặp âm điệu đưới đây âm điệu nào được xem là to hơn.
Cho nên pitch( mels ) = 3322log (1+5000/1000) = 2585,02
3 Một tín hiệu đầu vào x(n) xác định trong miền -∞< n < n << ωs, tần số lấy mẫu theo rad của hệ thống số) Có quan hệ:
Trang 5b Nếu tín hiệu đầu vào có dạng x2 (n) = r n cos(ω0n)u(n), | r |<< ωs) và giả sử ω0 = 2π.500, r = 0.9 và Fs = 10000Hz.
Trang 7
4 Xem xét một hệ thống bậc nhất: y(n) = αy(n-1) + x(n).
a Tìm hàm H(z) của hệ thống Biến đổi z 2 vế cho y(n)
Trang 86 Việc tính toán năng lượng ngắn hạn thông qua biểu thức sau
sẽ có giá trị hữu hạn vậy sẽ tồn tại năng lượng En
7 Hàm nào dưới đây không phải là hàm tự tương quan? Tại sao?
a R(τ) = 2ⅇ −τ 2 , -∞ < � < ∞
Trang 9Có vì R(0) có giá trị cực đại duy nhất
b R(τ) = |�|ⅇ −|�| , -∞ < � < ∞
Không vì R(0) không có cực đại
Trang 11e R(τ) = (0.2 cos(3��)) 3 - ∞ < � < ∞
Có vì R(0) có giá trị bằng với giá trị cực đại
8 Cho tín hiệu x(n) = cos(w0n)
a Hàm tự tương quan ф(k) = ∑ cos(�0�) ∞ �= − ∞ cos(�0(� −
�))
b Vẽ và biểu diễn Φ(k) như là hàm của k
Tại Φ(0) = ∑ ���2 (�0�) ∞ �= − ∞
Các Φ(k) khác thì = ∑ cos(�0�) ∞ �= ∞ cos(�0(� − �)) Vậy
Xem k như là 1 biến liên tục thì :
Trang 12Tích phân phân kỳ Vậy ta sẽ không vẽ được phổ chính xác của tín hiệu
c Tìm và biểu diễn hàm tự tương quan của tín hiệu:
y(n) = 1 �(�) ≥ 0 và 0 �(�) < 0
y(n) = u(n)
Tự tương quan của tín hiệu y(n) :
9 Một hệ thống tuyến tính bất biến có hàm H(z) như sau:
Chuyển sang dạng phổ e jw
Trang 14*Cc
Trang 1611 Quan sát thời tiết trong mỗi ngày (tại thời điểm trưa) và phân loại như sau:
S1:mưa, S2: mây, S3: nắng với xác suất chuyển bậc là:
a Vẽ mô hình Markov
Trang 17b Giả sử thời tiết ngày đầu tiên là nắng, tìm xác suất để thời tiết cho 7 ngàytiếp theo là “nắng-nắng-mưa-mưa-nắng-mây-nắng
Và xác suất chuyển bằng nhau bằng 1/3 (Giả sử xác suất trạng thái đầu tiên
là 1/3 )
a Quan sát chuỗi sự kiện O=HHHHTHTTT
Chuỗi sự kiện trên tương đương với chuỗi trạng thái nào nhất? Xác suấtcủa chuỗi sự kiện quan sát và chuỗi trạng thái này là bao nhiêu?
Xác suất của chuổi sự kiện trên là 1/29 = 1/512
Xác xuất của chuổi sự kiện trên gần với chuổi trạng tháiS2S2S2S2S3S2S3S3S3
Trang 18PS1 = (0.5)9*(1/3)8 =1/3359232
c Nếu xác suất chuyển trạng thái được cho như sau:
Trả lời câu hỏi như trên phần a
Xác suất của chuổi sự kiện trên là 1/29 = 1/512
Xác xuất của chuổi sự kiện trên gần với chuổi trạng tháiS2S2S2S2S3S2S3S3S3
PTrạng thái = 0.759 *0.1*0.1*0.1*0.45*0.45*0.45*0.1*0.1 = 6.84x10-8
Trang 19
7 w1 = (-N/2+1:(N/2)); % Vector tan so trung tam
8 w = w1.*fs/N; % LAY MOT TAN SO MAU
9 H = a./(a + 1i*w); %H nam o trung tam
10 Hshift = fftshift(H); %H khong nam o trung tam
11 Y = X *Hshift' ; % loc tin hieu
12 y = real(ifft(Y));
13 sound(x,fs);% am thanh goc
14 sound(y,fs); % am thanh sau khi qua bo loc thong thap
15 subplot(2,1,1);
16 plot(w,abs(fftshift(X))) % abs lay bien do cua so phuc, dich tan so ve trung tam
17 title('Tin hieu ban dau');
18 subplot(2,1,2);
19 plot(w,abs(fftshift(Y)))
20 title('Tin hieu loc')
Kết luận: Đối với các tín hiệu tiếng nói thì bộ lọc thông thấp có dải tần càng rộng thì sẽ có khả năng lọc được tín hiệu tốt hơn và hạn chế được tác động của nhiễu khi truyền đi xa
2 Xác định tần số cơ bản, tần số Formant
Trang 20% get Linear prediction filter
ncoeff=2+fs/1000; % rule of thumb for formant estimation
r=roots(a); % find roots of polynomial a
r=r(imag(r)>0.01); % only look for roots >0Hz up to fs/2
Trang 297 Hệ thống nhận dạng tiếng nói dựa trên mô hình HMI
Mô hình HMM trong nhận dạng âm thanh là mô hình left-to-right HMM (left-to-right
do sử dụng thuật toán Viterbi, chuỗi xác suất được sinh ra là ma trận dạng đường chéo
đi từ trái sang phải)
Một từ đơn lẻ sẽ bao gồm các âm vị (âm tiết), một âm sẽ chia ra thành 3 trạng thái bắt
đầu, giữa, cuối nối tiếp nhau Như từ smile sẽ bao gồm các âm “s”, “m”, “ay”, “l”, như thế có 12 trạng thái cho từ smile Các trạng thái nối tiếp nhau theo trình tự thời gian
nên một trạng thái sẽ đi kèm với các xác suất chuyển trạng thái ( xác suất “s” => “s”hoặc “s” => “m”)
8 Hệ thống nhận dạng tiếng nói (10 từ vựng) dựa trên mô hình mạng neural
Mạng neural nhân tạo hay thường gọi ngắn gọn là mạng neural (tiếng Anh là ArtificialNeural network - ANN hay Neural Network) là một mô hình toán học hay mô hìnhtính toán được xây dựng dựa trên các mạng neural sinh học Nó gồm có một nhómcác neural nhân tạo (nút) nối với nhau, và xử lý thông tin bằng cách truyền theo cáckết nối và tính giá trị mới tại các nút (cách tiếp cận connectionism đối với tính toán).Trong nhiều trường hợp, mạng neural nhân tạo là một hệ thống thích ứng (adaptive
system) tự thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trong
Trang 30Trong thực tế sử dụng, nhiều mạng neural là các công cụ mô hình hóa dữ liệu thống kêphi tuyến Chúng có thể được dùng để mô hình hóa các mối quan hệ phức tạp giữa dữliệu vào và kết quả hoặc để tìm kiếm các dạng/mẫu trong dữ liệu.