câu hỏi ôn tập môn xử lý TIẾNG nói

Một phương pháp đơn giản thực hiện tổng hợp các bản tin là phương pháp tổng hợptrực tiếp trong đó các phần của bản tin được chắp nối bởi các phần đơn vị của tiếng nóicon người. Phương p

Trang 1

MỤC LỤC – XỬ LÝ TIẾNG NÓI

Trang 2

1.Tóm tắt bộ phát âm của con người.

Gồm hai cơ quan trực tiếp hoặc gián tiếp tạo ra âm thanh, có thể được chia thành hai

vị trí nhất định để hình thành nên âm thanh của ngôn ng Ở miệng lưỡi là bộ phận linhhoạt nhất để tạo ra những âm thanh khác nhau của con người

2.Tóm tắt bộ thu âm của con người.

Hệ thống thính giác ngoại vi chịu trách nhiệm về các quá trình sinh lý của thính giác Đây là quá trình cho phép tiếp nhận những âm thanh và chuyển đổi nó thành các xungđiện có thể gửi được đến não qu các dây thần kinh thính giác

Thính giác ngoại vi của con người là tai, gồm 3 thành phần

+ tai ngoài là các kênh năng lượng âm thanh

+ tai giữa trong đó chuyển đổi năng lượng âm thanh thành năng lượng cơ học truyền

và khuyeech đại đến tai trong

Trang 3

+ Tai trong thực hiện công việc cuối cùng chuyển đổi năng lượng cơ học thành cácxung điện

Thính giác trung tâm, Hệ thống thính giác trung tâm bao gồm 30.000 tế bào, được tạothành dây thần kinh thính giác, và truyền xung điện để nao xử lý, và vũng não bộ xử lýtín hiệu điện Thông qua dây thần kinh thính giác, não nhận được kiểu mẫu đặc trưngcủa mỗi âm thanh và so sánh với những khác biệt được lưu trữ sẵn có trong bộ nhớ đểnhận dạng chúng Mặc dù những thông tin nhận được, không giống với thông tin lưutrữ trong bộ nhớ, bộ não cũng cố gắng để thích ứng với một mô hình tương tự nhưthông tin nhận được, bộ não có hại cho lựa chọn, nó từ chối hoặc lưu trữ Nếu lưu trữ,

sẽ tạo ra một mô hình mới có thể dùng để so sánh

3.Tần số cơ bản,cách xác định tần số cơ bản.

Tần số cơ bản là tốc độ rung của dây thanh, gọi là F0 Người nói có thể điều khiểnmức độ căng của hai dây thanh để khoảng giữa hai dây thanh đó đóng lại hoàn toàn,tạo thành khe hẹp hay mở rộng ra Khoảng không ở giữa này được gọi là thanh môn.Khi thanh môn hẹp, không khí đi qua nó sẽ tạo ra một âm thanh điều hòa Thuật ngữ

chung, F0 và pitch có thể coi là một Bằng cách thay đổi độ căng của dây thanh, ngườinói có thể điều chỉnh tần số cơ bản Bình thường, tần số cơ bản của giọng nam thayđổi từ 80 Hz đến 250 Hz, trong khi đó giọng nữ là 120 Hz đến 400 Hz

 Các phương pháp xác định tần số cơ bản Fo:

 Sử dụng phương pháp STFT – đây là nguyên lí cơ bản của phương pháp xácđịnh tần số cơ bản

 Dựa vào tương quan tín hiệu ứng với các điểm cực đại

Trang 4

 Dựa vào vi sai độ lớn biên độ trung bình AMDF:

+Sử dụng tốc độ trở về không Zn =

+Sử dụng phân tích Cepstral

 Dựa vào hàm tự tương quan

 Dựa vào hàm vi sai biên độ trung bình

 Dùng bộ lọc đảo và hàm tự tương quan

 Xử lý đồng hình

4.Khái niệm tần số Formant,cách xác định tần số Formant.

Những tần số cộng hưởng của tuyến âm gọi là tần số Formant, những tần số này phụthuộc vào kích thước và dạng của tuyến âm Do đó mỗi dạng tuyến âm được đặc trưngbởi một tổ hợp tần số Formant

Trang 6

sound(a9,Fs); end end

Câu 2: Trình bày tóm tắt các phương pháp tổng hợp tiếng nói? Ưu nhược điểm của từng phương pháp?

1.Phương pháp tổng hợp trực tiếp

Trang 7

Một phương pháp đơn giản thực hiện tổng hợp các bản tin là phương pháp tổng hợptrực tiếp trong đó các phần của bản tin được chắp nối bởi các phần đơn vị của tiếng nóicon người.

 Phương pháp tổng hợp trực tiếp đơn giản

-Phương pháp đơn giản nhất để tạo ra các bản tin tiếng nói là ghi và lưu trữ tiếng nóicon người theo các đơn vị từ riêng lử khác nhau và sau đó chọn phát lại các từ theothứ tự mong muốn nào đó.Bộ tổng hợp làm nhiệm vụ kết nối các đơn vị yêu cầu cấuthành bản tin lại với nhau theo 1 thứ tự nào đó mà ko phải thay đổi hay biến đổi cácthành phần riêng rẽ

-Ưu điểm đơn giản,hiệu quả khi các bản tin có dạng một danh sách như 1 dãy số cơbản…

-Nhược điểm:

+Việc chắp nối trực tiếp các đơn vị tiếng nói gặp khó khăn trong việc diễn tả sự ảnhhưởng tự nhiên giữa các từ cũng như ngữ điệu và nhịp điệu của câu

+ Kích thước cho bộ nhớ rất lớn khi số lượng bản tin lớn

 Phương pháp tổng hợp trực tiếp từ các phân đoạn dạng sóng

-Hai phân đoạn tín hiệu đc chắp nối theo kiểu đồng bộ pitch,phương pháp phổ biếnthực hiện việc này là phương pháp TD-PSOLA TD-PSOLA thực hiện việc đánh dấu

vị trí tương ứng với sự đóng lại của dây thanh trong dạng sóng tín hiệu tiếng nói.Các

vị trí đánh dấu này đc sử dụng để tạo ra các phân đoạn cửa sổ của dạng sóng tín hiệu

Trang 8

cho mỗi chu kì,hàm cửa sổ phải đc chỉnh trùng với trung tâm của vùng có biên độ tínhiệu cực đại và hình dạng cửa sổ chọn phải thích hợp.

-Ưu điểm :giải quyết đc vấn đề hạn chế trong việc khôi phục tốc độ và tính tự nhiêncủa bản tin đc tổng hợp,có thể tái tạo khá chính xác bản tin theo ý mong muốn

-Nhược điểm : phức tạp

2.Tổng hợp tiếng nói theo Formant

-Sử dụng các phương pháp mô-đun,dựa trên mô hình ,mối quan hệ âm thanh âm tiết đểgiải các bài toán tổng hợp tiếng nói

-Có 2 kĩ thuật tổng hợp Formant là phương pháp tổng hợp nối tiếp và song song

-Ưu điểm :đơn giản và thường mang lại tín hiệu âm thanh rõ

Trang 9

-Nhược :khó đạt được tính tự nhiên của tín hiệu tiếng nói

3.Tổng hợp tiếng nói theo phương pháp mô phỏng bộ máy phát âm

-Ngày nay bộ máy phát âm đc nâng cao ,các bộ tổng hợp sử dụng nguyên lý mô phỏng

bộ máy phát âm ngày càng phức tạp và hoàn thiện hơn.Các hình dạng ống phức tạp đcxấp xỉ bằng 1 loạt các ống đơn giản nhỏ hơn

-Ưu: cho phép tạo ra 1 cách tự nhiên hơn để tạo ra tiếng nói

-Nhược :+khó khăn trong việc quyết định làm thế nào để có đc các tham số điều khiển

từ các yêu cầu tín hiệu cần tổng hợp

+khó khăn trong việc cân bằng giữa việc xây dựng 1mô hình mô phỏng chính xác caonhất giống với bộ máy phát âm sinh học của con người và 1mô hình thực tiễn dễ thiết

kế và thực hiện

Câu 4: Trình bày tóm tắt các phương pháp xác định tần số cơ bản của tiếng nói?

Tần số cơ bản F0 là tần số dao động của dây thanh.Một số phương pháp xác định tần

số cơ bản là :phương pháp sử dụng hàm tự tương quan, phương pháp sử dụng hàm visai biên độ trung bình, phương pháp sử dụng hàm

-Phương pháp sử dụng hàm tự tương quan :hàm tự tương quan Fn(k) sẽ đạt các giá trịcực khi tương ứng tại các điểm là bội của chu kỳ cơ bản của tín hiệu.Khi đó các tần số

cơ bản là tần số xuất hiện của các đỉnh của Fn(k)

- Pháp sử dụng hàm vi sai biên độ trung bình (AMDF):xác định 2 điểm cực tiểu gầnnhau nhất từ đó xác định đc chu kỳ của dãy và từ đó suy ra tần số cơ bản

Trang 10

-Sử dụng tốc độ trở về không-zero crossing rate :với tín hiệu rời rạc 1 lần qua điểm kocủa tín hiệu xảy ra khi các mẫu cạnh nhau có dấu khác nhau.Do đó tốc độ qua điểmkhông của tín hiệu là 1 đo lường đơn giản của tần số của tín hiệu.

-Phương pháp sử dụng STFT : xét biểu thức phổ các hài sau

Pn =

Lấy logarit biểu thức trên ta đc () = 2

Hàm () là 1 tổng của K phổ nén tần số của ,với tín hiệu âm hữu thanh việc nán tần sốbởi các hệ số nguyên sẽ làm các hài của tần số cơ bản trùng với tần số cơ bản

-Sử dụng phân tích Cepstral :trước hết các cepstrum được tính toán và tìm kiếm đỉnhnhọn trong 1 khoảng lân cận của chu kỳ phỏng đoán,nếu đỉnh tại đó lớn hơn 1 ngưỡngđịnh trước thì tín hiệu tiếng nói đưa vào khả năng là tín hiệu âm hữu thanh và vị tríđỉnh đó là 1 ước lượng chu kỳ cơ bản(cũng tức là xác định tần số cơ bản)

Câu 5: Điều chế xung mã vi sai DPCM, Delta ( Vẽ sơ đồ, nguyên lý ).

 Điều chế xung mã vi sai DPCM

-Đây là phương pháp dựa trên tính chất tương quan của tín hiệu tiếng nói,chỉ

truyền đi chênh lệch giữa các mẫu cạnh nhau

en =xn - x’n

với xn là xung lấy mẫu tương tự, x’n là đầu ra của bộ dự đoán

Đây chính là giá trị dùng đẻ lượng tử hóa và truyền đi ,ở phái thu sẽ phục hồilại tín hiệu sai số này

Trang 11

 Điều chế Delta (DM)

-Là 1 loại điều chế DPCM trong đó mỗi từ mã chỉ có 1 bít nhị phân.Độ chênhlệch giữa xn và x’n được lượng tử hóa thành 1 trong 2 giá trị -∆,+∆.Tại phía thucác giá trị -∆,+∆ đc cộng với các giá trị dự đoán tức thời để khôi phục lại tiếngnói ban đầu

Trang 13

Câu 6: Cấu trúc tổng quát hệ thống nhận dạng tiếng nói

Trang 14

-Tín hiệu tiếng nói trước hết được xử lý bằng cách áp dụng các phương pháp phân tích

phổ ngắn hạn hay là quá trình trích chọn đặc trưng hay quá trình tiền xử lý.Kết quả thuđược là tập hợp các đặc trưng âm học tạo thành 1 véc-tơ.Việc so sánh trước hết thựchiện bằng cách huấn luyện xây dựng các đặc trưng ,sau đó sử dụng để so sánh với cáctham số đầu vào để thực hiện việc nhận dạng

Phần 1

Câu 2 Các phương pháp xác định tần số cơ bản Fo?

- Sử dụng phương pháp STFT – đây là nguyên lí cơ bản của phương pháp xácđịnh tần số cơ bản

- Dựa vào tương quan tín hiệu ứng với các điểm cực đại

- Dựa vào vi sai độ lớn biên độ trung bình AMDF

- Sử dụng tốc độ trở về không Zn =

- Sử dụng phân tích Cepstral

Câu 3 Khái niệm tần số Formant và anti Formant ? ý nghĩa?

- Các dao động của dây thanh (dao động cơ bản) có thể được tăng cường khi điqua tuyến âm

 ta gọi các tần số đó là các Formant

Trang 15

 với các âm khác nhau có thể tồn tại từ F1 -> F6… Formant Tuynhiên các Formant bậc thấp sẽ có tính chất quyết định đến đặc trưng của âm.Với các công cụ tổng hợp cần quan tâm đến Fs.

Chú ý : với cùng một người hoặc một âm Formant có thể thay đổi Nếu chỉquan tâm đến giá trị thì không đủ để biểu diễn đặc trưng của âm mà cần quantâm đến vị trí tương đối của các Formant

Trang 16

II Code

a) Đọc tín hiệu âm thanh Text to speech

function ReadNumber = Read(String)

Trang 18

dframe = 2000; % chia khung -chieu rong khung

N = length(y); %so mau trong y

fullFrames = floor(N/dframe); % tat ca ca khung trong y

energy = zeros(1,fullFrames); % tao bien nang luong ,ban dau bang 0

startSample = zeros(1,fullFrames); % khoi tao chi so bat dau cua khungendSample = zeros(1,fullFrames); % khoi tao chi so cuoi cua khung

for frame = 1:fullFrames

Trang 19

endSample(frame) = frame*dframe; %ket thuc chi so cua khung

frameIndex = startSample(frame):endSample(frame); % chi so cua khung mau energy(frame) = sum(y(frameIndex).^2); % tinh nang luong

% save file – ghi ra file

wavwrite (y3, fs, nb, 'file01.wav');

Trang 20

n5= wavread('5.wav');

x1= fir1(10,1/8,'low');%loc thong thap

x2= fir1(10,[1/8 2/8],'bandpass');%dai thong

x8= fir1(10,7/8 ,'high');%loc thong cao

%tinh pho nang luong

y0=[ sum((conv(n0(:,1),x1).^2)) sum((conv(n0(:,1),x2).^2))sum((conv(n0(:,1),x3).^2)) sum((conv(n0(:,1),x4).^2)) sum((conv(n0(:,1),x5).^2))sum((conv(n0(:,1),x6).^2)) sum((conv(n0(:,1),x7).^2)) sum((conv(n0(:,1),x8).^2))];

Trang 21

y1=[ sum((conv(n1(:,1),x1).^2)) sum((conv(n1(:,1),x2).^2))sum((conv(n1(:,1),x3).^2)) sum((conv(n1(:,1),x4).^2)) sum((conv(n1(:,1),x5).^2))sum((conv(n1(:,1),x6).^2)) sum((conv(n1(:,1),x7).^2)) sum((conv(n1(:,1),x8).^2))];y2=[ sum((conv(n2(:,1),x1).^2)) sum((conv(n2(:,1),x2).^2))sum((conv(n2(:,1),x3).^2)) sum((conv(n2(:,1),x4).^2)) sum((conv(n2(:,1),x5).^2))sum((conv(n2(:,1),x6).^2)) sum((conv(n2(:,1),x7).^2)) sum((conv(n2(:,1),x8).^2))];y3=[ sum((conv(n3(:,1),x1).^2)) sum((conv(n3(:,1),x2).^2))sum((conv(n3(:,1),x3).^2)) sum((conv(n3(:,1),x4).^2)) sum((conv(n3(:,1),x5).^2))sum((conv(n3(:,1),x6).^2)) sum((conv(n3(:,1),x7).^2)) sum((conv(n3(:,1),x8).^2))];y4=[ sum((conv(n4(:,1),x1).^2)) sum((conv(n4(:,1),x2).^2))sum((conv(n4(:,1),x3).^2)) sum((conv(n4(:,1),x4).^2)) sum((conv(n4(:,1),x5).^2))sum((conv(n4(:,1),x6).^2)) sum((conv(n4(:,1),x7).^2)) sum((conv(n4(:,1),x8).^2))];y5=[ sum((conv(n5(:,1),x1).^2)) sum((conv(n5(:,1),x2).^2))sum((conv(n5(:,1),x3).^2)) sum((conv(n5(:,1),x4).^2)) sum((conv(n5(:,1),x5).^2))sum((conv(n5(:,1),x6).^2)) sum((conv(n5(:,1),x7).^2)) sum((conv(n5(:,1),x8).^2))];y6=[ sum((conv(n6(:,1),x1).^2)) sum((conv(n6(:,1),x2).^2))sum((conv(n6(:,1),x3).^2)) sum((conv(n6(:,1),x4).^2)) sum((conv(n6(:,1),x5).^2))sum((conv(n6(:,1),x6).^2)) sum((conv(n6(:,1),x7).^2)) sum((conv(n6(:,1),x8).^2))];y7=[ sum((conv(n7(:,1),x1).^2)) sum((conv(n7(:,1),x2).^2))sum((conv(n7(:,1),x3).^2)) sum((conv(n7(:,1),x4).^2)) sum((conv(n7(:,1),x5).^2))sum((conv(n7(:,1),x6).^2)) sum((conv(n7(:,1),x7).^2)) sum((conv(n7(:,1),x8).^2))];

Trang 22

y8=[ sum((conv(n8(:,1),x1).^2)) sum((conv(n8(:,1),x2).^2))sum((conv(n8(:,1),x3).^2)) sum((conv(n8(:,1),x4).^2)) sum((conv(n8(:,1),x5).^2))sum((conv(n8(:,1),x6).^2)) sum((conv(n8(:,1),x7).^2)) sum((conv(n8(:,1),x8).^2))];

%input

[q, w] =uigetfile('*.wav', 'Pick a wav file.');

%doc file vua input vao

e= wavread(strcat(w,q));

%thong bao doc file xong

disp(strcat('Da doc file:"',q,'", Tien hanh xu ly '));

%tinh pho nang luong file input

yx=[ sum((conv(e(:,1),x1).^2)) sum((conv(e(:,1),x2).^2)) sum((conv(e(:,1),x3).^2))sum((conv(e(:,1),x4).^2)) sum((conv(e(:,1),x5).^2)) sum((conv(e(:,1),x6).^2))sum((conv(e(:,1),x7).^2)) sum((conv(e(:,1),x8).^2))];

%so sanh pho nang luong cua file nhap vao voi cac file trong library

yx0 = sum ((yx - y0).^2);

yx1 = sum ((yx - y1).^2);

yx2 = sum ((yx - y2).^2);

Trang 23

yx4 = sum ((yx - y4).^2);

yx5 = sum ((yx - y5).^2);

yx6 = sum ((yx - y6).^2);

yx7 = sum ((yx - y7).^2);

yx8 = sum ((yx - y8).^2);

%lay gia tri nho nhat

minx = [ yx0 yx1 yx2 yx3 yx4 yx5 yx6 yx7 yx8];

%dua vaogia tri nho nhat de doc file am thanh phu hop

Trang 24

elseif minm == minx(8)

disp('Number : 7');

elseif minm == minx(9)

disp('Number : 8');

end

Định dạng
Số trang	24
Dung lượng	294,42 KB