CSDL nhận dạng tiếng việt

Dự đoán tuyến tính – LPC Mã hóa dự đoán tuyến tính LPC là một phương pháp được sử dụng chủ yếu là trong xử lý tín hiệu âm thanh và xử lý giọng nói để biểu diễn đường bao phổ của tín hiệ

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN I

- -XÂY DỰNG HỆ CSDL NHẬN DẠNG TIẾNG VIỆT

CHUYÊN NGÀNH :HỆ THỐNG THÔNG TIN

HÀ NỘI-NĂM 2020

Trang 2

MỤC LỤC

I.ĐẶC TRƯNG CỦA CSDL

Dữ liệu gồm 100 file âm thanh với các từ phát âm đếm từ một đến mười Các file được lưu dưới định dạng wav (dạng song) và có độ dài trung bình từ 1 đến 1,2 giây Các từ xuất hiện trong khoảng 0.7 đến 0.9 giây

Trong mỗi từ có nhiều cách phát âm khác nhau đặc trưng cho từng người nói, trong một từ phát âm không có 2 cách phát âm từ một nguồn (giống nhau)

Trang 3

II.KỸ THUẬT XỬ LÝ VÀ NHẬN DẠNG ÂM THANH 2.1 Dự đoán tuyến tính – LPC

Mã hóa dự đoán tuyến tính (LPC ) là một phương pháp được sử dụng chủ yếu là trong xử lý tín hiệu âm thanh và xử lý giọng nói để biểu diễn đường bao phổ của tín hiệu kỹ thuật số của lời nói ở dạng nén , sử dụng thông tin của mô hình dự đoán tuyến tính Đây là một trong những kỹ thuật phân tích giọng nói mạnh mẽ nhất và là một trong những phương pháp hữu ích nhất để mã hóa giọng nói chất lượng tốt ở tốc độ bit thấp và cung cấp ước tính chính xác cao về các tham số giọng nói LPC là phương pháp được sử dụng rộng rãi nhất trong mã hóa giọng nói và tổng hợp giọng nói

Phân tích dự báo tuyến tính dựa trên việc sóng tiếng nói và các thuộc tính phổ có biểu diễn đúng và có hiệu lực thông qua việc sử dụng một số rất nhỏ các tham số Chúng ta diễn đạt những mẫu tín hiệu nói riêng biệt tại mỗi thời điểm ∆T[s] bởi {xt} (t là số nguyên) Khi giới hạn tiếng nói tần số tiếng việt là 0 – W [Hz] thì ∆T phải thoả mãn ∆T ≤ 1/2W [s] Sau đó chúng ta có thể biểu diễn mẫu x thông qua quá trình tự hồi quy của p mẫu trước đó

Chúng ta định nghĩa một bộ lọc dự báo tuyến tính

Định nghĩa và là những cặp chuyển đổi z Vậy:

Khi đó: hay ở đây:

A(z) là bộ lọc ngược

Thủ tục phân tích LPC:

Phương pháp áp dụng cho việc ước lượng hệ số tuyến tính {αl} bằng cách áp dụng lỗi bình phương tối thiểu Lỗi bình phương tổng cộng β là:

Ở đây, α0 = 1 Định nghĩa hệ số tương quan cij

Trang 4

Ta có thể viết lại β như sau:

Lấy đạo hàm β theo dự báo tuyến tính αi, ta có:

Các hệ số dự báo tuyến tính {αi} có thể thu được thông qua việc giải phóng p của phương trình tuyến tính trên Các thông sô cij ( i= và j = ) đươc tính từ mẫu dữ liệu xt với t chạy từ t0 đến tl Thật sự, cij cũng được tính dựa trên một chuỗi gồm N mẫu tiếng nói {xt}={x0, x1,…,xN-1}

Phương pháp tự tương quan được định nghĩa bằng cách đặt t0 = -∞ và tl = ∞ kết hợp với điều kiện xt = 0 với t(0;N] Khi đó, cij có thể tính như sau:

Các hệ số αi thu được bằng cách giải hệ phương trình tuyến tính:

Ở đây, Ta có thể biểu diễn dưới dạng ma trận:

Phương trình trên có thể giải bằng phương pháp nghịch đảo ma trận

2.2 MFCC:

MFCC là kỹ thuật phổ biến nhất trong nhận dạng giọng nói dựa trên tần số bằng cách sử dụng thang đo Mel dựa trên thang đo tai người

Mel-Frequency Cepstral Coefficients (MFCC) là một biểu diễn cepstral thực của tín hiệu thời gian ngắn có cửa sổ thu được từ FFT/DFT của tín hiệu đó

Sự khác biệt so với thực tế cepstal là một thang tần số phi tuyến được sử dụng, xấp xỉ hành vi thính giác của hệ thống Ngoài ra, hệ số máy này đáng tin cậy với biến thể tuỳ theo người nói và hoàn cảnh ghi âm Kỹ thuật MFCC trích xuất các thông số từ lời nói và nhấn mạnh tất cả các thông tin khác

Tín hiệu đầu vào được chia thành các khung thời gian bao gồm một số lượng tuỳ ý các mẫu Các khung này có thể chồng chéo lên nhau để sử dụng sự

Trang 5

chuyển đổi mượt mà từ khung này sang khung khác Mỗi khung thời gian sau đó được lọc bằng cửa sổ Hamming để loại bỏ đi sự gián đoạn Trọng số w(n) của bộ lọc cửa số Hamming được tính theo công thức:

Trong đó N là tổng số mẫu, n là mẫu hiện tại

Sau khi mở cửa số, FFT được tính toán cho mỗi khung để trích xuất thành phần tần số của tín hiệu trong miền thời gian FFT sử dụng tăng tốc độ xử lý Các bộ lọc Mel-Scaled logarit được áp dụng cho khung biến đổi Fourier Quy mô này xấp xỉ tuyến tính 1kHz và logarit ở mức lớn hơn tần số Mối quan hệ giữa thang

đo Mel và tần suất của giọng nói được thiết lập như sau:

MFCC sử dụng bộ lọc Mel-scaled ở nơi càng cao có bộ lọc tần số có bang thông lớn hơn bộ lọc tần số

Bước cuối cùng là

DCT hoặc IDFT, IFFT Phạm vi hệ số của các phép biến đổi ngược theo

ý nghĩa, do đó, hệ số 0 bị loại do không đảm bảo độ tin cậy Đối với mỗi khung lời nói, một bộ MFCC được chiết xuất Tập hợp các hệ số này gọi là vector âm thanh, điều này thể hiện sự quan trọng trong mặt ngữ âm, đặc điểm lời nói Qua

đó sử dụng tham số gồm 12 giá trị nguyên ban đầu mfcc, 12 giá trị detal, 12 giá trị double detal và giá trị thứ 13 đặc trưng về năng lượng

2.3 PLP

Mô hình dự báo tuyến tính theo cảm nhận (PLP - Perceptual Linear Prediction) dựa trên khái niệm tâm sinh lý của thính giác con người PLP loại bỏ các thông tin không liên quan chuỗi âm thanh và tăng tỉ lệ nhận dạng giọng nói PLP giống với LPC ngoại trừ đặc điểm quang phổ của nó đã biến đổi phù hợp với đặc điểm thính giác của cong người

Trang 6

Sơ đồ khối xử lý PLP

PLP xử lý 3 khía cạnh chính là: dường cong độ phân giải băng tần chính, âm lượng đường cong bằng nhau, quan hệ luật công suất – cường độ âm thanh gọi là căn bậc hai

Tính toán tham số trong PLP.

Phổ công suất tín hiệu được tính bằng:

Áp dụng tần số biến dạng theo thang Bark Các bước đầu tiên là chuyển đổi từ tần suất sang bark., là sự biến đổi tốt hơn thính giác con người trong độ phân giải tần số Tần số Bark tương ứng với một số tần số âm thanh là:

Sau đó tiến hành cân bằng độ ồn, phổ âm thanh được cân bằng làm mịn lấy mẫu khoảng 1 bark Hàm mô phỏng đường cong cân bằng độ ồn

Sau khi tiến hành mô phỏng tiến hành dùng luật cường độ nghe bằng cách lấy lên luỹ thừa 0.33 Các hệ số tự tương quan được sau khi dùng luật cường độ nghe tiến hành biển đổi Fourier ngược, đầu ra là một đệ quy tương đương với logarit phổ mô hình Tiếp đó sử dụng thuật toán Durbin sử dụng để tính toán hệ số dự

Trang 7

báo tuyến tính như LPC Khi có hệ số thì tính các giá trị detal như trong phương pháp hệ số của MFCC

2.4 Nhận dạng âm thanh

2.4.1.HMM- Hidden Markov Model

Mô hình Markov ẩn (Hidden Markov Model - HMM) là mô hình học máy điển hình tiếp cận theo mô hình âm học [Klatt, 1979] cho bài toán nhận dạng tiếng nói HMM là mô hình xác suất dựa trên lý thuyết về chuỗi Markov bao gồm các thành phần sau:

•  = {1, 2, , t} là tập các vector quan sát gồm T phần tử

•  = {1, 2, , n} là tập hữu hạn các trạng thái s gồm N phần tử

•  = {11, 12, , mn} là ma trận hai chiều trong đó   thể hiện xác suất

để trạng thái  chuyển sang trạng thái  , với  ≥ 0 và ∀∀∀

•  = {2t , it, , (N-1)T } là tập các hàm phân phối xác suất của các trạng thái từ 2 đến  −1, trong đó  thể hiện xác suất để quan sát  thu được

từ trạng thái  tại thời điểm t Trong nhận dạng tiếng nói hàm  thường được sử dụng là hàm Gaussian với nhiều thành phần trộn (mixture), khi đó

mô hình được gọi là mô hình kết hợp Hidden Markov Model và Gaussian Mixtrue Model (HMM-GMM)

• ∏ = {} là tập xác suất trạng thái đầu, với  = (1 = ) với i=1 N là xác suất để trạng thái  là trạng thái đầu 1

Như vậy một cách tổng quát một mô hình Markov ẩn λ có thể được biểu diễn bởi λ = (A, B, Π) Trong lĩnh vực nhận dạng thì mô hình Markov ẩn được áp dụng với hai giả thiết sau:

Một là giả thiết về tính độc lập, tức không có mối liên hệ nào giữa hai quan sát lân cận nhau oi và oi+1, khi đó xác suất của một chuỗi các quan sát O={oi} có thể được xác định thông qua xác suất của từng quan sát oi như sau:

Trang 8

Hai là giả thiết Markov, xác suất chuyển thành trạng thái  chỉ phụ thuộc vào trạng thái trước nó −1

Hình 2 1 Mô hình HMM-GMM có cấu trúc dạng Left-Right liên kết không đầy đủ

Trong nhận dạng tiếng nói, mô hình HMM-GMM có thể được sử dụng để

mô hình hoá cho các đơn vị tiếng nói như Âm vị (phoneme), Từ (word) hoặc Câu (sentence) Khi đó tập quan sát O={ot} sẽ tương ứng với mỗi một phát âm (utterance) trong đó ot là tập các vector đặc trưng (feature vector) của tín hiệu tiếng nói đầu vào thu được tại thời điểm t Có nhiều cấu trúc HMM khác nhau, tuy nhiên trong thực tế, cấu trúc của HMM-GMM thường được sử dụng có 5 hoặc 7 trạng thái theo cấu trúc Left-Right được mô tả ở trên Quá trình xây dựng một hệ thống nhận dạng tiếng nói sử dụng mô hình HMM-GMM thông thường

có hai bước như sau:

Huấn luyện (Training): Đối với từng ngôn ngữ, dữ liệu và mục đích cụ thể

ta sẽ dùng HMM-GMM để mô hình cho các đơn vị nhận dạng là âm vị, Từ hoặc Câu Khi đó một hệ thống sẽ bao gồm một tập các mô hình HMM-GMM λ={λi} Đối với mỗi phát âm O={ot} được mô hình bởi một chuỗi các trạng thái Q={qt} với từ một hoặc nhiều mô hình λi Quá trình huấn luyện là quá trình ước lượng các tham số sao cho xác suất P(Q|O, λ) là lớn nhất, P(Q|O, λ ) được tính theo công thức, khi đó P(Q|O,λ) được gọi là xác suất mô hình âm học (acoustic model)

Trang 9

Nhận dạng (decoding): Nhận dạng là quá trình xác định chuỗi trạng thái { } = ,  ∈  từ các mô hình HMM {λi}=λ đã được huấn luyện tương ứng với một chuỗi đầu vào {ot}=O sao cho xác suất P(O,Q|λ) là lớn nhất, với :

2.4.2.NN – Neural Network

Mạng nơ-ron cấu trúc Perceptron nhiều lớp được sử dụng nhiều trong các

hệ thống nhận dạng Mạng nơ-ron MLP (MultiLayer Perceptron) là một cấu trúc mạng gồm có một lớp vào (input), một lớp ra (output) và một hoặc nhiều lớp ẩn (hidden) Véc-tơ đầu vào sẽ được đưa qua lớp vào (input) của mạng và sau đó các tính toán được thực hiện lan truyền tới (feed-forward) từ lớp vào input sang các lớp ẩn và kết thúc ở lớp ra (output) Hàm kích hoạt kết hợp với các nốt ẩn hay các nốt ra có thể là hàm tuyến tính hay phi tuyến và có thể khác nhau giữa các nốt

Mô tả mạng nn,

nhiều lớp.

Có hai

Cách tiếp cận thứ nhất là sử dụng mạng nơ-ron như một mô hình âm học có chức năng phân lớp hay nhận dạng mẫu đầu vào Cách tiếp cận này thường được sử dụng trong các hệ thống nhận dạng với từ vựng nhỏ như các hệ thống điều khiển hoặc tương tác người máy bằng tiếng nói Khi đó với mỗi một vector đặc trưng đầu vào đưa qua mạng ta sẽ thu được ở đầu ra một quyết định tương ứng Cách tiếp cận thứ hai là kết hợp mô hình HMM và GMM làm mô hình âm học trong các hệ thống nhận dạng từ vựng lớn Trong cách tiếp cận này hàm xác suất phát

Trang 10

tán được thay bằng hàm kích hoạt ở lớp đầu ra của mạng nơ-ron thay vì là hàm GMM như cách truyền thống

III.MÔ HÌNH HỆ THỐNG

4.1.Hệ thống nhận dạng tiếng việt:

Quy trình thực hiện:

Dữ liệu sẽ trích chon đặc trưng bằng phương pháp phân tích MFCC

Dữ liệu qua pha phân tích sẽ tiến hành phân cụm bằng phương pháp tính toán độ đo Euclidean Ta thu được một ma trận hệ số thực của từng từ Từ đó, xây dựng một cơ sở dữ liệu các vector từng từ rồi đưa vào mô hình huấn luyện

Trong mô hình huấn luyện dữ liệu, dữ liệu đưa vào tiến hành so sánh với nhau rồi ước lượng thông số để xác suất so với mẫu dữ liệu đạt cực đại Từ đó, xác nhận xem mẫu đưa vào giống với bộ dữ liệu nhất

4.2.Các thuộc tính được sử dụng để nhận dạng:

Qua phương pháp MFCC, có 39 đặc trưng được trích xuất cụ thể:

•12 giá trị đặc trưng phổ Mel được biến đổi Fourier ngược

•12 giá trị delta phổ

•12 giá trị double delta phổ

•1 giá trị mức năng lượng

•1 giá trị delta mức năng lượng

•1 giá trị double delta mức năng lượng

Trang 11

đồ quá trình

trích chọn đặc trưng MFCC

Bước 1: Tăng cường độ tiếng nói để lọc bỏ nhiễu

Bước 2: Phân tích độ dài âm thanh thành các frame nhỏ hơn

Bước 3: Biến đổi Fourier rời rạc đối với từng tín hiệu cắt ra

Bước 4: Từ các biến đổi Fourier thì tiến hành biến đổi ra tần số Mel bằng các bộ lọc giúp giảm giá trị đặc trưng phục vụ tính toán

Bước 5: Lấy logarit của các đặc trưng

Bước 6: Biến đổi Fourier ngược với đầu vào là các tần số mel, đầu ra của nó là các hệ số cepstrum Các hệ số này là đặc trưng cơ bản của âm thanh

Bước 7: Từ 12 đặc trưng rút ra, chúng ta kết hợp với sự biến đổi năng lượng âm của mỗi khung tín hiệu  tạo ra 13 đặc trưng và cụ thể biến đổi 13 đặc trưng biểu thị sự thay đổi đó

4.3.Cách lưu trữ:

Lưu trữ các đặc trưng dưới dạng file text Cụ thể là dạng mảng

Trang 12

Tài liệu tham khảo

1 A Stoclke, E Shriberg, L Ferrer, S Kajarekar, K Sonmez, G Tur “Speech Recognition As Feature Extraction For Speaker Recognition”, 2007.

2 Ilyas Potamitis, Nikos Fakotakis, George Kokkinakis “Speech Recognition Based On Feature Extraction With Variable Rate Frequency Sampling” Nguồn: http://www.springerlink.com/content/mcwpdr59pwkn88yv/

Định dạng
Số trang	12
Dung lượng	475,93 KB