1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống định danh người nói ứng dụng mở cửa bằng giọng nói: luận văn thạc sĩ

69 85 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 1,47 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Học viên: Trương Thanh Giang  Mục đích đề tài nhằm nghiên cứu các đặc trưng của âm thanh, cách rút trích đặc trưng giọng nói, cách huấn luyện, phân lớp và định danh giọng nói sử dụng mạ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG

TRƯƠNG THANH GIANG

XÂY DỰNG HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI

ỨNG DỤNG MỞ CỬA BẰNG GIỌNG NÓI

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Đồng Nai, Năm 2017

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG

TRƯƠNG THANH GIANG

XÂY DỰNG HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI

ỨNG DỤNG MỞ CỬA BẰNG GIỌNG NÓI

Chuyên ngành: Công Nghệ Thông Tin

Mã số: 60480201

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS VŨ ĐỨC LUNG

Đồng Nai, Năm 2017

Trang 3

LỜI CẢM ƠN

Đầu tiên, tôi muốn gửi lời cảm ơn chân thành đến PGS TS Vũ Đức Lung, Thầy đã tận tình hướng dẫn, giúp đỡ và tạo mọi điều kiện thuận lợi để tôi hoàn thành tốt luận văn Tôi cũng xin bày tỏ lòng biết ơn đến tất cả quý thầy cô tại trường Đại học Lạc Hồng đã đứng lớp dạy dỗ và hướng dẫn tận tình trong quá trình học tập tại Trường Tất cả các kiến thức mà tôi nhận được sẽ là hành trang quý giá trên con đường học tập, làm việc và định hướng nghiên cứu sau này Xin cảm ơn gia đình, bạn bè và đồng nghiệp đã luôn bên cạnh động viên, hỗ trợ và giúp đỡ tôi trong quá trình thực hiện luận văn

Tuy nhiên do kiến thức và thời gian có giới hạn nên đề tài này khó tránh khỏi những thiếu sót, kính mong quý thầy cô và các bạn đóng góp thêm để đề tài được hoàn chỉnh hơn!

Tôi xin chân thành cảm ơn!

Đồng Nai, tháng năm 2017

Học viên

Trương Thanh Giang

Trang 4

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tôi xin chịu trách nhiệm về nghiên cứu của mình!

Đồng Nai, tháng năm 2017

Học viên

Trương Thanh Giang

Trang 5

TÓM TẮT LUẬN VĂN

Đề tài: Xây dựng hệ thống định danh người nói ứng dụng mở cửa bằng giọng nói

Học viên: Trương Thanh Giang

 Mục đích đề tài nhằm nghiên cứu các đặc trưng của âm thanh, cách rút trích đặc trưng giọng nói, cách huấn luyện, phân lớp và định danh giọng nói sử dụng mạng neural nhân tạo để ứng dụng trong việc định danh giọng nói, ứng

dụng mở cửa trong các ngôi nhà thông minh

Kết quả:

 Xây dựng ứng dụng có khả năng phân lớp các giọng nói qua file ghi âm

 Có khả năng định danh người nói, phân biệt đó có phải là người có trong tập huấn luyện hay không, nếu có thì xác định đó là ai

 Viết báo cáo tổng kết luận văn

2 Cách thức giải quyết vấn đề

 Tìm hiểu các phương pháp, thuật toán phục vụ cho việc rút trích đặc trưng

âm thanh, cách phân lớp dữ liệu mẫu, cách xác định danh tính giọng nói qua file ghi âm giọng nói

Trang 6

 Tìm hiểu bộ thƣ viện xử lý âm thanh Voidbox và ngôn ngữ Matlab

 Xây dựng ứng dụng phân lớp, định danh giọng nói

3 Đánh giá về mặt khoa học của kết quả

 Tìm hiểu đƣợc các vấn đề liên quan đến xử lý âm thanh, rút trích đặc trƣng

âm thanh, các thƣ viện trong Matlab về xử lý âm thanh

 Tìm hiểu về mạng neural nhân tạo, cách ứng dụng mạng neural nhân tạo vào việc phân lớp, định danh giọng nói

 Tìm hiểu cách thức xây dựng một ứng dụng trên ngôn ngữ Matlab

4 Những vấn đề còn tồn tại so với nội dung đƣợc giao

 Chƣa tối ƣu hóa đƣợc thuật toán, cách xử lý dữ liệu nên ứng dụng chạy còn chậm khi phải xử lý dữ liệu lớn, ứng dụng chỉ tập trung vấn đề cơ bản và quan trọng nhất là phần phân lớp, và định danh giọng nói

 Còn hạn chế trong tiền xử lý âm thanh nhằm tăng độ chính xác khi định danh giọng nói, đồng thời tối ƣu hóa ứng dụng, giảm thời gian nhận dạng

 Chỉ định danh giọng nói ở các file đƣợc ghi âm sẵn, chƣa có chức năng định danh giọng nói theo thời gian thực

 Ngoài ra ứng dụng cũng chƣa có cách xử lý tạp âm, âm nhiễu hiệu quả để tăng độ chính xác cho việc định danh

Ngày tháng năm 2017

Trang 7

MỤC LỤC

Chương 1 TỔNG QUAN VỀ ĐỀ TÀI 1

1.1 LÝ DO LỰA CHỌN ĐỀ TÀI 1

1.2 TỔNG QUAN TÌNH HÌNH TRONG VÀ NGOÀI NƯỚC 1

1.3 MỤC ĐÍCH ĐỀ TÀI 3

1.4 GIỚI HẠN ĐỀ TÀI 4

Chương 2 CƠ SỞ LÝ THUYẾT 6

2.1 ÂM THANH 6

2.1.1 Khái niệm và các tham số cơ bản của âm thanh 6

2.1.2 Số hóa âm thanh 9

2.2 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI 11

2.2.1 Cơ sở khoa học của nhận dạng người nói 11

2.2.2 Thông tin đặc trưng cho giọng nói mỗi người 12

2.2.3 Các phương pháp nhận dạng người nói hiện nay trên thế giới 12

2.2.4 Nguyên lý làm việc hệ nhận dạng người nói 12

2.2.5 Các nguyên nhân gây lỗi trong nhận dạng người nói 13

2.3 TỔNG QUAN VỀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG MFCC (MEL-SCALE FREQUENCY CEPSTRAL COEFFICIENT) 13

2.3.1 Nhận tín hiệu 15

2.3.2 Tiền nhấn 15

2.3.3 Phân khung tín hiệu 15

2.3.4 Nhân hàm cửa sổ 16

2.3.5 Biến đổi Fourier rời rạc 17

2.3.6 Áp dụng bộ lọc Mel 19

2.3.7 Xây dựng bộ lọc Mel 20

2.3.8 Nhân từng cửa sổ lọc với phổ năng lượng 23

2.3.9 Tính logarit đặc trưng 23

2.3.10 Biến đổi Cousin rời rạc - Discrete Cousin Transform 23

2.3.11 Thêm các đặc trưng khác 24

Trang 8

2.4 TỔNG QUAN VỀ MẠNG NEURAL NHÂN TẠO (ARTIFICIAL NEURAL

NETWORKS - ANN) 25

2.4.1 Giới thiệu về mạng neural nhân tạo 25

2.4.2 Sơ lược về neural sinh học [5] 26

2.4.3 Tiến trình học 27

2.4.4 Cấu trúc mạng Neural 30

2.4.5 Các hàm ngưỡng (hàm truyền) 33

2.4.6 Các quy tắc học 34

2.4.7 Phương pháp hạ dốc và luật delta [12] 34

2.4.8 Giải thuật Back – Propagation [12] 36

Chương 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG 42

3.1 PHÁT BIỂU BÀI TOÁN 42

3.2 TỔNG QUAN MÔ HÌNH 43

3.2.1 Module quy trình trích xuất đặc trưng, huấn luyện giọng nói mẫu 43

3.2.2 Module so khớp mẫu, định danh giọng nói 44

3.3 XÂY DỰNG ỨNG DỤNG 45

3.3.1 Công cụ thực hiện 45

3.3.2 Module quy trình trích xuất đặc trưng, huấn luyện giọng nói mẫu 46

3.3.3 Module so khớp mẫu, định danh giọng nói 48

3.3.4 Giao diện chính của ứng dụng 49

Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 51

4.1 THỬ NGHIỆM 51

4.1.1 Dữ liệu thử nghiệm 51

4.1.2 Quá trình và kết quả thực nghiệm 51

4.2 ĐÁNH GIÁ KẾT QUẢ 54

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56

Trang 9

DANH MỤC BẢNG

Bảng 2.1 Công thức chuẩn hóa mẫu 7

Bảng 2.12 Các hàm ngưỡng sử dụng trong ANN 33

Bảng 4.1 Bảng kết quả chạy thử với 5 thành viên trong gia đình 54

Bảng 4.2 Bảng kết quả chạy thử nghiệm với 5 người khác 55

Trang 10

DANH MỤC CÁC THUẬT NGỮ VÀ TỪ VIẾT TẮT

MFCC Mel-scale Frequency Cepstral Coefficient

Trang 11

DANH MỤC HÌNH

Hình 2.1 Các bước chuyển đổi tín hiệu analog sang tín hiệu digital 9

Hình 2.2 Các bước tính đặc trưng MFCC 14

Hình 2.3 Tín hiệu tương tự của âm thanh trước khi biến đổi FFT 18

Hình 2.4 Tín hiệu miền tần số sau khi biến đổi FFT 18

Hình 2.5 Trích xuất năng lượng theo từng bộ lọc Mel 20

Hình 2.6 Bộ lọc Mel 22

Hình 2.7 Mô hình neural sinh học 26

Hình 2.8 Tiến trình học 28

Hình 2.9 Cấu tạo một neural 30

Hình 2.10 Cấu trúc mạng dẫn tiến một lớp 32

Hình 2.11 Cấu trúc mạng neural nhiều lớp 32

Hình 2.12 Sơ đồ huấn luyện mạng neural, học có giám sát 34

Hình 2.13 Giải thuật lan truyền ngược 37

Hình 2.14 Mạng neural 3 tầng 37

Hình 3.1 Mô hình huấn luyện tổng quát 43

Hình 3.2 Module định danh giọng nói tổng quát 44

Hình 3.3 Giao diện chính của ứng dụng demo 49

Hình 4.1 Giao diện biểu diễn biểu đồ đặc trưng giọng nói 52

Hình 4.2 Giao diện quá trình xây dựng tập huấn luyện (1) 52

Hình 4.3 Giao diện quá trình xây dựng tập huấn luyện (2) 53

Hình 4.4 Giao diện quá trình định danh giọng nói 54

Trang 12

Chương 1 TỔNG QUAN VỀ ĐỀ TÀI

1.1 LÝ DO LỰA CHỌN ĐỀ TÀI

Hầu hết các ứng dụng nhận dạng giọng nói thường gặp hiện nay tập trung vào việc sử dụng giọng nói như một phương thức nhập liệu thay thế cho bàn phím vật lý, tuy nhiên chúng ta đang dần tiến tới một kỷ nguyên hiện đại hơn, các ứng dụng nhận dạng giọng nói phải ngày càng thông minh hơn, không chỉ đơn thuần là nhập liệu mà giọng nói còn được sử dụng trong lĩnh vực điều khiển tự động, bảo mật sinh trắc học, Hiện nay, hướng phát triển định danh người nói ứng dụng trong ngôi nhà thông minh như để xác định mở cửa, xác định người được phép điều khiển các thiết bị (trợ lý ảo Siri của Apple, trợ lý giọng nói Bixby, Alexa của Amazon, Microsoft Cortana hay Google Assistant) đang được phổ biến rất rộng rãi, vì vậy việc xây dựng một hệ thống xác thực danh tính người bằng giọng nói là thật sự cần thiết

Từ những nhu cầu đó tác giả quyết định tìm hiểu, nghiên cứu và thực hiện đề

tài: “Xây dựng hệ thống định danh người nói, ứng dụng mở cửa bằng giọng nói”

Đây là một lĩnh vực nghiên cứu khá thú vị, mang tính thực tiễn và được nhiều nhà nghiên cứu trên thế giới quan tâm

1.2 TỔNG QUAN TÌNH HÌNH TRONG VÀ NGOÀI NƯỚC

Công nghệ nhận dạng giọng nói ngày nay đang rất được quan tâm phát triển, tuy nhiên việc sử dụng giọng nói như là một công cụ bảo mật sinh trắc học là một lĩnh vực nghiên cứu mới, khá thú vị và được nhiều nhà nghiên cứu quan tâm Hiện nay, có rất nhiều phương pháp định danh người nói đã và đang được nghiên cứu để

áp dụng vào bài toán bảo mật thông qua việc xác thực người dùng bằng giọng nói

Trên thế giới đã có rất nhiều nghiên cứu về rút trích đặc trưng và nhận dạng giọng nói với nhiều phương pháp khác nhau và cho kết quả khá tốt Tác giả Praveen

N [08] đã sử dụng phương pháp MFCC (Mel-scale Frequency Cepstral Coefficient)

để trích chọn đặc trưng giọng nói và dùng mạng neural nhân tạo để định danh người nói theo hướng phụ thuộc văn bản, kết quả đạt được rất khả quan với tỷ lệ chính xác lên đến 96,18% Bên cạnh đó hai tác giả Om Prakash Prabhakar, và Navneet Kumar

Trang 13

Sahu [07] còn kết hợp cả hai phương pháp MFCC và LPC (Linear Predictive Coding) để trích xuất đặc trưng, GMM (Gaussian Mixture Model) và VQ (Vector Quantization) để phân lớp nhận dạng nhằm cải thiện hiệu năng Hay một nhóm tác giả người Thái Chularat Tanprasert, Chai Wutiwiwatchai, và Sutat Sae-tang [08] cũng đã sử dụng phương pháp LPC để trích xuất đặc trưng giọng nói và dùng mạng Neural (áp dụng thuật toán lan truyền ngược) để định danh người nói phụ thuộc văn bản, thử nghiệm trên 5 cụm từ với nhiều tone giọng nói khác nhau đạt được độ chính xác lên đến trên 95% Với việc giải quyết bài toán nhận dạng trên thiết bị nhúng, tại Đài Loan, vào năm 2010 một nhóm nghiên cứu đã đề xuất phương pháp nhận dạng dựa trên mạng Neural nhân tạo ANN (Artificial Neural Network) cho tỷ

lệ nhận dạng trung bình đạt 91,9% [09]

Qua những khảo sát về tình hình nghiên cứu trên thế giới về lĩnh vực nhận dạng giọng nói, chúng ta có cái nhìn sơ lược như sau: Về việc trích xuất đặc trưng giọng nói, có hai phương pháp mà trên thế giới đang sử dụng khá hiệu quả là MFCC và LPC, đối với bài toán nhận dạng – định danh người nói, cũng có nhiều hướng giải quyết như sử dụng phương pháp GMM, VQ, hay mạng Neural nhân tạo còn được sử dụng trên các thiết bị nhúng cho kết quả khá khả quan

Ở nước ta, các nghiên cứu về vấn đề trích chọn đặc trưng và so khớp đặc trưng nhằm định danh người nói vẫn còn là lĩnh vực khá mới Chủ yếu là các nghiên cứu liên quan về trích chọn các đặc trưng âm thanh để nhận dạng giọng nói, chuyển

từ giọng nói sang văn bản, tuy nhiên lĩnh vực này lại có tiềm năng ứng dụng thực tiễn rất cao, ví dụ một vài ứng dụng như: định danh người nói phục vụ trong việc xác thực các giao dịch ngân hàng thông qua điện thoại, một số ứng dụng trong ngôi nhà thông minh, dùng giọng nói như là một công cụ sinh trắc học nhằm xác thực quyền tuy cập máy tính, điện thoại, Do vậy, việc nghiên cứu vấn đề này là cấp thiết và có ý nghĩa thực tiễn cao

Một số các công trình đã công bố thuộc lĩnh vực của đề tài của chủ nhiệm và những thành viên tham gia nghiên cứu như: Luận văn thạc sỹ công nghệ thông tin

“Nhận dạng tiếng nói trên cơ sở mạng Neural nhân tạo” của Hồ Văn Hương [01] Ở

đề tài này, tác giả đã dùng phương pháp MFCC để trích chọn đặc trưng giọng nói và

sử dụng mạng neural nhân tạo để nhận dạng và cho ra kết quả khá khả quan với độ

Trang 14

chính xác là từ 70% - 90% Trong báo cáo tổng kết khoa học và kỹ thuật đề tài

“Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt” tháng 12/2004 [02 - p17, 18], GS TSKH Bạch Hưng Khang có đề xuất phương pháp nghiên cứu sử dụng hệ thống nhận dạng lai ghép giữa mạng neural và

mô hình Markov ẩn HMM/ANN (Hidden Markov Model/ Artificial Intelligent Network) cho kết quả nhận dạng đạt độ chính xác 97,46% ở mức từ gần tương đương với các công bố về nhận dạng mười chữ số liên tục trên thế giới như tiếng Anh, Ý, Tây Ban Nha (cao nhất là 98,01%) Ngoài ra còn có nhóm nghiên cứu về

đề tài nhận dạng giọng nói của PGS.TS Lương Chi Mai tại Viện Công Nghệ Thông Tin sử dụng ANN với bộ công cụ CLSI Bài toán mà nhóm nghiên cứu là nhận dạng chuỗi số liên tục trong tiếng Việt sử dụng ANN Trong trường hợp tốt nhất độ chính xác theo từ đạt đến WAR=97,39% Ở trường hợp khác, tỷ lệ chính xác theo từ đạt WAR=88,10% [03]

Từ việc tham khảo các tài liệu trong và ngoài nước có liên quan, tác giả đã

có những định hướng phát triển cho ứng dụng cũng như sự lựa chọn công nghệ phù hợp với mục tiêu đề tài

Nội dung luận văn: gồm 04 chương

- Chương 1: Lý do lựa chọn đề tài, tổng quan về tình hình nghiên cứu trong và

ngoài nước liên quan đến phương pháp rút trích đặc trưng và so khớp đặc trưng sử dụng trong việc định danh người nói, mục tiêu đề tài và giới hạn của

đề tài

- Chương 2: Trình bày một số kiến thức cơ bản về âm thanh và giọng nói, các

đặc trưng cơ bản của âm thanh, phương pháp rút trích đặc trưng và một số thuật toán dùng để so khớp đặc trưng giọng nói

- Chương 3: Phân tích thiết kế hệ thống, trình bày phương pháp rút trích đặc

Trang 15

trưng cơ bản của giọng nói và kỹ thuật so khớp đặc trưng, xây dựng chương trình rút trích các đặc trưng và so khớp đặc trưng giọng nói ứng dụng cho việc định danh người nói

- Chương 4: Trình bày quá trình thử nghiệm rút trích các đặc trưng và so khớp

đặc trưng, nhận xét đánh giá kết quả đạt được

- Kết luận và hướng phát triển: Kết luận kết quả đạt được của luận văn và đề

ra hướng phát triển trong tương lai

- Phụ lục: Nội dung các file trong chương trình và danh sách các giọng nói

được ghi âm mẫu

Phương pháp thực hiện:

- Nghiên cứu trong tài liệu (từ các sách, bài báo, tạp chí khoa học ) Thừa kế, tham khảo các kết quả nghiên cứu gần và có liên quan

- Sử dụng MatLab để xây dựng, cài đặt chương trình thử nghiệm trên dữ liệu

là các file ghi âm thực tế, sử dụng chương trình để rút trích đặc trưng, đưa vào tập huấn luyện, sau đó so khớp đặc trưng để xác định danh tính giọng nói

1.4 GIỚI HẠN ĐỀ TÀI

Luận văn tập trung rút trích các đặc trưng giọng nói theo phương pháp MFCC sau đó dùng mạng neural nhân tạo để so khớp đặc trưng nhằm định danh người nói Luận văn chỉ quan tâm tới độ chính xác mà không quan tâm tới thời gian thực hiện

Ứng dụng demo chỉ xác định danh tính người nói theo hướng phụ thuộc văn bản, nghĩa là các mẫu ghi âm dùng để rút trích đặc trưng và định danh người nói sẽ

là một cụm từ cố định được quy ước từ trước (cụ thể trong ứng dụng này sẽ là cụm

từ “mở cửa ra”)

Dữ liệu dùng để huấn luyện và nhận dạng là các mẫu ghi âm giọng nói thực

tế thông qua microphone trên máy tính trong một môi trường tương đối yên tĩnh, ít tạp âm

Trang 16

Tất cả các nội dung nghiên cứu trong luận văn chỉ giới hạn trong phạm vi điều kiện người nói trong trạng thái bình thường, các vấn đề người nói cố tình cải trang hay giả giọng nói đều nằm ngoài phạm vi nghiên cứu của luận văn

Trang 17

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 ÂM THANH

2.1.1 Khái niệm và các tham số cơ bản của âm thanh

Bản chất âm thanh trong thế giới tự nhiên là những dao động của các vật thể nguồn tạo ra các sóng âm và được truyền đi trong một môi trường truyền âm nhất định Tai trong của chúng ta có thể nhận được các tín hiệu áp suất này và gởi chúng đến não để nhận dạng Âm thanh có những tham số đặc trưng sau đây:

Mẫu âm thanh: Tại mỗi thời điểm, tín hiệu sóng âm thanh sẽ nhận một giá

trị nhất định, nó được gọi là một mẫu (Sample) Giá trị của mẫu không phải là vô hạn, mà là dao động trong một khoảng giá trị (min,max) cho trước Tuỳ vào mức độ lưu trữ, (min,max) sẽ có giá trị lưu trữ khác nhau

Tần số lấy mẫu: Tần số của âm đơn là số lần dao động của không khí truyền

dẫn âm trong một đơn vị thời gian là 1 giây Tần số biểu thị độ cao (pitch) của âm thanh, đơn vị đo là Hertz (Hz) Tần số lấy mẫu càng cao thì âm thanh càng được miêu tả chi tiết, chính xác hơn

Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 16Hz đến khoảng 20000Hz Những âm có tần số nhỏ hơn 16Hz gọi là sóng hạ âm, còn những âm có tần số lớn hơn 20000 Hz gọi là sóng siêu âm và con người không cảm nhận được các sóng âm này nhưng có khá nhiều loài vật có thể cảm nhận được (ví

dụ loài dơi có thể nghe được sóng siêu âm)

Những tần số lấy mẫu ta thường gặp là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz, … Đáng chú ý nhất là hai mức 8000Hz và 16000Hz 8000Hz là tần số lấy mẫu phổ biến trong các dịch vụ đàm thoại Còn 16000Hz thường được sử dụng rất nhiều trong các nghiên cứu nhận dạng giọng nói hiện tại

Độ phân giải mẫu: Độ phân giải mẫu là số lượng bit dùng để biểu diễn một

mẫu âm thanh Số lượng bit càng lớn thì mức độ thể hiện mẫu càng cao và ngược

Trang 18

lại Do máy tính hiện tại thường xử lý theo byte, nên độ phân giải mẫu cũng là cấp

số nhân của byte

Những độ phân giải mẫu thường gặp là: 8 bits, 16 bits Tuy nhiên, ta cần phải thực hiện một phép chuyển đổi để đưa về một dạng duy nhất, với giá trị mẫu nằm trong đoạn  Việc này cũng nhằm mục đích thuận tiện hơn trong việc khảo sát, tính toán sau này Chi tiết phép chuyển đổi được miêu tả trong bảng sau

Bảng 2.1 Công thức chuẩn hóa mẫu

Độ phân giải Phạm vi lưu trữ Cách chuyển đổi mẫu x

Kênh: Tại mỗi thời điểm, chúng ta có thể có đến hai hoặc nhiều mẫu âm

thanh Điều này có được là nhờ cấu tạo của thiết bị thu âm, có thể lấy nhiều mẫu âm thanh một lúc để tăng mức độ chính xác của âm thanh Vì vậy, thay vì chỉ nhận được một chuỗi tín hiệu, ta sẽ nhận được hai hoặc nhiều chuỗi tín hiệu cùng lúc Mỗi chuỗi tín hiệu đó được gọi là một kênh

Hai trường hợp phổ biến nhất là đơn kênh (Mono channel) với số kênh bằng

1 và Stereo channel với số kênh bằng 2

Mặc dù càng nhiều kênh thì độ chính xác, chi tiết của âm thanh càng cao Nhưng để giảm tải trong quá trình thử nghiệm và nghiên cứu, ở đây luận văn chỉ sử dụng 1 kênh duy nhất để xử lý trong toàn bộ quá trình

Trang 19

Áp suất âm thanh: Áp suất âm thanh hay còn gọi là thanh áp được tạo ra do

âm thanh lan truyền làm thay đổi áp suất không khí ở đó Đơn vị đo thanh áp là bar Một bar là thanh áp tác động lên một diện tích 1cm2 một lực là 1dyn 1 bar = 1dyn/cm2 Ngày nay, người ta thường dùng đơn vị Pascan (Pa) để đo thanh áp 1 bar

= 10 Kpa; 1 Pa = 1 N/m2

Công suất âm thanh: Là năng lượng âm thanh đi qua một diện tích S trong

thời gian một giây Công suất âm thanh P có thể tính bằng biểu thức:

P = p.S.v

Trong đó p là thanh áp, v là tốc độ dao động của một phân tử không khí tại

đó và S là diện tích Công suất âm thanh tính theo đơn vị oát (W)

Cường độ âm thanh: Cường độ âm thanh I là công suất âm thanh đi qua một

Ðộ mạnh (Intensity): Độ mạnh của âm thanh do biên độ dao động của vật

thể nguồn quyết định Biên độ dao động là trị số lớn nhất mà dao động đạt tới trong một nửa chu kì Biên độ dao động càng lớn, âm thanh càng vang to và ngược lại Ðơn vị đo độ mạnh của âm thanh là décibel (viêt tắt là dB)

Ðộ dài (Length): độ dài của âm thanh do thời gian dao động của vật thể

nguồn quyết định Ðộ dài của âm thanh tạo nên sự khác biệt giữa các bộ phận của lời nói, là yếu tố tạo nên trọng âm, tạo nên các nguyên âm đối lập nhau về độ dài

Âm sắc (Timbre): Phụ thuộc vào độ cao, độ dài và độ mạnh tham gia vào các

thành phần kết cấu của âm Ðây là nét đặc trưng của một âm Âm sắc được quyết định bởi: thể chất của vật thể dao động, tính chất phức hợp do hiện tượng cộng hưởng âm thanh và phương pháp làm cho vật thể dao động Một âm có cùng độ cao,

độ mạnh, độ dài được phát ra từ dây tơ sẽ khác với từ một dây đồng; từ một ống sáo

Trang 20

to dài, sẽ khác với từ một ống sáo nhỏ, ngắn; từ việc gẩy se khác với việc gõ, búng,

cọ xát hoặc thổi

2.1.2 Số hóa âm thanh

Số hóa âm thanh là quá trình chuyển đổi sóng âm, tức là sóng cơ học thành

dữ liệu số được lưu trữ trong máy tính Quá trình này được chia thành hai giai đoạn: chuyển đổi sóng âm thành tín hiệu điện và chuyển tín hiệu điện thành tín hiệu số

Tín hiệu điện là tín hiệu trung gian giữa tín hiệu cơ (sóng âm) và tín hiệu số

Sở dĩ ta chọn tín hiệu điện làm trung gian vì nó có thể truyền đi với khoảng cách xa

mà không làm mất thông tin, dòng điện có hiệu điện thế dao động điều hòa cũng giống như sóng âm, chính vì vậy mà ta có thể biểu diễn sóng âm bằng tín hiệu điện

Tín hiệu sóng âm thanh trong thế giới thực có dạng tương tự (analog) Do đó,

để có thể lưu trữ và biểu diễn trên các thiết bị máy tính sử dụng hệ tín hiệu nhị phân, chúng ta cần phải chuyển đổi tín hiệu analog sang tín hiệu số (digital) Tín hiệu nhị phân không những được biểu diễn và sử dụng trên máy tính mà nó còn được ứng dụng trong rất nhiều các vật dụng khác mà chúng ta dùng hàng ngày như: điện thoại, máy nghe CD, máy nghe MP3,…

Các bước chuyển đổi bao gồm quá trình lọc trước để loại bỏ những tần số quá cao không thể số hóa được tại đầu vào, quá trình lấy mẫu dùng để rời rạc hóa tín hiệu theo thời gian, quá trình lượng tử hóa để chuyển biên độ tín hiệu tương tự sang dạng số, và cuối cùng là quá trình mã hóa để chỉ rõ cách thức biểu diễn của các giá trị số Các bước chuyển đổi này được minh họa trong sơ đồ sau:

Hình 2.1 Các bước chuyển đổi tín hiệu analog sang tín hiệu digital

Trang 21

Chi tiết các bước chuyển sang tín hiệu số được thực hiện như sau:

Tiền lọc và lấy mẫu

Lấy mẫu là quá trình đọc các giá trị của tín hiệu tương tự theo chu kỳ xác định Thông thường các mẫu có xu hướng nhất thời, có nghĩa là mẫu được lấy trong khoảng thời gian ngắn hơn chu kỳ của tần số lấy mẫu Độ rộng của một mẫu là số phần trăm của chu kỳ tần số lấy mẫu, trên chu kỳ này mẫu được lấy trung bình

Đầu ra của quá trình lấy mẫu là một chuỗi các giá trị tương tự (các mẫu) tương ứng với các điểm ở dạng sóng, nơi diễn ra quá trình lấy mẫu Nó thường là các dạng xung ở tần số lấy mẫu, và biên độ của tần số lấy mẫu biểu thị các giá trị của mẫu

Lượng tử hóa

Lượng tử hóa là quá trình chuyển đổi một vùng liên tục của các giá trị tương

tự thành một bộ giới hạn các giá trị rời rạc Với định nghĩa này, quá trình lấy mẫu

có thể được coi như là lượng tử hóa theo trục thời gian bởi vì các mẫu biểu thị các giá trị tín hiệu chỉ ở các thời điểm thời gian rời rạc nơi diễn ra quá trình lấy mẫu Tất cả các giá trị tín hiệu đầu vào giữa các điểm lấy mẫu đều bị loại bỏ trong quá trình lấy mẫu Quá trình lượng tử hóa theo thời gian này sẽ gây ra hiện tượng nhiễu, biểu thị bằng các đường răng cưa Dù vậy, thuật ngữ lượng tử hóa vẫn được sử dụng rộng rãi với ý nghĩa tạo ra tín hiệu rời rạc chỉ với trục biên độ

Đầu ra của bộ lấy mẫu là một chuỗi xung rời rạc theo thời gian, nhưng biên

độ vẫn liên tục Các giá trị biên độ phải được lượng tử hóa để nó có thể biểu thị dưới dạng số trong một số bit xác định

Đối với lượng tử hóa, số lượng N bit trên một mẫu thì số mức lượng tử hoặc giá trị lượng tử sẽ là (2N), được chọn đủ lớn để không nhận thấy hay nghe thấy tính rời rạc của các mức Giá trị cơ bản là 8bit/mẫu cho tín hiệu video và 16 bit/mẫu cho audio, mặc dù các giá trị khác có thể được sử dụng trong những trường hợp đặc biệt

Trang 22

Tiền nhấn

Một kỹ thuật khác thường sử dụng trong các hệ thống audio được gọi là tiền nhấn Kỹ thuật này khai thác triệt để tính chất: các tần số tín hiệu cao hơn thường có biên độ thấp hơn Vì vậy, biên độ của chúng có thể được tăng lên mà không làm hệ thống quá tải Một bộ lọc tương tự được chèn tại đầu vào của hệ thống để nhấn các tần số cao, và một bộ lọc bổ xung được sử dụng ở cuối của hệ thống

Mã hóa

Quá trình gán các bit cho các mức lượng tử được gọi là mã hoá Đây có thể

là một quá trình đơn giản, ví dụ như hệ nhị phân hay phần bù của 2, một quá trình phi tuyến như luật μ, hoặc có thể là một quá trình rất phức tạp với mục đích thực hiện nén dữ liệu

Với những khái niệm cơ bản về các tham số của âm thanh, cũng như cách lưu trữ và biểu diễn âm thanh đã nêu, ta có thể hiểu hơn, tạo cơ sở cho quá trình xử

lý sau này

2.2 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI

2.2.1 Cơ sở khoa học của nhận dạng người nói

Tiếng nói tự nhiên do cơ quan cấu âm của con người tạo ra Đó là sự kết hợp của âm nguồn, những nhịp rung được tạo ra từ hộp âm thanh, sau đó, được truyền qua phần còn lại của đường truyền tiếng Đây là những khoang trong đầu và cổ, chúng sẽ rung lên, và lọc những âm nguồn để phát ra các nguyên âm và phụ âm Như vậy, sự kết hợp giữa âm nguồn và bộ lọc là cách mà giọng nói được phát ra

Chúng ta ai cũng đều biết với những người quen khi ta không thấy mặt nhưng chỉ cần nghe được giọng nói của họ là ta có thể biết được người đó là ai Cơ

sở đó có thể cho chúng ta hiện thực trên máy tính việc nhận dạng người nói qua tiếng nói của họ Tuy nhiên giọng nói sẽ thay đổi nhiều qua quá trình phát triển, trẻ

em nói giọng khác, thanh thiếu niên nói giọng khác người lớn Do đó phương pháp này có lẽ chỉ đúng trong một khoảng thời gian nhất định

Tóm lại, đặc tính riêng trong giọng nói của mỗi người là một hiện tượng phức tạp được hình thành từ hai yếu tố: cấu tạo giải phẫu sinh lý cơ quan cấu âm

Trang 23

của con người và những đặc điểm phát âm mà con người học được trong cuộc sống Một yếu tố đặc trưng cho cấu trúc vật lý của cơ quan cấu âm, còn yếu tố kia đặc trưng cho hành vi hoạt động của nó

2.2.2 Thông tin đặc trưng cho giọng nói mỗi người

Các thông tin đặc trưng cho giọng nói của mỗi người được thể hiện ở nhiều mức khác nhau, từ các đặc trưng mức cao như phong cách nói, các sử dụng cú pháp hay từ vựng khi nói, đến các đặc trưng mức thấp hơn như ngôn điệu, ngữ âm, cho đến mức thấp nhất là các đặc trưng âm thanh

Các thông tin đặc trưng mức cao có ưu điểm là ít bị ảnh hưởng bởi nhiễu và kênh truyền nhưng lại rất khó trích chọn tự động, mô hình hóa phức tạp và thường phải yêu cầu thời gian phát âm đủ lớn Trong khi đó, các thông tin đặc trưng mức thấp thì ngược lại rất dễ bị tác động bởi nhiễu và kênh truyền nhưng trích chọn tự động lại dễ dàng hơn, mô hình hoác cũng đơn giản hơn và thường không yêu cầu nhiều về thời gian phát âm

2.2.3 Các phương pháp nhận dạng người nói hiện nay trên thế giới

Có 3 phương pháp nhận dạng người nói hiện nay [04]:

- Nhận dạng người nói bằng bằng cơ quan thính giác của con người

- Phương pháp thủ công: so sánh ảnh phổ của hai mẫu tiếng nói để quyết định xem liệu chúng có phải do cùng một người nói ra không

- Phương pháp tự động: nhận dạng người nói được thực hiện tự động dựa trên việc mô hình hoá tín hiệu tiếng nói bằng cách trích chọn thông tin đặc trưng người nói và sử dụng các thuật toán máy tính phân lớp nhận dạng các mô hình người nói này

2.2.4 Nguyên lý làm việc hệ nhận dạng người nói

Như mọi hệ nhận dạng thông thường, cấu trúc của một hệ nhận dạng người nói cũng bao gồm hai module cơ bản là trích chọn đặc trưng và phân lớp nhận dạng,

Trang 24

trong đó module phân lớp nhận dạng gồm hai thành phần là đối sánh mẫu và quyết định nhận dạng

Cơ sở dữ liệu bao gồm các mô hình người nói được tạo ra trong pha huấn luyện Trong pha nhận dạng, mẫu tiếng nói của người chưa biết sẽ được đối sánh với các mô hình người nói có trong cơ sở dữ liệu để ra quyết định nhận dạng

Hiện có nhiều phương pháp phân lớp nhận dạng người nói nhưng chủ yếu là

sử dụng các mô hình thống kê như mô hình Markov ẩn (HMM) hay mô hình hỗn hợp Gauss (GMM), hoặc sử dụng mạng neural nhân tạo (ANN)

2.2.5 Các nguyên nhân gây lỗi trong nhận dạng người nói

- Tính không ổn định của tiếng nói của mỗi người tùy thuộc sức khỏe thể chất và tâm lý

- Cải trang hay giả giọng là cố tình làm thay đổi giọng nói

- Các tác nhân kỹ thuật (được gọi chung là nhiễu) làm mất tính trung thực của tiếng nói Ngoài ra điều kiện ghi âm khác nhau cũng là nguyên nhân gây lỗi trong nhận dạng người nói

2.3 TỔNG QUAN VỀ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG

MFCC (MEL-SCALE FREQUENCY CEPSTRAL COEFFICIENT)

Trích xuất đặc trưng của âm thanh là một trong những giai đoạn quan trọng nhất trong quá trình xử lý Với mục tiêu chính của quá trình rút trích đặc trưng là loại bỏ những thông tin dư thừa, chỉ chú trọng làm rõ những thông tin quan trọng nhất Có nhiều phương pháp rút trích đặc trưng khác nhau như: wavelets, LPC, MFCC…Trong luận văn này phương pháp MFCC (trích đặc trưng theo thang tần số Mel) được lựa chọn do tốc độ tính toán cao, độ tin cậy lớn và đã được sử dụng rất hiệu quả trong các ứng dụng nhận dạng tiếng nói trong và ngoài nước Bên cạnh đó phương pháp này cũng có nhiều đặc trưng để lựa chọn cho phù hợp với mục đích của người dùng (các giá trị năng lượng bộ lọc, tần số cơ bản F0, hệ số Delta,…)

MFCC là phương pháp trích đặc trưng (theo thang tần số mel, không phải theo Hz) dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần

Trang 25

số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz Vì lẽ đó, rất nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC làm đặc trưng Việc tính đặc trưng MFCC có sơ

đồ giải thuật như sau:

Hình 2.2 Các bước tính đặc trưng MFCC

Các công đoạn rút trích đặc trưng theo phương pháp MFCC được mô tả một cách sơ lược như sau:

- Nhận tín hiệu: tín hiệu đầu vào được thu nhận dưới dạng sóng âm thanh

- Tiền nhấn: từ tín hiệu thô ban đầu, tín hiệu được khuếch đại và làm rõ thông qua bộ lọc

- Phân khung: tín hiệu ban đầu được chia thành các khung nhỏ hơn để tiện

Hàm cửa sổ Hamming

MFCCs

Phân khung

Tín hiệu

Tiền nhấn

Biến đổi Fourier rời rạc

Dải bộ lọc tần số mel

Tính logarit đặc trưng

Biến đổi cosin rời rạc

âm thanh

Thêm các đặc trưng khác Các hệ số

Trang 26

- Thêm các đặc trưng khác: Để tăng độ chi tiết trong việc miêu tả một đặc trưng của âm thanh, ta có thể thêm vào các hệ số khác trong mỗi vector đặc trưng như: tần số cơ bản F0, tổng năng lượng của tín hiệu,…

Quá trình trích xuất đặc trưng theo MFCC là một quá trình phức tạp, đòi hỏi kiến thức tổng quát về vật lý cũng như toán học Để hiểu rõ hơn, luận văn này xin được đề cập và trình bày cụ thể mỗi công đoạn trong các phần tiếp theo đây

2.3.1 Nhận tín hiệu

Tín hiệu đầu vào là tín hiệu âm thanh đã được nén trong đoạn  Việc nén và chuyển đổi này giúp đưa tín hiệu âm thanh về dạng thống nhất, thuận tiện trong xử lý sau này

s n( ) là chuỗi tín hiệu âm thanh ban đầu

s n'( ) là chuỗi tín hiệu sau khi xử lý tiền nhấn

a là hệ số tiền nhấn, hệ số này thường được cho giá trị nằm trong khoảng

2.3.3 Phân khung tín hiệu

Tín hiệu âm thanh là tín hiệu thay đổi theo thời gian, rất khó để ta có thể xử

lý và phân tích trên một thời gian dài Vì vậy, ta phải phân tín hiệu ban đầu thành những đoạn rất nhỏ, để những tín hiệu không biến đổi quá lớn Mặt khác, số lượng mẫu có trong khung phải đủ để mang những đặc trưng, thông tin trong quãng thời gian đó

Trang 27

Theo các nghiên cứu đã có, trong khoảng 20-40 mili giây, tính hiệu tiếng nói khá ổn định Với mức này, những thay đổi trong khung tín hiệu không quá lớn mà

nó vẫn mang đủ thông tin để ta khảo sát

Để làm mượt sự chuyển đổi giữa hai khung liên tiếp, người ta thường cho chúng chồng lấp lên nhau một khoảng 10-15 mili giây Trong luận văn này, tín hiệu

sẽ được phân thành các khung với thời gian mỗi khung là 16 mili giây, thời gian chồng lấp giữa hai khung liên tiếp là 8 mili giây

Để dễ hình dung hơn, ta giả sử trường hợp phân khung với tín hiệu âm thanh

có tần số lấy mẫu là 16000 Hz Thế nên các thông số dùng để phân khung tín hiệu lần lượt là:

 Số lượng mẫu trong một khung: N = 16 x 16 = 256 mẫu

 Số lượng mẫu chồng lấp: M = 8 x 16 = 128 mẫu

Quá trình phân khung đi từ đầu tín hiệu đến cuối tín hiệu Đối với khung cuối cùng, nếu không đủ số mẫu thì ta thêm vào những mẫu còn thiếu giá trị 0 Những giá trị được thêm vào sẽ không gây ảnh hưởng đến các quá trình tính toán sau này

2.3.4 Nhân hàm cửa sổ

Sau khi phân khung, ta sẽ nhân mỗi khung với hàm cửa sổ Hamming (Hamming window) Mục đích của phép tính toán này nhằm giảm tính gián đoạn ở phần đầu và cuối của mỗi khung Cùng với đó, việc áp dụng hàm cửa sổ Hamming

để có được dữ liệu theo miền tần số chuẩn để đưa vào phép biến đổi Fourier rời rạc

Công thức tổng quát hàm cửa sổ Hamming như sau :

Trang 28

2.3.5 Biến đổi Fourier rời rạc

Phép biến đổi Fourier rời rạc – DFT (Discrete Fourier Transform) là phép biến đổi tín hiệu tương tự sang miền tần số Công thức của phép biến đổi Fourier rời rạc như sau:

2 1

0

i kn N

N n

X là chuỗi tín hiệu sau khi biến đổi Fourier, ở miền tần số

x là chuỗi tín hiệu tương tự ban đầu của một khung

N là số lượng mẫu của khung

i là số ảo, i  1

Phép biến đổi Fourier biến đổi tín hiệu tương tự N mẫu sang miền tần số với

N điểm Nhìn vào công thức (*) ta có thể thấy phép biến đổi này rất phức tạp và tốn kém chi phí Vì vậy, ta sẽ sử dụng phép biến đổi nhanh Fourier – Fast Fourier Transform (FFT) FFT hoàn toàn tương tự như DFT nhưng được xây dựng dựa trên các thuật toán nhanh nhằm giảm mức độ tính toán

Điều kiện đầu vào của phép biến đổi này là số lượng mẫu N phải là lũy thừa

cơ số 2, ví như : 128, 256, 512, …

Để đảm bảo điều kiện đầu vào của phép biến đổi FFT, nếu tín hiệu tương tự ban đầu chưa đủ số lượng mẫu cần thiết, ta chỉ cần thêm vào sau nó những số 0 cho đến khi số lượng phần tử thỏa mãn Phép thêm này không ảnh hưởng đến quá trình tính toán sau này Dưới đây là biểu đồ biểu diễn tín hiệu âm thanh trước và sau khi biến đổi FFT:

Trang 29

Hình 2.3 Tín hiệu tương tự của âm thanh trước khi biến đổi FFT

Hình 2.4 Tín hiệu miền tần số sau khi biến đổi FFT

Trang 30

Sau khi biến đổi FFT, ta sẽ có chuỗi tín hiệu X trong miền tần số Tuy nhiên chuỗi tín hiệu trong miền tần số này phân làm 2 nửa đối xứng với nhau Vì vậy ta

Kết quả của phép biến đổi FFT, mỗi phần tử X k( )  a b*i, với a

phần thực và b là phần ảo Để tiện tính toán, ta sẽ tính phổ năng lượng của chuỗi X

vụ cho quá trình trích xuất những đặc trưng thông tin mà tai người nghe được Công thức chuyển đổi từ miền tần sồ Hz sang thang đo Mel như sau :

Dựa trên công thức chuyển đổi, ta sẽ xây dựng tập hợp 20-40 (thông thường

là 26) bộ lọc tương ứng với số vùng trên thang đo Mel Mỗi bộ lọc sẽ cho ta một giá trị năng lượng, thể hiện của mức năng lượng của âm thanh trong miền tần số Mel tương ứng Dưới đây là hình minh họa cho việc áp các bộ lọc lên từng vùng trên thang đo Mel:

Trang 31

Hình 2.5 Trích xuất năng lượng theo từng bộ lọc Mel

Như Hình 2.5, ta có bộ lọc Mel với 26 cửa sổ lọc Với mỗi cửa sổ, ta sẽ trích

xuất được năng lượng nằm trong miền tần số tương ứng với cửa sổ đó Với 26 cửa

sổ lọc, ta sẽ trích xuất ra được 26 mức năng lượng trong 26 miền tần số Mel tương ứng Để có được những đặc trưng này, ta cần phải qua hai bước sẽ được trình bày ngay sau đây

2.3.7 Xây dựng bộ lọc Mel

Để xây dựng bộ lọc Mel, đầu tiên ta phải chọn tần số tối đa và tần số tối thiểu của bộ lọc Do tai chúng ta chỉ nghe được những âm thanh từ 300 Hz trở lên, nên giá trị mặc định cho ngưỡng dưới là 300 Hz Tuy nhiên với ngưỡng trên, giá trị này phụ thuộc vào tần số lấy mẫu Với tần số lấy mẫu là 16000 Hz thì ngưỡng trên

có thể đạt được là 8000 Hz Tuy nhiên, với tần số lấy mẫu là 8000 Hz thì ngưỡng trên chỉ có thể đạt tối đa là 4000 Hz Ở luận văn này, miền tần số phân tích được chọn là [300, 8000] Hz Sau đó, ta lần lượt theo những bước sau

Trang 32

1) Sử dụng công thức (**) để chuyển đổi ngưỡng trên và ngưỡng dưới sang thang đo Mel Như cách chọn ở trên, ta sẽ có hai ngưỡng ở thang đo Mel

là [401.25, 2834.99]Mels tương ứng với [300, 8000] Hz

2) Giả sử ta cần 10 bộ lọc Mel trong miền tần số [300, 8000] Hz, tiếp theo

ta sẽ chia đều vùng tần số nằm trong [401.25, 2834.99] Mel thành 10 vùng tần số liên tiếp nhau Tức là, giữa hai điểm 401.25 và 2834.99 ta cần thêm 10 điểm nữa, được chia cách đều nhau để hình thành nên 10 vùng tần số của bộ lọc Mel Sau khi chia, ta được các điểm mốc như sau 401.25, 622.50, 843.75, 1065.00, 1286.25, 1507.50,

1728.74, 1949.99, 2171.24, 2392.49, 2613.74, 2834.

[

99]

m

Sử dụng công thức (***) để chuyển đổi các điểm trên về lại miền tần số Hz, kết quả ta được các điểm mốc của bộ lọc Mel

300, 517.33, 781.90, 1103.97, 1496.04, 1973.32, 2554.33, 3261.62, 4122.63, 5170.76, 6446.70, 80

[

00]

h

3) Tiếp theo ta sẽ chuyển đổi các mốc trong miền tần số Hz sang chỉ số trong phổ năng lượng sau khi biến đổi FFT Công thức của phép chuyển đổi này như sau :

có dạng tam giác Công thức của bộ lọc như sau:

Trang 33

0 ( 1)( 1)

Sau toàn bộ quá trình trên, ta sẽ thu được bộ lọc Mel, được sử dụng để tính mức năng lượng tại các miền tần số Đồ thị của 10 cửa sổ lọc Mel được miêu tả như hình dưới đây:

Hình 2.6 Bộ lọc Mel

Trang 34

2.3.8 Nhân từng cửa sổ lọc với phổ năng lượng

Với mỗi cửa sổ lọc, ta sẽ tính phổ năng lượng trong miền tần số của cửa sổ lọc đó bằng cách áp dụng công thức:

m là số thứ tự của cửa sổ lọc trong bộ lọc Mel

fft là phổ năng lượng của tín hiệu sau khi biến đổi FFT

sẽ thực hiện phép tính logarit tín hiệu để nén những giá trị này vào miền giá trị nhỏ hơn

2.3.10 Biến đổi Cousin rời rạc - Discrete Cousin Transform

Với các biến đổi đã thực hiện, ta thu được một vector đặc trưng Tuy nhiên, các giá trị được rút trích có sự tương quan khá gần nhau, dẫn đến các đặc trưng ta rút được sẽ không rõ ràng Chính vì thế, ta thực hiên biến đổi DCT (Discrete Cosin Transform) để làm rời rạc các giá trị này ra cho nó ít tương quan với nhau, làm tăng tính đặc trưng của các tham số

Phép biến đổi Cousin rời rạc được thực hiện thông qua công thức

Ngày đăng: 16/08/2020, 10:41

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w