Luận văn thạc sĩ Công nghệ thông tin: Ứng dụng Deep Neural Network (DNN) nhận dạng người trong nhà thông qua sinh trắc học bằng giọng nói

Do đó, nghiên cứu này xây dựng một mô hình trên nền tảng IoT sử dung sinh trắc học giọng nói như một phương tiện xác định các cá nhân dé điều khiển các thiết bị thông minh trong môi trườ

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

HO THI MINH TRAM

UNG DUNG DEEP NEURAL NETWORK (DNN)

NHAN DANG NGUOI TRONG NHA THONG QUA SINH TRAC HỌC BẰNG GIỌNG NÓI

LUẬN VĂN THẠC SĨ

NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8480201

Trang 2

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

HO THI MINH TRAM

UNG DUNG DEEP NEURAL NETWORK (DNN)

NHAN DANG NGUOI TRONG NHA THONG QUA SINH TRAC HỌC BANG GIỌNG NÓI

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

Mã số: 8480201

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TIEN SĨ NGUYEN MINH SON

Trang 3

LỜI CAM ĐOANTôi xin cam đoan: Luận văn tốt nghiệp với Đề tài “Ứng dụng deep neuralnetwork (DNN) nhận dạng người trong nhà thông qua sinh trắc học bằng giọng nói”

là công trình nghiên cứu của tôi, dưới sự hướng dẫn của TS Nguyễn Minh Sơn Cáctrích dẫn, tham khảo trong quá trình nghiên cứu đều được trích dẫn day đủ, ghi rõnguồn gốc Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ sao chép không hợp

lệ, vi phạm quy chế đảo tạo

Người thực hiện

Hồ Thị Minh Trâm

Trang 4

LỜI CẢM ƠN

Qua quãng thời gian học tập, nghiên cứu và rèn luyện tại Trường Đại

học Công nghệ thông tin, được sự hướng dẫn và giảng dạy nhiệt tình của Quý

Thầy Cô, đặc biệt là các Thầy Cô ngành Công nghệ thông tin, ngành Khoa học máy tính đã truyền đạt những kiến thức mới cũng nhưng những kinh

nghiệm quý báu trong suốt thời gian học tại Trường

Chân thành cám ơn TS Nguyễn Minh Sơn đã tận tình hướng dẫn giúp

đỡ tôi hoàn thành đề tài luận văn thạc sĩ này.

Tôi cũng gửi lời cám ơn đến Ban giám hiệu cùng các thầy cô trong tổ

Tin học trường THPT Phan Thiết đã tạo điều kiện thuận lợi cho tôi trong công

việc đê tôi có thời gian hoàn thành chương trình học Sau Đại học tại trường Đại học Công nghệ thông tin.

Mặc dù đã né lực thực hiện luận văn nhưng do kiến thức kinh nghiệm

còn hạn hẹp nên không tránh khỏi những thiếu sót trong cách diễn đạt và trình bày, rất mong nhận được sự góp ý quý báu của các Thầy Cô.

Một lần nữa xin được kính chúc Thầy Cô nhiều sức khỏe, niềm vui và

thành công trong công việc và cuôc sống

Trang 5

LOI CAM ĐOAN

LOI CAM ON

MUC LUC

DANH MUC CAC KY HIEU VA CHU VIET TAT

DANH MUC CAC BANG

DANH MỤC CÁC HINH VE, DO THỊ

1.5 ĐÓI TƯỢNG VÀ PHAM VI NGHIÊN CỨU

CHƯƠNG 2: CÁC NGHIÊN CỨU VA HƯỚNG TIẾP CAN LIÊN QUAN 152.1 TINH HÌNH NGHIÊN CUU CUA CÁC TAC GIA TRONG NƯỚC 152.1.1 Nghiên cứu nhận dạng giọng nói Tiếng Việt sử dụng bộ công cụ Kaldi

15

2.1.2 Nhận dang người trong nha thông minh băng Sinh trac học giọng nói 15

2.1.3 Nhận dạng giọng nói tiếng Việt cho Tự động hóa tại nhà sử dụng

phương pháp trích xuat đặc trưng MFCC và kĩ thuật DTW

2.2 TINH HÌNH NGHIÊN CỨU CUA CAC TÁC GIẢ NƯỚC NGOÀI

2.2.1 Nghiên cứu sử mạng noron (DNN) để tạo mô hình âm thanh trong

nhận dạng giọng nói

16

2.2.2 Nhận dang người nói va ngôn ngữ bang mô hình DNN

2.2.3 Hệ số Coestral Chuẩn hóa Công suất (PNCC) dé nhận dạng giọng nói

mạnh mẽ

2.2.4 Nhận dạng giọng nói của các hãng công nghệ

2.3 Những van đề cần nghiên cứu giải quyết

CHƯƠNG 3: CƠ SỞ LÝ THUYET

3.1 Giới thiệu

Trang 6

3.2 Các đặc trưng của tiếng nói

3.2.1 Đặc điểm

3.2.2 Tiếng nói tiếng Việ

3.2.3 Các đặc trưng cơ bản của tín hiệu tiêng ni

3.3 Các mô hình nhận dạng giọng nói

57 3.4.3 Đặc trưng PLP

ó 59

60

61 61 62 62

63 64 64

4.2.2 Phân khung dữ liệu

4.2.3 Lấy cửa số tín hiệu

4.2.4 Biến đổi chuỗi Fourie:

4.2.5 Bộ lọc gamatone

66 67 68 68

4.4 Xây dựng mô hình huấn luyện dữ liệu bằng giải thuật ANN và các kịch bản

thực nghiệm 72

4.2.6 Xử lý nhiễm với mặt nạ không đối xứng

4.2.7 Weight Smoothing

4.2.8 Chuẩn hóa công suất trung bình

4.2.9 Những cái tiến của kĩ thuật PNCC

Trang 7

4.3.1 Giai đoạn huấn luyện mô hình

4.3.2 Kịch bản nhận diện chủ nhà và điêu khiên thi

4.2.3 Kịch bản kiểm thử sản phẩm

CHƯƠNG 5: KET QUA THUC NGHIỆM

5.1 Thực nghiệm giải thuật PNCC lọc nhiễu âm thanh

5.1.1 Độ chính xác

5.1.2 Tính phức tap

5.2 Kết quả nhận diện chủ nhà với từ khóa là “Nguyên” 785.3 Kết quả điều khiển thiết bị

5.4 Kết quả điều khiển thiết bị

5.5 Kết quả điều khiển trong môi trường nhiễu

5.6 Những cải tiến trong thiết kế

CHƯƠNG 6: KET LUẬN VÀ KIEN NGHỊ

6.1 Về nội dung nghiên cứu

Trang 8

DANH MỤC CÁC KY HIỆU VA CHỮ VIET TATSTT | Cum tir/ Từ Tiếng Anh Nghia tiếng Việt

Ký hiệu

1 AFE | Advanced Front End Giao diện người dùng nâng

2 AlLab | Artificial Intelligence LAB Phong thí nghiệm Trí tuệ

Nhân tạo.

3 ANN Artificial Neural Network Mang no-ron nhan tao

4 ASR Automatic speech recognition đông, dạng giọng nói tự

5 BNF Bottleneck features Tinh năng nút cô chai

6 DAC Domain Adaptation Challenge Thử thách thích ứng miên

7 DNN Deep Neural Network Mang hoc sau

8 DTW Dynamic Time Warping one pháp lập trình

9 EM Expectation-Maximization Ky vong - tối đa hóa

10 GMM Gaussian Mixture Model Mô hình Gaussian hon hợp

11 HMM Hidden Markov Model Mô hình Markov ân

12 IoT Internet of Think

13 LPC Linear Predictive Coding Mã dự báo tuyên tính

14 LRE language recognition evaluation ám giá nhận dang ngôn

15 MECC | Mel-frequency cepstral coefficients | Hệ số Mel

16 MLP MultiLayer Perceptron Mang no-ron

U PNCC Power-Normalized Cepstral Hệ sô Cepstral

Coefficients

18 RNN Recurrent Neural Network Mang hôi qu’

19 SGD Stochastic gradient descent

20 SR Speaker recognition Nhận dạng người nói

21 SR Language recognition Nhận dạng ngôn ngữ

ystems tự động bằng tiếng Việt

23 VTS vector Taylor series Chuỗi vecto Taylor

Trang 9

DANH MỤC CÁC BẢNG

Bang | Bộ dữ liệu thực nghiệm nhận dạng người trong nha .6l

Bang 2 Bộ dữ liệu thực nghiệm cho điều khién thiết bị trong nhà 61

Bảng 3 Độ chính xác nhận dang trong các môi trường nhiễu khác nhau ở mức độ

én cao lang T7Bảng 4 Độ chính xác nhận dạng trong các môi trường nhiễu khác nhau ở mức ồn

Bang 7 Mô tả két quả nhận dạng chủ nhà

Bang 8 Bảng kết quả nhận dạng không phải chủ nhà

Bang 9 Bảng kết quả nhận dang chủ nhà và điều khiển thiết bị

Bang 10 Bảng kết quả các các kịch bản không nhiễu và có nhỉ

Trang 10

DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ

Hình 2 1 Hệ thống nhà thông minh Việt Nam trên công nghệ WIFI

Hình 2 2 Khớp mẫu trên thiết bị đầu cuối

Hình 3 1 Biểu đồ dạng sóng

Hình 3 2 Cấu trúc của âm tiết Tiếng Việ

Hình 3 3 Âm tiết tiếng Việt: Nguyên

Hình 3 4 Đặc trưng âm thanh nhận được ngo:

6 Mạng Perceptron (a) Perceptron 1 lớp, (b) Perceptron nl

Hình 3 7 Mô hình logistic regresion

Hình 3 8 Mô hình neural network

Hình 3 9 Mô hình bộ tự mã hóa

Hình 3 10 Kiến trúc mạng nơ-ron nhân tạo

Hình 3 11 Quá trình xử lý thông tin của một mạng nơ-ron nhân ta

Hình 3 12 Mô hình mạng hồi quy

Hình 3 13 Mô hình mạng tích chập CNN

Hình 3 14 Tích chập một bộ lọc với dữ liệu đâu vac

Hình 3 15 Ví dụ lấy mẫu với hàm max

Hình 3 16 Mô hình mạng tích chập LeNet 5 [Lecun, 1998].

Hình 3 17 Mô hình mạng tích chập AlexNet [Krizhevsky, 2012]

Hình 3 18 Mô hình mạng ZF Net [Zeiler, 2014]

Hình 3 19 Mô hình mang tích chập VGGNET [Simonyan, 2014]

Hình 3 20 Kiến trúc của các thuộc tính trong CNN

Hình 3 21 Kiến trúc các layer của CNN

Hình 3 22 Chức năng kích hoạt và làm việc của CNN

Hình 3 23 Minh họa rút trích đặc trưng MFCC

Hình 3 24 Sơ đồ các bước trích chọn đặc trưng MFCC

Hình 3 25 Hình minh họa kích tín hiệu âm thanh lên tân sô cao.

Hình 3 26 Mô tả quá trình Windowing “

Hình 3 27 mô tả trước và sau khi biến đổi DFT của một cửa

Hình 3 2§ Mô hình các băng lọc trong thang đo tần số bình thường và thang đo

Trang 11

Hình 4 5 Phổ từ trong môi trường nhiễu không được xử lý

Hình 4 6 Đồ thị phổ của từ thông qua thuật toán PNCC

Hình 4 7 Mô hình đề xuất cho quá trình huấn luyện Mạng ANNHình 4 8 Sơ đồ phân tích đặc trưng PNCC

Hình 4 9 Mô hình mạng ANN nhận dạng chủ nhà

Hình 4 10 Mô hình huan luyện mạng điều khiển thiết bị trong nhà

Hình 4 11 Kịch bản Demo

Hình 4 12 Thực nghiệm trong môi trường lý tưởng

Hình 4 13 Thực nghiệm trong môi trường có tiếng ồn

Trang 12

MỞ DAU

Trong môi trường nhà thông minh, nhận biét ai đang thực hiện các hành

động là rất hữu ích Và việc tự động hóa nhà với điều khiển bằng giọng nói có thé

đạt được hiệu suất cao trong môi trường không có tiếng ồn Tuy nhiên, hiệu suất

như vậy giảm đáng kể trong tinh trạng nhiều cư dân hoặc trong môi trường ồn àonói chung Trong trường hợp này, nhà thông minh cần giải quyết các vấn đề xác

định cư dân theo một cách nào đó.

Nhận dạng người nói hoặc nhận dạng giọng nói là một phương thức sinh

trắc học sử dụng các đặc điểm của giọng nói (sinh trắc học giọng nói) để nhận dangmột người Do đó, nghiên cứu này xây dựng một mô hình trên nền tảng IoT sử dung

sinh trắc học giọng nói như một phương tiện xác định các cá nhân dé điều khiển các

thiết bị thông minh trong môi trường ồn ào

Trang 13

CHƯƠNG 1: TONG QUAN

1.1 GIỚI THIỆU ĐÈ TÀI

Tự động hóa nhà với điều khiển bằng giọng nói có thể đạt được hiệu suấtcao trong môi trường không có tiếng ồn Tuy nhiên, hiệu suất như vậy giảm đáng kểtrong tình trạng nhiều cư dân hoặc trong môi trường ồn ào nói chung Trong trườnghợp này, nhà thông minh cần giải quyết các van đề xác định cư dân theo một cách

nào đó.

Nó đòi hỏi t số cách tiếp cận thích hợp cho các ứng dụng nhà thôngminh đề giải quyết vấn đề xác định các cư dân Nhận dạng giọng nói là một phươngthức sinh trắc học sử dụng các đặc điêm của giọng nói (sinh trắc học giọng nói) để

xác định một người trong ngôi nhà thông minh Do đó, nghiên cứu này xây dựng

một mô hình trên nền tảng IoT sử dụng sinh trắc học giọng nói như một phương tiện

xác định các cá nhân dé điều khién các thiết bị thông minh trong môi trường én ào

Đồng thời kết quả của nghiên cứu này sẽ cung cấp nền tảng cho việc nghiên

cứu và dự đoán hành vi của con người.

1.2 LY DO CHỌN DE TÀI

Thách thức của những ngôi nhà thông minh hiện đại là làm thé nào dé tạo ramột môi trường thông minh cho nhiều cư dân, điều này là vô cùng khó khăn do sự

phức tạp của việc xác định các cá nhân [26] Một trong những giải pháp khả thi là

sử dụng sinh trắc học giọng nói duy nhất giữa mọi người dé xác định cư dân bêntrong môi trường nhà thông minh Hơn thế nữa, nghiên cứu cho phép hệ thống đưa

ra các quyết định thông minh và điều khiển các thiết bị cuối dựa trên cư dan hiệntại Tuy nhiên, điều này thực sự khó khăn khi thực hiện các hoạt động trong môitrường có nhiều người mà không có xác nhận cụ thẻ cá nhân

Đã có một số nghiên cứu thông minh trong môi trường nhiều người Dénhận ra hoạt động của nhiều cư dan, các mô hình trình tự được sử dụng để thực hiện

dự đoán theo thời gian, được gọi là mô hình thời gian Các thuật toán trí tuệ nhân tạo trong học máy như mạng Bayes và mạng nơ-ron được nghiên cứu Các mô hình

Trang 14

đã được nghiên cứu như Mô hình Markov an (Hidden Markov Model - HMM) va

truong ngẫu nhiên có điều kiện (Conditional Random Field)

Bên cạnh đó, các mô hình phi thời gian cũng được giới thiệu để xác địnhcác hoạt động được mô hình hóa của nhiều cư dân Cách tiếp cận này khám phá cáctập dữ liệu về ảnh được thu thập từ các gia đình trong một khoảng thời gian nhấtđịnh để ngụ ý dự đoán hoạt động Cả hai phương pháp tiếp cận theo thời gian và phithời gian đều sử dụng các đặc trưng thời gian làm đầu vào Tuy nhiên, vì các môhình này được kiểm tra bằng cách sử dụng các bộ dữ liệu khác nhau, nên rất khó đềđạt được so sánh về hiệu quả

Nghiên cứu ứng dụng mô hình mạng nơ-ron nhân tạo (Artificial Neural

Network - ANN) nâng cao tính chính xác của nhận dạng trong môi trường nhiều

người.

1.4.MỤC TIÊU CỤ THÊ

Nghiên cứu đề xuất một giải pháp nhà thông minh ứng dụng công nghệ IoT

sử dụng sinh trắc học giọng nói để xác định cá nhân:

- Giải pháp IoT cho nhà thông minh

- Giải pháp cho thiết bị đầu cuối điều khiển bằng giọng nói

Nghiên cứu thiết kế và tích hợp giải thuật hệ số công suất cepstral Normalized Cepstral Coefficients - PNCC) có thể xác định người sử dụng nhàthông minh bằng cách sử dụng sinh trắc học bằng giọng nói Cụ thé: xử lý lọc nhiễu

(Power-môi trường âm thanh giọng nói của người trong nhà thông minh đê xác minh từ

word work trước khi điều khiển (trong luận văn này là từ Nguyên)

Trang 15

Xây dựng tập dữ liệu giọng nói với các từ sử dụng trong nhà thông minh và

thực hiện huấn luyện dữ liệu bằng mô hình ANN hiện thực trên thiết bị nhúng

“Thực hiện rút trích đặc trưng giọng nói của người sử dụng nhà thông minh sử

dụng giải thuật PNCC và mô hình ANN.

Nhận dạng giọng nói tiếng Việt ứng dụng trong nhà thông minh

Có thể điều khiển các thiết bị thông minh bằng tiếng Việt

Độ chính xác của nhận diện người trong nhà trên 90%.

Nhận dang các lệnh dé điều khiển các thiết bị trong nhà qua hệ thống nhúng

có độ chính xác trên 90%

1.5 ĐÓI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU

Nghiên cứu này giới thiệu sử dụng sinh trắc học giọng nói như một phươngtiện nhận dang cho các ứng dụng nhà thông minh Cu thể, cơ sở dữ liệu được học

viên thu thập dữ liệu bằng cách ghi âm từ 350 người Việt Nam đọc khác nhau Gồm

140 người đọc là nam và 160 người đọc là nữ, độ tuổi từ 15 đến 17 tuổi, đến từ

Bình Thuận Mỗi người đọc ghi âm bằng điện thoại di động của các hãng khác

nhau, ghi âm trong điều kiện môi trường không có nhiễu hoặc nhiễu ít Mỗi filechứa các câu lệnh điều khién thiết bị và tên của chủ nhà như sau:

Loại từ Tên Dữ liệu Thời gian

Từ đơn Nguyên 370 file 370 giây

Từ điều khién | Bật đèn phòng ngủ 310 file mỗi câu | 12400 giây

thiết bị Tắt đèn phòng ngủ Tổng: 6200 file

Bật đèn phòng khách

Tắt đèn phòng kháchBật đèn nhà bếp

Tắt đèn nhà bếp

Bật tivi phòng khách

Tắt tivi phòng khách

Trang 16

Tập dữ liệu được phân chia thành các thư mục khác nhau với các mục đích

khác nhau Hệ thống được huấn luyện với các mục đích: xác định người trong nhà

và cho phép người trong nhà sau khi được xác định điều khién thiết bị trong nhà

Sau đó tập dit liệu được chia thành ba phần, bao gồm 80% tập huấn luyện,

10% tập đánh giá, 10% thử nghiệm Mỗi tập con của một tập âm thanh được phân

loại là từ khóa đã xác định trước được gán các nhãn tương ứng.

Trang 17

CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ HƯỚNG TIẾP CẬN LIÊN QUAN2.1 TÌNH HÌNH NGHIÊN CỨU CỦA CÁC TÁC GIẢ TRONG NƯỚC

2.1.1 Nghiên cứu nhận dạng giọng nói Tiếng Việt sử dụng bộ công cụ

Kaldi

Hệ thống nhận dạng giọng nói tiếng Việt [12] sử dụng bộ công cụ Kaldi

Trong nghiên cứu này, nhóm tác giả đã thu thập một kho ngữ liệu trong hơn mười

lăm giờ từ khoảng năm mươi người Việt Nam và sử dụng nó đề kiểm tra tính khả

thi của nghiên cứu Tác giả đề xuất một từ điển phát âm dựa trên giọng nói Dé đơn

giản hóa công thức, tác giả bỏ qua vai trò và vị trí của mỗi thành phan trong âm tiết

và chỉ xác định hai loại âm vị: phụ âm và nguyên âm Một phụ âm có thể là một

hoặc tối đa ba ký tự (thay vì một ký tự như bộ điện thoại grapheme) trong khi một

nguyên âm là một nguyên âm chuẩn với một âm tương ứng Trong cách thiết lậpnày, mỗi biến thể âm sắc của một nguyên âm được coi là các âm vị khác nhaukhông có mối liên hệ nào Đề lấy lại thông tin về âm, có thể sử dụng thêm các câuhỏi để xây dựng cây quyết định ngữ âm

2.1.2 Nhận dạng người trong nhà thông minh bằng Sinh trắc học giọng

nói

Nghiên cứu này giới thiệu việc sử dụng sinh trắc học giọng nói [22] như mộtphương tiện dé xác định các cá nhân Tự động hóa nhà với điều khiển bằng giọng

nói có thể đạt được mức hiệu suất cao trong môi trường thực tế Tuy nhiên, hiệu

suất như vậy giảm đáng ké trong tình huống nhiều cư dan Trong trường hợp này,ngôi nhà thông minh cần giải quyết các vấn đề về xác định cư dân theo cách nảo đó.Nhận dạng người nói hoặc nhận dạng giọng nói là một phương thức sinh trắc học sửdụng các đặc điểm của giọng nói (sinh trắc học giọng nói) để xác định một người

Nhận dạng giọng nói là một lựa chọn phô biên dé xác định các cá nhân do sự sẵn có

của các công cụ để thu thập các mẫu giọng nói và tính dễ tích hợp của nó Tháchthức của những ngôi nhà thông minh hiện đại là làm thế nào dé tạo ra một môitrường thông minh cho nhiều cư dân, điều này là vô cùng khó khăn do sự phức tap

của việc xác định các cá nhân Một trong những giải pháp khả thi là sử dụng sinh

Trang 18

trắc học giọng nói duy nhất giữa mọi người để xác định cư dân bên trong môitrường nhà thông minh Do đó, nghiên cứu này giới thiệu việc sử dụng sinh trắc họcgiọng nói như một phương tiện để xác định cư dân trong nhà thông minh Trong

nghiên cứu này, việc xác định người nói không phụ thuộc vào văn bản và tập hợp

mở với ngưỡng thích ứng sẽ được đề xuất và đánh giá

2.1.3 Nhận dạng giọng nói tiếng Việt cho Tự động hóa tại nhà sử dụng

phương pháp trích xuất đặc trưng MECC và kĩ thuật DTW

Tự động hóa nhà với nhận dạng giọng nói có thể đạt được mức hiệu suất caotrong môi trường thế giới thực [23] Tuy nhiên, hiệu suất như vậy giảm đáng kẻtrong điều kiện nhiễu không phù hợp Dé giải quyết van dé này, tác giả và cộng sự

đề xuất một phương pháp cải tiến dé chiết xuất Hệ số bề mặt tần số Mel giúp tăng

độ chính xác lên đến 20% so với phương pháp truyền thống Bài báo này mô tả mộtcách tiếp cận nhận dạng giọng nói để tự động hóa gia đình bằng tiếng Việt bằng

cách sử dụng cải tiến hệ số Mel (Mel-frequency cepstral coefficients - MFCC) và

phương pháp lập trình động (Dynamic Time Warping - DTW).

Nhận dang giọng nói là quá trình tự động nhận dang lời nói của một người

dựa trên thông tin trong tín hiệu giọng nói Tham s6 dựa trên quang phô phổ biếnnhất được sử dụng trong phương pháp tiếp cận nhận dạng là Hệ số quang phỏ tần số

Mel được gọi là MFCC MFCC là các hệ , được trích xuất từ tín hiệu giọng nói

của lời nói Để đối phó với các tốc độ nói khác nhau trong nhận dạng giọng nói

Dynamic Time Warping (DTW) được sử dụng DTW là một thuật toán, được sử

dụng dé đo mức độ giống nhau giữa hai chuỗi, có thể khác nhau về thời gian hoặc

tốc độ

Trang 19

- ^

i \ * sáo

i À ty) =

Hình 2 1 Hệ thống nhà thông minh Việt Nam trên công nghệ WIFI

Mục tiêu của nghiên cứu này là phát triển một thiết bị điều khiển thiết bị giadụng thông qua giọng nói của con người với ngôn ngữ tiếng Việt dựa trên thiết bị

đầu cuối được tích hợp tính năng khớp mẫu (Feature Extraction và Feature

Matching) như nhận dạng giọng nói [Hình 2.2] Theo phương thức này, việc nhận

dạng được thực hiện trong thiết bị đầu cuối của người dùng Trong trường hợp này,tín hiệu lời nói khong truyền qua mạng truyền thông không dây, do đó, nó không bịảnh hưởng bởi kênh truyền (tức là lỗi truyền dẫn, dữ liệu bỏ qua, nhiễu nhiều, v.v.)

và các thuật toán nén.

Trang 20

Decision Making

Hình 2 2 Khớp mẫu trên thiết bị đầu cuối

2.2 TÌNH HÌNH NGHIÊN CỨU CỦA CÁC TÁC GIẢ NƯỚC NGOÀI

2.2.1 Nghiên cứu sử mạng noron (DNN) dé tạo mô hình âm thanh trong

nhận dạng giọng nói

Nghiên cứu sử dụng mạng noron [9] với nhiều lớp ân để xây dựng mô hình

nhận dạng giọng nói Cơ sở đánh giá của nghiên cứu này dựa vào mô hình kết hợpMarkov 4n (HMM) va ham Gaussian với nhiều thành phan trộn (GMM) Mạng nơ-

ron sâu với nhiều lớp an, được đảo tạo bằng các phương pháp mới đã được chứng

minh là hoạt động tốt hơn các mô hình HMM - GMM trên nhiều tiêu chuẩn nhậndạng giọng nói Bằng cách sử dụng các phương pháp học tập mới, một số nhóm

nghiên cứu khác nhau đã chỉ ra rằng DNN có thể làm tốt hơn GMM ở mô hình âm

học dé nhận dạng giọng nói trên nhiều bộ dit liệu bao gồm bộ dữ liệu lớn với từ

Trang 21

vựng lớn Nghiên cứu cung cấp một cái nhìn tổng quan về phương pháp tiến bộ

trong nhận dạng giọng nói.

Nghiên cứu cũng chỉ ra rằng, nhược điểm lớn nhất của DNN so với GMM là

khi huấn luyện dữ liệu với những cụm từ lớn trên các tập dữ liệu lớn sẽ khó khănhơn Điều này sẽ được khắc phụ bởi thực tế là các DNN sử dụng dữ liệu hiệu quảhơn, do đó chúng không yêu cầu nhiều dữ liệu dé đạt được hiệu suất tương tự, cáccách tốt hơn đề giải quyết vấn đề là tỉnh chỉnh các DNN

2.2.2 Nhận dạng người nói và ngôn ngữ bằng mô hình DNN

Những thành tựu ấn tượng về hiệu suất thu được khi sử dụng mạng nơ-ron sâu

(DNN) để nhận đạng giọng nói tự động (ASR) đã thúc đây việc ứng dụng DNN vào

các công nghệ giọng nói khác như nhận dạng người nói (SR) và nhận dạng ngôn

ngữ (LR) [8] Công việc trước đó đã cho thấy hiệu suất tăng cho các tác vụ SR và

LR riêng biệt bằng cách sử dụng DNN dé phân loại trực tiếp hoặc dé trích xuất tính

năng Trong nghiên cứu này, nhóm tác giả trình bày việc áp dụng DNN riêng lẻ cho

cả SR và LR bằng cách sử dụng điểm chuân của thử thách thích ứng miền 2013

(DAC13) và điểm chuan đánh giá nhận dạng ngôn ngữ NIST 2011 (LRE11) Sửdụng một DNN duy nhất được đào tạo cho dữ liệu ASR trên Switchboard, tác giảchứng minh mức tăng lớn về hiệu suất trong cả hai điểm chuẩn: giảm 55% EER chođiều kiện ngoài miền DAC13 và giảm 48% trong điều kiện thử nghiệm LREI1 30

giây Nghiên cứu cũng chỉ ra rằng có thê đạt được nhiều lợi ích hơn nữa bằng cách

sử dụng kết hợp điểm hoặc tính năng dẫn đến khả năng một bộ chiết vector ¡ duynhất tạo ra hiệu suất SR và LR hiện đại

Nghiên cứu này đã mô tả sự phát triển của hệ thống i-vector DNN BNF vàchứng minh hiệu suất đáng kể khi áp dụng hệ thống cho cả điểm chuẩn DAC13 SR

và LREI1 LR Đối với nhiệm vụ DACI3, hệ thống BNF/GMM đã được chứngminh là giảm tỷ lệ lỗi của hệ thống MFCC/GMM đường cơ sở xuống 26% đối với

EER và 33% đối với DCF đối với tác vụ trong miền và 55% đối với EER và 47%

đối với DCF đối với nhiệm vụ ngoài miền Trên LRE11, các BNF tương tự giảm ở

Trang 22

thời lượng 30 giây, 10 giây và 3 giây lần lượt là 48%, 39% và 24%, và thậm chí cònthực hiện sự kết hợp 5 hệ thống giữa bộ nhận dạng âm học và ngữ âm.

Việc giảm sai số hơn nữa đã được chứng minh trên tác vụ DACI3 SR bằngcách sử dụng các tính năng kết hợp điểm số hoặc song song Kết hợp điểm hệ thốngBNF/GMM và MECC/DNN làm giảm tỷ lệ lỗi so với hệ thống BNF/GMM xuống18% đối với EER và 12% đối với DCF đối với tác vụ trong miền và 9% đối vớiEER và 5% đối với DCF đối với nhiệm vụ ngoài miền Việc sử dụng các tính năngsong song dẫn đến giảm tỷ lệ lỗi lớn hơn là 23% đối với EER và 15% đối với DCFđối với tác vụ trong miền và 13% đối với EER và 6% đối với DCF đối với tác vụngoài miền Tổng điểm trên nhiệm vụ LREII dẫn đến giảm 16%, 13% và 8% trong

các điều kiện thời lượng 30 giây, 10 giây và 3 giây Mặc dù các tính năng song song

không dẫn đến những thay đồi đáng kể về hiệu suất trên tác vụ LRE11, nhưng hiệusuất tốt của chúng trên DAC13 cho thấy khả năng có một giao diện người dùng

song song và một bộ giải nén I-vector duy nhất cho cả ứng dung LR va SR

2.2.3 Hệ số Coestral Chuẩn hóa Công suất (PNCC) để nhận dạng giọng

nói mạnh mẽ

Bài báo này trình bày một thuật toán khai thác tính năng mới được gọi là hệ

số Cepstral chuẩn hóa công suất (PNCC) [3] được thúc đây bởi quá trình xử lý thínhgiác Các tính năng mới chính của xử lý PNCC bao gồm việc sử dụng tính phi tuyếncủa luật lũy thừa thay thế tính phi tuyến tính của log truyền thống được sử dụng

trong các hệ số MECC, thuật toán khử nhiễu dựa trên lọc không đối xứng để loại bỏ

kích thích nền và mô-đun hoàn thành việc che dấu thời gian Chanwoo và Stern

cũng đề xuất việc sử dụng phân tích công suất thời gian trung bình, trong đó các

thông số môi trường được ước tính trong một khoảng thời gian dài hơn thường được

sử dung cho giọng nói, cũng như làm mịn tần số Kết quả thử nghiệm chứng minhrằng xử lý PNCC cung cấp những cải tiến đáng kẻ về độ chính xác nhận dang so với

xử lý MFCC và PLP cho giọng nói khi có nhiều loại tạp âm phụ gia khác nhau và

trong môi trường dội âm, chỉ với chi phí tính toán cao hơn một chút so với xử lý

MFCC thông thường và không làm giảm khả năng nhận dạng độ chính xác được

Trang 23

quan sát trong khi đào tạo và kiểm tra bằng cách sử dụng giọng nói sạch sẽ xử lý

PNCC cũng cung cấp độ chính xác nhận dạng tốt hơn trong môi trường ồn ào hơn

so với các kỹ thuật như chuỗi vecto Taylor (VTS) và giao diện người dùng nâng cao

ETSI (AFE) trong khi yêu cầu tính toán ít hơn nhiều

2.2.4 Nhận dạng giọng nói của các hãng công nghệ

Trên thế giới, công nghệ nhận dạng giọng nói hiện đang phát triển và bùng nỗvới tốc độ nhanh chóng Với những sản phẩm đã có mặt tại thị trường như là trợ lý

ảo Siri của Apple, Cortana của Microsoft, Alexa của Amazon, Samsung cũng có các

ứng dụng như trợ lý Bixby của riêng mình hay không thể không kể đến GoogleAssistant của Google Chúng đều có thé thé dé dàng tìm kiếm chỉ với giọng nói câu

lệnh từ người dùng Có thể chuyển đổi giọng nói thành văn bản ở một mức độ xử lý

với tốc độ cao và chính xác Đồng thời có thé hiểu được câu nói của bạn và phảnhồi lại với một kết quả có thể nói là gần như hoàn hảo

Ở nước ta, nhận dạng tiếng nói vẫn là một lĩnh vực đang được đầu tư phát

triển Do còn tùy thuộc vào điều kiện nghiên cứu và sự phức tạp của ngữ âm tiếng

Việt nên các nghiên cứu về hệ thống dạng giọng nói tiếng Việt vẫn còn nhiều hạnchế Đến nay, nghiên cứu về nhận dạng tiếng Việt đã đạt một số kết quả nhất định

và mang tính ứng dụng cao như: Ứng dụng iSago thực hiện giao tiếp bằng giọng nói

tiếng Việt trên điện thoại iPhone và VIS (Viet Voice Systems) - tổng đài hỏi đápthông tin tự động bằng tiếng Việt, sử dụng công nghệ nhận dạng và tổng hợp giọngnói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh do Phòng thí nghiệm Trí

tuệ Nhân tạo (AILab) của Trường Đại học Khoa học Tự nhiên nghiên cứu, phát

triên.

Mảng điều khiển máy tính bằng giọng nói ở Việt Nam Có thể nói, ViaVoice

là một trong những phần mềm điều khiển máy tính bằng tiếng nói xuất hiện đầu tiên

ở Việt Nam và cũng chỉ sử dụng được bằng tiếng Anh Với Vspeech: đây là một

phần mềm điều khiển máy tính bằng giọng nói, do Đại học Bách Khoa thành phố

Hồ Minh nghiên cứu Phần mềm sử dụng thư viện Microsoft Speech SDK để nhậndạng tiếng Anh nhưng được chuyển thành tiếng Việt Hướng phát triển ứng dụng

Trang 24

điều khiển máy tính bằng giọng nói tiếng Việt đang là tiềm năng và là xu thế củamột số ứng dụng tại Việt Nam, đem đến nhiều tiện ích trong cuộc sống.

2.3 Những vấn đề cần nghiên cứu giải quyết

Tiếng nói phụ thuộc vào nhiều yếu tố nên việc phân tích đặc trưng của tiếngnói là việc không dễ Một số khó khăn cho bài toán nhận dạng tiếng nói là:

Tốc độ nói của mỗi người thường khác nhau: có người nói nhanh, có ngườinói chậm Cùng một từ được phát âm độ dài ngắn khác nhau Có khi một người nóicùng một từ ở hai lần mà kết quả phân tích khác nhau Vùng miền cũng tạo nên sự

khác biệt trong phát âm Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị

thu, cũng làm ảnh hưởng tới hiệu quả của nhận dạng.

Nhận dạng tiếng nói là một trong những lĩnh vực nghiên cứu có tính ứngdụng cao trong thực tiễn Bên cạnh đó hiện nay có nhiều ứng dụng nhận dạng tiếng

nói nhưng chủ yếu là sử dụng tiếng Anh Nhận dạng tiếng nói tiếng Việt còn nhiều

khó khăn và thách thức Trong luận văn này học viên có gắng xây dựng hệ thốngnhận dạng tiếng nói điều khiển các thiết bị trong nhà bằng Tiếng Việt trong môi

trường ồn ào Đề làm được điều này thì việc khử nhiễu cũng là một trong những

thách thức của lĩnh vực này Luận văn có gắng nâng cao độ chính xác trong điềukhiển các thiết bị thông dụng trong gia đình

Trang 25

CHUONG 3: CƠ SỞ LÝ THUYET

3.1 Giới thiệu

Dé thu được các tham số biểu diễn tiếng nói, trước tiên tín hiệu tiếng nóiđược biểu diễn theo dạng sóng, tức là tín hiệu tiếng nói được lấy mẫu và lượng tử

hóa giống như phương pháp biểu diễn tín hiệu tiếng nói dạng sóng Sau đó sẽ tiến

hành xử lý để thu được các tham số của tín hiệu tiếng nói Dé thu được biểu diễncủa tín hiệu tiếng nói dưới dạng sóng người ta phải biểu diễn tín hiệu tiếng nói dướidạng rời rạc Quá trình rời rạc hoá tín hiệu tiếng nói bao gồm các bước sau: lấy mẫutín hiệu tiếng nói, lượng tử hoá các mẫu, mã hoá và nén tín hiệu Để có thể thực

hiện các phân tích trên tín hiệu tiếng nói nhằm tìm ra các đặc trưng riêng cho các

đoạn tín hiệu ứng với các âm khác nhau, tín hiệu tiếng nói có thê được biểu diễnbằng các phương pháp: tín hiệu trên miễn thời gian hoặc miền tần số, hoặc kết hợpthời gian và tần số

Bài toán nhận thức tiếng nói trong máy tính có thể chia thành bài toán nhận

dang và bài toán nhận thức Bài toán nhận dạng các tín hiệu nói được liên kết vớimột khái niệm được cung cấp bởi tri thức có sẵn của con người Đó là tín hiệu tiếngnói với một âm tiết, một từ, hay liên kết với một tên định danh biết trước Ở cấp độnhận thức, tín hiệu tiếng nói không được cung cấp các tri thức có sẵn, mà là do tựhọc trong quá trình huấn luyện, hoạt động

Bài toán nhận dạng người nói là bài toán con của bài toán nhận thức tiếng

nói, trong đó các tín hiệu tiếng nói được liên kết với một định danh gắn với ngườinói do con người cung cấp Thông qua việc trích chọn các đặc trưng khác nhau do

hệ thống phát âm khác nhau của người nói mà hệ thống phân biệt được tín hiệutiếng nói là của người nào

Nhận dạng người nói thường được áp dụng trong việc xác thực quyền truy

cập, giám sát người nói qua giọng nói có thé là tách chọn tiếng nói trong môi trường

nhiều người, ứng dụng xác thực trong giao dịch điện tử hay trong giám định pháp

lý.

Trang 26

Dựa vào chức năng thì bài toán nhận dạng người nói được chia thành 2 bài toán: bài toán định danh người nói (speaker identification) và bài toán xác thực

người nói (speaker verification).

Dựa theo phương pháp thì bài toán nhận dạng được chia thành hai bài toán:

bài toán nhận dạng người nói phụ thuộc vào từ khóa (text-dependent speaker

recognition) và bài toán nhận dạng người nói không phụ thuộc vào từ khóa

(text-independent speaker recognition).

Hiện nay có 3 phương pháp nhận dạng người nói đó là: đó là nhận dạng thủ

công bằng cách so sánh phổ tần số của hai mẫu tiếng nói dé quyết định xem liệu

chúng có phải do cùng một người nói hay không; phương pháp tự động nhận dạng

người nói được thực hiện tự động dựa trên việc mô hình hóa tín hiệu tiếng nói bằng

cách trích chọn các đặc trưng thông tin người nói và sử dụng các phương pháp học

máy đề học và phân lớp và nhận dạng người nói bằng cơ quan thính giác

Bài toán nhận dạng tiếng nói cũng là một bài toán con của bài toán nhận thứctiếng nói trong đó các đoạn tín hiệu tiếng nói được liên kết với một âm tiết hoặc một

từ trong một ngôn ngữ nào đó (tiếng Anh, tiếng Việt, ) do con người cung cấp.Thông qua việc trích chọn các đặc trưng cấu thành âm tiết, từ khác nhau để hệ thốngphân biệt được các tín hiệu tiếng nói là tương ứng với âm tiết, hay từ nào

Dựa vào đặc điểm, hệ thống nhận dạng tiếng nói có thể có các cách phân loại

Sau:

- Nhận dang tiéng nói rời rac và nhận dang tiếng nói liên tục: Trong các hệthống nhận dạng các từ phát âm rời rạc yêu cầu người nói phải dừng một khoảngtrước khi nói từ tiếp theo trong khi hệ thống nhận dạng các từ phát âm liên tụckhông đòi hỏi yêu cầu này

- Nhận dạng tiếng nói độc lập người nói và nhận dạng tiếng nói phụ thuộcngười nói: đối với hệ thống nhận dạng phụ thuộc người nói đòi hỏi tiếng nói ngườinói phải có trong cơ sở dữ liệu của hệ thống, còn đối với hệ thống nhận dạng không

Trang 27

phụ thuộc người nói thì người nói không nhất thiết phải có mẫu trong cơ sở dữ liệu

của hệ thống trước khi nhận dạng

- Nhận dạng tiếng nói với từ điển cỡ nhỏ, nhận dạng tiếng nói với từ điển cỡ

vừa hay cỡ lớn: Hiệu năng của một hệ thống nhận dạng với từ điển cỡ nhỏ thườngcao hơn hiệu năng của các hệ thống nhận dạng có từ điển cỡ vừa và cỡ lớn

- Nhận dạng tiếng nói trong môi trường nhiễu cao và nhận dạng tiếng nóitrong môi trường nhiễu thấp: hiệu năng của các hệ thống nhận dạng tiếng nói không

bị nhiễu sẽ cao hơn hiệu năng của các hệ thống nhận dạng tiếng nói có nhiễu

Các hệ thống nhận dạng tiếng nói tự động được chia làm ba hướng tiếp cận

như sau: hướng tiếp cận ngữ âm - âm học dựa trên lý thuyết âm học - ngữ âm Lý

thuyết này khẳng định sự tổn tại hữu hạn và duy nhất các đơn vị ngữ âm cơ bản

trong ngôn ngữ nói gọi là âm vị, được phân chia thành: nguyên âm - phụ âm, vô

thanh - hữu thanh, âm vang - âm bẹt, Các âm vị có thể xác định bởi tập các đặctrưng trong phổ của tín hiệu tiếng nói theo thời gian; Hướng tiếp cận nhận dạngmẫu dựa vào lý thuyết xác suất - thống kê dé nhận dạng dựa trên ý tưởng: so sánh

đối tượng cần nhận dạng với các mẫu được thu thập trước đó đề tìm mẫu giống đối

tượng nhất; Hướng tiếp cận sử dụng mạng nơ-ron đặc biệt là mạng học sâu đang

được sử dụng và tỏ ra rất thành công trong các bài toán nhận dạng nói chung và bàitoán nhận thức tiếng nói nói riêng

3.2 Các đặc trưng của tiếng nói

3.2.1 Đặc điểm

Sóng âm thanh khi nói

Hình 3 1 Biểu đồ dạng sóngTiếng nói là phương thức giao tiếp cơ bản nhất của con người được phát ra

dưới dạng sóng âm thanh Tai người chỉ cảm thụ được những dao động hay còn gọi

Trang 28

là sóng âm trong miễn tần số từ khoảng 16Hz đến khoảng 20000Hz Giọng nam

phát âm thường trong miên tần số từ 75Hz đến 150Hz, giọng nữ từ 200Hz đến

300Hz Mỗi người có đặc tính phát âm riêng biệt Một số định đạng lưu trữ: wav,mp3, au, aif, smp tần số lấy mẫu thường là 8000, 11025, 96000Hz với độphân giải là 8 hoặc 16/bit/mau

3.2.2 Tiếng nói tiếng Việt

Tiếng Việt rất phức tạp [23] do sự phân hóa đa dạng về phân bố dân cư,phân hóa văn hóa và các sự kiện lịch sử trong quá khứ Tiếng Việt là một ngôn ngữđơn âm, có thanh điệu, có phụ âm không kết thúc Tiếng Việt chính thức được phiên

âm bằng chữ Quốc ngữ, một hệ thống chữ viết dựa trên La Mã Tiếng Việt có rất

nhiều từ vay mượn từ các nước khác, đóng góp nhiều nhất là Trung Quốc

Tiếng Việt là một ngôn ngữ có âm tiết, thanh điệu Mỗi âm tiết tiếng Việt

có thể được coi là sự kết hợp của Âm đầu, Âm cuối và Thanh điệu [23]

Mỗi từ tiếng Việt có thé được phát âm như hình 4:

THANH ĐIỆU

VAN

AM ĐẦU

Am dém Am chính Am cuối

Hình 3 2 Cấu trúc của âm tiết Tiếng Việt

Thanh phần ban đầu là một phụ âm (không bắt buộc) Có 21 chữ cái đầu

trong tiếng Việt

1 Phần cuối có thể được chia thành thành âm đệm, âm chính và âmcuối

2 Am đệm va âm cuối là tùy chọn và có thể không tồn tại trong một

âm tiết

3 Âm chính là một nguyên âm hoặc một âm đôi

4 Âm cuối là một phụ âm hoặc một bán nguyên âm

Hãy xem ví dụ về cấu trúc của âm tiết tiếng Việt, chăng hạn như:

“NGUYEN” trong hình 3.3 sau đây

Trang 29

Hình 3 3 Âm tiết tiếng Việt: Nguyên

3.2.3 Các đặc trưng cơ bản của tín hiệu tiếng nói

Âm thanh tự nhiên Âm thanh tổng hợp

Hình 3 4 Đặc trưng âm thanh nhận được ngoài thực tế

Các đặc tính của âm thanh tự nhiên gồm:

Phổ tín hiệu: biểu diễn của tín hiệu trên miền tần số Các đỉnh của phổ tínhiệu là tần số trung tâm của tín hiệu (còn gọi là tần số formant) Phé tin hiéu sau khi

nhân với ham cửa số Hamming sẽ sử dụng phép biến đổi Fourier nhanh ta thu được

biên độ phổ chứa các thông tin có ích của tín hiệu tiếng nói

Ảnh phổ: là một trong những công cụ cơ bản trong nhận dạng tiếng nói

Nhìn vào ảnh phổ, ta dé dang phân biệt vùng biên của từng âm tiết Nó chuyền đồi

sóng tín hiệu tiếng nói từ 2 chiều (tần số, cường độ) thành 3 chiều (tần số, cường

độ, thời gian)

Trang 30

Tần số formant: đóng vai trò quan trọng trong phân tích phỏ tín hiệu tiếng

nói Nó được tạo nên do sự cộng hưởng của tuyến âm và hiển thị trong quang phô là

các dải màu đậm nằm ngang biêu thị cho các tần số formant

Tần số cơ bản: tần số cơ bản (F0) mang tính chất của thanh điệu, biểu diễncao độ, ngữ điệu của tiếng nói, được sử dụng trong lĩnh vực tổng hợp tiếng nói

Âm vô thanh: tín hiệu có đặc điểm là không tuần hoàn (p, h, k, ch, th ),năng lượng tập trung ở tần số cao Các tần số phân bố khá đồng đều trong 2 miềntần số cao và tần số thấp

Âm hữu thanh: tín hiệu tuần hoàn, năng lượng phân bổ không đồng đều, tínhiệu có những vạch cực trị, đặc điêm của nó là phổ tín hiệu có tần số cơ bản (F0)

3.3 Các mô hình nhận dạng giọng nói

3.3.1 Giới thiệu

Nhiều ứng dụng được phát triển gần đây để nhận đạng, giao diện lệnh thoại,

ứng dụng chuyền lời nói thành văn bản và quy trình nhập dữ liệu dựa trên việc sửdụng hệ thống nhận dạng giọng nói (ASR) Các hệ thống ASR đã cải thiện đáng kêhiệu suất trong những thập kỷ gần đây nhưng chỉ trong môi trường lý tưởng, môitrường ồn ào có thể không đạt được hiệu suất như mong đợi của các hệ thống này

Vé mặt phát triển công nghệ, chúng ta có thé vẫn còn ít nhất vài thập ky

nữa mới có các hệ thống trí tuệ nhân tạo thông minh, tự chủ thực sự giao tiếp với

chúng ta theo cách thực sự “giống như con người”

Tuy nhiên theo nhiều cách, chúng ta đang dần tiến tới viễn cảnh tương lai

này với tốc độ nhanh đáng ngạc nhiên nhờ vào sự phát triển liên tục của công nghệ

nhận dạng giọng nói tự động Và ít nhất cho đến nay, nhận dạng giọng nói tự độngcũng có những cải tiến thực sự hữu ích trong nhiều ứng dụng

Mô hình âm thanh là mô hình thống kê ước tính xác suất một âm vị nhất

định đã được phát ra trong một đoạn âm thanh được ghi lại Mô hình âm thanh cũng

là t tệp chứa các đại diện thống kê của từng âm thanh riêng biệt tạo nên một từ.

Mỗi biểu diễn thống kê này được gán một nhãn gọi là âm vị Ví dụ như ngôn ngữ

Trang 31

tiếng Anh có khoảng 40 âm thanh riêng biệt hữu ích cho việc nhận dạng giọng nói,

và do đó chúng ta có 40 âm vị khác nhau.

3.3.2 Mô hình Markov ẩn (HMM)

Mô hình âm học được tạo ra bằng cách lấy một cơ sở dữ liệu lớn về tiếngnói (được gọi là kho ngữ liệu) và sử dụng các thuật toán huấn luyện đặc biệt để tạo

ra các biểu diễn thống kê cho mỗi âm vị trong một ngôn ngữ Các biểu diễn thống

kê này được gọi là Mô hình Markov an (Hidden Markov Model - HMM) Mỗi âm

vị có HMM cua riêng nó.

Mô hình Markov ân là mô hình thống kê dựa trên lý thuyết chuỗi Markovvới các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ cáctham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình đượcrút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp Đây là một mô hìnhhọc máy điền hình cho bài toán nhận dạng tiếng nói [17] Mô hình này cho phép

xem xét đến hai thành phần là sự kiện quan sát được và các sự kiện ân Ví dụ trong

nhận dạng tiếng nói thì sự kiện quan sát được là các đặc trưng âm học của tiếng nói,còn sự kiện ẩn là các từ

HMM là mô hình xác suất dựa trên lý thuyết về chuỗi Markov bao gồm cácthành phần sau:

O = {01, 02, , or} là tập các vector quan sát gồm T phan tử

° S = {si, s2, Sw} là tập hữu hạn các trạng thái s gồm N phan tử

° A= {an, ai2, , amv} là ma trận hai chiều trong đó ay thể hiện xácsuất dé trang thái s; chuyển sang trạng thái s; , với ay > 0 và DL, ayy = 1 Ví

trạng thái từ S2 đến Sw, trong đó bự thể hiện xác suất để quan sát O; thu được từtrạng thái S; tại thời điểm t Trong nhận dạng tiếng nói ham bir thường được sử dụng

là hàm Gaussian với nhiều thành phần trộn (mixture), khi đó mô hình được gọi là

mô hình kết hợp Hidden Markov Model va Gaussian Mixtrue Model

(HMM-GMM).

Trang 32

° I] = f} là tập xác suất trạng thái đầu, với mi = P(qi = si) với i=1 N

là xác suất đề trạng thái s; là trang thái đầu qu

Nhu vậy một cách tổng quát một mô hình Markov an 2 có thé duge biéudiễn bởi A= (A, B, []) Trong lĩnh vực nhận dạng thi mô hình Markov ấn được ápdụng với hai giả thiết sau:

Một là gia thiết về tính độc lập, tức không có mi liên hệ nào giữa hai

quan sát lân cận nhau o¡ và oj+1, khi đó xác suất của một chuỗi các quan sát O={o¡}

có thể được xác định thông qua xác suất của từng quan sát o¡ như sau:

T

po) =| [Poo G1)

i=1

thuộc vào trạng thái trước nó se.

Hình 3 5 Mô hình HMM-GMM có cấu trúc dạng Left-Right liên kết không đầy đủ

Trong nhận dạng tiếng nói, mô hình HMM-GMM có thê được sử dụng để

mô hình hoá cho các đơn vị tiếng nói như Âm vị (phoneme), Từ (word) hoặc Câu

(sentence) Khi đó tập quan sát O={o.} sẽ tương ứng với mỗi một phát âm

(utterance) trong đó o: là tập các vector đặc trưng (feature vector) của tín hiệu tiếng

nói đầu vào thu được tại thời điểm t Có nhiều cấu trúc HMM khác nhau, tuy nhiên

trong thực tế, cấu trúc của HMM-GMM thường được sử dụng có 5 hoặc 7 trạng tháitheo cấu trúc Left-Right được mô tả ở trên Quá trình xây dựng một hệ thống nhận

dạng tiếng nói sử dụng mô hình HMM-GMM thông thường có hai bước như sau:

Trang 33

Huấn luyện (Training): Đối với từng ngôn ngữ, dữ liệu và mục đích cụ thé ta

sẽ dùng HMM - GMM dé mô hình cho các đơn vị nhận dang là âm vi, Từ hoặc Câu.

Khi đó một hệ thống sẽ bao gồm một tập các mô hình HMM-GMM ^={2:} Đối với

mỗi phát âm O={o.} được mô hình bởi một chuỗi các trạng thái Q={qr} với từ một

hoặc nhiều mô hình 2¡ Quá trình huấn luyện là quá trình ước lượng các tham số sao

cho xác suất P(Q|O, 2) là lớn nhất, P(Q|O, 2.) được tinh theo công thức (3.2), khi đó

P(QIO,À) được gọi là xác suất mô hình âm hoc (acoustic model)

P(0,Q,2) = max {P(qy, dar , qy = 1,04, 02), 0yÌÄ)} (3 2)

Nhận dang (decoding): Nhận dang là quá trình xác định chuỗi trạng thái

{qi}= Q, qi € S từ các mô hình HMM {2¡}=2 đã được huấn luyện tương ứng với

một chuỗi đầu vào {o,}=O sao cho xác suất P(O,QJA) là lớn nhất, với :

Q

P(Q|0,A) = Ye deg yeybee (Oe), = 1 (8:3)

Ta

3.3.3 Mô hình mang no-ron

Mạng nơ-ron cau trúc Perceptron nhiều lớp như hình 3.6 được sử dụng

nhiều trong các hệ thống nhận dạng Mạng nơ-ron MLP (MultiLayer Perceptron) là

một cấu trúc mạng gồm có một lớp vào (input), một lớp ra (output) và một hoặc

nhiều lớp An (hidden) Véc-tơ đầu vào sẽ được đưa qua lớp vào (input) của mạng và

sau đó các tính toán được thực hiện lan truyền tới (feed-forward) từ lớp vào input

sang các lớp ẩn và kết thúc ở lớp ra (output) Hàm kích hoạt kết hợp với các nốt an

Trang 34

có thể là hàm tuyến tính hay phi tuyến và có thể khác nhau giữa các nót Hình 3.2

mô tả các thành phần cơ bản của một nốt mạng Hình 3.6 a mô tả cấu trúc của một

mạng MLP có 2 lớp và hình 3.6 b mô tả cấu trúc của một mạng có 3 lớp (1 lớp đầuvào, 1 lớp an va 1 lớp ra)

Xét một mạng MLP có N lớp với kích thước của các lớp tương ứng là

Si, ,Si, Sn (Trong đó lớp đầu vào là S¡ và lớp đầu ra là Sx) Gọi giá trị kích hoạtcủa một nốt j trong lớp thứ ¡ là Ajj, trong số của liên kết giữa nó với nót thứ k tronglớp phía trước i-1 là Wijx, và trọng số của nót nay trong lớp mạng hiện tại là Bij

Khi đó hàm lan truyền thẳng (feed-forward) để xác định giá trị ở lớp ra sẽ được thực

hiện lần lượt trên từng lớp theo công thức sau:

giữa Y và Ÿ thoả mãn một điều kiện nào đó Hàm xác định mối quan hệ giữa Y và

Ÿ gọi là hàm mục tiêu Hàm mục tiêu thường được sử dụng là hàm bình phương tốithiểu độ lệch giữa Y và Ÿ như công thức sau:

Trong đó: Sy là kích thước lớp dau ra, Y;,k là giá trị mong muốn tại nốt thứ k

ở lớp dau ra đối với vector đầu vào Xụ, Ÿ,k là giá trị của hàm lan truyền thẳng tạinốt thứ k ở lớp dau ra đối với véc-tơ đầu vào Xt

Trang 35

Nhu vậy mục tiêu của bước huấn luyện mang là tối thiểu giá trị E trong công

thức (3.5) Một trong các phương pháp huấn luyện phổ biến được sử dụng trong

huấn luyện mạng MLP là phương pháp lan truyền ngược Ý tưởng chính củaphương pháp tối thiểu giá trị E bằng cách dùng chính E dé xác định lại các giá trịtrọng số trong công thức (3.5) Quá trình tính toán lại được thực hiện ngược lại từlớp thứ N đến lớp thứ 2 của mạng theo công thức sau:

Có hai cách tiếp cận chính trong việc áp dụng mạng nơ-ron cho nhận dạng

tiếng nói Cách tiếp cận thứ nhất là sử dụng mạng nơ-ron như một mô hình âm học

có chức năng phân lớp hay nhận dạng mẫu đầu vào Cách tiếp cận này thường được

sử dụng trong các hệ thống nhận dạng với từ vựng nhỏ như các hệ thống điều khiểnhoặc tương tác người máy bằng tiếng nói Khi đó với mỗi một vector đặc trưng đầu

vào đưa qua mạng ta sẽ thu được ở đầu ra một quyết định tương ứng Cách tiếp cận

thứ hai là kết hợp mô hình HMM và GMM làm mô hình âm học trong các hệ thốngnhận dạng từ vựng lớn Trong cách tiếp cận này hàm xác suất phát tán được thaybằng hàm kích hoạt ở lớp đầu ra của mạng nơ-ron thay vì là hàm GMM như cáchtruyền thống

3.3.4 Mạng học sâu

Neural network là gì?

Neural là tính từ của neuron (ron) [38], network chỉ cấu trúc, cách các ron đó liên kết với nhau, nên neural network (NN) là một hệ thống tính toán lay camhứng từ sự hoạt động của các nơ-ron trong hệ thần kinh Mang no-ron nhân tạo cònđược gọi là “mạng nơ-ron” hoặc “hệ thống thần kinh nhân tạo” Người ta thườngviết tắt Mạng thần kinh nhân tạo và gọi chúng là “ANN” hoặc đơn giản là “NN”

Trang 36

nơ-Mô hình neural network.

> Logistic regression

Logistic regression là mô hình neural network don giản nhât chi với input

layer va output layer Mô hình của logistic regression từ bai trước là: 9 = o(wo +W1 * X1 +W2 * X2) Có 2 bước:

Dé biểu diễn gọn lại ta sẽ gộp hai bước trên thành một trên biểu đồ hình bên dưới

Hình 3 7 Mô hình logistic regresion

Hệ số wo được gọi là bias Để ý từ những bài trước đến giờ dữ liệu khi tính

toán luôn được thêm 1 để tính hệ số bias wo Phương trình đường thăng sẽ thế nào

= w) *x, sẽ luôn đi qua gốc tọa độ và nónếu bỏ wo, phương trình giờ có dạng: )

không tổng quát hóa phương trình đường thăng nên có thể không tìm được phươngtrình mong muốn => Việc thêm bias (hệ số tự do) là rất quan trọng

Hàm sigmoid ở đây được gọi là activation function.

> Mô hình tong quát

Trang 37

Layer đầu tiên là input layer, các layer ở giữa được gọi là hidden layer, layer

cuối cùng được gọi là output layer Các hình tròn được gọi là node

Mỗi mô hình 3.7 luôn có 1 input layer, 1 output layer, có thể có hoặc khôngcác hidden layer Tổng số layer trong mô hình được quy ước là sé layer - 1 (không

tinh input layer).

Vi dụ như ở hình 3.8 trên có | input layer, 2 hidden layer và 1 output layer Số

lượng layer của mô hình là 3 layer.

Mỗi node trong hidden layer và output layer :

e Liên két với tat cả các node ở layer trước đó với các hệ số w riêng.

uur layer

Hidden layer 1 Tidon layer 2

Hình 3 8 Mô hình neural network

Mạng nơ-ron sâu

Mạng ron sâu (Deep Neural Network- DNN) thực chất là một mạng ron truyền tới có nhiều lớp ẩn, trong đó mỗi lớp ẩn có một số no-ron nhất định, dữliệu đầu vào của mỗi lớp là tất cả các kết quả đầu ra của lớp trước được nhân vớimột vectơ trong sé, tính kết quả và chuyển nó qua một hàm kích hoạt phi tuyến tính

nơ-như sigmoid hoặc tanh nơ-như công thức 3.5 Trong mô hình học sâu có 3 loại mạng

Trang 38

được sử dụng nhiều trong lĩnh vực thị giác máy và nhận dạng tiếng nói đó là bộ tự

mã hóa, mạng tích chập, mạng hồi quy

Bộ tự mã hóa

Bộ tự mã hóa (Auto-Encoders) là một mô hình cụ thể của mạng truyền tớinhiều lớp với đầu vào cũng là đầu ra Thông thường, bộ tự mã hóa được sử dụngtrong bài toán nén dữ liệu Vì thê, bộ tự giải mã sẽ có các lớp dn với số nơ-ron íthơn số nơ-ron ở lớp đầu vào Bộ tự mã hóa sẽ nén dữ liệu đầu vào vào một bộ mã

có số chiều ít hơn và sau đó tái tạo lại dữ liệu đầu ra từ bộ mã biểu diễn này Bộ mã

này được gọi là bản tóm tắt hoặc bản nén của dữ liệu đầu vào, và bộ mã này cũng

được gọi là biểu diễn của dữ liệu trong không gian tiềm an

Thông thường, một bộ tự mã hóa bao gồm 3 thành phần đó là: bộ mã hóa, mã

và bộ giải mã Bộ mã hóa nén dữ liệu đầu vào và tạo ra bộ mã, bộ giải mã sau đó tái

tạo lại dữ liệu đầu vào chỉ dựa trên bộ mã này

Bộ tự giải mã thường được sử dụng như một phương pháp rút gọn chiều dữliệu, hay phương phép nén dữ liệu Bộ tự mã hóa có một số đặc tính quan trọng sau:

- Tinh cụ thé: Bộ tự mã hóa chỉ có thé mã hóa được dữ liệu có ý nghĩa tương

tự như dữ liệu mà chúng đã được huấn luyện Vì vậy, không thể sử dụng bộ tự mã

hóa được huấn luyện bởi các chữ số viết tay dé nén ảnh phong cảnh

- Tính mắt thông tin: Kết quả đầu ra của bộ tự mã hóa sẽ không chính xácgiống như dữ liệu đầu vào, nó chỉ là một biểu diễn gần đúng của dữ liệu đầu vào

- Tính không giám sát: Bộ tự mã hóa không cần phải gán nhãn dữ liệu khi

huấn luyện Vì vậy, bộ tự mã hóa được coi là một kỹ thuật học không giám sát

Trang 39

Input ‘Output

Hình 3 9 Mô hình bộ tự mã hóa

Mang no-ron nhân tạo

Mang no ron nhân tao (Artificial Neural Network — ANN) là một mô hình xử

ly thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật,

bao gồm số lượng lớn các Nơ-ron được gắn kết dé xử lý thông tin ANN hoạt độnggiống như bộ não của con người, được học bởi kinh nghiệm (thông qua việc huấn

luyện), có khả năng lưu giữ các tri thức và sử dụng các tri thức đó trong việc dự

đoán các dữ liệu chưa biết (unseen data)

Một mang nơ-ron là một nhóm các nút nối với nhau, mô phỏng mạng noronthần kinh của não người Mang no ron nhân tạo được thé hiện thông qua ba thành

phần cơ bản: mô hình của nơ ron, cấu trúc và sự liên kết giữa các nơ ron Trong

nhiều trường hợp, mạng nơ ron nhân tạo là một hệ thống thích ứng, tự thay đổi cầu

trúc của mình dựa trên các thông tin bên ngoài hay bên trong chạy qua mạng trong quá trình học.

Trang 40

Input Hidden Output layer layer layer

Hình 3 10 Kiến trúc mạng nơ-ron nhân tạo

Kiến trúc chung của một ANN gồm 3 thành phần đó là Input Layer, Hidden

Layer và Output Layer (Hình 3.8).

Trong đó, lớp an (Hidden Layer) gồm các nơ-ron, nhận dit liệu input từ cácNơ-ron ở lớp (Layer) trước đó và chuyển đôi các input này cho các lớp xử lý tiếptheo Trong một mạng ANN có thể có nhiều Hidden Layer

Lợi thế lớn nhất của các mạng ANN là khả năng được sử dụng như một cơchế xấp xỉ hàm tùy ý ma “học” được từ các dữ liệu quan sát Tuy nhiên, sử dụng

chúng không đơn giản như vậy, một số các đặc tính và kinh nghiệm khi thiết kế một

mạng nơ-ron ANN.

Chọn mô hình: Điều này phụ thuộc vào cách trình bay dir liệu và các ứng

dụng Mô hình quá phức tạp có xu hướng dẫn đền những thách thức trong quá trình

học.

Cấu trúc và sự liên kết giữa các nơ-ron

Thuật toán học: Có hai vấn đề cần học đối với mỗi mạng ANN, đó là họctham số của mô hình (parameter learning) và học cấu trúc (structure learning) Họctham số là thay đổi trọng số của các liên kết giữa các noron trong một mạng, cònhọc cấu trúc là việc điều chỉnh cấu trúc mạng bằng việc thay đổi số lớp ấn, số nơ-

Tiêu đề	Ứng dụng Deep Neural Network (DNN) nhận dạng người trong nhà thông qua sinh trắc học bằng giọng nói
Tác giả	Hồ Thị Minh Trâm
Người hướng dẫn	Tiến Sĩ. Nguyễn Minh Sơn
Trường học	Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	114
Dung lượng	49,29 MB

Tài liệu tham khảo	Loại	Chi tiết
5. Alemdar H. and Ersoy C.: Multi-resident activity tracking and recognition in smart environments Journal of Ambient Intelligence and Humanized Computing, Vol. 8, 02/2017	Khác
6. Rabiner L. R.: Readings in speech recognition. A tutorial on hidden markov models and selected appli- cations in speech recognition. Morgan Kaufmann Publishers Inc., San Francisco, pp 267-296, 1990	Khác
7. Lafferty, J., McCallum, A., and Pereira, F.: Conditional random fields: Probabilistic models for seg- menting and labeling sequence data. Proc. 18th International Conf. on Machine Learning. Morgan Kaufmann. pp. 282-289, 2001	Khác
8, Son N. T., Dung N., Tung S. N., Son, V. X., Long H., Qing Z., and Mohan K.: On multi-resident acti recognition in ambient smart-homes. Artificial Intelligence Review, Springer Nature B.V. 2019	Khác
9. Kim C. and Stern R. M.: Power-Normalized Cepstral Coefficients (PNCC) for Robust Speech Recog- nition. IEEE/ACM ‘Transactions on Audio, Speech, and Language, vol. 24, no. 7, pp. 1315-1329, July 2016	Khác
10. Cornaz C, Hunkeler U, and Velisavljevic V.: An Automatic Speaker Recognition System. Lausanne, Switzerland, 2003	Khác
11. Kumar P., Vardhan K., and Krishna K.: Performance evaluation of MLP for speech recognition in noise environments using MFCC & wavelets. International Journal of Computer Science & Communication(IJCSC) Ver-1, Iss.2, pp.41-45, 2010	Khác
12. Muda L., Began M., and Elamvazuthi M.: Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques. Journal of Computing, pp 139- 140, 2010	Khác
13. Dave N.: Feature extraction methods LPC, PLP and MFCC in speech recognition. International Jour- nal For Advance Research in Engineering And Technology, pp. 1-4, 2013	Khác
14. Reynolds D. A. An overview of automatic speaker recognition technology. Proc. of IEE Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2002	Khác
15. Fazel A., Chakrabartty S.: An Overview of Statistical Pattern Recognition Techniques for Speaker verification. IEEE Circuit and System Magazine, pp. 62-81, 2011	Khác
16. Togneri R. and Pullella D.: An Overview of Speaker Identification: Accuracy and Robustness Issues.IEEE Circuits and Systems Magazine, vol. 11, no. 2, pp. 23-61, Secondquarter 2011	Khác
17. Xihao S. and Miyanaga Y.: Dynamic time warping for speech recognition with training part to reduce the computation. International Symposium on Signals, Cireuits and Systems ISSCS2013, pp. 1-4, 2013	Khác
18. Pawar R. V, Kajave P. P. and Mali S. N: Speaker Identification using Neural Networks. World Academy of Science, Engineering and Technology, 2005	Khác
19. Bhushan C. Kamble: Speech Recognition Using Artificial Neural Network ~ A Review International Journal of Computing, Communication and Instrumentation Engineering, Vol. 3, Issue 1, 2016	Khác
20. Shahin I. and Botros N.: Text-dependent speaker identification using hidden Markov model with stress sation technique. Proceedings IEEE Southeastcon 98 Engincering for a New Era, Orlando, pp.61-64, 1998	Khác
21. Maesa A., Garzia F., Scarpiniti M., and Cusani R.: Text Independent Automatic Speaker Recog- nition System Using Mel-Frequency Cepstrum Coefficient and Gaussian Mixture Models. Journal of Information Security, pp. 335-340, 2012	Khác
22. Campbell G. P.: Speaker recognition: A tutorial. Proc. IEEE, vol. 85, no. 9, pp. 1437-1462, Sep. 1997.International	Khác