Do đó, nghiên cứu này xây dựng một mô hình trên nền tảng IoT sử dung sinh trắc học giọng nói như một phương tiện xác định các cá nhân dé điều khiển các thiết bị thông minh trong môi trườ
Trang 1ĐẠI HỌC QUỐC GIA THÀNH PHÓ HÒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
HO THI MINH TRAM
UNG DUNG DEEP NEURAL NETWORK (DNN)
NHAN DANG NGUOI TRONG NHA THONG QUA SINH TRAC HỌC BẰNG GIỌNG NÓI
LUẬN VĂN THẠC SĨ
NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 8480201
Trang 2ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
HO THI MINH TRAM
UNG DUNG DEEP NEURAL NETWORK (DNN)
NHAN DANG NGUOI TRONG NHA THONG QUA SINH TRAC HỌC BANG GIỌNG NÓI
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
Mã số: 8480201
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TIEN SĨ NGUYEN MINH SON
Trang 3LỜI CAM ĐOANTôi xin cam đoan: Luận văn tốt nghiệp với Đề tài “Ứng dụng deep neuralnetwork (DNN) nhận dạng người trong nhà thông qua sinh trắc học bằng giọng nói”
là công trình nghiên cứu của tôi, dưới sự hướng dẫn của TS Nguyễn Minh Sơn Cáctrích dẫn, tham khảo trong quá trình nghiên cứu đều được trích dẫn day đủ, ghi rõnguồn gốc Tôi xin chịu hoàn toàn trách nhiệm nếu có bất kỳ sao chép không hợp
lệ, vi phạm quy chế đảo tạo
Người thực hiện
Hồ Thị Minh Trâm
Trang 4LỜI CẢM ƠN
Qua quãng thời gian học tập, nghiên cứu và rèn luyện tại Trường Đại
học Công nghệ thông tin, được sự hướng dẫn và giảng dạy nhiệt tình của Quý
Thầy Cô, đặc biệt là các Thầy Cô ngành Công nghệ thông tin, ngành Khoa học máy tính đã truyền đạt những kiến thức mới cũng nhưng những kinh
nghiệm quý báu trong suốt thời gian học tại Trường
Chân thành cám ơn TS Nguyễn Minh Sơn đã tận tình hướng dẫn giúp
đỡ tôi hoàn thành đề tài luận văn thạc sĩ này.
Tôi cũng gửi lời cám ơn đến Ban giám hiệu cùng các thầy cô trong tổ
Tin học trường THPT Phan Thiết đã tạo điều kiện thuận lợi cho tôi trong công
việc đê tôi có thời gian hoàn thành chương trình học Sau Đại học tại trường Đại học Công nghệ thông tin.
Mặc dù đã né lực thực hiện luận văn nhưng do kiến thức kinh nghiệm
còn hạn hẹp nên không tránh khỏi những thiếu sót trong cách diễn đạt và trình bày, rất mong nhận được sự góp ý quý báu của các Thầy Cô.
Một lần nữa xin được kính chúc Thầy Cô nhiều sức khỏe, niềm vui và
thành công trong công việc và cuôc sống
Trang 5LOI CAM ĐOAN
LOI CAM ON
MUC LUC
DANH MUC CAC KY HIEU VA CHU VIET TAT
DANH MUC CAC BANG
DANH MỤC CÁC HINH VE, DO THỊ
1.5 ĐÓI TƯỢNG VÀ PHAM VI NGHIÊN CỨU
CHƯƠNG 2: CÁC NGHIÊN CỨU VA HƯỚNG TIẾP CAN LIÊN QUAN 152.1 TINH HÌNH NGHIÊN CUU CUA CÁC TAC GIA TRONG NƯỚC 152.1.1 Nghiên cứu nhận dạng giọng nói Tiếng Việt sử dụng bộ công cụ Kaldi
15
2.1.2 Nhận dang người trong nha thông minh băng Sinh trac học giọng nói 15
2.1.3 Nhận dạng giọng nói tiếng Việt cho Tự động hóa tại nhà sử dụng
phương pháp trích xuat đặc trưng MFCC và kĩ thuật DTW
2.2 TINH HÌNH NGHIÊN CỨU CUA CAC TÁC GIẢ NƯỚC NGOÀI
2.2.1 Nghiên cứu sử mạng noron (DNN) để tạo mô hình âm thanh trong
nhận dạng giọng nói
16
2.2.2 Nhận dang người nói va ngôn ngữ bang mô hình DNN
2.2.3 Hệ số Coestral Chuẩn hóa Công suất (PNCC) dé nhận dạng giọng nói
mạnh mẽ
2.2.4 Nhận dạng giọng nói của các hãng công nghệ
2.3 Những van đề cần nghiên cứu giải quyết
CHƯƠNG 3: CƠ SỞ LÝ THUYET
3.1 Giới thiệu
Trang 63.2 Các đặc trưng của tiếng nói
3.2.1 Đặc điểm
3.2.2 Tiếng nói tiếng Việ
3.2.3 Các đặc trưng cơ bản của tín hiệu tiêng ni
3.3 Các mô hình nhận dạng giọng nói
57 3.4.3 Đặc trưng PLP
ó 59
60
61 61 62 62
63 64 64
4.2.2 Phân khung dữ liệu
4.2.3 Lấy cửa số tín hiệu
4.2.4 Biến đổi chuỗi Fourie:
4.2.5 Bộ lọc gamatone
66 67 68 68
4.4 Xây dựng mô hình huấn luyện dữ liệu bằng giải thuật ANN và các kịch bản
thực nghiệm 72
4.2.6 Xử lý nhiễm với mặt nạ không đối xứng
4.2.7 Weight Smoothing
4.2.8 Chuẩn hóa công suất trung bình
4.2.9 Những cái tiến của kĩ thuật PNCC
Trang 74.3.1 Giai đoạn huấn luyện mô hình
4.3.2 Kịch bản nhận diện chủ nhà và điêu khiên thi
4.2.3 Kịch bản kiểm thử sản phẩm
CHƯƠNG 5: KET QUA THUC NGHIỆM
5.1 Thực nghiệm giải thuật PNCC lọc nhiễu âm thanh
5.1.1 Độ chính xác
5.1.2 Tính phức tap
5.2 Kết quả nhận diện chủ nhà với từ khóa là “Nguyên” 785.3 Kết quả điều khiển thiết bị
5.4 Kết quả điều khiển thiết bị
5.5 Kết quả điều khiển trong môi trường nhiễu
5.6 Những cải tiến trong thiết kế
CHƯƠNG 6: KET LUẬN VÀ KIEN NGHỊ
6.1 Về nội dung nghiên cứu
Trang 8DANH MỤC CÁC KY HIỆU VA CHỮ VIET TATSTT | Cum tir/ Từ Tiếng Anh Nghia tiếng Việt
Ký hiệu
1 AFE | Advanced Front End Giao diện người dùng nâng
2 AlLab | Artificial Intelligence LAB Phong thí nghiệm Trí tuệ
Nhân tạo.
3 ANN Artificial Neural Network Mang no-ron nhan tao
4 ASR Automatic speech recognition đông, dạng giọng nói tự
5 BNF Bottleneck features Tinh năng nút cô chai
6 DAC Domain Adaptation Challenge Thử thách thích ứng miên
7 DNN Deep Neural Network Mang hoc sau
8 DTW Dynamic Time Warping one pháp lập trình
9 EM Expectation-Maximization Ky vong - tối đa hóa
10 GMM Gaussian Mixture Model Mô hình Gaussian hon hợp
11 HMM Hidden Markov Model Mô hình Markov ân
12 IoT Internet of Think
13 LPC Linear Predictive Coding Mã dự báo tuyên tính
14 LRE language recognition evaluation ám giá nhận dang ngôn
15 MECC | Mel-frequency cepstral coefficients | Hệ số Mel
16 MLP MultiLayer Perceptron Mang no-ron
U PNCC Power-Normalized Cepstral Hệ sô Cepstral
Coefficients
18 RNN Recurrent Neural Network Mang hôi qu’
19 SGD Stochastic gradient descent
20 SR Speaker recognition Nhận dạng người nói
21 SR Language recognition Nhận dạng ngôn ngữ
ystems tự động bằng tiếng Việt
23 VTS vector Taylor series Chuỗi vecto Taylor
Trang 9DANH MỤC CÁC BẢNG
Bang | Bộ dữ liệu thực nghiệm nhận dạng người trong nha .6l
Bang 2 Bộ dữ liệu thực nghiệm cho điều khién thiết bị trong nhà 61
Bảng 3 Độ chính xác nhận dang trong các môi trường nhiễu khác nhau ở mức độ
én cao lang T7Bảng 4 Độ chính xác nhận dạng trong các môi trường nhiễu khác nhau ở mức ồn
Bang 7 Mô tả két quả nhận dạng chủ nhà
Bang 8 Bảng kết quả nhận dạng không phải chủ nhà
Bang 9 Bảng kết quả nhận dang chủ nhà và điều khiển thiết bị
Bang 10 Bảng kết quả các các kịch bản không nhiễu và có nhỉ
Trang 10DANH MỤC CÁC HÌNH VẼ, ĐỎ THỊ
Hình 2 1 Hệ thống nhà thông minh Việt Nam trên công nghệ WIFI
Hình 2 2 Khớp mẫu trên thiết bị đầu cuối
Hình 3 1 Biểu đồ dạng sóng
Hình 3 2 Cấu trúc của âm tiết Tiếng Việ
Hình 3 3 Âm tiết tiếng Việt: Nguyên
Hình 3 4 Đặc trưng âm thanh nhận được ngo:
6 Mạng Perceptron (a) Perceptron 1 lớp, (b) Perceptron nl
Hình 3 7 Mô hình logistic regresion
Hình 3 8 Mô hình neural network
Hình 3 9 Mô hình bộ tự mã hóa
Hình 3 10 Kiến trúc mạng nơ-ron nhân tạo
Hình 3 11 Quá trình xử lý thông tin của một mạng nơ-ron nhân ta
Hình 3 12 Mô hình mạng hồi quy
Hình 3 13 Mô hình mạng tích chập CNN
Hình 3 14 Tích chập một bộ lọc với dữ liệu đâu vac
Hình 3 15 Ví dụ lấy mẫu với hàm max
Hình 3 16 Mô hình mạng tích chập LeNet 5 [Lecun, 1998].
Hình 3 17 Mô hình mạng tích chập AlexNet [Krizhevsky, 2012]
Hình 3 18 Mô hình mạng ZF Net [Zeiler, 2014]
Hình 3 19 Mô hình mang tích chập VGGNET [Simonyan, 2014]
Hình 3 20 Kiến trúc của các thuộc tính trong CNN
Hình 3 21 Kiến trúc các layer của CNN
Hình 3 22 Chức năng kích hoạt và làm việc của CNN
Hình 3 23 Minh họa rút trích đặc trưng MFCC
Hình 3 24 Sơ đồ các bước trích chọn đặc trưng MFCC
Hình 3 25 Hình minh họa kích tín hiệu âm thanh lên tân sô cao.
Hình 3 26 Mô tả quá trình Windowing “
Hình 3 27 mô tả trước và sau khi biến đổi DFT của một cửa
Hình 3 2§ Mô hình các băng lọc trong thang đo tần số bình thường và thang đo
Trang 11Hình 4 5 Phổ từ trong môi trường nhiễu không được xử lý
Hình 4 6 Đồ thị phổ của từ thông qua thuật toán PNCC
Hình 4 7 Mô hình đề xuất cho quá trình huấn luyện Mạng ANNHình 4 8 Sơ đồ phân tích đặc trưng PNCC
Hình 4 9 Mô hình mạng ANN nhận dạng chủ nhà
Hình 4 10 Mô hình huan luyện mạng điều khiển thiết bị trong nhà
Hình 4 11 Kịch bản Demo
Hình 4 12 Thực nghiệm trong môi trường lý tưởng
Hình 4 13 Thực nghiệm trong môi trường có tiếng ồn
Trang 12MỞ DAU
Trong môi trường nhà thông minh, nhận biét ai đang thực hiện các hành
động là rất hữu ích Và việc tự động hóa nhà với điều khiển bằng giọng nói có thé
đạt được hiệu suất cao trong môi trường không có tiếng ồn Tuy nhiên, hiệu suất
như vậy giảm đáng kể trong tinh trạng nhiều cư dân hoặc trong môi trường ồn àonói chung Trong trường hợp này, nhà thông minh cần giải quyết các vấn đề xác
định cư dân theo một cách nào đó.
Nhận dạng người nói hoặc nhận dạng giọng nói là một phương thức sinh
trắc học sử dụng các đặc điểm của giọng nói (sinh trắc học giọng nói) để nhận dangmột người Do đó, nghiên cứu này xây dựng một mô hình trên nền tảng IoT sử dung
sinh trắc học giọng nói như một phương tiện xác định các cá nhân dé điều khiển các
thiết bị thông minh trong môi trường ồn ào
Trang 13CHƯƠNG 1: TONG QUAN
1.1 GIỚI THIỆU ĐÈ TÀI
Tự động hóa nhà với điều khiển bằng giọng nói có thể đạt được hiệu suấtcao trong môi trường không có tiếng ồn Tuy nhiên, hiệu suất như vậy giảm đáng kểtrong tình trạng nhiều cư dân hoặc trong môi trường ồn ào nói chung Trong trườnghợp này, nhà thông minh cần giải quyết các van đề xác định cư dân theo một cách
nào đó.
Nó đòi hỏi t số cách tiếp cận thích hợp cho các ứng dụng nhà thôngminh đề giải quyết vấn đề xác định các cư dân Nhận dạng giọng nói là một phươngthức sinh trắc học sử dụng các đặc điêm của giọng nói (sinh trắc học giọng nói) để
xác định một người trong ngôi nhà thông minh Do đó, nghiên cứu này xây dựng
một mô hình trên nền tảng IoT sử dụng sinh trắc học giọng nói như một phương tiện
xác định các cá nhân dé điều khién các thiết bị thông minh trong môi trường én ào
Đồng thời kết quả của nghiên cứu này sẽ cung cấp nền tảng cho việc nghiên
cứu và dự đoán hành vi của con người.
1.2 LY DO CHỌN DE TÀI
Thách thức của những ngôi nhà thông minh hiện đại là làm thé nào dé tạo ramột môi trường thông minh cho nhiều cư dân, điều này là vô cùng khó khăn do sự
phức tạp của việc xác định các cá nhân [26] Một trong những giải pháp khả thi là
sử dụng sinh trắc học giọng nói duy nhất giữa mọi người dé xác định cư dân bêntrong môi trường nhà thông minh Hơn thế nữa, nghiên cứu cho phép hệ thống đưa
ra các quyết định thông minh và điều khiển các thiết bị cuối dựa trên cư dan hiệntại Tuy nhiên, điều này thực sự khó khăn khi thực hiện các hoạt động trong môitrường có nhiều người mà không có xác nhận cụ thẻ cá nhân
Đã có một số nghiên cứu thông minh trong môi trường nhiều người Dénhận ra hoạt động của nhiều cư dan, các mô hình trình tự được sử dụng để thực hiện
dự đoán theo thời gian, được gọi là mô hình thời gian Các thuật toán trí tuệ nhân tạo trong học máy như mạng Bayes và mạng nơ-ron được nghiên cứu Các mô hình
Trang 14đã được nghiên cứu như Mô hình Markov an (Hidden Markov Model - HMM) va
truong ngẫu nhiên có điều kiện (Conditional Random Field)
Bên cạnh đó, các mô hình phi thời gian cũng được giới thiệu để xác địnhcác hoạt động được mô hình hóa của nhiều cư dân Cách tiếp cận này khám phá cáctập dữ liệu về ảnh được thu thập từ các gia đình trong một khoảng thời gian nhấtđịnh để ngụ ý dự đoán hoạt động Cả hai phương pháp tiếp cận theo thời gian và phithời gian đều sử dụng các đặc trưng thời gian làm đầu vào Tuy nhiên, vì các môhình này được kiểm tra bằng cách sử dụng các bộ dữ liệu khác nhau, nên rất khó đềđạt được so sánh về hiệu quả
Nghiên cứu ứng dụng mô hình mạng nơ-ron nhân tạo (Artificial Neural
Network - ANN) nâng cao tính chính xác của nhận dạng trong môi trường nhiều
người.
1.4.MỤC TIÊU CỤ THÊ
Nghiên cứu đề xuất một giải pháp nhà thông minh ứng dụng công nghệ IoT
sử dụng sinh trắc học giọng nói để xác định cá nhân:
- Giải pháp IoT cho nhà thông minh
- Giải pháp cho thiết bị đầu cuối điều khiển bằng giọng nói
Nghiên cứu thiết kế và tích hợp giải thuật hệ số công suất cepstral Normalized Cepstral Coefficients - PNCC) có thể xác định người sử dụng nhàthông minh bằng cách sử dụng sinh trắc học bằng giọng nói Cụ thé: xử lý lọc nhiễu
(Power-môi trường âm thanh giọng nói của người trong nhà thông minh đê xác minh từ
word work trước khi điều khiển (trong luận văn này là từ Nguyên)
Trang 15Xây dựng tập dữ liệu giọng nói với các từ sử dụng trong nhà thông minh và
thực hiện huấn luyện dữ liệu bằng mô hình ANN hiện thực trên thiết bị nhúng
“Thực hiện rút trích đặc trưng giọng nói của người sử dụng nhà thông minh sử
dụng giải thuật PNCC và mô hình ANN.
Nhận dạng giọng nói tiếng Việt ứng dụng trong nhà thông minh
Có thể điều khiển các thiết bị thông minh bằng tiếng Việt
Độ chính xác của nhận diện người trong nhà trên 90%.
Nhận dang các lệnh dé điều khiển các thiết bị trong nhà qua hệ thống nhúng
có độ chính xác trên 90%
1.5 ĐÓI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
Nghiên cứu này giới thiệu sử dụng sinh trắc học giọng nói như một phươngtiện nhận dang cho các ứng dụng nhà thông minh Cu thể, cơ sở dữ liệu được học
viên thu thập dữ liệu bằng cách ghi âm từ 350 người Việt Nam đọc khác nhau Gồm
140 người đọc là nam và 160 người đọc là nữ, độ tuổi từ 15 đến 17 tuổi, đến từ
Bình Thuận Mỗi người đọc ghi âm bằng điện thoại di động của các hãng khác
nhau, ghi âm trong điều kiện môi trường không có nhiễu hoặc nhiễu ít Mỗi filechứa các câu lệnh điều khién thiết bị và tên của chủ nhà như sau:
Loại từ Tên Dữ liệu Thời gian
Từ đơn Nguyên 370 file 370 giây
Từ điều khién | Bật đèn phòng ngủ 310 file mỗi câu | 12400 giây
thiết bị Tắt đèn phòng ngủ Tổng: 6200 file
Bật đèn phòng khách
Tắt đèn phòng kháchBật đèn nhà bếp
Tắt đèn nhà bếp
Bật tivi phòng khách
Tắt tivi phòng khách
Trang 16Tập dữ liệu được phân chia thành các thư mục khác nhau với các mục đích
khác nhau Hệ thống được huấn luyện với các mục đích: xác định người trong nhà
và cho phép người trong nhà sau khi được xác định điều khién thiết bị trong nhà
Sau đó tập dit liệu được chia thành ba phần, bao gồm 80% tập huấn luyện,
10% tập đánh giá, 10% thử nghiệm Mỗi tập con của một tập âm thanh được phân
loại là từ khóa đã xác định trước được gán các nhãn tương ứng.
Trang 17CHƯƠNG 2: CÁC NGHIÊN CỨU VÀ HƯỚNG TIẾP CẬN LIÊN QUAN2.1 TÌNH HÌNH NGHIÊN CỨU CỦA CÁC TÁC GIẢ TRONG NƯỚC
2.1.1 Nghiên cứu nhận dạng giọng nói Tiếng Việt sử dụng bộ công cụ
Kaldi
Hệ thống nhận dạng giọng nói tiếng Việt [12] sử dụng bộ công cụ Kaldi
Trong nghiên cứu này, nhóm tác giả đã thu thập một kho ngữ liệu trong hơn mười
lăm giờ từ khoảng năm mươi người Việt Nam và sử dụng nó đề kiểm tra tính khả
thi của nghiên cứu Tác giả đề xuất một từ điển phát âm dựa trên giọng nói Dé đơn
giản hóa công thức, tác giả bỏ qua vai trò và vị trí của mỗi thành phan trong âm tiết
và chỉ xác định hai loại âm vị: phụ âm và nguyên âm Một phụ âm có thể là một
hoặc tối đa ba ký tự (thay vì một ký tự như bộ điện thoại grapheme) trong khi một
nguyên âm là một nguyên âm chuẩn với một âm tương ứng Trong cách thiết lậpnày, mỗi biến thể âm sắc của một nguyên âm được coi là các âm vị khác nhaukhông có mối liên hệ nào Đề lấy lại thông tin về âm, có thể sử dụng thêm các câuhỏi để xây dựng cây quyết định ngữ âm
2.1.2 Nhận dạng người trong nhà thông minh bằng Sinh trắc học giọng
nói
Nghiên cứu này giới thiệu việc sử dụng sinh trắc học giọng nói [22] như mộtphương tiện dé xác định các cá nhân Tự động hóa nhà với điều khiển bằng giọng
nói có thể đạt được mức hiệu suất cao trong môi trường thực tế Tuy nhiên, hiệu
suất như vậy giảm đáng ké trong tình huống nhiều cư dan Trong trường hợp này,ngôi nhà thông minh cần giải quyết các vấn đề về xác định cư dân theo cách nảo đó.Nhận dạng người nói hoặc nhận dạng giọng nói là một phương thức sinh trắc học sửdụng các đặc điểm của giọng nói (sinh trắc học giọng nói) để xác định một người
Nhận dạng giọng nói là một lựa chọn phô biên dé xác định các cá nhân do sự sẵn có
của các công cụ để thu thập các mẫu giọng nói và tính dễ tích hợp của nó Tháchthức của những ngôi nhà thông minh hiện đại là làm thế nào dé tạo ra một môitrường thông minh cho nhiều cư dân, điều này là vô cùng khó khăn do sự phức tap
của việc xác định các cá nhân Một trong những giải pháp khả thi là sử dụng sinh
Trang 18trắc học giọng nói duy nhất giữa mọi người để xác định cư dân bên trong môitrường nhà thông minh Do đó, nghiên cứu này giới thiệu việc sử dụng sinh trắc họcgiọng nói như một phương tiện để xác định cư dân trong nhà thông minh Trong
nghiên cứu này, việc xác định người nói không phụ thuộc vào văn bản và tập hợp
mở với ngưỡng thích ứng sẽ được đề xuất và đánh giá
2.1.3 Nhận dạng giọng nói tiếng Việt cho Tự động hóa tại nhà sử dụng
phương pháp trích xuất đặc trưng MECC và kĩ thuật DTW
Tự động hóa nhà với nhận dạng giọng nói có thể đạt được mức hiệu suất caotrong môi trường thế giới thực [23] Tuy nhiên, hiệu suất như vậy giảm đáng kẻtrong điều kiện nhiễu không phù hợp Dé giải quyết van dé này, tác giả và cộng sự
đề xuất một phương pháp cải tiến dé chiết xuất Hệ số bề mặt tần số Mel giúp tăng
độ chính xác lên đến 20% so với phương pháp truyền thống Bài báo này mô tả mộtcách tiếp cận nhận dạng giọng nói để tự động hóa gia đình bằng tiếng Việt bằng
cách sử dụng cải tiến hệ số Mel (Mel-frequency cepstral coefficients - MFCC) và
phương pháp lập trình động (Dynamic Time Warping - DTW).
Nhận dang giọng nói là quá trình tự động nhận dang lời nói của một người
dựa trên thông tin trong tín hiệu giọng nói Tham s6 dựa trên quang phô phổ biếnnhất được sử dụng trong phương pháp tiếp cận nhận dạng là Hệ số quang phỏ tần số
Mel được gọi là MFCC MFCC là các hệ , được trích xuất từ tín hiệu giọng nói
của lời nói Để đối phó với các tốc độ nói khác nhau trong nhận dạng giọng nói
Dynamic Time Warping (DTW) được sử dụng DTW là một thuật toán, được sử
dụng dé đo mức độ giống nhau giữa hai chuỗi, có thể khác nhau về thời gian hoặc
tốc độ
Trang 19- ^
i \ * sáo
i À ty) =
Hình 2 1 Hệ thống nhà thông minh Việt Nam trên công nghệ WIFI
Mục tiêu của nghiên cứu này là phát triển một thiết bị điều khiển thiết bị giadụng thông qua giọng nói của con người với ngôn ngữ tiếng Việt dựa trên thiết bị
đầu cuối được tích hợp tính năng khớp mẫu (Feature Extraction và Feature
Matching) như nhận dạng giọng nói [Hình 2.2] Theo phương thức này, việc nhận
dạng được thực hiện trong thiết bị đầu cuối của người dùng Trong trường hợp này,tín hiệu lời nói khong truyền qua mạng truyền thông không dây, do đó, nó không bịảnh hưởng bởi kênh truyền (tức là lỗi truyền dẫn, dữ liệu bỏ qua, nhiễu nhiều, v.v.)
và các thuật toán nén.
Trang 20Decision Making
Hình 2 2 Khớp mẫu trên thiết bị đầu cuối
2.2 TÌNH HÌNH NGHIÊN CỨU CỦA CÁC TÁC GIẢ NƯỚC NGOÀI
2.2.1 Nghiên cứu sử mạng noron (DNN) dé tạo mô hình âm thanh trong
nhận dạng giọng nói
Nghiên cứu sử dụng mạng noron [9] với nhiều lớp ân để xây dựng mô hình
nhận dạng giọng nói Cơ sở đánh giá của nghiên cứu này dựa vào mô hình kết hợpMarkov 4n (HMM) va ham Gaussian với nhiều thành phan trộn (GMM) Mạng nơ-
ron sâu với nhiều lớp an, được đảo tạo bằng các phương pháp mới đã được chứng
minh là hoạt động tốt hơn các mô hình HMM - GMM trên nhiều tiêu chuẩn nhậndạng giọng nói Bằng cách sử dụng các phương pháp học tập mới, một số nhóm
nghiên cứu khác nhau đã chỉ ra rằng DNN có thể làm tốt hơn GMM ở mô hình âm
học dé nhận dạng giọng nói trên nhiều bộ dit liệu bao gồm bộ dữ liệu lớn với từ
Trang 21vựng lớn Nghiên cứu cung cấp một cái nhìn tổng quan về phương pháp tiến bộ
trong nhận dạng giọng nói.
Nghiên cứu cũng chỉ ra rằng, nhược điểm lớn nhất của DNN so với GMM là
khi huấn luyện dữ liệu với những cụm từ lớn trên các tập dữ liệu lớn sẽ khó khănhơn Điều này sẽ được khắc phụ bởi thực tế là các DNN sử dụng dữ liệu hiệu quảhơn, do đó chúng không yêu cầu nhiều dữ liệu dé đạt được hiệu suất tương tự, cáccách tốt hơn đề giải quyết vấn đề là tỉnh chỉnh các DNN
2.2.2 Nhận dạng người nói và ngôn ngữ bằng mô hình DNN
Những thành tựu ấn tượng về hiệu suất thu được khi sử dụng mạng nơ-ron sâu
(DNN) để nhận đạng giọng nói tự động (ASR) đã thúc đây việc ứng dụng DNN vào
các công nghệ giọng nói khác như nhận dạng người nói (SR) và nhận dạng ngôn
ngữ (LR) [8] Công việc trước đó đã cho thấy hiệu suất tăng cho các tác vụ SR và
LR riêng biệt bằng cách sử dụng DNN dé phân loại trực tiếp hoặc dé trích xuất tính
năng Trong nghiên cứu này, nhóm tác giả trình bày việc áp dụng DNN riêng lẻ cho
cả SR và LR bằng cách sử dụng điểm chuân của thử thách thích ứng miền 2013
(DAC13) và điểm chuan đánh giá nhận dạng ngôn ngữ NIST 2011 (LRE11) Sửdụng một DNN duy nhất được đào tạo cho dữ liệu ASR trên Switchboard, tác giảchứng minh mức tăng lớn về hiệu suất trong cả hai điểm chuẩn: giảm 55% EER chođiều kiện ngoài miền DAC13 và giảm 48% trong điều kiện thử nghiệm LREI1 30
giây Nghiên cứu cũng chỉ ra rằng có thê đạt được nhiều lợi ích hơn nữa bằng cách
sử dụng kết hợp điểm hoặc tính năng dẫn đến khả năng một bộ chiết vector ¡ duynhất tạo ra hiệu suất SR và LR hiện đại
Nghiên cứu này đã mô tả sự phát triển của hệ thống i-vector DNN BNF vàchứng minh hiệu suất đáng kể khi áp dụng hệ thống cho cả điểm chuẩn DAC13 SR
và LREI1 LR Đối với nhiệm vụ DACI3, hệ thống BNF/GMM đã được chứngminh là giảm tỷ lệ lỗi của hệ thống MFCC/GMM đường cơ sở xuống 26% đối với
EER và 33% đối với DCF đối với tác vụ trong miền và 55% đối với EER và 47%
đối với DCF đối với nhiệm vụ ngoài miền Trên LRE11, các BNF tương tự giảm ở
Trang 22thời lượng 30 giây, 10 giây và 3 giây lần lượt là 48%, 39% và 24%, và thậm chí cònthực hiện sự kết hợp 5 hệ thống giữa bộ nhận dạng âm học và ngữ âm.
Việc giảm sai số hơn nữa đã được chứng minh trên tác vụ DACI3 SR bằngcách sử dụng các tính năng kết hợp điểm số hoặc song song Kết hợp điểm hệ thốngBNF/GMM và MECC/DNN làm giảm tỷ lệ lỗi so với hệ thống BNF/GMM xuống18% đối với EER và 12% đối với DCF đối với tác vụ trong miền và 9% đối vớiEER và 5% đối với DCF đối với nhiệm vụ ngoài miền Việc sử dụng các tính năngsong song dẫn đến giảm tỷ lệ lỗi lớn hơn là 23% đối với EER và 15% đối với DCFđối với tác vụ trong miền và 13% đối với EER và 6% đối với DCF đối với tác vụngoài miền Tổng điểm trên nhiệm vụ LREII dẫn đến giảm 16%, 13% và 8% trong
các điều kiện thời lượng 30 giây, 10 giây và 3 giây Mặc dù các tính năng song song
không dẫn đến những thay đồi đáng kể về hiệu suất trên tác vụ LRE11, nhưng hiệusuất tốt của chúng trên DAC13 cho thấy khả năng có một giao diện người dùng
song song và một bộ giải nén I-vector duy nhất cho cả ứng dung LR va SR
2.2.3 Hệ số Coestral Chuẩn hóa Công suất (PNCC) để nhận dạng giọng
nói mạnh mẽ
Bài báo này trình bày một thuật toán khai thác tính năng mới được gọi là hệ
số Cepstral chuẩn hóa công suất (PNCC) [3] được thúc đây bởi quá trình xử lý thínhgiác Các tính năng mới chính của xử lý PNCC bao gồm việc sử dụng tính phi tuyếncủa luật lũy thừa thay thế tính phi tuyến tính của log truyền thống được sử dụng
trong các hệ số MECC, thuật toán khử nhiễu dựa trên lọc không đối xứng để loại bỏ
kích thích nền và mô-đun hoàn thành việc che dấu thời gian Chanwoo và Stern
cũng đề xuất việc sử dụng phân tích công suất thời gian trung bình, trong đó các
thông số môi trường được ước tính trong một khoảng thời gian dài hơn thường được
sử dung cho giọng nói, cũng như làm mịn tần số Kết quả thử nghiệm chứng minhrằng xử lý PNCC cung cấp những cải tiến đáng kẻ về độ chính xác nhận dang so với
xử lý MFCC và PLP cho giọng nói khi có nhiều loại tạp âm phụ gia khác nhau và
trong môi trường dội âm, chỉ với chi phí tính toán cao hơn một chút so với xử lý
MFCC thông thường và không làm giảm khả năng nhận dạng độ chính xác được
Trang 23quan sát trong khi đào tạo và kiểm tra bằng cách sử dụng giọng nói sạch sẽ xử lý
PNCC cũng cung cấp độ chính xác nhận dạng tốt hơn trong môi trường ồn ào hơn
so với các kỹ thuật như chuỗi vecto Taylor (VTS) và giao diện người dùng nâng cao
ETSI (AFE) trong khi yêu cầu tính toán ít hơn nhiều
2.2.4 Nhận dạng giọng nói của các hãng công nghệ
Trên thế giới, công nghệ nhận dạng giọng nói hiện đang phát triển và bùng nỗvới tốc độ nhanh chóng Với những sản phẩm đã có mặt tại thị trường như là trợ lý
ảo Siri của Apple, Cortana của Microsoft, Alexa của Amazon, Samsung cũng có các
ứng dụng như trợ lý Bixby của riêng mình hay không thể không kể đến GoogleAssistant của Google Chúng đều có thé thé dé dàng tìm kiếm chỉ với giọng nói câu
lệnh từ người dùng Có thể chuyển đổi giọng nói thành văn bản ở một mức độ xử lý
với tốc độ cao và chính xác Đồng thời có thé hiểu được câu nói của bạn và phảnhồi lại với một kết quả có thể nói là gần như hoàn hảo
Ở nước ta, nhận dạng tiếng nói vẫn là một lĩnh vực đang được đầu tư phát
triển Do còn tùy thuộc vào điều kiện nghiên cứu và sự phức tạp của ngữ âm tiếng
Việt nên các nghiên cứu về hệ thống dạng giọng nói tiếng Việt vẫn còn nhiều hạnchế Đến nay, nghiên cứu về nhận dạng tiếng Việt đã đạt một số kết quả nhất định
và mang tính ứng dụng cao như: Ứng dụng iSago thực hiện giao tiếp bằng giọng nói
tiếng Việt trên điện thoại iPhone và VIS (Viet Voice Systems) - tổng đài hỏi đápthông tin tự động bằng tiếng Việt, sử dụng công nghệ nhận dạng và tổng hợp giọngnói tiếng Việt với độ chính xác cao và tốc độ xử lý nhanh do Phòng thí nghiệm Trí
tuệ Nhân tạo (AILab) của Trường Đại học Khoa học Tự nhiên nghiên cứu, phát
triên.
Mảng điều khiển máy tính bằng giọng nói ở Việt Nam Có thể nói, ViaVoice
là một trong những phần mềm điều khiển máy tính bằng tiếng nói xuất hiện đầu tiên
ở Việt Nam và cũng chỉ sử dụng được bằng tiếng Anh Với Vspeech: đây là một
phần mềm điều khiển máy tính bằng giọng nói, do Đại học Bách Khoa thành phố
Hồ Minh nghiên cứu Phần mềm sử dụng thư viện Microsoft Speech SDK để nhậndạng tiếng Anh nhưng được chuyển thành tiếng Việt Hướng phát triển ứng dụng
Trang 24điều khiển máy tính bằng giọng nói tiếng Việt đang là tiềm năng và là xu thế củamột số ứng dụng tại Việt Nam, đem đến nhiều tiện ích trong cuộc sống.
2.3 Những vấn đề cần nghiên cứu giải quyết
Tiếng nói phụ thuộc vào nhiều yếu tố nên việc phân tích đặc trưng của tiếngnói là việc không dễ Một số khó khăn cho bài toán nhận dạng tiếng nói là:
Tốc độ nói của mỗi người thường khác nhau: có người nói nhanh, có ngườinói chậm Cùng một từ được phát âm độ dài ngắn khác nhau Có khi một người nóicùng một từ ở hai lần mà kết quả phân tích khác nhau Vùng miền cũng tạo nên sự
khác biệt trong phát âm Những yếu tố như nhiễu của môi trường, nhiễu của thiết bị
thu, cũng làm ảnh hưởng tới hiệu quả của nhận dạng.
Nhận dạng tiếng nói là một trong những lĩnh vực nghiên cứu có tính ứngdụng cao trong thực tiễn Bên cạnh đó hiện nay có nhiều ứng dụng nhận dạng tiếng
nói nhưng chủ yếu là sử dụng tiếng Anh Nhận dạng tiếng nói tiếng Việt còn nhiều
khó khăn và thách thức Trong luận văn này học viên có gắng xây dựng hệ thốngnhận dạng tiếng nói điều khiển các thiết bị trong nhà bằng Tiếng Việt trong môi
trường ồn ào Đề làm được điều này thì việc khử nhiễu cũng là một trong những
thách thức của lĩnh vực này Luận văn có gắng nâng cao độ chính xác trong điềukhiển các thiết bị thông dụng trong gia đình
Trang 25CHUONG 3: CƠ SỞ LÝ THUYET
3.1 Giới thiệu
Dé thu được các tham số biểu diễn tiếng nói, trước tiên tín hiệu tiếng nóiđược biểu diễn theo dạng sóng, tức là tín hiệu tiếng nói được lấy mẫu và lượng tử
hóa giống như phương pháp biểu diễn tín hiệu tiếng nói dạng sóng Sau đó sẽ tiến
hành xử lý để thu được các tham số của tín hiệu tiếng nói Dé thu được biểu diễncủa tín hiệu tiếng nói dưới dạng sóng người ta phải biểu diễn tín hiệu tiếng nói dướidạng rời rạc Quá trình rời rạc hoá tín hiệu tiếng nói bao gồm các bước sau: lấy mẫutín hiệu tiếng nói, lượng tử hoá các mẫu, mã hoá và nén tín hiệu Để có thể thực
hiện các phân tích trên tín hiệu tiếng nói nhằm tìm ra các đặc trưng riêng cho các
đoạn tín hiệu ứng với các âm khác nhau, tín hiệu tiếng nói có thê được biểu diễnbằng các phương pháp: tín hiệu trên miễn thời gian hoặc miền tần số, hoặc kết hợpthời gian và tần số
Bài toán nhận thức tiếng nói trong máy tính có thể chia thành bài toán nhận
dang và bài toán nhận thức Bài toán nhận dạng các tín hiệu nói được liên kết vớimột khái niệm được cung cấp bởi tri thức có sẵn của con người Đó là tín hiệu tiếngnói với một âm tiết, một từ, hay liên kết với một tên định danh biết trước Ở cấp độnhận thức, tín hiệu tiếng nói không được cung cấp các tri thức có sẵn, mà là do tựhọc trong quá trình huấn luyện, hoạt động
Bài toán nhận dạng người nói là bài toán con của bài toán nhận thức tiếng
nói, trong đó các tín hiệu tiếng nói được liên kết với một định danh gắn với ngườinói do con người cung cấp Thông qua việc trích chọn các đặc trưng khác nhau do
hệ thống phát âm khác nhau của người nói mà hệ thống phân biệt được tín hiệutiếng nói là của người nào
Nhận dạng người nói thường được áp dụng trong việc xác thực quyền truy
cập, giám sát người nói qua giọng nói có thé là tách chọn tiếng nói trong môi trường
nhiều người, ứng dụng xác thực trong giao dịch điện tử hay trong giám định pháp
lý.
Trang 26Dựa vào chức năng thì bài toán nhận dạng người nói được chia thành 2 bài toán: bài toán định danh người nói (speaker identification) và bài toán xác thực
người nói (speaker verification).
Dựa theo phương pháp thì bài toán nhận dạng được chia thành hai bài toán:
bài toán nhận dạng người nói phụ thuộc vào từ khóa (text-dependent speaker
recognition) và bài toán nhận dạng người nói không phụ thuộc vào từ khóa
(text-independent speaker recognition).
Hiện nay có 3 phương pháp nhận dạng người nói đó là: đó là nhận dạng thủ
công bằng cách so sánh phổ tần số của hai mẫu tiếng nói dé quyết định xem liệu
chúng có phải do cùng một người nói hay không; phương pháp tự động nhận dạng
người nói được thực hiện tự động dựa trên việc mô hình hóa tín hiệu tiếng nói bằng
cách trích chọn các đặc trưng thông tin người nói và sử dụng các phương pháp học
máy đề học và phân lớp và nhận dạng người nói bằng cơ quan thính giác
Bài toán nhận dạng tiếng nói cũng là một bài toán con của bài toán nhận thứctiếng nói trong đó các đoạn tín hiệu tiếng nói được liên kết với một âm tiết hoặc một
từ trong một ngôn ngữ nào đó (tiếng Anh, tiếng Việt, ) do con người cung cấp.Thông qua việc trích chọn các đặc trưng cấu thành âm tiết, từ khác nhau để hệ thốngphân biệt được các tín hiệu tiếng nói là tương ứng với âm tiết, hay từ nào
Dựa vào đặc điểm, hệ thống nhận dạng tiếng nói có thể có các cách phân loại
Sau:
- Nhận dang tiéng nói rời rac và nhận dang tiếng nói liên tục: Trong các hệthống nhận dạng các từ phát âm rời rạc yêu cầu người nói phải dừng một khoảngtrước khi nói từ tiếp theo trong khi hệ thống nhận dạng các từ phát âm liên tụckhông đòi hỏi yêu cầu này
- Nhận dạng tiếng nói độc lập người nói và nhận dạng tiếng nói phụ thuộcngười nói: đối với hệ thống nhận dạng phụ thuộc người nói đòi hỏi tiếng nói ngườinói phải có trong cơ sở dữ liệu của hệ thống, còn đối với hệ thống nhận dạng không
Trang 27phụ thuộc người nói thì người nói không nhất thiết phải có mẫu trong cơ sở dữ liệu
của hệ thống trước khi nhận dạng
- Nhận dạng tiếng nói với từ điển cỡ nhỏ, nhận dạng tiếng nói với từ điển cỡ
vừa hay cỡ lớn: Hiệu năng của một hệ thống nhận dạng với từ điển cỡ nhỏ thườngcao hơn hiệu năng của các hệ thống nhận dạng có từ điển cỡ vừa và cỡ lớn
- Nhận dạng tiếng nói trong môi trường nhiễu cao và nhận dạng tiếng nóitrong môi trường nhiễu thấp: hiệu năng của các hệ thống nhận dạng tiếng nói không
bị nhiễu sẽ cao hơn hiệu năng của các hệ thống nhận dạng tiếng nói có nhiễu
Các hệ thống nhận dạng tiếng nói tự động được chia làm ba hướng tiếp cận
như sau: hướng tiếp cận ngữ âm - âm học dựa trên lý thuyết âm học - ngữ âm Lý
thuyết này khẳng định sự tổn tại hữu hạn và duy nhất các đơn vị ngữ âm cơ bản
trong ngôn ngữ nói gọi là âm vị, được phân chia thành: nguyên âm - phụ âm, vô
thanh - hữu thanh, âm vang - âm bẹt, Các âm vị có thể xác định bởi tập các đặctrưng trong phổ của tín hiệu tiếng nói theo thời gian; Hướng tiếp cận nhận dạngmẫu dựa vào lý thuyết xác suất - thống kê dé nhận dạng dựa trên ý tưởng: so sánh
đối tượng cần nhận dạng với các mẫu được thu thập trước đó đề tìm mẫu giống đối
tượng nhất; Hướng tiếp cận sử dụng mạng nơ-ron đặc biệt là mạng học sâu đang
được sử dụng và tỏ ra rất thành công trong các bài toán nhận dạng nói chung và bàitoán nhận thức tiếng nói nói riêng
3.2 Các đặc trưng của tiếng nói
3.2.1 Đặc điểm
Sóng âm thanh khi nói
Hình 3 1 Biểu đồ dạng sóngTiếng nói là phương thức giao tiếp cơ bản nhất của con người được phát ra
dưới dạng sóng âm thanh Tai người chỉ cảm thụ được những dao động hay còn gọi
Trang 28là sóng âm trong miễn tần số từ khoảng 16Hz đến khoảng 20000Hz Giọng nam
phát âm thường trong miên tần số từ 75Hz đến 150Hz, giọng nữ từ 200Hz đến
300Hz Mỗi người có đặc tính phát âm riêng biệt Một số định đạng lưu trữ: wav,mp3, au, aif, smp tần số lấy mẫu thường là 8000, 11025, 96000Hz với độphân giải là 8 hoặc 16/bit/mau
3.2.2 Tiếng nói tiếng Việt
Tiếng Việt rất phức tạp [23] do sự phân hóa đa dạng về phân bố dân cư,phân hóa văn hóa và các sự kiện lịch sử trong quá khứ Tiếng Việt là một ngôn ngữđơn âm, có thanh điệu, có phụ âm không kết thúc Tiếng Việt chính thức được phiên
âm bằng chữ Quốc ngữ, một hệ thống chữ viết dựa trên La Mã Tiếng Việt có rất
nhiều từ vay mượn từ các nước khác, đóng góp nhiều nhất là Trung Quốc
Tiếng Việt là một ngôn ngữ có âm tiết, thanh điệu Mỗi âm tiết tiếng Việt
có thể được coi là sự kết hợp của Âm đầu, Âm cuối và Thanh điệu [23]
Mỗi từ tiếng Việt có thé được phát âm như hình 4:
THANH ĐIỆU
VAN
AM ĐẦU
Am dém Am chính Am cuối
Hình 3 2 Cấu trúc của âm tiết Tiếng Việt
Thanh phần ban đầu là một phụ âm (không bắt buộc) Có 21 chữ cái đầu
trong tiếng Việt
1 Phần cuối có thể được chia thành thành âm đệm, âm chính và âmcuối
2 Am đệm va âm cuối là tùy chọn và có thể không tồn tại trong một
âm tiết
3 Âm chính là một nguyên âm hoặc một âm đôi
4 Âm cuối là một phụ âm hoặc một bán nguyên âm
Hãy xem ví dụ về cấu trúc của âm tiết tiếng Việt, chăng hạn như:
“NGUYEN” trong hình 3.3 sau đây
Trang 29Hình 3 3 Âm tiết tiếng Việt: Nguyên
3.2.3 Các đặc trưng cơ bản của tín hiệu tiếng nói
Âm thanh tự nhiên Âm thanh tổng hợp
Hình 3 4 Đặc trưng âm thanh nhận được ngoài thực tế
Các đặc tính của âm thanh tự nhiên gồm:
Phổ tín hiệu: biểu diễn của tín hiệu trên miền tần số Các đỉnh của phổ tínhiệu là tần số trung tâm của tín hiệu (còn gọi là tần số formant) Phé tin hiéu sau khi
nhân với ham cửa số Hamming sẽ sử dụng phép biến đổi Fourier nhanh ta thu được
biên độ phổ chứa các thông tin có ích của tín hiệu tiếng nói
Ảnh phổ: là một trong những công cụ cơ bản trong nhận dạng tiếng nói
Nhìn vào ảnh phổ, ta dé dang phân biệt vùng biên của từng âm tiết Nó chuyền đồi
sóng tín hiệu tiếng nói từ 2 chiều (tần số, cường độ) thành 3 chiều (tần số, cường
độ, thời gian)
Trang 30Tần số formant: đóng vai trò quan trọng trong phân tích phỏ tín hiệu tiếng
nói Nó được tạo nên do sự cộng hưởng của tuyến âm và hiển thị trong quang phô là
các dải màu đậm nằm ngang biêu thị cho các tần số formant
Tần số cơ bản: tần số cơ bản (F0) mang tính chất của thanh điệu, biểu diễncao độ, ngữ điệu của tiếng nói, được sử dụng trong lĩnh vực tổng hợp tiếng nói
Âm vô thanh: tín hiệu có đặc điểm là không tuần hoàn (p, h, k, ch, th ),năng lượng tập trung ở tần số cao Các tần số phân bố khá đồng đều trong 2 miềntần số cao và tần số thấp
Âm hữu thanh: tín hiệu tuần hoàn, năng lượng phân bổ không đồng đều, tínhiệu có những vạch cực trị, đặc điêm của nó là phổ tín hiệu có tần số cơ bản (F0)
3.3 Các mô hình nhận dạng giọng nói
3.3.1 Giới thiệu
Nhiều ứng dụng được phát triển gần đây để nhận đạng, giao diện lệnh thoại,
ứng dụng chuyền lời nói thành văn bản và quy trình nhập dữ liệu dựa trên việc sửdụng hệ thống nhận dạng giọng nói (ASR) Các hệ thống ASR đã cải thiện đáng kêhiệu suất trong những thập kỷ gần đây nhưng chỉ trong môi trường lý tưởng, môitrường ồn ào có thể không đạt được hiệu suất như mong đợi của các hệ thống này
Vé mặt phát triển công nghệ, chúng ta có thé vẫn còn ít nhất vài thập ky
nữa mới có các hệ thống trí tuệ nhân tạo thông minh, tự chủ thực sự giao tiếp với
chúng ta theo cách thực sự “giống như con người”
Tuy nhiên theo nhiều cách, chúng ta đang dần tiến tới viễn cảnh tương lai
này với tốc độ nhanh đáng ngạc nhiên nhờ vào sự phát triển liên tục của công nghệ
nhận dạng giọng nói tự động Và ít nhất cho đến nay, nhận dạng giọng nói tự độngcũng có những cải tiến thực sự hữu ích trong nhiều ứng dụng
Mô hình âm thanh là mô hình thống kê ước tính xác suất một âm vị nhất
định đã được phát ra trong một đoạn âm thanh được ghi lại Mô hình âm thanh cũng
là t tệp chứa các đại diện thống kê của từng âm thanh riêng biệt tạo nên một từ.
Mỗi biểu diễn thống kê này được gán một nhãn gọi là âm vị Ví dụ như ngôn ngữ
Trang 31tiếng Anh có khoảng 40 âm thanh riêng biệt hữu ích cho việc nhận dạng giọng nói,
và do đó chúng ta có 40 âm vị khác nhau.
3.3.2 Mô hình Markov ẩn (HMM)
Mô hình âm học được tạo ra bằng cách lấy một cơ sở dữ liệu lớn về tiếngnói (được gọi là kho ngữ liệu) và sử dụng các thuật toán huấn luyện đặc biệt để tạo
ra các biểu diễn thống kê cho mỗi âm vị trong một ngôn ngữ Các biểu diễn thống
kê này được gọi là Mô hình Markov an (Hidden Markov Model - HMM) Mỗi âm
vị có HMM cua riêng nó.
Mô hình Markov ân là mô hình thống kê dựa trên lý thuyết chuỗi Markovvới các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ cáctham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình đượcrút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp Đây là một mô hìnhhọc máy điền hình cho bài toán nhận dạng tiếng nói [17] Mô hình này cho phép
xem xét đến hai thành phần là sự kiện quan sát được và các sự kiện ân Ví dụ trong
nhận dạng tiếng nói thì sự kiện quan sát được là các đặc trưng âm học của tiếng nói,còn sự kiện ẩn là các từ
HMM là mô hình xác suất dựa trên lý thuyết về chuỗi Markov bao gồm cácthành phần sau:
O = {01, 02, , or} là tập các vector quan sát gồm T phan tử
° S = {si, s2, Sw} là tập hữu hạn các trạng thái s gồm N phan tử
° A= {an, ai2, , amv} là ma trận hai chiều trong đó ay thể hiện xácsuất dé trang thái s; chuyển sang trạng thái s; , với ay > 0 và DL, ayy = 1 Ví
© B= (ba, bụ, , bạn } là tập các hàm phân phối xác suất của các
trạng thái từ S2 đến Sw, trong đó bự thể hiện xác suất để quan sát O; thu được từtrạng thái S; tại thời điểm t Trong nhận dạng tiếng nói ham bir thường được sử dụng
là hàm Gaussian với nhiều thành phần trộn (mixture), khi đó mô hình được gọi là
mô hình kết hợp Hidden Markov Model va Gaussian Mixtrue Model
(HMM-GMM).
Trang 32° I] = f} là tập xác suất trạng thái đầu, với mi = P(qi = si) với i=1 N
là xác suất đề trạng thái s; là trang thái đầu qu
Nhu vậy một cách tổng quát một mô hình Markov an 2 có thé duge biéudiễn bởi A= (A, B, []) Trong lĩnh vực nhận dạng thi mô hình Markov ấn được ápdụng với hai giả thiết sau:
Một là gia thiết về tính độc lập, tức không có mi liên hệ nào giữa hai
quan sát lân cận nhau o¡ và oj+1, khi đó xác suất của một chuỗi các quan sát O={o¡}
có thể được xác định thông qua xác suất của từng quan sát o¡ như sau:
T
po) =| [Poo G1)
i=1
© — Hai là giả thiết Markov, xác suất chuyén thành trạng thái st chỉ phụ
thuộc vào trạng thái trước nó se.
Hình 3 5 Mô hình HMM-GMM có cấu trúc dạng Left-Right liên kết không đầy đủ
Trong nhận dạng tiếng nói, mô hình HMM-GMM có thê được sử dụng để
mô hình hoá cho các đơn vị tiếng nói như Âm vị (phoneme), Từ (word) hoặc Câu
(sentence) Khi đó tập quan sát O={o.} sẽ tương ứng với mỗi một phát âm
(utterance) trong đó o: là tập các vector đặc trưng (feature vector) của tín hiệu tiếng
nói đầu vào thu được tại thời điểm t Có nhiều cấu trúc HMM khác nhau, tuy nhiên
trong thực tế, cấu trúc của HMM-GMM thường được sử dụng có 5 hoặc 7 trạng tháitheo cấu trúc Left-Right được mô tả ở trên Quá trình xây dựng một hệ thống nhận
dạng tiếng nói sử dụng mô hình HMM-GMM thông thường có hai bước như sau:
Trang 33Huấn luyện (Training): Đối với từng ngôn ngữ, dữ liệu và mục đích cụ thé ta
sẽ dùng HMM - GMM dé mô hình cho các đơn vị nhận dang là âm vi, Từ hoặc Câu.
Khi đó một hệ thống sẽ bao gồm một tập các mô hình HMM-GMM ^={2:} Đối với
mỗi phát âm O={o.} được mô hình bởi một chuỗi các trạng thái Q={qr} với từ một
hoặc nhiều mô hình 2¡ Quá trình huấn luyện là quá trình ước lượng các tham số sao
cho xác suất P(Q|O, 2) là lớn nhất, P(Q|O, 2.) được tinh theo công thức (3.2), khi đó
P(QIO,À) được gọi là xác suất mô hình âm hoc (acoustic model)
P(0,Q,2) = max {P(qy, dar , qy = 1,04, 02), 0yÌÄ)} (3 2)
Nhận dang (decoding): Nhận dang là quá trình xác định chuỗi trạng thái
{qi}= Q, qi € S từ các mô hình HMM {2¡}=2 đã được huấn luyện tương ứng với
một chuỗi đầu vào {o,}=O sao cho xác suất P(O,QJA) là lớn nhất, với :
Q
P(Q|0,A) = Ye deg yeybee (Oe), = 1 (8:3)
Ta
3.3.3 Mô hình mang no-ron
Mạng nơ-ron cau trúc Perceptron nhiều lớp như hình 3.6 được sử dụng
nhiều trong các hệ thống nhận dạng Mạng nơ-ron MLP (MultiLayer Perceptron) là
một cấu trúc mạng gồm có một lớp vào (input), một lớp ra (output) và một hoặc
nhiều lớp An (hidden) Véc-tơ đầu vào sẽ được đưa qua lớp vào (input) của mạng và
sau đó các tính toán được thực hiện lan truyền tới (feed-forward) từ lớp vào input
sang các lớp ẩn và kết thúc ở lớp ra (output) Hàm kích hoạt kết hợp với các nốt an
Trang 34có thể là hàm tuyến tính hay phi tuyến và có thể khác nhau giữa các nót Hình 3.2
mô tả các thành phần cơ bản của một nốt mạng Hình 3.6 a mô tả cấu trúc của một
mạng MLP có 2 lớp và hình 3.6 b mô tả cấu trúc của một mạng có 3 lớp (1 lớp đầuvào, 1 lớp an va 1 lớp ra)
Xét một mạng MLP có N lớp với kích thước của các lớp tương ứng là
Si, ,Si, Sn (Trong đó lớp đầu vào là S¡ và lớp đầu ra là Sx) Gọi giá trị kích hoạtcủa một nốt j trong lớp thứ ¡ là Ajj, trong số của liên kết giữa nó với nót thứ k tronglớp phía trước i-1 là Wijx, và trọng số của nót nay trong lớp mạng hiện tại là Bij
Khi đó hàm lan truyền thẳng (feed-forward) để xác định giá trị ở lớp ra sẽ được thực
hiện lần lượt trên từng lớp theo công thức sau:
giữa Y và Ÿ thoả mãn một điều kiện nào đó Hàm xác định mối quan hệ giữa Y và
Ÿ gọi là hàm mục tiêu Hàm mục tiêu thường được sử dụng là hàm bình phương tốithiểu độ lệch giữa Y và Ÿ như công thức sau:
Trong đó: Sy là kích thước lớp dau ra, Y;,k là giá trị mong muốn tại nốt thứ k
ở lớp dau ra đối với vector đầu vào Xụ, Ÿ,k là giá trị của hàm lan truyền thẳng tạinốt thứ k ở lớp dau ra đối với véc-tơ đầu vào Xt
Trang 35Nhu vậy mục tiêu của bước huấn luyện mang là tối thiểu giá trị E trong công
thức (3.5) Một trong các phương pháp huấn luyện phổ biến được sử dụng trong
huấn luyện mạng MLP là phương pháp lan truyền ngược Ý tưởng chính củaphương pháp tối thiểu giá trị E bằng cách dùng chính E dé xác định lại các giá trịtrọng số trong công thức (3.5) Quá trình tính toán lại được thực hiện ngược lại từlớp thứ N đến lớp thứ 2 của mạng theo công thức sau:
Có hai cách tiếp cận chính trong việc áp dụng mạng nơ-ron cho nhận dạng
tiếng nói Cách tiếp cận thứ nhất là sử dụng mạng nơ-ron như một mô hình âm học
có chức năng phân lớp hay nhận dạng mẫu đầu vào Cách tiếp cận này thường được
sử dụng trong các hệ thống nhận dạng với từ vựng nhỏ như các hệ thống điều khiểnhoặc tương tác người máy bằng tiếng nói Khi đó với mỗi một vector đặc trưng đầu
vào đưa qua mạng ta sẽ thu được ở đầu ra một quyết định tương ứng Cách tiếp cận
thứ hai là kết hợp mô hình HMM và GMM làm mô hình âm học trong các hệ thốngnhận dạng từ vựng lớn Trong cách tiếp cận này hàm xác suất phát tán được thaybằng hàm kích hoạt ở lớp đầu ra của mạng nơ-ron thay vì là hàm GMM như cáchtruyền thống
3.3.4 Mạng học sâu
Neural network là gì?
Neural là tính từ của neuron (ron) [38], network chỉ cấu trúc, cách các ron đó liên kết với nhau, nên neural network (NN) là một hệ thống tính toán lay camhứng từ sự hoạt động của các nơ-ron trong hệ thần kinh Mang no-ron nhân tạo cònđược gọi là “mạng nơ-ron” hoặc “hệ thống thần kinh nhân tạo” Người ta thườngviết tắt Mạng thần kinh nhân tạo và gọi chúng là “ANN” hoặc đơn giản là “NN”
Trang 36nơ-Mô hình neural network.
> Logistic regression
Logistic regression là mô hình neural network don giản nhât chi với input
layer va output layer Mô hình của logistic regression từ bai trước là: 9 = o(wo +W1 * X1 +W2 * X2) Có 2 bước:
© Tinh tông linear: z = 1 *wo +XI *WI +X2 *W2
© Áp dung sigmoid function: : = ø(2)
Dé biểu diễn gọn lại ta sẽ gộp hai bước trên thành một trên biểu đồ hình bên dưới
Hình 3 7 Mô hình logistic regresion
Hệ số wo được gọi là bias Để ý từ những bài trước đến giờ dữ liệu khi tính
toán luôn được thêm 1 để tính hệ số bias wo Phương trình đường thăng sẽ thế nào
= w) *x, sẽ luôn đi qua gốc tọa độ và nónếu bỏ wo, phương trình giờ có dạng: )
không tổng quát hóa phương trình đường thăng nên có thể không tìm được phươngtrình mong muốn => Việc thêm bias (hệ số tự do) là rất quan trọng
Hàm sigmoid ở đây được gọi là activation function.
> Mô hình tong quát
Trang 37Layer đầu tiên là input layer, các layer ở giữa được gọi là hidden layer, layer
cuối cùng được gọi là output layer Các hình tròn được gọi là node
Mỗi mô hình 3.7 luôn có 1 input layer, 1 output layer, có thể có hoặc khôngcác hidden layer Tổng số layer trong mô hình được quy ước là sé layer - 1 (không
tinh input layer).
Vi dụ như ở hình 3.8 trên có | input layer, 2 hidden layer và 1 output layer Số
lượng layer của mô hình là 3 layer.
Mỗi node trong hidden layer và output layer :
e Liên két với tat cả các node ở layer trước đó với các hệ số w riêng.
© Mỗi node có 1 hệ số bias b riêng
© Diễn ra 2 bước: tính tông linear và áp dung activation function.
uur layer
Hidden layer 1 Tidon layer 2
Hình 3 8 Mô hình neural network
Mạng nơ-ron sâu
Mạng ron sâu (Deep Neural Network- DNN) thực chất là một mạng ron truyền tới có nhiều lớp ẩn, trong đó mỗi lớp ẩn có một số no-ron nhất định, dữliệu đầu vào của mỗi lớp là tất cả các kết quả đầu ra của lớp trước được nhân vớimột vectơ trong sé, tính kết quả và chuyển nó qua một hàm kích hoạt phi tuyến tính
nơ-như sigmoid hoặc tanh nơ-như công thức 3.5 Trong mô hình học sâu có 3 loại mạng
Trang 38được sử dụng nhiều trong lĩnh vực thị giác máy và nhận dạng tiếng nói đó là bộ tự
mã hóa, mạng tích chập, mạng hồi quy
Bộ tự mã hóa
Bộ tự mã hóa (Auto-Encoders) là một mô hình cụ thể của mạng truyền tớinhiều lớp với đầu vào cũng là đầu ra Thông thường, bộ tự mã hóa được sử dụngtrong bài toán nén dữ liệu Vì thê, bộ tự giải mã sẽ có các lớp dn với số nơ-ron íthơn số nơ-ron ở lớp đầu vào Bộ tự mã hóa sẽ nén dữ liệu đầu vào vào một bộ mã
có số chiều ít hơn và sau đó tái tạo lại dữ liệu đầu ra từ bộ mã biểu diễn này Bộ mã
này được gọi là bản tóm tắt hoặc bản nén của dữ liệu đầu vào, và bộ mã này cũng
được gọi là biểu diễn của dữ liệu trong không gian tiềm an
Thông thường, một bộ tự mã hóa bao gồm 3 thành phần đó là: bộ mã hóa, mã
và bộ giải mã Bộ mã hóa nén dữ liệu đầu vào và tạo ra bộ mã, bộ giải mã sau đó tái
tạo lại dữ liệu đầu vào chỉ dựa trên bộ mã này
Bộ tự giải mã thường được sử dụng như một phương pháp rút gọn chiều dữliệu, hay phương phép nén dữ liệu Bộ tự mã hóa có một số đặc tính quan trọng sau:
- Tinh cụ thé: Bộ tự mã hóa chỉ có thé mã hóa được dữ liệu có ý nghĩa tương
tự như dữ liệu mà chúng đã được huấn luyện Vì vậy, không thể sử dụng bộ tự mã
hóa được huấn luyện bởi các chữ số viết tay dé nén ảnh phong cảnh
- Tính mắt thông tin: Kết quả đầu ra của bộ tự mã hóa sẽ không chính xácgiống như dữ liệu đầu vào, nó chỉ là một biểu diễn gần đúng của dữ liệu đầu vào
- Tính không giám sát: Bộ tự mã hóa không cần phải gán nhãn dữ liệu khi
huấn luyện Vì vậy, bộ tự mã hóa được coi là một kỹ thuật học không giám sát
Trang 39Input ‘Output
Hình 3 9 Mô hình bộ tự mã hóa
Mang no-ron nhân tạo
Mang no ron nhân tao (Artificial Neural Network — ANN) là một mô hình xử
ly thông tin được mô phỏng dựa trên hoạt động của hệ thống thần kinh của sinh vật,
bao gồm số lượng lớn các Nơ-ron được gắn kết dé xử lý thông tin ANN hoạt độnggiống như bộ não của con người, được học bởi kinh nghiệm (thông qua việc huấn
luyện), có khả năng lưu giữ các tri thức và sử dụng các tri thức đó trong việc dự
đoán các dữ liệu chưa biết (unseen data)
Một mang nơ-ron là một nhóm các nút nối với nhau, mô phỏng mạng noronthần kinh của não người Mang no ron nhân tạo được thé hiện thông qua ba thành
phần cơ bản: mô hình của nơ ron, cấu trúc và sự liên kết giữa các nơ ron Trong
nhiều trường hợp, mạng nơ ron nhân tạo là một hệ thống thích ứng, tự thay đổi cầu
trúc của mình dựa trên các thông tin bên ngoài hay bên trong chạy qua mạng trong quá trình học.
Trang 40Input Hidden Output layer layer layer
Input 1 5 © ® Output 1 Input 2 & ° @® Output 2
Hình 3 10 Kiến trúc mạng nơ-ron nhân tạo
Kiến trúc chung của một ANN gồm 3 thành phần đó là Input Layer, Hidden
Layer và Output Layer (Hình 3.8).
Trong đó, lớp an (Hidden Layer) gồm các nơ-ron, nhận dit liệu input từ cácNơ-ron ở lớp (Layer) trước đó và chuyển đôi các input này cho các lớp xử lý tiếptheo Trong một mạng ANN có thể có nhiều Hidden Layer
Lợi thế lớn nhất của các mạng ANN là khả năng được sử dụng như một cơchế xấp xỉ hàm tùy ý ma “học” được từ các dữ liệu quan sát Tuy nhiên, sử dụng
chúng không đơn giản như vậy, một số các đặc tính và kinh nghiệm khi thiết kế một
mạng nơ-ron ANN.
Chọn mô hình: Điều này phụ thuộc vào cách trình bay dir liệu và các ứng
dụng Mô hình quá phức tạp có xu hướng dẫn đền những thách thức trong quá trình
học.
Cấu trúc và sự liên kết giữa các nơ-ron
Thuật toán học: Có hai vấn đề cần học đối với mỗi mạng ANN, đó là họctham số của mô hình (parameter learning) và học cấu trúc (structure learning) Họctham số là thay đổi trọng số của các liên kết giữa các noron trong một mạng, cònhọc cấu trúc là việc điều chỉnh cấu trúc mạng bằng việc thay đổi số lớp ấn, số nơ-