Ng i nói khác nhau s phát âm khác nhau .... KỹThu tănh năd ngăti ngănóiăvƠă ngăd ngătrongăđi uăkhi năc aăTS.. Nguy năVĕnăGiápăvƠăăKS.ăTr năH ngăVi t[10]: Đ ătƠiănƠyăth ănghi măh ăth ng
Trang 1LÝ L CH KHOA H C i
L IăCAMăĐOAN ii
L I C Mă N iii
TÓM T T iv
M C L C vi
DANH SÁCH CÁC HÌNH ix
DANH SÁCH CÁC B NG xi
DANH SÁCH CÁC CH VI T T T xii
Ch ngă1.ăăT NG QUAN 1
1.1.T ng quan v nh n d ng ti ng nói, tình hình nghiên c uătrongăvƠăngoƠiăn c 1
1.1.1.Nh n d ng ti ng nói 1
1.1.2.T ng quan tình hình nghiên c u 2
1.2.M cătiêuăvƠăđ iăt ng nghiên c u c aăđ tài 5
1.2.1.M c tiêu 6
1.2.2.Đ iăt ng nghiên c u 5
1.3.Nhi m v và gi i h n c aăđ tài 6
1.3.1.Nhi m v 6
1.3.2.Gi i h n 6
1.4.Ph ngăphápănghiênăc u 6
1.5.N i dung lu năvĕn 7
1.6.ụănghĩaăthực ti n c aăđ tài 8
Ch ng 2 Đ CăTR NGăTI NG NÓI TI NG VI T 9
2.1.T NG QUAN V TI NG NÓI 9
2.2.Cácăđ cătr ngăc ăb n c a Ti ng Vi t 9
2.2.1.Âm ti t 9
2.2.2.Âm v 11
2.2.3.Nguyên âm và ph âm 11
2.2.4.Thanhăđi u 12
Ch ng 3 MÔ HÌNH NH N D NG TI NG NÓI TI NG VI T 13
3.1 Phân lo i các h th ng nh n d ng ti ng nói 13
3.1.1 Nh n d ng t liên t c và nh n d ng t cách bi t 13
3.1.2 Nh n d ng ph thu căng iănóiăvƠăđ c l păng i nói 13
3.2 Các y u t nhăh ngăđ n k t qu nh n d ng ti ng nói : 15
3.3 C u trúc h nh n d ng ti ng nói: 16
3.4 Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t dùng Markov n: 17
Trang 23.6.Ph ngăphápăphơnătíchăh s MFCC 19
3.6.1 Ti n x lý 19
3.6.2 T o khung và c a s hóa tín hi u 23
3.6.3 Tríchăđ cătr ng 25
3.6.4 H u x lý 31
3.7.ăăL ng t vector: 32
3.7.1 T ng quan v l ng t vector (VQ): 32
3.7.2 C u trúc và t p hu n luy n VQ: 33
3.7.3.ăĐoăđ méo: 34
3.7.4 Phân nhóm các vector hu n luy n: 34
Ch ngă4: MÔ HÌNH MARKOV N HMM 36
4.1 Quá trình Markov: 36
4.2 Mô hình Markov n: 38
4.3 Gi i pháp toán h căchoăbaăbƠiătoánăc ăb n c a mô hình Markov n: 41
4.3.1 Bài toán 1: 41
4.3.2 Bài toán 2: 44
4.3.3 Bài toán 3: 45
4.4 Các lo i mô hình Markov n: 49
Ch ngă5:ăTHI T K PH N C NG VÀ M CHăĐI U KHI N ROBOT 50
5.1 T ng quan v ph n c ng c a h th ng : 50
5.2 Lựa ch n thi t b : 52
5.2.1.ăĐ ngăc : 52
5.2.2 Board Arduino Mega 2560: 54
Ch ngă 6: THI T K H TH NG NH N D NG VÀ PH N M M GIAO DI N NH N D NG 66
6.1.Thi t k h th ng nh n d ng ti ng nói trên máy tính 66
6.1.1.Tríchăđ cătr ng 67
6.1.2.L ng t hóa vector 71
6.1.3.Hu n luy n HMM 75
6.1.4.Nh n d ng bằng mô hình HMM 76
6.2.Thi t k ph n m m giao di n nh n d ng 78
6.3 K t qu th nghi m trên ph n m m nh n d ng 79
Trang 37.1 K t lu n 83
7.2 Nh n xét 84
7.3 H n ch c aăđ tài: 84
7.4 H ng phát tri n c aăđ tài 84
TÀI LI U THAM KH O 86
Trang 4Hình 3 1 Ng i nói khác nhau s phát âm khác nhau 14
Hình 3 2 Mô hình nh n d ng ti ngănóiăbánăđ c l păng i nói 15
Hình 3 3 C u trúc t ng quát c a m t h th ng nh n d ng ti ng nói 16
Hình 3 4 L uăđ gi i thu t h th ng nh n d ng ti ng Vi t dùng Markov n 17
Hình 3 5 Đo n m uăơmăthanhătr c khi VAD 18
Hình 3 6 Đo n m u âm thanh sau khi VAD 18
Hình 3 7.ăS ăđ gi i thu tăph ngăphápăphơnătíchăthôngătinăti ng nói 19
Hình 3 8 Ti n x lý tín hi u 19
Hình 3 9 Phân tích kho ng l ng c a ti ng nói 21
Hình 3 10 Tách ti ng nói kh i kho ng im l ng theo VAD 22
Hình 3 11 T ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng l ng 23
Hình 3 12 Frame blocking và Windowing 23
Hình 3 13 Chia khung chuỗi tín hi u 24
Hình 3 14 C a s Hamming v i các h s αăkhácănhau 24
Hình 3 15 Tín hi u ti ngănóiăsauăkhiăđ c c a s hóa so v iăbanăđ u 25
Hình 3 16.ăCácăb c thực hi n MFCC 25
Hình 3 17 Ph Fourier c a tín hi u g c và tín hi uăđƣăc a s hóa 26
Hình3 18.ăBĕngăl c tam giác melscale trên mi n t n s 27
Hình 3 19 Tính các h s delta 29
Hình 3 20 Quá trình rútătríchăđ cătr ng 30
Hình 3 21.ăCácăb c h u x lý tín hi u 31
Hình 3 22 S ăđ kh i c u trúc c a VQ hu n luy n và phân l p 33
Hình 3 23 L uăđ gi i thu t VQ 35
Hình 4 1 Xích Markov 5 tr ng thái S 1 ,S 2 , S 5 và các xác su t chuy n tr ng thái 36
Hình 4 2 Ví d m t mô hình Markov n sáu tr ng thái 39
Hình 4 3 Mô t cácădƣyăphépătoánăđ c thực hi năđ tínhăαt(i) 43
Hình 4 4 Mô t cácădƣyăphépătoánăđ c thực hi năđ tính bi n β t (i) 44
Hình 5 1 Môăhốnhănhốnătr c 50
Hình 5 2 Môăhốnhănhốnănghiêng 50
Hình 5 3 Môăhốnhănhốnăt bên trái 51
Hình 5 4 Môăhốnhăkhuôn m t thực t c a robot 51
Hình 5 5 C u t o bên trong c a RC servo 52
Hình 5 6 Đi u khi n v tríătr c ra c aăđ ngăc ăbằngăcáchăđi u ch đ r ng xung 53
Hình 5 7.Đ ngăc ăRCăServoăEMaxăES08A 54
Hình 5 8 Giao di n IDE c a Arduino 57
Hình 5 9 Board Arduino Mega 2560 (m tătr c và sau) 58
Hình 5 10.Board Arduino Mega 2560 59
Hình 5 11 S ăđôăchơnăcủaăăATMEGA2560 59
Hình 5 12 S ăđôănguyênălyăcủaăArduinoăMegaă2560 61
Hình 5 13 G̃ăl nhătargetinstallerăvƠoăkhungăCommandăWindows 61
Hình 5 14 KhungăTargetăInstallerăxuơtăhiê ̣n, nhơnăNext 62
Hình 5 15.Matlabăđangănhơ ̣năthôngătinăgoiăhỗătr ̣ăthôngăquaăma ̣ngăInternet 62
Hình 5 16 L ̣aăcho ̣năgoiăhỗătr ̣ăArduinoăvaătiêpătụcănhơnăNext 63
Hình 5 17 NhơnănutăInstallăđểăcaiăđĕ ̣t 63
Hình 5 18 Matlabăđangăcaiăgoiăhỗătr ̣ăArduino 64
Trang 5Hình 5 19 HoƠnăthƠnhăti nătrìnhăcƠiăđ t 64
Hình 5 20 Arduinoăđãăxuơtăhiê ̣nătrongăth ăviê ̣năSimulink 65
Hình 6 1 S ăđ kh i mô hình hu n luy n và nh n d ng t đ n 67
Hình 6 2 L uăđ gi i thu t thực hi n tách ti ng nói kh i kho ng l ng 68
Hình 6 3 L uăđ gi i thu t thực hi n phân tích h s đ cătr ng 69
Hình 6 4.Minh h a l ng t hóa vector 75
Hình 6 5 L uăđ gi i thu t hu n luy n HMM 76
Hình 6 6 L uăđ gi i thu t nh n d ng t đ năs d ng HMM 77
Hình 6 7 Giao di n nh n d ng ti ng nói 78
Hình 6 8.Minh h a phân tích d li u ti ng nói thành các h s đ cătr ngăđ s d ng cho hu n luy n h th ng và nh n d ng 80
Hình 6 9.K t qu nh n d ng t ắvui” 82
Trang 7DANH SÁCH CÁC CH VI T T T
Thu t ng T vi t t t ụ nghĩa
Artifactial Neural Network ANN M ngăn ronănhơnăt o
Fast Fourier Transform FFT Bi năđ i Fourier nhanh
Dicrette Cosine Transform DCT Bi năđ i cosin r i r c
Linear predictive code LPC H s dự đoánătuy n tính
Mel-scale Frequency
Cepstral Coefficient MFCC H s cepstralăđ đoămel
Multi Layer Perceptron MLP M ng perceptron truy n thẳng nhi u l p Speech Recognition SR,ASR Nh n d ng ti ng nói
Trang 8Nh n d ng ti ng nói bao g m c nh n d ng âm ti t r i r c, liên t c, nh n d ng
ng i nói, ngôn ng nói và cao c păh n có th nh n d ngăđ c tr ng thái tâm lý c a
ng i nói Có r t nhi u ng d ng c a nh n d ng ti ngănóiătrongăđ i s ng xã h iănh ăxác nh năthôngătină(liênăquanăđ n security), d ch tự đ ng, các h th ng phone banking, voiceămail,ầăTuyănhiênăcáiămƠăm iăng i c g ng nghiên c u là làm sao máy tính có
th giao ti p v iăconăng i thông qua ti ng nói Nh n d ng ti ng nói là m tălĩnhăvực
c a x lý ngôn ng tự nhiên (Natural Language Processing), t c là v c ăb n nh n
d ng ti ng nói ph thu c vào ngôn ng nói Do v y ngôn ng nh n d ng ti ng Vi t r t khác so v i ti ng Anh và các th ti ngkhác M t ví d đ năgi năđ có th hình dung,
n u s d ng các engine nh n d ng ti ng Anh có s n (bao g m c softwareănh ăspeechăengineătrongăMicrosoftăOfficeăhayăhardwareănh ăm t s vi m ch x lý ti ngănóiăđangăbán trên th tr ng) thì hi u qu đ i v i ti ng Vi t là khá th p M t s không th phân
bi tăđ cănh ăchu n, chu n,ăchuơn,ầ(vìăti ng Vi tăcóăthanhăđi u - tonal language, còn ti ng Anh thì không), vì v y nh n d ng ti ng Vi t ch có th doăng i Vi t làm
Nh n d ng và t ng h p ti ng nói không th dựa trên các m c x lý th p (signal processing) mà còn ph i k t h p x lý thông tin các m c cao và cao nh t là tri th c
Nh n d ng ti ng nói là m t quá trình nh n d ng m u, v i m căđíchălà phân l p (classify)ăthôngătinăđ u vào là tín hi u ti ng nói thành m t dãy tu n tự các m uăđƣă
đ c h cătr căđóăvƠăl uătr trong b nh Các m uălƠăcácăđ năv nh n d ng, chúng
có th là các t , ho c các âm v N u các m u này là b t bi năvƠăkhôngăthayăđ i thì công vi c nh n d ng ti ng nói tr nênăđ năgi n bằng cách so sánh d li u ti ng nói
c n nh n d ng v i các m uăđƣăđ c h căvƠăl uătr trong b nh ăKhóăkhĕnăc ăb n c a
nh n d ng ti ngănóiăđóălƠăti ng nói luôn bi n thiên theo th i gian và có sự khác bi t
l n gi a ti ng nói c a nh ngăng i nói khác nhau, t căđ nói, ng c nhăvƠămôiătr ng
âm h căkhácănhau.ăXácăđ nh nh ng thông tin bi n thiên nào c a ti ng nói là có ích và
Trang 9Đây là m t nhi m v r tăkhóăkhĕnă mƠă ngayăc v i các kỹ thu t xác su t th ng kê
m nhăcũngăkhóăkhĕnătrongăvi c t ng quát hoá t các m u ti ng nói nh ng bi n thiên quan tr ng c n thi t trong nh n d ng ti ng nói Các nghiên c u v nh n d ng ti ng nói dựa trên ba nguyên t căc ăb n:
Tín hi u ti ngănóiăđ c bi u di n chính xác b i các giá tr ph trong m t khung
th i gian ng n (short-term amplitude spectrum) Nh v y ta có th trích ra các
đ căđi m ti ng nói t nh ng kho ng th i gian ng năvƠădùngăcácăđ căđi m này làm d li uăđ nh n d ng ti ng nói
N i dung c a ti ngănóiăđ c bi u di năd i d ng ch vi t, là m t dãy các ký
hi u ng ơm.ăDoăđóăýănghĩaăc a m tăphátăơmăđ c b o toàn khi chúng ta phiên
âm phát âm thành dãy các ký hi u ng âm
Nh n d ng ti ng nói là m t quá trình nh n th c Thông tin v ng nghĩaă(semantics)ăvƠăsuyăđoánă(pragmatics)ăcóăgiáătr trong quá trình nh n d ng ti ng nói, nh t là khi thông tin v âm h c là không rõ ràng.[1]
1.1.2 T ng quan tình hình nghiên c u
Ti ngănóiălƠăph ngăti n giao ti păc ăb n nh t c aăloƠiăng i, nó hình thành và phát tri n song song v i quá trình ti n hóa c aăloƠiăng i.ăĐ i v iăconăng i, s d ng
l i nói là m t cách di năđ tăđ năgi n và hi u qu nh t.ă uăđi m c a vi c giao ti p
bằng ti ngănóiătr c tiên là t căđ giao ti p, ti ng nói t ng iănóiăđ căng i nghe
hi u ngay l p t căsauăkhiăđ c phát ra Ngày nay, nh sự phát tri n c a khoa h c kỹ thu t, máy móc d n d n thay th cácălaoăđ ngătayăchơn.ăTuyănhiênăđ đi u khi n máy móc, conăng i ph i làm khá nhi u thao tác t n nhi u th i gian và c n ph iăđ căđƠoă
t o.ăĐi u này gây tr ng iăkhôngăítăđ i v i vi c s d ng các máy móc, thành tựu khoa
h c kỹ thu t.ăTrongăkhiăđó,ăn uăđi u khi n máy móc thi t b bằng ti ng nói s d dàng
h n.ăNhu c uăđi u khi n máy móc thi t b bằng ti ng nói càng b c thi tăh năđ i v i các thi t b c mătay,ănh :ăđi n tho iădiăđ ng,ămáyăPalm/PocketăPC,ầăĐ máy tính có
th ngheăđ c ti ngănói,ăơmăthanhăconăng iăđƣăxơyădựngălĩnhăvực nh n d ng ti ng nói.ăH năn a th kỷ trôiăquaăconăng iăđƣăthuăđ c nh ng thành tựuăđángăk , và có
nh ng ng d ng h u ích thi t thực vào trong cu c s ng.ăNh ngădùăsaoăkh nĕngăngheă
hi u c a máy tính v n còn nhi u h n ch và kho ng cách khác xa so v i thực t M t
Trang 10v iăn c ta nh n d ng ti ng nói v n còn là m tălĩnhăvực khá m i mẻ
1.1.2.1 NgoƠi n c
Hi n nay, trên th gi i có r t nhi u h th ng nh n d ng ti ng nói đƣăvƠăđangăđ c
ng d ng r t hi u qu nh :Via Voice c a IBM, Spoken Toolkit c a CSLU (Central of Spoken Laguage Understanding) trong ti ng Anh, môă hìnhă Fujisakiă đ c trong h
th ng c a ti ng Nh t, mô hình MFGI (Mixdorff ậ Fujisaki model of German Intonation) trong ti ngăĐ c,ầ
Sự phát tri năv t b c c a công ngh vi x lý và công ngh x lý ti ng nói trong
nh ngănĕmăg năđơyăđƣăm ra r t nhi u nh ng ng d ngăkhácănhauămƠăđángăk nh t là các h th ng giao ti p, h iăđápăthôngătinăquaăm ngăđi n tho i Có th k tên m t s
ng d ng nh :ă
Quay s bằng gi ng nói
Truy c p thông tin bằng gi ngănóiăquaăđ ngăđi n tho i
H th ng hỗ tr y t quaăđi n tho i
ng d ng truy v n thông tin trong ngân hàng
ng d ng chu năđoán,ăđi u tr b nh t xa
Theo th ng kê và dự báo v th tr ng công ngh thông tin và truy năthôngănĕmă
2009, chi tiêu cho nghiên c u, ph n c ng, ph n m măliênăquanăđ n công ngh x lý
ti ngănóiătrongănĕmă2008ătrênătoƠnăth gi iăđƣăv t con s 5 tỷ đô-la Mỹ
Công ngh x lý ti ngănóiăđƣăthayăđ iăcáchăconăng iăt ngătácăv i h th ng, không còn bó bu c trong cách th căt ngătácătruy n th ngă(nh ăb măphímătrênăđi n tho i) mà chuy năsangăt ngătácătrực ti p bằng gi ngănói.ăTrongămôiătr ng kinh t
c nh tranh, các ng d ng d n d năđƣăchuy n sang tích h pătínhănĕngăt ngătácăơm thanh Vi c ng d ng và khách hàng có th t ngătácăv i nhau thông qua âm thanh khôngăcóănghĩaălƠălo i b giao di năđ h a truy n th ng mà nó cung c p thêm m t cách truy c p thông tin và d ch v ti n l i, tự nhiênăh n.ă
M t s ng d ngăth ngăm iăđòiăh i sự giao ti p gi a khách hàng và h th ng
v i s l ng l n, có tích h pătínhănĕngăt ngătácăơmăthanh.ăT đó,ăcácăh th ng giao
ti p, h iăđápăthôngătinătự đ ngăraăđ i.ăThôngăth ng, các h th ngănƠyăh ng d n
Trang 11qua các t pătinăơmăthanhăghiăơmătr c ho c qua b t ng h p ti ng nói n u n i dung không c đ nh Khách hàng dùng l i nói cung c p thông tin cho h th ng, h th ng
x lý thông tin, truy xu tăc ăs d li u r i g i ph n h iăthôngătinăd i d ng âm thanh
t i khách hàng
1.1.2.2 Trong n c
Trong nhi uă nĕmă qua,ă m t s các hãng công ngh l n trên th gi iă đƣă đ uă t ănghiên c u v lĩnhăvực này song k t qu thuăđ c còn khá khiêm t n, ch có m t s ít công ty có chíp nh n d ng ti ng nói ti ngăAnhănh ăCôngătyăSony,ăMotorolaănh ngăv n
b gi i h n v s t vựng và ng d ng Vi t Nam, v năđ nghiên c u thi t k c u trúc vi m ch nh n d ng ti ng Vi t v n còn b ng , m cădùăđơyălƠăhaiăh ng công ngh caoăđ că uătiên phát tri n
Ph m vi ng d ng h th ng nh n d ng ti ng nói ti ng Vi tătrongăn căđƣăđ c
s d ng các công ty, t păđoƠnăvi n thông l nănh :ăMobifone,ăVinaphone,ăViettelầă
nh ngăcònăr t ít và có nhi u h n ch , tuy nhiên cũngăđƣăcóăm t s mô hình nh n d ng
ti ngănóiăđƣăđ c xây dựngănh :
T ngă h pă vƠă nh nă d ngă ti ngă Vi tă c aă GS.TSKHă B chă H ngăKhang[9]:Nghiênăc uăc ăs ălýăthuy tăc aăcácăh ăth ngănh năd ngăti ngănóiăvƠă
đ cătr ngăti ngăVi t
KỹThu tănh năd ngăti ngănóiăvƠă ngăd ngătrongăđi uăkhi năc aăTS Nguy năVĕnăGiápăvƠăăKS.ăTr năH ngăVi t[10]: Đ ătƠiănƠyăth ănghi măh ăth ngănh nă
d ngă ti ngă nóiă ti ngă Vi tă trênă máyă tínhă bằngă ph ngă phápă MFCCă vƠă nh nă
d ngăbằngămôăhìnhăMarkovă năHMM,ă ngăd ngătrongăđi uăkhi năkhi năxeăv iă
b ăt ăvựngăg mă4ăt :ăắtrái,ăph i,ăti n,ălùi”ăv iăk tăqu ăchínhăxácăđ tăđ cătrênă90%
Nh năd ngăti ngăVi tădùngăm ngăneuronăk tăh pătríchăđ cătr ngădùngăLPCăvƠăAMDFăc aăTS.ăHoƠngăĐìnhăChi n[11]:đ ătƠiăxơyădựngămôăhìnhănh năd ngă
ti ngă nóiă ti ngă Vi tă v iă b ă t ă vựngă ắlên,ă xu ng,ă trái,ă ph i,ă t i,ă lùi,ă xoay,ă
d ng”,ăchoăk tăqu ăchínhăxácănh năd ngătrungăbìnhălƠă99,4%
Đ tƠiăắThi t k chíp nh n d ng ti ng nói Vi t Nam trên n n công ngh FPGA”ă
c a nhóm nghiên c uătr ngăđ i h c Bách khoa thành ph H Chí Minh do TS Hoàng TrangăvƠoănĕmă2012ălƠmătr ng nhóm đƣăgópăph năắc ngăhóa”ăthƠnhăcôngăcácăgi i
Trang 12c n quan tâm, bao g m:ăđ chính xác nh n d ng, tài nguyên ph n c ng và t căđ tính toán Ba y u t nƠyăth ngăđ c cân nh c ch n lựa kỹ b i khó có th đ tăđ c t iă uătrên cùng lúc c ba y u t trên
V năđ ănh năd ngăti ngănóiăti ngăVi tăđƣăcóănhi uăcôngătrìnhănghiênăc uănh ngă
ch aăđ cătri năkhaiăthựcăhi năt tătrênăph năc ngălƠădoăbaăy uăt ătrên.ăBênăc nhăđó,ă
nh nă d ngă ti ngă nóiă ti ngă Vi tă trênă n nă côngă ngh ă FPGAă cóă uă đi mă lƠă tínhă toánănhanhănh ngăn năcôngăngh ănƠyăch aăđ că ngăd ngănhi uătrênăcácăthi tăb ădiăđ ngăngƠyănayănh :ăđi nătho iădiăđ ng,ămáyătínhăb ng,ărobotăd chăv ,ăSmartăTVầ
Nhi măv ăchínhăc aălu năvĕnălƠ xơyădựngămôăhìnhănh năd ngăti ngănóiăti ngăVi tă
s ă d ngă thu tă toánă tríchă ch nă đ că tr ngă MFCC,ă l ngă t ă vector VQ và mô hình Markovă năHMM,ănh năd ngăti ngănóiăthôngăquaăthi tăk ph năm măgiaoădi nătrênămáy tính vƠăđi uăkhi n môăhìnhăh ăth ng thông qua Board Arduino Mega 2560
1.2 M c tiêu vƠ đ i t ng nghiên c u c a đ tài
Thi t k và thi công robot m tăng i th hi n c m xúc
Thi t k giao di n ph n m m nh n d ng và ph n c ngăđi u khi n robor m t
Trang 131.3 Nhi m v và gi i h n c a đ tài
1.3.1 Nhi m v
Nghiên c uăđ cătr ngăti ng Vi t
Nghiên c u công ngh phân lo i ti ng nói ậ ti ng Vi t
Nghiên c uăcácăph ngăphápăx lý, l c tín hi u liên t c, r i r c;ăcácăph ngăphápă rútă tríchă đ tă tr ngă (MFCC), phân lo i, nh n d ng tín hi u ti ng nói (Hidden Marko Models )
Ch n lựa hàm mô hình Markov n đ thi t k giao di n nh n d ng các t p
l nh c aăđ iăt ng đi u khi n - Robot th hi n c m xúc
Vì th i gian có h nănh ăđƣănêuătrênănênăph n thi t k và thi công mô hình
thực nghi m ch d ng l i d ng là m tărobotăđ năgi n,ădoăđóăvi c ra l nh
ph c t păđ robot thực hi n nhi m v ph c t p b h n ch
Trongăđi u ki năbìnhăth ng, k t qu nh n d ngăch aăđ tăđ c 100%
1.4 Ph ng pháp nghiên c u
Ng i thực hi năđ tƠiăđƣăs d ngăcácăph ngăăphápăsauăđơy:
Ph ngăphápănghiênăc u tài li u: các tài li uăliênăquanăđ n nh n d ng ti ng nói,ă ph ngă phápă tríchă đ că tr ngă MFCC,ă l ng t vector VQ, mô hình Markov nă HMM,ă đ că đi m ti ng Vi t Các tài li u liên quan v l p trình C/C++ và Matlab
Trang 14ch năđ cătr ngăMFCC,ăph ngăphápăl ng t vector VQ, mô hình Markov n HMM trong nh n d ng ti ng Vi t
Ph ngăphápăchuyênăgia:ăthamăkh o ý ki n c a chuyên gia v trích ch năđ c
tr ngă MFCC,ă l ng t vector VQ, mô hình Markov n HMM trong nh n
d ng ti ng nói ti ng Vi t, và kh nĕngă ng d ng vào thực t
Ph ngăphápăthực nghi m: thực nghi m vi c nh n d ng ti ng nói ti ng Vi t trên máy tính và xu t ra board đi u khi n Robot m tăng i th hi n c m xúc
1.5 N i dung lu n văn
N iădungăđ tài g m các ph n sau:
Ch ng 1: T ng quan
T ng quan chung v lĩnhăvực nghiên c u
M cătiêuăvƠăđ iăt ng nghiên c u
Nhi m v và gi i h n c aăđ tài
Ph ngăphápănghiênăc u
Ch ng 2: Đ c tr ng ti ng nói ti ng Vi t
Phân tích t ng quan v ti ng nói
Cácăđ cătr ngăc ăb n c a ti ng Vi t
Phơnătíchăph ngăphápătríchăđ cătr ngăMFCC
Phơnătíchăph ngăphápăl ng t vector VQ
Ch ng 4:Mô hình Markov n HMM
C ăs lý thuy t v mô hình Markov n HMM
ng d ng mô hình Marko n HMM vào nh n d ng ti ng nói ti ng Vi t
Ch ng 5: Thi t k ph n c ng và m ch đi u khi n Robot
T ng quan v ph n c ng c a h th ng và cách lựa ch n thi t b
Gi i thi uăBoardăArduinoăMegaă2560ăvƠăcácătínhănĕngătrongăvi căđi u khi n
Trang 15C h ng 6: Thi t k h th ng nh n d ng và ph n m m giao di n nh n d ng
Xây dựng thu t toán ti n x lý ti ng nói ti ng Vi t
Xây dựng thu t toán trích ch năđ cătr ngăti ng nói ti ng vi t MFCC
Xây dựng thu tătoánăl ng t vector VQ
Xây dựng thu t toán mô hình Markov n
Xây dựng thu t toán hu n luy n và nh n d ng ti ng nói ti ng Vi t
Đ tài nghiên c u có th đ c s d ng làm tài li u nghiên c u và gi ng d y cho sinhăviênăđ i h c và cao h cătrongăđƠoăt oăcácăchuyênăngƠnhăĐi n ậ Đi n
t ,ăĐi n t vi n thông,ầ
ng d ng mô hình nh n d ng ti ng nói ti ng Vi t trong các h th ng nh n
d ng,ăđi u khi n thi t b ,ărobot,ầbằng ti ng nói ti ng Vi t
Trang 16Ch ng 2:
Đ C TR NG TI NG NÓI TI NG VI T
Tín hi u ti ngănóiăđ c xem là tín hi u ng u nhiên vì chúng ta không th xác
đ nhăchínhăxácăbiênăđ và t n s c a tín hi u ti ngănóiăđ c nói Tuy nhiên, mỗi t
c a ti ng nói l i ch a nh ng thành ph năđ cătr ngăriêngăđ cătr ngăchoăt đó,ăvìăv y
vi cătáchăđ cătr ngăti ng nói là quá trình quan tr ng trong h th ng nh n d ng ti ng nói Các h th ng nh n d ng s phân bi t các t khác nhau trong ti ng nói dựa trên
đ cătr ngăriêngăc a mỗi t ăQuáătrìnhătríchăđ cătr ngăti ngănóiălƠăquáătrìnhăcôăđ ng tín hi u ti ng nói c a mỗi t thành các thông s đ cătínhăđ cătr ngăchoăt đó,ănhằm
gi m nhẹ công vi c nh n d ngăvƠătĕngăđ chính xác cho h th ng nh n d ng
2.1 T NG QUAN V TI NG NÓI:
Ti ng nói là m t lo i sóng âm Khi chúng ta nói, ti ngă nóiă đ c truy nă điămangătheoăthôngătinăd i d ngăcácădaoăđ ng truy năđ nătaiăng i nghe M căđ truy n tin c a ti ngănóiăđ c xem là nhanh nh t trong các kh nĕngătự nhiên c a conăng i
Tín hi u ti ng nói ch a các thông tin có t n s t p trung trong kho ng t 4kHz
tr xu ng.ăĐơyăcũngăchínhălƠăkho ng t n s ch aănĕngăl ng ch y u c a tín hi u
ti ng nói
Trong kho ng th i gian dài, tín hi u ti ng nói là tín hi u không d ng,ănh ngătrong kho ng th iăgianăđ ng n tín hi u ti ngănóiăđ căxemănh ătínăhi u d ng
Đ i v i quá trình nh n d ng ti ng nói, thì ngoài vi c nh năraăcácăđ cătr ngăc a
ti ng nói thì quá trình h c thích nghi v iăcácăthayăđ i c aăđ cătr ngăti ngănóiăcũngă
Trang 17 Tínhăđ c l p: t c là mỗi âm ti t là m t thành ph n nh , chúng rõ ràng và tách bi t v i nhau, mỗi t đ i di n cho m t âm ti t duy nh t
Không có hi năt ng n i âm: trong ti ng Vi t,ădùăng i nói, nói nhanh hay nói ch m thì mỗi t phátăraăđ u riêng lẻ, không có sự n i âm hay nu t âm
nh ătrongăti ngăAnh.ăĐi u này làm cho ranh gi i gi a các âm ti t rõ ràng
v i nhau, không có sự ch ng l p gi a các t
Ti ng vi t có hai lo i t là t đ năvƠăt ghép T đ nălƠăt đ c t o t m t
âm ti t, t ghép là t đ c t o t nhi u t đ n.ăTrongăđaăs cácătr ng h p
mỗi t đ năđ uămangăýănghĩaăđ yăđ , vi c ghép các t đ năcóănghĩaăthƠnhă
m t t ghépăcóănghĩaăkhácălƠmăchoăv năđ nh n d ng t ghép tr nên khó khĕnăh n
Khi phát âm m t âm ti t,ăcácăc ăth t c a b máyăphátăơmăđ u tr i qua ba giai
đo n:ătĕngăc ngăđ cĕng,ăđ nhăđi măcĕngăthẳng và gi măđ cĕng
Dựa vào cách k t thúc, các âm ti t ti ng Vi tăđ c chia thành hai lo i l n là
âm ti t m và âm ti t khép Trong mỗi lo i l i có hai lo i nh h n,ănh ăv y có b n
lo i âm ti t trong ti ng Vi tănh ăsau:
Âm ti t n a khép: là nh ng âm ti tăđ c k t thúc bằng m t ph âm vang
Âm ti t m : là nh ng âm ti tăđ c k t thúc bằng cách gi nguyên âm s c
c a nguyên âm đ nh âm ti tănh :ăta,ăma,ăto,ầ
Âm ti t ti ng Vi t có m t c u trúc ch t ch , nó không ch là m tăđ n v ngôn
ng đ năthu n mà còn là m tăđ năv t vựng và ng pháp ch y u Mô hình c u trúc t ng quát c a m t âm ti t ti ng Vi tăđ c th hi n trong b ng 2.1
Trang 18B ng 2 1:C u trúc t ng quát c a m t âm ti t ti ng Vi t
Thanhăđi u Ểmăđ u Ểmăđ m Âm chính Âm cu i V n
2.2.2 Âm v :
M t ti ng nói g m m t chuỗiăcácăơmăc ăb n g i là âm v Xét v m c ng âm,
âm v lƠăđ năv nh nh t c a ti ng nói, là m tăđ năv tr uăt ng mà chúng ta không
th quan sát trực ti p trong tín hi u ti ng nói Mỗi âm v có hai ch cănĕng:
C u t o nên v âm thanh c aăcácăđ năv cóănghĩa
Phân bi t v âm thanh c aăcácăđ năv cóănghĩa
Ví d v t ắtôi”ăcóăbaăơmăv lƠăắt”,ăắô”ăvƠăắi”
2.2.3 Nguyên âm và ph âm:
Nguyên âm:
Nguyên âm là m t âm thanh trong ngôn ng nói,ăđ c phát âm v i thanh qu n
m ,ădoăđóăkhôngăcóăsự tíchălũyăápăsu t không khí trên b t c đi m nào c a thanh môn, c a b ph n c u âm, vì v yănguyênăơmăkhôngăcóăđi m c u âm
NgoƠiăcácănguyênăơmăđ n,ătrongăti ng Vi tăcònăcóăcácănguyênăơmăđôi,ăhayăcònă
g i là nh âm Trong ti ng vi t có 16 âm v lƠănguyênăơm,ătrongăđóăcóă13ănguyênăơmă
đ năvƠă3ănguyênăơmăđôi
Ph âm:
Ph ơmăđ c t o ra do lu ngăh iăb ch n m tăđi mănƠoăđóătrongăb ph n c u
âm khi phát âm, vì v y ph ơmăcóătiêuăđi m c u âm Khi phát ph âmăthìăđ cĕngă
th ng t p trung tiêuăđi m c u âm Ph ơmăđ c chia làm các lo iăc ăb n sau:
Ph âm b tăh i:ăơmăđ c phát ra t sự phá vỡ các c n tr và c xát
gi a hai mép dây thanh Ví d ph âm b tăh iănh :ăắth”,ăắt”,ăắtr”,ầ
Ph ơmămũi:ăơmăđ c phát ra t lu ngăkhôngăkhíăđ c t o ra và thoát
ra ngoài nhẹ nhàng quaă khoangă mũi.ă Khiă quaă khoangă mũi,ă ơmă nƠyă
ch u c ngă h ng c a khoang mũi.ă Ph ơmă nƠyă cònă đ c g i là âm vang Ví d v ph ơmămũiănh :ăắm”,ăắn”,ăắnh”,ầ
Trang 19 Ph ơmăxát:ăkhôngăkhíăđiăraăb c n tr không hoàn toàn, ph i lách ra
m t khe h nh gi aăhaiăc ăquanăc u âm, gây nên ti ng c xát nhẹ Ví
d v ph ơmăxácănh :ăắv”,ăắg”,ầ
2.2.4 Thanh đi u:
Thanhă đi uă lƠă đ că tínhă đ că tr ngă c a ti ng Vi t nói riêng và các ngôn ng
ti ngănóiăcóăthanhăđi u nói chung so v i các ngôn ng khácănh ăti ngăAnh,ăPháp,ầ Thanhăđi u là m t thành ph n ng âm, không ph i là nh n gi ng, giúp phân
bi t các t đ ng âm
Ng i ta phân bi tăthanhăđi u dựa vào hai yêu t lƠăơmăđi u và âm vực Âm
đi u là sự thayăđ i t n s c ăb n c a thanhăđi uăhayăđ ng nét c aăthanhăđi u, còn
âm vực là mi n giá tr c a t n s c ăb n
Trong ti ng Vi t t ng c ngăcóă6ăthanhăđi uănh ăsau:
Thanh ngang: âm phát ra bằng phẳng và không có lên hay xu ng t đ u
Thanhăngƣ:ăơmăphátăraăcóăđi m b tăđ u th p và không bằng phẳngăcóăđo n
d c b đ t quãng do thanh h u ngh n l i t o nên kho ngăgiánăđo n gi a thành và cu i cùng l i lên cao nhanh chóng
Thanh n ng: âm phát ra b tăđ u th p và t t xu ng th păh năn a r i cu i cùng k t thúc bằng m t nét t t gi ng
Trang 20Ch ng 3:
MÔ HÌNH NH N D NG TI NG NÓI TI NG VI T
3.1 Phân lo i các h th ng nh n d ng ti ng nói:
3.1.1 Nh n d ng t liên t c và nh n d ng t cách bi t:
M t h nh n d ng ti ng nói có th là m t trong hai d ng: nh n d ng liên t c và
nh n d ng t cách bi t Nh n d ng liên t c t c là nh n d ng ti ngănóiăđ c phát liên
t c trong m t chuỗi tín hi u, chẳng h nănh ăm t câu nói, m t m nh l nh ho c m t
đo năvĕnăđ căđ c b iăng i dùng Các h th ng lo i này r t ph c t p, chúng ph c
t p chỗ các t đ c phát liên t c gây khóăkhĕnătrongăvi c x lý k p n u c n th i gian thực, ho c khó tách ra n uănh ăng i nói liên t c không có kho ng ngh K t
qu tách t nhăh ng r t l năđ năcácăb c sau, c n ph i x lý th t t t trong quá trình tách t
Trái l i, v i mô mình nh n d ng t riêng lẻ, mỗi t c n nh n d ngăđ c phát
âm m t cách r i r c, có các kho ng ngh tr c và sau khi phát âm m t t Mô hình nƠyădĩănhiênăđ năgi năh nămôăhìnhănh n d ng liên t c,ăđ ng th iăcũngăcóănh ng
ng d ng thực ti n,ănh ătrong các h th ngăđi u khi n bằng gi ng nói, quay s bằng
gi ngănói,ầv i đ chính xác khá cao, tuy nhiên khó áp d ng r ng rãi so v i mô hình nh n d ng liên t c
3.1.2 Nh n d ng ph thu c ng i nói vƠ đ c l p ng i nói:
Đ i v i nh n d ng ph thu căng i nói thì mỗi m t mô hình nh n d ng ch
ph c v đ c cho m tăng i, và mô hình s không hi uăng i khác nói gì n uănh ă
ch aăđ c hu n luy n l i t đ u.ăDoăđó,ăh th ng nh n d ngăng iănóiăkhóăđ c
ch p nh n r ng rãi vì không ph iăaiăcũngăđ kh nĕngăki n th c và nh t là kiên
nh năđ hu n luy n h th ng.ăĐ c bi t là h th ng lo i này không th ng d ng
n iăcôngăc ng
Ng c l i, h th ng nh n d ngăđ c l păng iănóiăthìălýăt ngăh n,ă ng d ng
r ngărƣiăh n,ăđápă ngăđ c h u h t các yêu c uăđ ra.ăNh ngăkhóăkhĕnălƠăh th ng lýăt ngănh ăv y g p m t s v năđ , nh tălƠăđ chính xác c a h th ng
Trang 21Trong thực t , mỗiăng i có m t gi ng nói khác nhau, th m chí ngay cùng m t
ng iăcũngăcóăgi ng nói khác nhau nh ng th iăđi m khác nhau.ăĐi u này nh
h ng r t l năđ n vi c nh n d ng, nó làm gi măđ chính xác c a h th ng nh n
d ng xu ng nhi u l n.ăDoăđóăđ kh c ph c khuy tăđi m này, h th ng nh n d ng
đ c l păng i nói c năđ c thi t k ph c t păh n,ăđòiăh iăl ng d li u hu n luy n
l n h nănhi u l n.ăNh ngăđi uănƠyăcũngăkhôngăc i thi năđ c bao nhiêu ch tăl ng
nh n d ng.ăDoăđó,ătrongăthực t có m t cách gi i quy tălƠăbánăđ c l păng i nói
Ph ngăphápănƠyăthực hi n bằng cách thu m u m t s l ng l n các gi ng nói khác
bi t nhau Khi s d ng, h th ng s đ căđi u ch nh cho phù h p v i gi ng c a
ng i dùng, bằng cách nó h c thêm m t vài câu có ch a các t c n thi t
Nh n d ngăđ c l păng iănóiăkhóăh năr t nhi u so v i nh n d ng ph thu c
ng i nói Cùng m t t , m tăng i, dù có c g ng phát âm cho th t gi ngăđiăn a thì cũngăcóăsự khác bi t.ăĐ i v i b nƣoăconăng i, m t h th ng hoàn h o, thì sự khác
bi tăđóăcóăth đ c b qua do ng c nh, và do có ph n x lý làm m điăc a não
Nh ngăđ i v i máy tính thì r t khó xây dựngăđ c m t mô hình gi i quy t cho t t
c cácătr ng h p khác bi tăđó
Hình 3 1: Ng i nói khác nhau s phát âm khác nhau
Trang 22L iănói đ cătr ngRút trích thamăsX păx ă Lựaăch nănhóm
Vi c nh p d li u ti ng nói thực hi n d dƠngăh năcácălo i d li u khác do tính
đ năgi n,ănhanh,ălƠmăđ c trong khi v nălƠmăđ c vi căkhác,ầTuyănhiên,ădoătínhă
ph c t p c a d li u ti ng nói, nên vi c nh n d ng ti ngănóiămangăđ ph c t p cao
Kíchă th c c a b t vựng:ă kíchă th c c a b t vựng càng l n thì h
th ng nh n d ng c n phân bi t rõ gi a các t trong b t vựng v i nhau, do đóăv iăkíchăth c c a b t vựng càng nh thìăđ chính xác c a h th ng
nh n d ng càng l n
Ti ngănóiăđ c thu âm m t cách r i r c trong nh ng kho ng th iăgianăđ
l năthìăđ chính xác c a h th ng nh n d ngăcaoăh năti ngănóiăđ c thu
m t cách liên t c.ăNh ăv y, vi c nh n d ng các t đ năth ng chính xác
h năsoăv i vi c nh n d ng m t câu nói liên t c
H th ng nh n d ngătrongămôiătr ng nhi u, nhi u t p âm s làm gi măđ
Trang 23 Thi t b thuăơmăđ uăvƠoăcũngă nhăh ngăđ n k t qu c a h th ng nh n
d ng, v i nh ng thi t b thu âm kém ch tăl ng có th làm m t mát thông tin, sai l chă thôngă tin,ầă lƠmă choă h th ng nh n d ng s khó nh n d ng chính xác h n
3.3 C u trúc h nh n d ng ti ng nói:
Hình 3.3trình bày c u trúc nguyên lý c a m t h nh n d ng ti ng nói Tín hi u
ti ngănóiătr c h tăđ c x lý bằng cách áp d ng quá trình trích ch năđ cătr ngăvà quá trình ti n x lý K t qu thuăđ c sau quá trình trích ch năđ cătr ngălƠăt p các
đ cătr ngăơmăh căđ c t o dựng thành m t vector
Ti năx ălý Tríchăch năđ cătr ng Soăsánhăt ngăđ ng
m t t , m tăơmăđ năho c m tăđ năv ti ngănóiănƠoăđó.ăTùyăthu c vào nhi m v c a
h th ng nh n d ng, quá trình hu n luy n h th ng s bao g m m t quá trình x lý
ít ph c t p ho c nhi u ph c t p
Vi c trích ch năcácăđ cătr ngătiêuăbi u và xây dựng m t mô hình tham kh o là
m t quá trình t n th i gian và là m t công vi c ph c t p
Trong quá trình nh n d ng,ădƣyăcácăvectorăđ cătr ngăđ căđemăsoăsánhăv i các
m u tham kh o.ăSauăđó,ăh th ngătínhătoánăđ t ngăđ ng c aădƣyăcácăvectorăđ c
tr ngăvƠăm u th m kh o ho c chuỗi các m u tham kh o Vi cătínhătoánăđ gi ng
Trang 24nhauăth ngăđ c tính toán bằng cách áp d ng các thu t toán hi u qu M u ho c dãy m uăcóăđ t ngăđ ng cao nh tăđ c cho là k t qu c a quá trình nh n d ng
Hi n nay, có nhi u ph ngăphápătríchăch năđ cătr ngăti ngănóiănh :ătríchăđ c
tr ngăLPC,ătríchăđ cătr ngăMFCC, Trong lu năvĕnăs d ngăph ngăphápătríchăđ c
tr ngăMFCCăđ tríchăđ cătr ngăti ng Vi t cho mô hình nh n d ng
3.4 Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t dùng Markov n:
Đ xây dựng mô hình nh n d ng ti ng nói ti ng nói ti ng Vi t có r t nhi u công c khác nhau M t trong nh ng công c đ c ng d ng cho vi c xây dựng mô hình nh n d ng ti ng nói ti ng Vi t là mô hình Markov n HMM
Ti năx ălý Tríchăđ cătr ngăMFCC
Nh năd ngăvƠătr ăk tăqu
Trang 25Markov n, ho c làm thông s đ u vào c a mô hình Markov năđ phân tích và tr
k t qu nh n d ng
3.5 Voice Acivation Detection (VAD):
Tín hi u ti ng nói sau khi thu âm qua microphone s thuăđ c m t s l ng
m u nh tăđ nh
Trongăđ tài ch n t n s l y m u tín hi u là 8kHz, mỗi l n thu âm kho ng 2 giây Tuy nhiên, v i t n s l y m u là 8kHz thì ta có 8000 m u/1 l năđ căthuăđ c thì không ph i toàn b đ uălƠăơmăthanhăcóăýănghĩa,ăph n nhi u trong s này là các kho ng l ng (silences) Do v y,ă tr c khi m uă ơmă thanhă đ că đ aă vƠoă tríchă đ c
tr ngăthìăc năcóăch ngătrìnhăđ tách l yăđo năơmăthanhăcóăýănghĩa,ăđ ng th i lo i
b các kho ng l ng.ăDoăđó,ăVADăs đ c s d ngăđ xén các kho ng l ng tr c
và sau c a m t l n phát âm
Hình 3 5 :Đo n m u âm thanhătr c khi VAD
Hình 3 6 :Đo n m u âm thanh sau khi VAD
Tín hi uăơmăthanhăđ căchiaăthƠnhăMăđo n, mỗiăđo n có L m u.ăTrongăđ tài này ch n K = 160 m u v i Fs=ă8kHz,ănghĩaălƠă20ms cho mỗiăđo n
SauăđóăhƠmănĕngăl ng Es s đ c tính cho mỗiăđo n b i công th c (3.1):
Trang 26ch n TH là do thực nghi m ki mătra,ălƠmăđiălƠmăl i nhi u l n m i có th ch n ra
đ c giá tr phù h p giúp cho vi c xén tín hi u chính xác tránh làm m t mát thông tin có ích ho căd ăth a nhi u thông tin vô ích
3.6 Ph ng pháp trích đ c tr ng ti ng nói MFCC:
Ph n này mô t ph ngăphápăphơnătíchăthôngătinătínăhi u ti ngănóiăđ t o ra cácăvectorăđ cătr ng.ă đơy,ătrongăkhơuătríchăđ cătr ng ch năph ngăphápMFCCă(tríchăđ cătr ngătheoăthangăt n s Mel) dot căđ tínhătoánăcao,ăđ tin c y l năvƠăđƣă
đ c s d ng r t hi u qu trongăcácăch ngătrìnhănh n d ngti ng nói trên th gi i
S ăđ gi i thu tăph ngăphápăphân tích thông tin ti ng nói nh ăsau:
Hình 3.7: S ăđ gi i thu tăph ngăphápăphơnătíchăthôngătinăti ng nói
Tín hi u ti ng nói x(n) sau khi phân tích thông tin s thuăđ căđ cătr ng d ng
các vector f x (n;m) B vector f x (n;m) có M vector (m =ă0,ă1,ăầ,ăMăậ 1) và mỗi vector
Tín hi u ti ng nói b nhăh ng b iămôiătr ng xung quanh Ví d tín hi u
x(n) thuăđ c b i các thành ph n: x(n) = s(n) + d(n),ătrongăđóăs(n) là tín hi u thu n
Trang 27ti ng nói và d(n) là nhi u Có nhi uăph ngăphápăl c nhi u, tuy nhiên có hai gi i thu tăchínhăđ thực hi năđóălƠătr ph và l c nhi u thích nghi đơyăthực hi n gi i thu t gi m nhi u tr ph vƠăđ c thực hi n g n li n v iăb c tách ti ng nói kh i kho ng im l ng
Nh n m nh tín hi u (pre-emphasis).ăTrongă b c x lýăđ u tiên này, tínhi u
đ căđ aăquaăm t b l c s :
H (z) = 1 ậ az-1(3.2)
Trongăđóăa là h s nh n m nh,ăth ng có giá tr là 0,97 B l c có tác d ng
tĕngăc ng tín hi u t i t n s cao (trên 1KHz) v i hai lý dochính:
Gi ng nói có sự suy gi m kho ng 20dB/decade khi lên t n s caoă dođ c
đi m sinh lý c a h th ng phát âm c aăconăng i.ăB c x lý nàys tĕngă
c ng tín hi u lên m t giá tr g nă 20dB/decadeă đ kh c ph c sựsuy gi m này,
H th ng thính giác c aăconăng i nh y c măh năv i vùng t n s cao,b c
x lý này nh n m nh vùng t n s cao, tr giúp cho quá trình môhình hoá âm thanh sau này c a h th ng nh n d ng
Trong mi n th i gian, b l c có d ng: = 1, − và tín hi u s 1 (n)ăthuăđ c sau b l c trong mi n th i gian s là:
Trang 28Ph ngăphápănƠyădựa vào tính ch tănĕngăl ng c a tín hi u ti ngănóiăth ng
l năh nănĕngăl ng c a tín hi u nhi u và t l quaăđi m zero c a nhi u s l năh nătín hi u ti ng nói Hình 3.9 cho th y m i quan h gi a tín hi uăthuăđ c, giá tr c a hƠmănĕngăl ng th i gian ng n và t l quaăđi m zero
Hình 3.9:Phân tích kho ng l ng c a ti ng nói
V i m t c a s k t thúc t i m u th m,ă hƠmă nĕngă l ng th i gian ng n
E s1 (m)ăđ căxácăđ nh b i:
1 = 12
= − +1
(3.4) Công su tăt ngă ng là:
1 = +1, 1( ) 0
−1, 1 < 0
Mỗi khung có L m u Chú ý rằng ch s trong các hàm này là m, vì vi c tính
toán không ph i thực hi n t i mỗi m u (ch tính sau mỗi khung m u)
Trang 29Ti pătheoălƠătínhăng ỡng quy tăđ nhăđ xácăđ nhăđi măđ uăvƠăđi m cu i c a
ti ngănói.ăĐ xácăđ nhăđ căng ỡng này, ta ph i thu tín hi u nhi u n n xung quanh
Gi đ nh rằng ta thu 50 khung nhi u n n và tính giá tr W s1 nh ăsau:
� = 0,2 −1.4Hàm dò ti ng nói có th thực hi nănh ăsau:
� = 1, 1( )
0, 1 <
Hình 3.10:Tách ti ng nói kh i kho ng im l ng theo VAD
Trang 30Hình 3.11:T ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng
l ng
3.6.2 T o khung và c a s hóa tín hi u
B c ti p theo là chia tín hi u x 1 (n) thành các khung và c a s hóa mỗi khung, xem Hình 3.12
Hình 3 12:Frame blocking và Windowing
T o khung tín hi u (framing) Tín hi u ti ng nói luôn luôn bi n thiên theo th i gian, tuy nhiên, trong kho ng th i gian kho ng 20-25ms, tín hi u ti ngănóiăđ c coi lƠăt ngăđ i năđ nh.ăDoăđó,ătínăhi uăth ngăđ căchiaăthƠnhăcácăkhungăkíchăth c
20 ậ 25 ms v i vùng g i lên nhau kho ng 5 ậ 10 ms
Mỗi khung có chi u dài là K m u, các khung cách nhau m t kho ng P m u,
Trang 31Giá tr cho K và P l năl t là 160 m u và 50 m uăt ngă ng v i th i gian l n
Trang 32Hình 3 15:Tín hi u ti ngănóiăsauăkhiăđ c c a s hóa so v iăbanăđ u
3.6.3 Trích đ c tr ng
ĐơyălƠăb c quan tr ng,ăđ c thực hi năđ trích các thông tin chính t các khung ti ng nói Có r t nhi u sự ch n lựa đ thực hi n tác v nƠyănh ăđƣătrìnhăbƠyă trên ăTuyănhiên,ăph ngăphápăMFCCăđ c s d ng ph bi năh n.ăCácăb c chính
đ thực hi năph ngăphápănƠyănh ăđ c mô t Hình 3.16
Hình 3.16:Cácăb c thực hi n MFCC
50 100 150 200 250 300 350 400 450 500 -1
-0.5
0 0.5 1
Original signal
50 100 150 200 250 300 350 400 450 500 -1
-0.5
0 0.5 1
Windowed signal
Trang 333.6.3.1 Bi n đ i Fourier r i r c (Discrete Fourier Transform - DFT)
Phép bi năđ i Fourier r i r c (DFT) chuy n tín hi u âm thanh t mi n th i gian
sang mi n t n s M t tín hi u x 2 (k;m) khi qua bi năđ i DFT s thuăđ c tín hi u
ph c mi n t n s g m 2 ph n: ReX (k t qu ph n th ực) và ImX (k t qu ph n o)
Ph ngătrìnhăc a phép bi năđ i DFT:
2 = � 2�
−1
=0(3.8)
Hình 3.17: Ph Fourier c a tín hi u g c và tín hi uăđƣăc a s hóa
3.6.3.2 Mel scale
L c theo thang t n s Mel (Mel-frequency bandpass filter) Các b l c s đ c
áp d ngăđ l c các tín hi u theo các gi i t n s khác nhau
50 100 150 200 250 -1
-0.5 0 0.5 1
Original signal
50 100 150 200 250 -1
-0.5 0 0.5 1
Windowed signal
0 1000 2000 3000 4000 0
50 100
150 Energy spectrum (linear scale)
0 1000 2000 3000 4000 0
20 40 60 80 Energy spectrum (linear scale)
Trang 34Ph n ng c aătaiăng i v i các thành ph n c a t n s là không tuy n tính Sự khác nhau v t n s vùng t n s th p (<1KHz) d đ c nh n bi t b iăconăng i
h nălƠă vùng t n s cao L c theo thang t n s Mel mô ph ng tính ch t này bằng cách dùng các b l căđ c phân b theo m t hàm phi tuy n trong kho ng không gian t n s ,ăthôngăth ng là hàm Mel: [7]
= 2595 10 1 +
700 (3.9)
Nh ăv y, ti p theo ta l yăbiênăđ c a X 2 (n;m) nhân v iăcácăbĕngăl c t l mel
B cănƠyăđ c mô t theo công th c sau:
−1
=0
(3.10)
Trongăđóă ( ) là b l c tam giác
Hình 3.18: Bĕngăl c tam giác melscale trên mi n t n s
Trang 35IDCT (Iverse Discrete Cosin Transform) Gi ng nói c aăconăng i có ph khá
tr nă(smooth)ătrênămi n t n s , do v y, các giá tr nĕngăl ng c a các b l c g n nhau có sự t ngăquană(correlated)ăkháăg n.ăB c x lý này bi năđ i các giá tr nĕngăl ng thành các h s ítăt ngăquanăv iănhauăh n,ăcácăh s nƠyăđ c g i là
h s cepstral
đơyăcóă12 bĕngăl căđ c s d ng trong dãy t n s 0 ậ 4000 Hz Các h s
ph melăsauăkhiăđ c tính s đ c l yălogarităng c và bi n đ i cosin r i r cănh ăsau:
Ch nh các giá tr cepstral Giá tr cepstral b căcaoăth ng có giá tr r t th p, so
v i các giá tr cepstral b c th p Sự khác bi tănƠyăgơyăkhóăkhĕnăchoăvi c mô hình hoá d li u, ví d nh ăkhiăs d ng các hàm m tăđ xác su tăGauss.ăDoăđóăcácăh s
cepstral c s (n;m) ti p t c đ căđi u ch nh l i (re-scaled) theo công th c:
� ; = � ; 1 +
2
� , = 1,2, … , (3.12)
3.6.3.3 Tính năng l ng tín hi u
Mỗi khung tín hi uăđ uăcóănĕngăl ngăriêngăvƠănĕngăl ngănƠyăđ c tính theo logaritănh ăsau:
Trang 36Bi năđ i ph đóngăvaiătròăquanătr ng trong nh n d ng ti ngănói.ăDoăđóăchúngă
ta c n có thêm các thông tin v sự sai bi t th i gian, các h s delta, các h s gia
t că(ăđ o hàm b c hai c a h s mel-cepstrum) Ta có th s d ng bi u th căsauăđ tính trực ti p các h s này:
Tuy nhiên, theo cách này chúng ta s có khá nhi u các thành ph n nhi u Và có
m tăph ngăphápăkhácăđ làm phẳng nhi u là s d ngăđaăth c x p x Phép x p x nƠyăđ c thực hi n bằngăcáchăphơnăđo n các h s mel-cepstrum.ăNh ăv y, các h
Trang 37s delta và các h s gia t căđ c tính t các h s mel-cepstrum theo bi u th c nh ăsau: [3]
= −Bây gi chúng ta có th nh năđ c nhi uăthôngătinăh năv ti ng nói trong các
vectorăđ cătr ng.ăGiáătr p đ c ch n t iă uălƠăbằng 3, vì n u quá l n thì th i gian
1ăđ cătr ngănĕngăl ng
12 MFCC (mel frequency cepstral coefficients) (các h s cepstral t n
s mel)
1ădeltaăđ cătr ngănĕngăl ng
Trang 38 12ăđ cătr ngădeltaăMFCC
1ăđ cătr ngădoubleăậ deltaănĕngăl ng
12ăđ cătr ngădoubleăậ delta MFCC
T ng c ng có 39 th nguyênăđ cătr ng.ăNh ăv y,ătaăthuăđ c b vectorăđ c
tr ngăx 3 (n;m) đ c s p x pănh ăsau:
E m c h (1;m) c h (2;m) … c h (n;m) δ (1) E m δ (1) (1;m) δ (1) (2;m) … δ (1) (n;m) δ (2) E m δ (2) (1;m) δ (2) (2;m) … δ (2) (n;m)
3.6.4 H u x lý
Sauăkhiătríchăđ c các vector mong mu n, các vector này có th đ cătĕngă
tr ng s ho c gi m tr ng s đ cácăđ cătr ngăcóătácăđ ng nhi u ho căítăh n.ăNóăcóă
Trang 393.7 L ng t vector:
3.7.1 T ng quan v l ng t vector (VQ):
Tín hi uăơmăthanhăsauăkhiăđ cătríchăđ cătr ngăs cho ta m t chuỗi các vector
đ cătr ng.ăTùyăthu căvƠoăđ c tính mỗi t mà s l ngăcácăvectorăđ cătr ngăkhácănhau.ăSauăđó,ăchuỗiăvectorăđ cătr ngănƠyăs đ căl ng t hóaăđ chia thành M nhómăkhácănhauăđ c g i là codebook, và mỗi nhóm s đ c gán nhãn t 1 t i m
M căđíchăc aăb c này nhằm làm gi m s l ng các quan sát cho chuỗiăvectorăđ c
tr ng,ăt đóălƠmăgi m s l ng tính toán cho vi c hu n luy n hay nh n d ng ti ng nói.ăSauăđó,ămôăhìnhăMarkovă năđ c ng d ngăđ hu n luy n hay nh n d ng ti ng nói
Khiăphơnătíchăđ cătr ngăti ng nói, chúng ta nh năđ căcácăvectorăđ cătr ngălƠă
v l (p,l) , v i l = 1, 2, , L M ỗi vector có P chi u,ătríchăđ cătr ngăMFCCăchoătaăP =
39 Do mô hình HMM r i r căđ c s d ngăđ nh n d ng nên các vector này ph i
đ că căl ng thành các ch s codebook r i r c bằng cách gán nhãn cho vector
đ cătr ng
Cácăđ c tính c a VQ:
Gi m thi uăkhôngăgianăl uătr cácăvectorăđ cătr ng
Gi m th i gian tính toánăđ gi ng nhau gi aăcácăvectorăđ cătr ng.ăTrongă
nh n d ng ti ng nói, m t s l ng l năcácăphépătínhădùngăđ tính sự gi ng nhau gi aăhaiăvectorăđ cătr ng.ăDựa vào VQ, vi cătínhătoánăđóăđ c gi m
xu ng thông qua vi c tìm sự gi ng nhau gi a hai c p vector codebook trong b ng tìm ki m
Bi u di n r i r c v m t âm h c c a ti ng nói Nh quá trình gán nhãn cho
t ng frame c a t ng t , mà quá trình ch n codebook t t nh t cho t đóătrong các h th ng nh n d ng ti ng nói ch đ năthu n là dựa trên các nhãn này
Tuy nhiên vi căl ng t vector ch c ch n s d năđ n sai s l ng t hóa,ăđi u này d năđ năthôngătinăđ cătr ngăc a ti ng nói b sai l ch M t khác, vi c lựa ch n kíchăth c c aăcodebookăchoăVQăkhôngăđ năgi n.ăTĕngăkíchăth c s gi m sai s
l ng t ,ă nh ngă s tĕngă khôngă giană l uă tr các vector trong codebook và kh i
Trang 40l ng tính toán khi thựcăthiăch ngătrìnhăcũngăs tĕngălên.ăDoăđó,ăkhiăcƠiăđ t VQ, chúng ta c năxemăxétăđ n sai s l ng t ,ăkhôngăgianăl uătr và th i gian tính toán
3.7.2 C u trúc và t p hu n luy n VQ:
Đ xây dựng codebook VQ và xây dựng thu t toán phân tích VQ, chúng ta c n các y u t sau:
M t t păcácăvectorăđ cătr ngăv 1 , v 2 ,…, v llà t p hu n luy n cho VQ N u
kíchăth c c a codebook VQ là M = 2 B g i là codebook B bit, thì chúng ta
c năLă>>Măđ tìmăđ c M vector t iă uănh t.ăTrongăđ tài ch n kíchăth c codebook là codebook 64
Đ đoă d gi a các c pă vectoră đ că tr ngă đ phân nhóm vector trong khâu
hu n luy n, hay phân l păvectorătrongăkhơuăđánhănhƣn
Ph ngă phápă xácă đ nhă nhơnă đ phân ho ch L vectoră đ că tr ngă thƠnhă Mănhóm
Ph ngăphápăphơnăl păcácăvectorăng̃ăvƠoăđ t o m tăvectorăng̃ăraăđ c
Ch s codebook
Hình 3.22: S ăđ kh i c u trúc c a VQ hu n luy n và phân l p
T p hu n luy n VQ là t t c cácăvectorăđ c tr ngăsauăkhiăđƣăquaăkhơuătríchăđ c
tr ngăMFCCăc a t t c các t c n nh n d ng Mỗiăvectorăđ cătr ngălƠăPă=ă39 h s
đ cătr ngăc a 1 frame ti ng nói