13 Hình 2.3 Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCC ..... Ch ng 3: Trongă ch ngă nƠy,ă trình bày lý thuy t v mô hình Hidden Markov Model và Dynamic Time Warping... Nh ngă
Trang 1Mã s : 60.48.02.01
TP H CHÍ MINH ậ 2015
Trang 2LU NăV NăTH CăS NGÀNH CÔNG NGH THÔNG TIN
Mã s : 60.48.02.01
PGS TS V ă C LUNG
TP H CHÍ MINH ậ 2015
Trang 3L IăCÁMă N
Nh n d ng ti ng nói là m tă l nhă v c nghiên c u l n và liênă quană đ n
khóăkh năvƠăhoƠn thành lu năv năt t nghi pănƠy.ăEmăxinăđ c g i l i c mă nă
trênăconăđ ng h c t p, làm vi c và nghiên c u sau này c a mình
H c viên
Phan Hoàng Ân
Trang 4TịMăT TăLU NăV N
n măquaăvƠăđ tăđ c nh ng thành t u nh tăđ nh Ngày nay, cùng v i s phát
đ c phát huy m nh m n c ta c ngăcóănhi u công trình nghiên c u và th
Lu nă v nă t p trung vào nghiên c uă đ c thù ti ng nói, rútă tríchă đ că tr ngă
ti ng nói b ng MFCC (Mel-scale Frequency Cepstral Coefficient) và LPC (Linear Predictive Coding), mô hình HMM (Hidden Markov Model), nâng cao
hi u qu nh n d ng c a b th ă vi n nh n d ng ti ng nói ti ng Vi t trên n n
phát tri n)
môăhình,ăph ngăphápănƠoălƠăt ngăđ i t t nh t cho vi c nh n d ng ti ng nói
Trang 5M CăL C
L IăCÁMă N i
TÓM T T LU NăV N ii
M C L C iii
DANH M C B NG vi
DANH M C HÌNH V vii
M U viii
CH NGă1 T NG QUAN 1
1.1 Gi i thi uăđ tài 1
1.2 T ng quan v tình hình nghiên c uătrongăvƠăngoƠiăn c 1
1.2.1 Tình hình nghiên c u trên th gi i 1
1.2.2 Tình hình nghiên c uătrongăn c 3
1.3 M c tiêu c a lu năv n 5
1.4 iăt ng và ph m vi nghiên c u 6
1.5 Tính khoa h c và tính m i c aăđ tài 6
1.6 C u trúc lu năv n 6
CH NGă2 C ăS LÝ THUY T 8
2.1 C ăs ng âm ti ng Vi t 8
2.1.1 Khái ni m v âm ti t 8
2.1.2 căđi m âm ti t ti ng Vi t 8
2.1.2.1 Tính ch tăđ năơm 8
2.1.2.2 M i t đ năđ u có cách phát âm riêng bi t 9
2.1.2.3 Không bi năđ i v cách vi t và cách phát âm 9
2.2 C ăs toán h c: 10
2.2.1 H s t ngăquan: 10
Trang 62.2.2 Mô hình phân ph i Gaussian h n h p 11
2.3 C ăs x lý âm thanh 13
2.3.1 Bi u di n âm thanh 13
2.3.2 M u âm thanh 13
2.3.3 T n s l y m u 13
2.3.4 phân gi i m u 14
2.3.5 Kênh 14
2.4 Trích xu tăđ cătr ngăơmăthanh 15
2.4.1 Ph ngăphápărútătríchăđ cătr ngăLPC 15
2.4.2 Ph ngăphápărútătríchăđ cătr ngăMFCC 19
CH NGă3.ăNH N D NG TI NG NÓI 25
3.1 Mô hình Markov n 25
3.1.1 Gi i thi u 25
3.1.2 Các khái ni măc ăb n 25
3.1.3 Gi thuy t Markov 26
3.1.4 Mô hình Markov 26
3.1.5 Mô hình Markov n 29
3.1.6 BaăbƠiătoánăc ăb n c a HMM 33
3.2 Mô hình Markov n k t h p phân ph i Gaussian 41
3.3 Nh ng v năđ th c t trong vi c s d ng mô hình HMM 42
3.3.1 căl ngăbanăđ u 42
3.3.2 Mô hình liên k t c u trúc 42
3.3.3 Tiêu chí hu n luy n: 43
3.3.4 Phép n i suy lo i b : 43
3.3.5 T iă uătoánăt 44
Trang 73.3.6 Bi u di n xác su t 45
3.4 Nh ng h n ch c a HMM 47
3.4.1 Mô ph ng kho ng th i gian t n t i 47
3.4.2 Gi đ nh b căđ u tiên 49
3.4.3 Gi đ nhăđ c l păcóăđi u ki n 50
3.5 So kh p m u v i Dynamic Time Warping 50
3.5.1 DynamicăTimeăWarpingăs ăkhai 51
3.5.2 Cross-words reference template 52
CH NGă 4 TH ă VI N NH N D NG TI NG NÓI TI NG VI T VIETNAMESEASR 53
4.1 Gi i thi u 53
4.2 T ng quan v VietnameseASR 53
4.3 Chi ti t VietnameseASR 56
4.3.1 Quy trình hu n luy n v i DTW 56
4.3.2 Quy trình nh n d ng DTW 59
4.3.3 Quy trình hu n luy n HMM 63
4.3.4 Quy trình nh n d ng HMM 64
CH NGă5 XÂY D NGăCH NGăTRÌNHăTH NGHI M 67
5.1 Gi i thi u 67
5.2 Ch ngătrình 70
5.2.1 Xây d ng b t đi n 70
5.2.2 Xây d ngăch ngătrìnhăvƠăhi u ch nh k t qu v i DTW 72
5.3 K t qu th nghi m 75
K T LU N 81
TÀI LI U THAM KH O 83
Trang 9DANHăM CăHÌNHăV
Hình 2.1 Mô hình GMM 12
Hình 2.2 Câu l nhăắm so n th oăv năb n”ăđ c bi u di n d ng sóng theo th i gian 13
Hình 2.3 Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCC 19
Hình 3.1 Minh h a mô hình Makov 27
Hình 3.2 Ví d th i ti t m t vùng v i mô hình xác su t 28
Hình 3.3 Ví d mô hình Markov n 3 tr ng thái 30
Hình 3.4 Ví d HMMăđ năgi n v m i liên h gi a s l ng que kem v i th i ti t 31
Hình 3.5 Ví d HMM v m i liên h gi a th i ti t vƠăđ m 32
Hình 3.6 Ví d mô hình HMM chu n 48
Hình 4.1 Quy trình hu n luy n t ng quát 55
Hình 4.2 Quy trình nh n d ng t ng quát 56
Hình 4.3 Quy trình hu n luy n v iăph ngăphápăDynamicăTimeăWarping 57
Hình 4.4 Minh h aăb c c t câu l nh thành các âm ti t riêng bi t 58
Hình 4.5 B c x lýărútătríchăđ cătr ngăơmăti t trong quy trình hu n luy n 59
Hình 4.6 B c x lý t ng h p m u trong quy trình hu n luy n 60
Hình 4.7 Quy trình nh n d ng v iăph ngăphápăDynamicăTimeăWarping 61
Hình 4.8 B c x lý tìm m u kh p nh t trong quy trình nh n d ng 62
Hình 4.9 K t qu tr v c aăb c x lý tìm m u kh p nh t 63
Hình 4.10 Quy trình hu n luy n v iăph ngăphápăs d ng mô hình HMM 64
Hình 4.11 Quy trình nh n d ng v iăph ngăphápăHMM 65
Hình 4.12 B c x lýă căl ng tham s trong quy trình nh n d ng v i HMM 66
Hình 5.1 Công c xây d ng b t đi n HMM c a VietnameseASR 71
Hình 5.2 S ăđ quáătrìnhă căl ng tham s sau khi hi u ch nh 72
Hình 5.3 S ăđ ng d ng Kho ng cách leveinshteitn đ hi u ch nh 74
Trang 10M ă U
ng i r t nhi u.ăSongăchoăđ n nay, v năđ giao ti păng i ậ máyătuyăđưăđ c
nh p d li u khác
ph ngăth c giao ti p ti n l i và hi u qu nh t
Do có s khác bi t v m t ng âm gi a các ngôn ng nên ta không th áp
Spoken Toolkit c a CSLU (Central of Spoken Laguage Under-standing)
đưăđ tăđ c m t s thành t u nh :ăAILab,ăVietvoice,ăVspeechầ.ă, nh ngănhìnă
tính ng d ng cao
V i m c tiêu hi u v cách giao ti p gi aă ng i và máy tính, lu nă v nă
ch ngătrìnhăth nghi m nh n d ng ti ng nói ti ng Vi t đ đi u khi n máy tính
b ng ti ng nói
Trang 11CH NGă1 T NGăQUAN
1.1 Gi i thi uăđ tài
NgƠyănay,ămáyătínhăđưătr thành m t ph n quan tr ngătrongăđ i s ng hàng ngày c a chúng ta Cùng v i s phát tri n c a khoa h c k thu t và công ngh , vi c
ng i ậ máy truy n th ng thông qua chu t,ă bƠnă phím,ă mƠnă hình,ầă cácă ph ngăphápătraoăđ i thông tin m iăc ngăđangăđ c phát tri năđ giúpăchoăconăng i làm
ti ng Vi t hoàn thi n
Trongăt ngălai,ăcácăthi t b đi u khi n, giám sát b ng ti ng nói s là m t xu
h ng phát tri n t t y u c a xã h i hi năđ i Chính vì v y vi c nghiên c u ch t o
d ng trong đi u khi n máy tính” chính là m tăh ngăđiăphùăh p v iăxuăh ng này
1.2 T ng quan v tình hình nghiên c uătrongăvƠăngoƠiăn c
1.2.1 Tình hình nghiên c u trên th gi i
Trên th gi i, các công trình nghiên c u v h th ng nh n d ng ti ng nói v i
b t v ng l n (Large Vocabulary Continuous Speech Recognition - LVCSR) trên
ph ngăphápănh n d ng d a trên mô hình Hidden Markov Model cho ti ng Quan
Trang 12c a tác gi Steve Young, v i các h th ng nh n d ng ti ngănóiăLVCSRăđưăđ t t l
chínhăxácăWARădaoăđ ng t 90%ăđ n 95%
Còn v i l p bài toán nh n d ng trên thi t b nhúng,ă vƠoă n mă 2010,ă nhómă
trên m ng Neron nhân t o ANN (Artificial Neural Network) cho t l nh n d ng trungăbìnhăđ t 91,9% [22]
Trong bài toán nh n d ng ti ng Thái trên các thi t b nhúng, các tác gi DeemagarnăAmarinăvƠăKawtrakulăAsaneeăđưăđ aăraăph ngăphápănh n d ng d a
lý nh n d ng chu i s liên t c, t l chính xác theo câu SAR (Sentence Accuracy
đ i v i nh ng ngôn ng có tính ch tăđ năơmăgi ng ti ng Vi t, nh ngăph ngăphápă
Model và ANN
nóiăđưăđ c phát tri n trong nhi uăl nhăv c khác nhau:
ch ngă trìnhă nh m nâng cao kh n ngă t ngă tácă c aă phiă côngă trongă đi u
PhápầTrongăcácă ng d ng này, các giao ti p b ng ti ngănóiăđ c s d ng
đ th c hi n các ch căn ng:ăthi t l p các t n s vô tuy n, ra l nh h th ng lái
- Trong h th ng thông tin liên l c, các ng d ng c a công ngh nh n d ng
Trang 13công ngh c t l iăđ phát tri năchúngăđ uăđ c thi t l p d a trên mô hình HMM [12]
trongăcácăphòngăđi u khi năđ t trên tr măv ătr ISS,ăquaăđóăh tr các nhà du
các h th ng giao ti p ngôn ng t nhiên h i tho i b ng ti ngă nói”ă(Advanced Capabilities for Spoken Dialogue-natural language Interface Systems)
Ngoài ra, có nhi uă l nhă v c khác s d ng công ngh x lý ti ng nói nói
d ng ti ng nói ti ng Anh Via Voice c a IBM; Spoken Toolkit c a Central of Spoken Laguage Under-standing; Speech Recognition Engine c a Microsoft; HTK
CarnegieăMellon,ầătrênăsmartphone,ătabletăhi n nay có: Siri trên iOS c a Apple,
nh n bi t ti ng Anh
ph n h i, còn Siri và S-Voice l i hoàn toàn không h tr ti ng Vi t.ăNh ngăs ra
đ i c a nh ng s n ph mănƠyăđưăgơyăs chúăýăđ i v iăng i s d ng và m ra m t
1.2.2 Tình hình nghiên c u t rongăn c
Trang 14l nhăv c Vi t Nam hi nănayăc ngăcònăr t m i m , ch aăcóă ng d ngănƠoăđángăk
đ tăđ c nhi u thành t u
Nhóm s d ng b công c HTK (Hidden Markov Model Toolkit) d a trên mô hình HMMă đ nh n d ng V i cách ti p c n này, trong vi c gi i quy t l p bài toán LVCSR,ănhómăđưăđ tăđ c t l sai s theo t WERădaoăđ ng t 19,0%ăđ n 20,8% [23]
Cácătr ng h p khác, t l chính xác theo t đ t WAR=88,10%
d ng và công ngh tri th c - Vi n công ngh thông, là ti n ích tích h p ti ng nóiătrongăcácăch ngătrìnhă ng d ng Nó h tr r t t t kh n ngăđ c các t p
v năb n t MicrosoftăWordă9x,ă2000,ăđ c tin trên các trang Web (b ng c hai
th ti ng Vi t, Anh v i các font ch ABC, VNI, UNICODE) Là công c
(Microsoft Recognition Engine) áp d ng cho ti ng Anh, thi u nh ng nghiên
- AILab:ă đơyă lƠă côngă trìnhă nghiênă c u c a nhóm Trí tu Nhân t o - AILab
Trang 15d ngătrênăđi n tho iădiăđ ng h tr ng i dùng tìm ki m thông tin nhà hàng, quánă Bar,ă Caféă trênă đ a bàn thành ph HCM Ph n m mă nƠyă c ngă h tr
ng i dùng hi n th đ a ch tìmăđ căd i d ng b năđ ho căngheăđ căđ a ch
tr c ti p b ng công ngh t ng h p ti ng nói
Ng i dùng có th c p nh t t đi n các ch vi t t t và các t ng ti ngăn c ngoài
NgoƠiăra,ăc ngăcóăr t nhi u công trình nghiên c u c a các sinh viên, nghiên
nóiăvƠoăđi u khi n máy tính v n còn nhi u h n ch ,ăđaăs các ph n m m này còn đangătrongăquá trình hoàn thi n ho c th nghi m, vi c s d ngăch aămangăl i nhi u
hi u qu trong th c t
1.3 M c tiêu c a lu năv n
dùngăđ đi u khi n máy tính b ng ti ng nói Ti ng Vi t
M c tiêu chi ti t:
nh ăc ăs x lýăơmăthanh,ăc ăs ng âm ti ng Vi t,ầ đ lƠmărõăh nă
m t s y u t quan tr ng trong vi c s d ng công c h tr
chính: Dynamic Time Warping và mô hình Markov n
thi n kh n ngă nh n d ng c a h th ng nh n d ng ti ng nói ti ng
Vi t
th c hi n m t s câu l nhă đi u khi n Window 8.1 trênă môiă tr ng
d ng t đóăđ aăraăk t lu n và nh n xét
Trang 161.4 iăt ng và ph m vi nghiên c u
v áp d ng cho ti ng Vi t.ă Ch ngă trìnhă th nghi m ch d ng m c nh n d ng
đ c kho ng 100 câu l nhăc ăb năđi u khi n máy tính (trên h đi u hành Window)
t ngă ng
phút
1.5 Tính khoa h c và tính m i c aăđ tài
m tă h ngă điă m iă choă đ tài nh n d ng ti ng nói ti ng Vi tă nóiă riêngă c ngă nh ă
Tuy h th ng nh n d ng ti ng nói ti ng Vi t th nghi măđ c s d ngăđ
đi u khi nămáyătính,ănh ngăkhôngăvìăv y mà kh n ngă ng d ng c a nó b gi i h n
d ng ti ng nói ti ng Vi t xu ng các thi t b nhúng
ti ng nói ti ng Vi t trên n n t ng NET (VietnameseASR do nhóm nghiên c u c a
1.6 C u trúc lu năv n
Ch ng 1: Ch ngăđ u tiên c a lu năv năđ aăraăl i gi i thi uăs ăl c v đ
Trang 17ch ngănƠyăc ngănêuăraăgi i h n nghiên c u,ăph ngăphápăgi i quy t và sau cùng
ch ra nh ngăđi m n i b t c aăđ tài
Ch ng 2: Trình bày v nh ngăc ăs lý thuy t trong vi c xây d ng mô hình
thanh
Ch ng 3: Trongă ch ngă nƠy,ă trình bày lý thuy t v mô hình Hidden
Markov Model và Dynamic Time Warping Bao g m khái ni m, các thu t toán liên
Ch ng 4: Gi i thi u v b th ă vi n nh n d ng ti ng nói ti ng Vi t
VietnameseASR Trình bày v quá trình hu n luy n và quá trình nh n d ng c a b
th ăvi n này
Ch ng 5: Xây d ngă ch ngă trìnhă th nghi m nh n d ng ti ng nói ti ng
c u và phát tri n
Trang 18CH NGă2 C ăS ăLụăTHUY T
2.1 C ăs ng âm ti ng Vi t
2.1.1 Khái ni m v âm ti t
Chu i l iă nóiă mƠă conă ng i phát ra g m nhi uă khúcă đo n dài ng n khác
âm t ắthesis”,ăơmăthanhăc a t đ c c u thành b i hai âm ti t là / i:/ và /sis/
Trong ti ng Vi t, m t t khi phát âm ch bao g m m t âm ti t, hay chúng ta
th ng g i là m t ti ng Ví d nh ăt ắlu n”ăhayăắv n”ăkhi phátăơmăđ u ch a m t
âm ti t duy nh t Vì v y, trong ti ng Vi t, ta có th coi m t âm ti t là m t t
2.1.2 căđi m âm ti t ti ng Vi t
2.1.2.1 Tính ch tăđ năơm
Ti ng Vi t là ngôn ng đ nă ơmă (monosyllable)ă vƠă cóă thanhă đi u (tonal)
Ti ng Vi t có 6 thanh theo truy n th ng (thanh không, h i, ngã, n ng, s c, huy n),
năăđ nh C u trúc t ng quát c a âm ti t ti ng Vi tăđ cătrìnhăbƠyănh ăsau:
B ng 2.1 C u trúc âm ti t ti ng Vi t
Thanhăđi u
thayăđ i âm s c c a âm ti t Âm chính luôn luôn có m t trong m i âm ti t và có
căn ngăkhuăbi t âm ti t v caoăđ vƠăthanhăđi u là y u t siêuăđo n tính
Trang 19Trong l i nói, âm ti t ti ng Vi t bao gi c ngăth hi năkháăđ yăđ , rõ ràng,
đ c tách và ng t ra thành t ngăkhúcăđo n riêng bi t Chínhăvìăđ căđi m này, vi c xácăđ nh ra ranh gi i gi a các t trong ti ng Vi t tr nên d dƠngăh năr t nhi u so
nh n d ng ti ng nói ti ng Vi t
2.1.2.2 M i t đ năđ u có cách phát âm riêng bi t
ti ng Anh, hi nă t ngă đ ng âm x y ra r t ph bi n, ví d nh ă t ắto”ă vƠă ắtoo”,ăắsea”ăvƠăắsee”ăầ
đ u có chung m t cách phát âm Nên ta có th nh n d ng nó m tăcáchăđ c l p i
đ c,ăđóălƠăắto”ăhayăắtoo”.ăChínhăvìăv y, trong ti ng Vi t ta có th xétăđ c l p m t
2.1.2.3 Không bi năđ i v cách vi t và cách phát âm
Tuyănhiên,ăđ ng t ắh c”ăm c dù thì nào, thì nó v n không bi năđ i v cách vi t
và cách phát âm Khác v i ti ng Anh, m i t m iăthìăđ u có cách vi t và cách phát âm khác nhau
nóiăđ c păđ n, t ắlearn”ăs bi năđ i theo hoàn c nhăt ngă ng.ăNh ătrongăhai câu
vi t khác nhau
Trang 20V i t t c nh ngă đ că đi m nêu trên, ta th y rõ hai l i th khi nh n d ng
ti ng nói ti ng Vi t là :
Rõ ràng, vi c ti p c n nh n d ng ti ng nói ti ng Vi tăd iăgócăđ âm ti t
trênăgócăđ âm ti t
2.2 C ăs toán h c:
2.2.1 H s t ngăquan:
Trong nh ng nghiên c u v nh n d ng ti ng nói, m i l năthuă ơmă đ hu n
đ ng lên nh ngăđ cătr ngăc a ti ng nói v i m t h s , tuy nhiên hình d ng c aăđ
đ c nh ng sai khác v đ to nh c a ti ng nói nh măt ngăhi u qu h nătrongăquáătrình x lý V y h s t ngăquanălƠăgì?
nhiên X và Y [15] Xét m u ng u nhiên
căl ng h s t ngăquană ta có công th c:
(2.1) Trongăđó:
,
Ta có:
(2.2)
Trang 21H s t ngăquanărăcóăcácătínhăch t sau:
ch t ch
2.2.2 Mô hình phân ph i Gaussian h n h p
Mô hình Gaussian h n h p GMM (Gaussian Mixture Model) là m t d ng mô
li uăthiênăv n
đ c xácăđ nh b i công th c:
(2.3) trongăđó,ă là giá tr trung bình, lƠăđ l ch chu n.ăTrongătr ng h p là vector
cho b i công th c:
(2.4)
(2.5)
Trang 22Hình 2.1 Mô hình GMM
c a M phân ph i Gaussian theo công th c:
(2.6)
Gaussianăđ i v iămôăhìnhăGMM.ăNh ăv y, phân ph i Gaussian cóăph ngăsaiăvƠă
mô hình
Nh ăv y, m t mô hình GMM có M phân ph i Gaussian s đ căđ i di n b i
Vi c áp d ng mô hình phân ph i Gaussian cho ta hi u qu mô hình hóa cao
h năr t nhi u so v i 1 Gaussian Tuy nhiên, v i ng d ng nh n d ng ti ng nói, ta
Trang 23ch m h th ng Còn n u ta s d ng quá ít Gaussian thì không th môăhìnhăhóaăđ c
d li u Trong nh n d ng ti ng nói, s l ng Gaussian có trong mô hình h n h p
đ c khuy n cáo nên là 4 Gaussian
2.3 C ăs x lý âm thanh
âm thanh trong máy tính
2.3.1 Bi u di n âm thanh
Ph ngăphápăbi u di n tín hi uăơmăthanhăd i d ng sóng theo th iăgianăđ c
nói
Hình 2.2 Câu l nhăắm so n th oăv năb n”ăđ c bi u di n d ng sóng theo th i
gian
2.3.2 M u âm thanh
đ c g i là m t m u (Sample) Giá tr c a m u không ph i là vô h n, mà là dao
đ ng trong m t kho ng giá tr (min,ămax)ăchoătr c Tu vào m căđ l uătr , (min, max) s có giá tr l uătr khác nhau
2.3.3 T n s l y m u
T n s l y m u (Sample rate) là s m u c aă sóngă ơmă thanhă đ că l uă tr
Trang 24l y m uăcƠngăcaoăthìăơmăthanhăcƠngăđ c miêu t chi ti t,ăchínhăxácăh n.ăNh ng t n
32000Hz,ă44100Hz,ăầă ángăchúăýănh t là hai m c 8000Hz và 16000Hz 8000Hz là
d ng r t nhi u trong các nghiên c u nh n d ng ti ng nói hi n t i
T n s l y m u (Sample rate) là s m u c aă sóngă ơmă thanhă đ că l uă tr
32000Hz,ă44100Hz,ăầă ángăchúăýănh t là hai m c 8000Hz và 16000Hz 8000Hz là
d ng r t nhi u trong các nghiên c u nh n d ng ti ng nói hi n t i
2.3.4 phân gi i m u
l ng bit càng l n thì m căđ th hi n m uăcƠngăcaoăvƠăng c l i Do máy tính hi n
t iă th ng x lýă theoă byte,ă nênă đ phân gi i m uă c ngă lƠă c p s nhân c a byte
đo n Vi cănƠyăc ngănh m m căđíchăthu n ti năh nătrongăvi c kh o sát, tính toán
th ng g p, ta có th áp d ngăđ chuy năđ iăcácăđ phân gi i khác m t cách d dàng
2.3.5 Kênh
T i m i th iă đi m, chúng ta có th cóă đ n hai ho c nhi u m u âm thanh
i uănƠyăcóăđ c là nh c u t o c a thi t b thu âm, có th l y nhi u m u âm thanh
Trang 25Haiătr ng h p ph bi n nh tălƠăđ năkênhă(mono channel) v i s kênh b ng
1 Và Stereo channel v i s kênh b ng 2
Nh ngăđ gi m t i trong quá trình th nghi m và nghiên c u, th ng chúng ta ch
th hi uăh n,ăt oăc ăs cho quá trình x lý sau này
2.4 Trích xu tăđ c tr ngăơmăthanh
Rútătríchăđ cătr ngăc a ti ng nói là m t trong nh ng khâu quan tr ng trong
l uătr trong máy tính là lo i d li u khó x lý, h c m u hu n luy n, và so sánh, vì
th vi cărútătríchăđ cătr ngăti ng nói là c n thi t
các vector này ch a các tham s mang giá tr quan tr ng c a tín hi u ti ng nói, làm
gi a hai tín hi u ti ng nói Có khá nhi uăph ngăphápăđ th c hi nărútătríchăđ c
tr ng,ă trong s đóă cóă haiă ph ngă phápă ph bi n lƠă ph ngă phápă Mel Frequency Cepstral Coefficients [18] và Linear Predictive Coding
2.4.1 Ph ngăphápărútătríchăđ cătr ngăLPC
ơmăthanhă(hayăcònăđ c g i là tham s hóa tính hi uăơmăthanh).ă óngăvaiătròăquană
th p
Ti ng nói hay c th h n lƠă ơmă thanhă doă conă ng i phát ra t mi ng b t
đ aă lên),ă s rung đ ngă nƠyă mangă 2ă đ c tínhă lƠă c ngă đ (intensity) và t n s (frequency).ăÂmăthanhănƠyăsauăđóăđ c truy n qua cu ng h ngăđ n khoang mi ng vƠăkhoanăm i.ăT iăđơyăd a vào c u t o vòng mi ngăkhiănói,ăcáchăđ tăl i, chuy n
Trang 26đ ng c aăl iăvƠăc ămi ngầăs góp ph n gây ra s c ngăh ng c a âm thanh (hay cònăđ c g i là các Formant), k t qu chính là ti ngănóiămƠătaăngheăđ c
trongăơmăphátăra),ăvƠă căl ngăcácăđ căđi m v c ngăđ , t n s c a ph n âm thanh còn l i Quá trình lo i b trênă cònă đ c g i là quá trình l c ngh chă đ o
t vƠăđ cătr ngăc t lõi c a âm thanh
K t qu còn l i sau quá trình LPC là nh ng con s , mà mô t nh ngă đ c
đi m quan tr ng c aăcácăformantăc ngănh ăph n âm thanh còn l i các con s này
l uătr , phân tích n i dung, truy n t i ti ngănóiầăLPCăcònăđ c dùng trong quá trình t ng h p l i ti ng nói t các con s đ cătr ngătrên
ụă t ngă c ă b n c aă ph ngă phápă LPCă lƠă t i th iă đi m n, m u ti ng nói
có th đ c x p x b i m t t h p tuy n tính c a p m uătr căđó:
(2.7)
(2.8)
(2.9)
(2.10)
Trang 27Ký hi u là d báo tuy n tính c a :
(2.11)
(2.12)
b n là tìm m t t p các h s d báo gi m thi u l i d báo trung bình b c hai trong
m tă đo n d ng sóng ti ngă nói.ă (Th ng thì ki u phân tích ph th i gian ng n nƠyđ c th c hi n trên các khuông ti ng nói liên ti p, có dãn cách khuông kho ng 10ms)
tr ngătheoăph ngăphápăLPC
2.4.1.1 Phân tích t t ngăquan
Trongăđóăgiáătr t t ngăquanăcaoănh tăpăđ c g i là c p c a phân tích LPC Thôngăth ng, ta s d ng các giá tr p trong kho ng t 8ăđ n 16
2.4.1.2 Phân tích LPC
s LPC ch a trong
Trang 28Lúc này, ta có th dùng các h s LPCălƠmăvectorăđ cătr ngăchoăt ng khung
các h s LPC,ăđóălƠăphépăphơnătíchăCepstral
2.4.1.3 Phân tích cepstral
th căđ quy sau:
Doăđ nh y c a các h s cepstral c p th p làm cho ph b đ d căvƠădoăđ
tr ng s đ làm gi m thi uăđ nh y này:
(2.17)
thông d i:
đi m c căđ i c a LPC cho ta m t x p x t tăđ i v iăđ ng bao ph âm V i ti ng
Trang 29mô hình h u ích cho các m căđíchănh n d ng ti ngănói.ăMôăhìnhăLPCăđ năgi n và
2.4.2 Ph ngăphápărútătríchăđ cătr ngăMFCC
tr ngăđ căDavisăvƠăMermelsteinăđ aăraăvƠoăn mă1980 ơy lƠăph ngăphápătríchă
đ cătr ngăd aătrênăđ căđi m c m th t n s âm c aătaiăng i: tuy nătínhăđ i v i t n
s nh h nă 1kHză vƠă phiă tuy nă đ i v i t n s trên 1kHz (theo thang t n s Mel, không ph i theo Hz)
Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCCăđ c mô t m t cáchăs ăl cătrongăhìnhăsauăđơy
Hình 2.3 Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCC
2.4.2.1 Nh n tín hi u
Trang 30Theo các nghiên c u v âm h c thì ph ti ng nói h u thanh có s suy gi m
kh c ph c s suy gi m này, chúng ta c n ph i bù +6 dB/octave trên toàn b
b ngăt n.ă i uănƠyăđ c g i là pre-emphasis tín hi u Bên c nhăđó,ăh th ng thính giácăconăng iăcóăxuăh ng nh y c măh năv i vùng t n s cao Vì v y, trong x lý tín hi u s , chúng ta dùng b l c thông cao có t n s c t 3 dB t n s trong ph m
(2.19)
gianăđó
lƠmăm t s chuy năđ i gi a hai khung liên ti p,ăng iătaăth ng cho
Trang 31m i khung là 25 mili giây, th i gian ch ng l p gi a hai khung liên ti p là 10 mili giây
2.4.2.4 Nhân hàm c a s (Windowing)
Sau khi phân khung, ta s nhân m i khung v i hàm c a s Hamming
đ cóăđ c d li u theo mi n t n s chu năđ đ aăvƠoăphépăbi năđ i Fourier r i r c
(2.22)
Trongăđó,ă ăth ngăđ c gán giá tr là 0.56
2.4.2.5 Bi năđ i Fourier
đ i tín hi uăt ngăt sang mi n t n s Công th c c a phép bi năđ i Fourier r i r c
nh ăsau:
(2.23)
Trongăđó:
Transformă(FFT).ăFFTăhoƠnătoƠnăt ngăt nh ăDFTănh ngăđ c xây d ng d a trên
i u ki năđ u vào c a phép bi năđ i này là s l ng m u ph iălƠăl yăth aăc ă
s 2,ăvíănh ă:ă128,ă256,ă512,ăầă
Trang 32đ m b oăđi u ki năđ u vào c a phép bi năđ i FFT, n u tín hi uăt ngăt banăđ u
ch aăđ s l ng m u c n thi t, ta ch c n thêm vào sau nó nh ng s 0ăchoăđ n khi
sau này
2.4.2.6 Áp d ng b l c Mel
T n s trung tâm c a các b l c này không phân b tuy n tính d c theo tr c t n s
đ t ngăđ phân gi i t n s đ cóăđ c t n s c ăb n và h a t n v n năđ nh, còn
V i n l c nh m mô t chính xác s ti p nh n t n s c aă taiă ng i, m t
nh n nghe c aă ng i T n s 1ă kHză đ c ch n là 1000 Mel M i quan h gi a thang t n s th c (v t lý) và thang t n s Mel (sinh lý) đ c cho b i công th c:
sang mi n t n s :
(2.25)
t ngă ng
2.4.2.7 Tínhălogarităđ cătr ng
Trang 33Sauăkhiătínhăđ c m căn ngăl ng t i m i mi n t n s , ta s thuăđ c chu i
đ cătr ngănƠyăcóăgiáătr r t l n, vì v yăđ gi măchiăphíăl uătr và tính toán, ta s
th c hi n phép tính logarit tín hi uăđ nén nh ng giá tr này vào mi n giá tr nh
h n
2.4.2.8 Bi năđ i cosin r i r c
đ làm r i r c các giá tr nƠyăraăchoănóăítăt ngăquanăv iănhau,ălƠmăt ngătínhăđ c
tr ngăc a các tham s Giá tr thuăđ căsauăb c này ta g i là h s Cepstral
(10,15)ălƠăđ đ cho k t qu nh n d ngăt ngăđ i mà d li u x lý l i không quá
l n
đ c s t ngătuy n tính theo s b c c a nó H s Cepstral có s b c cao s có giá
tr r tăcao,ăng c l i các h s v i s b c th p s có giá tr r t th p S chênh l ch
này Vì khi có s chênh l ch cao, ta ph i dùng mi n giá tr l năđ bi u di n d li u,
Trang 34uăchoăcácăquaătrìnhăsau,ătaăs th c hi n vi căđi u ch nh các h s nƠyăđ gi m s chênh l ch Vi c này th c hi n b ng công th c:
2.4.2.9 Thêmăcácăđ cătr ngăkhác
kh o sát thêm m t s y u t khác trong quá trình nh n d ng ti ng nói,
hi u ho c s d ng h s Delta, Delta-Deltasă[13]ăđ t ngăhi u qu rút trích
(2.29)
giá tr nh h năb ng phép tính logarit
(2.30)
hi u qu rút trích
Trang 35CH NGă3.ăNH NăD NGăTI NGăNịI
3.1 Mô hình Markov n
dùngăđ mô hình hóa c uătrúcăđ ng c a ti ngănói.ă ơyălƠăh ng ti p c n so sánh
m u xác su t, v i gi đ nh r ng đóăcácăm u ti ng nói tu n t theo th i gian là k t
qu c a quá trình th ng kê hay ng u nhiên có tham s , và các tham s này có th căl ng
vect ,ădưyăvect ăđ cătr ngănƠyăđ c bi năđ i thành các quan sát (là các ký hi u sau
c a HMM là m u d li u có th mô t k nh ăquáătrìnhăhìnhăthƠnhăm t tham s
đ căđ nhăngh aărõărƠngăvƠăchínhăxác.ă
3.1.1 Gi i thi u
HMMăđ c b tăđ u xây d ng và công b t nh ngăn mă1960ăc a th k 20, đơyălƠămôăhìnhătoánăh c v th ng kê Nhi uăn măsauăđóă(t 1980), mô hình này
đ c b tăđ u nghiên c uăđ ng d ngătrongăl nhăv c nh n d ng.ăDoăđ tăđ căđ
đ c s d ng r ng rãi trong nhi uăl nhăv c,ăđ c bi tălƠătrongăl nhăv c nh n d ng
ti ng nói
N mă1952,ăphòngăthíănghi m Bell phát tri n máy nh n d ng ti ngănóiăđ nă
nênăcóăđ chính xác r t th p.ă n nh ngăn mă1970,ăvi c nghiên c u máy nh n d ng
[6]
3.1.2 Các khái ni măc ăb n
Trang 36Mô hình Markov là mô hình d a trên th ngăkêăđ mô hình hóa các tín hi u
- Mô hình chu iă đ nă đ nh: Là mô hình các tr ngă tháiă trongă đóă liênă k t chuy n t tr ng thái này sang tr ngătháiăkhácălƠăhoƠnătoƠnăxácăđ nh
- Mô hình chu i xác su t: Là mô hình các tr ngă tháiă trongă đóă liênă k t chuy n t tr ng thái này sang tr ng thái khác là m t giá tr xác su t, sao cho t ng
luônălƠă100%.ăNh ăv y, theo nguyên lý xác su t Bayes, xác su t mô hình tr ng thái qi ph thu c vào xác su t t n t i c a t t c các tr ng thái qj, j< i tr căđó
th ng s chuy n sang tr ng thái m i ho c gi nguyên tr ngătháiătr căđó.ăTaăkýă
hi u các kho ng th i gian chuy n tr ng thái là và tr ng thái t i th i
Trang 37đi m t c a h th ng là , s có các giá tr M t tr ngătháiăt ngă ng
Hình 3.1 Minh h a mô hình Makov
các quan h :
Ta ch xét chu i Markov b c nh t là nh ng h th ng mà tr ng thái hi n t i
Các thành ph n trong mô hình Markov:
- N tr ng thái c a mô hình Ký hi u tr ng thái th iăđi m là
Trang 38
Ví d 1: Th i ti t c a m t vùng v i mô hình xác su tănh ăsau:
Hình 3.2 Ví d th i ti t m t vùng v i mô hình xác su t
- Các tr ng thái th i ti t: S1 = m a (r), S2 = mây (c), S3 = n ng (s)
- Xác su tăbanăđ uă :ă 1ă=ă m a,ă 2ă=ă mây,ă 3ă=ă n ng
( n ng,ă mây,ă m a) = (0.1, 0.4, 0.5)
v i mô hình Markov trên là:
Quan sát = { r, r, r, c, s, c, r}
Trang 39- T 1 tr ng thái có th phátăsinhăh nă1ăs ki n (hay còn g i là 1 quan sát)
- Chu i quan sát là hàm xác su t c a tr ng thái
- Chúng ta có th tính toán xác su t c a các chu i tr ng thái khác nhau t
m t chu i quan sát
Nh ă v y HMM v n phát sinh ra các quan sát S l ng tr ng thái thông
Trang 40Hình 3.3 Ví d mô hình Markov n 3 tr ng thái
Hình 3.3 minh h a m t mô hình Markov n 3 tr ng thái v i các s ki n có
đ c g i là hàm m tăđ xác su t c a các s ki năđ c quan sát
đoánăđ c th i ti t hôm y th nào không Th i ti t (tr ngăthái)ăđ căxemălƠăắ n”
g i là mô hình Markov n