1. Trang chủ
  2. » Tất cả

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

95 365 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 4,82 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ng i nói khác nhau s phát âm khác nhau ....  KỹThu tănh năd ngăti ngănóiăvƠă ngăd ngătrongăđi uăkhi năc aăTS.. Nguy năVĕnăGiápăvƠăăKS.ăTr năH ngăVi t[10]: Đ ătƠiănƠyăth ănghi măh ăth ng

Trang 1

LÝ L CH KHOA H C i

L IăCAMăĐOAN ii

L I C Mă N iii

TÓM T T iv

M C L C vi

DANH SÁCH CÁC HÌNH ix

DANH SÁCH CÁC B NG xi

DANH SÁCH CÁC CH VI T T T xii

Ch ngă1.ăăT NG QUAN 1

1.1.T ng quan v nh n d ng ti ng nói, tình hình nghiên c uătrongăvƠăngoƠiăn c 1

1.1.1.Nh n d ng ti ng nói 1

1.1.2.T ng quan tình hình nghiên c u 2

1.2.M cătiêuăvƠăđ iăt ng nghiên c u c aăđ tài 5

1.2.1.M c tiêu 6

1.2.2.Đ iăt ng nghiên c u 5

1.3.Nhi m v và gi i h n c aăđ tài 6

1.3.1.Nhi m v 6

1.3.2.Gi i h n 6

1.4.Ph ngăphápănghiênăc u 6

1.5.N i dung lu năvĕn 7

1.6.ụănghĩaăthực ti n c aăđ tài 8

Ch ng 2 Đ CăTR NGăTI NG NÓI TI NG VI T 9

2.1.T NG QUAN V TI NG NÓI 9

2.2.Cácăđ cătr ngăc ăb n c a Ti ng Vi t 9

2.2.1.Âm ti t 9

2.2.2.Âm v 11

2.2.3.Nguyên âm và ph âm 11

2.2.4.Thanhăđi u 12

Ch ng 3 MÔ HÌNH NH N D NG TI NG NÓI TI NG VI T 13

3.1 Phân lo i các h th ng nh n d ng ti ng nói 13

3.1.1 Nh n d ng t liên t c và nh n d ng t cách bi t 13

3.1.2 Nh n d ng ph thu căng iănóiăvƠăđ c l păng i nói 13

3.2 Các y u t nhăh ngăđ n k t qu nh n d ng ti ng nói : 15

3.3 C u trúc h nh n d ng ti ng nói: 16

3.4 Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t dùng Markov n: 17

Trang 2

3.6.Ph ngăphápăphơnătíchăh s MFCC 19

3.6.1 Ti n x lý 19

3.6.2 T o khung và c a s hóa tín hi u 23

3.6.3 Tríchăđ cătr ng 25

3.6.4 H u x lý 31

3.7.ăăL ng t vector: 32

3.7.1 T ng quan v l ng t vector (VQ): 32

3.7.2 C u trúc và t p hu n luy n VQ: 33

3.7.3.ăĐoăđ méo: 34

3.7.4 Phân nhóm các vector hu n luy n: 34

Ch ngă4: MÔ HÌNH MARKOV N HMM 36

4.1 Quá trình Markov: 36

4.2 Mô hình Markov n: 38

4.3 Gi i pháp toán h căchoăbaăbƠiătoánăc ăb n c a mô hình Markov n: 41

4.3.1 Bài toán 1: 41

4.3.2 Bài toán 2: 44

4.3.3 Bài toán 3: 45

4.4 Các lo i mô hình Markov n: 49

Ch ngă5:ăTHI T K PH N C NG VÀ M CHăĐI U KHI N ROBOT 50

5.1 T ng quan v ph n c ng c a h th ng : 50

5.2 Lựa ch n thi t b : 52

5.2.1.ăĐ ngăc : 52

5.2.2 Board Arduino Mega 2560: 54

Ch ngă 6: THI T K H TH NG NH N D NG VÀ PH N M M GIAO DI N NH N D NG 66

6.1.Thi t k h th ng nh n d ng ti ng nói trên máy tính 66

6.1.1.Tríchăđ cătr ng 67

6.1.2.L ng t hóa vector 71

6.1.3.Hu n luy n HMM 75

6.1.4.Nh n d ng bằng mô hình HMM 76

6.2.Thi t k ph n m m giao di n nh n d ng 78

6.3 K t qu th nghi m trên ph n m m nh n d ng 79

Trang 3

7.1 K t lu n 83

7.2 Nh n xét 84

7.3 H n ch c aăđ tài: 84

7.4 H ng phát tri n c aăđ tài 84

TÀI LI U THAM KH O 86

Trang 4

Hình 3 1 Ng i nói khác nhau s phát âm khác nhau 14

Hình 3 2 Mô hình nh n d ng ti ngănóiăbánăđ c l păng i nói 15

Hình 3 3 C u trúc t ng quát c a m t h th ng nh n d ng ti ng nói 16

Hình 3 4 L uăđ gi i thu t h th ng nh n d ng ti ng Vi t dùng Markov n 17

Hình 3 5 Đo n m uăơmăthanhătr c khi VAD 18

Hình 3 6 Đo n m u âm thanh sau khi VAD 18

Hình 3 7.ăS ăđ gi i thu tăph ngăphápăphơnătíchăthôngătinăti ng nói 19

Hình 3 8 Ti n x lý tín hi u 19

Hình 3 9 Phân tích kho ng l ng c a ti ng nói 21

Hình 3 10 Tách ti ng nói kh i kho ng im l ng theo VAD 22

Hình 3 11 T ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng l ng 23

Hình 3 12 Frame blocking và Windowing 23

Hình 3 13 Chia khung chuỗi tín hi u 24

Hình 3 14 C a s Hamming v i các h s αăkhácănhau 24

Hình 3 15 Tín hi u ti ngănóiăsauăkhiăđ c c a s hóa so v iăbanăđ u 25

Hình 3 16.ăCácăb c thực hi n MFCC 25

Hình 3 17 Ph Fourier c a tín hi u g c và tín hi uăđƣăc a s hóa 26

Hình3 18.ăBĕngăl c tam giác melscale trên mi n t n s 27

Hình 3 19 Tính các h s delta 29

Hình 3 20 Quá trình rútătríchăđ cătr ng 30

Hình 3 21.ăCácăb c h u x lý tín hi u 31

Hình 3 22 S ăđ kh i c u trúc c a VQ hu n luy n và phân l p 33

Hình 3 23 L uăđ gi i thu t VQ 35

Hình 4 1 Xích Markov 5 tr ng thái S 1 ,S 2 , S 5 và các xác su t chuy n tr ng thái 36

Hình 4 2 Ví d m t mô hình Markov n sáu tr ng thái 39

Hình 4 3 Mô t cácădƣyăphépătoánăđ c thực hi năđ tínhăαt(i) 43

Hình 4 4 Mô t cácădƣyăphépătoánăđ c thực hi năđ tính bi n β t (i) 44

Hình 5 1 Môăhốnhănhốnătr c 50

Hình 5 2 Môăhốnhănhốnănghiêng 50

Hình 5 3 Môăhốnhănhốnăt bên trái 51

Hình 5 4 Môăhốnhăkhuôn m t thực t c a robot 51

Hình 5 5 C u t o bên trong c a RC servo 52

Hình 5 6 Đi u khi n v tríătr c ra c aăđ ngăc ăbằngăcáchăđi u ch đ r ng xung 53

Hình 5 7.Đ ngăc ăRCăServoăEMaxăES08A 54

Hình 5 8 Giao di n IDE c a Arduino 57

Hình 5 9 Board Arduino Mega 2560 (m tătr c và sau) 58

Hình 5 10.Board Arduino Mega 2560 59

Hình 5 11 S ăđôăchơnăcủaăăATMEGA2560 59

Hình 5 12 S ăđôănguyênălyăcủaăArduinoăMegaă2560 61

Hình 5 13 G̃ăl nhătargetinstallerăvƠoăkhungăCommandăWindows 61

Hình 5 14 KhungăTargetăInstallerăxuơtăhiê ̣n, nhơnăNext 62

Hình 5 15.Matlabăđangănhơ ̣năthôngătinăgoiăhỗătr ̣ăthôngăquaăma ̣ngăInternet 62

Hình 5 16 L ̣aăcho ̣năgoiăhỗătr ̣ăArduinoăvaătiêpătụcănhơnăNext 63

Hình 5 17 NhơnănutăInstallăđểăcaiăđĕ ̣t 63

Hình 5 18 Matlabăđangăcaiăgoiăhỗătr ̣ăArduino 64

Trang 5

Hình 5 19 HoƠnăthƠnhăti nătrìnhăcƠiăđ t 64

Hình 5 20 Arduinoăđãăxuơtăhiê ̣nătrongăth ăviê ̣năSimulink 65

Hình 6 1 S ăđ kh i mô hình hu n luy n và nh n d ng t đ n 67

Hình 6 2 L uăđ gi i thu t thực hi n tách ti ng nói kh i kho ng l ng 68

Hình 6 3 L uăđ gi i thu t thực hi n phân tích h s đ cătr ng 69

Hình 6 4.Minh h a l ng t hóa vector 75

Hình 6 5 L uăđ gi i thu t hu n luy n HMM 76

Hình 6 6 L uăđ gi i thu t nh n d ng t đ năs d ng HMM 77

Hình 6 7 Giao di n nh n d ng ti ng nói 78

Hình 6 8.Minh h a phân tích d li u ti ng nói thành các h s đ cătr ngăđ s d ng cho hu n luy n h th ng và nh n d ng 80

Hình 6 9.K t qu nh n d ng t ắvui” 82

Trang 7

DANH SÁCH CÁC CH VI T T T

Thu t ng T vi t t t ụ nghĩa

Artifactial Neural Network ANN M ngăn ronănhơnăt o

Fast Fourier Transform FFT Bi năđ i Fourier nhanh

Dicrette Cosine Transform DCT Bi năđ i cosin r i r c

Linear predictive code LPC H s dự đoánătuy n tính

Mel-scale Frequency

Cepstral Coefficient MFCC H s cepstralăđ đoămel

Multi Layer Perceptron MLP M ng perceptron truy n thẳng nhi u l p Speech Recognition SR,ASR Nh n d ng ti ng nói

Trang 8

Nh n d ng ti ng nói bao g m c nh n d ng âm ti t r i r c, liên t c, nh n d ng

ng i nói, ngôn ng nói và cao c păh n có th nh n d ngăđ c tr ng thái tâm lý c a

ng i nói Có r t nhi u ng d ng c a nh n d ng ti ngănóiătrongăđ i s ng xã h iănh ăxác nh năthôngătină(liênăquanăđ n security), d ch tự đ ng, các h th ng phone banking, voiceămail,ầăTuyănhiênăcáiămƠăm iăng i c g ng nghiên c u là làm sao máy tính có

th giao ti p v iăconăng i thông qua ti ng nói Nh n d ng ti ng nói là m tălĩnhăvực

c a x lý ngôn ng tự nhiên (Natural Language Processing), t c là v c ăb n nh n

d ng ti ng nói ph thu c vào ngôn ng nói Do v y ngôn ng nh n d ng ti ng Vi t r t khác so v i ti ng Anh và các th ti ngkhác M t ví d đ năgi năđ có th hình dung,

n u s d ng các engine nh n d ng ti ng Anh có s n (bao g m c softwareănh ăspeechăengineătrongăMicrosoftăOfficeăhayăhardwareănh ăm t s vi m ch x lý ti ngănóiăđangăbán trên th tr ng) thì hi u qu đ i v i ti ng Vi t là khá th p M t s không th phân

bi tăđ cănh ăchu n, chu n,ăchuơn,ầ(vìăti ng Vi tăcóăthanhăđi u - tonal language, còn ti ng Anh thì không), vì v y nh n d ng ti ng Vi t ch có th doăng i Vi t làm

Nh n d ng và t ng h p ti ng nói không th dựa trên các m c x lý th p (signal processing) mà còn ph i k t h p x lý thông tin các m c cao và cao nh t là tri th c

Nh n d ng ti ng nói là m t quá trình nh n d ng m u, v i m căđíchălà phân l p (classify)ăthôngătinăđ u vào là tín hi u ti ng nói thành m t dãy tu n tự các m uăđƣă

đ c h cătr căđóăvƠăl uătr trong b nh Các m uălƠăcácăđ năv nh n d ng, chúng

có th là các t , ho c các âm v N u các m u này là b t bi năvƠăkhôngăthayăđ i thì công vi c nh n d ng ti ng nói tr nênăđ năgi n bằng cách so sánh d li u ti ng nói

c n nh n d ng v i các m uăđƣăđ c h căvƠăl uătr trong b nh ăKhóăkhĕnăc ăb n c a

nh n d ng ti ngănóiăđóălƠăti ng nói luôn bi n thiên theo th i gian và có sự khác bi t

l n gi a ti ng nói c a nh ngăng i nói khác nhau, t căđ nói, ng c nhăvƠămôiătr ng

âm h căkhácănhau.ăXácăđ nh nh ng thông tin bi n thiên nào c a ti ng nói là có ích và

Trang 9

Đây là m t nhi m v r tăkhóăkhĕnă mƠă ngayăc v i các kỹ thu t xác su t th ng kê

m nhăcũngăkhóăkhĕnătrongăvi c t ng quát hoá t các m u ti ng nói nh ng bi n thiên quan tr ng c n thi t trong nh n d ng ti ng nói Các nghiên c u v nh n d ng ti ng nói dựa trên ba nguyên t căc ăb n:

 Tín hi u ti ngănóiăđ c bi u di n chính xác b i các giá tr ph trong m t khung

th i gian ng n (short-term amplitude spectrum) Nh v y ta có th trích ra các

đ căđi m ti ng nói t nh ng kho ng th i gian ng năvƠădùngăcácăđ căđi m này làm d li uăđ nh n d ng ti ng nói

 N i dung c a ti ngănóiăđ c bi u di năd i d ng ch vi t, là m t dãy các ký

hi u ng ơm.ăDoăđóăýănghĩaăc a m tăphátăơmăđ c b o toàn khi chúng ta phiên

âm phát âm thành dãy các ký hi u ng âm

 Nh n d ng ti ng nói là m t quá trình nh n th c Thông tin v ng nghĩaă(semantics)ăvƠăsuyăđoánă(pragmatics)ăcóăgiáătr trong quá trình nh n d ng ti ng nói, nh t là khi thông tin v âm h c là không rõ ràng.[1]

1.1.2 T ng quan tình hình nghiên c u

Ti ngănóiălƠăph ngăti n giao ti păc ăb n nh t c aăloƠiăng i, nó hình thành và phát tri n song song v i quá trình ti n hóa c aăloƠiăng i.ăĐ i v iăconăng i, s d ng

l i nói là m t cách di năđ tăđ năgi n và hi u qu nh t.ă uăđi m c a vi c giao ti p

bằng ti ngănóiătr c tiên là t căđ giao ti p, ti ng nói t ng iănóiăđ căng i nghe

hi u ngay l p t căsauăkhiăđ c phát ra Ngày nay, nh sự phát tri n c a khoa h c kỹ thu t, máy móc d n d n thay th cácălaoăđ ngătayăchơn.ăTuyănhiênăđ đi u khi n máy móc, conăng i ph i làm khá nhi u thao tác t n nhi u th i gian và c n ph iăđ căđƠoă

t o.ăĐi u này gây tr ng iăkhôngăítăđ i v i vi c s d ng các máy móc, thành tựu khoa

h c kỹ thu t.ăTrongăkhiăđó,ăn uăđi u khi n máy móc thi t b bằng ti ng nói s d dàng

h n.ăNhu c uăđi u khi n máy móc thi t b bằng ti ng nói càng b c thi tăh năđ i v i các thi t b c mătay,ănh :ăđi n tho iădiăđ ng,ămáyăPalm/PocketăPC,ầăĐ máy tính có

th ngheăđ c ti ngănói,ăơmăthanhăconăng iăđƣăxơyădựngălĩnhăvực nh n d ng ti ng nói.ăH năn a th kỷ trôiăquaăconăng iăđƣăthuăđ c nh ng thành tựuăđángăk , và có

nh ng ng d ng h u ích thi t thực vào trong cu c s ng.ăNh ngădùăsaoăkh nĕngăngheă

hi u c a máy tính v n còn nhi u h n ch và kho ng cách khác xa so v i thực t M t

Trang 10

v iăn c ta nh n d ng ti ng nói v n còn là m tălĩnhăvực khá m i mẻ

1.1.2.1 NgoƠi n c

Hi n nay, trên th gi i có r t nhi u h th ng nh n d ng ti ng nói đƣăvƠăđangăđ c

ng d ng r t hi u qu nh :Via Voice c a IBM, Spoken Toolkit c a CSLU (Central of Spoken Laguage Understanding) trong ti ng Anh, môă hìnhă Fujisakiă đ c trong h

th ng c a ti ng Nh t, mô hình MFGI (Mixdorff ậ Fujisaki model of German Intonation) trong ti ngăĐ c,ầ

Sự phát tri năv t b c c a công ngh vi x lý và công ngh x lý ti ng nói trong

nh ngănĕmăg năđơyăđƣăm ra r t nhi u nh ng ng d ngăkhácănhauămƠăđángăk nh t là các h th ng giao ti p, h iăđápăthôngătinăquaăm ngăđi n tho i Có th k tên m t s

ng d ng nh :ă

 Quay s bằng gi ng nói

 Truy c p thông tin bằng gi ngănóiăquaăđ ngăđi n tho i

 H th ng hỗ tr y t quaăđi n tho i

 ng d ng truy v n thông tin trong ngân hàng

 ng d ng chu năđoán,ăđi u tr b nh t xa

Theo th ng kê và dự báo v th tr ng công ngh thông tin và truy năthôngănĕmă

2009, chi tiêu cho nghiên c u, ph n c ng, ph n m măliênăquanăđ n công ngh x lý

ti ngănóiătrongănĕmă2008ătrênătoƠnăth gi iăđƣăv t con s 5 tỷ đô-la Mỹ

Công ngh x lý ti ngănóiăđƣăthayăđ iăcáchăconăng iăt ngătácăv i h th ng, không còn bó bu c trong cách th căt ngătácătruy n th ngă(nh ăb măphímătrênăđi n tho i) mà chuy năsangăt ngătácătrực ti p bằng gi ngănói.ăTrongămôiătr ng kinh t

c nh tranh, các ng d ng d n d năđƣăchuy n sang tích h pătínhănĕngăt ngătácăơm thanh Vi c ng d ng và khách hàng có th t ngătácăv i nhau thông qua âm thanh khôngăcóănghĩaălƠălo i b giao di năđ h a truy n th ng mà nó cung c p thêm m t cách truy c p thông tin và d ch v ti n l i, tự nhiênăh n.ă

M t s ng d ngăth ngăm iăđòiăh i sự giao ti p gi a khách hàng và h th ng

v i s l ng l n, có tích h pătínhănĕngăt ngătácăơmăthanh.ăT đó,ăcácăh th ng giao

ti p, h iăđápăthôngătinătự đ ngăraăđ i.ăThôngăth ng, các h th ngănƠyăh ng d n

Trang 11

qua các t pătinăơmăthanhăghiăơmătr c ho c qua b t ng h p ti ng nói n u n i dung không c đ nh Khách hàng dùng l i nói cung c p thông tin cho h th ng, h th ng

x lý thông tin, truy xu tăc ăs d li u r i g i ph n h iăthôngătinăd i d ng âm thanh

t i khách hàng

1.1.2.2 Trong n c

Trong nhi uă nĕmă qua,ă m t s các hãng công ngh l n trên th gi iă đƣă đ uă t ănghiên c u v lĩnhăvực này song k t qu thuăđ c còn khá khiêm t n, ch có m t s ít công ty có chíp nh n d ng ti ng nói ti ngăAnhănh ăCôngătyăSony,ăMotorolaănh ngăv n

b gi i h n v s t vựng và ng d ng Vi t Nam, v năđ nghiên c u thi t k c u trúc vi m ch nh n d ng ti ng Vi t v n còn b ng , m cădùăđơyălƠăhaiăh ng công ngh caoăđ că uătiên phát tri n

Ph m vi ng d ng h th ng nh n d ng ti ng nói ti ng Vi tătrongăn căđƣăđ c

s d ng các công ty, t păđoƠnăvi n thông l nănh :ăMobifone,ăVinaphone,ăViettelầă

nh ngăcònăr t ít và có nhi u h n ch , tuy nhiên cũngăđƣăcóăm t s mô hình nh n d ng

ti ngănóiăđƣăđ c xây dựngănh :

 T ngă h pă vƠă nh nă d ngă ti ngă Vi tă c aă GS.TSKHă B chă H ngăKhang[9]:Nghiênăc uăc ăs ălýăthuy tăc aăcácăh ăth ngănh năd ngăti ngănóiăvƠă

đ cătr ngăti ngăVi t

 KỹThu tănh năd ngăti ngănóiăvƠă ngăd ngătrongăđi uăkhi năc aăTS Nguy năVĕnăGiápăvƠăăKS.ăTr năH ngăVi t[10]: Đ ătƠiănƠyăth ănghi măh ăth ngănh nă

d ngă ti ngă nóiă ti ngă Vi tă trênă máyă tínhă bằngă ph ngă phápă MFCCă vƠă nh nă

d ngăbằngămôăhìnhăMarkovă năHMM,ă ngăd ngătrongăđi uăkhi năkhi năxeăv iă

b ăt ăvựngăg mă4ăt :ăắtrái,ăph i,ăti n,ălùi”ăv iăk tăqu ăchínhăxácăđ tăđ cătrênă90%

 Nh năd ngăti ngăVi tădùngăm ngăneuronăk tăh pătríchăđ cătr ngădùngăLPCăvƠăAMDFăc aăTS.ăHoƠngăĐìnhăChi n[11]:đ ătƠiăxơyădựngămôăhìnhănh năd ngă

ti ngă nóiă ti ngă Vi tă v iă b ă t ă vựngă ắlên,ă xu ng,ă trái,ă ph i,ă t i,ă lùi,ă xoay,ă

d ng”,ăchoăk tăqu ăchínhăxácănh năd ngătrungăbìnhălƠă99,4%

Đ tƠiăắThi t k chíp nh n d ng ti ng nói Vi t Nam trên n n công ngh FPGA”ă

c a nhóm nghiên c uătr ngăđ i h c Bách khoa thành ph H Chí Minh do TS Hoàng TrangăvƠoănĕmă2012ălƠmătr ng nhóm đƣăgópăph năắc ngăhóa”ăthƠnhăcôngăcácăgi i

Trang 12

c n quan tâm, bao g m:ăđ chính xác nh n d ng, tài nguyên ph n c ng và t căđ tính toán Ba y u t nƠyăth ngăđ c cân nh c ch n lựa kỹ b i khó có th đ tăđ c t iă uătrên cùng lúc c ba y u t trên

V năđ ănh năd ngăti ngănóiăti ngăVi tăđƣăcóănhi uăcôngătrìnhănghiênăc uănh ngă

ch aăđ cătri năkhaiăthựcăhi năt tătrênăph năc ngălƠădoăbaăy uăt ătrên.ăBênăc nhăđó,ă

nh nă d ngă ti ngă nóiă ti ngă Vi tă trênă n nă côngă ngh ă FPGAă cóă uă đi mă lƠă tínhă toánănhanhănh ngăn năcôngăngh ănƠyăch aăđ că ngăd ngănhi uătrênăcácăthi tăb ădiăđ ngăngƠyănayănh :ăđi nătho iădiăđ ng,ămáyătínhăb ng,ărobotăd chăv ,ăSmartăTVầ

Nhi măv ăchínhăc aălu năvĕnălƠ xơyădựngămôăhìnhănh năd ngăti ngănóiăti ngăVi tă

s ă d ngă thu tă toánă tríchă ch nă đ că tr ngă MFCC,ă l ngă t ă vector VQ và mô hình Markovă năHMM,ănh năd ngăti ngănóiăthôngăquaăthi tăk ph năm măgiaoădi nătrênămáy tính vƠăđi uăkhi n môăhìnhăh ăth ng thông qua Board Arduino Mega 2560

1.2 M c tiêu vƠ đ i t ng nghiên c u c a đ tài

 Thi t k và thi công robot m tăng i th hi n c m xúc

 Thi t k giao di n ph n m m nh n d ng và ph n c ngăđi u khi n robor m t

Trang 13

1.3 Nhi m v và gi i h n c a đ tài

1.3.1 Nhi m v

 Nghiên c uăđ cătr ngăti ng Vi t

 Nghiên c u công ngh phân lo i ti ng nói ậ ti ng Vi t

 Nghiên c uăcácăph ngăphápăx lý, l c tín hi u liên t c, r i r c;ăcácăph ngăphápă rútă tríchă đ tă tr ngă (MFCC), phân lo i, nh n d ng tín hi u ti ng nói (Hidden Marko Models )

 Ch n lựa hàm mô hình Markov n đ thi t k giao di n nh n d ng các t p

l nh c aăđ iăt ng đi u khi n - Robot th hi n c m xúc

 Vì th i gian có h nănh ăđƣănêuătrênănênăph n thi t k và thi công mô hình

thực nghi m ch d ng l i d ng là m tărobotăđ năgi n,ădoăđóăvi c ra l nh

ph c t păđ robot thực hi n nhi m v ph c t p b h n ch

 Trongăđi u ki năbìnhăth ng, k t qu nh n d ngăch aăđ tăđ c 100%

1.4 Ph ng pháp nghiên c u

Ng i thực hi năđ tƠiăđƣăs d ngăcácăph ngăăphápăsauăđơy:

 Ph ngăphápănghiênăc u tài li u: các tài li uăliênăquanăđ n nh n d ng ti ng nói,ă ph ngă phápă tríchă đ că tr ngă MFCC,ă l ng t vector VQ, mô hình Markov nă HMM,ă đ că đi m ti ng Vi t Các tài li u liên quan v l p trình C/C++ và Matlab

Trang 14

ch năđ cătr ngăMFCC,ăph ngăphápăl ng t vector VQ, mô hình Markov n HMM trong nh n d ng ti ng Vi t

 Ph ngăphápăchuyênăgia:ăthamăkh o ý ki n c a chuyên gia v trích ch năđ c

tr ngă MFCC,ă l ng t vector VQ, mô hình Markov n HMM trong nh n

d ng ti ng nói ti ng Vi t, và kh nĕngă ng d ng vào thực t

 Ph ngăphápăthực nghi m: thực nghi m vi c nh n d ng ti ng nói ti ng Vi t trên máy tính và xu t ra board đi u khi n Robot m tăng i th hi n c m xúc

1.5 N i dung lu n văn

N iădungăđ tài g m các ph n sau:

Ch ng 1: T ng quan

 T ng quan chung v lĩnhăvực nghiên c u

 M cătiêuăvƠăđ iăt ng nghiên c u

 Nhi m v và gi i h n c aăđ tài

 Ph ngăphápănghiênăc u

Ch ng 2: Đ c tr ng ti ng nói ti ng Vi t

 Phân tích t ng quan v ti ng nói

 Cácăđ cătr ngăc ăb n c a ti ng Vi t

 Phơnătíchăph ngăphápătríchăđ cătr ngăMFCC

 Phơnătíchăph ngăphápăl ng t vector VQ

Ch ng 4:Mô hình Markov n HMM

 C ăs lý thuy t v mô hình Markov n HMM

 ng d ng mô hình Marko n HMM vào nh n d ng ti ng nói ti ng Vi t

Ch ng 5: Thi t k ph n c ng và m ch đi u khi n Robot

 T ng quan v ph n c ng c a h th ng và cách lựa ch n thi t b

 Gi i thi uăBoardăArduinoăMegaă2560ăvƠăcácătínhănĕngătrongăvi căđi u khi n

Trang 15

C h ng 6: Thi t k h th ng nh n d ng và ph n m m giao di n nh n d ng

 Xây dựng thu t toán ti n x lý ti ng nói ti ng Vi t

 Xây dựng thu t toán trích ch năđ cătr ngăti ng nói ti ng vi t MFCC

 Xây dựng thu tătoánăl ng t vector VQ

 Xây dựng thu t toán mô hình Markov n

 Xây dựng thu t toán hu n luy n và nh n d ng ti ng nói ti ng Vi t

 Đ tài nghiên c u có th đ c s d ng làm tài li u nghiên c u và gi ng d y cho sinhăviênăđ i h c và cao h cătrongăđƠoăt oăcácăchuyênăngƠnhăĐi n ậ Đi n

t ,ăĐi n t vi n thông,ầ

 ng d ng mô hình nh n d ng ti ng nói ti ng Vi t trong các h th ng nh n

d ng,ăđi u khi n thi t b ,ărobot,ầbằng ti ng nói ti ng Vi t

Trang 16

Ch ng 2:

Đ C TR NG TI NG NÓI TI NG VI T

Tín hi u ti ngănóiăđ c xem là tín hi u ng u nhiên vì chúng ta không th xác

đ nhăchínhăxácăbiênăđ và t n s c a tín hi u ti ngănóiăđ c nói Tuy nhiên, mỗi t

c a ti ng nói l i ch a nh ng thành ph năđ cătr ngăriêngăđ cătr ngăchoăt đó,ăvìăv y

vi cătáchăđ cătr ngăti ng nói là quá trình quan tr ng trong h th ng nh n d ng ti ng nói Các h th ng nh n d ng s phân bi t các t khác nhau trong ti ng nói dựa trên

đ cătr ngăriêngăc a mỗi t ăQuáătrìnhătríchăđ cătr ngăti ngănóiălƠăquáătrìnhăcôăđ ng tín hi u ti ng nói c a mỗi t thành các thông s đ cătínhăđ cătr ngăchoăt đó,ănhằm

gi m nhẹ công vi c nh n d ngăvƠătĕngăđ chính xác cho h th ng nh n d ng

2.1 T NG QUAN V TI NG NÓI:

Ti ng nói là m t lo i sóng âm Khi chúng ta nói, ti ngă nóiă đ c truy nă điămangătheoăthôngătinăd i d ngăcácădaoăđ ng truy năđ nătaiăng i nghe M căđ truy n tin c a ti ngănóiăđ c xem là nhanh nh t trong các kh nĕngătự nhiên c a conăng i

Tín hi u ti ng nói ch a các thông tin có t n s t p trung trong kho ng t 4kHz

tr xu ng.ăĐơyăcũngăchínhălƠăkho ng t n s ch aănĕngăl ng ch y u c a tín hi u

ti ng nói

Trong kho ng th i gian dài, tín hi u ti ng nói là tín hi u không d ng,ănh ngătrong kho ng th iăgianăđ ng n tín hi u ti ngănóiăđ căxemănh ătínăhi u d ng

Đ i v i quá trình nh n d ng ti ng nói, thì ngoài vi c nh năraăcácăđ cătr ngăc a

ti ng nói thì quá trình h c thích nghi v iăcácăthayăđ i c aăđ cătr ngăti ngănóiăcũngă

Trang 17

 Tínhăđ c l p: t c là mỗi âm ti t là m t thành ph n nh , chúng rõ ràng và tách bi t v i nhau, mỗi t đ i di n cho m t âm ti t duy nh t

 Không có hi năt ng n i âm: trong ti ng Vi t,ădùăng i nói, nói nhanh hay nói ch m thì mỗi t phátăraăđ u riêng lẻ, không có sự n i âm hay nu t âm

nh ătrongăti ngăAnh.ăĐi u này làm cho ranh gi i gi a các âm ti t rõ ràng

v i nhau, không có sự ch ng l p gi a các t

 Ti ng vi t có hai lo i t là t đ năvƠăt ghép T đ nălƠăt đ c t o t m t

âm ti t, t ghép là t đ c t o t nhi u t đ n.ăTrongăđaăs cácătr ng h p

mỗi t đ năđ uămangăýănghĩaăđ yăđ , vi c ghép các t đ năcóănghĩaăthƠnhă

m t t ghépăcóănghĩaăkhácălƠmăchoăv năđ nh n d ng t ghép tr nên khó khĕnăh n

Khi phát âm m t âm ti t,ăcácăc ăth t c a b máyăphátăơmăđ u tr i qua ba giai

đo n:ătĕngăc ngăđ cĕng,ăđ nhăđi măcĕngăthẳng và gi măđ cĕng

Dựa vào cách k t thúc, các âm ti t ti ng Vi tăđ c chia thành hai lo i l n là

âm ti t m và âm ti t khép Trong mỗi lo i l i có hai lo i nh h n,ănh ăv y có b n

lo i âm ti t trong ti ng Vi tănh ăsau:

 Âm ti t n a khép: là nh ng âm ti tăđ c k t thúc bằng m t ph âm vang

 Âm ti t m : là nh ng âm ti tăđ c k t thúc bằng cách gi nguyên âm s c

c a nguyên âm đ nh âm ti tănh :ăta,ăma,ăto,ầ

Âm ti t ti ng Vi t có m t c u trúc ch t ch , nó không ch là m tăđ n v ngôn

ng đ năthu n mà còn là m tăđ năv t vựng và ng pháp ch y u Mô hình c u trúc t ng quát c a m t âm ti t ti ng Vi tăđ c th hi n trong b ng 2.1

Trang 18

B ng 2 1:C u trúc t ng quát c a m t âm ti t ti ng Vi t

Thanhăđi u Ểmăđ u Ểmăđ m Âm chính Âm cu i V n

2.2.2 Âm v :

M t ti ng nói g m m t chuỗiăcácăơmăc ăb n g i là âm v Xét v m c ng âm,

âm v lƠăđ năv nh nh t c a ti ng nói, là m tăđ năv tr uăt ng mà chúng ta không

th quan sát trực ti p trong tín hi u ti ng nói Mỗi âm v có hai ch cănĕng:

 C u t o nên v âm thanh c aăcácăđ năv cóănghĩa

 Phân bi t v âm thanh c aăcácăđ năv cóănghĩa

Ví d v t ắtôi”ăcóăbaăơmăv lƠăắt”,ăắô”ăvƠăắi”

2.2.3 Nguyên âm và ph âm:

 Nguyên âm:

Nguyên âm là m t âm thanh trong ngôn ng nói,ăđ c phát âm v i thanh qu n

m ,ădoăđóăkhôngăcóăsự tíchălũyăápăsu t không khí trên b t c đi m nào c a thanh môn, c a b ph n c u âm, vì v yănguyênăơmăkhôngăcóăđi m c u âm

NgoƠiăcácănguyênăơmăđ n,ătrongăti ng Vi tăcònăcóăcácănguyênăơmăđôi,ăhayăcònă

g i là nh âm Trong ti ng vi t có 16 âm v lƠănguyênăơm,ătrongăđóăcóă13ănguyênăơmă

đ năvƠă3ănguyênăơmăđôi

 Ph âm:

Ph ơmăđ c t o ra do lu ngăh iăb ch n m tăđi mănƠoăđóătrongăb ph n c u

âm khi phát âm, vì v y ph ơmăcóătiêuăđi m c u âm Khi phát ph âmăthìăđ cĕngă

th ng t p trung tiêuăđi m c u âm Ph ơmăđ c chia làm các lo iăc ăb n sau:

 Ph âm b tăh i:ăơmăđ c phát ra t sự phá vỡ các c n tr và c xát

gi a hai mép dây thanh Ví d ph âm b tăh iănh :ăắth”,ăắt”,ăắtr”,ầ

 Ph ơmămũi:ăơmăđ c phát ra t lu ngăkhôngăkhíăđ c t o ra và thoát

ra ngoài nhẹ nhàng quaă khoangă mũi.ă Khiă quaă khoangă mũi,ă ơmă nƠyă

ch u c ngă h ng c a khoang mũi.ă Ph ơmă nƠyă cònă đ c g i là âm vang Ví d v ph ơmămũiănh :ăắm”,ăắn”,ăắnh”,ầ

Trang 19

 Ph ơmăxát:ăkhôngăkhíăđiăraăb c n tr không hoàn toàn, ph i lách ra

m t khe h nh gi aăhaiăc ăquanăc u âm, gây nên ti ng c xát nhẹ Ví

d v ph ơmăxácănh :ăắv”,ăắg”,ầ

2.2.4 Thanh đi u:

Thanhă đi uă lƠă đ că tínhă đ că tr ngă c a ti ng Vi t nói riêng và các ngôn ng

ti ngănóiăcóăthanhăđi u nói chung so v i các ngôn ng khácănh ăti ngăAnh,ăPháp,ầ Thanhăđi u là m t thành ph n ng âm, không ph i là nh n gi ng, giúp phân

bi t các t đ ng âm

Ng i ta phân bi tăthanhăđi u dựa vào hai yêu t lƠăơmăđi u và âm vực Âm

đi u là sự thayăđ i t n s c ăb n c a thanhăđi uăhayăđ ng nét c aăthanhăđi u, còn

âm vực là mi n giá tr c a t n s c ăb n

Trong ti ng Vi t t ng c ngăcóă6ăthanhăđi uănh ăsau:

 Thanh ngang: âm phát ra bằng phẳng và không có lên hay xu ng t đ u

 Thanhăngƣ:ăơmăphátăraăcóăđi m b tăđ u th p và không bằng phẳngăcóăđo n

d c b đ t quãng do thanh h u ngh n l i t o nên kho ngăgiánăđo n gi a thành và cu i cùng l i lên cao nhanh chóng

 Thanh n ng: âm phát ra b tăđ u th p và t t xu ng th păh năn a r i cu i cùng k t thúc bằng m t nét t t gi ng

Trang 20

Ch ng 3:

MÔ HÌNH NH N D NG TI NG NÓI TI NG VI T

3.1 Phân lo i các h th ng nh n d ng ti ng nói:

3.1.1 Nh n d ng t liên t c và nh n d ng t cách bi t:

M t h nh n d ng ti ng nói có th là m t trong hai d ng: nh n d ng liên t c và

nh n d ng t cách bi t Nh n d ng liên t c t c là nh n d ng ti ngănóiăđ c phát liên

t c trong m t chuỗi tín hi u, chẳng h nănh ăm t câu nói, m t m nh l nh ho c m t

đo năvĕnăđ căđ c b iăng i dùng Các h th ng lo i này r t ph c t p, chúng ph c

t p chỗ các t đ c phát liên t c gây khóăkhĕnătrongăvi c x lý k p n u c n th i gian thực, ho c khó tách ra n uănh ăng i nói liên t c không có kho ng ngh K t

qu tách t nhăh ng r t l năđ năcácăb c sau, c n ph i x lý th t t t trong quá trình tách t

Trái l i, v i mô mình nh n d ng t riêng lẻ, mỗi t c n nh n d ngăđ c phát

âm m t cách r i r c, có các kho ng ngh tr c và sau khi phát âm m t t Mô hình nƠyădĩănhiênăđ năgi năh nămôăhìnhănh n d ng liên t c,ăđ ng th iăcũngăcóănh ng

ng d ng thực ti n,ănh ătrong các h th ngăđi u khi n bằng gi ng nói, quay s bằng

gi ngănói,ầv i đ chính xác khá cao, tuy nhiên khó áp d ng r ng rãi so v i mô hình nh n d ng liên t c

3.1.2 Nh n d ng ph thu c ng i nói vƠ đ c l p ng i nói:

Đ i v i nh n d ng ph thu căng i nói thì mỗi m t mô hình nh n d ng ch

ph c v đ c cho m tăng i, và mô hình s không hi uăng i khác nói gì n uănh ă

ch aăđ c hu n luy n l i t đ u.ăDoăđó,ăh th ng nh n d ngăng iănóiăkhóăđ c

ch p nh n r ng rãi vì không ph iăaiăcũngăđ kh nĕngăki n th c và nh t là kiên

nh năđ hu n luy n h th ng.ăĐ c bi t là h th ng lo i này không th ng d ng

n iăcôngăc ng

Ng c l i, h th ng nh n d ngăđ c l păng iănóiăthìălýăt ngăh n,ă ng d ng

r ngărƣiăh n,ăđápă ngăđ c h u h t các yêu c uăđ ra.ăNh ngăkhóăkhĕnălƠăh th ng lýăt ngănh ăv y g p m t s v năđ , nh tălƠăđ chính xác c a h th ng

Trang 21

Trong thực t , mỗiăng i có m t gi ng nói khác nhau, th m chí ngay cùng m t

ng iăcũngăcóăgi ng nói khác nhau nh ng th iăđi m khác nhau.ăĐi u này nh

h ng r t l năđ n vi c nh n d ng, nó làm gi măđ chính xác c a h th ng nh n

d ng xu ng nhi u l n.ăDoăđóăđ kh c ph c khuy tăđi m này, h th ng nh n d ng

đ c l păng i nói c năđ c thi t k ph c t păh n,ăđòiăh iăl ng d li u hu n luy n

l n h nănhi u l n.ăNh ngăđi uănƠyăcũngăkhôngăc i thi năđ c bao nhiêu ch tăl ng

nh n d ng.ăDoăđó,ătrongăthực t có m t cách gi i quy tălƠăbánăđ c l păng i nói

Ph ngăphápănƠyăthực hi n bằng cách thu m u m t s l ng l n các gi ng nói khác

bi t nhau Khi s d ng, h th ng s đ căđi u ch nh cho phù h p v i gi ng c a

ng i dùng, bằng cách nó h c thêm m t vài câu có ch a các t c n thi t

Nh n d ngăđ c l păng iănóiăkhóăh năr t nhi u so v i nh n d ng ph thu c

ng i nói Cùng m t t , m tăng i, dù có c g ng phát âm cho th t gi ngăđiăn a thì cũngăcóăsự khác bi t.ăĐ i v i b nƣoăconăng i, m t h th ng hoàn h o, thì sự khác

bi tăđóăcóăth đ c b qua do ng c nh, và do có ph n x lý làm m điăc a não

Nh ngăđ i v i máy tính thì r t khó xây dựngăđ c m t mô hình gi i quy t cho t t

c cácătr ng h p khác bi tăđó

Hình 3 1: Ng i nói khác nhau s phát âm khác nhau

Trang 22

L iănói đ cătr ngRút trích thamăsX păx ă Lựaăch nănhóm

Vi c nh p d li u ti ng nói thực hi n d dƠngăh năcácălo i d li u khác do tính

đ năgi n,ănhanh,ălƠmăđ c trong khi v nălƠmăđ c vi căkhác,ầTuyănhiên,ădoătínhă

ph c t p c a d li u ti ng nói, nên vi c nh n d ng ti ngănóiămangăđ ph c t p cao

 Kíchă th c c a b t vựng:ă kíchă th c c a b t vựng càng l n thì h

th ng nh n d ng c n phân bi t rõ gi a các t trong b t vựng v i nhau, do đóăv iăkíchăth c c a b t vựng càng nh thìăđ chính xác c a h th ng

nh n d ng càng l n

 Ti ngănóiăđ c thu âm m t cách r i r c trong nh ng kho ng th iăgianăđ

l năthìăđ chính xác c a h th ng nh n d ngăcaoăh năti ngănóiăđ c thu

m t cách liên t c.ăNh ăv y, vi c nh n d ng các t đ năth ng chính xác

h năsoăv i vi c nh n d ng m t câu nói liên t c

 H th ng nh n d ngătrongămôiătr ng nhi u, nhi u t p âm s làm gi măđ

Trang 23

 Thi t b thuăơmăđ uăvƠoăcũngă nhăh ngăđ n k t qu c a h th ng nh n

d ng, v i nh ng thi t b thu âm kém ch tăl ng có th làm m t mát thông tin, sai l chă thôngă tin,ầă lƠmă choă h th ng nh n d ng s khó nh n d ng chính xác h n

3.3 C u trúc h nh n d ng ti ng nói:

Hình 3.3trình bày c u trúc nguyên lý c a m t h nh n d ng ti ng nói Tín hi u

ti ngănóiătr c h tăđ c x lý bằng cách áp d ng quá trình trích ch năđ cătr ngăvà quá trình ti n x lý K t qu thuăđ c sau quá trình trích ch năđ cătr ngălƠăt p các

đ cătr ngăơmăh căđ c t o dựng thành m t vector

Ti năx ălý Tríchăch năđ cătr ng Soăsánhăt ngăđ ng

m t t , m tăơmăđ năho c m tăđ năv ti ngănóiănƠoăđó.ăTùyăthu c vào nhi m v c a

h th ng nh n d ng, quá trình hu n luy n h th ng s bao g m m t quá trình x lý

ít ph c t p ho c nhi u ph c t p

Vi c trích ch năcácăđ cătr ngătiêuăbi u và xây dựng m t mô hình tham kh o là

m t quá trình t n th i gian và là m t công vi c ph c t p

Trong quá trình nh n d ng,ădƣyăcácăvectorăđ cătr ngăđ căđemăsoăsánhăv i các

m u tham kh o.ăSauăđó,ăh th ngătínhătoánăđ t ngăđ ng c aădƣyăcácăvectorăđ c

tr ngăvƠăm u th m kh o ho c chuỗi các m u tham kh o Vi cătínhătoánăđ gi ng

Trang 24

nhauăth ngăđ c tính toán bằng cách áp d ng các thu t toán hi u qu M u ho c dãy m uăcóăđ t ngăđ ng cao nh tăđ c cho là k t qu c a quá trình nh n d ng

Hi n nay, có nhi u ph ngăphápătríchăch năđ cătr ngăti ngănóiănh :ătríchăđ c

tr ngăLPC,ătríchăđ cătr ngăMFCC, Trong lu năvĕnăs d ngăph ngăphápătríchăđ c

tr ngăMFCCăđ tríchăđ cătr ngăti ng Vi t cho mô hình nh n d ng

3.4 Gi i thu t h th ng nh n d ng ti ng nói ti ng Vi t dùng Markov n:

Đ xây dựng mô hình nh n d ng ti ng nói ti ng nói ti ng Vi t có r t nhi u công c khác nhau M t trong nh ng công c đ c ng d ng cho vi c xây dựng mô hình nh n d ng ti ng nói ti ng Vi t là mô hình Markov n HMM

Ti năx ălý Tríchăđ cătr ngăMFCC

Nh năd ngăvƠătr ăk tăqu

Trang 25

Markov n, ho c làm thông s đ u vào c a mô hình Markov năđ phân tích và tr

k t qu nh n d ng

3.5 Voice Acivation Detection (VAD):

Tín hi u ti ng nói sau khi thu âm qua microphone s thuăđ c m t s l ng

m u nh tăđ nh

Trongăđ tài ch n t n s l y m u tín hi u là 8kHz, mỗi l n thu âm kho ng 2 giây Tuy nhiên, v i t n s l y m u là 8kHz thì ta có 8000 m u/1 l năđ căthuăđ c thì không ph i toàn b đ uălƠăơmăthanhăcóăýănghĩa,ăph n nhi u trong s này là các kho ng l ng (silences) Do v y,ă tr c khi m uă ơmă thanhă đ că đ aă vƠoă tríchă đ c

tr ngăthìăc năcóăch ngătrìnhăđ tách l yăđo năơmăthanhăcóăýănghĩa,ăđ ng th i lo i

b các kho ng l ng.ăDoăđó,ăVADăs đ c s d ngăđ xén các kho ng l ng tr c

và sau c a m t l n phát âm

Hình 3 5 :Đo n m u âm thanhătr c khi VAD

Hình 3 6 :Đo n m u âm thanh sau khi VAD

Tín hi uăơmăthanhăđ căchiaăthƠnhăMăđo n, mỗiăđo n có L m u.ăTrongăđ tài này ch n K = 160 m u v i Fs=ă8kHz,ănghĩaălƠă20ms cho mỗiăđo n

SauăđóăhƠmănĕngăl ng Es s đ c tính cho mỗiăđo n b i công th c (3.1):

Trang 26

ch n TH là do thực nghi m ki mătra,ălƠmăđiălƠmăl i nhi u l n m i có th ch n ra

đ c giá tr phù h p giúp cho vi c xén tín hi u chính xác tránh làm m t mát thông tin có ích ho căd ăth a nhi u thông tin vô ích

3.6 Ph ng pháp trích đ c tr ng ti ng nói MFCC:

Ph n này mô t ph ngăphápăphơnătíchăthôngătinătínăhi u ti ngănóiăđ t o ra cácăvectorăđ cătr ng.ă đơy,ătrongăkhơuătríchăđ cătr ng ch năph ngăphápMFCCă(tríchăđ cătr ngătheoăthangăt n s Mel) dot căđ tínhătoánăcao,ăđ tin c y l năvƠăđƣă

đ c s d ng r t hi u qu trongăcácăch ngătrìnhănh n d ngti ng nói trên th gi i

S ăđ gi i thu tăph ngăphápăphân tích thông tin ti ng nói nh ăsau:

Hình 3.7: S ăđ gi i thu tăph ngăphápăphơnătíchăthôngătinăti ng nói

Tín hi u ti ng nói x(n) sau khi phân tích thông tin s thuăđ căđ cătr ng d ng

các vector f x (n;m) B vector f x (n;m) có M vector (m =ă0,ă1,ăầ,ăMăậ 1) và mỗi vector

Tín hi u ti ng nói b nhăh ng b iămôiătr ng xung quanh Ví d tín hi u

x(n) thuăđ c b i các thành ph n: x(n) = s(n) + d(n),ătrongăđóăs(n) là tín hi u thu n

Trang 27

ti ng nói và d(n) là nhi u Có nhi uăph ngăphápăl c nhi u, tuy nhiên có hai gi i thu tăchínhăđ thực hi năđóălƠătr ph và l c nhi u thích nghi đơyăthực hi n gi i thu t gi m nhi u tr ph vƠăđ c thực hi n g n li n v iăb c tách ti ng nói kh i kho ng im l ng

Nh n m nh tín hi u (pre-emphasis).ăTrongă b c x lýăđ u tiên này, tínhi u

đ căđ aăquaăm t b l c s :

H (z) = 1 ậ az-1(3.2)

Trongăđóăa là h s nh n m nh,ăth ng có giá tr là 0,97 B l c có tác d ng

tĕngăc ng tín hi u t i t n s cao (trên 1KHz) v i hai lý dochính:

 Gi ng nói có sự suy gi m kho ng 20dB/decade khi lên t n s caoă dođ c

đi m sinh lý c a h th ng phát âm c aăconăng i.ăB c x lý nàys tĕngă

c ng tín hi u lên m t giá tr g nă 20dB/decadeă đ kh c ph c sựsuy gi m này,

 H th ng thính giác c aăconăng i nh y c măh năv i vùng t n s cao,b c

x lý này nh n m nh vùng t n s cao, tr giúp cho quá trình môhình hoá âm thanh sau này c a h th ng nh n d ng

Trong mi n th i gian, b l c có d ng: = 1, − và tín hi u s 1 (n)ăthuăđ c sau b l c trong mi n th i gian s là:

Trang 28

Ph ngăphápănƠyădựa vào tính ch tănĕngăl ng c a tín hi u ti ngănóiăth ng

l năh nănĕngăl ng c a tín hi u nhi u và t l quaăđi m zero c a nhi u s l năh nătín hi u ti ng nói Hình 3.9 cho th y m i quan h gi a tín hi uăthuăđ c, giá tr c a hƠmănĕngăl ng th i gian ng n và t l quaăđi m zero

Hình 3.9:Phân tích kho ng l ng c a ti ng nói

V i m t c a s k t thúc t i m u th m,ă hƠmă nĕngă l ng th i gian ng n

E s1 (m)ăđ căxácăđ nh b i:

1 = 12

= − +1

(3.4) Công su tăt ngă ng là:

1 = +1, 1( ) 0

−1, 1 < 0

Mỗi khung có L m u Chú ý rằng ch s trong các hàm này là m, vì vi c tính

toán không ph i thực hi n t i mỗi m u (ch tính sau mỗi khung m u)

Trang 29

Ti pătheoălƠătínhăng ỡng quy tăđ nhăđ xácăđ nhăđi măđ uăvƠăđi m cu i c a

ti ngănói.ăĐ xácăđ nhăđ căng ỡng này, ta ph i thu tín hi u nhi u n n xung quanh

Gi đ nh rằng ta thu 50 khung nhi u n n và tính giá tr W s1 nh ăsau:

� = 0,2 −1.4Hàm dò ti ng nói có th thực hi nănh ăsau:

� = 1, 1( )

0, 1 <

Hình 3.10:Tách ti ng nói kh i kho ng im l ng theo VAD

Trang 30

Hình 3.11:T ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng

l ng

3.6.2 T o khung và c a s hóa tín hi u

B c ti p theo là chia tín hi u x 1 (n) thành các khung và c a s hóa mỗi khung, xem Hình 3.12

Hình 3 12:Frame blocking và Windowing

T o khung tín hi u (framing) Tín hi u ti ng nói luôn luôn bi n thiên theo th i gian, tuy nhiên, trong kho ng th i gian kho ng 20-25ms, tín hi u ti ngănóiăđ c coi lƠăt ngăđ i năđ nh.ăDoăđó,ătínăhi uăth ngăđ căchiaăthƠnhăcácăkhungăkíchăth c

20 ậ 25 ms v i vùng g i lên nhau kho ng 5 ậ 10 ms

Mỗi khung có chi u dài là K m u, các khung cách nhau m t kho ng P m u,

Trang 31

Giá tr cho K và P l năl t là 160 m u và 50 m uăt ngă ng v i th i gian l n

Trang 32

Hình 3 15:Tín hi u ti ngănóiăsauăkhiăđ c c a s hóa so v iăbanăđ u

3.6.3 Trích đ c tr ng

ĐơyălƠăb c quan tr ng,ăđ c thực hi năđ trích các thông tin chính t các khung ti ng nói Có r t nhi u sự ch n lựa đ thực hi n tác v nƠyănh ăđƣătrìnhăbƠyă trên ăTuyănhiên,ăph ngăphápăMFCCăđ c s d ng ph bi năh n.ăCácăb c chính

đ thực hi năph ngăphápănƠyănh ăđ c mô t Hình 3.16

Hình 3.16:Cácăb c thực hi n MFCC

50 100 150 200 250 300 350 400 450 500 -1

-0.5

0 0.5 1

Original signal

50 100 150 200 250 300 350 400 450 500 -1

-0.5

0 0.5 1

Windowed signal

Trang 33

3.6.3.1 Bi n đ i Fourier r i r c (Discrete Fourier Transform - DFT)

Phép bi năđ i Fourier r i r c (DFT) chuy n tín hi u âm thanh t mi n th i gian

sang mi n t n s M t tín hi u x 2 (k;m) khi qua bi năđ i DFT s thuăđ c tín hi u

ph c mi n t n s g m 2 ph n: ReX (k t qu ph n th ực) và ImX (k t qu ph n o)

Ph ngătrìnhăc a phép bi năđ i DFT:

2 = � 2�

−1

=0(3.8)

Hình 3.17: Ph Fourier c a tín hi u g c và tín hi uăđƣăc a s hóa

3.6.3.2 Mel scale

L c theo thang t n s Mel (Mel-frequency bandpass filter) Các b l c s đ c

áp d ngăđ l c các tín hi u theo các gi i t n s khác nhau

50 100 150 200 250 -1

-0.5 0 0.5 1

Original signal

50 100 150 200 250 -1

-0.5 0 0.5 1

Windowed signal

0 1000 2000 3000 4000 0

50 100

150 Energy spectrum (linear scale)

0 1000 2000 3000 4000 0

20 40 60 80 Energy spectrum (linear scale)

Trang 34

Ph n ng c aătaiăng i v i các thành ph n c a t n s là không tuy n tính Sự khác nhau v t n s vùng t n s th p (<1KHz) d đ c nh n bi t b iăconăng i

h nălƠă vùng t n s cao L c theo thang t n s Mel mô ph ng tính ch t này bằng cách dùng các b l căđ c phân b theo m t hàm phi tuy n trong kho ng không gian t n s ,ăthôngăth ng là hàm Mel: [7]

= 2595 10 1 +

700 (3.9)

Nh ăv y, ti p theo ta l yăbiênăđ c a X 2 (n;m) nhân v iăcácăbĕngăl c t l mel

B cănƠyăđ c mô t theo công th c sau:

−1

=0

(3.10)

Trongăđóă ( ) là b l c tam giác

Hình 3.18: Bĕngăl c tam giác melscale trên mi n t n s

Trang 35

IDCT (Iverse Discrete Cosin Transform) Gi ng nói c aăconăng i có ph khá

tr nă(smooth)ătrênămi n t n s , do v y, các giá tr nĕngăl ng c a các b l c g n nhau có sự t ngăquană(correlated)ăkháăg n.ăB c x lý này bi năđ i các giá tr nĕngăl ng thành các h s ítăt ngăquanăv iănhauăh n,ăcácăh s nƠyăđ c g i là

h s cepstral

đơyăcóă12 bĕngăl căđ c s d ng trong dãy t n s 0 ậ 4000 Hz Các h s

ph melăsauăkhiăđ c tính s đ c l yălogarităng c và bi n đ i cosin r i r cănh ăsau:

Ch nh các giá tr cepstral Giá tr cepstral b căcaoăth ng có giá tr r t th p, so

v i các giá tr cepstral b c th p Sự khác bi tănƠyăgơyăkhóăkhĕnăchoăvi c mô hình hoá d li u, ví d nh ăkhiăs d ng các hàm m tăđ xác su tăGauss.ăDoăđóăcácăh s

cepstral c s (n;m) ti p t c đ căđi u ch nh l i (re-scaled) theo công th c:

� ; = � ; 1 +

2

� , = 1,2, … , (3.12)

3.6.3.3 Tính năng l ng tín hi u

Mỗi khung tín hi uăđ uăcóănĕngăl ngăriêngăvƠănĕngăl ngănƠyăđ c tính theo logaritănh ăsau:

Trang 36

Bi năđ i ph đóngăvaiătròăquanătr ng trong nh n d ng ti ngănói.ăDoăđóăchúngă

ta c n có thêm các thông tin v sự sai bi t th i gian, các h s delta, các h s gia

t că(ăđ o hàm b c hai c a h s mel-cepstrum) Ta có th s d ng bi u th căsauăđ tính trực ti p các h s này:

Tuy nhiên, theo cách này chúng ta s có khá nhi u các thành ph n nhi u Và có

m tăph ngăphápăkhácăđ làm phẳng nhi u là s d ngăđaăth c x p x Phép x p x nƠyăđ c thực hi n bằngăcáchăphơnăđo n các h s mel-cepstrum.ăNh ăv y, các h

Trang 37

s delta và các h s gia t căđ c tính t các h s mel-cepstrum theo bi u th c nh ăsau: [3]

= −Bây gi chúng ta có th nh năđ c nhi uăthôngătinăh năv ti ng nói trong các

vectorăđ cătr ng.ăGiáătr p đ c ch n t iă uălƠăbằng 3, vì n u quá l n thì th i gian

 1ăđ cătr ngănĕngăl ng

 12 MFCC (mel frequency cepstral coefficients) (các h s cepstral t n

s mel)

 1ădeltaăđ cătr ngănĕngăl ng

Trang 38

 12ăđ cătr ngădeltaăMFCC

 1ăđ cătr ngădoubleăậ deltaănĕngăl ng

 12ăđ cătr ngădoubleăậ delta MFCC

T ng c ng có 39 th nguyênăđ cătr ng.ăNh ăv y,ătaăthuăđ c b vectorăđ c

tr ngăx 3 (n;m) đ c s p x pănh ăsau:

E m c h (1;m) c h (2;m) … c h (n;m) δ (1) E m δ (1) (1;m) δ (1) (2;m) … δ (1) (n;m) δ (2) E m δ (2) (1;m) δ (2) (2;m) … δ (2) (n;m)

3.6.4 H u x lý

Sauăkhiătríchăđ c các vector mong mu n, các vector này có th đ cătĕngă

tr ng s ho c gi m tr ng s đ cácăđ cătr ngăcóătácăđ ng nhi u ho căítăh n.ăNóăcóă

Trang 39

3.7 L ng t vector:

3.7.1 T ng quan v l ng t vector (VQ):

Tín hi uăơmăthanhăsauăkhiăđ cătríchăđ cătr ngăs cho ta m t chuỗi các vector

đ cătr ng.ăTùyăthu căvƠoăđ c tính mỗi t mà s l ngăcácăvectorăđ cătr ngăkhácănhau.ăSauăđó,ăchuỗiăvectorăđ cătr ngănƠyăs đ căl ng t hóaăđ chia thành M nhómăkhácănhauăđ c g i là codebook, và mỗi nhóm s đ c gán nhãn t 1 t i m

M căđíchăc aăb c này nhằm làm gi m s l ng các quan sát cho chuỗiăvectorăđ c

tr ng,ăt đóălƠmăgi m s l ng tính toán cho vi c hu n luy n hay nh n d ng ti ng nói.ăSauăđó,ămôăhìnhăMarkovă năđ c ng d ngăđ hu n luy n hay nh n d ng ti ng nói

Khiăphơnătíchăđ cătr ngăti ng nói, chúng ta nh năđ căcácăvectorăđ cătr ngălƠă

v l (p,l) , v i l = 1, 2, , L M ỗi vector có P chi u,ătríchăđ cătr ngăMFCCăchoătaăP =

39 Do mô hình HMM r i r căđ c s d ngăđ nh n d ng nên các vector này ph i

đ că căl ng thành các ch s codebook r i r c bằng cách gán nhãn cho vector

đ cătr ng

Cácăđ c tính c a VQ:

 Gi m thi uăkhôngăgianăl uătr cácăvectorăđ cătr ng

 Gi m th i gian tính toánăđ gi ng nhau gi aăcácăvectorăđ cătr ng.ăTrongă

nh n d ng ti ng nói, m t s l ng l năcácăphépătínhădùngăđ tính sự gi ng nhau gi aăhaiăvectorăđ cătr ng.ăDựa vào VQ, vi cătínhătoánăđóăđ c gi m

xu ng thông qua vi c tìm sự gi ng nhau gi a hai c p vector codebook trong b ng tìm ki m

 Bi u di n r i r c v m t âm h c c a ti ng nói Nh quá trình gán nhãn cho

t ng frame c a t ng t , mà quá trình ch n codebook t t nh t cho t đóătrong các h th ng nh n d ng ti ng nói ch đ năthu n là dựa trên các nhãn này

Tuy nhiên vi căl ng t vector ch c ch n s d năđ n sai s l ng t hóa,ăđi u này d năđ năthôngătinăđ cătr ngăc a ti ng nói b sai l ch M t khác, vi c lựa ch n kíchăth c c aăcodebookăchoăVQăkhôngăđ năgi n.ăTĕngăkíchăth c s gi m sai s

l ng t ,ă nh ngă s tĕngă khôngă giană l uă tr các vector trong codebook và kh i

Trang 40

l ng tính toán khi thựcăthiăch ngătrìnhăcũngăs tĕngălên.ăDoăđó,ăkhiăcƠiăđ t VQ, chúng ta c năxemăxétăđ n sai s l ng t ,ăkhôngăgianăl uătr và th i gian tính toán

3.7.2 C u trúc và t p hu n luy n VQ:

Đ xây dựng codebook VQ và xây dựng thu t toán phân tích VQ, chúng ta c n các y u t sau:

 M t t păcácăvectorăđ cătr ngăv 1 , v 2 ,…, v llà t p hu n luy n cho VQ N u

kíchăth c c a codebook VQ là M = 2 B g i là codebook B bit, thì chúng ta

c năLă>>Măđ tìmăđ c M vector t iă uănh t.ăTrongăđ tài ch n kíchăth c codebook là codebook 64

 Đ đoă d gi a các c pă vectoră đ că tr ngă đ phân nhóm vector trong khâu

hu n luy n, hay phân l păvectorătrongăkhơuăđánhănhƣn

 Ph ngă phápă xácă đ nhă nhơnă đ phân ho ch L vectoră đ că tr ngă thƠnhă Mănhóm

 Ph ngăphápăphơnăl păcácăvectorăng̃ăvƠoăđ t o m tăvectorăng̃ăraăđ c

Ch s codebook

Hình 3.22: S ăđ kh i c u trúc c a VQ hu n luy n và phân l p

T p hu n luy n VQ là t t c cácăvectorăđ c tr ngăsauăkhiăđƣăquaăkhơuătríchăđ c

tr ngăMFCCăc a t t c các t c n nh n d ng Mỗiăvectorăđ cătr ngălƠăPă=ă39 h s

đ cătr ngăc a 1 frame ti ng nói

Ngày đăng: 18/11/2020, 14:00

HÌNH ẢNH LIÊN QUAN

Hình 3. 1:  Ng i nói khác nhau s  phát âm khác nhau - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 3. 1: Ng i nói khác nhau s phát âm khác nhau (Trang 21)
Hình 3.10:Tách ti ng nói kh i kho ng im l ng theo VAD - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 3.10 Tách ti ng nói kh i kho ng im l ng theo VAD (Trang 29)
Hình 3.11:T  ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 3.11 T ti ng nói có kho ng im l ng tách thành ti ng nói không có kho ng (Trang 30)
Hình 3. 15:Tín hi u ti ngănóiăsauăkhiăđ c c a s  hóa so v iăbanăđ u - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 3. 15:Tín hi u ti ngănóiăsauăkhiăđ c c a s hóa so v iăbanăđ u (Trang 32)
Hình 4. 2:Ví d  m t mô hình Markov  n sáu tr ng thái - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 4. 2:Ví d m t mô hình Markov n sáu tr ng thái (Trang 46)
Hình 5.6:  Đi u khi n v   tríătr c ra c aăđ ngăc ăbằngăcáchăđi u ch   đ  r ng xung. - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 5.6 Đi u khi n v tríătr c ra c aăđ ngăc ăbằngăcáchăđi u ch đ r ng xung (Trang 60)
Hình 5.13 :  G̃ăl nhătargetinstallerăvaoăkhungăCommandăWindows . - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 5.13 G̃ăl nhătargetinstallerăvaoăkhungăCommandăWindows (Trang 68)
Hình 5.15:  Matlabăđangănhơ ̣năthôngătinăgoiăhỗătr ̣ăthôngăquaăma ̣ngăInternet . - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 5.15 Matlabăđangănhơ ̣năthôngătinăgoiăhỗătr ̣ăthôngăquaăma ̣ngăInternet (Trang 69)
Hình 5.16 :  L ̣aăcho ̣năgoiăhỗătr ̣ăArduinoăvaătiêpătụcănhơnăNext . - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 5.16 L ̣aăcho ̣năgoiăhỗătr ̣ăArduinoăvaătiêpătụcănhơnăNext (Trang 70)
Hình 5.18 :  Matlabăđangăcaiăgoiăhỗătr ̣ăArduino . - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 5.18 Matlabăđangăcaiăgoiăhỗătr ̣ăArduino (Trang 71)
Hình 5.19 : HoƠnăthƠnhăti nătrìnhăcƠiăđ t . - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 5.19 HoƠnăthƠnhăti nătrìnhăcƠiăđ t (Trang 71)
Hình 6. 2: L uăđ  gi i thu t th ự c hi n tách ti ng nói kh i kho ng l ng - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 6. 2: L uăđ gi i thu t th ự c hi n tách ti ng nói kh i kho ng l ng (Trang 75)
Hình 6.8. Minh h a phân tích d  li u ti ng nói thành các h  s   đ cătr ngăđ  s  d ng - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 6.8. Minh h a phân tích d li u ti ng nói thành các h s đ cătr ngăđ s d ng (Trang 87)
Hình 6.9: K t qu  nh n d ng t   ắvui” - Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp
Hình 6.9 K t qu nh n d ng t ắvui” (Trang 89)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w