1. Trang chủ
  2. » Luận Văn - Báo Cáo

NGHIÊN cứu về NHẬN DẠNG TIẾNG nói TIẾNG VIỆT và ỨNG DỤNG TRONG điều KHIỂN máy TÍNH

95 220 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 2,19 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

13 Hình 2.3 Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCC ..... Ch ng 3: Trongă ch ngă nƠy,ă trình bày lý thuy t v mô hình Hidden Markov Model và Dynamic Time Warping... Nh ngă

Trang 1

Mã s : 60.48.02.01

TP H CHÍ MINH ậ 2015

Trang 2

LU NăV NăTH CăS NGÀNH CÔNG NGH THÔNG TIN

Mã s : 60.48.02.01

PGS TS V ă C LUNG

TP H CHÍ MINH ậ 2015

Trang 3

L IăCÁMă N

Nh n d ng ti ng nói là m tă l nhă v c nghiên c u l n và liênă quană đ n

khóăkh năvƠăhoƠn thành lu năv năt t nghi pănƠy.ăEmăxinăđ c g i l i c mă nă

trênăconăđ ng h c t p, làm vi c và nghiên c u sau này c a mình

H c viên

Phan Hoàng Ân

Trang 4

TịMăT TăLU NăV N

n măquaăvƠăđ tăđ c nh ng thành t u nh tăđ nh Ngày nay, cùng v i s phát

đ c phát huy m nh m n c ta c ngăcóănhi u công trình nghiên c u và th

Lu nă v nă t p trung vào nghiên c uă đ c thù ti ng nói, rútă tríchă đ că tr ngă

ti ng nói b ng MFCC (Mel-scale Frequency Cepstral Coefficient) và LPC (Linear Predictive Coding), mô hình HMM (Hidden Markov Model), nâng cao

hi u qu nh n d ng c a b th ă vi n nh n d ng ti ng nói ti ng Vi t trên n n

phát tri n)

môăhình,ăph ngăphápănƠoălƠăt ngăđ i t t nh t cho vi c nh n d ng ti ng nói

Trang 5

M CăL C

L IăCÁMă N i

TÓM T T LU NăV N ii

M C L C iii

DANH M C B NG vi

DANH M C HÌNH V vii

M U viii

CH NGă1 T NG QUAN 1

1.1 Gi i thi uăđ tài 1

1.2 T ng quan v tình hình nghiên c uătrongăvƠăngoƠiăn c 1

1.2.1 Tình hình nghiên c u trên th gi i 1

1.2.2 Tình hình nghiên c uătrongăn c 3

1.3 M c tiêu c a lu năv n 5

1.4 iăt ng và ph m vi nghiên c u 6

1.5 Tính khoa h c và tính m i c aăđ tài 6

1.6 C u trúc lu năv n 6

CH NGă2 C ăS LÝ THUY T 8

2.1 C ăs ng âm ti ng Vi t 8

2.1.1 Khái ni m v âm ti t 8

2.1.2 căđi m âm ti t ti ng Vi t 8

2.1.2.1 Tính ch tăđ năơm 8

2.1.2.2 M i t đ năđ u có cách phát âm riêng bi t 9

2.1.2.3 Không bi năđ i v cách vi t và cách phát âm 9

2.2 C ăs toán h c: 10

2.2.1 H s t ngăquan: 10

Trang 6

2.2.2 Mô hình phân ph i Gaussian h n h p 11

2.3 C ăs x lý âm thanh 13

2.3.1 Bi u di n âm thanh 13

2.3.2 M u âm thanh 13

2.3.3 T n s l y m u 13

2.3.4 phân gi i m u 14

2.3.5 Kênh 14

2.4 Trích xu tăđ cătr ngăơmăthanh 15

2.4.1 Ph ngăphápărútătríchăđ cătr ngăLPC 15

2.4.2 Ph ngăphápărútătríchăđ cătr ngăMFCC 19

CH NGă3.ăNH N D NG TI NG NÓI 25

3.1 Mô hình Markov n 25

3.1.1 Gi i thi u 25

3.1.2 Các khái ni măc ăb n 25

3.1.3 Gi thuy t Markov 26

3.1.4 Mô hình Markov 26

3.1.5 Mô hình Markov n 29

3.1.6 BaăbƠiătoánăc ăb n c a HMM 33

3.2 Mô hình Markov n k t h p phân ph i Gaussian 41

3.3 Nh ng v năđ th c t trong vi c s d ng mô hình HMM 42

3.3.1 căl ngăbanăđ u 42

3.3.2 Mô hình liên k t c u trúc 42

3.3.3 Tiêu chí hu n luy n: 43

3.3.4 Phép n i suy lo i b : 43

3.3.5 T iă uătoánăt 44

Trang 7

3.3.6 Bi u di n xác su t 45

3.4 Nh ng h n ch c a HMM 47

3.4.1 Mô ph ng kho ng th i gian t n t i 47

3.4.2 Gi đ nh b căđ u tiên 49

3.4.3 Gi đ nhăđ c l păcóăđi u ki n 50

3.5 So kh p m u v i Dynamic Time Warping 50

3.5.1 DynamicăTimeăWarpingăs ăkhai 51

3.5.2 Cross-words reference template 52

CH NGă 4 TH ă VI N NH N D NG TI NG NÓI TI NG VI T VIETNAMESEASR 53

4.1 Gi i thi u 53

4.2 T ng quan v VietnameseASR 53

4.3 Chi ti t VietnameseASR 56

4.3.1 Quy trình hu n luy n v i DTW 56

4.3.2 Quy trình nh n d ng DTW 59

4.3.3 Quy trình hu n luy n HMM 63

4.3.4 Quy trình nh n d ng HMM 64

CH NGă5 XÂY D NGăCH NGăTRÌNHăTH NGHI M 67

5.1 Gi i thi u 67

5.2 Ch ngătrình 70

5.2.1 Xây d ng b t đi n 70

5.2.2 Xây d ngăch ngătrìnhăvƠăhi u ch nh k t qu v i DTW 72

5.3 K t qu th nghi m 75

K T LU N 81

TÀI LI U THAM KH O 83

Trang 9

DANHăM CăHÌNHăV

Hình 2.1 Mô hình GMM 12

Hình 2.2 Câu l nhăắm so n th oăv năb n”ăđ c bi u di n d ng sóng theo th i gian 13

Hình 2.3 Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCC 19

Hình 3.1 Minh h a mô hình Makov 27

Hình 3.2 Ví d th i ti t m t vùng v i mô hình xác su t 28

Hình 3.3 Ví d mô hình Markov n 3 tr ng thái 30

Hình 3.4 Ví d HMMăđ năgi n v m i liên h gi a s l ng que kem v i th i ti t 31

Hình 3.5 Ví d HMM v m i liên h gi a th i ti t vƠăđ m 32

Hình 3.6 Ví d mô hình HMM chu n 48

Hình 4.1 Quy trình hu n luy n t ng quát 55

Hình 4.2 Quy trình nh n d ng t ng quát 56

Hình 4.3 Quy trình hu n luy n v iăph ngăphápăDynamicăTimeăWarping 57

Hình 4.4 Minh h aăb c c t câu l nh thành các âm ti t riêng bi t 58

Hình 4.5 B c x lýărútătríchăđ cătr ngăơmăti t trong quy trình hu n luy n 59

Hình 4.6 B c x lý t ng h p m u trong quy trình hu n luy n 60

Hình 4.7 Quy trình nh n d ng v iăph ngăphápăDynamicăTimeăWarping 61

Hình 4.8 B c x lý tìm m u kh p nh t trong quy trình nh n d ng 62

Hình 4.9 K t qu tr v c aăb c x lý tìm m u kh p nh t 63

Hình 4.10 Quy trình hu n luy n v iăph ngăphápăs d ng mô hình HMM 64

Hình 4.11 Quy trình nh n d ng v iăph ngăphápăHMM 65

Hình 4.12 B c x lýă căl ng tham s trong quy trình nh n d ng v i HMM 66

Hình 5.1 Công c xây d ng b t đi n HMM c a VietnameseASR 71

Hình 5.2 S ăđ quáătrìnhă căl ng tham s sau khi hi u ch nh 72

Hình 5.3 S ăđ ng d ng Kho ng cách leveinshteitn đ hi u ch nh 74

Trang 10

M ă U

ng i r t nhi u.ăSongăchoăđ n nay, v năđ giao ti păng i ậ máyătuyăđưăđ c

nh p d li u khác

ph ngăth c giao ti p ti n l i và hi u qu nh t

Do có s khác bi t v m t ng âm gi a các ngôn ng nên ta không th áp

Spoken Toolkit c a CSLU (Central of Spoken Laguage Under-standing)

đưăđ tăđ c m t s thành t u nh :ăAILab,ăVietvoice,ăVspeechầ.ă, nh ngănhìnă

tính ng d ng cao

V i m c tiêu hi u v cách giao ti p gi aă ng i và máy tính, lu nă v nă

ch ngătrìnhăth nghi m nh n d ng ti ng nói ti ng Vi t đ đi u khi n máy tính

b ng ti ng nói

Trang 11

CH NGă1 T NGăQUAN

1.1 Gi i thi uăđ tài

NgƠyănay,ămáyătínhăđưătr thành m t ph n quan tr ngătrongăđ i s ng hàng ngày c a chúng ta Cùng v i s phát tri n c a khoa h c k thu t và công ngh , vi c

ng i ậ máy truy n th ng thông qua chu t,ă bƠnă phím,ă mƠnă hình,ầă cácă ph ngăphápătraoăđ i thông tin m iăc ngăđangăđ c phát tri năđ giúpăchoăconăng i làm

ti ng Vi t hoàn thi n

Trongăt ngălai,ăcácăthi t b đi u khi n, giám sát b ng ti ng nói s là m t xu

h ng phát tri n t t y u c a xã h i hi năđ i Chính vì v y vi c nghiên c u ch t o

d ng trong đi u khi n máy tính” chính là m tăh ngăđiăphùăh p v iăxuăh ng này

1.2 T ng quan v tình hình nghiên c uătrongăvƠăngoƠiăn c

1.2.1 Tình hình nghiên c u trên th gi i

Trên th gi i, các công trình nghiên c u v h th ng nh n d ng ti ng nói v i

b t v ng l n (Large Vocabulary Continuous Speech Recognition - LVCSR) trên

ph ngăphápănh n d ng d a trên mô hình Hidden Markov Model cho ti ng Quan

Trang 12

c a tác gi Steve Young, v i các h th ng nh n d ng ti ngănóiăLVCSRăđưăđ t t l

chínhăxácăWARădaoăđ ng t 90%ăđ n 95%

Còn v i l p bài toán nh n d ng trên thi t b nhúng,ă vƠoă n mă 2010,ă nhómă

trên m ng Neron nhân t o ANN (Artificial Neural Network) cho t l nh n d ng trungăbìnhăđ t 91,9% [22]

Trong bài toán nh n d ng ti ng Thái trên các thi t b nhúng, các tác gi DeemagarnăAmarinăvƠăKawtrakulăAsaneeăđưăđ aăraăph ngăphápănh n d ng d a

lý nh n d ng chu i s liên t c, t l chính xác theo câu SAR (Sentence Accuracy

đ i v i nh ng ngôn ng có tính ch tăđ năơmăgi ng ti ng Vi t, nh ngăph ngăphápă

Model và ANN

nóiăđưăđ c phát tri n trong nhi uăl nhăv c khác nhau:

ch ngă trìnhă nh m nâng cao kh n ngă t ngă tácă c aă phiă côngă trongă đi u

PhápầTrongăcácă ng d ng này, các giao ti p b ng ti ngănóiăđ c s d ng

đ th c hi n các ch căn ng:ăthi t l p các t n s vô tuy n, ra l nh h th ng lái

- Trong h th ng thông tin liên l c, các ng d ng c a công ngh nh n d ng

Trang 13

công ngh c t l iăđ phát tri năchúngăđ uăđ c thi t l p d a trên mô hình HMM [12]

trongăcácăphòngăđi u khi năđ t trên tr măv ătr ISS,ăquaăđóăh tr các nhà du

các h th ng giao ti p ngôn ng t nhiên h i tho i b ng ti ngă nói”ă(Advanced Capabilities for Spoken Dialogue-natural language Interface Systems)

Ngoài ra, có nhi uă l nhă v c khác s d ng công ngh x lý ti ng nói nói

d ng ti ng nói ti ng Anh Via Voice c a IBM; Spoken Toolkit c a Central of Spoken Laguage Under-standing; Speech Recognition Engine c a Microsoft; HTK

CarnegieăMellon,ầătrênăsmartphone,ătabletăhi n nay có: Siri trên iOS c a Apple,

nh n bi t ti ng Anh

ph n h i, còn Siri và S-Voice l i hoàn toàn không h tr ti ng Vi t.ăNh ngăs ra

đ i c a nh ng s n ph mănƠyăđưăgơyăs chúăýăđ i v iăng i s d ng và m ra m t

1.2.2 Tình hình nghiên c u t rongăn c

Trang 14

l nhăv c Vi t Nam hi nănayăc ngăcònăr t m i m , ch aăcóă ng d ngănƠoăđángăk

đ tăđ c nhi u thành t u

Nhóm s d ng b công c HTK (Hidden Markov Model Toolkit) d a trên mô hình HMMă đ nh n d ng V i cách ti p c n này, trong vi c gi i quy t l p bài toán LVCSR,ănhómăđưăđ tăđ c t l sai s theo t WERădaoăđ ng t 19,0%ăđ n 20,8% [23]

Cácătr ng h p khác, t l chính xác theo t đ t WAR=88,10%

d ng và công ngh tri th c - Vi n công ngh thông, là ti n ích tích h p ti ng nóiătrongăcácăch ngătrìnhă ng d ng Nó h tr r t t t kh n ngăđ c các t p

v năb n t MicrosoftăWordă9x,ă2000,ăđ c tin trên các trang Web (b ng c hai

th ti ng Vi t, Anh v i các font ch ABC, VNI, UNICODE) Là công c

(Microsoft Recognition Engine) áp d ng cho ti ng Anh, thi u nh ng nghiên

- AILab:ă đơyă lƠă côngă trìnhă nghiênă c u c a nhóm Trí tu Nhân t o - AILab

Trang 15

d ngătrênăđi n tho iădiăđ ng h tr ng i dùng tìm ki m thông tin nhà hàng, quánă Bar,ă Caféă trênă đ a bàn thành ph HCM Ph n m mă nƠyă c ngă h tr

ng i dùng hi n th đ a ch tìmăđ căd i d ng b năđ ho căngheăđ căđ a ch

tr c ti p b ng công ngh t ng h p ti ng nói

Ng i dùng có th c p nh t t đi n các ch vi t t t và các t ng ti ngăn c ngoài

NgoƠiăra,ăc ngăcóăr t nhi u công trình nghiên c u c a các sinh viên, nghiên

nóiăvƠoăđi u khi n máy tính v n còn nhi u h n ch ,ăđaăs các ph n m m này còn đangătrongăquá trình hoàn thi n ho c th nghi m, vi c s d ngăch aămangăl i nhi u

hi u qu trong th c t

1.3 M c tiêu c a lu năv n

dùngăđ đi u khi n máy tính b ng ti ng nói Ti ng Vi t

M c tiêu chi ti t:

nh ăc ăs x lýăơmăthanh,ăc ăs ng âm ti ng Vi t,ầ đ lƠmărõăh nă

m t s y u t quan tr ng trong vi c s d ng công c h tr

chính: Dynamic Time Warping và mô hình Markov n

thi n kh n ngă nh n d ng c a h th ng nh n d ng ti ng nói ti ng

Vi t

th c hi n m t s câu l nhă đi u khi n Window 8.1 trênă môiă tr ng

d ng t đóăđ aăraăk t lu n và nh n xét

Trang 16

1.4 iăt ng và ph m vi nghiên c u

v áp d ng cho ti ng Vi t.ă Ch ngă trìnhă th nghi m ch d ng m c nh n d ng

đ c kho ng 100 câu l nhăc ăb năđi u khi n máy tính (trên h đi u hành Window)

t ngă ng

phút

1.5 Tính khoa h c và tính m i c aăđ tài

m tă h ngă điă m iă choă đ tài nh n d ng ti ng nói ti ng Vi tă nóiă riêngă c ngă nh ă

Tuy h th ng nh n d ng ti ng nói ti ng Vi t th nghi măđ c s d ngăđ

đi u khi nămáyătính,ănh ngăkhôngăvìăv y mà kh n ngă ng d ng c a nó b gi i h n

d ng ti ng nói ti ng Vi t xu ng các thi t b nhúng

ti ng nói ti ng Vi t trên n n t ng NET (VietnameseASR do nhóm nghiên c u c a

1.6 C u trúc lu năv n

Ch ng 1: Ch ngăđ u tiên c a lu năv năđ aăraăl i gi i thi uăs ăl c v đ

Trang 17

ch ngănƠyăc ngănêuăraăgi i h n nghiên c u,ăph ngăphápăgi i quy t và sau cùng

ch ra nh ngăđi m n i b t c aăđ tài

Ch ng 2: Trình bày v nh ngăc ăs lý thuy t trong vi c xây d ng mô hình

thanh

Ch ng 3: Trongă ch ngă nƠy,ă trình bày lý thuy t v mô hình Hidden

Markov Model và Dynamic Time Warping Bao g m khái ni m, các thu t toán liên

Ch ng 4: Gi i thi u v b th ă vi n nh n d ng ti ng nói ti ng Vi t

VietnameseASR Trình bày v quá trình hu n luy n và quá trình nh n d ng c a b

th ăvi n này

Ch ng 5: Xây d ngă ch ngă trìnhă th nghi m nh n d ng ti ng nói ti ng

c u và phát tri n

Trang 18

CH NGă2 C ăS ăLụăTHUY T

2.1 C ăs ng âm ti ng Vi t

2.1.1 Khái ni m v âm ti t

Chu i l iă nóiă mƠă conă ng i phát ra g m nhi uă khúcă đo n dài ng n khác

âm t ắthesis”,ăơmăthanhăc a t đ c c u thành b i hai âm ti t là / i:/ và /sis/

Trong ti ng Vi t, m t t khi phát âm ch bao g m m t âm ti t, hay chúng ta

th ng g i là m t ti ng Ví d nh ăt ắlu n”ăhayăắv n”ăkhi phátăơmăđ u ch a m t

âm ti t duy nh t Vì v y, trong ti ng Vi t, ta có th coi m t âm ti t là m t t

2.1.2 căđi m âm ti t ti ng Vi t

2.1.2.1 Tính ch tăđ năơm

Ti ng Vi t là ngôn ng đ nă ơmă (monosyllable)ă vƠă cóă thanhă đi u (tonal)

Ti ng Vi t có 6 thanh theo truy n th ng (thanh không, h i, ngã, n ng, s c, huy n),

năăđ nh C u trúc t ng quát c a âm ti t ti ng Vi tăđ cătrìnhăbƠyănh ăsau:

B ng 2.1 C u trúc âm ti t ti ng Vi t

Thanhăđi u

thayăđ i âm s c c a âm ti t Âm chính luôn luôn có m t trong m i âm ti t và có

căn ngăkhuăbi t âm ti t v caoăđ vƠăthanhăđi u là y u t siêuăđo n tính

Trang 19

Trong l i nói, âm ti t ti ng Vi t bao gi c ngăth hi năkháăđ yăđ , rõ ràng,

đ c tách và ng t ra thành t ngăkhúcăđo n riêng bi t Chínhăvìăđ căđi m này, vi c xácăđ nh ra ranh gi i gi a các t trong ti ng Vi t tr nên d dƠngăh năr t nhi u so

nh n d ng ti ng nói ti ng Vi t

2.1.2.2 M i t đ năđ u có cách phát âm riêng bi t

ti ng Anh, hi nă t ngă đ ng âm x y ra r t ph bi n, ví d nh ă t ắto”ă vƠă ắtoo”,ăắsea”ăvƠăắsee”ăầ

đ u có chung m t cách phát âm Nên ta có th nh n d ng nó m tăcáchăđ c l p i

đ c,ăđóălƠăắto”ăhayăắtoo”.ăChínhăvìăv y, trong ti ng Vi t ta có th xétăđ c l p m t

2.1.2.3 Không bi năđ i v cách vi t và cách phát âm

Tuyănhiên,ăđ ng t ắh c”ăm c dù thì nào, thì nó v n không bi năđ i v cách vi t

và cách phát âm Khác v i ti ng Anh, m i t m iăthìăđ u có cách vi t và cách phát âm khác nhau

nóiăđ c păđ n, t ắlearn”ăs bi năđ i theo hoàn c nhăt ngă ng.ăNh ătrongăhai câu

vi t khác nhau

Trang 20

V i t t c nh ngă đ că đi m nêu trên, ta th y rõ hai l i th khi nh n d ng

ti ng nói ti ng Vi t là :

Rõ ràng, vi c ti p c n nh n d ng ti ng nói ti ng Vi tăd iăgócăđ âm ti t

trênăgócăđ âm ti t

2.2 C ăs toán h c:

2.2.1 H s t ngăquan:

Trong nh ng nghiên c u v nh n d ng ti ng nói, m i l năthuă ơmă đ hu n

đ ng lên nh ngăđ cătr ngăc a ti ng nói v i m t h s , tuy nhiên hình d ng c aăđ

đ c nh ng sai khác v đ to nh c a ti ng nói nh măt ngăhi u qu h nătrongăquáătrình x lý V y h s t ngăquanălƠăgì?

nhiên X và Y [15] Xét m u ng u nhiên

căl ng h s t ngăquană ta có công th c:

(2.1) Trongăđó:

,

Ta có:

(2.2)

Trang 21

H s t ngăquanărăcóăcácătínhăch t sau:

ch t ch

2.2.2 Mô hình phân ph i Gaussian h n h p

Mô hình Gaussian h n h p GMM (Gaussian Mixture Model) là m t d ng mô

li uăthiênăv n

đ c xácăđ nh b i công th c:

(2.3) trongăđó,ă là giá tr trung bình, lƠăđ l ch chu n.ăTrongătr ng h p là vector

cho b i công th c:

(2.4)

(2.5)

Trang 22

Hình 2.1 Mô hình GMM

c a M phân ph i Gaussian theo công th c:

(2.6)

Gaussianăđ i v iămôăhìnhăGMM.ăNh ăv y, phân ph i Gaussian cóăph ngăsaiăvƠă

mô hình

Nh ăv y, m t mô hình GMM có M phân ph i Gaussian s đ căđ i di n b i

Vi c áp d ng mô hình phân ph i Gaussian cho ta hi u qu mô hình hóa cao

h năr t nhi u so v i 1 Gaussian Tuy nhiên, v i ng d ng nh n d ng ti ng nói, ta

Trang 23

ch m h th ng Còn n u ta s d ng quá ít Gaussian thì không th môăhìnhăhóaăđ c

d li u Trong nh n d ng ti ng nói, s l ng Gaussian có trong mô hình h n h p

đ c khuy n cáo nên là 4 Gaussian

2.3 C ăs x lý âm thanh

âm thanh trong máy tính

2.3.1 Bi u di n âm thanh

Ph ngăphápăbi u di n tín hi uăơmăthanhăd i d ng sóng theo th iăgianăđ c

nói

Hình 2.2 Câu l nhăắm so n th oăv năb n”ăđ c bi u di n d ng sóng theo th i

gian

2.3.2 M u âm thanh

đ c g i là m t m u (Sample) Giá tr c a m u không ph i là vô h n, mà là dao

đ ng trong m t kho ng giá tr (min,ămax)ăchoătr c Tu vào m căđ l uătr , (min, max) s có giá tr l uătr khác nhau

2.3.3 T n s l y m u

T n s l y m u (Sample rate) là s m u c aă sóngă ơmă thanhă đ că l uă tr

Trang 24

l y m uăcƠngăcaoăthìăơmăthanhăcƠngăđ c miêu t chi ti t,ăchínhăxácăh n.ăNh ng t n

32000Hz,ă44100Hz,ăầă ángăchúăýănh t là hai m c 8000Hz và 16000Hz 8000Hz là

d ng r t nhi u trong các nghiên c u nh n d ng ti ng nói hi n t i

T n s l y m u (Sample rate) là s m u c aă sóngă ơmă thanhă đ că l uă tr

32000Hz,ă44100Hz,ăầă ángăchúăýănh t là hai m c 8000Hz và 16000Hz 8000Hz là

d ng r t nhi u trong các nghiên c u nh n d ng ti ng nói hi n t i

2.3.4 phân gi i m u

l ng bit càng l n thì m căđ th hi n m uăcƠngăcaoăvƠăng c l i Do máy tính hi n

t iă th ng x lýă theoă byte,ă nênă đ phân gi i m uă c ngă lƠă c p s nhân c a byte

đo n Vi cănƠyăc ngănh m m căđíchăthu n ti năh nătrongăvi c kh o sát, tính toán

th ng g p, ta có th áp d ngăđ chuy năđ iăcácăđ phân gi i khác m t cách d dàng

2.3.5 Kênh

T i m i th iă đi m, chúng ta có th cóă đ n hai ho c nhi u m u âm thanh

i uănƠyăcóăđ c là nh c u t o c a thi t b thu âm, có th l y nhi u m u âm thanh

Trang 25

Haiătr ng h p ph bi n nh tălƠăđ năkênhă(mono channel) v i s kênh b ng

1 Và Stereo channel v i s kênh b ng 2

Nh ngăđ gi m t i trong quá trình th nghi m và nghiên c u, th ng chúng ta ch

th hi uăh n,ăt oăc ăs cho quá trình x lý sau này

2.4 Trích xu tăđ c tr ngăơmăthanh

Rútătríchăđ cătr ngăc a ti ng nói là m t trong nh ng khâu quan tr ng trong

l uătr trong máy tính là lo i d li u khó x lý, h c m u hu n luy n, và so sánh, vì

th vi cărútătríchăđ cătr ngăti ng nói là c n thi t

các vector này ch a các tham s mang giá tr quan tr ng c a tín hi u ti ng nói, làm

gi a hai tín hi u ti ng nói Có khá nhi uăph ngăphápăđ th c hi nărútătríchăđ c

tr ng,ă trong s đóă cóă haiă ph ngă phápă ph bi n lƠă ph ngă phápă Mel Frequency Cepstral Coefficients [18] và Linear Predictive Coding

2.4.1 Ph ngăphápărútătríchăđ cătr ngăLPC

ơmăthanhă(hayăcònăđ c g i là tham s hóa tính hi uăơmăthanh).ă óngăvaiătròăquană

th p

Ti ng nói hay c th h n lƠă ơmă thanhă doă conă ng i phát ra t mi ng b t

đ aă lên),ă s rung đ ngă nƠyă mangă 2ă đ c tínhă lƠă c ngă đ (intensity) và t n s (frequency).ăÂmăthanhănƠyăsauăđóăđ c truy n qua cu ng h ngăđ n khoang mi ng vƠăkhoanăm i.ăT iăđơyăd a vào c u t o vòng mi ngăkhiănói,ăcáchăđ tăl i, chuy n

Trang 26

đ ng c aăl iăvƠăc ămi ngầăs góp ph n gây ra s c ngăh ng c a âm thanh (hay cònăđ c g i là các Formant), k t qu chính là ti ngănóiămƠătaăngheăđ c

trongăơmăphátăra),ăvƠă căl ngăcácăđ căđi m v c ngăđ , t n s c a ph n âm thanh còn l i Quá trình lo i b trênă cònă đ c g i là quá trình l c ngh chă đ o

t vƠăđ cătr ngăc t lõi c a âm thanh

K t qu còn l i sau quá trình LPC là nh ng con s , mà mô t nh ngă đ c

đi m quan tr ng c aăcácăformantăc ngănh ăph n âm thanh còn l i các con s này

l uătr , phân tích n i dung, truy n t i ti ngănóiầăLPCăcònăđ c dùng trong quá trình t ng h p l i ti ng nói t các con s đ cătr ngătrên

ụă t ngă c ă b n c aă ph ngă phápă LPCă lƠă t i th iă đi m n, m u ti ng nói

có th đ c x p x b i m t t h p tuy n tính c a p m uătr căđó:

(2.7)

(2.8)

(2.9)

(2.10)

Trang 27

Ký hi u là d báo tuy n tính c a :

(2.11)

(2.12)

b n là tìm m t t p các h s d báo gi m thi u l i d báo trung bình b c hai trong

m tă đo n d ng sóng ti ngă nói.ă (Th ng thì ki u phân tích ph th i gian ng n nƠyđ c th c hi n trên các khuông ti ng nói liên ti p, có dãn cách khuông kho ng 10ms)

tr ngătheoăph ngăphápăLPC

2.4.1.1 Phân tích t t ngăquan

Trongăđóăgiáătr t t ngăquanăcaoănh tăpăđ c g i là c p c a phân tích LPC Thôngăth ng, ta s d ng các giá tr p trong kho ng t 8ăđ n 16

2.4.1.2 Phân tích LPC

s LPC ch a trong

Trang 28

Lúc này, ta có th dùng các h s LPCălƠmăvectorăđ cătr ngăchoăt ng khung

các h s LPC,ăđóălƠăphépăphơnătíchăCepstral

2.4.1.3 Phân tích cepstral

th căđ quy sau:

Doăđ nh y c a các h s cepstral c p th p làm cho ph b đ d căvƠădoăđ

tr ng s đ làm gi m thi uăđ nh y này:

(2.17)

thông d i:

đi m c căđ i c a LPC cho ta m t x p x t tăđ i v iăđ ng bao ph âm V i ti ng

Trang 29

mô hình h u ích cho các m căđíchănh n d ng ti ngănói.ăMôăhìnhăLPCăđ năgi n và

2.4.2 Ph ngăphápărútătríchăđ cătr ngăMFCC

tr ngăđ căDavisăvƠăMermelsteinăđ aăraăvƠoăn mă1980 ơy lƠăph ngăphápătríchă

đ cătr ngăd aătrênăđ căđi m c m th t n s âm c aătaiăng i: tuy nătínhăđ i v i t n

s nh h nă 1kHză vƠă phiă tuy nă đ i v i t n s trên 1kHz (theo thang t n s Mel, không ph i theo Hz)

Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCCăđ c mô t m t cáchăs ăl cătrongăhìnhăsauăđơy

Hình 2.3 Cácăcôngăđo nărútătríchăđ cătr ngătheoăph ngăphápăMFCC

2.4.2.1 Nh n tín hi u

Trang 30

Theo các nghiên c u v âm h c thì ph ti ng nói h u thanh có s suy gi m

kh c ph c s suy gi m này, chúng ta c n ph i bù +6 dB/octave trên toàn b

b ngăt n.ă i uănƠyăđ c g i là pre-emphasis tín hi u Bên c nhăđó,ăh th ng thính giácăconăng iăcóăxuăh ng nh y c măh năv i vùng t n s cao Vì v y, trong x lý tín hi u s , chúng ta dùng b l c thông cao có t n s c t 3 dB t n s trong ph m

(2.19)

gianăđó

lƠmăm t s chuy năđ i gi a hai khung liên ti p,ăng iătaăth ng cho

Trang 31

m i khung là 25 mili giây, th i gian ch ng l p gi a hai khung liên ti p là 10 mili giây

2.4.2.4 Nhân hàm c a s (Windowing)

Sau khi phân khung, ta s nhân m i khung v i hàm c a s Hamming

đ cóăđ c d li u theo mi n t n s chu năđ đ aăvƠoăphépăbi năđ i Fourier r i r c

(2.22)

Trongăđó,ă ăth ngăđ c gán giá tr là 0.56

2.4.2.5 Bi năđ i Fourier

đ i tín hi uăt ngăt sang mi n t n s Công th c c a phép bi năđ i Fourier r i r c

nh ăsau:

(2.23)

Trongăđó:

Transformă(FFT).ăFFTăhoƠnătoƠnăt ngăt nh ăDFTănh ngăđ c xây d ng d a trên

i u ki năđ u vào c a phép bi năđ i này là s l ng m u ph iălƠăl yăth aăc ă

s 2,ăvíănh ă:ă128,ă256,ă512,ăầă

Trang 32

đ m b oăđi u ki năđ u vào c a phép bi năđ i FFT, n u tín hi uăt ngăt banăđ u

ch aăđ s l ng m u c n thi t, ta ch c n thêm vào sau nó nh ng s 0ăchoăđ n khi

sau này

2.4.2.6 Áp d ng b l c Mel

T n s trung tâm c a các b l c này không phân b tuy n tính d c theo tr c t n s

đ t ngăđ phân gi i t n s đ cóăđ c t n s c ăb n và h a t n v n năđ nh, còn

V i n l c nh m mô t chính xác s ti p nh n t n s c aă taiă ng i, m t

nh n nghe c aă ng i T n s 1ă kHză đ c ch n là 1000 Mel M i quan h gi a thang t n s th c (v t lý) và thang t n s Mel (sinh lý) đ c cho b i công th c:

sang mi n t n s :

(2.25)

t ngă ng

2.4.2.7 Tínhălogarităđ cătr ng

Trang 33

Sauăkhiătínhăđ c m căn ngăl ng t i m i mi n t n s , ta s thuăđ c chu i

đ cătr ngănƠyăcóăgiáătr r t l n, vì v yăđ gi măchiăphíăl uătr và tính toán, ta s

th c hi n phép tính logarit tín hi uăđ nén nh ng giá tr này vào mi n giá tr nh

h n

2.4.2.8 Bi năđ i cosin r i r c

đ làm r i r c các giá tr nƠyăraăchoănóăítăt ngăquanăv iănhau,ălƠmăt ngătínhăđ c

tr ngăc a các tham s Giá tr thuăđ căsauăb c này ta g i là h s Cepstral

(10,15)ălƠăđ đ cho k t qu nh n d ngăt ngăđ i mà d li u x lý l i không quá

l n

đ c s t ngătuy n tính theo s b c c a nó H s Cepstral có s b c cao s có giá

tr r tăcao,ăng c l i các h s v i s b c th p s có giá tr r t th p S chênh l ch

này Vì khi có s chênh l ch cao, ta ph i dùng mi n giá tr l năđ bi u di n d li u,

Trang 34

uăchoăcácăquaătrìnhăsau,ătaăs th c hi n vi căđi u ch nh các h s nƠyăđ gi m s chênh l ch Vi c này th c hi n b ng công th c:

2.4.2.9 Thêmăcácăđ cătr ngăkhác

kh o sát thêm m t s y u t khác trong quá trình nh n d ng ti ng nói,

hi u ho c s d ng h s Delta, Delta-Deltasă[13]ăđ t ngăhi u qu rút trích

(2.29)

giá tr nh h năb ng phép tính logarit

(2.30)

hi u qu rút trích

Trang 35

CH NGă3.ăNH NăD NGăTI NGăNịI

3.1 Mô hình Markov n

dùngăđ mô hình hóa c uătrúcăđ ng c a ti ngănói.ă ơyălƠăh ng ti p c n so sánh

m u xác su t, v i gi đ nh r ng đóăcácăm u ti ng nói tu n t theo th i gian là k t

qu c a quá trình th ng kê hay ng u nhiên có tham s , và các tham s này có th căl ng

vect ,ădưyăvect ăđ cătr ngănƠyăđ c bi năđ i thành các quan sát (là các ký hi u sau

c a HMM là m u d li u có th mô t k nh ăquáătrìnhăhìnhăthƠnhăm t tham s

đ căđ nhăngh aărõărƠngăvƠăchínhăxác.ă

3.1.1 Gi i thi u

HMMăđ c b tăđ u xây d ng và công b t nh ngăn mă1960ăc a th k 20, đơyălƠămôăhìnhătoánăh c v th ng kê Nhi uăn măsauăđóă(t 1980), mô hình này

đ c b tăđ u nghiên c uăđ ng d ngătrongăl nhăv c nh n d ng.ăDoăđ tăđ căđ

đ c s d ng r ng rãi trong nhi uăl nhăv c,ăđ c bi tălƠătrongăl nhăv c nh n d ng

ti ng nói

N mă1952,ăphòngăthíănghi m Bell phát tri n máy nh n d ng ti ngănóiăđ nă

nênăcóăđ chính xác r t th p.ă n nh ngăn mă1970,ăvi c nghiên c u máy nh n d ng

[6]

3.1.2 Các khái ni măc ăb n

Trang 36

Mô hình Markov là mô hình d a trên th ngăkêăđ mô hình hóa các tín hi u

- Mô hình chu iă đ nă đ nh: Là mô hình các tr ngă tháiă trongă đóă liênă k t chuy n t tr ng thái này sang tr ngătháiăkhácălƠăhoƠnătoƠnăxácăđ nh

- Mô hình chu i xác su t: Là mô hình các tr ngă tháiă trongă đóă liênă k t chuy n t tr ng thái này sang tr ng thái khác là m t giá tr xác su t, sao cho t ng

luônălƠă100%.ăNh ăv y, theo nguyên lý xác su t Bayes, xác su t mô hình tr ng thái qi ph thu c vào xác su t t n t i c a t t c các tr ng thái qj, j< i tr căđó

th ng s chuy n sang tr ng thái m i ho c gi nguyên tr ngătháiătr căđó.ăTaăkýă

hi u các kho ng th i gian chuy n tr ng thái là và tr ng thái t i th i

Trang 37

đi m t c a h th ng là , s có các giá tr M t tr ngătháiăt ngă ng

Hình 3.1 Minh h a mô hình Makov

các quan h :

Ta ch xét chu i Markov b c nh t là nh ng h th ng mà tr ng thái hi n t i

Các thành ph n trong mô hình Markov:

- N tr ng thái c a mô hình Ký hi u tr ng thái th iăđi m là

Trang 38

Ví d 1: Th i ti t c a m t vùng v i mô hình xác su tănh ăsau:

Hình 3.2 Ví d th i ti t m t vùng v i mô hình xác su t

- Các tr ng thái th i ti t: S1 = m a (r), S2 = mây (c), S3 = n ng (s)

- Xác su tăbanăđ uă :ă 1ă=ă m a,ă 2ă=ă mây,ă 3ă=ă n ng

( n ng,ă mây,ă m a) = (0.1, 0.4, 0.5)

v i mô hình Markov trên là:

Quan sát = { r, r, r, c, s, c, r}

Trang 39

- T 1 tr ng thái có th phátăsinhăh nă1ăs ki n (hay còn g i là 1 quan sát)

- Chu i quan sát là hàm xác su t c a tr ng thái

- Chúng ta có th tính toán xác su t c a các chu i tr ng thái khác nhau t

m t chu i quan sát

Nh ă v y HMM v n phát sinh ra các quan sát S l ng tr ng thái thông

Trang 40

Hình 3.3 Ví d mô hình Markov n 3 tr ng thái

Hình 3.3 minh h a m t mô hình Markov n 3 tr ng thái v i các s ki n có

đ c g i là hàm m tăđ xác su t c a các s ki năđ c quan sát

đoánăđ c th i ti t hôm y th nào không Th i ti t (tr ngăthái)ăđ căxemălƠăắ n”

g i là mô hình Markov n

Ngày đăng: 23/12/2018, 06:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w