Mã hoá d ng sóng trong mi n tần s chia tín hi u thành các thành phần tần s khác nhau và ti n hành mã hoá từng thành thành phần này.. S Bit sử d ngăđể mã hoá từng thành phần tần s có thể
Trang 1By THANH PHAM ậ QUANG HUYNH
Submitted to the Department of Electrical and Electronics Engineering
on April19, 2014 in partial fulfillment of the requirements for the degree of Master of Science in Electronics and Communication Engineering at the
University of Technical Education Ho Chi Minh City
Abstract
Newapplicationsinvolvingspeechcodinghaveincreasedconsiderably The field of speechcodinghasplayedanimportantroleinmobilecommunication systems Hence,researchandimprovementofspeechcodingmethodsare topromotethe needs ofthemarket Inthisthesis,wedevelopeda real-time speechcoder of the LPC-10ealgorithm The speechcoderisimplementedonTexasInstruments TMS320C6713 DigitalSignalProcessor(DSP)accordingtoLPC-10eFederalStandard 1015.Finally, PerceptualEvaluationofSpeechQuality(PESQ)algorithmis
usedformeasuringthevoicequality
Keywords:Algorithm,LPC-10e,quality evaluation,andTMS320C6713
Thesis Supervisor: Assoc Prof Dr Chien Hoang-Dinh
Title: Assoc Prof
M C L C
L I C Mă N iv
Trang 2Danh sách hình v ix
Danh sách b ng xi
Các từ vi t t t xii
Ch ngă1 1
T NG QUAN V LƾNHăV C NGHIÊN C U 1
1.1 Gi i thi u chung 1
1.2 Mã hóa ti ng nói 1
1.2.1 Mã hoá trên mi n th i gian 3
1.2.2 Mã hoá trên mi n tần s 4
1.2.3 Mã hoá ngu n 5
1.2.3 Mã hoá lai 6
1.3 Phát triển b mã LPC-10e 7
1.4 Cấu trúc lu năvĕn 8
Ch ngă2 8
C ăS LÝ THUY T 9
2.1 Tín hi u ti ng nói 9
2.1.1ăC ăch phát âm ti ng nói 9
2.1.2ăĐặc tính âm học ti ng nói 11
2.1.3ăĐặc tính v t lý ti ng nói 13
2.1.3.3ăTr ngăđ 15
2.1.3.4 Âm s c 15
2.1.3.5 Tần s v tăquaăđiểm không 15
2.1.3.6 Tần s c ăb n 15
2.1.3.7 Formant 16
2.1.4 Phân lo i đ năgi n d ng sóng ti ng nói 17
2.2 S hóa ti ng nói 18
Trang 32.3 Tổng quan v phân tích/tổng h p ti ng nói 19
2.3.1 Gi i thi u chung 19
2.3.2 Phân tích LPC 20
2.3.3 Tổng h p ti ng nói 21
2.4ăPh ngăphápăđánhăgiáăchấtăl ng tho i 24
2.4.1ăPh ngăphápăđánhăgiáăch quan 24
2.4.2ăCácăph ngăphápăsoăsánhăd a trên mô hình giác quan 26
2.4.2.1 Ph ngăphápăPESQ 26
2.5 B xử lý tín hi u s TMS320C6713 27
2.6 Code composer studio(CCS) 30
2.7 Tổng quan v kit DSKTMS320C6713 32
2.7.1 B bi năđổi AIC 23 33
2.7.3 McBSP (Multichannel Buffered Serial Port) 37
2.7.4 EDMA k t h p v i McBSP 37
2.7.5 Kỹ thu t vào ra Ping Pong 38
2.7.6 V n chuyển d li u kiểu Ping-Pong 40
2.7.7 Móc n i các cấu hình Ping-Pong 40
2.7.8 Lu ngăđi u khiển 41
2.7.9 Kỹ thu t vào ra cho h th ng 42
Ch ngă3 43
TH C NGHI M TRÊN MATLAB 43
VÀ KIT TMS320C6713 43
3.1 Phân tích ti ng nói 43
3.2 Tổng h p ti ng nói 44
3.2.1 Tổng h p d đoánătuy n tính c a tín hi u h u thanh 45
3.2.2 Tổng h p ti ng nói c a âm vô thanh 51
3.3ăThayăđổi thông s c aăch ngătrìnhăMatlab 52
Trang 43.3.1 Cách th c th c hi n 52
3.3.1.1 Giọng Nam 52
3.3.1.2 Giọng n 53
3.4 Th c hi n trên Kit TMS320C6713 55
3.5.1 Mã hóa 55
3.5.2 Gi i mã 56
3.5.3 K t qu th c hi n trên Kit 57
Ch ngă4 58
K T LU N 58
4.1 K t lu n 58
4.2.ăH ng phát triển 58
TÀI LI U THAM KH O 60
Danh sách hình v Hình 1.1: B mã ph thu c vào t căđ bit và chấtăl ng [25] 3
Hình 1.2: H th ng DPCM 4
Hình 1.3: Mô hình t o ti ngănóiăđ c sử d ng b i mã hoá ngu n 6
Trang 5Hình 1.4: Ki n trúc c a mã hoá AbS (a): Mã hoá (b): Gi i mã 7
Hình 2.1: Cấu t oăcácăc ăquanăphátăraăơmăthanh 9
Hình 2.2: S hóa tín hi uăt ngăt 18
Hình 2.3: Lấy m uăvƠăl ng tử hóa tín hi u tho i 19
Hình 2.4: Mô hình tổng h p ti ng nói b ngăph ngăphápăformant 22
Hình 2.5: Mô hình tổng h p ti ng nói b ngăph ngăphápăLPC 23
Hình 2.6: Mô hình tổng h p ti ng nói b ngăph ngăphápămôăph ng ngu n âm 23
Hìnhă2.7:ăL uăđ thu t toán PESQ 27
Hình 2.8: Cấu trúc b xử lý DSP TMS320C6713 28
Hình 2.9: BSL cần cho CCS 32
Hình 2.10: Tổng quan phần c ng board DSK TMS320C6713 33
Hình 2.11: Giao ti p ngõ vào và ngõ ra c a các thi t bị âm thanh và b Codec 34
Hình 2.12: Mô hình vào ra EDMA 35
Hìnhă2.13:ăTínhănĕngăđaăkênhăc a EDMA 36
Hình 2.14: TCC v i các kênh EDMA khác nhau 36
Hình 2.15: Mô hình k t h p gi a EDMA và McBSP 38
Hình 2.16: Các b đ m Ping-Pong[2] 39
Hình 2.17: Ping-Pong Buffer và Linked Transfer 41
Hìnhă2.18:ăĐ thị th c thi các ti n trình 42
Hìnhă3.1:ăS ăđ kh i phân tích ti ng nói 43
Hình 3.2: D ng sóng tín hi u 44
Hình 3.3: Phổ c a tín hi u ti ng nói 45
Hình 3.4: D ng sóng tín hi u kho ng 30s 45
Hình 3.5: N i dung c a Frame 46
Hìnhă3.6:ăĐápă ng tần s c a Inverse và b lọc tổng h p 47
Hìnhă3.7:ăĐápă ng tần s c a b lọc tổng h p 47
Hìnhă3.8:ăĐiểm c c và Zero c a b lọc 48
Hình 3.9: D ng sóng c a d đoánăResidual 48
Hình 3.10: Periodogram c a d đoánăResidual 49
Hình 3.11: LPC excitation 49
Hình 3.12: Periodogram c a LPC excitation 50
Hình 3.13: D ng sóng c a âm "e" 50
Hình 3.14: Phổ tín hi u c a âm "e" 51
Hình 3.15: D ng sóng c a ti ng nói vô thanh 51
Hình 3.16: M tăđ phổ công suất 52
Hìnhă3.17:ăS ăđ kh i mã hóa 55
Trang 7B ng 3.1: T căđ xử lý(Namătr ng thành) 53
B ng 3.2: B ngăMOS(Namătr ng thành) 53
B ng 3.3: T căđ xử lý(N tr ng thành) 54
B ng 3.4: B ng MOS(N tr ng thành) 54
B ng 3.5: Tính toán t căđ bit 55
B ng 3.6: K t qu th c nghi m trên Kit 57
Các t vi t t ắt
ITU InternationalTelecommunicationUnion Liênminhvi n thôngqu ct
Trang 8APCM Adaptive Pulse Code Modulation Đi u ch mã xung thíchnghi DPCM DifferentialPulse CodeModulation Đi u ch mã xungvi phân
mãxungviphânthíchnghi
ADM AdaptiveModulationDelta Đi uch Deltathíchnghi
APC Adaptive Predictive Coding Mãhoád đoánthíchnghi
LPC LinearPredictiveCoding Mãhóatuy n tính
PESQ PerceptualEvaluation ofSpeechQuality Đánhgiánh n
th cchấtl ngtho i
Trang 9C h ng 1
1.1 Gi i thi u chung
Mãhóati ngnóilà ngd ngc alƿnhv cxửlýtínhi u,vi cxửlýnàym cđích
xétđ nlàhi uqu trong vi ctruy n t i vƠl utr Vi cmãhóati ngnói,m c tiêu làgi mt cđ bit,ă nghƿaă lƠt cđ bit trên m igiây,trongă khiđóv nduy trìđ chìnhd ngc ad ngsóngbanđầu.Trongtr ngh pnày,chấtă ă l ngc a
ti ngnóiđ cđánhă giánh sau:s t nhiên,d hiểu,vàs nh n d ngkhiphát qualoa[3],[4] B ng 1.1 phân lo i b mã ti ng nói theo t căđ bit
B ng 1 1: Phân lo i theo t căđ bit Stt Phơnălo iă T căđ ăBit
1 High bit-rate >15 kbps
2 Medium bit-rate 5ăđ n 15 kbps
3 Low bit-rate 2ăđ n 5 kbps
4 Very low bit-rate <2 kbps
1.2 Mã hóa ti ng nói
Nhu cầu c a các h th ngăthôngătinădiăđ ngănh ăđi n tho iădiăđ ngăđangătĕngătrongăvƠiănĕmăquaăvƠăđƣăcóăphátătriểnăv t b c c a các b mã v i t căđ bit thấp S raăđ i c a b mã CELP(Code Excited Linear Prediction)[5] và s phát triển c a các
ph ngăphápăkhác d a trên b mƣăCELPăđƣăđóngăgópărất l n vào vi c c i thi n h
th ng mã hóa ti ng nói v i t că đ bit thấp Các b mƣă nƠyă đ c giám sát b i ITU(International Telecommunications Union Telecommunication) và ISO(International Organization for Standardization) Không nh ng có nh ng b mã dùng cho m căđíchădơnăs mà còn phát triển cho m căđíchăquơnăs Ví d nh ăB
Qu c Phòng Mỹ DOD(Department of Defense) gầnă đơyă đƣă thôngă quaă b mã MELP(Mixed Excitation Linear Prediction) thay th b mã LPC-10 Chấtă l ng
Trang 10v t tr i c a MELP(Mixed Excitation Linear Prediction), tuy nhiên thu t toán MELP(MixedăExcitationăLinearăPrediction)ăcóăđ ph c t păh nănhi u so v i LPC-10(gấp 6 lầnăMIPS(MillionăInstructionsăPerăSecond)).ăĐ i v i m căđíchădơnăs , có hai tùy chọn M t trong nh ng l a chọn này v i chấtă l ng ti ng nói cao và
đ ph c t p thu t toán cao gi ngănh ăMELP,ăđi u này cần có th i gian xử lý nhi u
và phần c ng ph c t p M t l a chọn khác v i chấtăl ng ti ng nói thấpăvƠăđ ph c
t p c a thu t toán thấp thì ta dùng b mã cùng họ c a LPC Hai s l a chọn này, chúng ta ph i tr giá gi a chấtăl ng ti ngănóiăvƠăđ ph c t p c a thu tătoán.ăĐể c i thi n nh ng b mã hi n nay, chúng ta cầnăxétăđ n c hai y u t là chấtăl ngăvƠăđ
ph c t p.ăVƠăhaiăph ngăphápăđ căđ aăra,ăph ngăpháp th nhất là gi măđ ph c
t p c a b mã có chấtăl ng ti ng nói cao, th hai là c i thi n chấtăl ng ti ng nói
c a b mã có chấtăl ng ti ng nói thấp
Kể từ khi họ LPCăđ c phổ bi n cho m căđíchădơnăs vƠăđƣăcóănhi u h th ng
ho tăđ ng d a trên b mã này, c i thi n chấtăl ng thì l iăíchăh nălƠăc g ng gi m
đ ph c t p c a b mã Nói cách khác, nhu cầu cho m t b mã ti ng nói v i t căđ bit thấpăvƠăđ ph c t p thấpăđể sử d ng cho m căđíchădơnăs , chẳng h nănh ăti ng nóiăđápă ng th i gian th c trên Internet[6], [7]
Trong m t vài th p kỷ vừaăqua,ăđƣăcóărất nhi u kỹ thu t mã hoá nén ti ng nói
đ căđ aăra,ăphơnătíchăvƠăphátătriển Trong phần này, chúng ta s gi i thi u m t s
kỹ thu tăđangăđ c sử d ng hi n nay, và m t s kỹ thu t s đ cădùngătrongăt ngă
lai.ăThôngăth ng thì mã hoá ti ngănóiăđ c chia làm hai l păđóălƠ:ămƣăhoáăd ng sóng(waveform coder) và mã hoá ngu n(sourceăcoder)ă(hayăcònăđ c gọi là mã hoá thông s ) Mã hoá d ngăsóngăđ c th c hi n t căđ Bit cao và cho chấtăl ng mã hoá ti ng nói t t Mã hoá ngu n th c hi n t căđ Bit thấp,ănh ngănóăcóăxuăh ng
t o ra ti ng nói có chấtăl ng nhân t o Hi n nay, m t l p m i c a mã hoá ti ng nói
đ c gọiălƠămƣăhoáălai(hybridăcoder),ăđơyălƠăkỹ thu t mã hoá tổng h p c aăph ngăpháp mã hoá d ng sóng và mã hoá ngu n, nó cho chấtăl ng ti ng nói khá t t và
th c hi n t căđ Bit trung bình Hình 1.1 cho chúng ta thấyăđ c b mã ph thu c vào t căđ bit và chấtăl ng ti ng nói c a b mã
Trang 11Hình 1.1:B mã ph thu c vào t căđ bit và chấtăl ng[25]
1.2.1 Mã hoá trên mi n th i gian
Mã hoá trên mi n th i gian th c hi n vi c mã hóa trên kho ng th i gian lấy
m u c a tín hi u.ăCácăph ngăphápămƣăhoáătrongămi n th iăgianăth ngăđ c dùng
g măcó:ăĐi u ch mƣăxung(PCM),ăđi u ch mã xung thích nghi (APCM),ăđi u ch mƣăxungăviăphơn(DPCM),ăđi u ch mƣăxungăviăphơnăthíchănghi(ADPCM),ăđi u ch Delta(DM),ăđi u ch Delta thích nghi(ADM), và mã hoá d đoánăthíchănghi(APC).ă
Ti p theo ta s xem xét m tăvƠiăph ngăphápămƣăhoáăquanătrọng trong mi n th i gian
Mã hoá PCM
Đi u ch mƣă xungă lƠă ph ngă phápă đ nă gi n nhất trong mã hoá d ng sóng Điểm c t y u c aăph ngăphápănƠyăchínhălƠăquáătrìnhăl ng tử hóa Bất c d ng
l ng tử hoáă vôă h ngă nƠoă cũngă cóă thể đ c sử d ngă trongă ph ngă phápă nƠy,ă
nh ngăd ngăhayăđ c dùng nhấtălƠăl ng tử hoá logarit[8], [9] Uỷ banăt ăvấnăđi n tho iăvƠăđi n báo qu c t đƣăgi i thi uăG.711ănh ălƠăph ngăphápăchuẩn cho vi c
Trang 12mã hoá ti ng nói tho i ChuẩnăG.711ăxácăđịnh 8 bit theo lu t µ và lu t A c a PCM
Mã hoá dùng lu t µ có ít l i th h nătrong vi c th c hi n vì nó cho tỉ s tín hi u trên nhi u béăh n[10],ă[11]
hi u khác bi t này s có ph măviădaoăđ ng nh h năsoăv i tín hi u ti ng nói ban đầu, do v y nó có thể l ng tử hoá m t cách hi u qu b ng vi c sử d ng các b vectorăl ng tử hoá v i m c xây d ng l i thấpăh n.ăTrongăph ngăphápătrên,ăm u
tr căđ c sử d ngăđể d đoánăgiáătrị c a m u hi n t i S d đoánănƠyăcóăthể
đ c c i thi n n uănh ătaăsử d ng m t kh i l năh năc a tín hi u ti ng nói cho vi c
d đoán.ăPh ngăphápănƠyăđ c gọiălƠăđi u ch mã hoá xung vi phân(DPCM) Ki n trúc c aănóăđ căđ aăraătrênăhìnhăv 1.2
Hình 1.2:H th ng DPCM
1.2.2 Mã hoá trên mi n tần s
Trang 13Mã hoá d ng sóng trong mi n tần s chia tín hi u thành các thành phần tần s khác nhau và ti n hành mã hoá từng thành thành phần này S Bit sử d ngăđể mã hoá từng thành phần tần s có thể thayăđổi Mã hoá trong mi n tần s đ c chia ra lƠmăhaiănhómălƠ:ămƣăhoáăbĕngăcon(subband)ăvƠămƣăhoáăbi năđổi(transform)[12]
Mƣ hoá băng con(subband)
Mƣăhoáăbĕngăconăsử d ng m t s b lọc d iăthôngăđể chia tín hi uăđầu vào thành các tín hi u con(subband signal) mà đƣăđ c mã hoá T i b thu các tín hi u conăđ c gi i mã và c ng l i nh m khôi ph c l i tín hi uăbanăđầu.ă uăđiểm chính
c aăph ngăphápămƣăhoáăbĕngăconăđóălƠănhi uăl ng tử hoá sinh ra trong m t d i tần s bị h n ch trong chính d i tầnăđấy Hi p h i vi n thông qu c t ITUăđƣăđ aăraăchuẩnăG.722ătrongămƣăhoáăbĕngăcon(subband)ăđể truy n thông v i các t căđ 48, 56
hoặc 64kbps
Mã hoá bi n đổi(transform)
Kỹ thu t này cần có m t kh i chuyểnăđổi c a cửa sổ tín hi uăđầu vào thành các thành phần tần s , hoặc m t vài mi năt ngăt Mã hoá thích ngăsauăđóăs hoàn thành b ng cách phân bổ thêm Bit vào các thành phần h s quan trọngăh n.ă
T i b thu thì b gi i mã s th c hi n vi c chuyểnăđổiăng căđể thu l i tín hi u cần khôi ph c Ta có thể sử d ng m t s phép bi năđổiănh :ăphépăbi năđổi Fourier r i
r c(DFT) hay là phép bi năđổi cosine r i r c(DCT)
nó sử d ng m t mô hình lọc ngu nănh ătrênăhìnhă2.10.ăMôăhìnhănƠyăthừa nh n là
ti ngănóiăđ c t o ra b ng cách kích thích b lọc tuy n tính b ng m t tín hi u nhi u
tr ngăđ i v i các tín hi u vô thanh, hoặc là m t chu i các xung tín hi u giọng nói
B mã hoá ngu n ho tăđ ng v i t căđ Bit kho ng 2kbps hoặcăbéăh n
Trang 14D aăvƠoăcácăph ngăth c phân tích thông s mô hình, m t vài kiểu mã hoá ngu năđƣăđ c phát triển ví d nh ăviz,ămƣăhoáăkênh,ămƣăhoáăđ ng hình, mã hoá formant và mã hoá d đoánă tuy n tính Vi c sử d ng b lọcă nƠyă t ngă t v i nguyên lý c a mã hoá d đoánătuy nătính(LPC).ăHìnhă1.3ăcũngălƠămô hình t o ti ng nóiăđ c sử d ng b i mã hóa ngu n
Hình 1.3:Mô hình t o ti ngănóiăđ c sử d ng b i mã hoá ngu n
1.2.3 Mã hoá lai
Mƣăhoáălai(hybridăcoder)ălƠăph ngăphápătổng h p gi aăph ngăphápămƣăhóaă
d ng sóng và mã hoá ngu n, nh m kh c ph căcácănh căđiểm c aăhaiăph ngăphápătrên.ăNh ătaăđƣănóiăthìămƣăhóaăd ng sóng s cho chấtăl ng t t v i t căđ Bit vào kho ngă16kbps,ătrongăkhiăđóămƣăhoáăngu năđ c th c hi n m t t căđ bit rất thấp vào kho ng 4.1kbps hoặc 4kbps[13], [14] nh ngă không thể đ aă raă chấtă l ng t nhiên Mặc dù còn có m t s d ng mã hóa lai khác còn t n t i,ătuyănhiênăph ngăpháp thành công nhấtăvƠăđ c sử d ng r ngărƣiăđóălƠăph ngăphápămƣăhoáătrongă
mi n tần s Analysys - by - Synthesis(AbS).ăPh ngăphápănƠyăcũngăsử d ng mô hình lọc d đoánătuy n tính Tuy nhiên, thay vì áp d ngămôăhìnhăđ năgi n g m có hai tr ng thái là h uăthanh/vôăthanh(voicedă/ăunvoiced)ăđể tìmăđầu vào cần thi t cho
b lọc, thì tín hi uăkíchăthíchăđ c chọn sao cho tín hi uăđ c khôi ph c gần v i tín
hi uăbanăđầu M t mô hình chung c aămƣăhóaăAbSăđ căđ aăraătrongăhìnhăv 1.4 AbSăđ c gi i thi u lầnăđầuătiênăvƠoănĕmă1982ăb iăAtalăvƠăRemde,ăvƠăbanăđầu nó
Trang 15đ c gọiălƠămƣăhóaăkíchăthíchăđaăxung(MPE),ăvƠăsauăđóăthìăRPEăvƠăCELPălầnăl t
đ căđ aăra.ăNhi u b năCELPăkhácănhauăđƣăđ c chuẩn hoá, g m có G.723.1 ho t
đ ng t că đ Bit là 6.3/5.3kbps, G.729 8kbps, G.728 16kbps và tất c các chuẩn mã hoá m ng tho iădiăđ ngănh ăGSM,ăISăậ 54, IS ậ 95, IS ậ 136
Hình 1.4:Ki n trúc c a mã hoá AbS (a): Mã hoá (b): Gi i mã
1.3 Phát tri n bộ mã LPC-10e
Mã hóa ti ngănóiăđ c nghiên c u nhi u và phát triển trong nh ngănĕmăgần đơy,ăhi n nay có nhi u thu tătoánăđể th c hi n mã hóa ti ng nói[4] Tuy nhiên m c đíchăcu i cùng c a mã hóa ti ng nói là t căđ bit thấp nhất,ănh ngăchúngătaăph i tr giá gi a chấtăl ng ti ng nói và t căđ bit.ăTrongăđó,ămƣăhóaăkỹ thu t mã hóa tuy n tínhăđ m b oăđ c s tr giá này
Trong bài báo [15], [16], [17], [18] đ uăđ aăraăthu t toán nén tín hi u tho i
t căđ thấp Trong bài báo [15] đ aăraăph ngăphápăn i suy trên mi n tần s có t c
đ bit là 4kb/s hoặc thấpăh năv iăđ ph c t p cao so v iăcácăph ngăphápăkhác.ă
Ph ngăphápănƠyăchoăchúngătaăthấy r ng t i t căđ bit là 4kb/s hoặc thấpăh n.ăSauăkhiăđánhăgiáăb ngăph ngăphápăACRăv i thử nghi m MOS, FDI cho chấtăl ng
ti ngănóiăt ngăt nh ăcácăchuẩn ti ngănóiăđƣăđ c phê chuẩn(ITU standards G.729 8kb/s codec, G.723.1 5.3kb/s codec, và U.S.Federală Standardă FS1016).ă Đ i v i
ph ngăphápănƠyănh căđiểm l n nhất là thu t toán ph c t p.ăCònăđ i v i bài báo
Trang 16[16] tác gi đ aăraăph ngăphápănénăd a trên mã hóa tuy n tính(kỹ thu t nén suy hao) tỉ l nénăđ n 95% để ti t ki măbĕngăthông.ăBƠiănƠyătácăgi phân tích nhăh ng
c a t că đ lấy m u, b c b lọc,ă vƠă kíchă th că frameă đ i v i ti ng nói c a nam(ng i l n) và n (ng i l n) Tất c nh ng nhă h ngă nƠyă đ c mô ph ng
b ngăMatlab,ăch aăđ c th c nghi m trên phần c ng Hi n nay, trong bài báo [18]
đ xuất m tăph ngăphápănénăd a trên Compressive Sensing(CS), so sánh hi u suất
c a ph ngăphápănƠyăv iăcácăph ngăphápăđ c nêu trên thì k t qu cho chúng ta
thấy r ng: CS cho hi u suấtă caoă h nă v i cùng m t tỉ l nén.ă Đơyă cũngă lƠă m t
ph ngăphápănénăm i và hi nănayăđangăđ c nghiên c u trên th gi i.ăVƠăph ngăphápănƠyăcũngăch aăđ c th c nghi m trên phần c ng
Trong lu nă vĕnă nƠy,ă chúngă taă phátă triển thu t toán nén LPC-10e và th c nghi mătrênăKităDSP320C6713.ăĐánh giá chấtăl ng ti ng nói d a trên tiêu chuẩn P.862 c a ITU
1.4 Cấu trúc lu n văn
Lu năvĕnăg măcóă4ăch ng
Ch ngă1:ăGi i thi u tổng quan
Ch ngă2:ăC ăs lý thuy t
Ch ngă3:ăTh c hi n trên Matlab và TMS320C6713
Ch ngă4:ăK t lu n
Trang 17C S LÝ THUY T 2.1 Tín hi u ti ng nói
2.1.1 C ch phát âm ti ng nói
H th ng phát âm ng i bao g m: phổi, khí qu n(trachea), thanh qu n, khoang mi ng(oralăcavity)ăvƠăkhoangămũi(nasalăcavity)ănh ătrongăhìnhă2.1.ăThanhă
qu n ch a hai n p gấp gọi là dây thanh âm(acoustic tube) dài kho ng 17cm nam,
phầnătr c k t thúc môi và phần sau k t thúc dây thanh âm hay thanh qu n Khoang mi ngă đóngă vaiă trò là m t h p c ngă h ng, thể tích c a nó có thể đi u khiển b i b ph năphátăơm(môi,ăl ỡi, quai hàm và vòm mi ng) Khoang mi ng là
m t ng dài kho ng 12cm nam và k t thúc mũiă vƠă vòmă mi ng Vòm mi ng
m m s đi u khiểnăh iăphátăraătheoăđ ng mi ng hoặcăđ ngămũi.ăĐ i v i nh ng
âm không theo giọngămũiăvòmămi ng s đóngăkhoangămũiăvƠăh iăchỉ phát ra theo
đ ng mi ng.ăĐ i v i nh ng âm có giọngămũi,ăvòmămi ng s dịch chuyển xu ng phíaăd iăđóngăđ ng mi ngăvƠăh iăchỉ phátăraătheoăđ ngămũi,ăhayăcóăthể s qua
haiăđ ng
Hình 2.1: Cấu t oăcácăc ăquanăphátăraăơmăthanh
Trang 18Khi nói phổi ch aă đầy không khí s đ că đẩy qua khí qu n và thanh môn
Lu ng không khí s kíchăthíchădơyăthanhăơmădaoăđ ng và t o ra s phát âm Âm thanh này truy n ra ngoài quaăkhoangămũiăvƠăkhoangămi ng và các khoang này có tác d ngănh ăb lọc làm suy hao m t vài tần s khi các tần s nƠyăđiăqua
Khoangămũi(nasalăcavity)ăcũngălƠăm t ng phát âm v i di n tích và chi u dài
c định(kho ngă12cmăđ i v iăng iănamătr ng thành) nóăđ c k tăthúcăphíaătr c
b i l mũi(nostrils)ăvƠăphíaăsauăb i vòm mi ng(velum)
Khiă phátă ơmă cácă ơmă khôngă mũi(non-nasalised sounds), vòm mi ng s chặn khoangămũiăl i,ădoăđóăơmăthanhăchỉ điăraătheoăđ ng mi ng qua hai môi
Khiăphátăơmăcácăơmămũi(nasalisedăsounds) vòm mi ng s đ c h thấp xu ng vƠăkhoangămũiăs đ c n i thông v i khoang mi ng.ăTuyănhiên,ătrongătr ng h p nƠyăphíaătr c c a khoang mi ng s đ căđóngăl i hoàn toàn và âm thanh chỉ đ c truy năraăngoƠiăquaăđ ngămũi
Khi nói không khí s điăvƠo phổi b i s n r ngăcácăc ăquanăc a l ng ng c và
s h thấp c aăc ăhoƠnh.ăKhiăl ng ng c co l i, không khí s đ c t ng ra ngoài qua khí qu n và thanh môn(glottis) S l uăthôngănƠyăc a không khí là ngu n kích thích dơyăthanhăđ i v iădaoăđ ng t o ra s phát âm Nó có thể đ căđi u khiển b i nhi u cách khác nhau thông qua các kích thích khác nhau c a b ph n phát âm
Nh ăv y, phổiă l uătr khôngăkhíăđể kíchăthíchădơyă thanhădaoă đ ng, s dao
đ ng c aădơyăthanhădaoăđ ng t o ra s phátăơm.ăÂmăthanhăđ c t o ra từ dây thanh
s đ c truy nă raă ngoƠiă quaă cácă khoangă phíaă tr c thanh hầu(khoang y t hầu, khoang mi ngăvƠăkhoangămũi),ăcácăkhoangănƠyăđóngăvaiătròălƠăcácăh p c ngăh ng
s khu chăđ i m t vài thành phần tần s và làm suy gi m các thành phần tần s còn
l i, từ đóăs t o ra các ti ng nói khác nhau
Dây thanh chuyểnăđ ng nhanh hay ch m,ăbiênăđ l n hay nh là do t căđ c a
lu ngăkhôngăkhíăđiătừ phổi lên khí qu n và do s căcĕngăc a dây thanh, c haiăđi u nƠyăđầu có thể đ căđi u khiển b iăng i nói nh măđi u khiển c ngăđ âm thanh phát ra
Trang 19B máy phát âm c a mọiăng iăkhácănhau,ădoăđóăgiọng nói c a m iăng i m i khác Ví d nh ădoăs khác nhau v chi u dài c a dây thanh mà d năđ n giọng nói
c a nam gi i trầmăh năgiọng nói c a ph n
Tuy năơmăđ căxemănh ăm t h c c ngăh ng có tác d ngătĕngăc ng m t tần
s nƠoăđó,ănh ng tần s đ cătĕng c ng lên đ c gọi là các formant N u xem khoang mi ng là tuy năơmăthìăkhoangămũiăxemănh ăh c c ngăh ng M t b ph n phát âm có m t s h u h năformant,ădoăbiênăđ c a các formant caoăh năbị suy
gi m kho ng -12dB/octave nên chỉ cầnăquanătơmăđ nă3ăhayă4ăformantăđầu tiên trên bĕngătần từ 100Hzăđ nă3.5KHz.ăTr ng h p ti ng nói vô thanh, phổ t ngăđ i b ng phẳng, s l ngăcácăformantănh ăv y v năđ mặc dù ti ngănóiăvôăthanhăcóăbĕngătần
m r ngălênăđ n 7-8KHz Ngoài ra, do nhăh ng c a mi ngănênăbiênăđ đ cătĕngălên chừngă6dB/octaveătrongăbĕngătần 0-3KHz Chính vì v yămƠăđ n phần ti n xử lý tín hi u ta ph i dùng b lọc ti n nhấnăđể bù thêm +6dB/octave
2.1.2 Đặc tính âm h c ti ng nói
Tín hi u ti ng nói là tín hi uăt ngăt biểu di n cho thông tin v mặt ngôn ng vƠăđ c mô t b i các âm vị khác nhau TuǶ theo từng ngôn ng c thể mà s l ng các âm vị nhi uăhayăít.ăThôngăth ng s l ng các âm vị vào kho ng 20 ậ 30 và
nh h nă50ăđ i v i mọi ngôn ng ăĐ i v i từng lo i âm vị mƠăcóăcácăđặc tính âm thanh khác nhau Các âm vị đ c chia thành hai lo i nguyên âm và ph âm Tổ h p các âm vị t o nên âm ti t Âm ti tăđóngăvaiătròăm t từ trọn vẹn mang ng nghƿa
B n chất c a ti ng nói là s daoăđ ng c a dây thanh(xuất phát từ lu ng khọng khí phát ra từ phổi), từ đóăt oăraăs ădaoăđ ng(nén hoặc giãn) c a lu ng không khí ngayătr c mi ng c aăng i nói K t qu là t o ra s chênh l ch c c b v áp suất không khí N uădùngămicroăđể nh n bi t s chênh l ch này thì ti ng nói s đ c thể
hi năd i d ngăcácădaoăđ ng v đi n
m căđ ngôn ng học ti ng nói có thể đ căxemănh ălƠăm t chu i các âm thanhăc ăb n gọi là âm vị(phoneme).ăDoăđó,ăơmăvị lƠăđ năvị c ăb năđể t o ra âm thanhănh ngăđôiăkhiăchúngătaăkhôngănh năđ c âm vị đóătừ tín hi u ti ng nói Cùng
Trang 20m t âm vị có thể biểu di n b i nhi u ti ngănóiăkhácănhau.ăH năn a, nhi uăng i nói khác nhau phát âm cùng m t chu i ti ng nói thì s chuyểnăđiăcùngăm tăl ng thông tinănh ănhau,ănh ngăơmăthanhăl i không gi ng nhau hoàn toàn Nguyên nhân chính
là do s khác nhau v hình d ng c a b máy phát âm c a m iăng i và do s nh
h ng c a thổ ng (dialect) t c là ti ngă nóiă đ c phát ra nh ng khu v c khác nhau Vì hình d ng c a b máyăphátăơmăvƠădoăđóălƠăơmăthanhăđ c t oăraăđ căđi u khiển b iăcácăc ăquanăphátăơm(speechăarticulators),ăcácăơmăvị t ngă ng tr c ti ng
v i vị tríăcũngănh ălƠăs dịch chuyển c a các kh p(articulatory) trong b máy phát
âm còn gọiălƠăđi u b khiăphátăơm(articulatoryăgestures).ăĐi u b c a s phát âm có thể tƿnhăhoặcăđ ng tùy thu c vào s không chuyểnăđ ng hoặc chuyểnăđ ng c a các
kh p khi phát âm
Ti ng nói có thể đ c phân là ba lo i khác nhau là âm h u thanh(voiced), âm
vô thanh(unvoiced) và âm b t(aspirated):
Âm h u thanh(voiced sounds): là d ng ti ng nói gi ngănh ăkhiătaăphátăraăcácăơmă'a','o' ÂmăthanhănƠyăđ căphátăraăkhiădơyăthanhăđ căcĕngăraăvƠăchúngăchuyển
đ ng theo kiểu n i l ng(relaxation mode) t o nên áp suất không khí làm cho thanh môn m raăvƠăđể cho không khí chuyểnăđ ng xuyên qua nó S chuyểnăđ ng này
c a các dây thanh t o ra m t d ng sóng c a dòng không khí gần gi ng d ng tam giác D ng sóng này có d ng tuần hoàn hoặc gần tuần hoàn Chúng có phổ tần s
c a các thành phần hài là b i s c a tần s c ăb n còn gọi là pitch và t căđ suy
gi m c a chúng là 12dB/octave
B máy phát âm c aă conă ng i ho tă đ ng gi ngă nh ă m t b c ngă h ng, khu chăđ i m t vài thành phần hài và làm suy gi m các thành phần hài còn l iăđể
t o ra d ng sóng nguyên âm
T că đ chuyểnă đ ng c a dây thanh ph thu c vào áp suất không khí trong
phổi và s căcĕngăc a dây thanh C haiăđi uănƠyăđ u có thể đ căđi u khiển b i
ng iănóiăđể lƠmăthayăđổiăc ngăđ ơmăthanhăđ c phát ra
Trang 21Ti ng nói c aăng iăđƠnăôngătr ng thành có tần s c ăb năthayăđổi kho ng từ 50Hzăđ n 2500Hz, trung bình kho ngă120Hz.ăTrongăkhiăđó,ăti ng nói c aăng i ph
n tr ng thành có tần s c ăb năcaoăh nărất nhi u, có thể lênăđ n 500Hz
Âm vô thanh(unvoiced sounds): ví d nh ă 'p','t',f', Khiă phátă raă cácă ơmă nƠyădây thanh không chuyểnă đ ng.ă Âmă vôă thanhă đ c chia làm hai lo i là âm xát(fricative sounds) và âm b t(aspirated sounds)
Khi phát âm các âm xát('s','x' ) s si t l iăđ c t o ra t i m tăvƠiăđiểmănƠoăđóătrong b máy phát âm và không khí bị ép bu c ph iăđiăqua.ăDoăđó,ăt o ra m t s chuyểnăđ ng h n lo n(turbulence) s kích thích nhi u ng u nhiên phát sinh S si t
l iăth ngăcóăxuăh ng x y ra phíaătr c mi ng nên s côngăh ng c a b máy phát âm ít nhăh ngăđ năcácăơmăxátăđ c phát ra
Khi phát âm các âm b tăh i(h,ăkh,ăk, )ăs chuyểnăđ ng h n lo n c a không khí x y ra t iăthanhămônătrongăkhiăcácădơyăthanhăđ c gi kho ng cách khá xa nhau.ăTrongătr ng h p này, s c ngăh ng c a dây thanh s đi u chỉnh d ng phổ
c a nhi u ng u nhiên Hi u ng này s đ c nghe rấtărõăđ i v i các ti ng nói thì thầm
Âm b tăh i(plosiveăsounds)ăvíăd nh ăơmă'đ'ătrongătừ 'đi'.ăKhiăphátăcácăơmănƠy,ă
b máy phát âm s đóngăl i hoàn toàn t i m t th iăđiểmănƠoăđóătrongăb máy phát
âm Áp suất không khí trong b máy phát âm s tĕngălênăt c th iăvƠăsauăđóăđ c
gi i phóng m t cáchăđ t ng t S gi i thoát nhanh chóng c a áp suất này s t o nên
m t s kích thích t m th i c a b máy phát âm S kích thích t m th i này có thể
x y ra kèm theo hoặc không kèm theo s chuyểnăđ ng c a dây thanh
Trang 22Tín hi u ti ng nói là m t tín hi u ng u nhiên không dừng, tuy nhiên nh ngăđặc tính c a nó t ngă đ i ổnă định trong nh ng kho ng th i gian ng n(vài ch c mili giây) Trong kho ng th i gian nh đóătínăhi u gần tuần hoàn, có thể coiănh ătuần hoàn
2.1.3.1 Độ cao
Đ cao hay còn gọiălƠăđ trầm bổng c a âm thanh chính là tần s c aăsóngăc ă
học Âm thanh nào phátă raă cũngă m tă đ cao nhấtă định.ă Đ trầm bổng c a âm thanh ph thu c vào s chấnăđ ng nhanh hay ch m c a các phần tử trong không khí trong m tăđ năvị th i gian nhấtăđịnh.ăNóiăcáchăkhác,ăđ cao c a âm ph thu c vào tần s daoăđ ng.ăĐ i v i ti ng nói, tần s daoăđ ng c aădơyăthanhăquyăđịnhăđ cao
giọng nói c aăconăng i và m iăng i có m tăđ cao giọng nói khác nhau
Đ cao c a n gi iăth ngăcaoăh năsoăv i nam gi iăvƠăđ cao ti ng nói c a trẻ emăcaoăh năsoăv i n gi i,ăđi uănƠyăcũngăt ngăt đ i v i tần s c a dây thanh
2.1.3.2 C ng độ
C ngăđ chínhălƠăđ to nh c aăơmăthanh,ăc ngăđ càng l n thì âm thanh có thể truy năđiăcƠngăxaătrongămôiătr ng có nhi u N uăxétătrênăgócăđ sóngăc ăhọc thìăc ngăđ chínhălƠăbiênăđ c aădaoăđ ng sóng âm, nó quy tăđịnh cho nĕngăl ng
c a sóng âm Trong ti ngănói,ăc ngăđ c aănguyênăơmăphátăraăth ng l năh năph
âm Do v yăchúngătaăth ng d phát hi năraănguyênăơmăh năsoăv i ph âm Tuy nhiênăđ i v iătaiăng i giá trị tuy tăđ i c aăc ngăđ âm I không quan trọng b ng giá trị tỉ đ i c a I so v i m t giá trị I0 nƠoăđóăchọn làm chuẩn.ăNg iătaăđịnhănghƿaă
m căc ngăđ âm L là logarit th p phân c a tỉ s I/I0(đ năvị m căc ngăđ là Ben-
Trang 232.1.3.3 Tr ng độ
Tr ngăđ hayăđ dài c a âm ph thu c vào s chấnăđ ng lâu hay nhanh c a các phần tử không khí Cùng m tăơmănh ngătrongăcácătừ khácănhauăthìăđ dài khác nhau
2.1.3.4 Âm sắc
Âm s c là b n s c, s c thái riêng c a m t âm, cùng m t n i dung, cùng m tăđ caoănh ngăkhiănóiăm i ng iăđ u có âm s c khác nhau
2.1.3.5 Tần s v t qua đi m không
Tần suấtăv tăquaăđiểm không là s lầnăbiênăđ tín hi u ti ngănóiăv t qua giá trị không trong m t kho ng th iăgianăchoătr c.ăThôngăth ng giá trị nƠyăđ i v i
âm vô thanh l năh năơmăh uăthanhădoăđặc tính ng u nhiên c aăơmăvôăthanh.ăDoăđóă
tần suấtăv tăquaăđiểm không là tham s quan trọngăđể phân lo i âm h u thanh và
âm vô thanh
2.1.3.6 Tần s c b n
D ng sóng c a ti ng nói g m hai phần: Phần gần gi ng nhi uătrongăđóăbiênăđ
bi năđổi ng u nhiên và phần tuần hoàn Phần tín hi u có tính chu kǶ ch a các thành
phần tần s có d ngăđi u hòa Tần s thấp nhất chính là tần s c ăb năvƠăcũngăchínhă
là tần s daoăđ ng c a dây thanh
Đ i v i nh ngăng i nói khác nhau, tần s c ăb năcũngăkhácănhau.ăTần s c ă
b n c a trẻ emăth ngăcaoăh năsoăv iăng i l n và c a n gi iăcaoăh năsoăv i nam
gi i B ng 2.1 là m t s giá trị tần s c ăb năt ngă ng v i gi i tính và tuổi:
Đ i v iăhaiăơmăcóăcùngăc ngăđ ,ăcùngăđ cao s đ c phân bi t b i tính tuần hoàn M t âm h u thanh có tín hi u gầnănh ătuầnăhoƠnăkhiăđ c phân tích phổ s xuất hi n m t v ch t i vùng tần s rất thấp V chănƠyăđặcătr ngăchoătínhătuần hoàn
c ăb n c aăơmăhayăđóăchínhălƠătần s c ăb n c a âm Trong giao ti păbìnhăth ng
tần s c ăb năthayăđổi liên t c t o nên ng đi u cho ti ng nói
Trang 24B ng 2.1:Giá trị tần s c ăb năt ngă ng v i gi i tính và tuổi
Ng i nói Giá trị tần s
c ăb n(Hz) Nam gi i 80 ậ 200
N gi i 150 ậ 450
Trẻ em 200 ậ 600
2.1.3.7 Formant
Trong phổ tần s c a tín hi u ti ng nói, m i đỉnhăcóăbiênăđ cao nhất xét trong
m t kho ngănƠoăđóă(cònăgọi là c c trị địaăph ng)ăxácăđịnh m t formant Ngoài tần
s ,ăformantăcònăđ căxácăđịnh b iăbiênăđ và d i thông c a chúng V mặt v t lý các tần s formantăt ngă ng v i các tần s c ngăh ng c a tuy n âm Trong xử lý
ti ng nói và nhất là trong tổng h p ti ngănóiăđể mô ph ng l i tuy năơmăng i ta
ph iăxácăđịnhăđ c các tham s formantăđ i v i từng lo i âm vị,ădoăđóăvi căđánhăgiá,ă căl ngăcácăformantăcóăýănghƿaărất quan trọng
Tần s formant bi n đổi trong m t kho ng r ng ph thu c vào gi i tính c a
ng i nói và ph thu c vào các d ng âm vị t ngă ng v iăformantăđó.ăĐ ng th i, formant còn ph thu c các âm vị tr că vƠă sauă đó.ă V cấu trúc t nhiên, tần s formant có liên h chặt ch v i hình d ng và kíchăth c tuy năơm.ăThôngăth ng trong phổ tần s c a tín hi u có kho ngă6ăformantănh ngăchỉ cóă3ăformantăđầu tiên nhăh ng quan trọngăđ năcácăđặc tính c a các âm vị, còn các formant còn l iăcũngă
có nhăh ng song rất ít Các formant có giá trị tần s xê dịch từ vƠiătrĕmăđ n vài nghìn Hz
Tần s formantăđặcătr ngăchoăcácănguyênăơmăbi năđổi tuǶ thu căvƠoăng i nói trongăđi u ki n phát âm nhấtăđịnh Mặc dù ph m vi c a các tần s formantăt ngă
ng v i m i nguyên âm có thể trùngă lênă nhauă nh ngă vị trí gi a các formantă đóăkhôngăđổi vì s xê dịch c a các formant là song song
Trang 25NgoƠiăformant,ăcácăơmămũiăcònăcóăcácătần s bị suy gi m gọi là ph n formant (anti-formant) Ph năformantăđ c t o nên khi lu ngăkhíăđiăquaăkhoangămũi.ăCácăformantăt ngă ngănóiăcácăđiểm c c c a hàm truy năđ t vì t i lân c năđiểm c c giá
trị hàm truy năđ t là rất l n,ăt ngăt v y các anti-formantăt ngă ng v iăcácăđiểm không c a hàm truy năđ t
2.1.4 Phân lo i đ n gi n d ng sóng ti ng nói
Ti ng nói c aăconăng i t o ra bao g m có hai thành phầnăđóălà:
Phần gần tuần hoàn mà hầuănh ălặp l i cùng chu kǶ đ c gọi là ti ng nói h u thanh (voiced speech) Chu kǶ lặp l iăđóăgọi là chu kǶ c ăb n T0 nghịchăđ o c a
T0là tần s c ăb n F0 Âm h uăthanhăđ c phát ra b i m t lu ng khí c c m nh từ thanh môn thổi qua dây thanh làm dung dây thanh, s daoăđ ng c a dây thanh t o nên ngu n tuần hoàn Ngu n tuần hoàn kích thích tuy n âm t o nên âm h u thanh Vùng âm h u thanh chi m thành phần ch y u c a sóng ti ng nói, ch aăđ ngăl ng tin nhi u nhất và th i gian l n nhất trong quá trình nói
Phần tín hi u có d ng gi ngănh ăt p âm nhi uăcóăbiênăđ ng uănhiênăcònăđ c gọi là ti ng nói vô thanh(unvoiced speech) Ti ngănóiăvôăthanhăđ c t o ra do s co
th t theo m t d ngănƠoăđóăc a tuy n âm và lu ng khí ch y qua ch th t v i t căđ
l n t o nên nhi u lo n, ví d nh ălúcătaănóiăthìăthƠo(cần phân bi t thì thầm v i thì thào, theo từ điển ti ng Vi t thì thào là nói chuy n v i nhau rất nh t aănh ăgióătho ng qua tai còn thì thầm là nói chuy n v iă nhauă khôngă để ng i ngoài nghe
thấy).ăNĕngăl ng do ngu n nhi u lo n t o ra s kích thích tuy n âm t o nên ti ng nóiăvôăthanh,ănĕngăl ng c a ti ng nói vô thanh nh h năsoăv i ti ng nói h u thanh
Ta có thể phát hi n ra ti ng nói h u thanh là khi nói dây thanh rung Còn âm
vô thanh khi nói dây thanh không rung Nói thì thào thì xaăkhôngăngheăđ c do nĕngăl ng c a âm vô thanh rất nh và ti ng thì thào là do âm vô thanh t o nên
Trang 262.2 S hóa ti ng nói
Trong th c t , mã hóa d ng sóng c a tín hi u ti ng nói và video bao g m nhi u chi ti t và khía c nhăđ c nêu ra b i Jayant và Noll[10] Mã hóa d ng sóng không ph thu c vào d ng tín hi u Chính vì v y chúng ta sử d ng mã hóa d ng sóng cho tín hi u tho i, d li u, và th m chí âm nh c[19].ăĐi u này d năđ n hi u
suất mã hóa kém Hi u suất c a nó có thể đ c c i thi n b ng cách khai thác m t s tính chất xác xuất tín hi u N u các thông s codecăđ c t iă uăhóaăchoăcácălo i c a tín hi uăđầu vào, v năduyătrìăđ c chấtăl ng t t cho các lo i tín hi u
Mã hóa d ngăsóngăđ c chia làm hai lo i mã hóa tín hi u trên mi n th i gian
và trên mi n tần s Vi c s hóa tín hi uăt ngăt đ căđ aăraătrênăhìnhă2.2
Hình 2.2: S hóa tín hi uăt ngăt
Nh ngătácăđ ng th c t định lý lấy m u là khá quan trọng vì hầu h tătínăđ c
lấy m uăkhôngăđ c gi i h năbĕngăthông[20] Vì v y cần có m t b lọc LBF là cần thi tăđể gi i h năbĕngăthôngătr c khi lấy m u.ăTrongătr ng h pănĕngăl ng c a tín hi u ti ng nói kho ng 1% trên 4KHz và chỉ có kho ng m t tỷ l khôngăđángăkể trên 7KHz Vì v y,ăđi u này liên quanăđ n chấtăl ng ti ngănói.ăNóăliênăquanăđ n các h th ng tho iăbĕngăr ng,ăth ng gi i h năbĕngăthôngăc a tín hi u tho i từ 7-8KHz Trong h th ngăđi n tho iăthôngăth ng(PSTN) gi i h năbĕngăthôngătừ 0.3 - 3.4KHz[21] Tín hi uăsauăkhiăđ c gi i h năbĕngăthông s đ c lấy m uătheoăđịnh
lý Nyquist fnyquist=2.Bănh ătrênăhìnhă2.2.ăQuáătrìnhănƠyăliênăquanăđ n r i r c m u theo th iăgian,ădoăđóăvi c lấy m u phổ c a tín hi u g căđ c nhân r ng gấpăđôiăc a
tần s lấy m u.ăĐơyălƠălýădoăt i sao chúng ta gi i h năbĕng thôngătr căđóălƠăđi u
cần thi tăđể tránh bị ch ng phổ hay còn gọi là ch ng lấp trên mi n tần s c a phổ
N uăđi u ki nănƠyăđ căđápă ng thì tín hi u g căđ c khôi ph c b ngăcáchăđiăquaă
Trang 27b LPFăcóăbĕngăthôngălƠăB.ăChúngătaăth ng chọn tần s lấy m u là 8KHzăt ngă
ng chu kǶ lấy m u là 125µs
Cu i cùng, tín hi u sau khi lấy m u s quaăquáătrìnhăl ng tử hóaănh ătrênăhình 2.3 Ngõ ra c aă quáă trìnhă l ng tử hóa chuyển thành chu i bit n i ti pă để truy năđi
Hình 2.3: Lấy m uăvƠăl ng tử hóa tín hi u tho i
2.3 Tổng quan v phân tích/tổng h p ti ng nói
2.3.1 Gi i thi u chung
Tổng h p ti ng nói là quá trình t o ti ng nói xuất phát từ biểu di n ng âm c a
l iănóiăvƠăc ăch s n sinh ra ti ngănói.ăTrongăđóăcácăkỹ thu t tổng h p ti ng nói
đ c chia thành 2 lo i chính :
Tổng h p ti ng nói tr c ti p:ălƠăph ngăphápătổng h p d a trên s ghép n i cácăơmăđƣăđ c ghi từ tr c.ăĐặcăđiểm c aăph ngăphápănƠyălƠăcóăs tham gia c a conăng i.ăĐơyălƠăcáchăd nhấtăđể t o ti ng nói tuy nhiên nó yêu cầu s l ng l i nói ghi âm ph i l nădoăđóăph i cần nhi u b nh để l uătr các l i nói này
Đ năvị ghi âm t i thiểu là các âm vị(h th ng các nguyên âm và ph âm), từ các âm vị có thể tổng h p thành các âm ti t(tổ h p các âm vị)ăvƠăcaoăh nălƠăcóăthể
tổng h p thành các từ, cơu.ăĐể gi m kh iăl ng từ cầnăl uă tr ,ăng iătaăth ng dùng các âm vị kép(diphone : g m hai âm vị điăv iănhau)ăđể tổng h p ti ng nói
Trang 28Tổng h p d aătrênămôăhình:ălƠăcácăph ngăphápătổng h păd trên các mô hình toán học và không có s tham gia c aăconăng i.ăCácăph ngăphápăhayădùngăbao g m:
-Tổng h păformant:ăph ngăphápănƠyăd a trên các lu tăxácăđịnh tần s c ăb n
để tínhăraă3ăformantăđầu tiên f1, f2, f3để tổng h p ti ng nói
-Tổng h păLPC:ăđơyălƠăph ngăphápăd aătrênămôăhìnhătiênăđoánătuy n tính,
t c là tín hi u ti ng nói t i th iăđiểm n có thể xácăđịnh d a trên tổ h p tuy n tính
Trang 291 2 3 4 5 6 7 8 9 10
0
/ , 1, 2, ,10
, 1, 2, , 11
Trang 30Hình 2.4 là mô hình tổng h p ti ng nói b ngăph ngăphápăformant
Hình 2.4: Mô hình tổng h p ti ng nói b ngăph ngăphápăformant
Ch cănĕngăc a từng kh i:
-Kh i t o xung: kh iănƠyădùngăđể t o tín hi u tuần hoàn
-Kh i t o t p âm: kh iănƠyădùngăđể t o tín hi u không tuần hoàn(các nhi u
ng u nhiên)
-Các kh i A1, A2, A3, A4: là các kh iăthayăđổiăbiênăđ dùngăđể tĕngăgi m biên
đ t iăơmăl ng mong mu n
-Khoang mi ng đặcătr ngăb i các m ch c ngăh ng có tần s F1, F2, F3
-Kênhămũi:ăt ngă ng v i các ph n formant
-B1, B2, B3: là các d i tần khác nhau
Chấtăl ng c aăph ngăphápănƠyăph thu c vào s đi u chỉnh các tham s
đi u khiển và nghe tín hi u t oăraădoăđóăkhông đ c t đ ng hoá 100%
2.3.3.2 Tổng h p bằng ph ng pháp LPC
Hình 2.5 là mô hình tổng h p ti ng nói b ngăph ngăphápăLPC
Trang 31Hình 2.5: Mô hình tổng h p ti ng nói b ngăph ngăphápăLPC
Ch cănĕngătừng kh i:
-Kh i t o xung: kh iănƠyădùngăđể t o các tín hi u tuần hoàn
-Kh i t o t p âm: kh iănƠyădùngăđể t o các tín hi u không tuần hoàn
có khoang mi ng mà không cóăkhoangămũi),ădoăđóăchỉ áp d ng v i khoang mi ng
2.3.3.3 Tổng h p dùng mô ph ng bộ máy phát âm
Hình 2.6 là mô hình tổng h p ti ng nói b ngăph ngăphápămôăph ng ngu n
âm
Hình 2.6: Mô hình tổng h p ti ng nói b ngăph ngăphápămôăph ng ngu n âm
Trang 32Ph ngăphápănƠyăth c chất là mô ph ng ngu n âm, tuy n âm và ngu n t p âm
đ năgi n
Mô ph ng ngu n âm(ngu n tuần hoàn): là quá trình mô ph ng ho tăđ ng c a dơyă thanh.ă Cácă ph ngă phápă môă ph ngă dơyă thanhă th ng dùng là mô hình m t
kh i, mô hình hai kh i, mô hình nhi u kh i, mô hình dầm,…
Mô ph ng tuy n âm: th c chất là mô ph ng b máy phát âm từ thanh môn tr lên Tuy năơmăđ c mô ph ng b ng cách r i r c hoá, thay th từngăđo n tuy n âm
b i các ngăc ăb n có chi u dài ng n(các ng hình tr )ăvƠăsauăđóăth c hi n tính toán trên các ng này
2.4 Ph ng pháp đánh giá chất l ng tho i
Cácăph ngăphápăđánhăgiáăăchấtăl ng ti ngănóiăth ngăđ c tính toán từ tín
hi uăbanăđầu so v i tín hi uăđầu ra b ng các mô hình toán học Nó không cầnăđ n s
l ng nghe c aăconăng i, vì v y ít t n ti n và th i gian[22], [23] Vi căđánhăgiáănƠyă
có vai trò quan trọng vì dịch v tho i là dịch v c ăb n cho nên vi căđ m b o cung
cấp dịch v này v i chấtăl ng ổnăđịnh là m t y u t c nh tranh c a các nhà khai thác m ng.ăCácăph ngăphápăđánhăgiáăchấtăl ng tho iăđƣăđ c nhi u tổ ch c vi n thông(ITU, ETSI ) nghiên c u ,xây d ng và chuẩn hóa[24]
2.4.1 Ph ng pháp đánh giá ch quan
Kỹ thu tănƠyăđánhăgiáăchấtăl ng tho i sử d ngăđ iăt ng là m tăng i nghe,
sử d ngăph ngăphápăăth ngăkêăđể tính điểm chấtăl ng.ăĐiểmăđánhăgiáăbìnhăquơnă
c a nhi uăng iăđ cătínhălƠăđiểm MOS(Mean Opionion Scoring) Kỹ thu t th c
hi nătínhăđiểmăMOSăđ c mô t trong khuy n nghị P.800 c a ITU Khuy n nghị P.830 thể hi năcácăph ngăphápăc thể để đánhăgiáăchấtăl ng tho i cho các b mã
C hai khuy n nghị ITU này mô t :ă ph ngă th că đánhă giá,ă cáchă tínhă điểm theo
ph ngăth căđánhăgiáăch quan, giá trị c aăđiểm, tính chất c a các m u tho iăđ c
sử d ngăđể dánhăgiáăvƠăcácăđi u ki n khác mà vi c kiểm tra chấtăl ngăđ c th c
hi n B ng 2.2 mô t MOS
Trang 33B ng 2.2:B ng MOS
Grade(MOS) Quality
4.5 Excellent 3.5 Good 2.5 Fair
Ph ngăth căđánhăgiáătheoăMOSăcóăthể đ c th c hi n theo các bài kiểm tra
h i tho i hai chi u hoặc bài nghe m t chi u Các bài kiểm tra nghe m t chi u sử
d ng các m u tho i chuẩn.ăNg i nghe m u truy n qua m t h th ngăvƠăđánhăgiáă
chấtăl ng tổng thể c a m u d aătrênăthangăđiểmăchoătr c.ăP.800ăđịnhănghƿaăm t
s hình th căđánhăgiáăchấtăl ng tho iătheoăph ngăth c ch quan:
-Bài kiểm tra h i tho i(Conversation Opinion Test)
-Đánhăgiáăphơnălo i tuy tăđ i(Absolute Catagory Rating(ACR) Test)
-Ph ngăth c phân lo i so sánh(Comparison Category Rating(CCR))
Tuyănhiên,ăcácăph ngăth căchoăđiểm theo MOS có m t s nh căđiểmănh ăsau:
-Ph ngăth c này mang tính chất ch quan vì k t qu ph thu c vào nhi u y u
t không thể kiểm soát c a ch thể nh :ătr ngătháiătơmălý,ătháiăđ đ i v i bài kiểm traăvƠătrìnhăđ vĕnăhóa.ăTrênăth c t ,ăph ngăth căđánhăgiáăchấtăl ng tho i theo thangăđiểm MOS không ph iălƠăph ngăth c nhất quán
-Ph ngăth c này rất t năkém,ăđòiăh i nhi uăng i tham gia và thi t l p ph c
t p
Trang 34-Khi cần th c hi năđoăth ng xuyên các tham s chấtăl ng thì vi c sử d ng
ph ngăphápăđánhăgiáăchấtăl ng này là không th c t
Nh ng h n ch c aăph ngăphápăđánhăgiáăchấtăl ng tho i d a trên MOS cho
thấy cần có m tăph ngăth căđánhăgiáăkháchăquan,ăph ngăphápănƠyăcóăthể th c
hi n m t cách t đ ngăđể đánhăgiáăchấtăl ng tho i
2.4.2 Các ph ng pháp so sánh d a trên mô hình giác quan
2.4.2.1 Ph ng pháp PESQ
PESQălƠăph ngăphápăđánhăgiáăchấtăl ng tho iăsoăsánh,ăph ngăphápănƠyă
đ c mô t trong khuy n nghị ITU-TăP.862ăđ c sử d ng thay th cho khuy n nghị ITU-TăP.861.ăPh ngăphápănƠyăsoăsánhătínăhi u g c x(t) v i tín hi u suy gi m y(t)
là k t qu c a vi c truy n tín hi u x(t) qua h th ngăthôngătin.ăĐầu ra c a PESQ là
m tă căl ng v chấtăl ng tho i nh năđ c c a tín hi u y(t)
Hình 2.7 lƠăl uăđ thu t toán PESQ Nó th c hi n m t lo t các tr tín hi u
gi a tín hi uăvƠoăbanăđầu và tín hi uăraăđ căxácăđịnh, m i giá trị tr đ c tính cho
m t kho ng th i gian mà có s khác bi t v đ tr so v iăphơnăđo n th iăgianătr c đó.ă ng v i m i phân đo n th iăgian,ăđiểm b tăđầu và k tăthúcăđ căxácăđịnh M t thu t toán s p x p d a trên nguyên t c so sánh gi a kh nĕngăcóăhaiătr trong m t
đo n th i gian v i kh nĕngăcóăm t tr trongăđo n th iăgianăđó.ăThu t toán này có
thể xử lýăthayăđổi v tr trong c kho ng lặng và trong th i gian tích c c tho i D a trên t p các tr đƣăxácăđịnhăđ c, PESQ so sánh tín hi uăvƠoăbanăđầu v i tín hi u ra đƣăđ c s p x p b ng cách sử d ng m tămôăhìnhăgiácăquan.ăĐiểm mấu ch t c a quá trình này là chuyểnăđổi c tín hi u g c và tín hi uăđƣăbị suy gi m thành d ng biểu
di n c a tín hi u âm thanh trong h th ng thính giác c aăconăng iăcóătínhăđ n tần
s thínhăgiácăvƠăc ngăđ ơm.ăQuáătrìnhănƠyăđ c th c hi n theo nhi uăgiaiăđo n:
s p x p v mặt th i gian, s p x p m c tín hi u v m c tín hi uăngheăđƣăđ c cân
chỉnh, ánh x th i gian - tần s , frequency warping và cân chỉnhăc ngăđ âm
Trang 35Hình 2.7: L uăđ thu t toán PESQ Trong PESQ, hai tham s l iă đ c tính toán trong mô hình th c nghi m, chúngăđ c k t h p l iăđể căl ngăđiểm MOS
M t mô hình máy tính c a ch thể bao g m mô hình giác quan và mô hình kinh nghi măđ c sử d ngăđể so sánh tín hi uăđầu ra v i tín hi u g c sử d ng các thông tin s p x p lấyăđ c từ các tín hi uăđịnh th i trong module s p x p định th i
2.5 Bộ x lý tín hi u s TMS320C6713
TMS320C6713 bao g m b xử lý DSP floating-point d a trên n n t ng DSP TMS320C6000 Chip C6713 có hi u suất cao, ít t nănĕngăl ng, sử d ng ki n trúc tiên ti n VLIW(Very-long-instruction-word)ă đ c phát triển b i Texas Instruments(TI) Chính vì v y,ănóăđ c l a chọn cho nhi u ng d ng[11]
Ho tăđ ng t i tần s xung lock 225Mhz, C6713 có thể th c hi n 1350 tri u phép tính floating-point trên giây(MFLOPS), 1800 tri u l nh trên giây(MIPS), và
v i b nhân dual-/loating-point có thể th c hi n 450 tri u phép tính nhân tích lũy(Multiply-accumulate) trên giây(MMACS)