Nội dung của tiểu luận giới thiệu về công nghệ nhận diện giọng nói; tổng quan về công nghệ nhận diện giọng nói; một số ứng dụng về công nghệ nhận diện giọng nói; từ đó đề xuất phương hướng phát triển.
Trang 1TÌM HI U CÔNG NGH NH N DI N GI NG NÓI Ể Ệ Ậ Ệ Ọ
Gi ng viên h ả ướ ng d n: ẫ M nh Thiên Lý ạ
Trang 2L I M Đ U Ờ Ở Ầ
Ngày nay, công ngh thông tin ngày càng phát tri n cùng v i nh ng ti n ệ ể ớ ữ ế
b vộ ượ ậ ủt b c c a khoa h c k thu t nói chung, có r t nhi u công ngh m i ọ ỹ ậ ấ ề ệ ớ
được cho ra m t. ắ
H n m t th p k qua, v i s phát tri n m nh m c a công ngh thông ơ ộ ậ ỷ ớ ự ể ạ ẽ ủ ệtin, công ngh x lý ti ng nói nh mã hoá, nh n d ng ti ng nói, chuy n l i ệ ử ế ư ậ ạ ế ể ờnói thành văn b n, chuy n ch vi t thành l i nói, … đã tr thành v n đ ả ể ữ ế ờ ở ấ ềnghiên c u tr ng đi m đứ ọ ể ược nhi u nhà khoa h c quan tâm nhi u lĩnh v c ề ọ ở ề ựkhác nhau nh : tin h c, toán h c, đi u khi n, đi n t , sinh h c, … ư ọ ọ ề ể ệ ử ọ
Trong th i gian g n đây, các nhà nghiên c u đang t p trung vào công ờ ầ ứ ậngh nh n d ng gi ng nói và đã có m t s thành công đ i v i vi c nh n ệ ậ ạ ọ ộ ố ố ớ ệ ậ
d ng ti ng Anh và m t s ngôn ng khác. Đã có nhi u công trình nghiên c u ạ ế ộ ố ữ ề ứ
v lĩnh v c nh n d ng gi ng nói (Speech recognition) trên c s lý thuy t các ề ự ậ ạ ọ ơ ở ế
h th ng thông minh nhân t o, nhi u k t qu đã tr thành s n ph m nh Via ệ ố ạ ề ế ả ở ả ẩ ưVoice Gold c a hãng IBM, Dragon Natural Speaking c a Dragon System, ủ ủSpeech SDK c a Microsoft, … Tri n khai nh ng công trình nghiên c u và đ aủ ể ữ ứ ư vào th c t ng d ng v n đ này là m t vi c làm h t s c có ý nghĩa trong ự ế ứ ụ ấ ề ộ ệ ế ứgiai đo n công nghi p hoá, hi n đ i hoá c a nạ ệ ệ ạ ủ ước nhà
Vì th , nhóm em đã ch n đ tài “Tìm hi u Công ngh nh n di n gi ng ế ọ ề ể ệ ậ ệ ọnói” đ tìm hi u và trình bày v n i dung cũng nh t ng quan v công ngh ể ể ề ộ ư ổ ề ệTuy đã r t c g ng h c h i và tìm hi u tài li u t nhi u ngu n thông tin ấ ố ắ ọ ỏ ể ệ ừ ề ồ
nh ng đi u ki n th i gian và kh năng có h n nên cũng không tránh đư ề ệ ờ ả ạ ược thi u sót. Kính mong đế ượ ực s đóng góp ý ki n t cô và các b n đ nhóm em ế ừ ạ ể
có th hoàn thi n h n v bài báo cáo công ngh này. ể ệ ơ ề ệ
Nhóm em xin chân thành c m n.ả ơ
Thành ph H Chí Minh, ngày 28 tháng 02 năm 2021 ố ồ
Trang 4M C L C Ụ Ụ
Trang 5I. GI I THI U V CÔNG NGH NH N DI N Ớ Ệ Ề Ệ Ậ Ệ
1. Gi i thi u v n n công nghi p 4.0 và t m nh hớ ệ ề ề ệ ầ ả ưởng
Công nghi p 4.0 t p trung vào công ngh k thu t s t nh ng th p k ệ ậ ệ ỹ ậ ố ừ ữ ậ ỷ
g n đây lên m t c p đ hoàn toàn m i v i s tr giúp c a k t n i thông qua ầ ộ ấ ộ ớ ớ ự ợ ủ ế ốInternet v n v t, truy c p d li u th i gian th c và gi i thi u các h th ng ạ ậ ậ ữ ệ ờ ự ớ ệ ệ ố
v t lý không gian m ng. Công nghi p 4.0 cung c p m t cách ti p c n toàn ậ ạ ệ ấ ộ ế ậ
di n h n, liên k t và toàn di n h n cho s n xu t. Nó k t n i v t lý v i k ệ ơ ế ệ ơ ả ấ ế ố ậ ớ ỹthu t s và cho phép c ng tác và truy c p t t h n gi a các b ph n, đ i tác, ậ ố ộ ậ ố ơ ữ ộ ậ ốnhà cung c p, s n ph m và con ngấ ả ẩ ười. Công nghi p 4.0 trao quy n cho các ệ ề
ch doanh nghi p ki m soát và hi u rõ h n m i khía c nh ho t đ ng c a h ủ ệ ể ể ơ ọ ạ ạ ộ ủ ọ
và cho phép h t n d ng d li u t c th i đ tăng năng su t, c i thi n quy ọ ậ ụ ữ ệ ứ ờ ể ấ ả ệtrình và thúc đ y tăng trẩ ưởng
Công nghi p 4.0 cho phép các nhà máy thông minh, s n ph m thông minhệ ả ẩ
và chu i cung ng cũng thông minh, và làm cho các h th ng s n xu t và d chỗ ứ ệ ố ả ấ ị
v tr nên linh ho t, linh ho t và đáp ng khách hàng h n. Các thu c tính c a ụ ở ạ ạ ứ ơ ộ ủ
h th ng s n xu t và d ch v v i Công nghi p 4.0 đã đệ ố ả ấ ị ụ ớ ệ ược nêu b t và nh ng ậ ữ
l i ích mà Công nghi p 4.0 mang l i cho các doanh nghi p đã đợ ệ ạ ệ ược th o lu n.ả ậ Trong tương lai, khoa h c và công ngh ti p t c phát tri n và đóng vai trò ọ ệ ế ụ ểngày càng quan tr ng đ i v i quá trình phát tri n kinh t xã h i c a m i qu c ọ ố ớ ể ế ộ ủ ỗ ốgia. Tri th c đứ ược xác đ nh là l c lị ự ượng s n xu t tr c ti p và là đ ng l c phátả ấ ự ế ộ ự tri n hàng đ u đ i v i m i qu c gia. Đ phát tri n b n v ng, các qu c gia ể ầ ố ớ ọ ố ể ể ề ữ ố
ph i ti p t c đ y m nh đ u t phát tri n khoa h c và công ngh nh m ng ả ế ụ ẩ ạ ầ ư ể ọ ệ ằ ứ
d ng thành t u khoa h c và công ngh vào s n xu t, đ c bi t là nh ng thành ụ ự ọ ệ ả ấ ặ ệ ữ
t u c a cách m ng công nghi p l n th t nh m t o ra các s n ph m và côngự ủ ạ ệ ầ ứ ư ằ ạ ả ẩ ngh s n xu t m i. T i đó công ngh nh n di n và gi l p gi ng nói đệ ả ấ ớ ớ ệ ậ ệ ả ậ ọ ược ra
đ i đ đáp nhu c u phát tri n c a con ngờ ể ầ ể ủ ười
2. S lơ ược v l ch s công ngh nh n di n gi ng nóiề ị ử ệ ậ ệ ọ
Trước đây, vi c đi u khi n m t c máy b ng cách nói chuy n v i chúngệ ề ể ộ ỗ ằ ệ ớ
ch là nh ng câu chuy n trong khoa h c vi n tỉ ữ ệ ọ ễ ưởng. Nh ng vi n tư ễ ưởng này đang d n tr thành hi n th c v i s phát tri n vầ ở ệ ự ớ ự ể ượ ật b c v công ngh , đ c ề ệ ặ
bi t là s phát tri n c a Trí tu nhân t o (AI) và nh ng n n t ng khác đ t o ệ ự ể ủ ệ ạ ữ ề ả ể ạ
Trang 6ra m t giao di n ngộ ệ ười dùng cho phép s d ng gi ng nói đ đi u khi n các ử ụ ọ ể ề ểthi t b công ngh ế ị ệ
Năm 1877, ng d ng nh n di n gi ng nói đ u tiên đứ ụ ậ ệ ọ ầ ượ ạc t o ra khi Thomas Edison phát minh ra máy ghi âm, thi t b đ u tiên ghi và tái ế ị ầ
t o âm thanh.ạ
Năm 1952, các k s t i Bell Labs đã phát tri n m t b nh n d ng ỹ ư ạ ể ộ ộ ậ ạ
ch s t đ ng có tên Audrey. Audrey cao 6 feet, có nhi u tín hi u ữ ố ự ộ ề ệ
tương t v i t đi n, b khu ch đ i và b l c, ch nh n ra 10 ch sự ớ ụ ệ ộ ế ạ ộ ọ ỉ ậ ữ ố
được nói b i m t gi ng nói duy nh t. M c dù thi t b có th nh n ra ở ộ ọ ấ ặ ế ị ể ậ
đ u vào b ng gi ng nói v i đ chính xác 9799% nh ng chính vì kíchầ ằ ọ ớ ộ ư
thướ ớc l n, chi phí cao và thi t b đi n t ph c t p nên nó đã không ế ị ệ ử ứ ạ
th tr thành m t s n ph m để ở ộ ả ẩ ược thương m i hóa. Tuy nhiên, thi t ạ ế
b Audrey này cũng đã đánh d u s kh i đ u c a công ngh nh n ị ấ ự ở ầ ủ ệ ậ
d ng gi ng nói và ti p t c cho nh ng nghiên c u sau đó. H th ng ạ ọ ế ụ ữ ứ ệ ốAudrey còn được xem là thi t b nh n d ng gi ng nói đ u tiên.ế ị ậ ạ ọ ầ
Năm 1962, máy Shoe box được IBM phát tri n, có th nh n ra 16 t ể ể ậ ừ
ti ng anh, 10 ch s và 6 l nh s h cế ữ ố ệ ố ọ
T nh ng năm 1971 – 1976, B Qu c phòng M đã tài tr cho ừ ữ ộ ố ỹ ợ
chương trình DARPA SUR (Nghiên c u hi u v l i nói), d n đ n s ứ ể ề ờ ẫ ế ựphát tri n c a Harpy t o ra b i Carnegie Mellon có th hi u để ủ ạ ở ể ể ược
nh tìm th i gian chi u phim đ a phư ờ ế ị ương, nghe thông tin giao thông, báo giá c phi u, đ t chuy n bay máy bay, chuy n ti n gi a các tài ổ ế ặ ế ể ề ữkho n, đ t mua thu c theo toa, M i th ch xoay quanh chi c đi n ả ặ ố ọ ứ ỉ ế ệtho i c m tay và gi ng nói c a con ngạ ầ ọ ủ ười. Các h th ng IVR đã tr ệ ố ởthành xu hướng ch đ o trong nh ng năm 2000 và là m t ph n chính ủ ạ ữ ộ ầ
c a các d ch v chăm sóc và h tr khách hàng ngày nay.ủ ị ụ ỗ ợ
Năm 1992, Apple cũng s n xu t h th ng nh n d ng gi ng nói liên ả ấ ệ ố ậ ạ ọ
t c theo th i gian th c hi n, có th nh n ra lên đ n 20.000 t ụ ờ ự ệ ể ậ ế ừ
Trang 7Năm 2006, Apple đã gi i thi u khái ni m v Siri, cho phép ngớ ệ ệ ề ười dùng tương tác v i các máy s d ng gi ng nói. Sau đó, Google đã ớ ử ụ ọ
gi i thi u m t nghiên c u h tr gi ng nói vào năm 2007. Nh ng gã ớ ệ ộ ứ ỗ ợ ọ ữ
kh ng l công ngh nh Microsoft, Apple và Google sau đó đã tung raổ ồ ệ ư
tr lý gi ng nói cho thi t b di đ ng.ợ ọ ế ị ộ
Đ n năm 2008, Google n i lên v i ng d ng Google Voice Search ế ổ ớ ứ ụdành cho Iphone
Năm 2010, Google đã gi i thi u và nh n d ng đớ ệ ậ ạ ược cá nhân hoá, các thi t b Android s ghi l i các truy v n gi ng nói c a ngế ị ẽ ạ ấ ọ ủ ười dùng khác nhau đ phát tri n m t mô hình gi ng nói nâng cao. Nó bao g mể ể ộ ọ ồ
đ bàn và thi t b di đ ng Windows 10 nh m t ph n c a vi c h p ể ế ị ộ ư ộ ầ ủ ệ ợ
nh t Windows Phone vào h đi u hành nói chung.ấ ệ ề
Vào tháng 5 năm 2016, Tr lý Google (Google Assistant) là m t tr lý ợ ộ ợ
cá nhân o đả ược phát tri n b i Google cho thi t b di đ ng và nhà ể ở ế ị ộthông minh, được ra m t l n đ u t i h i ngh nhà phát tri n c a ắ ầ ầ ạ ộ ị ể ủhãng. Không nh Google Now, Tr lý Google có th tham gia các ư ợ ể
cu c trò chuy n hai chi u. Tr lý Google độ ệ ề ợ ược đ a vào ng d ng ư ứ ụ
nh n tin Google Allo, và loa thông minh Google Home.ắ
năm 2017, Google Assistant đã và đang được ti p t c m r ng h tr ế ụ ở ộ ỗ ợcho m t lộ ượng l n thi t b , bao g m c xe h i và các thi t b nhà ớ ế ị ồ ả ơ ế ịthông minh. Các ch c năng c a Assistant cũng có th đứ ủ ể ược b sung ổ
b i các nhà phát tri n bên th ba.ở ể ứ
Trang 83. Gi i thi u v công ngh nh n di n gi ng nóiớ ệ ề ệ ậ ệ ọ
a. Công ngh nh n di n gi ng nói là gì?ệ ậ ệ ọ
Công ngh nh n di n gi ng nói là m t b máy ho c h th ng có kh ệ ậ ệ ọ ộ ộ ặ ệ ố ảnăng nh n và d ch (ho c hi u và th c hi n) các l nh thu đậ ị ặ ể ự ệ ệ ượ ừ ọc t gi ng nói con người. Nó đượ ử ục s d ng r t nhi u trong lĩnh v c trí tu nhân t o (AI), ấ ề ự ệ ạGoogle Assistant là m t ví d đi n hình. Đây là m t b máy ho c h th ng cóộ ụ ể ộ ộ ặ ệ ố
kh năng nh n và d ch (ho c hi u và th c hi n) các l nh thu đả ậ ị ặ ể ự ệ ệ ượ ừ ọc t gi ng nói con người
Nh n di n gi ng nói g m 2 thu t ng : Voice recognition và Speech ậ ệ ọ ồ ậ ữ
recognition
Voice recognition liên quan đ n vi c xác đ nh gi ng nói chính xác c a ế ệ ị ọ ủ
m t cá nhân nào đó, tộ ương t m t phự ộ ương pháp nh n di n sinh tr c ậ ệ ắ
h c.ọ
Speech recognition là vi c xác đ nh nh ng t ng trong câu nói r i ệ ị ữ ừ ữ ồ
d ch chúng sang ngôn ng máy tính.ị ữ
b. Cách th c ho t đ ng c a công ngh nh n di n gi ng nóiứ ạ ộ ủ ệ ậ ệ ọ
Đ chuy n gi ng nói sang văn b n ho c câu l nh máy tính, h th ng ể ể ọ ả ặ ệ ệ ố
ph i th c hi n m t quá trình g m nhi u bả ự ệ ộ ồ ề ước ph c t p. Khi nói, b n s t o ứ ạ ạ ẽ ạ
ra nh ng rung đ ng trong không khí. B chuy n đ i tín hi u tữ ộ ộ ể ổ ệ ương t sang sự ố (AnalogtoDigital Converter, ADC) chuy n các sóng tể ương t (analog) này ựthành d li u mà máy tính có th hi u đữ ệ ể ể ược
Đ làm đi u này, h th ng thu th p các m u (ho c s hóa) âm thanh ể ề ệ ố ậ ẫ ặ ố
b ng cách đo chính xác sóng âm các kho ng th i gian g n nhau, sau đó l c ằ ở ả ờ ầ ọ
âm thanh đã đượ ốc s hoá đ lo i b ti ng n, đôi khi tách chúng thành các d iể ạ ỏ ế ồ ả
t n s khác nhau. Nó cũng "bình thầ ố ường hóa" ho c tinh ch nh âm thanh đ n ặ ỉ ế
m t m c âm lộ ứ ượng không thay đ i ho c s p x p theo th i gian. Không ph i ổ ặ ắ ế ờ ảlúc nào con người cũng nói v i t c đ nh nhau nên âm thanh ph i đớ ố ộ ư ả ược đi u ề
ch nh cho phù h p v i t c đ mà âm thanh m u đỉ ợ ớ ố ộ ẫ ược ghi nh n trong b nh ậ ộ ớmáy
Ti p theo, tín hi u đế ệ ược chia thành nhi u ph n nh (th i gian kho ng ề ầ ỏ ờ ảvài ph n trăm giây, th m chí là ph n ngàn giây trong trầ ậ ầ ường h p có ph âm ợ ụ
cu i khó phân bi t nh "p" ho c "t"). Chố ệ ư ặ ương trình sau đó đ t nh ng ph n âmặ ữ ầ thanh này vào các âm v có s n trong ngôn ng thích h p.ị ẵ ữ ợ
Trang 9V i s phát tri n c a công ngh , ng d ng nh n d ng gi ng nói ngày ớ ự ể ủ ệ ứ ụ ậ ạ ọcàng được hoàn thi n v i tính chính xác cao h n. Thay vì nh n d ng t ng chệ ớ ơ ậ ạ ừ ữ cái, công ngh này còn có kh năng nh n d ng đệ ả ậ ạ ược theo ng nghĩa c a câu ữ ủnói đ gi m thi u sai sót trong quá trình nh n d ng.ể ả ể ậ ạ
c. u, nhƯ ược đi m c a công ngh nh n di n gi ng nóiể ủ ệ ậ ệ ọ
Ưu đi m c a ph n m m nh n di n gi ng nói:ể ủ ầ ề ậ ệ ọ
Kh năng truy c p: Đây là m t thu n l i đ i v i ngả ậ ộ ậ ợ ố ớ ười khuy t t t khiế ấ
h không th dùng chu t hay bàn phím, nh ng có th dùng gi ng nói đ h ọ ể ộ ư ể ọ ể ệ
th ng chuy n thành văn b n, giúp nh p li u hay đi u khi n m t cách d ố ể ả ậ ệ ề ể ộ ễdàng
Ki m tra chính t : Ngể ả ười dùng có th truy c p vào các công c ch nh ể ậ ụ ỉ
s a tử ương t m t gi i pháp x lý văn b n chu n. Đự ộ ả ử ả ẩ ương nhiên m i th s ọ ứ ẽkhông chính xác 100% nh ng ph n m m có th nh n di n và x lý ph n l n ư ầ ề ể ậ ệ ử ầ ớ
l i chính t , ng pháp.ỗ ả ữ
T c đ nhanh: Ph n m m nh n d ng gi ng nói có th n m b t gi ngố ộ ầ ề ậ ạ ọ ể ắ ắ ọ nói c a ngủ ười dùng v i t c đ nhanh h n so v i khi nh p li u b ng bàn ớ ố ộ ơ ớ ậ ệ ằ
phím, vì v y t c đ khi nh p li u b ng gi ng nói s c i thi n đáng k ậ ố ộ ậ ệ ằ ọ ẽ ả ệ ể
Nhược đi m c a ph n m m nh n di n gi ng nói:ể ủ ầ ề ậ ệ ọ
Thi t l p và "d y": M c dù t t c ph n m m nh n d ng gi ng nói ế ậ ạ ặ ấ ả ầ ề ậ ạ ọ
hi n nay đ u h a h n có th ho t đ ng sau vài phút thi t l p, nh ng th c s ệ ề ứ ẹ ể ạ ộ ế ậ ư ự ựquá trình ghi nh n, làm quen v i gi ng nói, âm đi u và t c đ nói c a ngậ ớ ọ ệ ố ộ ủ ười dùng có đôi chút ph c t p và t n th i gian. M t s ph n m m nh n d ng ứ ạ ố ờ ộ ố ầ ề ậ ạ
gi ng nói còn b t ngọ ắ ười dùng nói l i, th m chí không th nh n di n đạ ậ ể ậ ệ ược
b n đang nói gì.ạ
Ch a th c s n đ nh: Vi c đang nói mà b ng t gi a ch ng có th ư ự ự ổ ị ệ ị ắ ữ ừ ểkhi n ngế ười dùng c m th y khó ch u. Đ c bi t, m t s ngả ấ ị ặ ệ ộ ố ười không thích
ph n m m nh n d ng gi ng nói vì nó gây b i r i cho ngầ ề ậ ạ ọ ố ố ười dùng khi lên
xu ng gi ng hay b ng d ng nói nh l i.ố ọ ỗ ư ỏ ạ
Kho t v ng h n ch : Ngừ ự ạ ế ười dùng ph i s n sàng ch p nh n trả ẵ ấ ậ ường
h p ph n m m x lý quá lâu vì nh ng t v a nói không n m trong t đi n cóợ ầ ề ử ữ ừ ừ ằ ừ ể
s n. Đó là đi u các nhà nghiên c u đang c g ng c i ti n ph n m m nh n ẵ ề ứ ố ắ ả ế ở ầ ề ậ
d ng gi ng nói hi n nay.ạ ọ ệ
Trang 10d. M t s th vi n h tr cho công ngh nh n di n gi ng nóiộ ố ư ệ ỗ ợ ệ ậ ệ ọ
Nuance là cái tên được nh c đ n nhi u nh t trong vi c cung c p ắ ế ề ấ ệ ấ
th vi n gi ng nói cho app di đ ng. Chính nh vào nh ng th vi n ư ệ ọ ộ ờ ữ ư ệ
nh th này mà l p trình viên không c n ph i t mình thi t k h ư ế ậ ầ ả ự ế ế ệ
th ng nh n d ng, phiên d ch cho app mà ch c n xài l i cái có s n, ti tố ậ ạ ị ỉ ầ ạ ẵ ế
ki m đệ ược nhi u th i gian, công s c và ti n b c. Nuance có h tr ề ờ ứ ệ ạ ỗ ợcho ti ng Vi t trong ng d ng Dragon Dictation do chính hãng này ế ệ ứ ụphát tri n.ể
OpenEars cũng là m t th vi n khác nh ng nó thu c d ng ngu n ộ ư ệ ư ộ ạ ồ
m và ho t đ ng offline, h n ch là ch h tr ti ng Anh và Tây Ban ở ạ ộ ạ ế ỉ ỗ ợ ếNha. Vài cái tên khác có th k đ n nh Ivona, iSpeech, Vocalkit and ể ể ế ưAcapela
M t cách khác mà nhi u ph n m m hi n cũng đang xài đó là t n ộ ề ầ ề ệ ậ
d ng b ngu n nh n d ng có s n trên các h đi u hành di đ ng. ụ ộ ồ ậ ạ ẵ ệ ề ộ
Người dùng có th kích ho t tính năng này nh ng ch c n nh p văn ể ạ ở ữ ỗ ầ ậ
b n. T iOS 7 v trả ừ ề ước thì tính năng này không h tr ti ng Vi t, ỗ ợ ế ệ
ph i lên iOS 8 m i có. Google thì b t đ u h tr nh p li u ti ng Vi t ả ớ ắ ầ ỗ ợ ậ ệ ế ệcho Android kho ng m t năm v trả ộ ề ước. Ngoài ra, Apple, Google cũng
có cung c p các hàm API giúp app c a l p trình viên bi t nói ch v i ấ ủ ậ ế ỉ ớvài dòng mã ngu n.ồ
Trang 11II. T NG QUAN V CÔNG NGH NH N DI N Ổ Ề Ệ Ậ Ệ
1. Mô hình tri n khai công ngh nh n di n gi ng nóiể ệ ậ ệ ọ
Hình Mô hình công nghệ nhận diện giọng nói
Có nhi u cách th c mà các công ty hi n nay đang tri n khai, có th k ề ứ ệ ể ể ể
đ n 2 phế ương pháp ph bi n nh sau:ổ ế ư
Đi n toán đám mây: Trong trệ ường h p này, vi c nh n d ng, x lý ợ ệ ậ ạ ửngôn ng s di n ra trên máy ch c a các công ty cung c p d ch v ữ ẽ ễ ủ ủ ấ ị ụ
Phương pháp đám mây giúp vi c nh n d ng đệ ậ ạ ược chính xác h n, ng ơ ứ
d ng thì có dung lụ ượng nh , nh ng bù l i thì thi t b phía ngỏ ư ạ ế ị ở ười dùng ph i luôn k t n i v i Internet. Đ tr trong quá trình g i gi ng ả ế ố ớ ộ ễ ử ọnói t máy lên server r i tr k t qu t server v l i máy cũng là ừ ồ ả ế ả ừ ề ạ
nh ng th đáng cân nh c. ữ ứ ắ
Tích h p th ng vào app: V i phợ ẳ ớ ương th c này, quá trình x lý gi ng ứ ử ọnói s di n ra trong n i b ng d ng, không c n giao ti p v i bên ẽ ễ ộ ộ ứ ụ ầ ế ớngoài, chính vì th t c đ s nhanh h n. Ngế ố ộ ẽ ơ ười dùng cũng không b t ắ
bu c ph i k t n i vào m ng thộ ả ế ố ạ ường tr c. Tuy nhiên, gi i pháp này ự ả
g p nhặ ược đi m đó là khi có c p nh t ho c thay đ i gì đó v b máy ể ậ ậ ặ ổ ề ộ
nh n d ng, nhà s n xu t s ph i c p nh t l i c m t app, trong khi ậ ạ ả ấ ẽ ả ậ ậ ạ ả ộ
v i phớ ương th c đám mây thì nh ng thay đ i đó ch c n làm phía ứ ữ ổ ỉ ầ ở
Trang 12server. Kích thướ ức ng d ng cũng s tăng lên, có th lên t i c vài ụ ẽ ể ớ ảtrăm MB.
2. Các k thu t đỹ ậ ược áp d ng trong công ngh nh n di n gi ng nóiụ ệ ậ ệ ọ
Tho t nhìn thì vi c tri n khai công ngh nh n d ng gi ng nói khá đ n ạ ệ ể ệ ậ ạ ọ ơ
gi n, nh ng th c ch t thì không ph i nh th :ả ư ự ấ ả ư ế
Th nh t, các nhà phát tri n ph i xây d ng nên m t công ngh có th ứ ấ ể ả ự ộ ệ ể
l ng nghe, phân tích và phiên d ch m t cách chính xác gi ng nói c a ngắ ị ộ ọ ủ ười dùng. N u không thì làm sao app bi t b n đang nói gì, còn n u đ chính xác ế ế ạ ế ộkhông cao thì cũng nh không.ư
Th hai, v n đ b n đ a hóa (localization) cũng là m t chuy n làm đau ứ ấ ề ả ị ộ ệ
đ u các l p trình viên. M i qu c gia s có ngôn ng c a riêng mình, v n đ ầ ậ ỗ ố ẽ ữ ủ ấ ề
đó là làm th nào đ có th h tr càng nhi u ngôn ng càng t t. Hi n nay ế ể ể ỗ ợ ề ữ ố ệ
h u h t nh ng d ch v gi ng nói đ u h tr ti ng Anh, Google Voice Input ầ ế ữ ị ụ ọ ề ỗ ợ ếtrong Android và Voice Dictation trong iOS 8 thì có h tr ti ng Vi t nh ng ỗ ợ ế ệ ưcũng còn nhi u h n ch Đó là ch a nói đ n vi c m i vùng mi n l i có cách ề ạ ế ư ế ệ ỗ ề ạnói, gi ng đi u khác nhau m c dù h s d ng cùng m t ngôn ng ọ ệ ặ ọ ử ụ ộ ữ
Tuy nhiên, v i cách các máy d ch thu t hi n nay đang ho t đ ng, chúng ớ ị ậ ệ ạ ộ
ta ch c n truy n đo n ghi âm vào m ng n ron và đào t o nó đ t o ra "b n ỉ ầ ề ạ ạ ơ ạ ể ạ ả
d ch", đó cũng là đi u mà nh n di n gi ng nói v i deep learning hị ề ậ ệ ọ ớ ướng t i:ớ
Hình . Input và output c a Công ngh nh n di n gi ng nói ủ ệ ậ ệ ọ
V n đ l n nh t chính là t c đ nói bi n thiên. M t ngấ ề ớ ấ ố ộ ế ộ ười có th nói ể
"Hello" r t nhanh và ngấ ười khác nói "heeeellllllloooooo!" c c ch m, t o ra âmự ậ ạ thanh dài h n v i nhi u d li u h n. C 2 âm đ u nên đơ ớ ề ữ ệ ơ ả ề ược nh n d ng chínhậ ạ xác là t m t "hello!". T đ ng ch nh file âm thanh v i nhi u bi n th đ ừ ộ ự ộ ỉ ớ ề ế ể ộdài khác nhau c a t ng t đ t o ra văn b n đ ng nh t l i khá khó.ủ ừ ừ ể ạ ả ồ ấ ạ
Trang 13Đ x lý v n đ này, chúng ta s s d ng m t s k thu t đ c bi t và ể ử ấ ề ẽ ử ụ ộ ố ỹ ậ ặ ệthêm m t vài bộ ước vào m ng deep learning.ạ
a. K thu t x lý ngôn ng t nhiên (Natural Language Processing)ỹ ậ ử ữ ự
X lý ngôn ng t nhiên (Natural Language Processing – NLP) là t p h pử ữ ự ậ ợ
c a nhi u thu n toán ph c t p nh m phân tích m nh l nh c a ngủ ề ậ ứ ạ ằ ệ ệ ủ ười dùng
nh ng không b t bu c h ph i nói theo m t c u trúc câu đ nh s n. Nhi u nămư ắ ộ ọ ả ộ ấ ị ẵ ề
trước khi mu n đi u khi n b ng gi ng nói, b n ch có th nói nh ng th nhố ề ể ằ ọ ạ ỉ ể ữ ứ ư
"M b n đ , "Báo th c lúc 5 gi sáng". Còn bây gi thì nh có NLP, ta có thở ả ồ ứ ờ ờ ờ ể nói các câu nh "Siri, hãy đánh th c tôi lúc 5 gi sáng ngày mai".ư ứ ờ
NLP cũng không ph i là đ n gi n đ phát tri n. C Apple, Google và ả ơ ả ể ể ảMicrosoft đ u ph i đ u t r t nhi u ti n b c và ngu n l c đ có th đ a ề ả ầ ư ấ ề ề ạ ồ ự ể ể ưNLP lên đ n m c ti n b nh hi n nay. M c dù v y, các công ty v n ph i ế ứ ế ộ ư ệ ặ ậ ẫ ả
ti p t c nghiên c u đ c i thi n đ chính xác cũng nh h tr thêm nhi u ế ụ ứ ể ả ệ ộ ư ỗ ợ ềngôn ng khác nhau.ữ
b. Chuy n âm thanh thành sể ố
Bước đ u tiên trong nh n di n gi ng nói khá rõ ràng chúng ta c n ầ ậ ệ ọ ầ
truy n sóng âm vào máy tính, xem hình nh là t p h p giá tr , v i m i giá tr ề ả ậ ợ ị ớ ỗ ị
đ i di n cho đ sáng c a đi m nh, đ truy n vào m ng n ron. Sóng âm có ạ ệ ộ ủ ể ả ể ề ạ ơ
m t chi u d li u. m i th i đi m, chúng có m t giá tr cao đ Đ chuy n ộ ề ữ ệ Ở ỗ ờ ể ộ ị ộ ể ểsóng âm thành s , chúng ta ch c n ghi l i đ cao c a sóng t ng kho ng:ố ỉ ầ ạ ộ ủ ở ừ ả
Hình Ví dụ về lấy mẫu sampling 1