1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn Công nghệ phần mềm: Tìm hiểu công nghệ nhận diện giọng nói

27 30 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,08 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung của tiểu luận giới thiệu về công nghệ nhận diện giọng nói; tổng quan về công nghệ nhận diện giọng nói; một số ứng dụng về công nghệ nhận diện giọng nói; từ đó đề xuất phương hướng phát triển.

Trang 1

TÌM HI U CÔNG NGH  NH N DI N GI NG NÓI Ể Ệ Ậ Ệ Ọ

Gi ng viên h ả ướ ng d n:   M nh Thiên Lý

Trang 2

L I M  Đ U Ờ Ở Ầ

Ngày nay, công ngh  thông tin ngày càng phát tri n cùng v i nh ng ti n ệ ể ớ ữ ế

b  vộ ượ ậ ủt b c c a khoa h c k  thu t nói chung, có r t nhi u công ngh  m i ọ ỹ ậ ấ ề ệ ớ

được cho ra m t. ắ

H n m t th p k  qua, v i s  phát tri n m nh m  c a công ngh  thông ơ ộ ậ ỷ ớ ự ể ạ ẽ ủ ệtin, công ngh  x  lý ti ng nói nh  mã hoá, nh n d ng ti ng nói, chuy n l i ệ ử ế ư ậ ạ ế ể ờnói thành văn b n, chuy n ch  vi t thành l i nói, … đã tr  thành v n đ  ả ể ữ ế ờ ở ấ ềnghiên c u tr ng đi m đứ ọ ể ược nhi u nhà khoa h c quan tâm   nhi u lĩnh v c ề ọ ở ề ựkhác nhau nh : tin h c, toán h c, đi u khi n, đi n t , sinh h c, … ư ọ ọ ề ể ệ ử ọ

Trong th i gian g n đây, các nhà nghiên c u đang t p trung vào công ờ ầ ứ ậngh  nh n d ng gi ng nói và đã có m t s  thành công đ i v i vi c nh n ệ ậ ạ ọ ộ ố ố ớ ệ ậ

d ng ti ng Anh và m t s  ngôn ng  khác. Đã có nhi u công trình nghiên c u ạ ế ộ ố ữ ề ứ

v  lĩnh v c nh n d ng gi ng nói (Speech recognition) trên c  s  lý thuy t các ề ự ậ ạ ọ ơ ở ế

h  th ng thông minh nhân t o, nhi u k t qu  đã tr  thành s n ph m nh  Via ệ ố ạ ề ế ả ở ả ẩ ưVoice Gold c a hãng IBM, Dragon Natural Speaking c a Dragon System, ủ ủSpeech SDK c a Microsoft, … Tri n khai nh ng công trình nghiên c u và đ aủ ể ữ ứ ư  vào th c t   ng d ng v n đ  này là m t vi c làm h t s c có ý nghĩa trong ự ế ứ ụ ấ ề ộ ệ ế ứgiai đo n công nghi p hoá, hi n đ i hoá c a nạ ệ ệ ạ ủ ước nhà

Vì th , nhóm em đã ch n đ  tài “Tìm hi u Công ngh  nh n di n gi ng ế ọ ề ể ệ ậ ệ ọnói” đ  tìm hi u và trình bày v  n i dung cũng nh  t ng quan v  công ngh  ể ể ề ộ ư ổ ề ệTuy đã r t c  g ng h c h i và tìm hi u tài li u t  nhi u ngu n thông tin ấ ố ắ ọ ỏ ể ệ ừ ề ồ

nh ng đi u ki n th i gian và kh  năng có h n nên cũng không tránh đư ề ệ ờ ả ạ ược thi u sót. Kính mong đế ượ ực s  đóng góp ý ki n t  cô và các b n đ  nhóm em ế ừ ạ ể

có th  hoàn thi n h n v  bài báo cáo công ngh  này. ể ệ ơ ề ệ

Nhóm em xin chân thành c m  n.ả ơ

Thành ph  H  Chí Minh, ngày 28 tháng 02 năm 2021 ố ồ

Trang 4

M C L C Ụ Ụ

Trang 5

I. GI I THI U V  CÔNG NGH  NH N DI N Ớ Ệ Ề Ệ Ậ Ệ  

1. Gi i thi u v  n n công nghi p 4.0 và t m  nh hớ ệ ề ề ệ ầ ả ưởng

Công nghi p 4.0 t p trung vào công ngh  k  thu t s  t  nh ng th p k  ệ ậ ệ ỹ ậ ố ừ ữ ậ ỷ

g n đây lên m t c p đ  hoàn toàn m i v i s  tr  giúp c a k t n i thông qua ầ ộ ấ ộ ớ ớ ự ợ ủ ế ốInternet v n v t, truy c p d  li u th i gian th c và gi i thi u các h  th ng ạ ậ ậ ữ ệ ờ ự ớ ệ ệ ố

v t lý không gian m ng. Công nghi p 4.0 cung c p m t cách ti p c n toàn ậ ạ ệ ấ ộ ế ậ

di n h n, liên k t và toàn di n h n cho s n xu t. Nó k t n i v t lý v i k  ệ ơ ế ệ ơ ả ấ ế ố ậ ớ ỹthu t s  và cho phép c ng tác và truy c p t t h n gi a các b  ph n, đ i tác, ậ ố ộ ậ ố ơ ữ ộ ậ ốnhà cung c p, s n ph m và con ngấ ả ẩ ười. Công nghi p 4.0 trao quy n cho các ệ ề

ch  doanh nghi p ki m soát và hi u rõ h n m i khía c nh ho t đ ng c a h  ủ ệ ể ể ơ ọ ạ ạ ộ ủ ọ

và cho phép h  t n d ng d  li u t c th i đ  tăng năng su t, c i thi n quy ọ ậ ụ ữ ệ ứ ờ ể ấ ả ệtrình và thúc đ y tăng trẩ ưởng

Công nghi p 4.0 cho phép các nhà máy thông minh, s n ph m thông minhệ ả ẩ  

và chu i cung  ng cũng thông minh, và làm cho các h  th ng s n xu t và d chỗ ứ ệ ố ả ấ ị  

v  tr  nên linh ho t, linh ho t và đáp  ng khách hàng h n. Các thu c tính c a ụ ở ạ ạ ứ ơ ộ ủ

h  th ng s n xu t và d ch v  v i Công nghi p 4.0 đã đệ ố ả ấ ị ụ ớ ệ ược nêu b t và nh ng ậ ữ

l i ích mà Công nghi p 4.0 mang l i cho các doanh nghi p đã đợ ệ ạ ệ ược th o lu n.ả ậ  Trong tương lai, khoa h c và công ngh  ti p t c phát tri n và đóng vai trò ọ ệ ế ụ ểngày càng quan tr ng đ i v i quá trình phát tri n kinh t  xã h i c a m i qu c ọ ố ớ ể ế ộ ủ ỗ ốgia. Tri th c đứ ược xác đ nh là l c lị ự ượng s n xu t tr c ti p và là đ ng l c phátả ấ ự ế ộ ự  tri n hàng đ u đ i v i m i qu c gia. Đ  phát tri n b n v ng, các qu c gia ể ầ ố ớ ọ ố ể ể ề ữ ố

ph i ti p t c đ y m nh đ u t  phát tri n khoa h c và công ngh  nh m  ng ả ế ụ ẩ ạ ầ ư ể ọ ệ ằ ứ

d ng thành t u khoa h c và công ngh  vào s n xu t, đ c bi t là nh ng thành ụ ự ọ ệ ả ấ ặ ệ ữ

t u c a cách m ng công nghi p l n th  t  nh m t o ra các s n ph m và côngự ủ ạ ệ ầ ứ ư ằ ạ ả ẩ  ngh  s n xu t m i. T i đó công ngh  nh n di n và gi  l p gi ng nói đệ ả ấ ớ ớ ệ ậ ệ ả ậ ọ ược ra 

đ i đ  đáp nhu c u phát tri n c a con ngờ ể ầ ể ủ ười

2. S  lơ ược v  l ch s  công ngh  nh n di n gi ng nóiề ị ử ệ ậ ệ ọ

Trước đây, vi c đi u khi n m t c  máy b ng cách nói chuy n v i chúngệ ề ể ộ ỗ ằ ệ ớ  

ch  là nh ng câu chuy n trong khoa h c vi n tỉ ữ ệ ọ ễ ưởng. Nh ng vi n tư ễ ưởng này đang d n tr  thành hi n th c v i s  phát tri n vầ ở ệ ự ớ ự ể ượ ật b c v  công ngh , đ c ề ệ ặ

bi t là s  phát tri n c a Trí tu  nhân t o (AI) và nh ng n n t ng khác đ  t o ệ ự ể ủ ệ ạ ữ ề ả ể ạ

Trang 6

ra m t giao di n ngộ ệ ười dùng cho phép s  d ng gi ng nói đ  đi u khi n các ử ụ ọ ể ề ểthi t b  công ngh  ế ị ệ

Năm 1877,  ng d ng nh n di n gi ng nói đ u tiên đứ ụ ậ ệ ọ ầ ượ ạc t o ra khi Thomas Edison phát minh ra máy ghi âm, thi t b  đ u tiên ghi và tái ế ị ầ

t o âm thanh.ạ

Năm 1952, các k  s  t i Bell Labs đã phát tri n m t b  nh n d ng ỹ ư ạ ể ộ ộ ậ ạ

ch  s  t  đ ng có tên Audrey. Audrey cao 6 feet, có nhi u tín hi u ữ ố ự ộ ề ệ

tương t  v i t  đi n, b  khu ch đ i và b  l c, ch  nh n ra 10 ch  sự ớ ụ ệ ộ ế ạ ộ ọ ỉ ậ ữ ố 

được nói b i m t gi ng nói duy nh t. M c dù thi t b  có th  nh n ra ở ộ ọ ấ ặ ế ị ể ậ

đ u vào b ng gi ng nói v i đ  chính xác 97­99% nh ng chính vì kíchầ ằ ọ ớ ộ ư  

thướ ớc l n, chi phí cao và thi t b  đi n t  ph c t p nên nó đã không ế ị ệ ử ứ ạ

th  tr  thành m t s n ph m để ở ộ ả ẩ ược thương m i hóa. Tuy nhiên, thi t ạ ế

b  Audrey này cũng đã đánh d u s  kh i đ u c a công ngh  nh n ị ấ ự ở ầ ủ ệ ậ

d ng gi ng nói và ti p t c cho nh ng nghiên c u sau đó. H  th ng ạ ọ ế ụ ữ ứ ệ ốAudrey còn được xem là thi t b  nh n d ng gi ng nói đ u tiên.ế ị ậ ạ ọ ầ

Năm 1962, máy Shoe box được IBM phát tri n, có th  nh n ra 16 t  ể ể ậ ừ

ti ng anh, 10 ch  s  và 6 l nh s  h cế ữ ố ệ ố ọ

T  nh ng năm 1971 – 1976, B  Qu c phòng M  đã tài tr  cho ừ ữ ộ ố ỹ ợ

chương trình DARPA SUR (Nghiên c u hi u v  l i nói), d n đ n s  ứ ể ề ờ ẫ ế ựphát tri n c a Harpy t o ra b i Carnegie Mellon có th  hi u để ủ ạ ở ể ể ược 

nh  tìm th i gian chi u phim đ a phư ờ ế ị ương, nghe thông tin giao thông, báo giá c  phi u, đ t chuy n bay máy bay, chuy n ti n gi a các tài ổ ế ặ ế ể ề ữkho n, đ t mua thu c theo toa,  M i th  ch  xoay quanh chi c đi n ả ặ ố ọ ứ ỉ ế ệtho i c m tay và gi ng nói c a con ngạ ầ ọ ủ ười. Các h  th ng IVR đã tr  ệ ố ởthành xu hướng ch  đ o trong nh ng năm 2000 và là m t ph n chính ủ ạ ữ ộ ầ

c a các d ch v  chăm sóc và h  tr  khách hàng ngày nay.ủ ị ụ ỗ ợ

Năm 1992, Apple cũng s n xu t h  th ng nh n d ng gi ng nói liên ả ấ ệ ố ậ ạ ọ

t c theo th i gian th c hi n, có th  nh n ra lên đ n 20.000 t ụ ờ ự ệ ể ậ ế ừ

Trang 7

Năm 2006, Apple đã gi i thi u khái ni m v  Siri, cho phép ngớ ệ ệ ề ười dùng tương tác v i các máy s  d ng gi ng nói. Sau đó, Google đã ớ ử ụ ọ

gi i thi u m t nghiên c u h  tr  gi ng nói vào năm 2007. Nh ng gã ớ ệ ộ ứ ỗ ợ ọ ữ

kh ng l  công ngh  nh  Microsoft, Apple và Google sau đó đã tung raổ ồ ệ ư  

tr  lý gi ng nói cho thi t b  di đ ng.ợ ọ ế ị ộ

Đ n năm 2008, Google n i lên v i  ng d ng Google Voice Search ế ổ ớ ứ ụdành cho Iphone

Năm 2010, Google đã gi i thi u và nh n d ng đớ ệ ậ ạ ược cá nhân hoá, các thi t b  Android s  ghi l i các truy v n gi ng nói c a ngế ị ẽ ạ ấ ọ ủ ười dùng khác nhau đ  phát tri n m t mô hình gi ng nói nâng cao. Nó bao g mể ể ộ ọ ồ  

đ  bàn và thi t b  di đ ng Windows 10 nh  m t ph n c a vi c h p ể ế ị ộ ư ộ ầ ủ ệ ợ

nh t Windows Phone vào h  đi u hành nói chung.ấ ệ ề

Vào tháng 5 năm 2016, Tr  lý Google (Google Assistant) là m t tr  lý ợ ộ ợ

cá nhân  o đả ược phát tri n b i Google cho thi t b  di đ ng và nhà ể ở ế ị ộthông minh, được ra m t l n đ u t i h i ngh  nhà phát tri n c a ắ ầ ầ ạ ộ ị ể ủhãng. Không nh  Google Now, Tr  lý Google có th  tham gia các ư ợ ể

cu c trò chuy n hai chi u. Tr  lý Google độ ệ ề ợ ược đ a vào  ng d ng ư ứ ụ

nh n tin Google Allo, và loa thông minh Google Home.ắ

năm 2017, Google Assistant đã và đang được ti p t c m  r ng h  tr  ế ụ ở ộ ỗ ợcho m t lộ ượng l n thi t b , bao g m c  xe h i và các thi t b  nhà ớ ế ị ồ ả ơ ế ịthông minh. Các ch c năng c a Assistant cũng có th  đứ ủ ể ược b  sung ổ

b i các nhà phát tri n bên th  ba.ở ể ứ

Trang 8

3. Gi i thi u v  công ngh  nh n di n gi ng nóiớ ệ ề ệ ậ ệ ọ

a. Công ngh  nh n di n gi ng nói là gì?ệ ậ ệ ọ

Công ngh  nh n di n gi ng nói là m t b  máy ho c h  th ng có kh  ệ ậ ệ ọ ộ ộ ặ ệ ố ảnăng nh n và d ch (ho c hi u và th c hi n) các l nh thu đậ ị ặ ể ự ệ ệ ượ ừ ọc t  gi ng nói con người. Nó đượ ử ục s  d ng r t nhi u trong lĩnh v c trí tu  nhân t o (AI), ấ ề ự ệ ạGoogle Assistant là m t ví d  đi n hình. Đây là m t b  máy ho c h  th ng cóộ ụ ể ộ ộ ặ ệ ố  

kh  năng nh n và d ch (ho c hi u và th c hi n) các l nh thu đả ậ ị ặ ể ự ệ ệ ượ ừ ọc t  gi ng nói con người

Nh n di n gi ng nói g m 2 thu t ng : Voice recognition và Speech ậ ệ ọ ồ ậ ữ

recognition

Voice recognition liên quan đ n vi c xác đ nh gi ng nói chính xác c a ế ệ ị ọ ủ

m t cá nhân nào đó, tộ ương t  m t phự ộ ương pháp nh n di n sinh tr c ậ ệ ắ

h c.ọ

Speech recognition là vi c xác đ nh nh ng t  ng  trong câu nói r i ệ ị ữ ừ ữ ồ

d ch chúng sang ngôn ng  máy tính.ị ữ

b. Cách th c ho t đ ng c a công ngh  nh n di n gi ng nóiứ ạ ộ ủ ệ ậ ệ ọ

Đ  chuy n gi ng nói sang văn b n ho c câu l nh máy tính, h  th ng ể ể ọ ả ặ ệ ệ ố

ph i th c hi n m t quá trình g m nhi u bả ự ệ ộ ồ ề ước ph c t p. Khi nói, b n s  t o ứ ạ ạ ẽ ạ

ra nh ng rung đ ng trong không khí. B  chuy n đ i tín hi u tữ ộ ộ ể ổ ệ ương t  sang sự ố (Analog­to­Digital Converter, ADC) chuy n các sóng tể ương t  (analog) này ựthành d  li u mà máy tính có th  hi u đữ ệ ể ể ược

Đ  làm đi u này, h  th ng thu th p các m u (ho c s  hóa) âm thanh ể ề ệ ố ậ ẫ ặ ố

b ng cách đo chính xác sóng âm   các kho ng th i gian g n nhau, sau đó l c ằ ở ả ờ ầ ọ

âm thanh đã đượ ốc s  hoá đ  lo i b  ti ng  n, đôi khi tách chúng thành các d iể ạ ỏ ế ồ ả  

t n s  khác nhau. Nó cũng "bình thầ ố ường hóa" ho c tinh ch nh âm thanh đ n ặ ỉ ế

m t m c âm lộ ứ ượng không thay đ i ho c s p x p theo th i gian. Không ph i ổ ặ ắ ế ờ ảlúc nào con người cũng nói v i t c đ  nh  nhau nên âm thanh ph i đớ ố ộ ư ả ược đi u ề

ch nh cho phù h p v i t c đ  mà âm thanh m u đỉ ợ ớ ố ộ ẫ ược ghi nh n trong b  nh  ậ ộ ớmáy

Ti p theo, tín hi u đế ệ ược chia thành nhi u ph n nh  (th i gian kho ng ề ầ ỏ ờ ảvài ph n trăm giây, th m chí là ph n ngàn giây trong trầ ậ ầ ường h p có ph  âm ợ ụ

cu i khó phân bi t nh  "p" ho c "t"). Chố ệ ư ặ ương trình sau đó đ t nh ng ph n âmặ ữ ầ  thanh này vào các âm v  có s n trong ngôn ng  thích h p.ị ẵ ữ ợ

Trang 9

V i s  phát tri n c a công ngh ,  ng d ng nh n d ng gi ng nói ngày ớ ự ể ủ ệ ứ ụ ậ ạ ọcàng được hoàn thi n v i tính chính xác cao h n. Thay vì nh n d ng t ng chệ ớ ơ ậ ạ ừ ữ cái, công ngh  này còn có kh  năng nh n d ng đệ ả ậ ạ ược theo ng  nghĩa c a câu ữ ủnói đ  gi m thi u sai sót trong quá trình nh n d ng.ể ả ể ậ ạ

c.  u, nhƯ ược đi m c a công ngh  nh n di n gi ng nóiể ủ ệ ậ ệ ọ

 Ưu đi m c a ph n m m nh n di n gi ng nói:ể ủ ầ ề ậ ệ ọ

­    Kh  năng truy c p: Đây là m t thu n l i đ i v i ngả ậ ộ ậ ợ ố ớ ười khuy t t t khiế ấ  

h  không th  dùng chu t hay bàn phím, nh ng có th  dùng gi ng nói đ  h  ọ ể ộ ư ể ọ ể ệ

th ng chuy n thành văn b n, giúp nh p li u hay đi u khi n m t cách d  ố ể ả ậ ệ ề ể ộ ễdàng

­    Ki m tra chính t : Ngể ả ười dùng có th  truy c p vào các công c  ch nh ể ậ ụ ỉ

s a tử ương t  m t gi i pháp x  lý văn b n chu n. Đự ộ ả ử ả ẩ ương nhiên m i th  s  ọ ứ ẽkhông chính xác 100% nh ng ph n m m có th  nh n di n và x  lý ph n l n ư ầ ề ể ậ ệ ử ầ ớ

l i chính t , ng  pháp.ỗ ả ữ

­    T c đ  nhanh: Ph n m m nh n d ng gi ng nói có th  n m b t gi ngố ộ ầ ề ậ ạ ọ ể ắ ắ ọ  nói c a ngủ ười dùng v i t c đ  nhanh h n so v i khi nh p li u b ng bàn ớ ố ộ ơ ớ ậ ệ ằ

phím, vì v y t c đ  khi nh p li u b ng gi ng nói s  c i thi n đáng k ậ ố ộ ậ ệ ằ ọ ẽ ả ệ ể

 Nhược đi m c a ph n m m nh n di n gi ng nói:ể ủ ầ ề ậ ệ ọ

­    Thi t l p và "d y": M c dù t t c  ph n m m nh n d ng gi ng nói ế ậ ạ ặ ấ ả ầ ề ậ ạ ọ

hi n nay đ u h a h n có th  ho t đ ng sau vài phút thi t l p, nh ng th c s  ệ ề ứ ẹ ể ạ ộ ế ậ ư ự ựquá trình ghi nh n, làm quen v i gi ng nói, âm đi u và t c đ  nói c a ngậ ớ ọ ệ ố ộ ủ ười dùng có đôi chút ph c t p và t n th i gian. M t s  ph n m m nh n d ng ứ ạ ố ờ ộ ố ầ ề ậ ạ

gi ng nói còn b t ngọ ắ ười dùng nói l i, th m chí không th  nh n di n đạ ậ ể ậ ệ ược 

b n đang nói gì.ạ

­    Ch a th c s   n đ nh: Vi c đang nói mà b  ng t gi a ch ng có th  ư ự ự ổ ị ệ ị ắ ữ ừ ểkhi n ngế ười dùng c m th y khó ch u. Đ c bi t, m t s  ngả ấ ị ặ ệ ộ ố ười không thích 

ph n m m nh n d ng gi ng nói vì nó gây b i r i cho ngầ ề ậ ạ ọ ố ố ười dùng khi lên 

xu ng gi ng hay b ng d ng nói nh  l i.ố ọ ỗ ư ỏ ạ

­    Kho t  v ng h n ch : Ngừ ự ạ ế ười dùng ph i s n sàng ch p nh n trả ẵ ấ ậ ường 

h p ph n m m x  lý quá lâu vì nh ng t  v a nói không n m trong t  đi n cóợ ầ ề ử ữ ừ ừ ằ ừ ể  

s n. Đó là đi u các nhà nghiên c u đang c  g ng c i ti n   ph n m m nh n ẵ ề ứ ố ắ ả ế ở ầ ề ậ

d ng gi ng nói hi n nay.ạ ọ ệ

Trang 10

d. M t s  th  vi n h  tr  cho công ngh  nh n di n gi ng nóiộ ố ư ệ ỗ ợ ệ ậ ệ ọ

Nuance là cái tên được nh c đ n nhi u nh t trong vi c cung c p ắ ế ề ấ ệ ấ

th  vi n gi ng nói cho app di đ ng. Chính nh  vào nh ng th  vi n ư ệ ọ ộ ờ ữ ư ệ

nh  th  này mà l p trình viên không c n ph i t  mình thi t k  h  ư ế ậ ầ ả ự ế ế ệ

th ng nh n d ng, phiên d ch cho app mà ch  c n xài l i cái có s n, ti tố ậ ạ ị ỉ ầ ạ ẵ ế  

ki m đệ ược nhi u th i gian, công s c và ti n b c. Nuance có h  tr  ề ờ ứ ệ ạ ỗ ợcho ti ng Vi t trong  ng d ng Dragon Dictation do chính hãng này ế ệ ứ ụphát tri n.ể

OpenEars cũng là m t th  vi n khác nh ng nó thu c d ng ngu n ộ ư ệ ư ộ ạ ồ

m  và ho t đ ng offline, h n ch  là ch  h  tr  ti ng Anh và Tây Ban ở ạ ộ ạ ế ỉ ỗ ợ ếNha. Vài cái tên khác có th  k  đ n nh  Ivona, iSpeech, Vocalkit and ể ể ế ưAcapela

M t cách khác mà nhi u ph n m m hi n cũng đang xài đó là t n ộ ề ầ ề ệ ậ

d ng b  ngu n nh n d ng có s n trên các h  đi u hành di đ ng. ụ ộ ồ ậ ạ ẵ ệ ề ộ

Người dùng có th  kích ho t tính năng này   nh ng ch  c n nh p văn ể ạ ở ữ ỗ ầ ậ

b n. T  iOS 7 v  trả ừ ề ước thì tính năng này không h  tr  ti ng Vi t, ỗ ợ ế ệ

ph i lên iOS 8 m i có. Google thì b t đ u h  tr  nh p li u ti ng Vi t ả ớ ắ ầ ỗ ợ ậ ệ ế ệcho Android kho ng m t năm v  trả ộ ề ước. Ngoài ra, Apple, Google cũng 

có cung c p các hàm API giúp app c a l p trình viên bi t nói ch  v i ấ ủ ậ ế ỉ ớvài dòng mã ngu n.ồ

Trang 11

II. T NG QUAN V  CÔNG NGH  NH N DI N Ổ Ề Ệ Ậ Ệ  

1. Mô hình tri n khai công ngh  nh n di n gi ng nóiể ệ ậ ệ ọ

Hình Mô hình công nghệ nhận diện giọng nói

Có nhi u cách th c mà các công ty hi n nay đang tri n khai, có th  k  ề ứ ệ ể ể ể

đ n 2 phế ương pháp ph  bi n nh  sau:ổ ế ư

Đi n toán đám mây: Trong trệ ường h p này, vi c nh n d ng, x  lý ợ ệ ậ ạ ửngôn ng  s  di n ra trên máy ch  c a các công ty cung c p d ch v  ữ ẽ ễ ủ ủ ấ ị ụ

Phương pháp đám mây giúp vi c nh n d ng đệ ậ ạ ược chính xác h n,  ng ơ ứ

d ng thì có dung lụ ượng nh , nh ng bù l i thì thi t b    phía ngỏ ư ạ ế ị ở ười dùng ph i luôn k t n i v i Internet. Đ  tr  trong quá trình g i gi ng ả ế ố ớ ộ ễ ử ọnói t  máy lên server r i tr  k t qu  t  server v  l i máy cũng là ừ ồ ả ế ả ừ ề ạ

nh ng th  đáng cân nh c. ữ ứ ắ

Tích h p th ng vào app: V i phợ ẳ ớ ương th c này, quá trình x  lý gi ng ứ ử ọnói s  di n ra trong n i b   ng d ng, không c n giao ti p v i bên ẽ ễ ộ ộ ứ ụ ầ ế ớngoài, chính vì th  t c đ  s  nhanh h n. Ngế ố ộ ẽ ơ ười dùng cũng không b t ắ

bu c ph i k t n i vào m ng thộ ả ế ố ạ ường tr c. Tuy nhiên, gi i pháp này ự ả

g p nhặ ược đi m đó là khi có c p nh t ho c thay đ i gì đó v  b  máy ể ậ ậ ặ ổ ề ộ

nh n d ng, nhà s n xu t s  ph i c p nh t l i c  m t app, trong khi ậ ạ ả ấ ẽ ả ậ ậ ạ ả ộ

v i phớ ương th c đám mây thì nh ng thay đ i đó ch  c n làm   phía ứ ữ ổ ỉ ầ ở

Trang 12

server. Kích thướ ức  ng d ng cũng s  tăng lên, có th  lên t i c  vài ụ ẽ ể ớ ảtrăm MB.

2. Các k  thu t đỹ ậ ược áp d ng trong công ngh  nh n di n gi ng nóiụ ệ ậ ệ ọ

Tho t nhìn thì vi c tri n khai công ngh  nh n d ng gi ng nói khá đ n ạ ệ ể ệ ậ ạ ọ ơ

gi n, nh ng th c ch t thì không ph i nh  th :ả ư ự ấ ả ư ế

­ Th  nh t, các nhà phát tri n ph i xây d ng nên m t công ngh  có th  ứ ấ ể ả ự ộ ệ ể

l ng nghe, phân tích và phiên d ch m t cách chính xác gi ng nói c a ngắ ị ộ ọ ủ ười dùng. N u không thì làm sao app bi t b n đang nói gì, còn n u đ  chính xác ế ế ạ ế ộkhông cao thì cũng nh  không.ư

­ Th  hai, v n đ  b n đ a hóa (localization) cũng là m t chuy n làm đau ứ ấ ề ả ị ộ ệ

đ u các l p trình viên. M i qu c gia s  có ngôn ng  c a riêng mình, v n đ  ầ ậ ỗ ố ẽ ữ ủ ấ ề

đó là làm th  nào đ  có th  h  tr  càng nhi u ngôn ng  càng t t. Hi n nay ế ể ể ỗ ợ ề ữ ố ệ

h u h t nh ng d ch v  gi ng nói đ u h  tr  ti ng Anh, Google Voice Input ầ ế ữ ị ụ ọ ề ỗ ợ ếtrong Android và Voice Dictation trong iOS 8 thì có h  tr  ti ng Vi t nh ng ỗ ợ ế ệ ưcũng còn nhi u h n ch  Đó là ch a nói đ n vi c m i vùng mi n l i có cách ề ạ ế ư ế ệ ỗ ề ạnói, gi ng đi u khác nhau m c dù h  s  d ng cùng m t ngôn ng ọ ệ ặ ọ ử ụ ộ ữ

Tuy nhiên, v i cách các máy d ch thu t hi n nay đang ho t đ ng, chúng ớ ị ậ ệ ạ ộ

ta ch  c n truy n đo n ghi âm vào m ng n ron và đào t o nó đ  t o ra "b n ỉ ầ ề ạ ạ ơ ạ ể ạ ả

d ch", đó cũng là đi u mà nh n di n gi ng nói v i deep learning hị ề ậ ệ ọ ớ ướng t i:ớ

Hình . Input và output c a Công ngh  nh n di n gi ng nói ủ ệ ậ ệ ọ

V n đ  l n nh t chính là t c đ  nói bi n thiên. M t ngấ ề ớ ấ ố ộ ế ộ ười có th  nói ể

"Hello" r t nhanh và ngấ ười khác nói "heeeellllllloooooo!" c c ch m, t o ra âmự ậ ạ  thanh dài h n v i nhi u d  li u h n. C  2 âm đ u nên đơ ớ ề ữ ệ ơ ả ề ược nh n d ng chínhậ ạ  xác là t  m t ­ "hello!". T  đ ng ch nh file âm thanh v i nhi u bi n th  đ  ừ ộ ự ộ ỉ ớ ề ế ể ộdài khác nhau c a t ng t  đ  t o ra văn b n đ ng nh t l i khá khó.ủ ừ ừ ể ạ ả ồ ấ ạ

Trang 13

Đ  x  lý v n đ  này, chúng ta s  s  d ng m t s  k  thu t đ c bi t và ể ử ấ ề ẽ ử ụ ộ ố ỹ ậ ặ ệthêm m t vài bộ ước vào m ng deep learning.ạ

a. K  thu t x  lý ngôn ng  t  nhiên (Natural Language Processing)ỹ ậ ử ữ ự

X  lý ngôn ng  t  nhiên (Natural Language Processing – NLP) là t p h pử ữ ự ậ ợ  

c a nhi u thu n toán ph c t p nh m phân tích m nh l nh c a ngủ ề ậ ứ ạ ằ ệ ệ ủ ười dùng 

nh ng không b t bu c h  ph i nói theo m t c u trúc câu đ nh s n. Nhi u nămư ắ ộ ọ ả ộ ấ ị ẵ ề  

trước khi mu n đi u khi n b ng gi ng nói, b n ch  có th  nói nh ng th  nhố ề ể ằ ọ ạ ỉ ể ữ ứ ư 

"M  b n đ , "Báo th c lúc 5 gi  sáng". Còn bây gi  thì nh  có NLP, ta có thở ả ồ ứ ờ ờ ờ ể nói các câu nh  "Siri, hãy đánh th c tôi lúc 5 gi  sáng ngày mai".ư ứ ờ

NLP cũng không ph i là đ n gi n đ  phát tri n. C  Apple, Google và ả ơ ả ể ể ảMicrosoft đ u ph i đ u t  r t nhi u ti n b c và ngu n l c đ  có th  đ a ề ả ầ ư ấ ề ề ạ ồ ự ể ể ưNLP lên đ n m c ti n b  nh  hi n nay. M c dù v y, các công ty v n ph i ế ứ ế ộ ư ệ ặ ậ ẫ ả

ti p t c nghiên c u đ  c i thi n đ  chính xác cũng nh  h  tr  thêm nhi u ế ụ ứ ể ả ệ ộ ư ỗ ợ ềngôn ng  khác nhau.ữ

b. Chuy n âm thanh thành sể ố

Bước đ u tiên trong nh n di n gi ng nói khá rõ ràng ­ chúng ta c n ầ ậ ệ ọ ầ

truy n sóng âm vào máy tính, xem hình  nh là t p h p giá tr , v i m i giá tr  ề ả ậ ợ ị ớ ỗ ị

đ i di n cho đ  sáng c a đi m  nh, đ  truy n vào m ng n ron. Sóng âm có ạ ệ ộ ủ ể ả ể ề ạ ơ

m t chi u d  li u.   m i th i đi m, chúng có m t giá tr  cao đ  Đ  chuy n ộ ề ữ ệ Ở ỗ ờ ể ộ ị ộ ể ểsóng âm thành s , chúng ta ch  c n ghi l i đ  cao c a sóng   t ng kho ng:ố ỉ ầ ạ ộ ủ ở ừ ả

Hình Ví dụ về lấy mẫu sampling 1

Ngày đăng: 09/05/2021, 04:31

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w