1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận: Tóm lược lịch sử phát triển nhận dạng tiếng nói

27 371 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 683,59 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Lời nói là phương tiện chính của giao tiếp giữa con người. Vì những lý do khác nhau, từ sự tò mò công nghệ, về cơ chế thực hiện cơ học khả năng nói của con người, mong muốn tự động hóa các nhiệm vụ đơn giản vốn đòi hỏi tương tác người-máy, nghiên cứu về nhận dạng tiếng nói tự động (và tổng hợp tiếng nói) bằng máy đã thu hút rất nhiều sự chú ý trong nhiều thập kỷ qua.

Trang 1

Tiểu luận

Tóm lược lịch sử phát triển

nhận dạng tiếng nói

Trang 2

MỤC LỤC

LỜI MỞ ĐẦU 2

PHẦN I TÓM LƯỢC LỊCH SỬ PHÁT TRIỂN NHẬN DẠNG TIẾNG NÓI 3

I TỪ CÁC MÔ HÌNH MÁY TẠO TIẾNG NÓI ĐẾN PHỔ TIẾNG 3

II NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN 5

III CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG NHỮNG NĂM 1970 7

IV HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990 11

V HƯỚNG ĐẾN MỘT CỖ MÁY CÓ THỂ GIAO TIẾP 18

VI TÓM TẮT 20

PHẦN II CÁC NGUYÊN TẮC SÁNG TẠO ĐÃ ĐƯỢC SỬ DỤNG 24

I NGUYÊN TẮC PHÂN NHỎ 24

II NGUYÊN TẮC PHẨM CHẤT CỤC BỘ 24

III NGUYÊN TẮC KẾT HỢP 24

IV NGUYÊN TẮC TÁCH KHỎI 24

V NGUYÊN TẮC LINH ĐỘNG 24

VI NGUYÊN TẮC GIẢI “THIẾU” HOẶC “THỪA” 25

VII NGUYÊN TẮC QUAN HỆ PHẢN HỒI 25

VIII NGUYÊN TẮC LIÊN TỤC TÁC ĐỘNG CÓ ÍCH 25

TÀI LIỆU THAM KHẢO 26

Trang 3

LỜI MỞ ĐẦU

Lời nói là phương tiện chính của giao tiếp giữa con người Vì những lý do khác nhau, từ sự tò mò công nghệ, về cơ chế thực hiện cơ học khả năng nói của con người, mong muốn tự động hóa các nhiệm vụ đơn giản vốn đòi hỏi tương tác người-máy, nghiên cứu về nhận dạng tiếng nói tự động (và tổng hợp tiếng nói) bằng máy đã thu hút rất nhiều sự chú ý trong nhiều thập kỷ qua

Từ những năm 1930, khi Homer Dudley của phòng thí nghiệm Bell đề xuất một mô hình hệ thống cho phân tích và tổng hợp tiếng nói, vấn đề nhận dạng tiếng nói tự động đã tiến triển liên tục, từ một máy đơn giản có khả năng phản ứng với một tập nhỏ các âm thanh đến một hệ thống phức tạp có khả năng phản ứng với ngôn ngữ nói tự nhiên Dựa trên những bước tiến trong mô hình thống kê tiếng nói trong những năm 1980, những hệ thống nhận dạng tiếng nói

tự động ngày nay cung cấp ứng dụng rộng rãi trong những nhiệm vụ yêu cầu giao tiếp người – máy như hệ thống xử lý cuộc gọi tự động trong các mạng điện thoại và những hệ thống truy xuất thông tin như cung cấp thông tin cập nhật về

du lịch, giá cả hàng hóa, chứng khoán, thông tin thời tiết… Bài tiểu luận này tóm tắt những bước tiến nổi bật trong nghiên cứu và phát triển nhận dạng tiếng nói tự động trong những thập kỷ gần đây và các nguyên tắc sáng tạo đã được sử dụng trong việc tạo ra các hệ thống nhận dạng tiếng nói

Trang 4

Hình 1 Phiên bản cỗ máy Kempelen của Wheatstone

Trong nửa đầu của thế kỉ 20, Fletcher và những người khác tại phòng thí nghiệm Bell đã đưa ra các dẫn chứng bằng tài liệu về mối quan hệ giữa phổ tiếng nói (sự phân bố cường độ của âm thanh tiếng nói thông qua tần số) và các

Trang 5

đặc tính âm thanh của nó cũng như tính dễ hiểu của nó đối với người nghe Trong thập niên 1930, Dudley Homer, người chịu ảnh hưởng rất nhiều bởi các nghiên cứu của Fletcher, phát triển một cỗ máy tổng hợp tiếng nói gọi là VODER (Voice Operating Demonstrator), là phiên bản điện tử (với điều khiển bằng cơ khí) của cỗ máy Wheatstone Hình 2 cho thấy một sơ đồ khối của VODER bao gồm một wrist bar để điều khiển tín hiệu, và bàn chân đạp để kiểm soát tần số dao động (cao độ của tiếng nói tổng hợp) Các tín hiệu truyền động được thông qua thông qua mười bộ lọc bandpass với cấp độ đầu ra được điều khiển bằng tay 10 bộ lọc bandpass này được sử dụng để làm thay đổi sự phân bố năng lượng của tín hiệu nguồn trên một phạm vi tần số, từ đó xác định các đặc tính của âm thanh tiếng nói tại loa Vì vậy, để tổng hợp một câu, người điều khiển VODER phải tìm hiểu làm thế nào để kiểm soát và điều khiển VODER để tạo ra câu nói VODER được giới thiệu tại hội chợ thế giới ở New York City vào năm 1939 và coi là một cột mốc quan trọng trong sự tiến triển của máy nói

Hình 2 Sơ đồ khối của cỗ máy VODER

Những người tiên phong về tiếng nói như Harvery Fletcher và Homer Dudley đã thiết lập một cách vững chắc tầm quan trọng của phổ tín hiệu để xác định chắc chắn các tính chất ngữ âm của tiếng nói Sau chuẩn được thiết lập bởi hai nhà khoa học xuất sắc, hầu hết các hệ thống hiện đại và các thuật toán nhận

Trang 6

dạng tiếng nói được dựa trên khái niệm về đo (time-varying) phổ cường độ tiếng nói (hoặc biến thể của nó là cepstrum), một phần do thực tế là đo phổ cường độ tiếng nói từ một tín hiệu là tương đối dễ dàng để thực hiện với kỹ thuật xử lý tín hiệu kỹ thuật số hiện đại

II NHỮNG HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐẦU TIÊN

Những nỗ lực sớm để thiết kế hệ thống nhận dạng tiếng nói tự động chủ yếu được dẫn đường bởi lý thuyết ngữ âm học, trong đó mô tả các yếu tố ngữ

âm của tiếng nói (những âm thanh cơ bản của ngôn ngữ) và cố gắng giải thích làm thế nào chúng được nhận ra trong một lời nói Những yếu tố này bao gồm các âm vị, vị trí tương ứng và cách thức phát âm được sử dụng để tạo ra âm thanh trong các ngữ cảnh ngữ âm khác nhau Ví dụ, để tạo ra một nguyên âm

ổn định, các dây thanh âm rung (để kích thích thanh quản), và không khí truyền qua thanh quản kết quả là âm thanh được cộng hưởng một cách tự nhiên giống như những gì xảy ra trong một ống âm thanh Các chế độ cộng hưởng tự nhiên này được gọi là các thành tố hay là các tần số thành tố, được biểu hiện như các vùng chính tập trung năng lượng trong phổ cường độ tiếng nói Năm 1952, Davis, Biddulph, và Balashek của phòng thí nghiệm Bell đã xây dựng một hệ thống nhận biết các chữ số cô lập do một người nói, bằng cách sử dụng các tần

số thành tố đo (ước tính) vùng nguyên âm của mỗi chữ số Hình 3 cho thấy biểu

đồ đường biểu diễn thành tố cùng với phạm vi của các tần số thành tố thứ nhất

và thứ hai cho mỗi chữ số từ 1 đến 9 và 0 Những đường biểu diễn này đóng vai trò là "mô hình tham chiếu" để xác định danh tính của một con số chưa biết

Trang 7

Hình 3 Biểu đồ biểu diễn thành tố 1 và 2 của các chữ số

Trong thập niên 1950, Olson và Belar của phòng thí nghiệm RCA xây dựng một hệ thống nhận dạng 10 âm tiết do một người nói [10] Và tại phòng thí nghiệm MIT Lincoln, anh em nhà Forgie đã xây dựng bộ nhận dạng 10 nguyên âm độc lập với người nói Trong thập niên 1960, một số phòng thí nghiệm ở Nhật đã chứng minh khả năng xây dựng phần cứng với mục đích đặc biệt để thực hiện một nhiệm vụ nhận dạng tiếng nói Đáng chú ý nhất là nhận diện nguyên âm của Suzuki và Nakata ở phòng nghiên cứu vô tuyến tại Tokyo, nhận diện âm vị của Sakai và Doshita tại Đại học Kyoto, và nhận diện chữ số của phòng thí nghiệm NEC Nghiên cứu của Sakai và Doshita đánh dấu việc sử dụng lần đầu tiên của một phân đoạn (segmenter) tiếng nói để phân tích và nhận diện tiếng nói tại các phần khác nhau của một lời nói đầu vào Ngược lại, nhận diện chữ số bị cô lập ngầm giả định rằng lời nói chứa một chữ số đầy đủ (và không có âm thanh tiếng nói khác xen vào) và do đó không cần một

"segmenter" rõ ràng Nghiên cứu của trường Đại học Kyoto có thể là coi là tiền thân của một hệ thống nhận dạng tiếng nói liên tục

Một hệ thống nhận dạng khác là Fry and Denes tại trường Đại học College

ở Anh, đã xây dựng một bộ nhận diện âm vị để nhận ra 4 nguyên âm và 9 phụ

âm Bằng cách kết hợp thông tin thống kê về trình tự âm vị trong tiếng Anh, họ tăng độ chính xác nhận dạng âm vị tổng thể cho các từ bao gồm hai hoặc nhiều

âm vị Nghiên cứu này đánh dấu lần sử dụng đầu tiên cú pháp thống kê (ở cấp

Trang 8

độ âm vị) trong nhận dạng tiếng nói tự động

Một thay thế cho việc sử dụng phân đoạn tiếng nói là khái niệm của việc

áp dụng time scale không thống nhất cho việc sắp xếp các mẫu tiếng nói Khái niệm này bắt đầu được chấp nhận trong thập niên 1960 thông qua nghiên cứu của Tom Martin tại phòng thí nghiệm RCA và Vintsyuk ở Liên Xô Martin thừa nhận sự cần thiết để đối phó với thời gian không thống nhất trong các lời nói được lặp lại và đề nghị một loạt các giải pháp, bao gồm phát hiện điểm kết thúc của một lời nói, điều này nâng cao độ tin cậy của việc nhận diện Vintsyuk đề xuất việc sử dụng lập trình động cho sự liên kết thời gian giữa hai lời nói để lấy được đánh giá đầy đủ về sự tương tự của chúng Nghiên cứu của ông, mặc dù vẫn chưa được rõ ràng nhưng đã đi trước Sakoe và Chiba cũng như những người khác đã đề xuất những phương pháp chính thức hơn, thường được biết đến là dynamic time warping trong so sánh mẫu tiếng nói Kể từ cuối những năm 1970, chủ yếu là sự công bố của Sakoe và Chiba, lập trình động, trong rất nhiều biến thể khác nhau (bao gồm thuật toán Viterbi), đã trở thành một kỹ thuật không thể thiếu trong nhận dạng tiếng nói tự động

III CÁC ĐỊNH HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1970

Trong cuối những năm 1960, Atal và Itakura độc lập xây dựng các khái niệm cơ bản của mã dự đoán trước tuyến tính (LPC) Nó đã đơn giản hóa rất nhiều việc đánh giá việc thanh quản phản ứng với các sóng tiếng nói Vào giữa những năm 1970, những ý tưởng cơ bản của việc áp dụng công nghệ nhận dạng mẫu gốc để nhận dạng tiếng nói, dựa trên phương pháp LPC, đã được đề xuất bởi Itakura, Rabiner, Levinson và một số người khác

Cũng trong khoảng thời gian này, dựa trên sự thành công của mình trước

đó về nghiên cứu lời nói, Tom Martin thành lập công ty thương mại về nhận dạng tiếng nói đầu tiên được gọi là Threshold Technology, Inc và phát triển sản phẩm nhận dạng tiếng nói tự động thực sự đầu tiên được gọi là hệ thống VIP-

100 Hệ thống này chỉ được sử dụng trong một vài ứng dụng đơn giản, chẳng hạn như bởi các hãng sản xuất tấm mặt TV (để kiểm soát chất lượng) và FedEx

Trang 9

(cho việc sắp xếp gói hàng trên băng tải), nhưng tầm quan trọng của nó là ở cách nó ảnh hưởng đến Advanced Research Projects Agency (ARPA) của Bộ Quốc phòng Mỹ để tài trợ cho chương trình Speech Understanding Research (SUR) trong thời gian đầu những năm 1970 Trong số các hệ thống được xây dựng bởi các nhà thầu của chương trình ARPA là hệ thống “Harpy” của Đại học Carnegie Mellon Nó có thể nhận dạng tiếng nói bằng cách sử dụng một bộ

từ vựng 1.011 từ, và với độ chính xác tương đối Một trong những đóng góp đặc biệt từ hệ thống “Harpy” là các khái niệm về làm một đồ thị tìm kiếm, miêu

tả ngôn ngữ nhận dạng tiếng nói như là một mạng được kết nối từ miêu tả của các từ, các quy tắc ngữ pháp và các quy định ranh giới của các từ Trong hệ thống Harpy, các tiếng nói đầu vào, sau khi đi qua một phân tích tham số, được phân đoạn và sau đó chuỗi các tham số phân đoạn của tiếng nói được so sánh với mẫu sử dụng khoảng cách Itakura Việc tìm kiếm đồ thị, dựa trên một thuật toán băm, biên dịch, đưa ra giả thuyết, cắt xén, và sau đó kiểm tra chuỗi các từ (hoặc âm thanh) được nhận dạng với ràng buộc của hệ thống với độ chính xác cao nhất Hệ thống Harpy có lẽ là hệ thống đầu tiên tận dụng lợi thế của một mạng trạng thái hữu hạn để giảm bớt tính toán và xác định hiệu quả chuỗi phù hợp nhất Tuy nhiên, phương pháp tối ưu hóa mạng trạng thái hữu hạn (FSN) (về hiệu suất cũng như loại bỏ sự dư thừa) cho đến đầu những năm 1990 mới xuất hiện

Các hệ thống khác được phát triển theo chương trình SUR bao gồm Hearsay-II của CMU và HWIM của BBN Cả hai hệ thống này đều không đạt được mục tiêu hiệu suất của ARPA khi nó kết thúc vào năm 1976 Tuy nhiên, cách tiếp cận được đề xuất bởi Hearsay-II sử dụng quy trình không đồng bộ song song mô phỏng các nguồn kiến thức cấu thành trong một hệ thống tiếng nói là một khái niệm tiên phong Hệ thống Hearsay-II mở rộng phân tích nhận dạng âm thanh (đến mức độ giả thuyết cao hơn) Các thông tin ở mức độ thấp được chuyển đến một bảng đen toàn cục nơi tri thức từ các nguồn song song kết hợp để tạo ra giả thuyết ở mức độ cao hơn Hệ thống HWIM của BBN, mặt

Trang 10

khác, được biết đến những ý tưởng thú vị của nó bao gồm 1 mạng giải mã từ vựng kết hợp các quy tắc phức tạp về âm vị học (nhằm mục đích nhận dạng chính xác âm vị) Nó xử lý phân đoạn bằng 1 mạng lưới giả thiết thay thế, và khái niệm xác minh từ ở mức độ tham số Một hệ thống đáng chú ý vào thời gian này là hệ thống DRAGON của Jim Baker Người sau này đã chuyển tới Massachusetts để bắt đầu một công ty có cùng tên trong đầu những năm 1980 Song song với các nỗ lực khởi xướng bởi ARPA, 2 hướng khái quát trong nghiên cứu nhận dạng tiếng nói bắt đầu định hình trong những năm 1970 IBM

và phòng thí nghiệm Bell của AT & T cơ bản đưa ra hai trường phái khác nhau

về khả năng ứng dụng của các hệ thống nhận dạng tiếng nói tự động cho các ứng dụng thương mại

Những nghiên cứu của IBM do Fred Jelinek đảm nhiệm nhằm tạo ra một máy đánh chữ kích hoạt bằng tiếng nói (VAT) Các chức năng chính của nó là chuyển đổi một câu nói thành 1 chuỗi các chữ cái và từ để có thể được hiển thị trên 1 màn hình được đánh ra trên giấy Hệ thống nhận dạng này được gọi là Tangora thực sự là một hệ thống độc lập người nói (máy đánh chữ phải được huấn luyện bởi mỗi người dùng cá nhân) Tập trung kỹ thuật của nó là kích thước của bộ từ vựng nhận diện (càng lớn càng tốt, với mục tiêu chính là sử dụng phù hợp với môi trường văn phòng), và cấu trúc của các mô hình ngôn ngữ được miêu tả bởi các quy tắc cú pháp thống kê mô tả một chuỗi các ký hiệu ngôn ngữ (ví dụ, âm vị hoặc từ) xuất hiện trong các tín hiệu tiếng nói như thế nào Đây là loại nhiệm vụ nhận dạng tiếng nói thường được gọi là phiên mã Tập hợp các quy tắc ngữ pháp hoặc cú pháp thống kê được gọi là một mô hình ngôn ngữ, trong đó mô hình n-gram xác định khả năng xuất hiện của một chuỗi được sắp xếp gồm n từ thường xuyên được sử dụng nhất Mặc dù cả hai mô hình ngôn ngữ n-gram và ngữ pháp truyền thống đều là biểu hiện của các quy tắc của ngôn ngữ, vai trò của chúng về cơ bản là khác nhau Mô hình n-gram

mô tả mối quan giữa n từ hệ hoàn toàn dựa trên sự thuận lợi và sức mạnh của việc mô tả một quy tắc ngôn ngữ sử dụng thống kê Nó gây ấn tượng với việc

Trang 11

tìm kiếm từ ngữ trong nhận dạng tiếng nói Đặc biệt nó được sử dụng trong một trò chơi từ ngữ nổi tiếng của Claude Shannon, một cuộc đấu giữa người và máy Trong cuộc thi đấu này, cả người và máy lần lượt đoán từ kế tiếp trong một câu ngẫu nhiên Người đoán dựa trên kinh nghiệm trong việc sử dụng ngôn ngữ Máy dựa vào các số liệu thống kê về từ ngữ để đưa ra dự đoán tốt nhất dựa trên tính thường xuyên của các từ ngữ được ước đoán Hầu như máy luôn thắng Từ khi được giới thiêu trong thập niên 1980, mô hình ngôn ngữ n-gram

và các biến thể của nó đã trở thành không thể thiếu trong các hệ thống nhận diện tiếng nói với vốn từ vựng lớn

Tại phòng nghiên cứu Bell của AT & T, mục tiêu của chương trình nghiên cứu là để cung cấp dịch vụ viễn thông tự động đến cộng đồng, chẳng hạn như quay số bằng tiếng nói, ra lệnh và kiểm soát việc định tuyến các cuộc gọi Những hệ thống tự động này được mong chờ là sẽ làm việc tốt với một lượng lớn người dùng mà không cần phải huấn luyện riêng biệt với từng người Phòng thí nghiệm Bell tập trung vào thiết kế một hệ thống độc lập với người nói có thể đối phó với biến đổi âm thanh nội tại trong các tín hiệu tiếng nói đến

từ nhiều người nói khác nhau, với các giọng địa phương khác nhau Điều này dẫn đến việc tạo ra một loạt các thuật toán phân đoạn tiếng nói cho việc tạo mô hình tham chiếu từ và âm thanh có thể được sử dụng với một loạt các người nói

và giọng khác nhau Hơn nữa, nghiên cứu để hiểu và kiểm soát sự thay đổi âm thanh của các tiếng nói khác nhau đã dẫn đến việc nghiên cứu đo khoảng cách phổ tiếng nói (ví dụ, khoảng cách Itakura) và các kỹ thuật mô hình hóa thống

kê để tạo ra sự mô tả đầy đủ về tiếng nói từ một lượng lớn người khác nhau Kể

từ khi các ứng dụng như quay số bằng tiếng nói và định tuyến cuộc gọi thường bao gồm các câu nói với lượng từ vựng hạn chế và chỉ gồm một vài từ, đã có một trọng tâm của nghiên cứu tại phòng thí nghiệm Bell vào cái được gọi chung là mô hình âm học (miêu tả phổ của âm thanh hay các lời nói) qua mô hình ngôn ngữ (miêu tả ngữ pháp, cú pháp) Ngoài ra, cái quan trọng nhất trong tiếp cận của phòng thí nghiệm Bell là khái niệm từ khóa trọng tâm như là một

Trang 12

hình thức sơ khai của sự hiểu biết lời nói Kỹ thuật từ khoá trọng tâm nhằm phát hiện một từ khóa hoặc cụm từ khóa của một số ý nghĩa đặc biệt trong một lời nói Sự cần thiết của từ khoá trọng tâm là để thích ứng với những người nói thích nói chuyện với những câu tự nhiên chứ không phải là bằng cách sử dụng chuỗi lệnh cứng nhắc khi yêu cầu dịch vụ (như khi họ nói chuyện với một nhà điều hành) Ví dụ, một người gọi điện thoại yêu cầu trả phí qua thẻ tín dụng có thể nói câu "Tôi muốn tính phí vào thẻ tín dụng của tôi" chứ không phải là chỉ nói "thẻ tín dụng" Trong một ứng dụng với phạm vi giới hạn, sự hiện diện của các từ khóa "thẻ tín dụng" trong một câu nói tự nhiên là đủ để cho biết ý định của người gọi là thực hiện một cuộc gọi trả phí qua thẻ Việc phát hiện được từ khóa hoặc cụm từ quan trọng sau đó sẽ kích hoạt một hành động theo quy định (hoặc chuỗi các hành động) như là một phần của dịch vụ, đáp ứng lại lời nói của người dùng

Những tiếp cận nhận dạng tiếng nói của IBM và phòng thí nghiệm Bell của AT & T đã có một ảnh hưởng sâu sắc trong sự phát triển của công nghệ giao tiếp tiếng nói người - máy Một trong những chủ đề phổ biến giữa những

nỗ lực này, mặc dù có sự khác biệt, là hình thức và sự chặt chẽ toán học bắt đầu nổi lên như là khía cạnh riêng biệt và quan trọng của nghiên cứu nhận dạng tiếng nói Trong khi sự khác biệt trong mục tiêu dẫn đến sự khác biệt thấy rõ của công nghệ trong các ứng dụng khác nhau, sự phát triển nhanh chóng của các phương pháp thống kê trong những năm 1980, đáng chú ý nhất là mô hình Markov ẩn (HMM), gây ra độ ảnh hưởng nhất định trong thiết kế hệ thống Ngày nay, hầu hết các hệ thống nhận dạng tiếng nói thực tế được dựa trên khuôn khổ thống kê và những kết quả phát triển trong những năm 1980, với những cải tiến đáng kể bổ sung trong những năm 1990

IV HƯỚNG CÔNG NGHỆ TRONG THẬP NIÊN 1980 VÀ 1990

Nghiên cứu nhận dạng tiếng nói trong những năm 1980 được đặc trưng bởi một sự thay đổi trong phương pháp luận từ cách tiếp cận dựa trên mẫu trực quan hơn hướng tới một khuôn khổ chặt chẽ hơn của mô hình thống kê Mặc

Trang 13

dù các ý tưởng cơ bản của mô hình Markov ẩn (HMM) đã được biết đến và hiểu sớm trong vài phòng thí nghiệm (ví dụ, IBM và Viện Phân tích Quốc phòng (IDA)), phương pháp luận vẫn chưa đầy đủ cho đến giữa những năm

1980 sau sự công bố rộng rãi của lý thuyết, mô hình Markov ẩn đã trở thành phương pháp ưa thích cho nhận dạng tiếng nói Sự phổ biến và sử dụng của HMM như là nền tảng chính cho hệ thống tự động nhận dạng tiếng nói và các

hệ thống hiểu biết đã không thay đổi trong hai thập kỷ qua, đặc biệt là vì sự cải tiến liên tục của công nghệ này

Mô hình Markov ẩn là một quá trình ngẫu nhiên gấp đôi, mô hình hóa biến đổi nội tại của tín hiệu tiếng nói cũng như cấu trúc của ngôn ngữ nói trong một khuôn khổ mô hình hóa thống kê tổng hợp và nhất quán Như đã biết, một tín hiệu tiếng nói thực tế vốn rất khác nhau (do sự thay đổi trong cách phát âm và giọng, cũng như các yếu tố môi trường như độ vang và tiếng ồn) Khi mọi người nói cùng một từ, tín hiệu âm thanh không phải là giống hệt nhau (trong thực tế chúng có thể khác nhau đáng kể), mặc dù cấu trúc ngôn ngữ cơ bản, về

cú pháp, phát âm và ngữ pháp, có thể (hoặc không) vẫn giống nhau Hình thức của HMM các là một phép đo xác suất sử dụng chuỗi Markov để miêu tả cho các cấu trúc ngôn ngữ và một tập phân bố xác suất để giải thích cho các biến đổi trong việc nhận ra âm thanh trong lời nói Với một tập các lời nói được biết đến, miêu tả cho một bộ sưu tập đầy đủ của các biến thể của các từ được quan tâm (gọi là tập huấn luyện), người ta có thể sử dụng một phương pháp ước lượng hiệu quả, được gọi là thuật toán Baum-Welch để có được tập hợp tốt nhất các thông số xác định mô hình hoặc các mô hình tương ứng Việc ước tính các tham số để xác định mô hình tương đương với việc đạo tạo và học tập Mô hình kết quả sau đó được sử dụng để cung cấp một chỉ số khả năng (xác suất) rằng một lời nói thực sự là một thực hiện của các từ (hoặc từ) được miêu bởi mô hình Phép đo xác suất trình bày bởi HMM là một thành phần thiết yếu của một

hệ thống nhận dạng tiếng nói theo cách tiếp cận nhận dạng mẫu thống kê, và nguồn gốc từ lý thuyết quyết định Bayes Phương pháp luận của HMM đại diện

Ngày đăng: 09/01/2020, 00:01

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w