1. Trang chủ
  2. » Luận Văn - Báo Cáo

Hệ thống nhận dạng tiếng nói tiếng việt sử dụng dịch vụ trên nền điện toán đám mây

97 69 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 97
Dung lượng 2,73 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một hệ thống nhậndạng tiếng nói ở nước ta phải được xây dựng trên nền tảng của tiếng nói tiếng Việt.Vấn đề nhận dạng tiếng nói tiếng Việt mới chỉ được quan tâm nghiên cứu trongnhững năm

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC MỞ HÀ NỘI

LUẬN VĂN THẠC SỸ

HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

SỬ DỤNG DỊCH VỤ TRÊN NỀN ĐIỆN TOÁN ĐÁM MÂY

NGUYỄN VĂN MẠNH

CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ : 8.48.02.01

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS DƯƠNG THĂNG LONG

Trang 2

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được aicông bố trong bất cứ công trình nào

TÁC GIẢ LUẬN VĂN

Nguyễn Văn Mạnh

Trang 3

LỜI CẢM ƠN

Tôi xin chân thành cảm ơn TS Dương Thăng Long – Trường Đại học Mở

Hà Nội đã tận tình giúp đỡ, động viên, định hướng, hướng dẫn tôi nghiên cứu vàhoàn thành luận văn này Tôi xin cảm ơn các giảng viên trong Viện Đại học Mở

Hà Nội đã giảng dạy và giúp đỡ tôi trong hai năm học qua, cảm ơn sự giúp đỡnhiệt tình của các bạn đồng nghiệp

Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệttình, đầy trách nhiệm của TS Dương Thăng Long và các thầy cô giáo trongTrường Đại học Mở Hà Nội cùng với sự nỗ lực của cá nhân nhưng cũng không thểtránh được những thiếu sót Tác giả chân thành mong nhận được những ý kiếnđóng góp từ quý Thầy, Cô và các bạn bè đồng nghiệp

Trân trọng cám ơn

Hà Nội, ngày tháng năm 2018

Nguyễn Văn Mạnh

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v

DANH MỤC CÁC BẢNG BIỂU vi

DANH MỤC CÁC HÌNH VẼ vii

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 4

1.1 Giới thiệu về nhận dạng tiếng nói 4

1.1.1 Tổng quan về nhận dạng tiếng nói 4

1.1.2 Lịch sử phát triển của nhận dạng tiếng nói 6

1.1.3 Phân loại hệ thống nhận dạng tiếng nói 8

1.1.4 Khó khăn trong nhận dạng tiếng nói 10

1.2 Một số nghiên cứu nhận dạng tiếng Việt 11

1.3 Đặc điểm của tiếng Việt trong nhận dạng tiếng nói 13

1.3.1 Đặc điểm của tiếng Việt 13

1.3.2 Cấu trúc âm tiết, âm vị trong tiếng Việt 13

1.4 Mô hình nhận dạng tiếng nói 19

1.4.1 Mô hình GMM 19

1.4.2 Mô hình phân lớp SVM 19

1.4.3 Mô hình HMM 20

1.4.4 Mạng nơ ron nhân tạo 21

1.4.5 Mô hình nhận dạng tiếng nói Deep Neural Networks (DNN) 40

1.5 Kết luận chương 1 49

CHƯƠNG 2 HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT DỰA TRÊN NỀN DỊCH VỤ CỦA ĐIỆN TOÁN ĐÁM MÂY 51

2.1 Dịch vụ điện toán đám mây 51

2.1.1 Khái niệm điện toán đám mây 51

2.1.2 Các đặc điểm của điện toán đám mây 51

2.1.3 Các mô hình triển khai 54

Trang 5

2.1.4 Các đặc tính của điện toán đám mây 58

2.2 Một số dịch nhận dạng tiếng nói tiếng Việt dựa trên nền điện toán mây 58

2.3 Mô hình cho hệ thống nhận dạng tiếng Việt 67

2.4 Ưu điểm của hệ thống nhận dạng tiếng nói sử dụng DNN so với hệ thống khác 68

2.5 Kết luận chương 2 69

CHƯƠNG 3 ỨNG DỤNG NHẬN DẠNG TIẾNG NÓI 70

TIẾNG VIỆT 70

3.1 Đặt vấn đề bài toán 70

3.2 Mô tả chức năng đầu vào, đầu ra 71

3.3 Thử nghiệm và đánh giá 74

3.4 Kết luận chương 3 76

KẾT LUẬN 77

DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT

Trang 7

DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1 Cấu chúc âm tiết tiếng Việt 15

Bảng 1.2 Hệ thống phụ âm làm âm đầu 16

Bảng 1.3 Bảng các âm chính là nguyên âm đơn 18

Bảng 1.5 Vị trí các âm vị trong hệ thống âm cuối 18

Bảng 1.6 Kết quả so sánh 49

Bảng 2.1 Các tệp âm thanh 62

Bảng 2.2 Kết quả cuối cùng của Sphinx 4 65

Bảng 2.3 Kết quả cuối cùng của Microsoft API 65

Bảng 2.4 Kết quả cuối cùng của Google API 66

Bảng 2.5 Bảng so sánh giữa 3 hệ thống 66

Bảng 3.1 Số lượng bệnh nhân từng nhóm thống kê theo ngày 74

Bảng 3.2 Tốc độ thực hiện của từng nhóm thống kê theo ngày, với tỷ lệ [nhập tiếng nói / nhập tay] (đvt: giây) 75

Bảng 3.3 Tỷ lệ sai sót của Nhóm sử dụng nhận diện tiếng nói thống kê theo ngày 75

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Sơ đồ tổng quát nhận dạng tiếng nói 5

Hình 1.2 Các phần tử cơ bản của môt hệ thống nhận dạng tiếng nói 5

Hình 1.3 Vị trí, vai trò âm đệm trong âm tiết 17

Hình 1.4 Một mô hình nơ ron 21

Hình 1.5 Biến đổi làm mịn tạo ra do thiên áp bk ; lưu ý là vk= bk nếu uk =0 23

Hình 1.6 Mô hình nơ ron phi tuyến 24

Hình 1.7 Hàm ngưỡng 24

Hình 1.8 Hàm kích tuyến tính đoạn 25

Hình 1.9 Hàm kích hoạt Sigmoid với tham số độ dốc a 26

Hình 1.10 Mạng nơ-ron truyền thẳng một lớp 27

Hình 1.11 Mạng nơ-ron truyền thẳng có kết nối đầy đủ bao gồm một lớp ẩn 29

Hình 1.12 Mạng nơ-ron hồi quy không có vòng tự phản hồi và không có nơ-ron ẩn 30

Hình 1.13 Mạng nơ-ron hồi quy với các nơ-ron ẩn 30

Hình 1.14 Kiến trúc đồ thị của Multilayer Perceptron với hai lớp ẩn 33

Hình 1.15 Minh họa chiều của hai luồng tín hiệu cơ bản trong Multilayer Perceptron (hàm tín hiệu lan truyền thẳng và lan truyền ngược của tín hiệu lỗi) 34

Hình 1.16 Đồ thị luồng tín hiệu chi tiết của nơ-ron ra j 36

Hình 1.17 Đồ thị chi tiết luồng tín hiệu của nơ-ron ra k kết nối với nơ-ron ẩn j 39

Hình 1.18 HMM với 3 trạng thái, cấu trúc liên kết từ trái sang phải và các vòng tự lặp, thường được sử dụng trong nhận dạng tiếng nói 41

Hình 2.1 Dịch vụ cơ sở hạ tầng (IaaS) 52

Hình 2.2 Dịch vụ Đám mây công cộng 55

Hình 2.3 Dịch vụ Đám mây doanh nghiệp 56

Hình 2.4 Dịch vụ Đám mây Lai 57

Hình 2.5 Giao diện hệ thống 63

Hình 2.6 Cấu trúc của hệ thống 64

Hình 2.7 Kết quả của Sphinx-4 64

Hình 2.8 Bảng so sánh giữa 3 hệ thống 67

Hình 2.9 Mô hình cho hệ thống nhận dạng tiếng Việt 67

Trang 9

Hình 3.1 Chức năng đăng nhập hệ thống 72

Hình 3.2 Chức năng danh sách chức năng bệnh nhân chờ khám 72

Hình 3.3 Chức năng khám bệnh 73

Hình 3.4 Kết quả mong muốn 73

Trang 10

Do có sự khác biệt về mặt ngữ âm giữa các ngôn ngữ nên ta không thể ápdụng các chương trình nhận dạng khác để nhận dạng tiếng Việt Một hệ thống nhậndạng tiếng nói ở nước ta phải được xây dựng trên nền tảng của tiếng nói tiếng Việt.Vấn đề nhận dạng tiếng nói tiếng Việt mới chỉ được quan tâm nghiên cứu trongnhững năm gần đây và chưa có một chương trình nhận dạng hoàn chỉnh nào đượccông bố.

Trên thế giới đã có rất nhiều hệ thống nhận dạng tiếng nói (tiếng Anh) đã vàđang được ứng dụng rất hiệu quả như: Via Voice cùa IBM, Spoken Toolkit củaCSLU (Central of Spoken Laguage Under-standing) nhưng trong tiếng Việt thìcòn rất nhiều hạn chế

Trong lĩnh vực y tế khi tiếp nhận thông tin bệnh nhân tới khám, điều trị chobệnh nhân việc nhập liệu các thông tin khám bệnh, ra chỉ định cận lâm sàng, kê đơnthuốc cho bệnh nhân, bệnh án điện tử,… các chức năng có rất nhiều thông tin nênviệc nhập thông tin bằng bàn phím mất rất nhiều thời gian, ngoài ra cũng dẫn đếnviệc nhập sai, chậm Với các bệnh viện lớn mỗi ngày có hàng nghìn lượt bệnhnhân tới khám bệnh, các phòng khám thì số lương tới khám cũng tới hàng trăm

Trang 11

bệnh nhân dẫn đến việc bệnh nhân phải chờ tới lượt khám rất mất thời gian, vì vậyviệc áp dụng công nghệ nhận dạng tiếng nói trong khám, điều trị ở lĩnh vực y tế nóichung cũng như phòng khám đa khoa Phương Đông nói riêng là rất cần thiết Việcnày giải quyết và hỗ trợ cho người dùng trong việc nhập các thông tin của bệnhnhân, tăng tốc độ khám và ra chỉ định cho bệnh nhân Việc nghiên cứu ứng dụngcông nghệ nhận dạng tiếng nói tiếng Việt để đáp ứng được nhu cầu của xã hội là rấtcần thiết.

Từ nhu cầu thực tế đó, tác giả với sự hướng dẫn của TS Dương Thăng Long

đã lựa chọn đề tài “Hệ thống nhận dạng tiếng nói tiếng Việt sử dụng dịch vụ trênnền điện toán Đám mây” là thực sự cần thiết

2 Mục tiêu nghiên cứu

Tìm hiểu tổng quan về bài toán nhận dạng tiếng nói, mô hình cho hệ thống nhận dạng tiếng nói tiếng Việt và ứng dụng nhận dạng tiếng nói trong lĩnh vực y tế nói chung và ứng dụng thực tế tại phòng khám đa khoa Phương Đông có địa chỉ tại

Hà Nam

Hệ thống đưa ra việc hỗ trợ người dùng nhập liệu bằng tiếng nói trong quátrình khám, chữa bệnh giúp người sử dụng ứng dụng một cách dễ dàng, nhanhchóng và chính xác nhất

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Tiếng nói của con người

- Hệ thống nhận dạng tiếng nói thông qua API “Speed to text” của google

3.2 Phạm vi nghiên cứu

Nhận dạng tiếng nói tiếng Việt bằng dịch vụ trên nền điện toán Đám mây

4 Kết cấu của luận văn

Luận văn được bao gồm 3 chương như sau:

Trang 12

Chương 1: Tổng quan về nhận dạng tiếng nói

Giới thiệu về nhận dạng tiếng nói, một số nghiên cứu về nhận dạng tiếng nói

và các mô hình nhận dạng tiếng nói

Chương 2: Điện toán đám mây và dịch vụ Saas

Trình bày tổng quan về điện toán đám mây; Các dịch vụ điện toán đám mây; tìm hiểu API của google về nhận dạng tiếng

Chương 3: Xây dựng ứng dụng nhận dạng tiếng nói và kết quả nhận dạngtiếng nói thông qua api “Speed to text” của google

Kết luận: Tóm lược kết quả đạt được của luận văn và định hướng phát triểntrong tương lai

Trang 13

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI

1.1 Giới thiệu về nhận dạng tiếng nói

1.1.1 Tổng quan về nhận dạng tiếng nói

Nhiệm vụ của hệ thống nhận dạng tiếng nói là làm cho hệ thống hiểu đượctiếng nói của con người Nhờ hệ thống này, tiếng nói có thể được chuyển đổi tựđộng thành văn bản, hoặc tự động điều khiển các quá trình khác Phương thứctruyền thông tự nhiên nhất đối với con người là thông qua tiếng nói nên mong muốncủa nhận dạng tiếng nói là cho phép con người có ngôn ngữ khác nhau giao tiếp vớinhau và với máy một cách tự nhiên, hiệu quả hơn Có thể nói, các ứng dụng nhậndạng tiếng nói hiện đang dần trở nên phổ biến, phục vụ đời sống con người cũngnhư trong các lĩnh vực kỹ thuật khác nhau Trong lĩnh vực tương tác người - máy,nhận dạng tiếng nói được định nghĩa là khả năng hệ thống máy tính có thể chấpnhận đầu vào là lời nói theo định dạng file âm thanh và tạo ra được văn bản chứanội dung tương ứng

Nhận dạng tự động tiếng nói ASR (Automatic Speech Recognition) mô phỏngkhả năng nghe và hiểu lời nói của con người Hệ thống ASR có thể chuyển đổi lờinói thành văn bản Bài toán nhận dạng tự động tiếng nói là một chương trình máytính tiếp nhận đầu vào là các mẫu tiếng nói và tạo ra văn bản tương ứng mà conngười có thể hiểu được như khi trực tiếp nghe tiếng nói đó ASR là một trong cáclĩnh vực của nhận dạng mẫu ASR phát triển mạnh tương xứng với các lĩnh vựckhác của nhận dạng mẫu vì mong muốn tạo ra được cỗ máy có khả năng tạo ra đượccác quyết định phức tạp và thực tế, có chức năng nhanh như con người đồng thời cóthể hiểu được lời nói Tương tự như bất kỳ hệ thống nhận dạng mẫu nào, ASR tìmkiếm để hiểu được các mẫu tiếng nói đầu vào Các nghiên cứu về xử lý tín hiệu, xử

lý tiếng nói và đặc biệt là nhận dạng tiếng nói đã thu hút nhiều nhà khoa học thamgia và mang lại nhiều thành tựu trong các lĩnh vực này

Trang 14

Hình 1.1 Sơ đồ tổng quát nhận dạng tiếng nói

Hình 1.2 Các phần tử cơ bản của môt hệ thống nhận dạng tiếng nói

Tín hiệu tiếng nói đầu tiên được tiền xử lý và rút trích đặc trưng, kết quả thuđược sau quá trình này là tập các đặc trưng âm học, được tạo thành 1 hay nhiều véc-

tơ đước gọi là véc-tơ đặc trưng

Để có thể thực hiện việc so sánh, trước hết hệ thống phải được huấn luyện vàxây dựng các đặc trưng, sau đó mới có thể dùng để so sánh với các tham số đầu vào

để nhận dạng

Trang 15

Trong quá trình huấn luyện, hệ thống dùng véc-tơ đặc trưng được đưa vào đểước lượng, tính toán các tham số cho các mẫu (được gọi là mẫu tham khảo) Mộtmẫu tham khảo chính là bản mẫu dùng để so sánh và nhận dạng, các mẫu tham khảonày mô phỏng cho một từ, một âm tiết, hoặc thậm chí là một âm vị.

Trong quá trình nhận dạng, dãy các véc-tơ đăc trưng được đem so sánh với cácmẫu tham khảo Sau đó hệ thống tính toán độ tương đồng của dãy véc-tơ đặc trưng

và mẫu tham khảo Việc tính toán độ tương đồng được thực hiện bằng cách áp dụngcác thuật toán đã đươck chứng minh hiệu quả Mẫu có độ tương đồng cao nhất đượccho là kết quả của quá trình nhận dạng

Mục tiếp theo dưới đây sẽ trình bày tóm lược về lịch sử phát triển và các tiến

bộ trong nghiên cứu nhận dạng tiếng nói

1.1.2 Lịch sử phát triển của nhận dạng tiếng nói

Điều đầu tiên quan trọng cần phải kể đến trong lịch sử phát triển của nhậndạng tiếng nói là việc thành lập các mô hình thống kê và các thuật giải liên quan tạođiều kiện cho việc thực hiện các mô hình này Mô hình HMM đã được giới thiệunhư là một mô hình âm học của hệ thống nhận dạng tiếng nói từ đầu những năm

1970 [8] Hơn 30 năm sau, phương pháp này vẫn còn được sử dụng rộng rãi Mộtlượng lớn các mô hình và thuật giải đã được đề xuất và sử dụng hiệu quả trong lĩnhvực này Thuật giải tối đa hóa kỳ vọng EM (Expectation Maximization) và thuậtgiải quay lui (Forward - Backward) hoặc thuật giải Baum - Welch đã có vai trò chủyếu và quan trọng trong việc huấn luyện mô hình HMM một cách hiệu quả Tương

tự như vậy, mô hình ngôn ngữ N-gram và các biến thể được huấn luyện với các tính

toán cơ bản hoặc sử dụng kỹ thuật EM-Style đã đạt được các hiệu quả quan trọng

Bên cạnh mô hình âm học HMM và mô hình ngôn ngữ cơ bản N-gram, đã có

nghiên cứu mới được công bố như các mô hình phân đoạn [12] và các mô hìnhngôn ngữ và tiếng nói có cấu trúc Các thuật giải thích nghi hiệu quả cho phép tíchhợp được trên các ứng dụng đòi hỏi xử lý nhanh Đây là chìa khóa dẫn đến thànhcông cho việc phát triển các sản phẩm thương mại của công nghệ nhận dạng tiếngnói Các kỹ thuật thích nghi phổ biến có thể kể đến là tối đa xác suất hậu nghiệm

Trang 16

MAP (Maximum a Posteriori probability), ước lượng MLLR (Estimation vàMaximum Likelihood Linear Regression) Các kỹ thuật thích nghi đã được tổngquát hóa để huấn luyện các mô hình chung, một đại diện tốt trong số đó có thể kểđến là mô hình thống kê toàn thể của tập dữ liệu huấn luyện đầy đủ Kỹ thuật nàyđược gọi là kỹ thuật huấn luyện thích nghi người nói SAT (Speaker AdaptiveTraining) [7] Huang cùng cộng sự đã có nghiên cứu so sánh các phương pháp nhậndạng độc lập người nói, nhận dạng phụ thuộc người nói và nhận dạng thích nghingười nói [17] Kết quả nghiên cứu này cho thấy: khi nhận dạng độc lập người nói,

tỷ lệ lỗi từ đạt 4,3%, còn khi sử dụng dữ liệu phụ thuộc người nói, tỷ lệ lỗi từ đãgiảm đến 1,4% Trong các thử nghiệm, nhóm tác giả đều áp dụng phương pháp thi

ch nghi người nói

Nhóm thứ hai trong những tiến bộ đáng kể của lĩnh vực xử lý tiếng nói là sựhình thành cơ sở hạ tầng tính toán mạnh về phần cứng cho phép phát triển được cácthuật giải, mô hình thống kê nêu trên Định luật Moore quan sát sự tiến bộ tronglĩnh vực phát triển của máy tính và dự báo khả năng tính toán tăng gấp đôi sau mỗikhoảng thời gian từ 12 đến 18 tháng Cũng như vậy, chi phí cho bộ nhớ sẽ đượcgiảm đi Cơ sở hạ tầng mạnh nói trên là phương tiện cho phép các nhà nghiên cứu

về nhận dạng tiếng nói có thể phát triển và đánh giá độ phức tạp các thuật giải trêncác tác vụ đủ lớn Ngữ liệu tiếng nói đóng vai trò quan trọng để thực hiện cácnghiên cứu nhận dạng tiếng nói Ngữ liệu tiếng nói lớn cho phép các mô hình thống

kê học hiệu quả hơn Trong những năm qua, Viện Tiêu chuẩn và Công nghệ NIST(National Institute of Standard and Technology), Hiệp hội dữ liệu ngôn ngữ họcLDC (Linguistic Data Consortium), Hiệp hội Tài nguyên Ngôn ngữ châu Âu ELRA(European Language Resources Association) và các tổ chức khác đã xây dựng đượccác bộ ngữ liệu tiếng nói, chú giải và chia sẻ rộng rãi cho cộng đồng trên toàn thếgiới Với sự phát triển, hội nhập và chia sẻ trên phạm vi toàn cầu, hiện nay, nhiềuphòng thí nghiệm, các nhà nghiên cứu đã được hưởng lợi ích từ các công cụ phục

vụ cho nghiên cứu được cung cấp miễn phí như HTK (Hidden Markov ModelToolkit), Sphinx, CMU LM toolkit và SRILM toolkit Mặt khác, các hỗ trợ chonghiên cứu sâu, rộng, kết hợp với các hội nghị, hội thảo, hệ thống đánh giá được

Trang 17

DARPA (U.S Department of Defense Advanced Research Projects Agency) và các

tổ chức, cá nhân khác tài trợ đã trở nên cần thiết cho sự phát triển hệ thống nhậndạng tiếng nói hiện nay

Nhóm tiến bộ thứ 3 có thể kể đến thuộc về lĩnh vực biểu diễn tri thức Các kỹthuật phân tích tham số tiếng nói như MFCC (Mel-Frequency Cepstral Coefficients)[11], tiên đoán cảm thụ tuyến tính PLP (Perceptual Linear Prediction) [16], chuẩnhóa thông qua trừ trung bình cepstral CMS (Cepstral Mean Subtraction) RASTA[16] và chuẩn hóa chiều dài tuyến âm VTLN (Vocal Tract Length Normalization)[13] Gần đây, có nhiều thuật giải đã được đề xuất cho nhận dạng tiếng nói mang lạihiệu quả cao như Phân tích phân biệt tuyến tính hiệp phương sai không đồng nhấtHLDA (Heteroscedastic Linear Discriminant Analysis) [20], cực tiểu lỗi từ theokhông gian đặc trưng fMPE (feature-space Minimum Phone Error) [26] và mạng nơron dựa trên các đặc trưng

Nhóm cuối cùng trong các tiến bộ lớn của nhận dạng tiếng nói là giải mã vàcác thuật giải tìm kiếm Ban đầu tập trung vào giải mã ngăn xếp (thuật giải tìm kiếmA*) [19] và tìm kiếm đồng bộ thời gian Viterbi (time-synchronous Viterbi search)[22] Nếu không có các thuật giải khả thi thì các nhận dạng tiếng nói liên tục có quy

mô lớn khó có thể thực hiện được

Như vậy có thể thấy, nhận dạng tiếng nói đã đạt được nhiều tiến bộ trong cácnăm qua Có nhiều mô hình nhận dạng đã được đề xuất trong đó mô hình HMM vớinền tảng chính không có nhiều thay đổi song việc mô hình hóa, các kỹ thuật cài đặt

cụ thể vẫn liên tục được cải tiến Vì thế, HMM vẫn giữ được vị trí quan trọng trongcác hệ thống nhận dạng tiếng nói Bên cạnh đó, các kỹ thuật phân tích tham số cũngđạt được những bước tiến quan trọng Các thuật giải tìm kiếm được cải tiến giúp bộgiải mã thực hiện các nhiệm vụ tìm kiếm, cho ra lời giải hiệu quả hơn

1.1.3 Phân loại hệ thống nhận dạng tiếng nói

Các hệ thống nhận dạng tự động tiếng nói có thể được phân loại theo các cáchkhác nhau tùy thuộc tiêu chí sử dụng phân loại như dựa trên sự phụ thuộc người nói,

Trang 18

đặc điểm liên tục hay rời rạc của tiếng nói cần nhận dạng, độ lớn của từ vựng

Theo tiêu chí sự phụ thuộc vào người nói, hệ thống nhận dạng tiếng nói có thểđược chia làm 3 loại gồm hệ thống nhận dạng tiếng nói phụ thuộc người nói, hệthống nhận dạng tiếng nói độc lập người nói và hệ thống nhận dạng tiếng nói thíchnghi người nói, cụ thể như sau:

- Hệ thống nhận dạng tiếng nói phụ thuộc người nói : hệ thống này đòi hỏi

người dùng phải huấn luyện hệ thống bằng chính tiếng nói của mình Nói khác đi,tiếng nói cần nhận dạng và tiếng nói dùng cho huấn luyện đều do cùng một ngườinói Hệ thống này có thể được xây dựng một cách dễ dàng với chi phí thấp và độchính xác cao Tuy nhiên, mức độ linh hoạt của hệ thống lại thấp hơn so với hệthống nhận dạng không phụ thuộc người nói và hệ thống nhận dạng thích nghingười nói

- Hệ thống nhận dạng không phụ thuộc người nói : có đặc điểm là không đòi

hỏi người dùng phải huấn luyện hệ thống bằng chính tiếng nói của mình Nói cáchkhác, hệ thống có thể được huấn luyện độc lập, sử dụng tiếng nói của người khác đểhuấn luyện mà vẫn có khả năng nhận dạng được tiếng nói được phát âm bởi ngườikhông tham gia huấn luyện Hệ thống này có thể làm việc với tiếng nói được phát

âm từ người nói bất kỳ Việc xây dựng hệ thống như vậy thường phức tạp và đòi hỏichi phí cao hơn song có ưu điểm là hệ thống rất linh hoạt nhưng độ chính xácthường thấp hơn so với hệ thống phụ thuộc người nói

- Hệ thống nhận dạng tiếng nói thích nghi người nói: được xây dựng để có

khả năng thích nghi với người nói mới Hệ thống này đã được huấn luyện sẵn trướckhi sử dụng bằng tiếng nói có thể khác với tiếng nói của người sử dụng Trong quátrình hoạt động, hệ thống sẽ tiếp nhận thông tin, đặc điểm của người nói mới đểđiều chỉnh nhằm thích nghi theo các đặc điểm riêng của người nói mới Hệ thốngnày có vị trí xếp hạng nằm giữa hai hệ thống được nêu trước đó Hệ thống vừa cótính linh hoạt vì không ràng buộc huấn luyện và sử dụng cùng người nói như hệthống phụ thuộc người nói lại vẫn đạt được độ chính xác nhờ khả năng thich nghingười nói

Trang 19

Các hệ thống nhận dạng tiếng nói được phân loại dựa trên đặc điểm của tiếngnói huấn luyện và nhận dạng sẽ gồm bốn loại như sau:

- Hệ thống nhận dạng tiếng nói theo từ rời rạc: hệ thống này được thiết kế để

nhận dạng tiếng nói được phát âm thành từng từ rời rạc Giữa các từ có khoảng lặng

đủ lớn và phân tách với nhau Hệ thống này là dạng đơn giản nhất của hệ thốngnhận dạng tiếng nói Tuy khả năng nhận dạng có hạn chế nhưng hệ thống này lạiđược sử dụng phổ biến trong các sản phẩm thực

- Hệ thống nhận dạng tiếng nói cho các từ có liên kết với nhau : trong trường

hợp này, hệ thống nhận dạng tiếng nói được thiết kế để nhận dạng các từ tương tựnhư hệ thống nhận dạng từ rời rạc Tuy nhiên, các từ này có liên kết với nhau nên hệthống cho phép tiếng nói cần nhận dạng có thể được phân tách với nhau bởi cáckhoảng lặng nhỏ

- Hệ thống nhận dạng tiếng nói phát âm liên tục: hệ thống làm việc với tiếng

nói trong đó không có khoảng lặng về mặt tín hiệu giữa các từ Hệ thống cho phépngười dùng có thể phát âm một cách tự nhiên, cùng với đó thì máy tính sẽ thực hiệnviệc nhận dạng nội dung Các hệ thống loại này đòi hỏi xử lý phức tạp hơn vì việcxác định các từ là rất khó về mặt tín hiệu

- Hệ thống nhận dạng tiếng nói tự nhiên: hệ thống được thiết kế để nhận dạng

được tiếng nói được phát âm một cách tự nhiên với các từ phát ra một cách liên tiếp

có thể xen kẽ những âm đệm không có nghĩa như "ừ", "à" thậm chí là nói lắp

- Hệ thống nhận dạng tiếng nói cũng có thể phân loại theo lượng từ vựng Theocách này, các hệ thống nhận dạng tiếng nói có thể chia thành 3 loại bao gồm:

- Hệ thống nhận dạng với từ vựng ít (số lượng từ chỉ đến hàng chục từ)

- Hệ thống nhận dạng tiếng nói với từ vựng trung bình (số lượng từ đến vài trăm từ)

- Hệ thống nhận dạng tiếng nói với từ vựng lớn (số lượng từ lên đến hàng nghìn từ)

Hệ thống nhận dạng tiếng nói rất đa dạng và phong phú Cách tiếp cận trongnghiên cứu nhận dạng tiếng nói cũng đa dạng tương tự Mặc dù mục tiêu, nội dung

cụ thể của từng nghiên cứu là khác nhau song đều có điểm chung là cải thiện hiệu

Trang 20

năng, nâng cao hiệu quả hoạt động của hệ thống nhận dạng

1.1.4 Khó khăn trong nhận dạng tiếng nói

Vì có nhiều ý nghĩa trong nghiên cứu cũng như thực tiễn ứng dụng, nhận dạngtiếng nói đã thu hút nhiều nhà khoa học tham gia nhưng lĩnh vực này cũng phải đốimặt với nhiều thách thức

Thách thức lớn đầu tiên đối với nhận dạng tự động tiếng nói có thể kể đến làlàm thế nào để xử lý được các biến thiên trong tiếng nói Cùng một âm do cùng mộtngười nói ở những thời điểm khác nhau song tín hiệu tiếng nói có thể không hoàntoàn như nhau Trong các hệ thống nhận dạng tiếng nói phụ thuộc người nói, sựkhác biệt của tiếng nói thường không lớn so với hệ thống nhận dạng độc lập ngườinói Ngay cả khi tiếng nói được giới hạn bởi một người nói thì sự thay đổi về môitrường ghi âm, điều kiện nói, thiết bị ghi âm vẫn là tồn tại khách quan tạo ra sựkhác biệt trong tín hiệu tiếng nói cần nhận dạng

Thách thức lớn khác đối với ASR là phải giải quyết bài toán nhận dạng nhầm,khi mà hệ thống thường phải đối mặt với thực tế là tiếng nói cần nhận dạng khônghoàn toàn theo đúng với tiếng nói đã được huấn luyện Trong ASR, một số ngườinói thường sẽ đọc các văn bản đã được chọn từ trước và sử dụng tiếng nói thu đượctheo cách đó để xây dựng các mô hình Độ chính xác của ASR thường tỷ lệ với sựtương tự giữa dữ liệu huấn luyện và dữ liệu thử nghiệm Dễ dàng nhận thấy, hệthống nhận dạng cho độ chính xác cao khi dữ liệu huấn luyện và nhận dạng đều domột người nói và nội dung nói tương tự nhau Độ chính xác đó sẽ giảm khi dữ liệuthử nghiệm và dữ liệu dùng huấn luyện là tiếng nói của những người khác nhau, nộidung nói khác nhau hay môi trường, thiết bị ghi âm khác nhau Thách thức đặt rađối với người thiết kế ASR là phải chuẩn bị đủ về mặt dữ liệu và cài đặt thuật giải tốt.Tác động phức tạp nhất tới tín hiệu tiếng nói mà ASR phải xử lý là nhiễu kênh,nhiễu nền và các nhiễu khác từ bên ngoài Kỹ thuật trừ phổ cơ bản giúp giải quyếtđược vấn đề nhiễu cộng trong khi một số kỹ thuật khác giúp khử được nhiễu chập.Mặc dù phải đối mặt với nhiều thách thức song nhận dạng tự động tiếng nói đã

Trang 21

đạt được nhiều bước tiến quan trọng Các kết quả nghiên cứu đã dần đi vào cuộcsống trở thành các ứng dụng thường ngày Lĩnh vực này vẫn tiếp tục thu hút nhiềunhà khoa học tham gia nhằm tiếp tục cải thiện hiệu năng nhận dạng, gia tăng khảnăng ứng dụng trong thực tiễn.

1.2 Một số nghiên cứu nhận dạng tiếng Việt

Nghiên cứu về nhận dạng tiếng Việt nói đã được một số nhà nghiên cứu trong

và ngoài nước thực hiện Các nghiên cứu đã được thực hiện cho tiếng nói rời rạc vàtiếng nói liên tục

Để làm tiền đề cho các nghiên cứu sau này đối với tiếng Việt nói, trước tiên hệthống nguyên âm tiếng Việt đã được phân tích để xác định các đặc trưng cơ bản nhưphân bố formant [31], quy luật biến thiên thanh điệu Đối với nhận dạng tiếng Việtnói, đã có các nghiên cứu như nhận dạng từ tiếng Việt phát âm rời rạc, số lượng từvựng hạn chế Nghiên cứu về hệ thống nhận dạng các số phát âm liên tục bằng tiếngViệt thực hiện ở Nhóm tác giả đã thử nghiệm trên 442 câu với 2340 từ tiếng nóiphát âm qua đường điện thoại Kết quả thử nghiệm cho thấy khả năng nhận dạng đạttới 96,83% các từ chính xác và 87,67% các câu được nhận dạng đúng Gần đây, cócác nghiên cứu nhận dạng tiếng Việt phát âm liên tục độc lập người nói có số lượng

từ vựng lớn (7000 âm tiết tương ứng khoảng 40000 từ) Nghiên cứu trong [30] lànhận dạng tiếng nói liên tục tiếng Việt vốn từ vựng lớn, sử dụng bộ công cụ HTKtrên cơ sở dữ liệu âm thanh thu từ các đài truyền thanh VOV Trong trường hợp này,

độ chính xác nhận dạng được cải thiện đến 10% và sai số liên quan giảm 36,5% Hệthống nhận dạng tiếng Việt nói cũng đã được thực hiện được bằng hệ nhúng và hoạtđộng trên thời gian thực [4] Nghiên cứu nhận dạng cho ngôn ngữ các nước ĐôngNam Á bao gồm tiếng Trung, tiếng Thái và tiếng Việt đã được thực hiện theo cáchtiếp cận mới Theo đó, các tác giả đã thực hiện nhận dạng ở mức từ thay vì mức âmtiết như một số nghiên cứu đã có trước đây Kiến trúc FlaVoR bao gồm 2 lớp được

sử dụng để nhận dạng Lớp thứ nhất có chức năng tìm kiếm các nguyên âm đơn.Lớp thứ hai thực hiện nhiệm vụ giải mã từ Thử nghiệm trên tiếng Việt (dữ liệu âmthanh lấy từ các bản tin thời sự Việt Nam- VNBN) cho thấy cách tiếp cận này vừa

Trang 22

hiệu quả lại linh hoạt.

Nhiều mô hình, công nghệ, giải pháp khác nhau đã được nghiên cứu và thửnghiệm trong hệ thống nhận dạng tiếng nói tự động trong đó mô hình HMM đượcứng dụng khá phổ biến Theo nội dung nghiên cứu được công bố tại [23], các tácgiả đã sử dụng mô hình HMM trong nhận dạng các tiếng nói của tiếng Việt nói phát

âm liên tục Từ các thực nghiệm, nhóm tác giả đã chỉ ra phương pháp tốt nhất để

học F0 và năng lượng là sử dụng hàm biến đổi logarit đồng thời cũng chỉ ra việc sử

dụng 8 mẫu giọng (thay vì 6 giọng theo cách bỏ dấu) và sự khác biệt giữa giọngnam và giọng nữ của người nói để tăng độ chính xác của hệ thống nhận dạng tiếngViệt nói

Về phương diện ngôn ngữ, tiếng Việt và phương ngữ tiếng Việt đã có nhiềunghiên cứu được tổng hợp trong công trình của tác giả Hoàng Thị Châu [2], các tácgiả khác như Hoàng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn

Tu [5], Mai Ngọc Chừ, Vũ Đức Nghiệu, Hoàng Trọng Phiến [3], Trần Thị NgọcLang, Võ Xuân Trang [6] Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theophương diện xử lý tín hiệu còn rất hạn chế

1.3 Đặc điểm của tiếng Việt trong nhận dạng tiếng nói

1.3.1 Đặc điểm của tiếng Việt

Khác với một số ngôn ngữ khác như tiếng Anh, Pháp,… tiếng Việt là ngônngữ đơn âm tiết, tức là các từ khi viết ra chỉ đọc lên thành một tiếng, không có từnào (thuần việt) phát âm từ 2 tiếng trở lên Một từ có cấu tạo gồm 2 phần: nguyên

âm và phụ âm, được kết hợp theo 3 cách để tạo nên từ trong tiếng việt:

Trong tiếng Việt ngoài 2 thành phần chính là nguyên âm và phụ âm còn có cácthành phần khác giúp cho tiếng Việt phân loại trong âm tiết trở nên rõ ràng như nhị

Trang 23

hợp âm, tam hợp âm, phụ âm đơn, phụ âm kép Khi học tiếng việt , ngày từ đọc phảihọc thuộc các nguyên âm, phụ âm, nhị hợp âm, tam hợp âm,phụ âm đơn, phụ âmkép, quy tắc ghép nối các thành phần đó để tạo thành âm tiết hoặc một từ, khi đómột từ tiếng Việt được Việt ra sẽ kèm theo cách đọc của từ đó bằng quy tắc kết hợptrên Nếu một từ viết ra mà không theo quy tắc kết hợp được định sẵn trong tiếngViệt, tương đương với việc từ đó không thể đọc được và cũng không có nghĩa, một

từ trong tiếng việt chỉ có 1 cách đọc (trừ tiếng vùng miền, địa phương), khác vớitiếng Anh không có quy tắc xác định trong việc tạo ra một từ, một từ chỉ tồn tại khi

nó xuất hiện trong từ điển, khi đó phải kèm theo cách đọc của từ đó thì mới có thểđọc được

1.3.2 Cấu trúc âm tiết, âm vị trong tiếng Việt

Dựa vào cách kết thúc, âm tiết được chia làm 2 loại chính là âm mở và âmkhép Mỗi loại lại có thể được chia làm 2 loại nhỏ hơn, cụ thể như sau:

Âm tiết nửa khép: là âm tiết kết thúc bằng phụ âm vang như “m”, “n”, “ng”,

“nh”,

Âm tiết khép: là âm tiết kết thúc bằng phụ âm không vang Ví dụ: học tập tốt

Âm tiết nửa mở: là âm tiết kết thúc bằng một bán nguyên âm Ví dụ như: trêu,kêu, gọi,

Trang 24

- Âm tiết mở: là âm tiết kết thúc bằng cách giữ nguyên âm sắc của nguyên âm ở đỉnh âm tiết Ví dụ: vo ve, thủ thỉ,.

Âm tiết tiếng Việt có tính độc lập cao:

Khác với các ngôn ngữ khác, âm tiết tiếng Việt thường không bị nhược hóa

hay mất đi [3] Ví dụ trong tiếng Nga, nếu nói nhanh [Mariya Ivanouna] có thể trở thành [mar’van:ã\ Trong ngôn ngữ này, khi nói nhanh, những gì không có trọng

âm có thể bị nhược hóa hay mất đi [3] Trong một số ngôn ngữ châu Âu, ngoài hiệntượng nhược hóa còn có hiện tượng nối âm

Âm tiết tiếng Việt có khả năng biểu hiện ý nghĩa:

Trong một số ngôn ngữ khác như ở châu Âu, âm tiết chỉ là đơn vị ngữ âmthuần túy Nếu bị tách ra khỏi từ chứa nó thì âm tiết trở nên hoàn toàn vô nghĩa.Ngược lại trong tiếng Việt, đa số các âm tiết là có nghĩa Hay nói khác đi, tuyệt đại

đa số các âm tiết đều là từ đơn Ví dụ như: chân, tay, đầu, mắt, Trong tiếng Việt hiện nay còn một số âm tiết được coi là vô nghĩa như pheo trong tre pheo, núc trong bếp

núc, Mặc dù vậy trong quá khứ, các từ này cũng đều có nghĩa (pheo = tre, núc = bếp).

Âm tiết tiếng Việt có cấu trúc chặt chẽ:

Âm tiết tiếng Việt thực chất không phải là một khối không thể chia nhỏ mà làmột cấu trúc [3] Một âm tiết dạng đầy đủ (âm tiết có thanh điệu) bao gồm 5 thànhphần thể hiện như ở bảng sau:

Bảng 1.1 Cấu chúc âm tiết tiếng Việt

ÂM ĐẦU

VẦN

THANH ĐIỆU

Thành phần thứ nhất là Thanh điệu: thành phần này có chức năng phân biệt

các âm tiết với nhau về mặt cao độ Trong tiếng Việt có tất cả 6 thanh điệu tương

ứng sắc, huyền, hỏi, ngã, nặng, ngang.

Trang 25

Thành phần thứ hai là Âm đầu: có chức năng mở đầu một âm tiết Âm đầu bao giờ cũng là một phụ âm Ví dụ, trong âm tiết loại âm đầu là phụ âm /l/.Các âm tiết

anh, em, ơi phụ âm đầu là /ʔ/ (âm tắc thanh hầu) (dấu / / dùng để ký hiệu phiên âm

âm vị học [2])

Thành phần thứ ba là Âm đệm: âm đệm có chức năng làm thay đổi âm sắc của

âm tiết, cụ thể làm trầm hóa âm tiết Thành phần này do bán nguyên âm /w/ thực

hiện Trong âm tiết toát, bán nguyên âm là o Âm tiết xinh không có bán nguyên âm.

Trường hợp này âm đệm được gọi là âm đệm zêrô

Thành phần thứ tư là Âm chính: có vai trò quyết định âm sắc chủ yếu của âm tiết Thành phần này luôn do một nguyên âm đảm nhiệm Trong âm tiết toát, /a/ giữ

vai trò là âm chính

Thành phần cuối cùng là Âm cuối: chức năng của nó là kết thúc âm tiết Nó có thể là phụ âm /t/ trong toát, /n/ trong ban, hoặc một bán nguyên âm /u/ trong kêu hay /i/ trong

gọi Tương tự âm đệm, âm cuối có thể là zêrô Ví dụ như các âm tiết ba, bị, bò, bê.

Mối liên kết của năm thành phần trên không phải là có mức độ chặt chẽ giốngnhau Liên kết giữa thanh điệu, âm đầu và vần ở mức độ lỏng lẻo, có tính độc lậpnhất định Nghĩa là trong thực tế chúng có thể phân li Chẳng hạn trong cách nói lái

con mèo- meo còn, con cầy-cây còn có hiện tượng tách thanh điệu ra khỏi thành

phần còn lại của âm tiết Trong cách nói cá đua-cua đá, chua vúa-vua chúa cho thấy

có sự hoán đổi âm đầu giữa hai âm tiết Mối liên kết giữa các thành phần âm đệm,

âm chính và âm cuối trong vần thì chặt chẽ hơn Trong thực tế, ít thấy có sự phân ligiữa các thành phần này [3]

Trang 26

thể hiện của âm vị [3].

Các âm tiết tiếng Việt đối lập nhau theo nhiều thành tố: thanh điệu, âm đầu,

âm đệm, âm chính và âm cuối Tương ứng như vậy, tiếng Việt không phải có hai mà

có năm hệ thống âm vị: hệ thống âm đầu, hệ thống âm đệm, hệ thống âm chính, hệthống âm cuối và hệ thống thanh điệu

Hệ thống âm đầu:

Tiếng Việt có 22 phụ âm làm nhiệm vụ âm đầu Các phụ âm được mô tả ở bảng sau:

Bảng 1.2 Hệ thống phụ âm làm âm đầu

So với các thành phần khác như âm đệm, âm chính, âm cuối và thanh điệu,

âm đầu có số lượng lớn nhất Do vậy, âm đầu có chức năng phân biệt các âm tiết vớinhau và vai trò phân biệt âm tiết lớn hơn các thành phần còn lại nên khi viết tắt

người ta thường dựa vào âm đầu, như CNXH là viết tắt của Chủ Nghĩa Xã Hội.

Hệ thống âm đệm

Khi phát âm các âm tiết như toán, ngoan, môi của người phát âm tròn lại Yếu

tố tròn môi trong khi phát âm các âm tiết tương tự gọi là âm đệm /w/ Âm đệm /w/

có cấu tạo gần như nguyên âm chính /u/ trong âm tiết bút, lụt nhưng khác với âm

chính /u/ ở vị trí và chức năng đảm nhiệm trong âm tiết Âm chính bao giờ cũngnằm ở đỉnh âm tiết, quyết định âm sắc chủ yếu của âm tiết trong khi âm đệm chỉnằm ở sườn cong đi lên với vai trò hiệu chỉnh, hoàn thiện thêm và làm trầm hóa âmsắc của âm tiết [3]

Trang 27

Vị trí, vai trò âm đệm trong âm tiết lụt (có âm đệm zêrô), còn âm tiết luật có

Hình 1.3 Vị trí, vai trò âm đệm trong âm tiết

thường không đi sau cùng với các phụ âm tròn môi như /m, b, f, v/ ngoại trừ một số

trường hợp đặc biệt âm tiết là phiên âm các từ nước ngoài

Hệ thống âm chính:

Tiếng Việt có 13 nguyên âm đơn và 3 nguyên âm đôi thuộc nhóm âm chính.Dựa vào vị trí lưỡi, độ mở của miệng, hình dáng của môi và thời gian phát âm, các

Bảng 1.3 Bảng các âm chính là nguyên âm đơn

Bảng 1.4 Cách thể hiện bằng chữ viết các nguyên âm

Trang 28

Ba nguyên âm đôi bao gồm /i e, ɯ ɤ, u o/.

Hệ thống âm cuối:

Ngoài âm cuối zêrô, tiếng Việt còn có 8 âm cuối tích cực trong đó có 6 phụ âm/m, n, g, p, t, k/ và 2 bán nguyên âm /-u , -i / Vị trí các âm vị trong hệ thống âmcuối được trình bày ở sau:

Bảng 1.5 Vị trí các âm vị trong hệ thống âm cuối

1.4 Mô hình nhận dạng tiếng nói

Hiện nay có nhiều phương pháp đã được sử dụng trong nhận dạng ngôn ngữnhư GMM, HMM, Máy hỗ trợ SVM (Support Vector Machines), mạng nơ ron NN(Neural Networks), mạng nơ ron sâu DNN (Deep Neural Networks)

1.4.1 Mô hình GMM

Đến nay, đã có nhiều nghiên cứu sử dụng mô hình GMM để nhận dạngphương ngữ Một trong số đó có thể kể đến là nghiên cứu của Chen, Chang và

Trang 29

Wang phân lớp phương ngữ tiếng Trung [32] Mô hình GMM dựa trên các véc-tơđặc trưng MFCC để nhận dạng các giọng Beijing, Shanghai, Guangdong và Taiwancủa Trung Quốc Mô hình GMM đã được huấn luyện để nhận dạng được hầu hếtcác giọng được đưa vào thử nghiệm Có thể sử dụng các kiểu giọng đã được nhậndạng để lựa chọn mô hình phụ thuộc tiếng nói cho hệ thống nhận dạng tiếng nói.Tiếp theo, có thể kể đến nghiên cứu của Faria sử dụng GMM để nhận dạng tiếng nói

có phải là tiếng Anh chuẩn hay không [33] Nghiên cứu này nhằm phân biệt tiếngnói có phải là giọng Anh Mỹ chuẩn hay không từ những người nói tiếng Anh làngười Nga, Tây Ban Nha, Pháp, Đức, Trung Quốc, Ân Độ và từ một số nước khác.Nghiên cứu này dựa trên các đặc trưng về từ vựng để nhận dạng giọng của ngườinói Các thử nghiệm được thực hiện trên bộ ngữ liệu Fisher với độ chính xác nhậndạng đạt 84,5% cho giọng chuẩn

1.4.2 Mô hình phân lớp SVM

Máy hỗ trợ véc-tơ (SVM) cũng là một trong các bộ phân lớp hiệu quả thườngđược dùng gần đây SVM có thể phân chia các đối tượng thành hai lớp bằng mộtđường biên với khoảng trống lề vừa đủ Một trong các ưu điểm chính của SVM làngay cả khi không thể phân chia một cách tuyến tính các nhóm thì các nhóm này cóthể được thay đổi bằng cách sử dụng hàm nhân (kernel function) với các khoảngcách lề khác và khi đó chúng có thể phân chia được

SVM đã được sử dụng để phân biệt phương ngữ tiếng Anh - Trung, Anh - Ân

Độ và Anh - Canada [34], nhận dạng phương ngữ và cảm xúc tiếng Hindi [35].Trong nghiên cứu [35], các tác giả xây dựng hai hệ thống nhận dạng phương ngữ vànhận dạng cảm xúc độc lập với nhau Hệ thống nhận dạng phương ngữ sử dụng đặctrưng về phổ, độ dài âm tiết, đường bao tần số cơ bản F0 và đường bao năng lượng.Các mô hình được huấn luyện cho năm phương ngữ cần nhận dạng là Chattisgharhi(C), Bengali (B), Marathi (M), General (G) và Telugu (T) Trường hợp chỉ sử dụngđặc trưng phổ, tỷ lệ nhận dạng đúng khoảng 64% Tỷ lệ nhận dạng trung bình đạtđược trong trường hợp sử dụng độ dài âm tiết, tần số cơ bản và năng lượng lần lượt

là 58%, 64% và 49% Trường hợp kết hợp đồng thời các tham số trên cho tỷ lệ nhận

Trang 30

dạng đúng đến 81%.

1.4.3 Mô hình HMM

Mô hình Markov ẩn HMM coi phương ngữ như là quá trình ngẫu nhiên có thểchuyển từ trạng thái này sang trạng thái khác với các xác suất khác nhau Mỗi trạngthái tương ứng với một xử lý từ đó có thể chuyển sang trạng thái mới với xác suấtmới Trạng thái được gọi là ẩn là những trạng thái mà việc nhận dạng cho phép tìm

ra chúng HMM được huấn luyện theo một đặc trưng cụ thể Với phương ngữ, các

mô hình được thành lập và hiệu chỉnh cho từng phương ngữ khác nhau Tiếng nóicần được nhận dạng sau đó sẽ đem so khớp với từng mô hình và đánh giá bằngđiểm số Mô hình cho điểm số cao nhất được chọn và phương ngữ tương ứng với

mô hình đã huấn luyện là kết quả nhận dạng

Nghiên cứu của Nancy F Chen, Wade Shen, Joseph P Campbell, Pedro A.Torres- Carrasquillo sử dụng mô hình HMM nhận dạng phương ngữ tiếng Ả rập dựatrên đặc điểm phát âm của từng phương ngữ [36] Một mô hình HMM được sử dụng

để dóng các âm vị với các âm của từng phương ngữ cụ thể để mô tả hiện tượngchèn, thay thế và xóa xuất hiện khi nào với mức độ thường xuyên ra sao Cây quyếtđịnh được sử dụng để tìm ra quy luật ngữ âm phụ thuộc ngữ cảnh Các tác giả đãtiến hành nhận dạng cho bốn phương ngữ của tiếng Ả rập Kết quả nhận dạng sửdụng mô hình được đề xuất cho kết quả nhận dạng tương đối tăng 21-36% so vớimức cơ sở

Cũng sử dụng HMM nhận dạng phương ngữ, Fadi Biadsy và các cộng sự sửdụng mô hình ràng buộc âm vị nhận dạng năm phương ngữ tiếng Ả rập [37] Nhómtác giả đã sử dụng HMM toolkit (HTK) để tiến hành các thử nghiệm Các mô hình

âm học được xây dựng sử dụng HMM ba trạng thái liên tục với hỗn hợp 12 thànhphần Gauss cho mỗi trạng thái Các tác giả đã trích chọn đặc trưng bao gồm 12 hệ

số MFCC trên mỗi khung tiếng nói có độ dài 25ms và độ dịch chuyển khung là10ms Mỗi véc-tơ đặc trưng có kích thước là 39 bao gồm 13 đặc trưng (12 hệ sốMFCC với một giá trị năng lượng), 13 giá trị đạo hàm bậc nhất và 13 giá trị đạohàm bậc hai của 13 đặc trưng ban đầu Các thử nghiệm được thực hiện trên bộ ngữ

Trang 31

liệu Broadcast News TDT4 (47,61 giờ tiếng nói với tần số lấy mẫu là 8 kHz) Kếtquả nhận dạng phương ngữ đạt độ chính xác tổng thể là 81,60% với độ dài tiếng nóinhận dạng là 30 giây.

1.4.4 Mạng nơ ron nhân tạo

Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) thường gọi tắt làmạng nơ-ron (Neural network) là mô hình toán học hay hệ thống xử lý thông tinđược xây dựng dựa trên cơ sở tổng quát hóa mô hình toán học của nơ-ron thần kinhsinh học và phỏng theo cơ chế làm việc của bộ não người

Mô hình nơ-ron:

Mỗi ron là một đơn vị xử lý thông tin trong mạng ron Mô hình của ron trên Hình 1.3 [27] bao gồm 3 thành phần chính:

nơ-Hình 1.4 Một mô hình nơ ron

1 Tập các liên kết thần kinh (synapses) hay các đường kết nối có trọng số

thứ hai (j) tham chiếu đến liên kết tương ứng qua trọng số Không giống liên kết

trong bộnão, trọng số liên kết của nơ-ron nhân tạo có thể nằm trong một phạm vibao gồm cả các giá trị âm và giá trị dương

2 Một bộ cộng để lấy tổng các tín hiệu vào đã được đánh trọng số Các thaotác được mô tả ở đây tạo nên bộ tổ hợp tuyến tính

Trang 32

3 Một hàm kích hoạt hay còn gọi là hàm kích hoạt (Activation Function) đểhạn chế độ đầu ra của nơ-ron Hàm kích hoạt cũng được xem như là hàm chặn(Squashing Function) để ép phạm vi biên độ cho phép của tín hiệu ra thuộc giá trịhữu hạn nào đó Thông thường phạm vi biên độ chuẩn hóa đầu ra của nơ-ron đượcbiểu thị dưới dạng khoảng đóng [0,1] hoặc [-1,1].

có tác dụng làm tăng hoặc giảm mạng đầu vào của hàm kích hoạt tùy thuộc vào giá

Về mặt toán học, nơ-ron k có thể được biểu diễn bằng cặp phương trình:

như sau:

(1.21)

phép biến đổi làm mịn mà quan hệ của vk đối với uk không đi qua gốc tọa độ Thiên

thức (1.20) Một cách tương đương, có thể kết hợp công thức (1.19) với (1.21)thành:

Trang 33

(1.22)

Hình 1.5 Biến đổi làm mịn tạo ra do thiên áp bk ; lưu ý là vk= bk nếu uk =0

Công thức (1.22) đã bổ sung một liên kết mới Đầu vào của liên kết này là:

còn trọng số là:

Vì vậy, có thể thiết lập lại mô hình nơ-ron k như Hình 1.5 [27] Trong hình

các mô hình ở Hình 1.3 và Hình 1.5 có bề ngoài khác nhau nhưng tương đương vềmặt toán học

Trang 34

Hình 1.6 Mô hình nơ ron phi tuyến

Trang 35

Trong tài liệu kỹ thuật, dạng hàm này thường được gọi là hàm Heaviside Một cách tương ứng, đầu ra của nơ-ron k dùng hàm ngưỡng được biểu diễn:

- Hàm tuyến tính đoạn (piecewise lieaner): như minh họa trên Hình 1.7 [27] ta

có:

(1.29)

Hình 1.8 Hàm kích tuyến tính đoạn

Trang 36

- Hàm sigmoid: đồ thị của hàm kích hoạt này có dạng chữ s, thường được

dùng để xây dựng các mạng nơ-ron nhân tạo Đây là hàm luôn tăng, biểu thị sự cânbằng uyển chuyển giữa tuyến tính và phi tuyến Một ví dụ của hàm sigmoid là hàmlogistic được định nghĩa như sau:

(1.30)

ở đây a là tham số độ dốc của hàm sigmoid Bằng cách thay đổi tham số a sẽ

nhận được hàm sigmoid với độ dốc khác nhau (như minh họa Hình 1.8 [27]) Trên

thực tế, độ dốc tại gốc bằng a/4 Về mặt giới hạn, khi tham số độ dốc a tiến dần đến

vô cùng thì hàm sigmoid sẽ đơn giản trở thành hàm ngưỡng Trong khi hàm ngưỡngchỉ nhận các giá trị 0 hoặc 1 thì hàm sigmoid lấy các giá trị liên tục trong phạm vi

từ 0 đến 1 Lưu ý hàm sigmoid là hàm khả vi trong khi hàm ngưỡng thì không Các hàm kích hoạt được định nghĩa ở công thức (1.26), (1.29) và (1.20) cóphạm vi giá trị từ 0 đến +1 Trong một số trường hợp, mong muốn hàm kích hoạt cógiá trị trong phạm vi từ -1 đến +1, trong trường hợp đó hàm kích hoạt giả thiết códạng bất đối xứng so với gốc tọa độ; tức là hàm kích hoạt là hàm lẻ của trường cảmứng cục bộ Đặc biệt, hàm ngưỡng cho ở biểu thức (1.26) có thể định nghĩa lại nhưsau:

(1.31)Hàm này thường được gọi là hàm dấu Tương ứng với dạng hàm sigmoid, cóthể sử dụng hàm tang hyperbolic được định nghĩa như sau:

Trang 37

Hình 1.9 Hàm kích hoạt Sigmoid với tham số độ dốc a

Trang 38

Hình 1.10 Mạng nơ-ron truyền thẳng một lớp

- Mạng truyền thẳng nhiều lớp

Loại mạng truyền thẳng thứ hai có mặt một hoặc nhiều lớp ẩn mà các nút tínhtoán của nó được gọi tương ứng là các nơ-ron ẩn hoặc các đơn vị ẩn Chức năng củacác nơ-ron ẩn là can thiệp giữa đầu vào bên ngoài và đầu ra của mạng theo một cáchhữu ích Bằng cách bổ sung một hoặc nhiều lớp ẩn hơn mạng có thể trích rút cácthống kê bậc cao hơn Theo một nghĩa rộng hơn, mạng cần có sự phối cảnh tổngquan mặc dù tính kết nối cục bộ của nó do tập bổ sung các liên kết và bổ sung thêmchiều của các tương tác nơ-ron Khả năng của mạng ẩn trích rút các thống kê bậccao hơn sẽ đặc biệt có giá trị khi kích thước của lớp vào lớn

Các nút nguồn của lớp vào cung cấp các phần tử của mẫu kích hoạt (véc-tơvào) tạo thành các tín hiệu vào đưa tới các nơ-ron (các nút tính toán) ở lớp thứ hai(tức lớp ẩn thứ nhất) Các tín hiệu ra của lớp thứ hai là đầu vào cho lớp thứ ba vàtiếp tục như vậy cho đến lớp cuối cùng của mạng Một cách điển hình, các nơ-rontrong mỗi lớp của mạng có các tín hiệu vào là đầu ra chỉ của lớp trước đó Tập cáctín hiệu đầu ra của lớp cuối cùng (lớp ra) của mạng tạo nên đáp ứng tổng thể của

Trang 39

mạng đối với mẫu kích hoạt mà các nút nguồn ở lớp vào (lớp thứ nhất) cung cấp.Hình 1.10 minh họa kiến trúc tổng thể của một mạng nơ-ron nhiều lớp truyền thẳngcho trường hợp chỉ có một lớp ẩn Để ngắn gọn, mạng ở Hình 1.12 được gọi làmạng 10-4-2 bởi vì nó có 10 nút nguồn, bốn nơ-ron ở lớp ẩn và 2 nơ-ron đầu ra.

Một ví dụ khác là mạng truyền thẳng có m nút nguồn, h1 nơ-ron ở lớp ẩn thứ nhất,

h2 nơ-ron ở lớp ẩn thứ hai và q nơ-ron ở lớp ra được gọi là mạng m-h1-h2-q.

Mạng nơ-ron ở Hình 1.12 [27] là mạng kết nối đầy đủ theo nghĩa mỗi núttrong mỗi lớp của mạng được kết nối đến tất cả các nút ở lớp liền kề trước Tuynhiên, nếu mạng thiếu đi một số kết nối thì mạng được gọi là kết nối riêng phần

Trang 40

họa trên hình Hình 1.13 Trong kết cấu trình bày ở hình vẽ này, không có vòng tựphản hồi; tự phản hồi là đầu ra của của nơ-ron được quay trở lại chính đầu vào của

nó Mạng hồi quy ở Hình 1.13 [27] cũng không có các nơ-ron ẩn Hình 1.12 [27] làmột lớp mạng hồi quy khác có các nơ-ron ẩn Kết nối phản hồi trong Hình 1.12 xuấtphát từ các nơ-ron ẩn cũng như từ các nơ-ron đầu ra

Việc có mặt của các vòng phản hồi như trong kết cấu hồi quy ở Hình 1.11 vàHình 1.12 có ảnh hưởng sâu sắc tới khả năng học và hiệu năng của mạng Hơn nữa,các vòng phản hồi kéo theo việc sử dụng các nhánh đặc biệt bao gồm các thành

mạng nơ-ron chứa các đơn vị phi tuyến

Hình 1.12 Mạng nơ-ron hồi quy không có vòng tự phản hồi và không có

nơ-ron ẩn

Ngày đăng: 10/05/2020, 13:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm