1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng lệnh điều khiển bằng giọng nói với tập lệnh từ đơn hữu hạn

63 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 63
Dung lượng 3,2 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn này thực hiện nghiên cứu ứng dụng mô hình Markov ẩn để xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm bước đầu tìm hiểu công nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó luận văn còn tìm hiểu về đặc điểm tín hiệu tiếng nói tiếng Việt phương pháp rút trích đặc trưng tín hiệu tiếng nói MFCC đồng thời tiến hành khảo sát các tham số có khả năng ảnh hưởng lớn đến hiệu suất nhận dạng của hệ thống gồm số trạng thái của một HMM số phân bố trong mô hình hỗn hợp Gauss của mỗi trạng thái Từ đó góp phần nhỏ vào lĩnh vực nghiên cứu ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt rời rạc

Trang 1

NGUYỄN VĂN TIN

NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Đà Nẵng - 2018

Trang 2

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN TIN

NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN

Chuyên ngành: KHOA HỌC MÁY TÍNH

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

Người hướng dẫn khoa học: TS Ninh Khánh Duy

Đà Nẵng - 2018

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của TS.Ninh Khánh Duy

Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng và trung thực tên tác giả, công trình, thời gian, địa điểm công bố

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay không trung thực, tôi chịu hoàn toàn trách nhiệm

Người thực hiện

Nguyễn Văn Tin

Trang 4

LỜI CẢM ƠN

Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Ninh Khánh Duy,

người đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi để em hoàn thành tốt luận

văn tốt nghiệp này

Em cũng xin cảm ơn sự dạy dỗ và giúp đỡ tận tình của tất cả quí thầy cô tại

trường Đại học Bách khoa, Đại học Đà Nẵng Tất cả các kiến thức mà em được truyền

đạt sẽ là hành trang quí giá trên con đường học tập, làm việc và nghiên cứu sau này

Em xin được tri ơn tất cả

Người thực hiện

Nguyễn Văn Tin

Trang 5

TÓM TẮT LUẬN VĂN

Tóm tắt - Luận văn này thực hiện nghiên cứu, ứng dụng mô hình Markov ẩn để

xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm bước đầu tìm hiểu công nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó, luận văn còn tìm hiểu

về đặc điểm tín hiệu tiếng nói tiếng Việt, phương pháp rút trích đặc trưng tín hiệu tiếng nói MFCC, đồng thời tiến hành khảo sát các tham số có khả năng ảnh hưởng lớn đến hiệu suất nhận dạng của hệ thống gồm: số trạng thái của một HMM, số phân bố trong

mô hình hỗn hợp Gauss của mỗi trạng thái Từ đó, góp phần nhỏ vào lĩnh vực nghiên cứu, ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt rời rạc

Từ khóa -Nhận dạng tiếng nói tự động; Mô hình Markov ẩn; Phân tích phổ

Mel; Mô hình hỗn hợp Gauss

Summary - This thesis is a study and application the Hidden Markov Model to

build discrete speech recognition system with limited vocabulary to start learn technology of Vietnamese speech recognition Besides, the thesis also find out the characteristics of Vietnamese voice signals, the MFCC voice extraction method and tested two affect parameters have important implicationsto system performance include: the number of states of one HMM, the number distributed in the Gauss mixture model of each state From that, it has contributed to the study area, application and improvement of discrete speech recognition systems in Vietnamese

Keywords - Automatic Speech Recognition (ASR); Hiden Markov Models

Model(GMM)

Trang 6

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT LUẬN VĂN iii

MỤC LỤC iv

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi

DANH MỤC BẢNG vii

DANH MỤC HÌNH VẼ viii

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích và ý nghĩa đề tài 1

3 Mục tiêu và nhiệm vụ 2

4 Đối tượng và phạm vi nghiên cứu 2

5 Phương pháp nghiên cứu 3

6 Kết luận 3

7 Cấu trúc luận văn 4

CHƯƠNG 1 - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI 5

1.1 Tổng quan về xử lý tiếng nói 5

1.2 Nhận dạng tiếng nói tự động 5

1.3 Ngữ âm tiếng Việt 6

1.4 Thanh điệu 7

1.5 Phân loại âm vị theo đặc tính âm học 7

1.5.1 Âm hữu thanh 7

1.5.2 Âm vô thanh 7

1.5.3 Âm bật hơi 8

1.6 Các thành phần cơ bản của ngữ điệu trong tiếng nói 9

1.6.1 Ngữ điệu và các thành phần ngữ điệu 9

1.6.2 Mô hình ngữ điệu 9

1.7 Phân tích tiếng nói 10

1.7.1 Mô hình phân tích tiếng nói 10

1.7.2 Phân tích tiếng nói ngắn hạn 10

1.8 Các đặc tính cơ bản của tiếng nói 13

1.8.1 Tần số cơ bản 13

1.8.2 Biểu diễn tín hiệu tiếng nói 13

1.9 Kết chương 16

Trang 7

CHƯƠNG 2 - NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MÔ HÌNH

MARKOV ẨN 17

2.1 Mô hình Markov ẩn 17

2.1.1 Chuỗi Markov 17

2.1.2 Mô hình Markov ẩn: 18

2.1.3 Ba bài toán cơ bản của HMM 21

2.2 Ứng dụng của HMM trong nhận dạng tiếng nói rời rạc 27

2.2.1 Tổng quan 27

2.2.2 Giai đoạn huấn luyện mô hình 28

2.2.3 Giai đoạn nhận dạng 29

2.3 Kết chương 29

CHƯƠNG 3 - XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI 30

3.1 Ngữ cảnh ứng dụng 30

3.2 Thiết kế tập lệnh 30

3.2.1 Nhóm điều hướng 31

3.2.2 Nhóm điều khiển 32

3.2.3 Nhóm tương tác 33

3.3 Thu âm dữ liệu tiếng nói 33

3.3.1 Dữ liệu cho hệ thống nhận dạng phụ thuộc người nói 33

3.2.2 Dữ liệu cho hệ thống nhận dạng độc lập người nói 33

3.4 Cài đặt hệ thống nhận dạng 33

3.5 Cấu hình hệ thống nhận dạng 35

3.6 Kết quả thực nghiệm 35

CHƯƠNG 4 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37

4.1 Kết luận 37

4.2 Hướng phát triển 37

DANH MỤC TÀI LIỆU THAM KHẢO 38

Trang 8

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

HMM : Hidden Markov Model

HTK : Hidden Markov Model Toolkit

MFCC : Mel-Frequency Cepstral Coefficient

Trang 10

DANH MỤC HÌNH VẼ

Số hiệu

lƣợng âm hữu thanh

8

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Trong giao tiếp giữa người với người, tiếng nói là phương pháp trao đổi thông tin tự nhiên và hiệu quả nhất Mục tiêu của các kỹ thuật nhận dạng tiếng nói theo nghĩa rộng là tạo ra những máy có khả năng nhận biết được thông tin tiếng nói và hành động theo tiếng nói đó Nhận dạng tiếng nói là một phần của quá trình tìm kiếm thông tin để máy có thể “nghe”, “hiểu” và “hành động” theo thông tin đồng thời “nói lại” để hoàn tất việc trao đổi thông tin

Cho đến nay, vấn đề giao tiếp giữa con người và máy tính tuy đã được cải thiện nhiều nhưng chủ yếu vẫn còn khá thủ công thông qua các thiết bị nhập, xuất Giao tiếp với thiết bị máy bằng tiếng nói sẽ là phương thức giao tiếp văn minh và tự nhiên nhất Dấu ấn giao tiếp người - máy sẽ mất đi mà thay vào đó là cảm nhận của sự giao tiếp giữa người với người, nếu hoàn thiện thì đây sẽ là một phương thức giao tiếp tiện lợi

và hiệu quả trong công việc Mặc dù nhận dạng ngôn ngữ tiếng Anh đã được nghiên cứu khá hoàn thiện nhưng do có sự khác biệt về ngữ âm, ngữ nghĩa với tiếng Việt nên khó có thể áp dụng các chương trình nhận dạng khác hiện hành để nhận dạng tiếng Việt Một hệ thống nhận dạng tiếng nói ở nước ta phải được xây dựng trên nền tảng của tiếng nói tiếng Việt

Một trong những ứng dụng phổ biến nhất của nhận dạng tiếng nói là trong lĩnh vực điều khiển thiết bị bằng giọng nói Lớp ứng dụng này rất hữu ích đối với người khiếm thị vốn không thể nhìn thấy thiết bị để điều khiển chúng, hoặc đối với người bình thường trong những tình huống bận tay và mắt (như khi đang nấu ăn hoặc lái xe) không thể điều khiển thiết bị một cách dễ dàng Nhằm đáp ứng nhu cầu cập nhật thông tin, giải trí cho người khiếm thị tạo điều kiện cho họ hoà nhập tốt với cộng đồng, tôi

chọn đề tài nghiên cứu là: “Nhận dạng lệnh điều khiển bằng giọng nói với tập lệnh

Trang 12

hạn để nhận dạng khẩu lệnh (voice command) điều khiển thiết bị đọc báo điện tử cho người khiếm thị

b Ý nghĩa khoa học và thực tiễn của đề tài

- Đóng góp vào lĩnh vực nghiên cứu ứng dụng điều khiển thiết bị bằng giọng nói cho người Việt

- Làm cho con người với máy tính ngày càng gần gũi hơn, giúp cho cuộc sống của con người hoà nhập với cộng đồng tốt hơn, bắt kịp với xã hội phát triển công nghệ như hiện nay, giúp họ bớt tự ti, phụ thuộc quá nhiều vào người khác

3 Mục tiêu và nhiệm vụ

a Mục tiêu

- Nghiên cứu, thử nghiệm nhận dạng tiếng Việt rời rạc bằng mô hình Markov

ẩn (Hidden Markov Model - HMM)

- Xây dựng chương trình nhận dạng tiếng nói tiếng Việt cho tập lệnh điều khiển máy tính, thiết bị, cụ thể là đọc báo điện tử cho người khiếm thị, có khả năng nhận dạng không phụ thuộc người nói

b Nhiệm vụ

Để đạt được mục tiêu đề thì nhiệm vụ cần thiết phải làm là:

- Nghiên cứu lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong nhận dạng tiếng nói rời rạc

- Tìm hiểu HTK toolkit cho nhận dạng tiếng nói

- Thiết kế tập lệnh điều khiển thiết bị

- Thu âm dữ liệu tiếng nói của nhiều người với các chất giọng khác nhau (từ 30 người trở lên)

- Cài đặt chương trình huấn luyện HMM từ dữ liệu thu âm

- Cài đặt chương trình nhận dạng tiếng nói dùng HMM

- Đánh giá độ chính xác của chương trình nhận dạng

4 Đối tượng và phạm vi nghiên cứu

- Đề tài chỉ giới hạn trong việc tìm hiểu về tiếng nói, các phương pháp xử lý tiếng nói, rút trích đặc trưng tiếng nói; mô hình Markov ẩn, mô hình âm học, âm vị áp dụng cho tiếng Việt; kiến trúc hệ thống nhận dạng tiếng nói rời rạc (isolated speech recognition) Chương trình demo chỉ dừng ở mức nhận dạng được những câu lệnh cơ

Trang 13

bản điều khiển máy tính Khi một người đọc lệnh điều khiển, máy tính sẽ hiểu và xuất hiện dòng lệnh đó trên màn hình của chương trình

- Chương trình nhận dạng khẩu lệnh (voice command) để điều khiển thiết bị đọc báo điện tử cho người khiếm thị

5 Phương pháp nghiên cứu

a Phương pháp lý thuyết

- Nghiên cứu mô hình Markov ẩn (Hidden Markov Model - HMM)

- Nghiên cứu ứng dụng của HMM trong nhận dạng tiếng nói rời rạc (isolated speech recognition)

- Tìm hiểu phương pháp nhận dạng tiếng Việt bằng HMM

- Tìm hiểu các phương pháp xử lý tiếng nói

- So sánh các phương pháp để đưa ra giải pháp tối ưu

b Phương pháp thực nghiệm

- Thu mẫu âm tiếng Việt rời rạc với tập lệnh hữu hạn

- Tìm hiểu công cụ hỗ trợ nghiên cứu, thực nghiệm

- Cài đặt thuật toán, xây dựng hệ thống

- Triển khai, đánh giá kết quả đạt được

6 Kết luận

a Kết quả của đề tài

- Tập lệnh điều khiển thiết bị đọc báo điện tử cho người khiếm thị

- Dữ liệu tiếng nói của hơn 42 người với chất giọng khác nhau

- Mô hình hệ thống nhận dạng tiếng nói rời rạc qua các công cụ của HTK toolkit

- Mô hình âm học theo từ được huấn luyện, áp dụng cho tiếng Việt

- Chương trình nhận dạng khẩu lệnh có độ chính xác cao để điều khiển thiết bị

b Hướng phát triển của đề tài

Tối ưu hoá thuật toán huấn luyện HMM và thuật toán nhận dạng tiếng Việt để

có kết quả nhận dạng chính xác hơn và nhanh hơn

Trang 14

7 Cấu trúc luận văn

Chương 1: CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI

Chương 2: NHẬN DẠNG TIẾNG NÓI DÙNG MÔ HÌNH MARKOV ẨN Chương 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI

Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trang 15

CHƯƠNG 1 - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI

1.1 Tổng quan về xử lý tiếng nói

Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một công cụ

vô cùng hữu ích trợ giúp con người xử lý thông tin Cùng với sự phát triển của xã hội, khối lượng thông tin mà máy tính cần xử lý tăng rất nhanh trong khi thời gian dành cho những công việc này lại giảm đi Vì vậy, việc tăng tốc độ xử lý thông tin, trong đó

có tốc độ trao đổi thông tin giữa con người và máy tính, trở thành một yêu cầu cấp thiết Hiện tại, giao tiếp người - máy được thực hiện bằng các thiết bị như bàn phím, chuột, màn hình, với tốc độ tương đối chậm nên cần có các phương pháp trao đổi thông tin mới giúp con người làm việc hiệu quả hơn với máy tính Một trong những hướng nghiên cứu này là sử dụng tiếng nói trong trao đổi thông tin người - máy Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó có nhận dạng tiếng nói

1.2 Nhận dạng tiếng nói tự động

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu [11] , với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đươc học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã đươc học và lưu trữ trong bộ nhớ Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường

âm học khác nhau

Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản [3]:

- Tín hiệu tiếng nói đươc biểu diễn chính xác bởi các giá trị phổ trong một

Trang 16

khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói

- Nội dung của tiếng nói đươc biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm đươc bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm

- Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng

1.3 Ngữ âm tiếng Việt

Âm vị: Về mặt ngôn ngữ học [3], có thể xem tiếng nói là một chuỗi các âm cơ

bản được gọi là âm vị Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó

để tạo ra những âm thanh khác nhau

Nguyên âm: Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng và

hốc yết hầu-nguồn gốc của các Formant Khoang miệng và khoang yết hầu được tách biệt ra bởi lưỡi Do đó, sự thay đổi của khoang này đồng nghĩa với sự thay đổi của khoang kia Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức xác định khả năng cộng hưởng của chúng, chính là mô tả độ mở của miệng, vị trí của lưỡi và hình dáng của môi

Phụ âm: Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị

cản trở, sự cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ phận khác nhau của cơ quan phát âm Phụ âm đuợc chia ra phụ âm tắc (như

„p‟, „t‟, „đ‟, „b‟) và phụ âm xát (như „v‟, „s‟, „x‟)

Phụ âm tắc: Đặc trưng là một tiếng nổ, do luồng không khí bị cản trở hoàn

toàn, phải phá vỡ sự cản trở để thoát ra ngoài Phụ âm tắc được chia làm phụ âm bật hơi (như „th‟)và phụ âm mũi (như „m‟, „n‟, „ng‟, „nh‟)

Phụ âm xát: Đặc trưng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị

cản trở không hoàn toàn(chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra ngoài cọ xát vào thành của bộ phận phát âm

Trang 17

1.4 Thanh điệu

Thanh điệu là sự nâng cao hay hạ thấp “giọng nói” trong một âm tiết Âm tiết là đơn vị phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ Thanh điệu là sự thay đổi cao độ của giọng nói, điều đó có nghĩa thay đổi biên độ tần số cơ bản trong âm hữu thanh Thanh điệu được xác định bằng tần số cơ bản

1.5 Phân loại âm vị theo đặc tính âm học

Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, khi giao tiếp chuỗi lời nói mà con người phát ra gồm nhiều khúc đoạn dài ngắn khác nhau Đơn vị phát âm ngắn nhất là âm tiết (syllable) Trong tiếng Việt, số âm tiết được sử dụng vào khoảng

6700 Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản, kết hợp với nhau để tạo thành âm thanh Âm thanh phát ra được lan truyền trong không khí để đến tai người nhận Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng Người ta chỉ chia tiếng nói thành 3 loại cơ bản như sau 3]:

1.5.1 Âm hữu thanh

Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng hạn Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động

Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua Bộ phận phát âm hoạt động giống như hộp cộng hưởng, khuếch đại những thành phần hài này và làm suy giảm những thành phần hài khác để tạo ra âm hữu thanh Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điều khiển 2 yếu tố trên để thay đổi chu kì cơ bản (được gọi là pitch) của âm thanh Ở người đàn ông, tần số cơ bản khoảng từ 50 đến 250 Hz, trong khi ở phụ nữ là thường rơi vào khoảng 120 đến 500 Hz Trong ngôn ngữ, các nguyên âm về bản chất

âm học là những âm hữu thanh

1.5.2 Âm vô thanh

Được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản: âm

Trang 18

xát và âm bật hơi 3]

Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị co lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát

Đối với âm bật hơi, như khi ta nói „h‟ trong hùng?, hỗn loạn xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví dụ như

âm „i‟ và „u‟ trong những từ „ai‟, „âu‟

sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm Ví dụ như „p‟, „k‟, „t‟

Trang 19

1.6 Các thành phần cơ bản của ngữ điệu trong tiếng nói

1.6.1 Ngữ điệu và các thành phần ngữ điệu

Ngữ điệu là một thành phần tổng quát và quan trọng của tiếng nói, bởi vì tất cả các ngôn ngữ đều có ngữ điệu Trong ngành ngôn ngữ học, ngữ điệu là một thành của ngữ âm và được biểu diễn bởi các yếu tố vật lý như thời gian, cao độ, cường độ, phổ

Và một hệ thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cường độ, thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi giao tiếp bằng tiếng nói Ngữ điệu bao gồm một số thành phần như sau:

- Cao độ (pitch hoặc f0): trong số các yếu tố ngôn điệu, sự thay đổi cao độ là

rõ ràng, dễ thấy nhất Các thay đổi này hợp thành đường cao độ của lời nói (hay đường

thấy đường cao độ của những câu dài hơn có thể phân tách thành một chuỗi những đường cơ bản, những đường này lại có thể được phân nhỏ hơn thành những đường cao

độ của âm tiết

- Trường độ: trường độ trong ngôn điệu quan tâm đến độ dài của câu, của

đoạn, của từ, của âm tiết, phần âm không gió (voiced pard) trong một âm tiết, phần nguyên âm của âm tiết Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm, Trong phần lớn trường hợp, trường độ tuyệt đối của một yếu tố được ước lượng một cách dễ dàng Thỉnh thoảng, việc xác định được biên của một yếu tố là không dễ dàng

- Cường độ: là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu

đầu tiên về ngôn điệu trong ngữ âm học Người ta cho rằng nó liên quan đến âm lượng (loudness) cũng như các lực âm vị (phonology force) Cả hai tính chất này đều ám chỉ đến dạng cảm nhận của ngôn điệu: âm tiết mang trọng âm nổi bật hơn so với các âm tiết xung quanh, do âm lượng lớn hoặc các thuộc tính động của chúng

1.6.2 Mô hình ngữ điệu

Trong các trường hợp khác nhau, các tham số của ngữ điệu biến đổi theo các quy luật được xác định cho trường hợp đó Các mô hình ngôn điệu phục vụ mục đích:

Giải thích cách giao tiếp bằng tiếng nói

Xây dựng nền tảng cho hệ thống phần mềm là một phần của hệ thống giao tiếp hoặc là hệ tổng hợp tiếng nói

Trang 20

Xây dựng nền tảng cho hệ thống nhận dạng ngôn điệu trong giọng nói con người

Ngữ điệu có liên quan đến nhiều mức độ của khả năng ngôn ngữ của người nói:

từ vựng, ngữ pháp, ngữ nghĩa Vì vậy, để trích xuất được ngữ điệu từ văn bản, ta cần quan tâm đến tất cả các mặt này

1.7 Phân tích tiếng nói

1.7.1 Mô hình phân tích tiếng nói

Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8kHz Tín hiệu thu được sau đó được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bít lượng từ hóa là 16bit Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa

sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT, LPC, ) Hoặc sau khi phân tích phổ cơ bản, tiếp tục được đưa đến các khối để trích chọn các đặc trưng

1.7.2 Phân tích tiếng nói ngắn hạn

Trong lý thuyết phân tích, chúng ta thường không để ý đến một điểm quan trọng là các phân tích phải được tiến hành trong một khoảng thời gian giới hạn Chẳng hạn, chúng ta biết rằng biến đổi Fourier [11] theo thời gian liên tục là một công cụ vô cùng hữu ích cho việc phân tích tín hiệu Tuy nhiên, nó yêu cầu phải biết được tín hiệu trong mọi khoảng thời gian Hơn nữa, các tính chất hay đặc trưng của tín hiệu mà chúng ta cần tìm hiểu phải là các đại lượng không đổi theo thời gian Điều này trong thực tế phân tích tín hiệu khó mà đạt được vì việc phân tích tín hiệu đáp ứng các ứng dụng thực tế có thời gian hữu hạn Hầu hết các tín hiệu, đặc biệt là tín hiệu tiếng nói, không phải là tín hiệu không đổi theo thời gian

Trang 21

Hình 1.2: Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [11]

Về mặt nguyên lý, chúng ta có thể áp dụng các kỹ thuật phân tích đã biết vào phân tích tín hiệu trong ngắn hạn Tuy nhiên vì tín hiệu tiếng nói là một quá trình mang thông tin động nên chúng ta không thể chỉ đơn thuần xem xét phân tích ngắn hạn trong chỉ một khung thời gian đơn lẻ Tín hiệu tiếng nói như đã đề cập là tín hiệu thay đổi theo thời gian Nó có các đặc trưng cơ bản như nguồn kích thích (excitation), cường độ (pitch), biên độ (amplitude), Các tham số thay đổi theo thời gian của tín hiệu tiếng nói

có thể kể đến là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh - voiced, vô thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng hưởng chính (formant), hàm diện tích của tuyến âm (vocal tract area), Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh thời điểm đang xét n nào đó Các khoảng này thường khoảng từ 10-30ms Điều này cho phép chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định Khoảng nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn (segment) Một khung tín hiệu được xác định là tích của một hàm cửa sổ dịch w(m) và dãy tín hiệu s(n):

Trang 22

(1.1) Một khung tín hiệu có thể được hiểu như một đoạn tín hiệu được cắt gọt bởi một hàm cửa sổ để tạo thành một dãy mới mà các giá trị của nó bằng không bên ngoài

thuộc vào khoảng thời gian kết thúc m Trong khung tín hiệu nhỏ vừa được định nghĩa,

dễ dàng thấy rằng các phép xử lý ngắn hạn cũng có ý nghĩa tương đương các phép xử

lý dài hạn Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu liên tiếp Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy bao trùm nhau Nói một cách khác, hai khung cạnh nhau có chung ít nhất M>0 mẫu Hình 1.2 minh họa việc phân chia khung với hàm cửa sổ

Hình 1.3: Phân tích tín hiệu trên các khung chồng lên nhau [11]

Một phép phân tích ngắn hạn tổng quát có thể biểu diễn là:

(1.2)

tại thời điểm phân tích n Toán tử T{} định nghĩa một hàm phân tích ngắn hạn Tổng (1.2) được tính với giới hạn vô cùng được hiểu là phép lấy tổng được thực hiện với tất

cả các thành phần khác không của khung tín hiệu là kết quả của phép lấy cửa sổ Nói cách khác, tổng được thực hiện với mọi giá trị của m trong tập xác định (support) của hàm cửa sổ Một số hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ

Trang 23

nhật (rectangular window), hàm cửa sổ Hanning và hàm cửa sổ Hamming [9]

1.8 Các đặc tính cơ bản của tiếng nói

1.8.1 Tần số cơ bản

Thông lượng: thể tích không khí vận chuyển qua thanh môn trong một đơn vị

1.8.2 Biểu diễn tín hiệu tiếng nói

Có 3 phương pháp biểu diễn tín hiệu tiếng nói cơ bản là [11]:

- Biểu diễn dưới dạng sóng theo thời gian

- Biểu diễn trong miền tần số: phổ của tín hiệu tiếng nói

- Biểu diễn trong không gian 3 chiều (spectrogram)

1.8.2.1 Dạng sóng theo thời gian

Phần tín hiệu ứng với âm vô thanh là không tuần hoàn, ngẫu nhiên và có biên

độ hay năng lượng nhỏ hơn của nguyên âm (cỡ khoảng 1/3)

Ranh giới giữa các từ là các khoảng lặng (Silent) Ta cần phân biệt rõ các khoảng lặng với âm vô thanh

Hình 1.4: Dạng sóng theo thời gian

Âm thanh dưới dạng sóng được lưu trữ theo định dạng thông dụng trong máy tính là *.WAV với các tần số lấy mẫu thường gặp là: 8000Hz, 10000Hz, 11025Hz,

Trang 24

16000Hz, 22050Hz, 32000Hz, 44100Hz, ; độ phân giải hay còn gọi là số bít/mẫu là 8 hoặc 16 bít và số kênh là 1 (Mono) hoặc 2 (Stereo)

Như vậy, dữ liệu lưu trữ của tín hiệu âm thanh sẽ khác nhau tuỳ theo máy thu thanh, thời điểm phát âm hay người phát âm, điều này được thể hiện rõ nét trong các hình vẽ sau:

Hình 1.5: Âm thanh được thu bằng 2 micro khác nhau

Hình 1.6 Âm thanh do hai người khác nhau phát ra

Hình 1.7 Âm thanh do một người phát ra ở hai thời điểm khác nhau

Trang 25

1.8.2.2 Phổ tín hiệu tiếng nói

Trong phân tích tín hiệu tiếng nói, thay vì sử dụng trực tiếp tín hiệu tiếng nói trong miền thời gian, người ta thường hay sử dụng các đặc trưng phổ của tiếng nói điều này xuất phát từ quan điểm rằng tín hiệu tiếng nói cũng giống như các tín hiệu xác định khác có thể xem như là tổng của các tín hiệu hình sin với biên độ và pha thay đổi chậm Hơn nữa, một nguyên nhân quan trọng không kém đó là việc cảm nhận tiếng nói của con người liên quan trực tiếp đến thông tin phổ của tín hiệu tiếng nói nhiều hơn trong khi các thông tin về pha của tín hiệu tiếng nói không có vai trò quyết định Phổ biên độ phức của tín hiệu tiếng nói được định nghĩa là biến đổi Fourier (FT) của khung tín hiệu với khoảng thời gian phân tích n cố định:

(1.3)

Hình 1.8 Minh họa một khung tín hiệu (trên) và phổ tương ứng (dưới) [11]

Trang 26

1.8.2.3 Formant và Anti-formant

Tuyến âm được coi như một hốc cộng hưởng có tác dụng tăng cường một tần số nào đó Những tần số được tăng cường lên được gọi là các formant Nếu khoang miệng được coi là tuyến âm thì khoang mũi cũng được coi như là một hốc cộng hưởng Khoang mũi và khoang miệng được mắc song song nên sẽ làm suy giảm một tần số nào đó và những tần số bị suy giảm này được gọi là các anti-formant

Hình 1.9: Đường bao phổ và các Formant

Dựa trên hình 1.9 ta thấy có thể tính đến Formant thứ 5 (F5) nhưng quan trọng nhất cần chú ý ở đây là các F1 và F2 Cùng một người phát âm nhưng Formant có thể khác nhau Nếu ta chỉ căn cứ vào giá trị của Formant để đặc trưng cho âm hữu thanh thì chưa chính xác mà phải dựa vào phân bố tương đối giữa các Formant Ngoài ra, nếu xác định Formant trực tiếp từ phổ thì không chính xác mà phải dựa vào đường bao phổ, đây cũng chính là đáp ứng tần số của tuyến âm

1.9 Kết chương

Nội dung chương này trình bày tổng quan về xử lí tiếng nói, phân loại và biểu diễn tín hiệu tiếng nói

Trang 27

CHƯƠNG 2 - NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MÔ HÌNH

MARKOV ẨN 2.1 Mô hình Markov ẩn

2.1.1 Chuỗi Markov

Xét hệ thống có tính chất như sau: ở một thời điểm bất kỳ, hệ thống sẽ ở một

trong N trạng thái như hình vẽ dưới đây Cứ sau một khoảng thời gian đều đặn, hệ

thống sẽ chuyển sang trạng thái mới hoặc giữ nguyên trạng thái trước đó Ta ký hiệu

các khoảng thời gian chuyển trạng thái là t =1, 2, … và trạng thái tại thời điểm t của hệ thống là qt, qt sẽ có các giá trị 1, 2, …, N Một trạng thái tương ứng với một sự kiện

Quá trình trên được gọi là quá trình Markov

Hình 2.1 Minh họa mô hình Markov [7]

Trang 28

Ở đây có 2 trạng thái: S1 tương ứng với sự kiện e1 = Xấp và S2 tương ứng với

Trang 29

Các giá trị các phần tử của ma trận A, B, 𝜋 nhƣ trên hình trên

- Nếu cho chuỗi quan sát O = {sun, sun, cloud, rain, cloud, sun} và mô hình Markov ẩn nhƣ hình vẽ trên, thì xác suất để có chuỗi trạng thái {H, M, M, L, L, M} là

bao nhiêu?

+ Xác suất cần tìm =

Trang 30

2.1.2.2 Các thành phần của mô hình Markov ẩn:

- Ma trận xác suất chuyển đổi trạng thái (từ trạng thái i sáng trạng thái j), độc lập với thời gian:

Trang 31

thời điểm t và T là độ dài của chuỗi quan sát:

- Chọn trạng thái ban đầu với xác suất là π

- Đặt t = 1

- Đặt t = t+1, quay lại bước ba nếu t<T Ngược lại thì kết thúc

2.1.3 Ba bài toán cơ bản của HMM

2.1.3.1 Phát biểu bài toán

Từ mô hình được biểu diễn như trên, có ba bài toán được đặt ra để ứng dụng vào các hệ thống sử dụng mô hình Markov ẩn [7,8]

Bài toán đánh giá: Cho chuỗi quan sát O = o1o2 oT và mô hình Tính xác suất mô hình sinh ra chuỗi quan sát Bài toán này dùng trong giai đoạn nhận dạng bằng cách chọn ra mô hình tiếng nói sinh ra chuỗi quan sát tốt nhất Bài toán đã được nghiên cứu giải quyết bằng thuật toán tiến - lui (Forward-Backward Procedure)

Bài toán giải mã: Cho mô hình ( , , )A B , chuỗi quan sát O = o

1o2 oT Tìm

được dùng để tìm hiểu về cấu trúc của mô hình Thuật toán Viterbi được áp dụng để giải bài toán

Bài toán huấn luyện: Điều chỉnh các tham số ( , , )A B của mô hình để mô

tả tốt nhất cách mà chuỗi quan sát được tạo ra, tối đa hóa xác suất Áp dụng thuật toán Baum-Welch để giải quyết bài toán vào việc huấn luyện mô hình từ dữ liệu là các chuỗi quan sát

2.1.3.2 Bài toán đánh giá

Các giải pháp được đưa ra

- Tính trực tiếp P(O|)

Ngày đăng: 27/04/2021, 18:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Abimbola A. Fisusi, Thomas K. Yesufu (2007), Speaker Recognition Systems A Tutorial, African Journal of Information and Communication Technology, Vol. 3, No. 2, June 2007 Sách, tạp chí
Tiêu đề: Speaker Recognition Systems A Tutorial
Tác giả: Abimbola A. Fisusi, Thomas K. Yesufu
Năm: 2007
[2] Andrew McCallu (2004), Hidden Markov Models Baum Welch Algorithm, Introduction to Natural Language Processing CS 585, March 9, 2004 Sách, tạp chí
Tiêu đề: Hidden Markov Models Baum Welch Algorithm
Tác giả: Andrew McCallu
Năm: 2004
[3] Mai Ngọc Chữ, Vũ Đức Nghiệu, Hoàng Trọng Phiến (2008), Cơ sở ngôn ngữ học và Tiếng Việt, NXB Giáo dục Sách, tạp chí
Tiêu đề: Cơ sở ngôn ngữ học và Tiếng Việt
Tác giả: Mai Ngọc Chữ, Vũ Đức Nghiệu, Hoàng Trọng Phiến
Nhà XB: NXB Giáo dục
Năm: 2008
[4] Lê Vũ Công Hoà, Hoàng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy (2017), â d ng mô-đun điều khiển bằng giọng nói trong ứng dụng đọc báo điện tử cho người khiếm thị, Kỷ yếu Hội thảo Khoa học Quốc gia CITA 2017 - Công nghệ thông tin và Ứng dụng trong các lĩnh vực Sách, tạp chí
Tiêu đề: â d ng mô-đun điều khiển bằng giọng nói trong ứng dụng đọc báo điện tử cho người khiếm thị
Tác giả: Lê Vũ Công Hoà, Hoàng Thị Minh Khanh, Lê Quang Tam, Ninh Khánh Duy
Năm: 2017
[5] G. David Forney, JR (1973), The Viterbi Algorithm, Proceedings of the IEEE, VOL. 61, NO. 3, March 1973 Sách, tạp chí
Tiêu đề: The Viterbi Algorithm
Tác giả: G. David Forney, JR
Năm: 1973
[6] Bạch Hƣng Khang (2004), Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt, Báo cáo đề tài, Viện Công nghệ thông tin Sách, tạp chí
Tiêu đề: Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt
Tác giả: Bạch Hƣng Khang
Năm: 2004
[7] Lawrence R. Rabiner (1989), A tutorial on Hidden Markov Models and selected application in speech recognition, Processding of IEEE, vol.77, No.2, Freruary, 1989 Sách, tạp chí
Tiêu đề: A tutorial on Hidden Markov Models and selected application in speech recognition
Tác giả: Lawrence R. Rabiner
Năm: 1989
[8] Ling Feng (2004), Speeech Recognition, Technical University of Denmark Informatics and Mathematical Modelling Sách, tạp chí
Tiêu đề: Speeech Recognition
Tác giả: Ling Feng
Năm: 2004
[9] Malay Kumar (2016), Comparative Study of Feature Extraction Techniques for Hindi Speech Recognition System on HTK-Toolkit, International Journal of Advanced Research in Computer and Communication Engineering, Vol. 5, Issue 8, August 2016 Sách, tạp chí
Tiêu đề: Comparative Study of Feature Extraction Techniques for Hindi Speech Recognition System on HTK-Toolkit
Tác giả: Malay Kumar
Năm: 2016
[10] Mark Gales, Steve Young (2008), The Application of Hidden Markov Models in Speech Recognition, Foundations and Trends in Signal Processing, Vol. 1, No. 3 (2007) 195–304 Sách, tạp chí
Tiêu đề: The Application of Hidden Markov Models in Speech Recognition
Tác giả: Mark Gales, Steve Young
Năm: 2008
[11] Phạm Văn Sự, Lê Xuân Thành, “Bài giảng Xử lý tiếng nói”, HỌC VIỆN CÔNG NGHỆ BƯU CH NH VIỄN TH NG, 2010 Sách, tạp chí
Tiêu đề: Bài giảng Xử lý tiếng nói

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w