Luận văn này thực hiện nghiên cứu ứng dụng mô hình Markov ẩn để xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm bước đầu tìm hiểu công nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó luận văn còn tìm hiểu về đặc điểm tín hiệu tiếng nói tiếng Việt phương pháp rút trích đặc trưng tín hiệu tiếng nói MFCC đồng thời tiến hành khảo sát các tham số có khả năng ảnh hưởng lớn đến hiệu suất nhận dạng của hệ thống gồm số trạng thái của một HMM số phân bố trong mô hình hỗn hợp Gauss của mỗi trạng thái Từ đó góp phần nhỏ vào lĩnh vực nghiên cứu ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt rời rạc
Trang 1NGUYỄN VĂN TIN
NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Đà Nẵng - 2018
Trang 2ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN VĂN TIN
NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI VỚI TẬP LỆNH TỪ ĐƠN HỮU HẠN
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ
Người hướng dẫn khoa học: TS Ninh Khánh Duy
Đà Nẵng - 2018
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của TS.Ninh Khánh Duy
Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng và trung thực tên tác giả, công trình, thời gian, địa điểm công bố
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay không trung thực, tôi chịu hoàn toàn trách nhiệm
Người thực hiện
Nguyễn Văn Tin
Trang 4LỜI CẢM ƠN
Đầu tiên, em xin bày tỏ lòng biết ơn chân thành đến thầy Ninh Khánh Duy,
người đã tận tình hướng dẫn, tạo mọi điều kiện thuận lợi để em hoàn thành tốt luận
văn tốt nghiệp này
Em cũng xin cảm ơn sự dạy dỗ và giúp đỡ tận tình của tất cả quí thầy cô tại
trường Đại học Bách khoa, Đại học Đà Nẵng Tất cả các kiến thức mà em được truyền
đạt sẽ là hành trang quí giá trên con đường học tập, làm việc và nghiên cứu sau này
Em xin được tri ơn tất cả
Người thực hiện
Nguyễn Văn Tin
Trang 5TÓM TẮT LUẬN VĂN
Tóm tắt - Luận văn này thực hiện nghiên cứu, ứng dụng mô hình Markov ẩn để
xây dựng hệ thống nhận dạng tiếng nói rời rạc với bộ từ vựng hữu hạn nhằm bước đầu tìm hiểu công nghệ nhận dạng tiếng nói tiếng Việt Bên cạnh đó, luận văn còn tìm hiểu
về đặc điểm tín hiệu tiếng nói tiếng Việt, phương pháp rút trích đặc trưng tín hiệu tiếng nói MFCC, đồng thời tiến hành khảo sát các tham số có khả năng ảnh hưởng lớn đến hiệu suất nhận dạng của hệ thống gồm: số trạng thái của một HMM, số phân bố trong
mô hình hỗn hợp Gauss của mỗi trạng thái Từ đó, góp phần nhỏ vào lĩnh vực nghiên cứu, ứng dụng và cải tiến các hệ thống nhận dạng tiếng nói tiếng Việt rời rạc
Từ khóa -Nhận dạng tiếng nói tự động; Mô hình Markov ẩn; Phân tích phổ
Mel; Mô hình hỗn hợp Gauss
Summary - This thesis is a study and application the Hidden Markov Model to
build discrete speech recognition system with limited vocabulary to start learn technology of Vietnamese speech recognition Besides, the thesis also find out the characteristics of Vietnamese voice signals, the MFCC voice extraction method and tested two affect parameters have important implicationsto system performance include: the number of states of one HMM, the number distributed in the Gauss mixture model of each state From that, it has contributed to the study area, application and improvement of discrete speech recognition systems in Vietnamese
Keywords - Automatic Speech Recognition (ASR); Hiden Markov Models
Model(GMM)
Trang 6MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
TÓM TẮT LUẬN VĂN iii
MỤC LỤC iv
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT vi
DANH MỤC BẢNG vii
DANH MỤC HÌNH VẼ viii
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích và ý nghĩa đề tài 1
3 Mục tiêu và nhiệm vụ 2
4 Đối tượng và phạm vi nghiên cứu 2
5 Phương pháp nghiên cứu 3
6 Kết luận 3
7 Cấu trúc luận văn 4
CHƯƠNG 1 - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI 5
1.1 Tổng quan về xử lý tiếng nói 5
1.2 Nhận dạng tiếng nói tự động 5
1.3 Ngữ âm tiếng Việt 6
1.4 Thanh điệu 7
1.5 Phân loại âm vị theo đặc tính âm học 7
1.5.1 Âm hữu thanh 7
1.5.2 Âm vô thanh 7
1.5.3 Âm bật hơi 8
1.6 Các thành phần cơ bản của ngữ điệu trong tiếng nói 9
1.6.1 Ngữ điệu và các thành phần ngữ điệu 9
1.6.2 Mô hình ngữ điệu 9
1.7 Phân tích tiếng nói 10
1.7.1 Mô hình phân tích tiếng nói 10
1.7.2 Phân tích tiếng nói ngắn hạn 10
1.8 Các đặc tính cơ bản của tiếng nói 13
1.8.1 Tần số cơ bản 13
1.8.2 Biểu diễn tín hiệu tiếng nói 13
1.9 Kết chương 16
Trang 7CHƯƠNG 2 - NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MÔ HÌNH
MARKOV ẨN 17
2.1 Mô hình Markov ẩn 17
2.1.1 Chuỗi Markov 17
2.1.2 Mô hình Markov ẩn: 18
2.1.3 Ba bài toán cơ bản của HMM 21
2.2 Ứng dụng của HMM trong nhận dạng tiếng nói rời rạc 27
2.2.1 Tổng quan 27
2.2.2 Giai đoạn huấn luyện mô hình 28
2.2.3 Giai đoạn nhận dạng 29
2.3 Kết chương 29
CHƯƠNG 3 - XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI 30
3.1 Ngữ cảnh ứng dụng 30
3.2 Thiết kế tập lệnh 30
3.2.1 Nhóm điều hướng 31
3.2.2 Nhóm điều khiển 32
3.2.3 Nhóm tương tác 33
3.3 Thu âm dữ liệu tiếng nói 33
3.3.1 Dữ liệu cho hệ thống nhận dạng phụ thuộc người nói 33
3.2.2 Dữ liệu cho hệ thống nhận dạng độc lập người nói 33
3.4 Cài đặt hệ thống nhận dạng 33
3.5 Cấu hình hệ thống nhận dạng 35
3.6 Kết quả thực nghiệm 35
CHƯƠNG 4 - KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37
4.1 Kết luận 37
4.2 Hướng phát triển 37
DANH MỤC TÀI LIỆU THAM KHẢO 38
Trang 8DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
HMM : Hidden Markov Model
HTK : Hidden Markov Model Toolkit
MFCC : Mel-Frequency Cepstral Coefficient
Trang 10DANH MỤC HÌNH VẼ
Số hiệu
lƣợng âm hữu thanh
8
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Trong giao tiếp giữa người với người, tiếng nói là phương pháp trao đổi thông tin tự nhiên và hiệu quả nhất Mục tiêu của các kỹ thuật nhận dạng tiếng nói theo nghĩa rộng là tạo ra những máy có khả năng nhận biết được thông tin tiếng nói và hành động theo tiếng nói đó Nhận dạng tiếng nói là một phần của quá trình tìm kiếm thông tin để máy có thể “nghe”, “hiểu” và “hành động” theo thông tin đồng thời “nói lại” để hoàn tất việc trao đổi thông tin
Cho đến nay, vấn đề giao tiếp giữa con người và máy tính tuy đã được cải thiện nhiều nhưng chủ yếu vẫn còn khá thủ công thông qua các thiết bị nhập, xuất Giao tiếp với thiết bị máy bằng tiếng nói sẽ là phương thức giao tiếp văn minh và tự nhiên nhất Dấu ấn giao tiếp người - máy sẽ mất đi mà thay vào đó là cảm nhận của sự giao tiếp giữa người với người, nếu hoàn thiện thì đây sẽ là một phương thức giao tiếp tiện lợi
và hiệu quả trong công việc Mặc dù nhận dạng ngôn ngữ tiếng Anh đã được nghiên cứu khá hoàn thiện nhưng do có sự khác biệt về ngữ âm, ngữ nghĩa với tiếng Việt nên khó có thể áp dụng các chương trình nhận dạng khác hiện hành để nhận dạng tiếng Việt Một hệ thống nhận dạng tiếng nói ở nước ta phải được xây dựng trên nền tảng của tiếng nói tiếng Việt
Một trong những ứng dụng phổ biến nhất của nhận dạng tiếng nói là trong lĩnh vực điều khiển thiết bị bằng giọng nói Lớp ứng dụng này rất hữu ích đối với người khiếm thị vốn không thể nhìn thấy thiết bị để điều khiển chúng, hoặc đối với người bình thường trong những tình huống bận tay và mắt (như khi đang nấu ăn hoặc lái xe) không thể điều khiển thiết bị một cách dễ dàng Nhằm đáp ứng nhu cầu cập nhật thông tin, giải trí cho người khiếm thị tạo điều kiện cho họ hoà nhập tốt với cộng đồng, tôi
chọn đề tài nghiên cứu là: “Nhận dạng lệnh điều khiển bằng giọng nói với tập lệnh
Trang 12hạn để nhận dạng khẩu lệnh (voice command) điều khiển thiết bị đọc báo điện tử cho người khiếm thị
b Ý nghĩa khoa học và thực tiễn của đề tài
- Đóng góp vào lĩnh vực nghiên cứu ứng dụng điều khiển thiết bị bằng giọng nói cho người Việt
- Làm cho con người với máy tính ngày càng gần gũi hơn, giúp cho cuộc sống của con người hoà nhập với cộng đồng tốt hơn, bắt kịp với xã hội phát triển công nghệ như hiện nay, giúp họ bớt tự ti, phụ thuộc quá nhiều vào người khác
3 Mục tiêu và nhiệm vụ
a Mục tiêu
- Nghiên cứu, thử nghiệm nhận dạng tiếng Việt rời rạc bằng mô hình Markov
ẩn (Hidden Markov Model - HMM)
- Xây dựng chương trình nhận dạng tiếng nói tiếng Việt cho tập lệnh điều khiển máy tính, thiết bị, cụ thể là đọc báo điện tử cho người khiếm thị, có khả năng nhận dạng không phụ thuộc người nói
b Nhiệm vụ
Để đạt được mục tiêu đề thì nhiệm vụ cần thiết phải làm là:
- Nghiên cứu lý thuyết mô hình Markov ẩn (HMM) và ứng dụng của HMM trong nhận dạng tiếng nói rời rạc
- Tìm hiểu HTK toolkit cho nhận dạng tiếng nói
- Thiết kế tập lệnh điều khiển thiết bị
- Thu âm dữ liệu tiếng nói của nhiều người với các chất giọng khác nhau (từ 30 người trở lên)
- Cài đặt chương trình huấn luyện HMM từ dữ liệu thu âm
- Cài đặt chương trình nhận dạng tiếng nói dùng HMM
- Đánh giá độ chính xác của chương trình nhận dạng
4 Đối tượng và phạm vi nghiên cứu
- Đề tài chỉ giới hạn trong việc tìm hiểu về tiếng nói, các phương pháp xử lý tiếng nói, rút trích đặc trưng tiếng nói; mô hình Markov ẩn, mô hình âm học, âm vị áp dụng cho tiếng Việt; kiến trúc hệ thống nhận dạng tiếng nói rời rạc (isolated speech recognition) Chương trình demo chỉ dừng ở mức nhận dạng được những câu lệnh cơ
Trang 13bản điều khiển máy tính Khi một người đọc lệnh điều khiển, máy tính sẽ hiểu và xuất hiện dòng lệnh đó trên màn hình của chương trình
- Chương trình nhận dạng khẩu lệnh (voice command) để điều khiển thiết bị đọc báo điện tử cho người khiếm thị
5 Phương pháp nghiên cứu
a Phương pháp lý thuyết
- Nghiên cứu mô hình Markov ẩn (Hidden Markov Model - HMM)
- Nghiên cứu ứng dụng của HMM trong nhận dạng tiếng nói rời rạc (isolated speech recognition)
- Tìm hiểu phương pháp nhận dạng tiếng Việt bằng HMM
- Tìm hiểu các phương pháp xử lý tiếng nói
- So sánh các phương pháp để đưa ra giải pháp tối ưu
b Phương pháp thực nghiệm
- Thu mẫu âm tiếng Việt rời rạc với tập lệnh hữu hạn
- Tìm hiểu công cụ hỗ trợ nghiên cứu, thực nghiệm
- Cài đặt thuật toán, xây dựng hệ thống
- Triển khai, đánh giá kết quả đạt được
6 Kết luận
a Kết quả của đề tài
- Tập lệnh điều khiển thiết bị đọc báo điện tử cho người khiếm thị
- Dữ liệu tiếng nói của hơn 42 người với chất giọng khác nhau
- Mô hình hệ thống nhận dạng tiếng nói rời rạc qua các công cụ của HTK toolkit
- Mô hình âm học theo từ được huấn luyện, áp dụng cho tiếng Việt
- Chương trình nhận dạng khẩu lệnh có độ chính xác cao để điều khiển thiết bị
b Hướng phát triển của đề tài
Tối ưu hoá thuật toán huấn luyện HMM và thuật toán nhận dạng tiếng Việt để
có kết quả nhận dạng chính xác hơn và nhanh hơn
Trang 147 Cấu trúc luận văn
Chương 1: CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
Chương 2: NHẬN DẠNG TIẾNG NÓI DÙNG MÔ HÌNH MARKOV ẨN Chương 3: XÂY DỰNG HỆ THỐNG NHẬN DẠNG LỆNH ĐIỀU KHIỂN BẰNG GIỌNG NÓI
Chương 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Trang 15
CHƯƠNG 1 - CƠ SỞ LÝ THUYẾT XỬ LÝ TIẾNG NÓI
1.1 Tổng quan về xử lý tiếng nói
Kể từ khi xuất hiện, máy tính càng ngày càng chứng tỏ rằng đó là một công cụ
vô cùng hữu ích trợ giúp con người xử lý thông tin Cùng với sự phát triển của xã hội, khối lượng thông tin mà máy tính cần xử lý tăng rất nhanh trong khi thời gian dành cho những công việc này lại giảm đi Vì vậy, việc tăng tốc độ xử lý thông tin, trong đó
có tốc độ trao đổi thông tin giữa con người và máy tính, trở thành một yêu cầu cấp thiết Hiện tại, giao tiếp người - máy được thực hiện bằng các thiết bị như bàn phím, chuột, màn hình, với tốc độ tương đối chậm nên cần có các phương pháp trao đổi thông tin mới giúp con người làm việc hiệu quả hơn với máy tính Một trong những hướng nghiên cứu này là sử dụng tiếng nói trong trao đổi thông tin người - máy Những nghiên cứu này liên quan trực tiếp tới các kết quả của chuyên ngành xử lý tiếng nói, trong đó có nhận dạng tiếng nói
1.2 Nhận dạng tiếng nói tự động
Nhận dạng tiếng nói là một quá trình nhận dạng mẫu [11] , với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã đươc học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã đươc học và lưu trữ trong bộ nhớ Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường
âm học khác nhau
Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói
Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản [3]:
- Tín hiệu tiếng nói đươc biểu diễn chính xác bởi các giá trị phổ trong một
Trang 16khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói
- Nội dung của tiếng nói đươc biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm đươc bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm
- Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng
1.3 Ngữ âm tiếng Việt
Âm vị: Về mặt ngôn ngữ học [3], có thể xem tiếng nói là một chuỗi các âm cơ
bản được gọi là âm vị Âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị khác nhau kết hợp với nhau một cách nào đó
để tạo ra những âm thanh khác nhau
Nguyên âm: Nguyên âm được xác định bởi hốc cộng hưởng khoang miệng và
hốc yết hầu-nguồn gốc của các Formant Khoang miệng và khoang yết hầu được tách biệt ra bởi lưỡi Do đó, sự thay đổi của khoang này đồng nghĩa với sự thay đổi của khoang kia Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức xác định khả năng cộng hưởng của chúng, chính là mô tả độ mở của miệng, vị trí của lưỡi và hình dáng của môi
Phụ âm: Đặc điểm cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị
cản trở, sự cản trở này diễn ra với những mức độ khác nhau, cách thức khác nhau và ở những bộ phận khác nhau của cơ quan phát âm Phụ âm đuợc chia ra phụ âm tắc (như
„p‟, „t‟, „đ‟, „b‟) và phụ âm xát (như „v‟, „s‟, „x‟)
Phụ âm tắc: Đặc trưng là một tiếng nổ, do luồng không khí bị cản trở hoàn
toàn, phải phá vỡ sự cản trở để thoát ra ngoài Phụ âm tắc được chia làm phụ âm bật hơi (như „th‟)và phụ âm mũi (như „m‟, „n‟, „ng‟, „nh‟)
Phụ âm xát: Đặc trưng là tiếng cọ xát, phát sinh do luồng không khi đi ra bị
cản trở không hoàn toàn(chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra ngoài cọ xát vào thành của bộ phận phát âm
Trang 171.4 Thanh điệu
Thanh điệu là sự nâng cao hay hạ thấp “giọng nói” trong một âm tiết Âm tiết là đơn vị phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ Thanh điệu là sự thay đổi cao độ của giọng nói, điều đó có nghĩa thay đổi biên độ tần số cơ bản trong âm hữu thanh Thanh điệu được xác định bằng tần số cơ bản
1.5 Phân loại âm vị theo đặc tính âm học
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, khi giao tiếp chuỗi lời nói mà con người phát ra gồm nhiều khúc đoạn dài ngắn khác nhau Đơn vị phát âm ngắn nhất là âm tiết (syllable) Trong tiếng Việt, số âm tiết được sử dụng vào khoảng
6700 Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản, kết hợp với nhau để tạo thành âm thanh Âm thanh phát ra được lan truyền trong không khí để đến tai người nhận Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng Người ta chỉ chia tiếng nói thành 3 loại cơ bản như sau 3]:
1.5.1 Âm hữu thanh
Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói “i”, “a”, hay “o” chẳng hạn Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động
Được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua Bộ phận phát âm hoạt động giống như hộp cộng hưởng, khuếch đại những thành phần hài này và làm suy giảm những thành phần hài khác để tạo ra âm hữu thanh Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điều khiển 2 yếu tố trên để thay đổi chu kì cơ bản (được gọi là pitch) của âm thanh Ở người đàn ông, tần số cơ bản khoảng từ 50 đến 250 Hz, trong khi ở phụ nữ là thường rơi vào khoảng 120 đến 500 Hz Trong ngôn ngữ, các nguyên âm về bản chất
âm học là những âm hữu thanh
1.5.2 Âm vô thanh
Được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản: âm
Trang 18xát và âm bật hơi 3]
Đối với âm xát, ví dụ khi nói “s”, “x”, một số điểm trên bộ phận phát âm bị co lại khi luồng không khí đi ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát
Đối với âm bật hơi, như khi ta nói „h‟ trong hùng?, hỗn loạn xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví dụ như
âm „i‟ và „u‟ trong những từ „ai‟, „âu‟
sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm Ví dụ như „p‟, „k‟, „t‟
Trang 191.6 Các thành phần cơ bản của ngữ điệu trong tiếng nói
1.6.1 Ngữ điệu và các thành phần ngữ điệu
Ngữ điệu là một thành phần tổng quát và quan trọng của tiếng nói, bởi vì tất cả các ngôn ngữ đều có ngữ điệu Trong ngành ngôn ngữ học, ngữ điệu là một thành của ngữ âm và được biểu diễn bởi các yếu tố vật lý như thời gian, cao độ, cường độ, phổ
Và một hệ thống ngữ điệu (intonation system) là một sự thay đổi về cao độ, cường độ, thời gian ngắt nghỉ, phổ của một câu nhằm thể hiện một ý nghĩa, sắc thái tình cảm khi giao tiếp bằng tiếng nói Ngữ điệu bao gồm một số thành phần như sau:
- Cao độ (pitch hoặc f0): trong số các yếu tố ngôn điệu, sự thay đổi cao độ là
rõ ràng, dễ thấy nhất Các thay đổi này hợp thành đường cao độ của lời nói (hay đường
thấy đường cao độ của những câu dài hơn có thể phân tách thành một chuỗi những đường cơ bản, những đường này lại có thể được phân nhỏ hơn thành những đường cao
độ của âm tiết
- Trường độ: trường độ trong ngôn điệu quan tâm đến độ dài của câu, của
đoạn, của từ, của âm tiết, phần âm không gió (voiced pard) trong một âm tiết, phần nguyên âm của âm tiết Độ dài của âm tiết và lời nói phụ thuộc (phụ thuộc hoặc phụ thuộc lẫn nhau) vào một số yếu tố như tốc độ nói, nhịp điệu, bản chất ngữ âm, Trong phần lớn trường hợp, trường độ tuyệt đối của một yếu tố được ước lượng một cách dễ dàng Thỉnh thoảng, việc xác định được biên của một yếu tố là không dễ dàng
- Cường độ: là một thuộc tính ngôn điệu đã được mô tả từ những nghiên cứu
đầu tiên về ngôn điệu trong ngữ âm học Người ta cho rằng nó liên quan đến âm lượng (loudness) cũng như các lực âm vị (phonology force) Cả hai tính chất này đều ám chỉ đến dạng cảm nhận của ngôn điệu: âm tiết mang trọng âm nổi bật hơn so với các âm tiết xung quanh, do âm lượng lớn hoặc các thuộc tính động của chúng
1.6.2 Mô hình ngữ điệu
Trong các trường hợp khác nhau, các tham số của ngữ điệu biến đổi theo các quy luật được xác định cho trường hợp đó Các mô hình ngôn điệu phục vụ mục đích:
Giải thích cách giao tiếp bằng tiếng nói
Xây dựng nền tảng cho hệ thống phần mềm là một phần của hệ thống giao tiếp hoặc là hệ tổng hợp tiếng nói
Trang 20Xây dựng nền tảng cho hệ thống nhận dạng ngôn điệu trong giọng nói con người
Ngữ điệu có liên quan đến nhiều mức độ của khả năng ngôn ngữ của người nói:
từ vựng, ngữ pháp, ngữ nghĩa Vì vậy, để trích xuất được ngữ điệu từ văn bản, ta cần quan tâm đến tất cả các mặt này
1.7 Phân tích tiếng nói
1.7.1 Mô hình phân tích tiếng nói
Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8kHz Tín hiệu thu được sau đó được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bít lượng từ hóa là 16bit Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường khoảng 30ms và khoảng lệch các khung thường bằng 10ms Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa
sổ được đưa vào phân tích với các phương pháp phân tích phổ (chẳng hạn như STFT, LPC, ) Hoặc sau khi phân tích phổ cơ bản, tiếp tục được đưa đến các khối để trích chọn các đặc trưng
1.7.2 Phân tích tiếng nói ngắn hạn
Trong lý thuyết phân tích, chúng ta thường không để ý đến một điểm quan trọng là các phân tích phải được tiến hành trong một khoảng thời gian giới hạn Chẳng hạn, chúng ta biết rằng biến đổi Fourier [11] theo thời gian liên tục là một công cụ vô cùng hữu ích cho việc phân tích tín hiệu Tuy nhiên, nó yêu cầu phải biết được tín hiệu trong mọi khoảng thời gian Hơn nữa, các tính chất hay đặc trưng của tín hiệu mà chúng ta cần tìm hiểu phải là các đại lượng không đổi theo thời gian Điều này trong thực tế phân tích tín hiệu khó mà đạt được vì việc phân tích tín hiệu đáp ứng các ứng dụng thực tế có thời gian hữu hạn Hầu hết các tín hiệu, đặc biệt là tín hiệu tiếng nói, không phải là tín hiệu không đổi theo thời gian
Trang 21Hình 1.2: Mô hình tổng quát của việc xử lý tín hiệu tiếng nói [11]
Về mặt nguyên lý, chúng ta có thể áp dụng các kỹ thuật phân tích đã biết vào phân tích tín hiệu trong ngắn hạn Tuy nhiên vì tín hiệu tiếng nói là một quá trình mang thông tin động nên chúng ta không thể chỉ đơn thuần xem xét phân tích ngắn hạn trong chỉ một khung thời gian đơn lẻ Tín hiệu tiếng nói như đã đề cập là tín hiệu thay đổi theo thời gian Nó có các đặc trưng cơ bản như nguồn kích thích (excitation), cường độ (pitch), biên độ (amplitude), Các tham số thay đổi theo thời gian của tín hiệu tiếng nói
có thể kể đến là tần số cơ bản (fundamental frequency - pitch), loại âm (âm hữu thanh - voiced, vô thanh - unvoiced, tắc - fricative hay khoảng lặng - silence), các tần số cộng hưởng chính (formant), hàm diện tích của tuyến âm (vocal tract area), Việc thực hiện phân tích ngắn hạn tức là xem xét tín hiệu trong một khoảng nhỏ thời gian xung quanh thời điểm đang xét n nào đó Các khoảng này thường khoảng từ 10-30ms Điều này cho phép chúng ta giả thiết rằng trong khoảng thời gian đó các tính chất của dạng sóng tín hiệu tiếng nói là tương đối ổn định Khoảng nhỏ tín hiệu dùng để phân tích thường được gọi là một khung (frame), hay một đoạn (segment) Một khung tín hiệu được xác định là tích của một hàm cửa sổ dịch w(m) và dãy tín hiệu s(n):
Trang 22(1.1) Một khung tín hiệu có thể được hiểu như một đoạn tín hiệu được cắt gọt bởi một hàm cửa sổ để tạo thành một dãy mới mà các giá trị của nó bằng không bên ngoài
thuộc vào khoảng thời gian kết thúc m Trong khung tín hiệu nhỏ vừa được định nghĩa,
dễ dàng thấy rằng các phép xử lý ngắn hạn cũng có ý nghĩa tương đương các phép xử
lý dài hạn Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu liên tiếp Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy bao trùm nhau Nói một cách khác, hai khung cạnh nhau có chung ít nhất M>0 mẫu Hình 1.2 minh họa việc phân chia khung với hàm cửa sổ
Hình 1.3: Phân tích tín hiệu trên các khung chồng lên nhau [11]
Một phép phân tích ngắn hạn tổng quát có thể biểu diễn là:
(1.2)
tại thời điểm phân tích n Toán tử T{} định nghĩa một hàm phân tích ngắn hạn Tổng (1.2) được tính với giới hạn vô cùng được hiểu là phép lấy tổng được thực hiện với tất
cả các thành phần khác không của khung tín hiệu là kết quả của phép lấy cửa sổ Nói cách khác, tổng được thực hiện với mọi giá trị của m trong tập xác định (support) của hàm cửa sổ Một số hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ
Trang 23nhật (rectangular window), hàm cửa sổ Hanning và hàm cửa sổ Hamming [9]
1.8 Các đặc tính cơ bản của tiếng nói
1.8.1 Tần số cơ bản
Thông lượng: thể tích không khí vận chuyển qua thanh môn trong một đơn vị
1.8.2 Biểu diễn tín hiệu tiếng nói
Có 3 phương pháp biểu diễn tín hiệu tiếng nói cơ bản là [11]:
- Biểu diễn dưới dạng sóng theo thời gian
- Biểu diễn trong miền tần số: phổ của tín hiệu tiếng nói
- Biểu diễn trong không gian 3 chiều (spectrogram)
1.8.2.1 Dạng sóng theo thời gian
Phần tín hiệu ứng với âm vô thanh là không tuần hoàn, ngẫu nhiên và có biên
độ hay năng lượng nhỏ hơn của nguyên âm (cỡ khoảng 1/3)
Ranh giới giữa các từ là các khoảng lặng (Silent) Ta cần phân biệt rõ các khoảng lặng với âm vô thanh
Hình 1.4: Dạng sóng theo thời gian
Âm thanh dưới dạng sóng được lưu trữ theo định dạng thông dụng trong máy tính là *.WAV với các tần số lấy mẫu thường gặp là: 8000Hz, 10000Hz, 11025Hz,
Trang 2416000Hz, 22050Hz, 32000Hz, 44100Hz, ; độ phân giải hay còn gọi là số bít/mẫu là 8 hoặc 16 bít và số kênh là 1 (Mono) hoặc 2 (Stereo)
Như vậy, dữ liệu lưu trữ của tín hiệu âm thanh sẽ khác nhau tuỳ theo máy thu thanh, thời điểm phát âm hay người phát âm, điều này được thể hiện rõ nét trong các hình vẽ sau:
Hình 1.5: Âm thanh được thu bằng 2 micro khác nhau
Hình 1.6 Âm thanh do hai người khác nhau phát ra
Hình 1.7 Âm thanh do một người phát ra ở hai thời điểm khác nhau
Trang 251.8.2.2 Phổ tín hiệu tiếng nói
Trong phân tích tín hiệu tiếng nói, thay vì sử dụng trực tiếp tín hiệu tiếng nói trong miền thời gian, người ta thường hay sử dụng các đặc trưng phổ của tiếng nói điều này xuất phát từ quan điểm rằng tín hiệu tiếng nói cũng giống như các tín hiệu xác định khác có thể xem như là tổng của các tín hiệu hình sin với biên độ và pha thay đổi chậm Hơn nữa, một nguyên nhân quan trọng không kém đó là việc cảm nhận tiếng nói của con người liên quan trực tiếp đến thông tin phổ của tín hiệu tiếng nói nhiều hơn trong khi các thông tin về pha của tín hiệu tiếng nói không có vai trò quyết định Phổ biên độ phức của tín hiệu tiếng nói được định nghĩa là biến đổi Fourier (FT) của khung tín hiệu với khoảng thời gian phân tích n cố định:
(1.3)
Hình 1.8 Minh họa một khung tín hiệu (trên) và phổ tương ứng (dưới) [11]
Trang 261.8.2.3 Formant và Anti-formant
Tuyến âm được coi như một hốc cộng hưởng có tác dụng tăng cường một tần số nào đó Những tần số được tăng cường lên được gọi là các formant Nếu khoang miệng được coi là tuyến âm thì khoang mũi cũng được coi như là một hốc cộng hưởng Khoang mũi và khoang miệng được mắc song song nên sẽ làm suy giảm một tần số nào đó và những tần số bị suy giảm này được gọi là các anti-formant
Hình 1.9: Đường bao phổ và các Formant
Dựa trên hình 1.9 ta thấy có thể tính đến Formant thứ 5 (F5) nhưng quan trọng nhất cần chú ý ở đây là các F1 và F2 Cùng một người phát âm nhưng Formant có thể khác nhau Nếu ta chỉ căn cứ vào giá trị của Formant để đặc trưng cho âm hữu thanh thì chưa chính xác mà phải dựa vào phân bố tương đối giữa các Formant Ngoài ra, nếu xác định Formant trực tiếp từ phổ thì không chính xác mà phải dựa vào đường bao phổ, đây cũng chính là đáp ứng tần số của tuyến âm
1.9 Kết chương
Nội dung chương này trình bày tổng quan về xử lí tiếng nói, phân loại và biểu diễn tín hiệu tiếng nói
Trang 27CHƯƠNG 2 - NHẬN DẠNG TIẾNG NÓI RỜI RẠC DÙNG MÔ HÌNH
MARKOV ẨN 2.1 Mô hình Markov ẩn
2.1.1 Chuỗi Markov
Xét hệ thống có tính chất như sau: ở một thời điểm bất kỳ, hệ thống sẽ ở một
trong N trạng thái như hình vẽ dưới đây Cứ sau một khoảng thời gian đều đặn, hệ
thống sẽ chuyển sang trạng thái mới hoặc giữ nguyên trạng thái trước đó Ta ký hiệu
các khoảng thời gian chuyển trạng thái là t =1, 2, … và trạng thái tại thời điểm t của hệ thống là qt, qt sẽ có các giá trị 1, 2, …, N Một trạng thái tương ứng với một sự kiện
Quá trình trên được gọi là quá trình Markov
Hình 2.1 Minh họa mô hình Markov [7]
Trang 28Ở đây có 2 trạng thái: S1 tương ứng với sự kiện e1 = Xấp và S2 tương ứng với
Trang 29Các giá trị các phần tử của ma trận A, B, 𝜋 nhƣ trên hình trên
- Nếu cho chuỗi quan sát O = {sun, sun, cloud, rain, cloud, sun} và mô hình Markov ẩn nhƣ hình vẽ trên, thì xác suất để có chuỗi trạng thái {H, M, M, L, L, M} là
bao nhiêu?
+ Xác suất cần tìm =
Trang 302.1.2.2 Các thành phần của mô hình Markov ẩn:
- Ma trận xác suất chuyển đổi trạng thái (từ trạng thái i sáng trạng thái j), độc lập với thời gian:
Trang 31thời điểm t và T là độ dài của chuỗi quan sát:
- Chọn trạng thái ban đầu với xác suất là π
- Đặt t = 1
- Đặt t = t+1, quay lại bước ba nếu t<T Ngược lại thì kết thúc
2.1.3 Ba bài toán cơ bản của HMM
2.1.3.1 Phát biểu bài toán
Từ mô hình được biểu diễn như trên, có ba bài toán được đặt ra để ứng dụng vào các hệ thống sử dụng mô hình Markov ẩn [7,8]
Bài toán đánh giá: Cho chuỗi quan sát O = o1o2 oT và mô hình Tính xác suất mô hình sinh ra chuỗi quan sát Bài toán này dùng trong giai đoạn nhận dạng bằng cách chọn ra mô hình tiếng nói sinh ra chuỗi quan sát tốt nhất Bài toán đã được nghiên cứu giải quyết bằng thuật toán tiến - lui (Forward-Backward Procedure)
Bài toán giải mã: Cho mô hình ( , , )A B , chuỗi quan sát O = o
1o2 oT Tìm
được dùng để tìm hiểu về cấu trúc của mô hình Thuật toán Viterbi được áp dụng để giải bài toán
Bài toán huấn luyện: Điều chỉnh các tham số ( , , )A B của mô hình để mô
tả tốt nhất cách mà chuỗi quan sát được tạo ra, tối đa hóa xác suất Áp dụng thuật toán Baum-Welch để giải quyết bài toán vào việc huấn luyện mô hình từ dữ liệu là các chuỗi quan sát
2.1.3.2 Bài toán đánh giá
Các giải pháp được đưa ra
- Tính trực tiếp P(O|)