(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm

(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm(Luận văn thạc sĩ) Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN

PHẠM MẠNH CƯỜNG

KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM

Chuyên ngành: Khoa học máy tính

Mã số: 848 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS TS PHÙNG TRUNG NGHĨA

Trang 2

LỜI CAM ĐOAN

Tên tôi là: Phạm Mạnh Cường

Thầy giáo PGS.TS Phùng Trung Nghĩa

Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu của thầy giáo hướng dẫn Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ ràng Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước pháp luật

Tác giả luận văn

Phạm Mạnh Cường

Trang 3

LỜI CẢM ƠN

Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên,

giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS.TS Phùng Trung

Nghĩa, luận văn với đề tài “Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ

thuật phân rã ma trận không âm” đã hoàn thành

Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS

Phùng Trung Nghĩa đã tận tình chỉ dẫn, giúp đỡ em hoàn thành luận văn này

Em xin cảm ơn Khoa sau Đại học Trường Đại học Công nghệ - Thông tin và Truyền thông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn

Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên, khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện và hoàn thành luận văn này

Em xin chân thành cảm ơn!

Thái Nguyên, ngày tháng năm 2020

Học viên

Phạm Mạnh Cường

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN iii

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH viii

Ý NGHĨA CÁC TỪ VIẾT TẮT ix

MỞ ĐẦU 2

1 Lý do chọn đề tài 2

2 Đối tượng và phạm vi nghiên cứu: 3

3 Hướng nghiên cứu của luận văn: 3

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn 4

CHƯƠNG 1 TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI 5

1.1 Tổng quan về tiếng nói 5

1.1.1 Thông tin tiếng nói 5

1.1.2 Tín hiệu tiếng nói 6

1.1.2.1 Tín hiệu 6

1.1.2.2 Nguồn tín hiệu 7

1.1.2.3 Hệ thống và xử lý tín hiệu 7

1.2 Tổng quan về mã hóa tiếng nói 8

1.3 Mã hóa tiếng nói tốc độ bit thấp 9

1.4 Mục tiêu của luận văn 10

Trang 5

CHƯƠNG 2 PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT

PHÂN RÃ MA TRẬN KHÔNG ÂM NMF 12

2.1 Tổng quan về kỹ thuật phân rã ma trận không âm NMF 12

2.1.1 Khái niệm 12

2.1.2 Lịch sử 12

2.1.3 Nền tảng 12

2.1.4 Tích chất phân cụm 14

2.2 Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa tiếng nói 15 2.2.1 Kỹ thuật phân rã ma trận không âm NMF 15

2.2.2 Ứng dụng trong mã hóa tiếng nói 21

2.3 Phương pháp mã hóa tiếng nói dùng NMF của Xue 22

2.4 Phương pháp mã hóa NMF của Chien 28

CHƯƠNG 3 ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM NMF 36

3.1 Thu thập dữ liệu tiếng nói 36

3.1.1 Ngữ âm tiếng Việt 36

3.1.1.1 Cấu trúc âm tiết tiếng Việt 36

3.1.1.2 Thanh điệu tiếng Việt 37

3.1.2 Cơ sở dữ liệu tiếng nói tiếng Việt 38

3.1.2.1 Cơ sở dữ liệu tiếng nói phát thanh VOV 38

3.1.2.2 Cơ sở dữ liệu DEMEN567 39

3.1.2.3 Cơ sở dữ liệu MICA VNSpeech 39

3.1.3 Tổng hợp tiếng nói tiếng Việt 40

3.2 Cài đặt phương pháp mã hóa trên Matlab 40

Trang 6

3.3 Đánh giá khách quan, chủ quan và so sánh các phương pháp 42

3.3.1.Đánh giá khách quan và chủ quan 42

3.3.2 So sánh với các phương pháp khác 44

3.4 Phân tích, đánh giá ưu nhược điểm 46

KẾT LUẬN 47

TÀI LIỆU THAM KHẢO 48

Trang 7

DANH MỤC CÁC BẢNG

Bảng 2.1 Hiệu suất của hai sơ đồ lượng tử hóa 25

Bảng 2.2 Tỉ lệ phân giải cao độ khác nhau 26

Bảng 3.1 Cấu trúc âm Tiếng Việt 38

Bảng 3.2 Sáu thanh điệu Tiếng Việt 38

Bảng 3.3 Thang điểm PESQ 44

Trang 8

DANH MỤC CÁC HÌNH

Hình 1.1 Dạng sóng tiếng nói một câu tiếng Việt 6

Hình 1.2 Tiếng nói hữu thanh 6

Hình 1.3 Một số ứng dụng của xử lý tiếng nói 8

Hình 2.1 NMF tuần tự 18

Hình 2.2 Dạng sóng lời nói và đường viền cao độ của nó 25

Hình 2.3 Dấu vết điện 27

Hình 2.4 Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn” 30

Hình 2.5 Thuật toán chuẩn hóa vector sự kiện trong NMF 34

Hình 2.6 Hình vẽ các hàm sự kiện nhận được khi NMF phân tích một câu, chỉ số trên miền thời gian là số khung 35

Hình 3.1 Đường F0 sáu thanh điệu Tiếng Việt 37

Hình 3.2 Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng NMF 41

Hình 3.3 Mô hình hóa người nghe trong PESQ 43

Hình 3.4 Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ nén đầu vào là 20 45

Hình 3.5 Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ nén đầu vào là 30 45 Hình 3.6 Hình ảnh dạng sóng tiếng nói có nén, không nén với tỷ lệ nén là 46

Trang 9

Ý NGHĨA CÁC TỪ VIẾT TẮT

ASD Phổ trung bình ADPCM Mã hóa thích nghi

CELP Mã hóa dự đoán tuyến tính kích thích mã

CW Dạng sóng đặc trưng DCT Phương thức sử dụng phổ biến FIR Bộ lọc thông thấp

FRV Phương sai dư phân số HMM Phương pháp thống kê

IDCT Biến đổi cosine rời rạc

LPC Mã hóa dự đoán tuyến tính LSF Đặc trưng phổ đường MELP Tuyến tính kích thích hỗn hợp

NCCF Phương pháp hàm tương quan chéo đã chuẩn hóa NMF Kỹ thuật phân rã ma trận không âm

NQP Phương trình bậc hai không âm PCA Thành phần chính

PCM Mã hóa theo dạng xung PESQ Đánh giá cảm quan về chất lượng lời nói

REW Sóng phát triển nhanh

Trang 10

SEW Sóng phát triển chậm SFTR Tỉ lệ dịch phổ

SVM Vector hỗ trợ

WI Bộ mã hóa dựa trên NMF

Trang 11

là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên một kênh truyền vật lý Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa tiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật lý, trong khi vẫn phải đảm bảo các yêu cầu về chất lượng [8, 9, 10, 12, 17, 18] Các phương pháp

mã hóa tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [8],

mã hóa thích nghi ADPCM [12], Mặc dù các phương pháp mã hóa này là tin cậy

và đã được tiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông Hiệu quả nén của các phương pháp mã hóa phổ biến này vẫn chưa đảm bảo trong điều kiện tài nguyên hạn chế như các hệ thống thông tin di động Kỹ thuật phân rã ma trận không âm (Nonnegative Matrix Factorization - NMF) là một kỹ thuật phân tích tiếng nói được đề xuất bởi Xue năm 2008 [17] Các kết quả nghiên cứu cho thấy NMF rất thích hợp để phân tích mô hình hóa tiếng nói cũng như mã hóa nén tiếng nói Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm gần đây [10, 18] Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc

độ bit thấp thời gian thực dùng kỹ thuật NMF, phân tích lý thuyết, cài đặt thực nghiệm và đánh giá hiệu quả các phương pháp, từ đó đưa ra các khuyến nghị cho

Trang 12

việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF

2 Đối tượng và phạm vi nghiên cứu:

Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF Đây là đối tượng nghiên cứu được một số nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng nói [7, 8, 12], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực [8, 10, 12, 17, 18], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng NMF [10, 17, 18] Luận văn cũng nghiên cứu cài đặt thực nghiệm phương pháp mã hóa dùng NMF để có những phân tích, đánh giá, và đưa ra các khuyến nghị

3 Hướng nghiên cứu của luận văn:

Hướng nghiên cứu của luận văn là nghiên cứu về kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa tiếng nói tốc độ bit thấp Trong đó, luận văn tập trung nghiên cứu cả các vấn đề lý thuyết về tiếng nói, về các kỹ thuật

số hóa và mã hóa tiếng nói, về kỹ thuật phân rã ma trận không âm NMF Luận văn cũng nghiên cứu đánh giá thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp dùng NMF

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [7, 8, 9, 10, 12, 17, 20] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng nói tốc độ bit thấp

Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuât ma trận không âm NMF Cơ sở dữ liệu để đánh giá thực nghiệm

Trang 13

là cơ sở dữ liệu tiếng nói tiếng Việt Môi trường để thực nghiệm là MATLAB

2012

5 Ý nghĩa khoa học và thực tiễn

Như đã trình bày trong phần 1, nghiên cứu về mã hóa tiếng nói tốc độ bit thấp

có vai trò quan trọng trong các hệ thống truyền thông hiện đại Nghiên cứu chuyên sâu về các phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF chưa được nghiên cứu ở Việt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn

Trang 14

CHƯƠNG 1 TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI

1.1 Tổng quan về tiếng nói

1.1.1 Thông tin tiếng nói

Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất

Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay

Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều

mà quan trọng hơn nó đủ thông minh để thay thế con người Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói…

Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong viễn thông Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz Tiếng nói bao gồm hai dạng hữu thanh và vô thanh Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu

Trang 15

Hình 1.1 Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2.Tiếng nói hữu thanh 1.1.2 Tín hiệu tiếng nói

1.1.2.1 Tín hiệu

Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức Về mặt toán

học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác

Chẳng hạn như, hàm:x t( )  40t2 mô tả tín hiệu biến thiên theo biến thời gian t Hay một ví dụ khác, hàm: s x y( , )2x7xy y2mô tả tín hiệu là hàm

theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng

Trang 16

Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập Tuy nhiên, trong thực tế, các mối quan hệ giữa các đại lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai ví dụ vừa nêu trên

Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo

thời gian Chẳng hạn khi ta phát âm câu “Cô ấy đang đi chơi”, dạng sóng của

nó được biểu diễn như Hình 1.1

1.1.2.2 Nguồn tín hiệu

Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào

đó Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh

âm Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó Trong tín hiệu tiếng nói, hệ thống là

hệ thống phát âm, gồm: môi, răng, lưỡi, còn kích thích là sự rung của dây thanh…

1.1.2.3 Hệ thống và xử lý tín hiệu

Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu

Ví dụ, bộ lọc nhiễu tiếng nói dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ thống Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng đã xử lý tín hiệu đó Trong trường hợp này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu tiếng nói mong muốn

Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán

được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác

Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ thuật

xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu

và phát lại cho con người Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng

Trang 17

các giải thuật mã hóa nén tiếng nói Để xây dựng các ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói

và huấn luyện tiếng nói Để biến đổi tiếng nói, người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này

Hình 1.3 Một số ứng dụng của xử lý tiếng nói 1.2 Tổng quan về mã hóa tiếng nói

Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại thương mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại là một công

cụ truyền tin hữu hiệu

Nhờ điện thoại mà con người có khả năng trao đổi thông tin giữa các điểm khác nhau trên toàn thế giới một cách dễ dàng Ngoài ưu thế như khả năng truyền thông tin theo thời gian thực và dễ sử dụng, mạng điện thoại ngày nay còn có các

ưu điểm rất cơ bản, đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc hầu như mọi điểm trên trái đất, thời gian đáp ứng ngắn và thuận tiện cho người sử dụng

Trang 18

Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công nghệ bán dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh

Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng và

bộ mã hoá tham số nguồn

Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói càng chính xác càng tốt, chúng được thiết kế độc lập với nguồn tín hiệu (có nghĩa

là có thể áp dụng cho cả loại tín hiệu khác) nên chất lượng không phụ thuộc nhiều vào nguồn tín hiệu chúng có ưu điểm là chất lượng ổn định với phạm vi rộng của các đặc trưng tiếng nói, và các môi trường ồn khác nhau

Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu thế trong việc tiết kiệm băng tần nhưng lại rất phức tạp và có độ ổn định không cao tuy nhiên chúng ngày càng được khắc phục, để phục vụ cho các công nghệ viễn thông hiện tại và trong tương lai

1.3 Mã hóa tiếng nói tốc độ bit thấp

Mã hóa PCM cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ bit của một kênh thông tin số cơ bản chưa ghép kênh [2] Khoảng 20 năm trở lại đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạng Internet các dịch

vụ viễn thông tích hợp thoại, hình, số liệu thì băng tần truyền dẫn ngày càng trở nên hạn chế Khi đó, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản

64 Kbps là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên một kênh truyền vật lý Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào vấn đề mã hóa nguồn tiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật

lý, trong khi vẫn phải đảm bảo các yêu cầu về chất lượng [1, 7, 9, 13] Các phương pháp mã hóa nguồn tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [11], mã hóa thích nghi CELP [10],

Trang 19

Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích dự đoán tuyến tính LPC [11] Đây là phương pháp chọn trên phương pháp coi tín hiệu tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởi xung tựa

tuần hoàn và nhiễu ngẫu nhiên Mẫu tiếng nói s(n) liên hệ với xung kích thích âm

hữu thanh u(n):

1

p

k k

s n a s n k Gu n



Ý tưởng cơ bản của việc phân tích dự đoán tuyến tính là một mẫu tiếng nói

có thể xấp xỉ một cách tuyến tính với một mẫu trước đó

Một bộ dự đoán tuyến tính, với hệ số k được định nghĩa như là một hệ

thống mà đầu ra của nó có phương trình:

1

p

k k

1.4 Mục tiêu của luận văn

Trang 20

Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã ma trận không âm hiện vẫn được tiếp tục phát triển trong những năm gần đây nhưng

ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ

Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm dùng NMF

Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và đánh giá hiệu quả của phương pháp NMF, từ đó đưa ra các khuyến nghị cho việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân

rã ma trận không âm cho phù hợp với tiếng nói tiếng Việt

Trang 21

CHƯƠNG 2 PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT

PHÂN RÃ MA TRẬN KHÔNG ÂM NMF

2.1 Tổng quan về kỹ thuật phân rã ma trận không âm NMF

2.1.1 Khái niệm

Phân rã ma trận không âm (NMF), hoặc còn gọi là phép xấp xỉ ma trận không

âm là một nhóm các thuật toán trong phân tích đa biến và đại số tuyến tính trong

đó ma trận V được phân rã thành hai ma trận W và H, với tính chất mà cả ba ma trận không có phần tử âm Tính chất không âm này làm cho ma trận kết quả dễ kiểm tra hơn Ngoài ra, trong các ứng dụng như xử lý âm thanh tính không âm là thuộc tính tự nhiên của dữ liệu Vì vấn đề không thể giải quyết chính xác nói chung, nên nó thường được tính gần đúng

NMF có nhiều ứng dụng trong các lĩnh vực như thiên văn học, thị giác máy tính, phân cụm dữ liệu, hóa học, xử lý tín hiệu âm thanh và tin sinh học

2.1.2 Lịch sử

Trong phép đo nhân tử ma trận không âm có một lịch sử lâu dài dưới cái tên

"mô hình độ phân giải đường cong" Trong khung này các vectơ trong ma trận bên phải là các đường cong liên tục chứ không phải là các vectơ rời rạc Ngoài ra, công việc ban đầu về các yếu tố ma trận không âm được thực hiện bởi một nhóm các nhà nghiên cứu Phần Lan vào giữa những năm 1990 dưới tên gọi là phân rã ma trận dương Nó được biết đến rộng rãi hơn như là phân rã ma trận không âm sau khi Lee và Seung kiểm tra các thuộc tính của thuật toán và công bố một số thuật toán đơn giản và hữu ích cho hai loại phân rã

2.1.3 Nền tảng

Đặt ma trận V là tích của ma trận W và H

Trang 22

Phép nhân ma trận có thể được thực hiện khi tính toán các vectơ cột của V dưới dạng kết hợp tuyến tính của vectơ cột trong W bằng các hệ số được cung cấp bởi các cột của H Nghĩa là, mỗi cột của V có thể được tính như sau:

Ví dụ: nếu V là ma trận m × n, W là ma trận m × p và H là ma trận p × n thì

p có thể nhỏ hơn đáng kể so với cả m và n

Dưới đây là một ví dụ dựa trên ứng dụng khai thác văn bản:

Đặt ma trận đầu vào (ma trận được bao thanh toán) là V với 10000 hàng và

500 cột trong đó các từ nằm trong hàng và tài liệu nằm trong các cột Với hơn 500 tài liệu được lập chỉ mục bởi 10000 từ Theo sau đó một vectơ cột v trong V đại diện cho một tài liệu

Giả sử yêu cầu thuật toán tìm 10 tính năng để tạo ma trận tính năng W với

10000 hàng và 10 cột và ma trận hệ số H với 10 hàng và 500 cột

Tích của W và H là một ma trận có 10000 hàng và 500 cột, có hình dạng giống như ma trận đầu vào V và, nếu hệ số hóa hoạt động, đó là một xấp xỉ hợp lý với ma trận đầu vào V

Từ việc xử lý nhân ma trận ở trên, theo đó mỗi cột trong ma trận tích WH là

tổ hợp tuyến tính của 10 vectơ cột trong ma trận tính năng W với các hệ số được cung cấp bởi ma trận hệ số H

Điểm cuối cùng này là nền tảng của NMF có thể xem xét từng tài liệu gốc trong ví dụ của mình như được xây dựng từ một tập hợp nhỏ các tính năng ẩn NMF tạo ra các tính năng này

Trang 23

Sẽ là rất hữu ích khi từng tính năng (vectơ cột) trong ma trận tính năng W dưới dạng nguyên mẫu, tài liệu bao gồm một tập hợp các từ trong đó giá trị ô của mỗi từ xác định thứ hạng của từ trong tính năng đó: Giá trị ô của từ càng cao thì thứ hạng của từ càng cao trong tính năng Một cột trong ma trận hệ số H đại diện cho một tài liệu gốc có giá trị ô xác định thứ hạng của tài liệu cho một tính năng Bây giờ có thể xây dựng lại một tài liệu (vectơ cột) từ ma trận đầu vào của mình bằng cách kết hợp tuyến tính các tính năng (vectơ cột trong W) trong đó mỗi tính năng được cân bằng giá trị ô của tính năng từ cột của tài liệu trong H

cả i ≠ k, điều này cho thấy rằng dữ liệu đầu vào 𝑣𝑗 thuộc về 𝑘𝑡ℎ cụm W được tính toán cho các cụm trung tâm cụm, nghĩa là cột 𝑘𝑡ℎ cung cấp cho cụm trung tâm của

𝑘𝑡ℎ Đại diện của trung tâm này có thể được tăng cường đáng kể bởi NMF lồi Khi tính trực giao 𝑯𝑯𝑻 = 𝑰 không được áp đặt rõ ràng, tính trực giao giữ ở mức độ lớn và thuộc tính phân cụm cũng giữ Phân cụm là mục tiêu chính của hầu hết các ứng dụng khai thác dữ liệu của NMF

Khi chức năng lỗi được sử dụng là phân kỳ KullbackTHER Leibler, NMF giống hệt với phân tích ngữ nghĩa tiềm ẩn xác suất, một phương pháp phân cụm tài liệu phổ biến

Trang 24

2.2 Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa tiếng nói

2.2.1 Kỹ thuật phân rã ma trận không âm NMF

Xấp xỉ phân rã ma trận không âm

Thông thường số cột của W và số hàng của H trong NMF được chọn để ma trận tích WH sẽ trở thành xấp xỉ với V Sự phân tách hoàn toàn của V sau đó lên tới hai ma trận không âm W và H cũng như U dư, sao cho:

Các phần tử của ma trận dư có thể là âm hoặc dương

Khi W và H nhỏ hơn V, chúng trở nên dễ dàng hơn để lưu trữ và thao tác Một lý do khác để nhân tố V thành các ma trận nhỏ hơn W và H, là nếu có thể biểu diễn xấp xỉ các phần tử của V bằng dữ liệu ít hơn đáng kể, thì phải suy ra một số cấu trúc tiềm ẩn trong dữ liệu

Hệ số ma trận không âm

Trong NMF tiêu chuẩn, hệ số ma trận 𝐖 ∈ 𝐑𝐦∗𝐤+ tức là, W có thể là bất cứ

thứ gì trong không gian đó Convex NMF giới hạn các cột của W để kết hợp lồi các vectơ dữ liệu đầu vào (𝑣1, … … 𝑣𝑛) Điều này cải thiện đáng kể chất lượng biểu diễn dữ liệu của W Hơn nữa, yếu tố ma trận kết quả H trở nên thưa thớt và trực giao hơn

Hệ số xếp hạng không âm

Trong trường hợp thứ hạng không âm của V bằng với thứ hạng thực tế của

nó, V = WH được gọi là hệ số thứ hạng không âm Vấn đề tìm NRF của V, nếu nó tồn tại, được biết đến là có độ phức tạp NP-hard

Hàm chi phí khác nhau và tiêu chuẩn hóa

Có nhiều loại yếu tố ma trận không âm khác nhau Các loại khác nhau phát sinh từ việc sử dụng các hàm chi phí khác nhau để đo độ phân rã giữa V và WH

và có thể bằng cách chính quy hóa ma trận W và/hoặc H

Trang 25

Hai hàm phân kỳ đơn giản được nghiên cứu bởi Lee và Seung là sai số bình phương (hoặc chỉ tiêu Frobenius) và phần mở rộng của phân kỳ Kullback-Leibler thành ma trận dương (phân kỳ Kullback-Leibler ban đầu được xác định trên các phân phối xác suất) Mỗi phân kỳ dẫn đến một thuật toán NMF khác nhau, thường giảm thiểu phân kỳ bằng cách sử dụng các quy tắc cập nhật lặp

Vấn đề lỗi trong bình phương của NMF có thể được nêu là: Đưa ra ma trận

V tìm ma trận không âm W và H làm giảm thiểu hàm số:

F(W,H)=‖𝑽 − 𝑾𝑯‖𝐹2 (2.5) Một loại NMF khác cho hình ảnh dựa trên tổng chỉ tiêu biến thể

Khi chính quy hóa L1 (gần giống với Lasso) được thêm vào NMF với hàm chi phí lỗi bình phương trung bình, vấn đề kết quả có thể được gọi là mã hóa thưa không âm do sự tương tự với vấn đề mã hóa thưa thớt, mặc dù có thể vẫn còn được gọi là NMF

NMF trực tuyến

Nhiều thuật toán NMF tiêu chuẩn phân tích tất cả các dữ liệu cùng nhau; tức

là, toàn bộ ma trận có sẵn từ đầu Điều này có thể không đạt yêu cầu trong các ứng dụng có quá nhiều dữ liệu phù hợp với bộ nhớ hoặc nơi dữ liệu được cung cấp theo kiểu truyền phát Một cách sử dụng như vậy là để lọc cộng tác trong các hệ thống khuyến nghị, nơi có thể có nhiều người dùng và nhiều mục để đề xuất, và

sẽ không hiệu quả khi tính toán lại mọi thứ khi một người dùng hoặc một mục được thêm vào hệ thống Hàm chi phí để tối ưu hóa trong những trường hợp này

có thể giống hoặc không giống với NMF tiêu chuẩn, nhưng các thuật toán cần phải khá khác nhau

Thuật toán

Có một số cách có thể tìm thấy W và H: quy tắc cập nhật nhân của Lee và Seung là một phương pháp phổ biến do tính đơn giản của việc thực hiện Thuật toán này là khởi tạo: W và H không âm

Trang 26

Sau đó cập nhật các giá trị trong W và H bằng cách tính toán như sau, với n

Lưu ý rằng hệ số nhân W và H là ma trận danh tính khi V = W H

Gần đây, các thuật toán khác đã được phát triển Một số cách tiếp cận dựa trên các bình phương tối thiểu không âm xen kẽ, trong mỗi bước của thuật toán như vậy, H đầu tiên được cố định và W được tìm thấy bởi một bộ giải bình phương tối thiểu không âm, sau đó W được cố định và H được tìm thấy tương tự Các quy trình được sử dụng để giải quyết cho W và H có thể giống nhau hoặc khác nhau,

vì một số biến thể NMF thường hóa một trong W và H Các phương pháp cụ thể bao gồm các phương pháp giảm độ dốc dự kiến, phương pháp thiết lập hoạt động, phương pháp gradient tối ưu, và phương pháp xoay vòng chính trong số nhiều phương pháp khác

Các thuật toán hiện tại là tối ưu phụ ở chỗ chúng chỉ đảm bảo tìm được mức tối thiểu cục bộ, thay vì mức tối thiểu toàn cầu của hàm chi phí Một thuật toán tối

ưu có thể chứng minh là không thể xảy ra trong tương lai gần vì vấn đề đã được chứng minh là khái quát hóa bài toán phân cụm k-mean bài toán NP-đầy đủ Tuy nhiên, như trong nhiều ứng dụng khai thác dữ liệu khác, mức tối thiểu cục bộ vẫn

có thể chứng minh là hữu ích

Trang 27

NMF tuần tự

Hình 2.1 NMF tuần tự

Cấu trúc tuần tự của các thành phần NMF (W và H) trước tiên được sử dụng

để liên kết NMF với phân tích thành phần chính (PCA) trong thiên văn học Sự đóng góp từ các thành phần PCA được xếp hạng theo độ lớn của giá trị bản địa tương ứng của chúng; đối với NMF, các thành phần của nó có thể được xếp hạng theo kinh nghiệm khi chúng được xây dựng từng cái một (tuần tự), tức là tìm hiểu (n + 1) - thành phần thứ nhất với n thành phần được xây dựng

Các phương sai dư phân số (FRV) cho PCA và NMF tuần tự; đối với PCA, các giá trị lý thuyết là sự đóng góp từ các giá trị riêng còn lại So sánh, các đường cong FRV cho PCA đạt đến đoạn bằng phẳng nơi không có tín hiệu nào được thu một cách hiệu quả; trong khi các đường cong NMF FRV đang giảm liên tục, cho thấy khả năng thu tín hiệu tốt hơn Các đường cong FRV cho NMF cũng hội tụ ở mức cao hơn PCA, cho thấy đặc tính ít bị quá tải của NMF

Sự đóng góp của các thành phần NMF tuần tự có thể được so sánh với định

lý Karhunen-Loève, một ứng dụng của PCA, sử dụng các giá trị riêng Một lựa chọn điển hình về số lượng thành phần với PCA dựa trên "điểm gập", sau đó sự tồn tại của đoạn bằng phẳng cho thấy PCA không thu thập dữ liệu một cách hiệu

Trang 28

quả và cuối cùng có sự sụt giảm đột ngột phản ánh việc bắt ngẫu nhiên tiếng ồn

và rơi vào chế độ quá mức Đối với NMF tuần tự, biểu đồ các giá trị riêng được xấp xỉ bằng biểu đồ của các đường cong phương sai dư phân đoạn, trong đó các đường cong giảm liên tục và hội tụ ở mức cao hơn PCA, là dấu hiệu của sự phù hợp ít hơn của NMF tuần tự

NMF chính xác

Các giải pháp chính xác cho các biến thể của NMF có thể được mong đợi (trong thời gian đa thức) khi các ràng buộc bổ sung giữ cho ma trận V Một thuật toán thời gian đa thức để giải quyết hệ số xếp hạng không âm nếu V chứa ma trận phụ đơn vị có thứ hạng bằng với thứ hạng của nó được đưa ra bởi Campbell và Poole năm 1981 Kalofolias và Gallopoulos (2012) đã giải quyết được đối tác đối xứng của vấn đề này, trong đó V là đối xứng và chứa ma trận phụ chính chéo của cấp r Thuật toán này chạy trong thời gian O(rm^2) trong trường hợp dày đặc Arora, Ge, Halpern, Mimno, Moitra, Sontag, Wu, & Zhu (2013) đưa ra thuật toán thời gian đa thức cho NMF chính xác hoạt động trong trường hợp một trong các yếu tố W thỏa mãn điều kiện phân tách

Liên quan đến các kỹ thuật khác

Khi tìm hiểu các bộ phận của các đối tượng bằng hệ số ma trận không âm, Lee và Seung đã đề xuất NMF chủ yếu cho việc

phân tách hình ảnh dựa trên các bộ phận Nó so

sánh NMF với lượng tử hóa vector và phân tích

thành phần chính, và cho thấy rằng mặc dù ba kỹ

thuật có thể được viết dưới dạng các yếu tố,

chúng thực hiện các ràng buộc khác nhau và do

đó tạo ra các kết quả khác nhau

Sau đó, người ta đã chứng minh rằng một số loại NMF là một ví dụ của mô hình xác suất tổng quát hơn gọi là "PCA đa phương" Khi thu được NMF bằng

Trang 29

cách giảm thiểu phân kỳ KullbackTHER Leibler,

thực tế nó tương đương với một trường hợp khác

của PCA đa phân tích, phân tích ngữ nghĩa tiềm

ẩn xác suất, được đào tạo theo ước tính khả năng

tối đa Phương pháp đó thường được sử dụng để

phân tích và phân cụm dữ liệu văn bản và cũng

liên quan đến mô hình lớp tiềm ẩn

NMF với mục tiêu bình phương nhỏ nhất

tương đương với một dạng phân cụm K-mean thoải mái: hệ số ma trận W chứa trọng tâm cụm và H chứa các chỉ số thành viên cụm Điều này cung cấp một nền tảng lý thuyết cho việc sử dụng NMF để phân cụm dữ liệu Tuy nhiên, k-mean không thực thi tính không âm trên trọng tâm của nó, do đó, sự tương tự gần nhất thực tế là với "semi-NMF"

NMF có thể được xem như là một mô hình đồ họa hướng hai lớp với một lớp biến ngẫu nhiên quan sát và một lớp biến ngẫu nhiên ẩn

NMF mở rộng ra ngoài ma trận đến các thang đo của thứ tự tùy ý Tiện ích

mở rộng này có thể được xem như một đối tác không âm

Ví dụ: mô hình PARAFAC

Các phần mở rộng khác của NMF bao gồm hệ số chung của một số ma trận

dữ liệu và tenxơ trong đó một số yếu tố được chia sẻ Những mô hình như vậy rất hữu ích cho phản ứng tổng hợp cảm biến và học tập quan hệ

NMF là một ví dụ của lập trình bậc hai không âm (NQP), giống như máy vectơ hỗ trợ (SVM) Tuy nhiên, SVM và NMF có liên quan ở mức độ thân mật hơn so với NQP, cho phép áp dụng trực tiếp các thuật toán giải pháp được phát triển cho một trong hai phương pháp cho các vấn đề trong cả hai miền

NMF như một mô hình đồ họa xác suất: các đơn vị nhìn thấy (V) được kết nối với các đơn vị ẩn (H) thông qua các trọng số W, do đó V được tạo

từ phân phối xác suất với giá trị trung bình

∑ 𝑊𝑖𝑎ℎ𝑎𝑎

Định dạng
Số trang	59
Dung lượng	1,76 MB