Nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN TRUNG THÀNH NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI Chuyên ngành: Khoa

Trang 1

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN TRUNG THÀNH

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI THÔNG

TIN NGƯỜI NÓI TRONG TIẾNG NÓI

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS PHÙNG TRUNG NGHĨA

Thái Nguyên năm 2015

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành cám ơn TS Phùng Trung Nghĩa,

người đã trực tiếp hướng dẫn em hoàn thành luận văn Với những lời chỉ dẫn, những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp

em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này

Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học

"Khoa hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiến thức này rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu Đặc biệt, em xin cám ơn thầy Đỗ Huy Khôi về những góp ý có ý nghĩa rất lớn khi em thực hiện luận văn nghiên cứu

Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ động viên giúp đỡ em trong suốt những năm học vừa qua

Em xin chân thành cám ơn!

Thái Nguyên, ngày 09 tháng 07 năm 2015

Học viên

Nguyễn Trung Thành

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá

nhân, được thực hiện dưới sự hướng dẫn khoa học của TS Phùng Trung Nghĩa

Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào

Em xin chịu trách nhiệm về nghiên cứu của mình

Học viên

Nguyễn Trung Thành

Trang 4

MỤC LỤC

LỜI CẢM ƠN ii

LỜI CAM ĐOAN iv

MỤC LỤC v

DANH MỤC BẢNG viii

DANH MỤC HÌNH ix

DANH MỤC CHỮ VIẾT TẮT xi

MỞ ĐÂU 1

1 Lý do chọn đề tài 1

2 Mục tiêu của đề tài 2

3 Đối tượng và phạm vi nghiên cứu 3

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn 3

CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 4

1.1 Thông tin tiếng nói 4

1.2 Tín hiệu tiếng nói 4

1.3 Quá trình tạo tiếng nói 6

1.4 Cơ quan thính giác 9

1.5 Xử lý tiếng nói 12

1.6 Thông tin người nói trong tiếng nói 13

1.7 Biến đổi thông tin người nói trong tiếng nói và ứng dụng 14

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 17

2.1 Phương pháp biến đổi tham số trực tiếp 17

2.1.1 Phân khung 17

Trang 5

2.1.3 Đặc trưng cao độ 19

2.1.4 Đặc trưng phổ 20

2.1.5 Mô hình nguồn âm / bộ lọc 24

2.1.6 Ưu nhược điểm của phương pháp 25

2.2 Phương pháp thay thế khung tiếng nói 25

2.2.1 Phương pháp tìm kiếm mẫu tiếng nói thay thế 26

2.2.2 Thuật toán tìm kiếm khung tiếng nói thay thế 28

2.2.3 Làm trơn điểm ghép nối 28

2.2.4 Ưu nhược điểm của phương pháp 29

2.3 Phương pháp sử dụng học máy thống kê GMM 29

2.3.1 Phân bố Gauss 29

2.3.2 Mô hình Gaussian hỗn hợp 30

2.3.3 Mô hình hóa người nói bằng mô hình GMM 31

2.3.4 Huấn luyện 32

2.3.5 Biến đổi 33

CHƯƠNG 3 ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 35

3.1 Ngữ âm tiếng Việt 35

3.2 Cơ sở dữ liệu tiếng nói tiếng Việt 37

3.3 Tổng hợp tiếng nói tiếng Việt 40

3.4 Lựa chọn cơ sở dữ liệu 40

3.5 Cài đặt các phương pháp biến đổi thông tin người nói 41

3.5.1 Phương pháp thay đổi tham số trực tiếp 41

3.5.2 Phương pháp thay thế tiếng nói theo mẫu 44

3.5.3 Phương pháp biến đổi sử dụng học máy thống kê 47

3.6 Đánh giá các phương pháp 49

3.6.1 Tiêu chí đánh giá 49

3.6.2 Đánh giá thực nghiệm 50

Trang 6

3.6.3 Kết quả đánh giá 51

3.6.4 Nhận xét chung về kết quả đánh giá 51

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 54

Trang 7

DANH MỤC BẢNG

Bảng 3.1Cấu trúc âm tiết tiếng Việt 37

Bảng 3.2: Sáu thanh điệu tiếng Việt 37

Bảng 3.3 Các tham số thực nghiệm 50

Bảng 3.4: Kết quả đánh giá khách quan 51

Bảng 3.5: Kết quả đánh giá chủ quan ABX 51

Trang 8

DANH MỤC HÌNH

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt 5

Hình 1.2: Tiếng nói hữu thanh 5

Hình 1.3: Bộ phận cung cấp làn hơi 6

Hình 1.4: Dây thanh âm 7

Hình 1.5: Cấu trúc cơ quan phát âm 8

Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm 8

Hình 1.7: Mô hình hóa cơ quan phát âm 9

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 9

Hình 1.9: Mô hình cơ quan thính giác 10

Hình 1.10: Thang tần số Bark 10

Hình 1.11: Ngưỡng nghe 11

Hình 1.12: Mặt nạ thời gian 11

Hình 1.13: Mặt nạ tần số 11

Hình 1.14: Một số ứng dụng của xử lý tiếng nói 12

Hình 1.15: Hệ thống nhận dạng người nói 13

Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác nhau dẫn tới tiếng nói khác nhau 14

Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm 14

Hình 1.18: Tính toán vector đặc trưng 15

Hình 1.19: Mô hình học máy thống kê GMM 16

Hình 2.1: Phân đoạn tiếng nói thành các khung chồng lấp 18

Hình 2.2:Đặc trưng trường độ 19

Hình 2.3: Đặc trưng phổ và đường bao phổ 21

Hình 2.4: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz 22

Hình 2.5: Các bước trích đặc trưng MFCC 22

Hình 2.6: Bộ lọc trên thang Mel 22

Trang 9

Hình 2.8: Minh họa các bước biến đổi MFCC 23

Hình 2.9: Mô hình nguồn âm / bộ lọc 24

Hình 2.10: Đặc trưng F0, Gain và LSF 27

Hình 2.11: Quá trình tìm kiếm và thay thế mẫu có khoảng cách ngắn nhất 28

Hình 2.12: Quá trình làm trơn biên ghép nối 29

Hình 2.13: Hàm mật độ xác suất Gauss 30

Hình 2.14: Mô hình GMM Biến đổi người nói theo mô hình GMM 32

Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt 36

Hình 3.2: Phân tích phổ, F0 và tái tạo bằng STRAIGHT 41

Hình 3.3: Thuật toán điều chỉnh trực tiếp tham số tiếng nói 43

Hình 3.4: Giao diện chương trình điều chỉnh trực tiếp tham số tiếng nói 44

Hình 3.5: Lưu đồ thuật toán tính khoảng cách giữa 2 khung tiếng nói 45

Hình 3.6: Thuật toán tìm kiếm kết hợp 46

Hình 3.7: Huấn luyện mô hình GMM cho tham số phổ LSF 47

Hình 3.8: Chuyển đổi mô hình GMM cho tham số phổ LSF 48

Trang 10

DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU

Trang 11

MỞ ĐÂU

1 Lý do chọn đề tài

Tiếng nói là phương tiện giao tiếp cơ bản của con người Vì vậy tiếng nói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ, thông tin về người nói, thông tin về sắc thái tình cảm khi nói,…

Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [6] Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần được quan tâm và cũng đã được quan tâm nghiên cứu trong thời gian gần đây [4] Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tự nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết như thông tin nhận danh chính xác người nói [7,9,15,17,22,33]

Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy tính Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng Một số

Trang 12

- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như văn bản với tốc độ bit cực thấp [21] Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế Tuy nhiên để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được

bổ sung ở đầu ra Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói cụ thể

Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nói trong tiếng nói [7,9,15,17,22,23] Tại Việt Nam cũng có một số nghiên cứu ban đầu về thông tin người nói trong tiếng nói như xây dựng các hệ thống nhận dạng người nói [16] Tuy nhiên vẫn chưa có các nghiên cứu đánh giá một cách tổng hợp vấn đề biến đổi thông tin người nói trong tiếng nói và thử nghiệm trên các cơ sở dữ liệu tiếng nói tiếng Việt Vì vậy, luận văn này nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói, đánh giá thực nghiệm các phương pháp với cơ sở dữ liệu tiếng nói tiếng Việt,

và đưa ra những khuyến nghị

2 Mục tiêu của đề tài

Luận văn này nghiên cứu một số phương pháp biến đổi thông tin người nói trong tiếng nói bao gồm:

- Phương pháp biến đổi trực tiếp tham số,

- Phương pháp thay thế khung,

- Phương pháp biến đổi bằng học máy

Sau đó đánh giá thực nghiệm các phương pháp trên với cơ sở dữ liệu tiếng Việt, và đưa ra những khuyến nghị

Trang 13

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi thông tin người nói trong tiếng nói Đây là đối tượng nghiên cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng nói và thông tin người nói trong tiếng nói, một số phương pháp biến đổi thông tin người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương pháp thay thế tiếng nói theo mẫu [15,17], và phương pháp biến đổi sử dụng học máy thống kê [7] Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp trên cơ sở dữ liệu tiếng nói tiếng Việt để đưa ra các khuyến nghị

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [4,6,7,15-17,21-23] để phân tích, đánh giá về các phương pháp biến đổi thông tin người nói trong tiếng nói

Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng

sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nói trong tiếng nói Cơ sở dữ liệu để đánh giá thực nghiệm là cơ sở dữ liệu tiếng nói tiếng Việt Môi trường để thực nghiệm là MATLAB 7.0

5 Ý nghĩa khoa học và thực tiễn

Nghiên cứu về thông tin người nói trong tiếng nói và cá kỹ thuật biến đổi tiếng nói theo mục tiêu có vai trò quan trọng trong các hệ thống truyền thông đa phương tiện hiện đại Đây không phải vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam Đặc biệt, nghiên cứu tổng hợp về các phương pháp biến đổi thông tin người nói trong tiếng nói tiếng Việt chưa được nghiên cứu ở Việt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn

Trang 14

CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI

1.1 Thông tin tiếng nói

Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất Do tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay

Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người

Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó

có tiếng nói Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin

về sắc thái tình cảm khi nói…

1.2 Tín hiệu tiếng nói

Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh)

Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ

Trang 15

Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz Tiếng nói bao gồm hai dạng hữu thanh và vô thanh Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh

Trang 16

1.3 Quá trình tạo tiếng nói

Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng

nữ và trẻ em cao hơn giọng đàn ông

Trang 17

Hình 1.4: Dây thanh âm

Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh Nhờ

sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau

Trang 18

Hình 1.5: Cấu trúc cơ quan phát âm

Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm

d Biễu diễn bộ phận phát âm:

Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do

đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm

vị khác

Trang 19

Hình 1.7: Mô hình hóa cơ quan phát âm

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính

1.4 Cơ quan thính giác

Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác Cơ quan thính giác con người có thể cảm thụ được các tần số âm thanh trong khoảng 15 Hz - 20.000 Hz Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn là hạ âm

Trang 20

Hình 1.9: Mô hình cơ quan thính giác Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%) Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz

Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém

Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần số Bark như trong hình 1.10 Trong mỗi băng con, con người không cảm nhận được sự khác biệt

Hình 1.10: Thang tần số Bark Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng nghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạ trên miền thời gian (hình 1.12) và tần số (hình 1.13)

Trang 21

Hình 1.11: Ngưỡng nghe

Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau)

Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời

điểm)

Trang 22

1.5 Xử lý tiếng nói

Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác,

kỹ thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu và phát lại cho con người Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng các giải thuật mã hóa nén tiếng nói Để xây dựng các ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói Để biến đổi tiếng nói, người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này

Hình 1.14: Một số ứng dụng của xử lý tiếng nói

Trang 23

Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý

thông tin người nói

1.6 Thông tin người nói trong tiếng nói

Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [6] Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đã được quan tâm nghiên cứu trong thời gian gần đây [4] Một trong những vấn

đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết như thông tin nhận danh chính xác người nói [7,9,15,17,22,23] Có nhiều yếu tố ảnh hưởng đến thông tin người nói trong tiếng nói như hình dạng, cấu trúc cơ quan phát âm (đặc trưng sinh học), thói quen, cách thức phát âm,

Con người có thể phân biệt được thông tin người nói một cách dễ dàng

do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân biệt thông tin người nói, thông tin người nói cần phải được mô hình hóa và việc phân biệt, định danh, biến đổi cần phải được thực hiện thông qua các tham số vector đặc trưng được tính toán từ tín hiệu tiếng nói

Trang 24

Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác

nhau dẫn tới tiếng nói khác nhau

Hình 1.17: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm

1.7 Biến đổi thông tin người nói trong tiếng nói và ứng dụng

Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máy tính Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến đổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng Một số

Trang 25

- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như văn bản với tốc độ bit cực thấp [21] Khi đó sẽ sử dụng hiệu quả tối đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế Tuy nhiên để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được

bổ sung ở đầu ra Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói cụ thể

Một số phương pháp biến đổi thông tin người nói điển hình được biết đến là phương pháp thay thế khung [18], phương pháp biến đổi tham số (vector) đặc trưng [25], và phương pháp dùng học máy [8] Một số vector đặc trưng phổ biến nhất là đặc trưng phổ, năng lượng, …

Hình 1.18: Tính toán vector đặc trưng

Trang 26

Hình 1.19: Mô hình học máy thống kê GMM được sử dụng để mô hình hóa

người nói

Trang 27

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI

NÓI TRONG TIẾNG NÓI

2.1 Phương pháp biến đổi tham số trực tiếp

Đây là phương pháp truyền thống được sử dụng phổ biến không chỉ trong các sản phẩm nghiên cứu mà còn trong nhiều phần mềm xử lý âm thanh, tiếng nói thương mại Theo đó tiếng nói sẽ được phân tách thành các khung và tính vector đặc trưng theo các khung sử dụng mô hình phân tích / tổng hợp nguồn âm / bộ lọc (source/filter) Mô hình nguồn âm / bộ lọc là mô hình đảm bảo tín hiệu sau khi phân tích thành các tham số có thể tái tạo tín hiệu trở lại từ các tham số đã phân tích Các tham số liên quan đến yếu tố người nói như biên độ, trường độ, cao độ - tần số cơ bản, hay phổ sẽ được điều chỉnh cho phù hợp

2.1.1 Phân khung

Trong bước phân đoạn khung, x n( )được chia thành các khung, mỗi khung gồm N mẫu, khoảng cách giữa các khung là M mẫu Hình 2.1 minh họa cách phân thành các khung trong trường hợp M = (1/3)N

Cụ thể, khung thứ nhất gồm N mẫu tiếng nói đầu tiên (bắt đầu từ

(0)

x đến ~x N( 1)) Khung thứ hai bắt đầu từ mẫu thứ M và kết thúc ở vị trí M+N-1 Tương tự, khung thứ i bắt đầu từ mẫu thứ i*M và kết thúc ở vị trí i*M+N-1 Tiến trình này tiếp tục cho đến khi các mẫu tiếng nói đều đã thuộc về một hay nhiều khung

Ta dễ dàng thấy rằng nếu M<=N thì các khung kề nhau sẽ có sự chồng lấp (như hình 2.1), dẫn đến kết quả là các phép rút trích đặc trưng có tương quan với nhau từ khung này sang khung kia; và khi M << N thì khung này sang khung khác được hoàn toàn trơn Ngược lại, nếu M > N thì sẽ không có sự chồng lấp giữa các khung kề nhau, dẫn đến một số mẫu tiếng

Trang 28

nói bị mất (tức là không xuất hiện trong bất kỳ khung nào)

Hình 2.1: Phân đoạn tiếng nói thành các khung chồng lấp

Đơn vị mức cường độ âm là Ben (kí hiệu : B) Mức cường độ âm bằng 1,2,3,4 B có nghĩa là cường độ âm I lớn gấp 10, 10^2, 10^3, 10^4 cường

độ âm chuẩn I0

Trong thực tế người ta thường dùng đơn vị dB, bằng 1/10 ben L(dB)= 10lg(I/I0) Khi L= 1dB, thì I lớn gấp 1.26 lần I0 Đó là mức cường độ âm nhỏ nhất mà tai ta có thể phân biệt được

Năng lượng tín hiệu được thể hiện thông qua mức độ, số lượng tín hiệu có trong một đơn vị thời gian Năng lượng của tín hiệu tiếng nói là một đặc trưng vật lý của tín hiệu, được dùng như là tham số trong vector đặc trưng trong nhận dạng tiếng nói, và còn được để dò tìm khoảng lặng trong tín hiệu tiếng nói Tính toán năng lượng tín hiệu thường dựa trên sự phân khung và lấy cửa sổ, bằng cách lấy tổng các bình phương chuỗi tín hiệu x(n) trong cửa sổ tín hiệu Đặc trưng năng lượng ở đây được tính bằng cách lấy log năng lượng tín hiệu, tính bằng công thức

Trang 29

2.1.3 Đặc trƣng cao độ

Cao độ (pitch): là độ "cao", "thấp" của âm thanh có quan hệ chặt chẽ với tần số dao động Tần số dao động càng lớn thì âm thanh càng "cao" và ngược lại Với âm thanh thực là tổ hợp của nhiều tần số thì tần số dao động ở đây là tần số cơ bản F0

Tần số cơ bản F0 đóng một vai trò quan trọng trong xử lý tiếng nói Từ tần số cơ bản, ta có thể có những phân biệt tiếng nói theo cả các đặc điểm ngôn ngữ như thanh điệu của ngôn ngữ có thanh điệu và phi ngôn ngữ như sắc thái, ngữ điệu, giọng người nói Thông thường F0 của trẻ em cao hơn của người lớn tuổi, của phụ nữ cao hơn của đàn ông

Có nhiều phương pháp tính tần số cơ bản trong đó phương pháp được

sử dụng phổ biến nhất là phương pháp sử dụng hàm hiệu biên độ trung bình AMDF [1] Theo đó chu kỳ cơ bản được ước lượng là khoảng cách trung bình giữa các đỉnh cực trị lân cận

1

0 0

1

N m x

n

Hình 2.2:Đặc trưng trường độ Trong tiếng nói, đặc biệt là các ngôn ngữ châu Âu, trường độ (duration)

là đặc tính quan trọng của âm vị, âm tiết liên quan đến ngữ nghĩa của âm vị,

âm tiết Với tiếng Việt, trường độ không mang ngữ nghĩa nhưng trường độ lại

Trang 30

đặc trưng cho một số yếu tố phi ngôn ngữ như người nói, cảm xúc ngữ điệu khi nói,…

Đặc trưng trường độ đơn giản là độ dài của đơn vị tiếng nói tính bằng giây hoặc bằng số lượng khung tiếng nói

Các kết quả nghiên cứu cho thấy để thay đổi tốc độ nói không thể thay đổi tuyến tính trường độ mà cần thay đổi đồng bộ trường độ và cao độ theo giải thuật Pitch-Synchronous Modification [13]

2.1.4 Đặc trƣng phổ

Phổ âm thanh là tính chất vật lý ảnh hưởng chủ yếu đến sự nhận thức

âm sắc âm thanh, trong đó âm sắc là phẩm chất hay màu sắc của tiếng nói hay

âm thanh Âm sắc giúp phân biệt những loại nguồn âm khác nhau như người nói khác nhau hay các loại nhạc cụ khác nhau Ví dụ, âm sắc có thể giúp phân biệt một kèn Saxophone và một kèn trumpet trong một nhóm chơi nhạc Jazz, ngay cả khi cả hai loại nhạc cụ này đang chơi những nốt nhạc có cùng cường

độ và cao độ

Phổ âm thanh ảnh hưởng chính bởi cấu trúc bộ máy cộng hưởng âm thanh, với tiếng nói đó là bộ máy dẫn âm và phát âm vocal tract Khi phân tích tín hiệu âm thanh, người ta có thể dùng phổ âm thanh thời gian ngắn hoặc dùng phiên bản tối giản đường bao phổ [hình 2.3]

Trang 31

Hình 2.3: Đặc trưng phổ và đường bao phổ đặc trưng cho cơ quan phát âm

Có nhiều phương pháp tính toán các hệ số biểu diễn đường bao phổ, trong đó phương pháp phổ biến nhất là phương pháp MFCC

Các nghiên cứu cho ta thấy rằng hệ thống thính giác của con người thu nhận âm thanh với độ lớn các tần số âm thanh không theo thang tuyến tính Do đó, các thang âm thanh đã ra đời cho phù hợp với sự tiếp nhận của thính giác con người

Các thang được xây dựng bằng thực nghiệm, cho nên người ta xây dựng các công thức để xấp xỉ sự chuyển đổi này Trong các thang và công thức dạng đó thì đặc trưng MFCC sử dụng thang Mel Thang Mel được thể hiện thông qua đồ thị sau:

Trang 32

Hình 2.4: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz

Hình 2.5: Các bước trích đặc trưng MFCC

Ta dùng phép biến đổi Fourier để chuyển tín hiệu từ miền thời gian sang miền tần số Sau đó ta dùng dãy bộ lọc để lọc tín hiệu, đó là dãy

bộ lọc tam giác có tần số giữa đều nhau trên thang Mel

Biến đổi Fourier

Biến đổi Cosin

Định dạng
Số trang	66
Dung lượng	1,27 MB