Nghiên cứu phương pháp biến đổi thông tin người nói trong tiếng nói dùng kỹ thuật phân rã theo thời gian

ĐẠI HỌC THÁI NGUYÊNTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG THÂN THẾ HUYẾN NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ THEO THỜI G

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

THÂN THẾ HUYẾN

NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ

THUẬT PHÂN RÃ THEO THỜI GIAN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN, 2018

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành cám ơn TS Phùng Trung Nghĩa,

người đã trực tiếp hướng dẫn em hoàn thành luận văn Với những lời chỉ dẫn,những tài liệu, sự tận tình hướng dẫn và những lời động viên của thầy đã giúp

em vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này

Em cũng xin cám ơn quý thầy cô giảng dạy chương trình cao học

"Khoa hoc máy tính” đã truyền dạy những kiến thức quý báu, những kiếnthức này rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu

Cuối cùng, em xin gửi lời cám ơn tới gia đình và bạn bè đã luôn ủng hộ độngviên giúp đỡ em trong suốt những năm học vừa qua

Em xin chân thành cám ơn!

Thái Nguyên, ngày 22 tháng 06 năm 2018

Học viên

Thân Thế Huyến

Trang 3

LỜI CAM ĐOAN

Em xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá

nhân, được thực hiện dưới sự hướng dẫn khoa học của TS Phùng Trung

Trang 4

MỤC LỤC

LỜI CẢM ƠN 1

LỜI CAM ĐOAN ii

MỤC LỤC iii

DANH MỤC BẢNG v

DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU viii

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Đối tượng và phạm vi nghiên cứu 2

3 Hướng nghiên cứu của luận văn 3

4 Những nội dung nghiên cứu chính 3

5 Phương pháp nghiên cứu 4

6 Ý nghĩa khoa học của luận văn: 4

CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 5

1.1 Thông tin tiếng nói 5

1.2 Tín hiệu tiếng nói 5

1.3 Quá trình tạo tiếng nói 7

1.4 Cơ quan thính giác 10

1.5 Xử lý tiếng nói 12

1.6 Thông tin người nói trong tiếng nói 13

1.7 Biến đổi thông tin người nói trong tiếng nói và ứng dụng 15

1.8 Phương pháp biến đổi thay đổi tham số trực tiếp 16

CHƯƠNG 2: KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG DỤNG TRONG BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI 21

2.1 Kỹ thuật phân rã tiếng nói theo thời gian 21

2.1.1 Phương pháp TD nguyên thủy 21

Trang 5

2.1.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 24

2.1.3 Phương pháp MRTD 27

2.2 Một số kỹ thuật biến đổi thông tin người nói dùng TD 32

2.2.1 Biến đổi thông tin người nói bằng TD-GMM 32

2.2.2 Biến đổi thông tin người nói bằng HTD [12] 34

CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI 42

3.1 Ngữ âm tiếng Việt 42

3.2 Cơ sở dữ liệu tiếng nói tiếng Việt 44

3.3 Tổng hợp tiếng nói tiếng Việt 47

3.4 Lựa chọn cơ sở dữ liệu 47

3.5 Đánh giá các phương pháp 48

3.5.1 Tiêu chí đánh giá 48

3.5.2 Thực nghiệm các phương pháp 49

3.5.3 Kết quả đánh giá 50

3.5.4 Thảo luận 51

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 54

Trang 6

DANH MỤC BẢNG

Bảng 3.1: Cấu trúc âm tiết tiếng Việt 44

Bảng 3.2: Sáu thanh điệu tiếng Việt 44

Bảng 3.3 Các tham số thực nghiệm 49

Bảng 3.4 Kết quả đánh giá khách quan 50

Bảng 3.5 Kết quả đánh giá chủ quan ABX 50

Trang 7

DANH MỤC HÌNH

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt 6

Hình 1.2: Tiếng nói hữu thanh 6

Hình 1.3: Bộ phận cung cấp làn hơi 7

Hình 1.4: Dây thanh âm 7

Hình 1.5: Cấu trúc cơ quan phát âm 8

Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm 9

Hình 1.7: Mô hình hóa cơ quan phát âm 9

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 10

Hình 1.9: Mô hình cơ quan thính giác 10

Hình 1.10: Thang tần số Bark 11

Hình 1.11: Ngưỡng nghe 11

Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau) 12

Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm) 12

Hình 1.14: Một số ứng dụng của xử lý tiếng nói 13

Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý thông tin người nói 13

Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác nhau dẫn tới tiếng nói khác nhau 14

Hình 2.1: Ví dụ về hai hàm sự kiện liền kề 25

Hình 2.2: Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không chuẩn” 27

Hình 2.3: Thuật toán chuẩn hóa vector sự kiện trong MRTD 31

Hình 2.4: Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu tiếng Nhật, chỉ số trên miền thời gian là số khung 32

Hình 2.5: Phương pháp biến đổi TD-GMM 34

Trang 8

Hình 2.6: Mô hình biến đổi giọng người nói HTD 35Hình 2.7: Ví dụ phân tích / tái tạo tiếng nói bằng MRTD với N khung và Kđiểm sự kiện 37Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ? ở thanh ngã chỉ rarằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa 43

Trang 9

DANH MỤC CHỮ VIẾT TẮT VÀ KÍ HIỆU

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài.

Tiếng nói là phương tiện giao tiếp cơ bản của con người Vì vậy tiếngnói cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thốngviễn thông Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ,thông tin về người nói, thông tin về cảm xúc khi nói,…

Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lýcác thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [1].Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được ápdụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cầnđược quan tâm và cũng đã được quan tâm nghiên cứu trong thời gian gần đây[2] Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp) được tựnhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về ngườinói, bao gồm cả các thông tin chung về người nói như giới tính, độ tuổi,…đến các thông tin chi tiết như thông tin nhận danh chính xác người nói[5,6,7,9,10,11]

Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ratiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máytính Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biếnđổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng Một số

Trang 11

- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin ngườinói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thốngnhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền nhưvăn bản với tốc độ bit cực thấp [12] Khi đó sẽ sử dụng hiệu quả tối đa hạ tầngtruyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế Tuy nhiên đểtiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trongthực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được

bổ sung ở đầu ra Nói cách khác, thông tin tiếng nói đã mã hóa cần phải đượcbiến đổi theo người nói cụ thể

Kỹ thuật phân rã tiếng nói theo thời gian là một kỹ thuật xử lý tín hiệutrên miền thời gian hiệu quả, đã được áp dụng trong nhiều hệ thống xử lýtiếng nói và gần đây nhất đã được áp dụng thành công trong các hệ thống biếnđổi thông tin người nói

Trên thế giới đã có nhiều nghiên cứu về biến đổi thông tin người nóitrong tiếng nói [5,6,7,9,10,11].Tại Việt Nam cũng có một số nghiên cứu banđầu về thông tin người nói trong tiếng nói nhưng vẫn chưa có nhiều cácnghiên cứu đánh giá một cách tổng hợp vấn đề biến đổi thông tin người nóitrong tiếng nói cũng như ứng dụng của kỹ thuật phân rã theo thời gian trongbiến đổi thông tin người nói Vì vậy, luận văn này nghiên cứu một số phươngpháp biến đổi thông tin người nói trong tiếng nói, trong đó tập trung vàophương pháp sử dụng kỹ thuật phân rã theo thời gian, đánh giá thực nghiệmcác phương pháp, và đưa ra những khuyến nghị

2 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi thôngtin người nói trong tiếng nói Đây là đối tượng nghiên cứu được nhiều nhànghiên cứu trên thế giới quan tâm trong thời gian gần đây

Trang 12

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếngnói và thông tin người nói trong tiếng nói, một số phương pháp biến đổi thôngtin người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [7], phươngpháp thay thế khung tiếng nói HTT [8], và đặc biệt tập trung vào các phươngpháp sử dụng kỹ thuật phân rã tiếng nói theo thời gian TD [10-11] Luận văncũng nghiên cứu đánh giá thực nghiệm các phương pháp để đưa ra cáckhuyến nghị.

3 Hướng nghiên cứu của luận văn

Hướng nghiên cứu của luận văn là nghiên cứu về thông tin người nóitrong tiếng nói và các kỹ thuật biến đổi tiếng nói theo thời gian Trong đó,luận văn tập trung nghiên cứu các vấn đề lý thuyết về thông tin người nói, vàphương pháp xử lý, biến đổi tín hiệu tiếng nói, kỹ thuật phân rã theo thời gian

và ứng dụng trong biến đổi thông tin người nói Luận văn cũng nghiên cứuđánh giá thực nghiệm một số phương pháp biến đổi thông tin người nói trongtiếng nói

4 Những nội dung nghiên cứu chính

Chương 1.Tổng quan về tiếng nói và vấn đề biến đổi thông tin người

nói trong tiếng nói: Giới thiệu tổng quan về tiếng nói, thông tin người nóitrong tiếng nói, vấn đề biến đổi tiếng nói theo người nói

Chương 2 Kỹ thuật phân rã theo thời gian và ứng dụng trong biến đổi

thông tin người nói trong tiếng nói

- Trình bày cơ sở lý thuyết về kỹ thuật phân rã theo thời gian, phươngpháp của Altal, phương pháp giới hạn RTD của Kim, và phương pháp cải tiếnMRTD của N.P Chien

- Trình bày các phương pháp biến đổi tiếng nói dùng kỹ thuật TD [10,11,12]

Chương 3 Đánh giá thực nghiệm.

Trang 13

- Thu thập dữ liệu tiếng nói

- Cài đặt một số phương pháp biến đổi thông tin người nói trong tiếngnói trên MATLAB

- Đánh giá khách quan và chủ quan các phương pháp

- Thống kê các kết quả đánh giá

- Phân tích, đánh giá, đưa ra kiến nghị

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã cótrên thế giới [1-7, 9-11] để phân tích, đánh giá về các phương pháp biến đổithông tin người nói trong tiếng nói

Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng

sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi thông tin người nóitrong tiếng nói

6 Ý nghĩa khoa học của luận văn:

Như đã trình bày trong phần 1, nghiên cứu về thông tin người nói trongtiếng nói và cá kỹ thuật biến đổi tiếng nói theo mục tiêu có vai trò quan trọngtrong các hệ thống truyền thông đa phương tiện hiện đại Đây không phải vấn

đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam Đặc biệt,nghiên cứu về ứng dụng của kỹ thuật phân rã theo thời gian trong bài toánbiến đổi thông tin người nói trong tiếng nói chưa được nghiên cứu nhiều ởViệt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học vàthực tiễn

Trang 14

CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI TRONG TIẾNG NÓI

1.1 Thông tin tiếng nói

Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với conngười Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếngnói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trìnhtiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phươngtiện giao tiếp cơ bản nhất Do tiếng nói là phương tiện giao tiếp cơ bản củacon người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệthống viễn thông từ trước đến nay

Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu vàứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lýnhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người

Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máytính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó

có tiếng nói Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngônngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin

về sắc thái tình cảm khi nói…

1.2 Tín hiệu tiếng nói

Âm thanh là các dao động cơ học lan truyền trong vật chất như cácsóng Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng,chu kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh)

Đối với thính giác của người, âm thanh thường là sự dao động, trongdải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyềntrong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộnão

Trang 15

Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông Dải tầntiếng nói trong khoảng 300 Hz - 3400 Hz Tiếng nói bao gồm hai dạng hữuthanh và vô thanh Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanhtương tự nhiễu.

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh

Trang 16

1.3 Quá trình tạo tiếng nói

Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng

nữ và trẻ em cao hơn giọng đàn ông

Hình 1.4: Dây thanh âm

Trang 17

Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh Nhờ

sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ởcác tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau

Hình 1.5: Cấu trúc cơ quan phát âm

Trang 18

Hình 1.6: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm

d Biễu diễn bộ phận phát âm:

Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm cáchình trụ có độ dài bằng nhau nhưng có đường kính khác nhau Trong quá trìnhphát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm , do

đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thayđổi là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm

vị khác

Hình 1.7: Mô hình hóa cơ quan phát âm

Trang 19

Hình 1.8: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính

1.4 Cơ quan thính giác

Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác Cơquan thính giác con người có thể cảm thụ được các tần số âm thanh trongkhoảng 15 Hz - 20.000 Hz Âm thanh với tần số cao hơn được gọi là siêu âm,thấp hơn là hạ âm

Hình 1.9: Mô hình cơ quan thính giác

Trang 20

Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bịthay đổi khoảng 1dB (biên độ thay đổi 12%) Mặc dù dải nghe của con ngườithông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz.

Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cáchđến nguồn âm kém

Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thangtần số Bark như trong hình 1.10 Trong mỗi băng con, con người không cảmnhận được sự khác biệt

Hình 1.10: Thang tần số BarkKhả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡngnghe (hình 1.11), cũng như không nghe được âm thanh bị che bởi các mặt nạtrên miền thời gian (hình 1.12) và tần số (hình 1.13)

Hình 1.11: Ngưỡng nghe

Trang 21

Hình 1.12: Mặt nạ thời gian (che âm thanh liền trước và liền sau)

Hình 1.13: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời

điểm)

1.5 Xử lý tiếng nói

Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác,

kỹ thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lýtheo yêu cầu và phát lại cho con người Yêu cầu xử lý ở đây phụ thuộc vàotừng ứng dụng cụ thể Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệuquả trên các hệ thống viễn thông truyền với khoảng cách rất xa, người ta cầnnghiên cứu và xây dựng các giải thuật mã hóa nén tiếng nói Để xây dựng cácứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giảithuật trích đặc trưng tiếng nói và huấn luyện tiếng nói Để biến đổi tiếng nói,người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác

Trang 22

nhau (như người nói, cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặcgián tiếp các đặc trưng này.

Hình 1.14: Một số ứng dụng của xử lý tiếng nói

Hình 1.15: Hệ thống nhận dạng người nói – một trong các ứng dụng xử lý

thông tin người nói

1.6 Thông tin người nói trong tiếng nói

Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lýcác thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [8].Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được ápdụng rộng rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đãđược quan tâm nghiên cứu trong thời gian gần đây [6] Một trong những vấn

Trang 23

đề quan trọng cần đảm bảo là thông tin về người nói, bao gồm cả các thôngtin chung về người nói như giới tính, độ tuổi,… đến các thông tin chi tiết nhưthông tin nhận danh chính xác người nói [4,5,6,9,11] Có nhiều yếu tố ảnhhưởng đến thông tin người nói trong tiếng nói như hình dạng, cấu trúc cơquan phát âm (đặc trưng sinh học), thói quen, cách thức phát âm,

Con người có thể phân biệt được thông tin người nói một cách dễ dàng

do khả năng của cơ quan thính giác tuy nhiên để máy tính có thể phân biệtthông tin người nói, thông tin người nói cần phải được mô hình hóa và việcphân biệt, định danh, biến đổi cần phải được thực hiện thông qua các tham sốvector đặc trưng được tính toán từ tín hiệu tiếng nói

Hình 1.16: Người nói khác nhau có cơ quan phát âm và cách phát âm khác

nhau dẫn tới tiếng nói khác nhau

Hình 1.1: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm

Trang 24

1.7 Biến đổi thông tin người nói trong tiếng nói và ứng dụng

Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ratiếng nói của một số giọng nói đã được thu sẵn và huấn luyện trước cho máytính Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biếnđổi thông tin người nói trong tín hiệu tiếng nói có vai trò quan trọng Một số

- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin ngườinói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các hệ thốngnhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền nhưvăn bản với tốc độ bit cực thấp [11] Khi đó sẽ sử dụng hiệu quả tối đa hạ tầngtruyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế Tuy nhiên đểtiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trongthực tiễn, các thông tin phi ngôn ngữ như thông tin người nói cần phải được

bổ sung ở đầu ra Nói cách khác, thông tin tiếng nói đã mã hóa cần phải đượcbiến đổi theo người nói cụ thể

Một số phương pháp biến đổi thông tin người nói điển hình được biếtđến là phương pháp thay thế khung [7], phương pháp biến đổi tham số(vector) đặc trưng [16], và phương pháp dùng học máy [8] Một số vector đặctrưng phổ biến nhất là đặc trưng phổ, năng lượng, …

Trang 25

Hình 1.18: Tính toán vector đặc trưng

Hình 1.19: Mô hình học máy thống kê GMM được sử dụng để mô hình hóa

người nói

1.8 Phương pháp biến đổi thay đổi tham số trực tiếp

Trong phương pháp thay đổi tham số trực tiếp (là phương pháp đơngiản và cổ điển nhất), tiếng nói sẽ được phân tách thành các khung và tínhvector đặc trưng theo các khung sử dụng mô hình phân tích / tổng hợp nguồn

âm / bộ lọc (source/filter) Mô hình nguồn âm / bộ lọc đảm bảo tín hiệu saukhi phân tích thành các tham số có thể tái tạo tín hiệu trở lại từ các tham số đãphân tích Các tham số liên quan đến yếu tố người nói như biên độ, trường

độ, cao độ - tần số cơ bản, hay phổ sẽ được điều chỉnh cho phù hợp

Trang 26

STRAIGHT [7] là công cụ cho phép phân tích / tái tạo tiếng nói theo

mô hình nguồn âm / bộ lọc Đây cũng là bộ công cụ được sử dụng trong nhiềunghiên cứu về xử lý tiếng nói Mô hình STRAIGHT được mô tả trong hình1.20

Hình 1.20: Phân tích phổ, F0 và tái tạo bằng STRAIGHT

STRAIGHT được xây dựng trên mô hình nguồn âm / bộ lọc cho phépđiều chỉnh một cách linh hoạt các tham số tiếng nói Trong đó các tham sốnhư F0, tốc độ nói, độ dài vocal tract được điều chỉnh mà không có sự suygiảm chất lượng tiếng nói gây ra do quá trình tái tạo tiếng nói từ tham số đãđiều chỉnh [7] STRAIGHT gồm 03 thành phần chính:

Bộ phân tích thông tin nguồn: Tần số cơ bản F0 được ước lượng để làmtrơn các hài tuần hoàn trong phổ thời gian ngắn sử dụng một bộ lọc thíchnghi

Bộ phân tích phổ thời gian – tần số được làm trơn: Sử dụng kỹ thuậtđồng bộ cao độ Pitch-synchronous để ước lượng đường bao phổ được làmtrơn Đường bao phổ được ước lượng độc lập với tần số cơ bản F0

Trang 27

Bộ tổng hợp: Bao gồm một bộ kích thích nguồn âm và một bộ lọc sốbiến đổi theo thời gian, thực hiện tái tạo tín hiệu tiếng nói từ các thành phầnF0 và đường bao phổ bằng nhiều bước sử dụng thuật toán biến đổi Fouriernhanh FFT.

Bộ thư viện các hàm STRAIGHT viết trên MATLAB có thể tham khảo

từ website cá nhân của tác giả:

h t t p: // www w a k a y a m a - u ac .jp / ~ k a w a h ara / PSS w s /

STRAIGHT được sử dụng để phân tích tiếng nói ra các đặc trưng cao

độ (F0), biên độ dạng sóng trên miền thời gian và phổ tiếng nói Qua đó vớiviệc điều chỉnh trực tiếp các tham số trên bằng các hệ số tuyến tính (Kf0, Kt,Ks), chúng ta có thể điều chỉnh độc lập F0, tốc độ nói trên miền thời gian,chiều dài bộ lọc phát âm trên miền tần số với phương thức giống nhau là nhânvới các hệ số tỷ lệ tuyến tính tương ứng Kf0, Kt, Ks

Thuật toán điều chỉnh trực tiếp tham số được mô tả trong hình 1.21

Trang 28

Tiếng nói

Trang 29

Tính F0 và tần số đường bao phổ bằng

Tiếng nói đã được điều chỉnh để thay đổi giọng

Hình 1.21: Thuật toán điều chỉnh trực tiếp tham số tiếng nói

1.8 Biến đổi thông tin người nói dựa vào thay thế khung

Một trong những phương pháp biến đổi thông tin người nói thành côngnhất là phương pháp biến đổi giọng người nói lai giữa tổng hợp tiếng nóidùng mô hình Markov ẩn (HMM) và thay thế mẫu / ghép nối HTT được tácgiả Yao Qian và cộng sự đề xuất năm 2013 [9]

Trong phương pháp HTT, ở bước thứ nhất tiếng nói tổng hợp bằng mô hìnhHMM với giọng nguồn Tiếp theo ở bước thứ hai, tiếng nói đã tổng hợp đượcbiến đổi thành tiếng nói giọng đích dựa trên kỹ thuật lựa chọn và thay thế cáckhung nguồn có độ dài rất ngắn 5ms bằng các khung đích phù hợp như mô tảtrong Hình 1.22

Nếu bỏ qua vấn đề tổng hợp giọng nguồn bằng HMM, bản chất của phươngpháp biến đổi giọng người nói HTT là các khung của tiếng nói giọng nguồn

Trang 30

được thay thế bằng các khung vật lý giống nhất của giọng đích trong cùng âm

vị Mặc dù việc lựa chọn và thay thế mẫu tiếng nói giọng nguồn bằng mẫutiếng nói giọng đích đã được đề xuất trước đó [9], hiệu quả biến đổi giọngngười nói trong HTT là vượt trội so với các phương pháp thay thế mẫu khác

do việc sử dụng các khung tiếng nói rất ngắn thay thế các mẫu tiếng nói dàinhư âm vị [9] sẽ tối ưu việc tìm được khung/mẫu tiếng nói đích phù hợp nhất.Các kết quả thực nghiệm cho thấy phương pháp thay thế khung HTT chochất lượng và hiệu quả biến đổi giọng người nói rất cao [9] HTT đã đượcthực nghiệm trên tiếng Anh, tiếng Trung và đã đạt thứ hạng cao trong cuộc thi

về tổng hợp tiếng nói và chuyển đổi giọng nói quốc tế Blizzard Challenge

2013 [9] Tuy nhiên các phương pháp lựa chọn / thay thế khung như HTT kếthừa tất cả các nhược điểm của tổng hợp ghép nối như đòi hỏi dữ liệu lớn, tốc

độ thực thi khó đảm bảo thời gian thực, dữ liệu cần lưu trữ online lớn

Hình 1.22: Lựa chọn khung đích phù hợp và thay thế khung nguồn

Trang 31

CHƯƠNG 2

KỸ THUẬT PHÂN RÃ THEO THỜI GIAN TD VÀ ỨNG DỤNG TRONG BIẾN ĐỔI THÔNG TIN NGƯỜI NÓI

2.1 Kỹ thuật phân rã tiếng nói theo thời gian

2.1.1 Phương pháp TD nguyên thủy

Kỹ thuật phân rã tiếng nói theo thời gian được đề xuất bởi Atal [6] vàđược coi như một phương pháp mã hóa tiếng nói tham số hiệu quả Giả sửmột chuỗi tiếng nói được tạo ra bởi K chuyển động thực hiện bởi K điểm sựkiện Chúng ta gọi các tham số tiếng nói tương ứng với điểm sự kiện thứ k là

Trang 32

T

Khung tiếng nói thứ n đi từ 1 đến N Khi phân rã tiếng nói theo thời gian, các

trên dưới dạng ma trận như sau:

Trang 33

Ở công thức 2.1 cả điểm sự kiện và hàm chuyển dịch giữa các sự kiện làchưa biết và kỹ thuật phân rã theo thời gian phải xác định chúng khi mộtchuỗi tiếng nói đầu vào được đưa ra.

Ở công thức 2.1 và 2.5, chỉ Y là biết trước Để xác định A và Phi, Yđược phân rã bằng phép toán trực giao Thủ tục phân tích trong phương phápnguyên thủy của Atal được thực hiện bằng 2 bước:

Các vị trí của các điểm sự kiện được xác định bằng phép phân tích matrận SVD

Các điểm sự kiện và hàm chuyển dịch sự kiện được xác định bằngphương pháp lặp tối thiểu khoảng cách (hoặc lỗi) giữa tiếng nói được tái tạo

và tiếng nói gốc

Phương pháp của Atal được thực thi như sau:

Đầu tiên, ma trận tham số phổ của một đoạn tiếng nói khoảng 200-300

ms được phân rã thành hai ma trận trực giao và một ma trận chéo của các giátrị riêng, sử dụng phân tích SVD

Trang 35

Tiếp theo, hàm chuyển dịch sự kiện  (n) gần nhất với trung tâm củađoạn tiếng nói được lấy cửa sổ hóa n0 sẽ được ước lượng bằng cách tối thiểu

Trang 36

Vì cửa sổ được dịch mỗi lần một khoảng nhỏ, hàm chuyển dịch giốngnhau sẽ được dịch theo thời gian từng khoảng nhỏ Để tìm vị trí của các hàmchuyển dịch để giảm tổng số hàm chuyển dịch, một thuật toán dựa trên mộttiêu chuẩn vượt ngưỡng 0 về hàm thời gian v(l) được sử dụng.

N

(n  l ) 2

(n) v(l)   n 1

(2.11)

n1 2

(n)

Trang 37

Hàm v(l) vượt qua ngưỡng v(l)=0 từ dương sang âm ở vị trí l ứng với vị

Trang 38

Điểm sự kiện phổ ak được xác định bằng tối thiểu hóa sai số bình

phương giữa tham số phổ gốc và tham số phổ tái tạo

N K

i  i  ik k

E  n1

(2.13)

Mặc dù việc thực thi thuật toán phân rã tiếng nói theo thời gian theophương pháp nguyên thủy của Atal có cơ sở toán học chặt chẽ, chúng có một

2.1.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD

Để giải quyết vấn đề chi phí tính toán lớn của phương pháp phân rã tiếngnói theo thời gian của Atal, nhiều phương pháp đã được đề xuất [7-11]

Trang 39

Trong đó, được sử dụng nhiều nhất là phương pháp phân rã giới hạnRTD (Restricted TD) [7].

Giả sử hiện tượng đồng cấu âm (co-articulation) trong quá trình tạo tiếngnói được mô tả bằng các hàm sự kiện chồng lấp được giới hạn trong các sựkiện liền kề, mô hình phân rã bậc hai được sử dụng khi chỉ có hai hàm sự kiệnliền kề có thể chồng lấn như mô tả trong hình vẽ 2.1 và công thức 2.14

Hình 2.1: Ví dụ về hai hàm sự kiện liền kề

Trang 40

Phương pháp phân rã giới hạn RTD bổ sung một ràng buộc đối với các hàm

sự kiện trong mô hình TD bậc hai là tất cả các hàm sự kiện tại một thời điểm

có tổng bằng 1 Khi đó, công thức 2.14 được viết lại như sau:

bên phải của hàm sự kiện thứ k và nửa bên trái của hàm sự kiện thứ k+1 có

Định dạng
Số trang	81
Dung lượng	2,99 MB