1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian

62 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 1,68 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian(Luận văn thạc sĩ) Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian

Trang 1

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

ĐỖ XUÂN TOÀN

NGHIÊN CỨU PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI DÙNG KỸ THUẬT

PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN

Chuyên ngành: Kỹ thuật viễn thông

Mã số: 8 52 02 08

LUẬN VĂN THẠC SĨ KỸ THUẬT VIỄN THÔNG

Người hướng dẫn khoa học: PGS.TS PHÙNG TRUNG NGHĨA

Thái Nguyên - 2021

Trang 2

LỜI CẢM ƠN

Trong quá trình thực hiện luận văn, ngoài sự nỗ lực của bản thân, em đã nhận được rất nhiều sự hỗ trợ, giúp đỡ Đầu tiên, em xin chân thành cảm ơn

PGS.TS Phùng Trung Nghĩa, người đã trực tiếp hướng dẫn em hoàn thành

luận văn Thầy đã tận tình hướng dẫn, giảng giải chỉ dẫn, với những tài liệu, sự động viên của thầy đã giúp em vượt qua nhiều khó khăn để hoàn thiện luận văn này

Em cũng xin cảm ơn các thầy, cô giảng dạy chương trình cao học "Kỹ thuật viễn thông” đã truyền dạy những kiến thức quý báu, những kiến thức đó rất hữu ích và giúp em nhiều khi thực hiện nghiên cứu Đồng thời, Nhà trường

và các thầy, cô đã tạo mọi điều kiện về thời gian, cơ sở, phương tiện để em nghiên cứu

Cuối cùng, em xin gửi lời cảm ơn tới gia đình và bạn bè đã luôn ủng hộ, động viên, giúp đỡ em trong suốt những năm học vừa qua

Thái Nguyên, ngày tháng năm 2021

Học viên

Đỗ Xuân Toàn

Trang 3

LỜI CAM ĐOAN

Tôi là: Đỗ Xuân Toàn - Học viên lớp cao học K18 - Kỹ thuật viễn thong

- Trường đại học Công nghệ thông tin và Truyền thông Thái Nguyên

Tôi xin cam đoan: Luận văn “Nghiên cứu phương pháp biến đổi cảm xúc người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian” là công trình nghiên cứu thực sự của cá nhân, được thực hiện dưới sự hướng dẫn

khoa học của PGS TS Phùng Trung Nghĩa

Các số liệu, những kết luận nghiên cứu được trình bày trong luận văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào

Tôi xin chịu trách nhiệm về nghiên cứu của mình

Học viên

Đỗ Xuân Toàn

Trang 4

MỤC LỤC

LỜI CẢM ƠN i

LỜI CAM ĐOAN iii

MỤC LỤC iv

DANH MỤC BẢNG vi

DANH MỤC HÌNH vii

MỞ ĐẦU 1

1 Đặt vấn đề 1

2 Đối tượng và phạm vi nghiên cứu 2

3 Hướng nghiên cứu của luận văn 3

4 Những nội dung nghiên cứu chính 3

5 Phương pháp nghiên cứu 4

6 Ý nghĩa khoa học của luận văn: 4

CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI 5

1.1 Thông tin tiếng nói 5

1.2 Tín hiệu tiếng nói 5

1.3 Quá trình tạo tiếng nói 6

1.4 Cơ quan thính giác 9

1.5 Xử lý tiếng nói 11

1.6 Thông tin cảm xúc người nói trong tiếng nói 12

1.7 Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng 14

1.7.1 Phương pháp biến đổi thay đổi tham số trực tiếp 15

1.7.2 Biến đổi cảm xúc người nói dựa vào thay thế khung 17

1.7.3 Biến đổi thông tin người nói bằng GMM 19

Trang 5

CHƯƠNG 2: BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI BẰNG KỸ THUẬT

PHÂN RÃ TIẾNG NÓI THEO THỜI GIAN 24

2.1 Kỹ thuật phân rã tiếng nói theo thời gian 24

2.1.1 Phương pháp TD nguyên thủy 24

2.1.2 Phương pháp phân rã tiếng nói theo thời gian giới hạn RTD 27

2.1.3 Phương pháp MRTD 29

2.2 Một số kỹ thuật biến đổi cảm xúc người nói dùng TD 34

2.2.1 Biến đổi cảm xúc người nói bằng TD-GMM 34

2.2.2 Biến đổi cảm xúc người nói bằng HTD [10] 36

CHƯƠNG 3: ĐÁNH GIÁ THỰC NGHIỆM CÁC PHƯƠNG PHÁP BIẾN ĐỔI CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI 43

3.1 Ngữ âm tiếng Việt 43

3.2 Cơ sở dữ liệu tiếng nói tiếng Việt 45

3.3 Tổng hợp tiếng nói tiếng Việt 47

3.4 Lựa chọn cơ sở dữ liệu 48

3.5 Thực nghiệm các phương pháp 48

3.6 Đánh giá các phương pháp 49

3.6.1 Tiêu chí và kết quả đánh giá khách quan 49

3.6.2 Tiêu chí và kết quả đánh giá chủ quan 50

KẾT LUẬN 52

TÀI LIỆU THAM KHẢO 53

Trang 6

DANH MỤC BẢNG

Bảng 3.1: Cấu trúc âm tiết tiếng Việt 44

Bảng 3.2: Sáu thanh điệu tiếng Việt 45

Bảng 3.3: Các tham số thực nghiệm 45

Bảng3.4: Khoảng cách MCD trung bình của 4 mẫu 511

Bảng3.5: Độ sai lệch F0 trung bình của 4 mẫu 51

Bảng3.6: Kết quả đánh giá chủ quan ABX trung bình của 4 mẫu giữa các phương pháp TD-GMM (1); HTD (2) 51

Trang 7

DANH MỤC HÌNH

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt 6

Hình 1.2: Tiếng nói hữu thanh 6

Hình 1.3: Cấu trúc cơ quan phát âm 8

Hình 1.4: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm 8

Hình 1.5: Mô hình hóa cơ quan phát âm 8

Hình 1.6: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính 9

Hình 1.7: Mô hình cơ quan thính giác 9

Hình 1.8: Thang tần số Bark 10

Hình 1.9: Ngưỡng nghe 10

Hình 1.10: Mặt nạ thời gian (che âm thanh liền trước và liền sau) 11

Hình 1.11: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng thời điểm) 11

Hình 1.12: Một số ứng dụng của xử lý tiếng nói 12

Hình 1.13: Người nói khác nhau có cơ quan phát âm và cách phát âm khác nhau dẫn tới tiếng nói khác nhau khi nói với các cảm xúc khác nhau 13

Hình 1.14: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm 13

Hình 1.15: Tính toán vector đặc trưng 15

Hình 1.16 Mô hình nguồn âm / bộ lọc 15

Hình 1.17: Thuật toán điều chỉnh trực tiếp tham số tiếng nói 17

Hình 1.18: Lựa chọn khung đích phù hợp và thay thế khung nguồn 18

Hình 1.19: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối chuẩn chuẩn hóa) 19

Hình 1.20: Mô hình thống kê GMM được sử dụng để mô hình hóa người nói: Các thành phần Gaussian (components); Mô hình ước lượng (estimated model); Mô hình hỗn hợp (mixture model) 19

Trang 8

Hình 2.1 Ví dụ về hai hàm sự kiện liền kề 28 Hình 2.2 Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không

chuẩn” 30 Hình 2.3 Hình vẽ các hàm sự kiện nhận được khi MRTD phân tích một câu

tiếng nói, chỉ số trên miền thời gian là số khung 34 Hình 2.4 Phương pháp biến đổi TD-GMM 36 Hình 2.5 Mô hình biến đổi giọng người nói HTD 37 Hình 2.6 Ví dụ phân tích / tái tạo tiếng nói bằng MRTD với N khung và K

điểm sự kiện 39 Hình 3.1: Đường F0 sáu thanh điệu tiếng Việt theo, dấu ?ở thanh ngã chỉ ra

rằng đường F0 của thanh ngã không thống nhất giữa các mẫu ở vùng giữa 44

Trang 9

MỞ ĐẦU

1 Đặt vấn đề

Tiếng nói là phương tiện giao tiếp cơ bản của con người Tín hiệu tiếng nói mang nhiều thông tin, như thông tin ngôn ngữ, thông tin định danh người nói, thông tin về cảm xúc người nói,…

Hầu hết các hệ thống xử lý tiếng nói tập trung vào xử lý các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [1] Tuy nhiên, để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, tính tự nhiên của tiếng nói được xử lý cũng cần được quan tâm và cũng

đã được quan tâm nghiên cứu trong thời gian gần đây [2] Để đảm bảo tiếng nói sau xử lý (như tiếng nói được tổng hợp nhân tạo) được tự nhiên, một trong những vấn đề quan trọng cần đảm bảo là thông tin về cảm xúc người nói [3-10]

Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn (với cảm xúc trung tính) và huấn luyện trước cho máy tính Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến đổi cảm xúc người nói trong tín hiệu tiếng nói có vai trò quan trọng Một số ví dụ điển hình như:

- Trong các hệ thống đọc truyện online cần “phát thanh viên ảo” nói với giọng có cảm xúc tự nhiên nhất [4]

- Trong các clips quảng cáo, âm nhạc cần biến đổi giọng nói, giọng hát của diễn viên theo các cảm xúc cụ thể khác nhau như cao hơn, trầm hơn, giống với cảm xúc của nhân vật hơn,… [4]

- Đặc biệt, nếu bỏ qua các thông tin phi ngôn ngữ như thông tin người nói, cảm xúc nói khi mã hóa tiếng nói bằng phương pháp kết hợp sử dụng các

hệ thống nhận dạng và tổng hợp tiếng nói ở đầu cuối, tiếng nói có thể được truyền như văn bản với tốc độ bit cực thấp [10] Khi đó sẽ sử dụng hiệu quả tối

Trang 10

đa hạ tầng truyền thông, ngay cả trong điều kiện tài nguyên rất hạn chế Tuy nhiên, để tiếng nói mã hóa theo phương pháp này có thể được sử dụng hiệu quả trong thực tiễn, các thông tin phi ngôn ngữ như thông tin người nói, cảm xúc nói cần phải được bổ sung ở đầu ra Nói cách khác, thông tin tiếng nói đã mã hóa cần phải được biến đổi theo người nói và cảm xúc cụ thể

Kỹ thuật phân rã tiếng nói theo thời gianlà một kỹ thuật xử lý tín hiệu trên miền thời gian hiệu quả, đã được áp dụng trong nhiều hệ thống xử lý tiếng nói và gần đây nhất đã được áp dụng thành công trong các hệ thống biến đổi cảm xúc người nói

Trên thế giới đã có nhiều nghiên cứu về biến đổi cảm xúc trong tiếng nói [3-10] Tại Việt Nam, cũng có một số nghiên cứu ban đầu về cảm xúc người nói trong tiếng nói nhưng vẫn chưa có nhiều các nghiên cứu đánh giá một cách tổng hợp vấn đề biến đổi cảm xúc người nói trong tiếng nói cũng như ứng dụng của kỹ thuật phân rã tiếng nói theo thời gian trong biến đổi cảm xúc người nói

Vì vậy, luận văn này nghiên cứu một số phương pháp biến đổi cảm xúc người nói trong tiếng nói, trong đó tập trung vào phương pháp sử dụng kỹ thuật phân

rã tiếng nói theo thời gian, đánh giá thực nghiệm các phương pháp, và đưa ra những khuyến nghị

2 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là các phương pháp biến đổi cảm xúc người nói trong tiếng nói Đây là đối tượng nghiên cứu được nhiều nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây

Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tín hiệu tiếng nói và cảm xúc người nói trong tiếng nói, một số phương pháp biến đổi cảm xúc người nói trong tiếng nói, bao gồm thay đổi tham số trực tiếp [5], phương pháp thay thế khung tiếng nói HTD [9], phương pháp TD-GMM [9], và đặc biệt tập trung vào các phương pháp sử dụng kỹ thuật phân rã tiếng nói theo

Trang 11

thời gian NMF [8-10] Luận văn cũng nghiên cứu đánh giá thực nghiệm các phương pháp để đưa ra các khuyến nghị

3 Hướng nghiên cứu của luận văn

Hướng nghiên cứu của luận văn là nghiên cứu về cảm xúc người nói trong tiếng nói và các kỹ thuật biến đổi tiếng nói theo thời gian Trong đó, luận văn tập trung nghiên cứu các vấn đề lý thuyết về cảm xúc người nói, và phương pháp xử lý, biến đổi tín hiệu tiếng nói, kỹ thuật phân rã tiếng nói theo thời gian và ứng dụng trong biến đổi cảm xúc người nói Luận văn cũng nghiên cứu đánh giá thực nghiệm một số phương pháp biến đổi cảm xúc người nói trong tiếng nói

4 Những nội dung nghiên cứu chính

Chương 1 Tổng quan về cảm xúc trong tiếng nói và vấn đề biến đổi cảm

xúc trong tiếng nói

- Giới thiệu tổng quan về cảm xúc trong tiếng nói, vấn đề biến đổi cảm xúc trong tiếng nói

- Một số phương pháp biến đổi cảm xúc nói truyền thống như:

+ Phương pháp thay đổi tham số trực tiếp: Trình bày về các tham số đặc

trưng cơ bản của tiếng nói, phương pháp phân tích tiếng nói thành tham số và tái tạo tiếng nói từ tham số, phương pháp thay đổi trực tiếp tham số tiếng nói

để biến đổi thông tin cảm xúc nói

+ Phương pháp thay thế khung tiếng nói HTT: Trình bày về hệ thống

tổng hợp, biến đổi tiếng nói theo ghép nối, phương pháp biến đổi tiếng nói dùng

kỹ thuật thay thế khung dựa trên kỹ thuật ghép nối

+ Phương pháp thay thế khung tiếng nói TD-GMM: Trình bày về hệ

thống tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật phân rã tiếng nói theo thời gian TD và mô hình GMM

Trang 12

+ Phương pháp thay thế khung tiếng nói HTD: Trình bày về hệ thống

tổng hợp, biến đổi tiếng nói sử dụng kết hợp kỹ thuật HTT và TD

Chương 2 Kỹ thuật phân rã tiếng nói theo thời gian và ứng dụng trong

biến đổi cảm xúc trong tiếng nói

- Trình bày cơ sở lý thuyết về kỹ thuật phân rã tiếng nói theo thời gian

- Trình bày phương pháp biến đổi cảm xúc của người nói trong tiếng nói dùng kỹ thuật phân rã tiếng nói theo thời gian

Chương 3 Đánh giá thực nghiệm một số phương pháp biến đổi cảm xúc

trong tiếng nói

- Cơ sở dữ liệu tiếng nói có cảm xúc

- Cài đặt một số phương pháp biến đổi cảm xúc trong tiếng nói trên MATLAB: Phương pháp thay thế khung tiếng nói HTD, GMM; phương pháp dùng kỹ thuật phân rã tiếng nói theo thời gian

- Đánh giá khách quan và chủ quan các phương pháp

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới để phân tích, đánh giá về các phương pháp biến đổi cảm xúc trong tiếng nói

Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm một số phương pháp biến đổi cảm xúc trong tiếng nói

6 Ý nghĩa khoa học của luận văn:

Như đã trình bày trong phần 1, nghiên cứu về cảm xúc trong tiếng nói

và các kỹ thuật biến đổi cảm xúc trong tiếng nói có vai trò quan trọng trong các hệ thống truyền thông đa phương tiện hiện đại Đây không phải vấn đề nghiên cứu mới trên thế giới nhưng còn khá mới mẻ ở Việt Nam Đặc biệt, nghiên cứu về ứng dụng của kỹ thuật phân rã tiếng nói theo thời gian trong bài toán biến đổi cảm xúc trong tiếng nói chưa được nghiên cứu nhiều ở Việt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn

Trang 13

CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ VẤN ĐỀ BIẾN ĐỔI THÔNG TIN

CẢM XÚC NGƯỜI NÓI TRONG TIẾNG NÓI

1.1 Thông tin tiếng nói

Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người

Từ khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp

cơ bản nhất Do tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến nay

Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều mà quan trọng hơn nó đủ thông minh để thay thế con người

Một trong các tiêu chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu được ngôn ngữ tự nhiên của con người trong đó có tiếng nói Tuy nhiên, tiếng nói mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ như thông tin về người nói, thông tin về sắc thái tình cảm khi nói…

1.2 Tín hiệu tiếng nói

Âm thanh là các dao động cơ học lan truyền trong vật chất như các sóng

Âm thanh, giống như nhiều sóng, được đặc trưng bởi tần số, bước sóng, chu

kỳ, biên độ và vận tốc lan truyền (tốc độ âm thanh)

Đối với thính giác của người, âm thanh thường là sự dao động, trong dải tần số từ khoảng 20 Hz - 20 kHz, của các phân tử không khí, và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não

Trang 14

Tiếng nói là loại âm thanh phổ biến nhất trong truyền thông Dải tần tiếng nói trong khoảng 300 Hz - 3400 Hz Tiếng nói bao gồm hai dạng hữu thanh và

vô thanh Âm hữu thanh có đặc tính tuần hoàn còn âm vô thanh tương tự nhiễu

Hình 1.1: Dạng sóng tiếng nói một câu tiếng Việt

Hình 1.2: Tiếng nói hữu thanh

1.3 Quá trình tạo tiếng nói

a Bộ phận cung cấp làn hơi:

Bao gồm hai lá phổi, được sự tác động của các cơ ngực, sườn, cơ hoành cách mô, cơ bụng Làn hơi đưa lên quyết định cường độ của âm thanh

Trang 15

Bộ phận phát thanh vocal cord là thanh đới (dây thanh âm) nằm trong thanh quản:

Do áp lực của làn hơi từ phổi đưa lên, thanh đới - với những độ căng khác nhau và hình dạng khác nhau - mở ra và đóng lại nhanh chậm khác nhau, cắt làn hơi thành những sóng âm có tần số khác nhau, tạo thành những âm thanh

có cao độ khác nhau

Thanh đới ở phụ nữ và trẻ em ngắn và mỏng hơn ở đàn ông, nên giọng

nữ và trẻ em cao hơn giọng đàn ông

b Bộ phận dẫn âm:

Gồm chủ yếu là cuống họng (yết hầu) thông với đường miệng hoặc đường mũi Các chấn động âm thanh do thanh đới tạo ra, được bộ phận dẫn âm gom lại và dẫn ra ngoài theo hai hướng miệng hoặc mũi Cuống họng và miệng chủ yếu đóng vai trò truyền âm

Bộ phận phát âm đóng vai trò như một hộp cộng hưởng âm thanh Nhờ

sự biến đổi của bộ phận phát âm mà âm thanh được cộng hưởng, triệt tiêu ở các tần số khác nhau dẫn tới âm thanh được phát ra nghe khác nhau

Trang 16

Hình 1.3: Cấu trúc cơ quan phát âm

Hình 1.4: Hình dáng cơ quan phát âm thay đổi trong quá trình phát âm

d Biễu diễn bộ phận phát âm:

Có thể biểu diễn cơ quan phát âm bằng một mô hình gần đúng gồm các hình trụ có độ dài bằng nhau nhưng có đường kính khác nhau Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi rất chậm, do đó trong một khoảng thời gian ngắn (trong một âm vị) có thể xem như sự thay đổi

là không đáng kể, nhưng chúng sẽ thay đổi rất lớn từ âm vị này sang âm vị khác

Hình 1.5: Mô hình hóa cơ quan phát âm

Trang 17

Hình 1.6: Biểu diễn mô hình hóa cơ quan phát âm đầy đủ bằng máy tính

1.4 Cơ quan thính giác

Để cảm thụ được tiếng nói, con người sử dụng cơ quan thính giác Cơ quan thính giác con người có thể cảm thụ được các tần số âm thanh trong khoảng 15 Hz - 20.000 Hz Âm thanh với tần số cao hơn được gọi là siêu âm, thấp hơn là hạ âm

Hình 1.7: Mô hình cơ quan thính giác

Trang 18

Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%) Mặc dù dải nghe của con người thông thường từ 20Hz đến 20kHz, độ nhạy âm lớn nhất từ 1kHz đến 4kHz

Khả năng xác định hướng nguồn âm tốt nhưng xác định khoảng cách đến nguồn âm kém

Con người nghe âm thanh theo 24 băng cơ bản, tương ứng với thang tần

số Bark như trong hình 1.8 Trong mỗi băng con, con người không cảm nhận được sự khác biệt

Hình 1.8: Thang tần số Bark

Khả năng cảm thụ của cơ quan thính giác được giới hạn bởi ngưỡng nghe (hình 1.9), cũng như không nghe được âm thanh bị che bởi các mặt nạ trên miền thời gian (hình 1.10) và tần số (hình 1.11)

Hình 1.9: Ngưỡng nghe

Trang 19

Hình 1.10: Mặt nạ thời gian (che âm thanh liền trước và liền sau)

Hình 1.11: Mặt nạ tần số (che âm thanh có tần số khác nhau phát cùng

thời điểm)

1.5 Xử lý tiếng nói

Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ thuật xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu và phát lại cho con người Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ thể Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các

hệ thống viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng các giải thuật mã hóa nén tiếng nói Để xây dựng các ứng dụng nhận dạng tiếng nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói và huấn luyện tiếng nói Để biến đổi tiếng nói, người ta cần xác định các đặc trưng tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói,

Trang 20

cảm xúc, ngữ điệu khi nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này

Hình 1.12: Một số ứng dụng của xử lý tiếng nói

1.6 Thông tin cảm xúc người nói trong tiếng nói

Hầu hết các hệ thống xử lý tiếng nói truyền thông tập trung vào xử lý các thông tin ngôn ngữ để đảm bảo tiếng nói sau xử lý có thể hiểu được [1] Tuy nhiên để các ứng dụng xử lý tiếng nói trong máy tính có thể được áp dụng rộng rãi trong thực tế, các đặc trưng phi ngôn ngữ của tiếng nói cũng đã được quan tâm nghiên cứu trong thời gian gần đây [1-8, 10-11] Một trong những vấn đề quan trọng cần đảm bảo là thông tin về cảm xúc người nói [10-13] Có nhiều yếu tố ảnh hưởng đến cảm xúc người nói trong tiếng nói như hình dạng, cấu trúc cơ quan phát âm (đặc trưng sinh học), thói quen, phương ngữ và cách thức phát âm,

Con người có thể phân biệt được thông tin cảm xúc người nói một cách

dễ dàng do khả năng của cơ quan thính giác, tuy nhiên để máy tính có thể phân biệt thông tin cảm xúc người nói, cảm xúc người nói cần phải được mô hình hóa và việc phân biệt, định danh, biến đổi cần phải được thực hiện thông qua các tham số vector đặc trưng được tính toán từ tín hiệu tiếng nói

Trang 21

Hình 1.13: Người nói khác nhau có cơ quan phát âm và cách phát âm khác nhau dẫn tới tiếng nói khác nhau khi nói với các cảm xúc khác nhau

Hình 1.14: Đặc trưng phổ formant đặc trưng cho cơ quan phát âm

Trang 22

Cảm xúc người nói tồn tại trong cả thông tin ngôn ngữ và phi ngôn ngữ Tuy nhiên, các yếu tố phi ngôn ngữ gần với thông tin về cảm xúc người nói hơn Các yếu tố phi ngôn ngữ bao gồm các đặc tính vật lý của cơ quan phát âm người nói thể hiện bằng các đặc trưng phổ ảnh hưởng mạnh đến cảm xúc người nói Tuy nhiên, các đặc trưng như cao độ hay tần số cơ bản F0 cũng ảnh hưởng nhiều tới cảm xúc người nói trong tiếng nói [2] Hầu hết các phương pháp biến đổi cảm xúc người nói tập trung vào đặc trưng phổ [10-13] Một số phương pháp khác sử dụng các biến đổi thống kê đơn giản như các giá trị kỳ vọng và phương sai của F0 [5] Mức phát âm (DoA) được mô hình hóa bằng sự thay đổi tốc độ nói và các đặc tính phổ động cũng mang các thông tin về cảm xúc nói

Sự quá trơn và dịch chuyển quá chậm trong cả đặc trưng phổ và cao độ sinh ra bởi mô hình thống kê HMM hay GMM có thể ảnh hưởng đến việc tạo ra các mức phát âm DOA phù hợp với các cảm xúc nói

1.7 Biến đổi cảm xúc người nói trong tiếng nói và ứng dụng

Các hệ thống tổng hợp tiếng nói nhân tạo thường chỉ có thể tổng hợp ra tiếng nói của một số giọng nói đã được thu sẵn (thường là với cảm xúc trung tính) và huấn luyện trước cho máy tính Trong nhiều ứng dụng truyền thông đa phương tiện hiện đại, việc biến đổi cảm xúc người nói trong tín hiệu tiếng nói

có vai trò quan trọng

Một số phương pháp biến đổi cảm xúc người nói điển hình được biết đến

là phương pháp thay thế khung [7], phương pháp biến đổi tham số (vector) đặc trưng [5], và phương pháp dùng học máy [10] Một số vector đặc trưng phổ biến nhất là đặc trưng phổ, năng lượng, …

Trang 23

Hình 1.15: Tính toán vector đặc trưng

Một số phương pháp biến đổi tiếng nói truyền thống, phổ biến nhất được trình bày dưới đây

1.7.1 Phương pháp biến đổi thay đổi tham số trực tiếp

Trong phương pháp thay đổi tham số trực tiếp (là phương pháp đơn giản

và cổ điển nhất), tiếng nói sẽ được phân tách thành các khung và tính vector đặc trưng theo các khung sử dụng mô hình phân tích/tổng hợp, nguồn âm/bộ lọc (source/filter) Mô hình nguồn âm/bộ lọc đảm bảo tín hiệu sau khi phân tích thành các tham số có thể tái tạo tín hiệu trở lại từ các tham số đã phân tích Các tham số liên quan đến yếu tố người nói như biên độ, trường độ, cao độ - tần số

cơ bản, hay phổ sẽ được điều chỉnh cho phù hợp

Hình 1.16 Mô hình nguồn âm / bộ lọc

Trang 24

STRAIGHT [5] là công cụ cho phép phân tích/tái tạo tiếng nói theo

mô hình nguồn âm/bộ lọc Đây cũng là bộ công cụ được sử dụng trong nhiều nghiên cứu về xử lý tiếng nói

STRAIGHT được xây dựng trên mô hình nguồn âm/bộ lọc cho phép điều chỉnh một cách linh hoạt các tham số tiếng nói Trong đó các tham số như F0, tốc độ nói, độ dài vocal tract được điều chỉnh mà không có sự suy giảm chất lượng tiếng nói gây ra do quá trình tái tạo tiếng nói từ tham số đã điều chỉnh [5] STRAIGHT gồm 03 thành phần chính:

Bộ phân tích thông tin nguồn: Tần số cơ bản F0 được ước lượng để làm trơn các hài tuần hoàn trong phổ thời gian ngắn sử dụng một bộ lọc thích nghi

Bộ phân tích phổ thời gian – tần số được làm trơn: Sử dụng kỹ thuật đồng

bộ cao độ Pitch-synchronous để ước lượng đường bao phổ được làm trơn Đường bao phổ được ước lượng độc lập với tần số cơ bản F0

Bộ tổng hợp: Bao gồm một bộ kích thích nguồn âm và một bộ lọc số biến đổi theo thời gian, thực hiện tái tạo tín hiệu tiếng nói từ các thành phần F0 và đường bao phổ bằng nhiều bước sử dụng thuật toán biến đổi Fourier nhanh FFT

Bộ thư viện các hàm STRAIGHT viết trên MATLAB có thể tham khảo

từ website cá nhân của tác giả:

http://www.wakayama-u.ac.jp/~kawahara/PSSws/

STRAIGHT được sử dụng để phân tích tiếng nói ra các đặc trưng cao độ (F0), biên độ dạng sóng trên miền thời gian và phổ tiếng nói Qua đó với việc điều chỉnh trực tiếp các tham số trên bằng các hệ số tuyến tính (Kf0, Kt, Ks), chúng ta có thể điều chỉnh độc lập F0, tốc độ nói trên miền thời gian, chiều dài

Trang 25

bộ lọc phát âm trên miền tần số với phương thức giống nhau là nhân với các hệ

số tỷ lệ tuyến tính tương ứng Kf0, Kt, Ks

Thuật toán điều chỉnh trực tiếp tham số được mô tả trong hình 1.17

Hình 1.17: Thuật toán điều chỉnh trực tiếp tham số tiếng nói

1.7.2 Biến đổi cảm xúc người nói dựa vào thay thế khung

Một trong những phương pháp biến đổi thông tin người nói thành công nhất là phương pháp biến đổi cảm xúc người nói lai giữa tổng hợp tiếng nói dùng mô hình Markov ẩn (HMM) và thay thế mẫu / ghép nối HTT được tác giả Yao Qian và cộng sự đề xuất năm 2013 [7]

Trong phương pháp HTT, ở bước thứ nhất tiếng nói tổng hợp bằng mô hình HMM với giọng nguồn Tiếp theo ở bước thứ hai, tiếng nói đã tổng hợp được biến

Điều chỉnh tham số

Tính F0 và tần số đường bao phổ bằng

F0

Ks

Tiếng nói gốc

Tiếng nói đã được điều chỉnh để thay đổi giọng

Trang 26

đổi thành tiếng nói với cảm xúc yêu cầu dựa trên kỹ thuật lựa chọn và thay thế các khung nguồn có độ dài rất ngắn 5ms bằng các khung đích phù hợp

Nếu bỏ qua vấn đề tổng hợp giọng nguồn bằng HMM, bản chất của phương pháp biến đổi giọng người nói HTT là các khung của tiếng nói giọng nguồn được thay thế bằng các khung vật lý giống nhất của giọng đích trong cùng âm vị Mặc dù việc lựa chọn và thay thế mẫu tiếng nói giọng nguồn bằng mẫu tiếng nói giọng đích đã được đề xuất trước đó, hiệu quả biến đổi giọng người nói trong HTT là vượt trội so với các phương pháp thay thế mẫu khác

do việc sử dụng các khung tiếng nói rất ngắn thay thế các mẫu tiếng nói dài như âm vị sẽ tối ưu việc tìm được khung/mẫu tiếng nói đích phù hợp nhất

Các kết quả thực nghiệm cho thấy phương pháp thay thế khung HTT cho chất lượng và hiệu quả biến đổi cảm xúc người nói rất cao [7] HTT đã được thực nghiệm trên tiếng Anh, tiếng Trung và đã đạt thứ hạng cao trong cuộc thi về tổng hợp tiếng nói và chuyển đổi giọng nói quốc tế Blizzard Challenge 2013 [7] Tuy nhiên các phương pháp lựa chọn/thay thế khung như HTT kế thừa tất cả các nhược điểm của tổng hợp ghép nối như đòi hỏi dữ liệu lớn, tốc độ thực thi khó đảm bảo thời gian thực, dữ liệu cần lưu trữ online lớn

Hình 1.18: Lựa chọn khung đích phù hợp và thay thế khung nguồn

Trang 27

1.7.3 Biến đổi thông tin người nói bằng GMM

1.7.3.1 Phân bố Gauss

Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ2)

Phân phối chuẩn chuẩn hóa (standard normal distribution) là phân phối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1 (đường cong màu đỏ trong hình bên phải) Phân phối chuẩn còn được gọi là đường cong chuông (bell curve) vì đồ thị của mật độ xác suất có dạng chuông

Hình 1.19: Hàm mật độ xác suất Gauss (Đường màu đỏ là phân phối chuẩn

Trang 28

Hàm mật độ xác suất của phân phối chuẩn với trung bình µ và phương sai  2 (hay, độ lệch chuẩn ) là một ví dụ của một hàm Gauss,

2 2

2 2

Gaussian như định nghĩa trong công thức 1.2

1.7.3.3 Mô hình hóa cảm xúc người nói bằng mô hình GMM

Một kỹ thuật mô hình hóa cảm xúc người nói được sử dụng phổ biến trong các hệ thống nhận dạng cảm xúc người nói không phụ thuộc từ khóa là

kỹ thuật dùng mô hình GMM [6, 8] Đây là một phương pháp dựa trên thống

kê, mô hình hóa sự biến đổi về mặt thống kê của các vector đặc trưng Do vậy, nó cung cấp sự biểu diễn về mặt thống kê mô hình cảm xúc người nói tạo

ra âm thanh như thế nào

Trang 29

Một hàm mật độ Gausian là tổng có trọng số của các mật độ thành phần biểu diễn như công thức sau:

1

k

i i i

1 1/ 2

/ 2

2 (2 )

T

N i

ma trận hiệp phương sai và các trọng số pha trộn của tất cả các thành phần mật

độ Số lượng các thành phần M cần phải được xác định hoặc bằng các thuật toán phân cụm hoặc bằng kỹ thuật phân đoạn tiếng nói tự động Một mô hình khởi tạo nhận được bằng cách ước lượng các tham số của các vector đặc trưng được phân cụm trong khi các phần của vector trong mỗi cụm có thể xem như các trọng số pha trộn Các giá trị trung bình và hiệp phương sai được ước lượng

từ các vector trong mỗi cụm Sau khi ước lượng, các vector đặc trưng có thể được ước lượng lại sử dụng các mật độ thành phần từ các mô hình pha trộn đã được ước lượng Quá trình này được lặp lại đến khi các tham số của mô hình hội tụ.Thuật toán này được gọi là thuật toán “cực đại hóa kỳ vọng” (Expectation Maximum - EM)

Trang 30

Tiếng nói của giọng đích tương ứng cần biến đổi được trình bày bằng một vector Y y y1 , 2 , ,y n, với 1 2

Trang 31

1.7.3.6 Ưu, nhược điểm của phương pháp

Ưu điểm của phương pháp biến đổi bằng huấn luyện thống kê là chỉ cần một lượng nhỏ dữ liệu đích, có thể biến đổi giọng nguồn tương đối giống giọng đích Tuy nhiên, nhược điểm của phương pháp này là chất lượng kém phương pháp thay thế khung nếu có đủ dữ liệu Ngoài ra, phương pháp này chỉ thích hợp để biến đổi các đặc trưng nhiều chiều như đặc trưng phổ mà không phù hợp để biến đổi các đặc trưng một chiều như F0, biên độ

Ngày đăng: 30/03/2022, 08:37

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Jurafsky, Daniel, and H. James. "Speech and language processing an introduction to natural language processing, computational linguistics, and speech." (2000) Sách, tạp chí
Tiêu đề: Speech and language processing an introduction to natural language processing, computational linguistics, and speech
[2] Akagi, Masato. "Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications." Proceedings: APSIPA ASC 2009 Sách, tạp chí
Tiêu đề: Analysis of Production and Perception Characteristics of Non-linguistic Information in Speech and Its Application to Inter-language Communications
[3] Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach. "Voice transformation using PSOLA technique." Speech Communication 11.2 (1992): 175-187 Sách, tạp chí
Tiêu đề: Voice transformation using PSOLA technique
Tác giả: Valbret, Hélène, Eric Moulines, and Jean-Pierre Tubach. "Voice transformation using PSOLA technique." Speech Communication 11.2
Năm: 1992
[4] Turk, Oytun, and Levent M. Arslan. "Subband based voice conversion."International Conference on Spoken Language Processing. 2002 Sách, tạp chí
Tiêu đề: Subband based voice conversion
[6] Kain, Alexander, and Michael W. Macon. "Spectral voice conversion for text-to-speech synthesis." Acoustics, Speech and Signal Processing, 1998.Proceedings of the 1998 IEEE International Conference on.Vol.1.IEEE, 1998 Sách, tạp chí
Tiêu đề: Spectral voice conversion for text-to-speech synthesis
[7] Qian, Yao, Frank K. Soong, and Zhi-Jie Yan. "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2 (2013): 280-290 Sách, tạp chí
Tiêu đề: A unified trajectory tiling approach to high quality speech rendering
Tác giả: Qian, Yao, Frank K. Soong, and Zhi-Jie Yan. "A unified trajectory tiling approach to high quality speech rendering." Audio, Speech, and Language Processing, IEEE Transactions on 21.2
Năm: 2013
[8] Nguyen, Binh Phu, and Masato Akagi. "Phoneme-based spectral voice conversion using temporal decomposition and Gaussian mixture model." Second IEEE International Conference on Communications and Electronics, ICCE 2008 Sách, tạp chí
Tiêu đề: Phoneme-based spectral voice conversion using temporal decomposition and Gaussian mixture model
[9] Phung, Trung-Nghia, et al. "Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11 (2013): 2417-2426 Sách, tạp chí
Tiêu đề: Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition
Tác giả: Phung, Trung-Nghia, et al. "Improving Naturalness of HMM-Based TTS Trained with Limited Data by Temporal Decomposition." IEICE TRANSACTIONS on Information and Systems 96.11
Năm: 2013
[11] Thi Duyen Ngo, The Duy Bui, (2009), When and how to smile: Emotional expression for 3D conversational agents. Agent Computing and Multi-Agent Systems, volume 5044 of Lecture Notes in Computer Science, chapter 31, pages 349-358. Springer Berlin/Heidelberg, Berlin, Heidelberg Khác
[12] Thi Duyen Ngo, The Duy Bui, (2012), A study on prosody of Vietnamese emotional speech. In Proceedings of the Fourth International Conference on Knowledge and Systems Engineering (KSE 2012), IEEE, pp. 151-155 Khác
[13] Thi Duyen Ngo, Masato Akagi, The Duy Bui, (2014), Toward a Rule-Based Synthesis of Vietnamese Emotional Speech. In Proceedings of the Sixth International Conference on Knowledge and Systems Engineering (KSE 2014), Advances in Intelligent Systems and Computing 326, pp. 129-142, Springer International Publishing Khác
[14] Atal, B. (1983, April). Efficient coding of LPC parameters by temporal decomposition. In ICASSP'83. IEEE International Conference on Acoustics, Speech, and Signal Processing (Vol. 8, pp. 81-84). IEEE Khác
[15] Kim, S. J., & Oh, Y. H. (1999). Efficient quantisation method for LSF parameters based on restricted temporal decomposition. Electronics Letters, 35(12), 962-964 Khác
[16] Nguyen, P. C., Ochi, T., & Akagi, M. (2003). Modified restricted temporal decomposition and its application to low rate speech coding. IEICE TRANSACTIONS on Information and Systems, 86(3), 397-405 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w