1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận biết các phụ âm cuối vô thanh trong tiếng việt sử dụng các tham số giả tần số formant

84 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 84
Dung lượng 2,86 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nguyễn Việt Sơn đã chỉ ra rằng: 1 đối với 3 phụ âm cuối vô thanh /p, t, k/, khi xét trong cùng một ngữ cảnh nguyên âm đứng trước, các đặc tính âm học tĩnh bao gồm độ dài nguyên âm và thờ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Nhận biết các phụ âm cuối vô thanh trong tiếng Việt

sử dụng các tham số giả tần số formant

TRẦN BÌNH NHUNG

Chuyên ngành : K ỹ thuật điều khiển và tự động hóa

Gi ảng viên hướng dẫn: TS Nguyễn Việt Sơn

Vi ện: Điện

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Nhận biết các phụ âm cuối vô thanh trong tiếng Việt

sử dụng các tham số giả tần số formant

TRẦN BÌNH NHUNG

Chuyên ngành : K ỹ thuật điều khiển và tự động hóa

Gi ảng viên hướng dẫn: TS Nguyễn Việt Sơn

Vi ện: Điện

Chữ ký của GVHD

Trang 3

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

Họ và tên tác giả luận văn: Trần Bình Nhung

Đề tài luận văn: Nhận biết các phụ âm cuối vô thanh trong tiếng Việt sử

dụng các tham số giả tần số formant

Chuyên ngành: Kỹ thuật điều khiển và tự động hóa

Mã số HV: CB170283

Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày

31/10/2019 với các nội dung sau:

1 Bổ sung phương pháp xác định vị trí điểm bắt đầu, điểm kết thúc trong việc xác định các tham số âm học tĩnh và âm học động: Trang 50, 51

2 Loại bỏ viền xám xung quanh của các hình vẽ trên Matlab và cải thiện chất lượng hình vẽ: Trang 26, 27, 28, 31

Bổ sung tên trục tọa độ (thời gian, tần số): Trang 40 ÷ 48

3 Trình bày các bảng biểu, hình vẽ cùng nội dung trên cùng một trang

Hà Nội, Ngày 22 tháng 11 năm 2019

Giảng viên hướng dẫn

TS Nguyễn Việt Sơn

Tác giả luận văn

Trần Bình Nhung CHỦ TỊCH HỘI ĐỒNG

PGS TS Nguyễn Quốc Cường

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn có tên “Nhận biết các phụ âm cuối vô thanh trong tiếng Việt sử dụng các tham số giả tần số formant” là công trình nghiên cứu khoa học độc lập của riêng tôi Các số liệu sử dụng phân tích trong luận văn có nguồn gốc rõ ràng, tin cậy và đã công bố theo đúng quy định Kết quả nghiên cứu trong luận văn do tôi tự tìm hiểu, phân tích một cách trung thực, khách quan và phù hợp với thực tiễn của Việt Nam Các kết quả này chưa từng được công bố trong bất kỳ nghiên cứu nào khác

Vậy tôi viết Lời cam đoan này đề nghị Viện Điện, trường Đại học Bách khoa

Hà Nội xem xét để tôi có thể bảo vệ luận văn theo quy định

Tôi xin chân thành cảm ơn!

Hà Nội, ngày 22 tháng 10 năm 2019

Tác giả luận văn

Trần Bình Nhung

Trang 5

MỤC LỤC

LỜI CAM ĐOAN 0

LỜI NÓI ĐẦU 1

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT 4

DANH MỤC CÁC BẢNG 5

DANH MỤC CÁC HÌNH VẼ 6

CHƯƠNG 1 GIỚI THIỆU CHUNG 9

1.1 Tổng quan về một số kết quả nghiên cứu trước đây 9

1.2 Mục tiêu của luận văn 10

1.3 Cấu trúc luận văn 11

CHƯƠNG 2 TỔNG QUAN VỀ MÔ HÌNH HÓA ĐẶC TÍNH ĐỘNG CỦA TIẾNG NÓI 13

2.1 Tổng quan về đặc trưng của tiếng nói 13

2.1.1 Quá trình tạo tiếng nói 13

2.1.2 Các đặc trưng cơ bản của tiếng nói 14

2.2 Phân tích đặc trưng của tiếng nói 16

2.3 Đặc tính tĩnh của tiếng nói 17

2.3.1 Tổng quan về đặc tính MFCC 18

2.3.2 Hạn chế của đặc tính MFCC 21

2.4 Một số nghiên cứu về đặc tính động của tiếng nói 22

2.5 Tính toán mô hình hóa đặc tính động của tiếng nói 25

2.5.1 Tính SSCF theo định nghĩa cơ bản 25

2.5.2 Ảnh hưởng của các bộ lọc băng con lên đặc tính SSCF 27

2.5.3 Thiết kế mới của các bộ lọc băng con trong tính toán SSCF 29

2.6 Kết luận chương 32

Trang 6

CHƯƠNG 3 SỬ DỤNG THAM SỐ SSCF ĐỀ NHẬN BIẾT, PHÂN BIỆT PHỤ

ÂM CUỐI VÔ THANH /P,T,K/ TRONG TIẾNG VIỆT 33

3.1 Cấu trúc âm tiết trong tiếng Việt 33

3.1.1 Đặc trưng của ngôn ngữ tiếng Việt 33

3.1.2 Hệ thống âm vị - âm tiết trong tiếng Việt hiện đại 34

3.2 Cơ sở dữ liệu tiếng Việt sử dụng khi phân biệt phụ âm cuối vô thanh /p,t,k/ 37

3.2.1 Xây dựng cơ sở dữ liệu tiếng Việt 37

3.2.2 So sánh đặc tính SSCF với tần số formant trên cơ sở dữ liệu tiếng Việt 39

3.3 Phân tích đặc tính phụ âm cuối vô thanh /p, t, k/ 49

3.3.1 Phương pháp phân tích 49

3.3.2 Phân tích đặc tính âm học tĩnh 51

3.3.3 Phân tích đặc tính âm học động 65

3.4 Kết luận chương 73

CHƯƠNG 4 KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 75

4.1 Kết quả 75

4.2 Hướng phát triển 77

TÀI LIỆU THAM KHẢO 79

Trang 7

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

C1V Cấu trúc âm tiết Phụ âm đầu - Nguyên âm (Consonant1-Vowel) C1VC2 Cấu trúc âm tiết Phụ âm đầu - Nguyên âm - Phụ âm cuối

(Consonant1-Vowel-Consonant2) DFT Discrete Fourier Transform

F0 Tần số dao động cơ bản của tiếng nói

FFT Fast Fourier Transform

FIR Finite Impulse Response

LPC Linear Predictive Coding

LPCC Linear Prediction Cepstral Coefficients

MFCC Mel-Frequency Cepstral Coefficient

MFCCs Mel-Frequency Cepstral Coefficients

PLP Perceptional Linear Predictive Coefficients

SSCF Spectral Subband Centroid Feature

VC2 Cấu trúc âm tiết Nguyên âm - Phụ âm cuối (Vowel-Consonant2) V1-V2 Chuyển tiếp Nguyên âm – Nguyên âm (Vowel1-Vowel2)

Trang 8

tiếp nguyên âm sang phụ âm cuối vô thanh trong ngữ cảnh C1VC2 đối với giọng nữ 60Bảng 3-8: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển

tiếp nguyên âm sang phụ âm cuối vô thanh trongtrong cả hai ngữ cảnh VC2 và C1VC2 đối với giọng nữ 62Bảng 3-9: Giá trị độ dốc chuyển đổi trung bình (độ) và độ lệch chuẩn (S.d) của các

chuyển tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong ngữ cảnh VC2 đối với giọng nữ 67Bảng 3-10: Giá trị độ dốc chuyển đổi trung bình (độ) và độ lệch chuẩn (S.d) của

các chuyển tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong ngữ cảnh C1VC2 đối với giọng nữ 69Bảng 3-11: Tổng hợp giá trị độ dốc chuyển đổi trung bình (độ) và độ lệch chuẩn

(S.d) của các chuyển tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong hai ngữ cảnh VC2 và C1VC2 đối với giọng nữ 71

Trang 9

DANH MỤC CÁC HÌNH VẼ

Hình 2-1: Mô hình cơ học cơ quan phát âm người [20] 13

Hình 2-2: Dạng sóng tuần hoàn (nguyên âm [a]) và dạng sóng không tuần hoàn (phụ âm [s]) của tiếng Việt 15

Hình 2-3: Sơ đồ khối thuật toán tính tham số MFCC 18

Hình 2-4: Băng lọc theo thang Mel 20

Hình 2-5: Sơ đồ thuật toán tính SSCF [22] 25

Hình 2-6: Hình dạng 6 bộ lọc băng con xếp chồng trong thuật toán tính SSCF [11] 26

Hình 2-7: Trích xuất các tham số SSCF từ tín hiệu tiếng nói theo từng frame [11] 27

Hình 2-8: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển tiếp /a-i/ khi sử dụng 6 bộ lọc băng con xếp chồng [11] 27

Hình 2-9: Hình dạng 5 bộ lọc băng con xếp chồng trong thuật toán tính SSCF [11] 28

Hình 2-10: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển tiếp /a-i/ khi sử dụng 5 bộ lọc băng con xếp chồng [11] 28

Hình 2-11: Xác định bộ lọc băng con với độ dài bằng nhau trên thang tần số Mel: a) 5 bộ lọc băng con xếp chồng, b) 6 bộ lọc băng con xếp chồng [14] 29

Hình 2-12: Phương pháp xác định bộ lọc băng con mới trên thang tần số Mel: a) 5 bộ lọc băng con xếp chồng, b) 6 bộ lọc băng con xếp chồng,

c) bộ lọc băng con mới 30

Hình 2-13: Hình dạng của bộ lọc băng con mới với 6 tam giác xếp chồng trong thuật toán tính SSCF [11] 31

Hình 2-14: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển tiếp /a-i/ khi sử dụng 6 bộ lọc băng con xếp chồng theo thiết kế mới [11] 31

Hình 3-1: Sơ đồ cấu trúc âm tiết tiếng Việt [12] 35

Trang 10

Hình 3-2: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /ap/ của tiếng Việt với: a) giọng nam và b) giọng nữ 40Hình 3-3: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /ip/ của tiếng Việt với: a) giọng nam và b) giọng nữ 41Hình 3-4: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /up/ của tiếng Việt với: a) giọng nam và b) giọng nữ 42Hình 3-5: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /at/ của tiếng Việt với: a) giọng nam và b) giọng nữ 43Hình 3-6: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /it/ của tiếng Việt với: a) giọng nam và b) giọng nữ 44Hình 3-7: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /ut/ của tiếng Việt với: a) giọng nam và b) giọng nữ 45Hình 3-8: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /ak/ của tiếng Việt với: a) giọng nam và b) giọng nữ 46Hình 3-9: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /ik/ của tiếng Việt với: a) giọng nam và b) giọng nữ 47Hình 3-10: So sánh sự tương đồng giữa đặc tính SSCF và tần số formant trong

chuyển tiếp /uk/ của tiếng Việt với: a) giọng nam và b) giọng nữ 48Hình 3-11: Cách xác định điểm chuyển tiếp, độ dài nguyên âm và độ dài phần

chuyển tiếp nguyên âm - phụ âm cuối dựa trên đặc tính SSCF 51Hình 3-12: Độ dài trung bình và độ lệch chuẩn của nguyên âm trong ngữ cảnh âm

tiết VC2 đối với giọng nữ 53Hình 3-13: Độ dài trung bình và độ lệch chuẩn của nguyên âm trong ngữ cảnh âm

tiết C1VC2 đối với giọng nữ 55Hình 3-14: Độ dài trung bình và độ lệch chuẩn của nguyên âm trong hai ngữ cảnh

âm tiết VC2 và C1VC2 đối với giọng nữ 57Hình 3-15: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển

tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong ngữ cảnh âm tiết VC2 đối với giọng nữ 59Hình 3-16: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển

tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong ngữ cảnh âm tiết C1VC2 đối với giọng nữ 61

Trang 11

Hình 3-17: Độ dài chuyển tiếp trung bình (ms) và độ lệch chuẩn của các chuyển

tiếp nguyên âm sang phụ âm cuối vô thanh /p, t, k/ trong hai ngữ cảnh

âm tiết VC2 và C1VC2 đối với giọng nữ 63Hình 3-18: Độ dài tương đối (%) giữa nguyên âm và phần chuyển tiếp nguyên âm

- phụ âm cuối vô thanh /p, t, k/ của các nguyên âm /i/, /e/, /o/ và /ɯ/ trong ngữ cảnh âm tiết (C1)VC2 với giọng nữ 64Hình 3-19: Cách xác định độ dốc chuyển tiếp của đặc tính SSCF trong quá trình

chuyển đổi từ nguyên âm sang phụ âm cuối 66Hình 3-20: So sánh độ dốc chuyển đổi (độ) của các đặc tính SSCF1, SSCF2,

SSCF3 của 3 phụ âm cuối vô thanh /p, t, k/ với cùng một nguyên âm chính là /a/ - (a), /i/ - (b) và /u/ - (c) trong ngữ cảnh âm tiết VC2 đối với giọng nữ 68Hình 3-21: So sánh độ dốc chuyển đổi (độ) của các đặc tính SSCF1, SSCF2,

SSCF3 của 3 phụ âm cuối vô thanh /p, t, k/ với cùng một nguyên âm chính là /a/ - (a), /i/ - (b) và /u/ - (c) trong ngữ cảnh âm tiết C1VC2 đối với giọng nữ 70Hình 3-22: So sánh độ dốc chuyển đổi (độ) của các đặc tính SSCF1, SSCF2,

SSCF3 của 3 phụ âm cuối vô thanh /p, t, k/ với cùng một nguyên âm chính là /a/ - (a), /i/ - (b) và /u/ - (c) trong hai ngữ cảnh âm tiết VC2 và C1VC2 đối với giọng nữ 72

Trang 12

LỜI NÓI ĐẦU

Luận văn được thực hiện ở Viện Nghiên cứu quốc tế MICA, trường Đại học Bách Khoa Hà Nội, do TS Nguyễn Việt Sơn hướng dẫn Em xin chân thành bày

tỏ lòng biết ơn sâu sắc đến TS Nguyễn Việt Sơn - người đã tận tình hướng dẫn, chia sẻ kinh nghiệm và đưa ra những ý kiến đóng góp quý báu cùng sự động viên tinh thần trong suốt quá trình nghiên cứu và thực hiện luận văn

Cũng qua đây, em cũng xin gửi lời cảm ơn chân thành đến ThS Nguyễn Hằng Phương, TS Mạc Đăng Khoa, TS Đỗ Thị Ngọc Diệp và các thầy cô, các thành viên tại Viện Nghiên cứu quốc tế MICA đã tận tình giúp đỡ, hỗ trợ em xây dựng cơ sở dữ liệu để hoàn thành luận văn

Cuối cùng, xin cảm ơn gia đình, bạn bè và đồng nghiệp đã luôn bên cạnh động viên và tạo điều kiện thuận lợi giúp em trong suốt quá trình học tập và hoàn thành luận văn

Do thời gian thực hiện có hạn, kiến thức chuyên môn còn nhiều hạn chế nên luận văn em thực hiện sẽ không tránh khỏi những thiếu sót Em rất mong nhận được những ý kiến đóng góp quý báu của quý thầy cô và các bạn đọc

Em xin chân thành cảm ơn!

Hà Nội, ngày 22 tháng 11 năm 2019

Trần Bình Nhung

Trang 13

CHƯƠNG 1 GIỚI THIỆU CHUNG

1.1 Tổng quan về một số kết quả nghiên cứu trước đây

Từ xưa đến nay, tiếng nói vẫn luôn được biết đến là cách tự nhiên nhất có thể

sử dụng để giao tiếp giữa người với người Hơn thế, với những tiến bộ về kỹ thuật, công nghệ trong lĩnh vực điện tử, khoa học máy tính, tiếng nói cũng dần được đưa vào sử dụng trong các giao tiếp giữa người và máy giúp dễ dàng kiểm soát các ứng dụng phức tạp bằng cách giải phóng đôi tay và tầm quan sát cho các hoạt động khác Trong xu hướng đó, việc phát triển các hệ thống tổng hợp và nhận dạng tiếng nói là một nhu cầu tất yếu vì đây là hai thành phần cơ bản nhất tạo ra các tương tác ngôn ngữ này

Tại Việt Nam, nội dung nghiên cứu về nhận dạng tiếng Việt cũng đã được đề cập đến từ khá sớm Trong các chương trình nghiên cứu khoa học công nghệ, các bài toán liên quan đến vấn đề xử lý tiếng nói tiếng Việt (nhận dạng và tổng hợp tiếng nói) luôn là một trong những nội dung được ưu tiên

Trong nghiên cứu về các phụ âm cuối vô thanh trong tiếng Việt, TS Nguyễn Việt Sơn đã chỉ ra rằng: (1) đối với 3 phụ âm cuối vô thanh /p, t, k/, khi xét trong cùng một ngữ cảnh nguyên âm đứng trước, các đặc tính âm học tĩnh bao gồm độ dài nguyên âm và thời gian chuyển tiếp của các tần số formant F1, F2, F3 tương đối ổn định và không cho phép phân biệt các phụ âm cuối vô thanh; (2) trong tất

cả các ngữ cảnh (C1)VC2, các giá trị đặc tính âm học động (độ nghiêng của tần số formant trong phần chuyển tiếp) cho phép phân biệt và nhận biết các phụ âm cuối

vô thanh /p, t, k/ Kết quả đánh giá thống kê đã chứng minh, trong cùng một ngữ cảnh của nguyên âm trong cấu trúc âm tiết (VC2 hoặc C1VC2), các phụ âm cuối

vô thanh /p, t, k/ có thể được phân biệt bởi độ nghiêng của một trong ba tần số formant F1, F2, F3, trong đó độ nghiêng của tần số formant F2 có độ phân biệt tốt nhất Qua các thí nghiệm về nhận thức (perception test), kết quả cũng cho thấy, bằng cách thay đổi độ dốc chuyển tiếp của các tần số formant F2 và F3, hầu hết người nghe đều có thể nhận ra các phụ âm cuối vô thanh /p, t, k/ trong tổ hợp VC2 [19]

Tuy nhiên, trong tiếng nói tự nhiên, việc đo đạc đặc tính biến đổi tần số formant thường gặp rất nhiều khó khăn, đặc biệt là đối với các phụ âm Vì vậy, một bộ

Trang 14

tham số mới đã được đề xuất sử dụng như các tham số “giả tần số formant” được gọi là tham số SSCF (Spectral Subband Centroid Features)

Nghiên cứu về các đặc tính động của tiếng nói trong tiếng Việt, TS Trần Thị Anh Xuân đã đề xuất mô hình hóa các tính năng giọng nói và âm thanh với cách tiếp cận tương tự với tần số formant trong chuyển tiếp nguyên âm - nguyên âm, được gọi là các tham số SSCF Dựa trên định nghĩa và công thức tính của các tham

số SSCF [7], cô đã xây dựng được thuật toán tính toán các tham số SSCF một cách đơn giản với một vài thay đổi nhỏ liên quan đến bộ lọc băng con Với kết quả tính toán tham số SSCF, một số phân tích trên nguyên âm đã được thực hiện để chỉ ra rằng các tham số SSCF tương tự với các tần số formant, đồng thời vẫn có thể tính toán và biểu diễn trong đoạn chuyển tiếp của các phụ âm Theo đó, các đặc tính SSCF có thể thay thế cho các tần số formant và hoạt động như các tham số “giả tần số formant” Bên cạnh đó, cô cũng đề xuất một phương pháp có thể mô hình hóa âm học và đặc tính động của tiếng nói từ các tham số SSCF (góc SSCF) được

sử dụng để tính toán trong đoạn chuyển tiếp nguyên âm - nguyên âm Nghiên cứu này đã cho thấy việc trích chọn đặc trưng động của âm thanh có thể là một lợi thế lớn cho nhận dạng tiếng nói tự động vì nó cho phép thiết kế một hệ thống nhận dạng tiếng nói độc lập với người nói [22]

Một nghiên cứu khác liên quan đến các tham số SSCF của ThS Nguyễn Hằng Phương cũng đã góp phần khẳng định khả năng thay thế tần số formant bằng các tham số SSCF Đặc biệt, những cải tiến về độ rộng của các bộ lọc băng con trong thuật toán tính SSCF đã mang lại kết quả tốt hơn, các tham số SSCF đã có hình dạng và phạm vi giá trị tương đồng so với tần số formant trong các chuyển tiếp nguyên âm – nguyên âm [11]

1.2 Mục tiêu của luận văn

Với mục đích thử nghiệm, đánh giá việc sử dụng các tham số SSCF với vai trò như các tham số “giả tần số formant” để nhận biết, phân biệt các phụ âm cuối vô thanh /p, t, k/ trong tiếng Việt, luận văn sẽ thực hiện ba mục tiêu chính:

Đầu tiên, luận văn sẽ xây dựng một bộ cơ sở dữ liệu tiếng nói tiếng Việt dựa trên các thống kê về khả năng tổ hợp của 13 nguyên âm tiếng Việt với các phụ âm cuối vô thanh /p, t, k/ trong các ngữ cảnh khác nhau của cấu trúc âm tiết tiếng Việt

Trang 15

(C1)VC2 Từ đó tính toán các tham số “giả tần số formant” (SSCF) với 3 phụ âm cuối vô thanh /p, t, k/ trên cơ sở dữ liệu thu được để đưa ra những đánh giá về khả năng thay thế tần số formant của các tham số SSCF trong các chuyển tiếp nguyên

âm - phụ âm cuối vô thanh

Thứ hai, để xác định vai trò của các phụ âm cuối vô thanh /p, t, k/ trong quá trình phối hợp với các nguyên âm chính trong cấu trúc âm tiết tiếng Việt, luận văn thực hiện tính toán, phân tích các đặc tính âm học tĩnh bao gồm độ dài nguyên âm chính và thời gian chuyển tiếp từ nguyên âm chính sang các phụ âm cuối

Cuối cùng, để đánh giá việc sử dụng các tham số SSCF trong việc nhận biết các phụ âm cuối vô thanh /p, t, k/, luận văn sẽ thực hiện phân tích các đặc tính âm học động của âm tiết tiếng Việt bằng việc tính toán và so sánh độ dốc chuyển đổi của đặc tính SSCF từ nguyên âm sang phụ âm cuối vô thanh trong ngữ cảnh âm tiết (C1)VC2

1.3 Cấu trúc luận văn

Luận văn được thực hiện bao gồm bốn chương

Chương 1 là cái nhìn bao quát về một số công trình nghiên cứu có liên quan đến lĩnh vực nhận dạng tiếng nói trong tiếng Việt, tạo tiền đề và cơ sở khoa học cho việc nghiên cứu thử nghiệm, đánh giá việc sử dụng tham số SSCF để nhận biết, phân biệt các phụ âm cuối vô thanh /p, t, k/ trong tiếng Việt

Chương 2 đưa ra những nghiên cứu khái quát về một số đặc trưng cơ bản của tiếng nói và phương pháp mô hình hóa đặc tính động của tiếng nói Những vấn đề chung nhất của tiếng nói từ quá trình tạo ra tiếng nói, những đặc trưng âm thanh

cơ bản của tiếng nói cho đến những phân tích, tính toán mô hình đặc tính tĩnh và đặc tính động của tiếng nói sẽ được nêu chi tiết trong chương này

Chương 3 trình bày ba nội dung cơ bản liên quan đến việc sử dụng các tham số SSCF đối với dữ liệu tiếng Việt để thử nghiệm khả năng nhận biết, phân biệt các phụ âm cuối vô thanh /p, t, k/ trong tiếng Việt qua các tham số “giả tần số formant” Một cơ sở dữ liệu tiếng Việt dựa trên các thống kê về khả năng tổ hợp của 13 nguyên âm với 3 phụ âm cuối vô thanh /p, t, k/ được xây dựng để tính toán các tham số SSCF với phụ âm cuối vô thanh và kiểm chứng, đánh giá sự tương đồng của các tham số SSCF với tần số formant trên cơ sở dữ liệu tiếng Việt Tiếp theo

Trang 16

là các phân tích, tính toán đặc tính âm học tĩnh của âm tiết bao gồm độ dài nguyên

âm chính và thời gian chuyển tiếp nguyên âm - phụ âm cuối Và nội dung cuối cùng là phân tích các đặc tính âm học động của âm tiết tiếng Việt bằng việc tính toán và so sánh độ dốc chuyển đổi của đặc tính SSCF từ nguyên âm sang phụ âm cuối vô thanh, từ đó đánh giá việc sử dụng các tham số SSCF trong việc nhận biết các phụ âm cuối vô thanh /p, t, k/

Toàn bộ kết quả nghiên cứu của luận văn sẽ được tổng hợp ngắn gọn trong chương 4 Từ những phân tích về kết quả đạt được và những hạn chế, luận văn sẽ

đề xuất một số nội dung nghiên cứu có thể phát triển trong tương lai

Trang 17

CHƯƠNG 2 TỔNG QUAN VỀ MÔ HÌNH HÓA ĐẶC TÍNH ĐỘNG

CỦA TIẾNG NÓI

2.1 Tổng quan về đặc trưng của tiếng nói

2.1.1 Quá trình tạo tiếng nói

Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo ra tiếng nói của con người Không khí bị ép từ phổi lên đi qua các dây thanh âm dao động (theo sự điều khiển của não bộ) và đi dọc theo cơ quan phát âm sẽ tạo ra tiếng nói Bên cạnh sự dao động của các dây thanh âm, tiếng nói tạo ra còn phụ thuộc vào sự thay đổi hình dáng của cơ quan phát âm bao gồm: vòm họng, lưỡi, miệng và khoang mũi Trong quá trình phát âm người ta thấy rằng hình dáng cơ quan phát âm thay đổi chậm, vì vậy trong một khoảng thời gian ngắn 10-30 ms, sự thay đổi hình dạng này là không đáng kể Khi đó ta có thể biểu diễn

cơ quan phát âm bằng một hệ thống tuyến tính bất biến theo thời gian Điều đó có nghĩa là trong khoảng thời gian phát âm một âm vị, các tham số đặc trưng của hệ thống phát âm sẽ gần như không thay đổi và chúng sẽ thay đổi rất lớn khi chuyển

từ âm vị này sang âm vị khác

Hình 2-1: Mô hình cơ học cơ quan phát âm người [20]

Tiếng nói con người tạo ra được chia làm hai loại âm: âm hữu thanh và âm vô thanh Những rung động đều đặn của dây thanh âm sẽ tạo ra âm thanh bán tuần hoàn mà hầu như lặp lại cùng chu kỳ được gọi là âm hữu thanh Vùng âm hữu thanh chiếm thành phần chủ yếu của tín hiệu tiếng nói, chứa đựng năng lượng, mang nhiều thông tin nhất và chiếm thời gian lớn nhất trong quá trình nói Phần tín hiệu có dạng giống như tạp âm nhiễu có biên độ ngẫu nhiên được gọi là âm vô

Trang 18

thanh Âm vô thanh được tạo ra do sự co thắt, thay đổi đột ngột hình dạng của tuyến âm và luồng khí không đồng đều chạy qua dây thanh âm với tốc độ lớn tạo nên nhiễu loạn Năng lượng do nguồn nhiễu loạn tạo ra sẽ kích thích tuyến âm tạo nên âm vô thanh, và năng lượng của âm vô thanh thường nhỏ hơn so với âm hữu thanh

2.1.2 Các đặc trưng cơ bản của tiếng nói

Trang 19

a)

b)

Hình 2-2: Dạng sóng tuần hoàn (nguyên âm [a]) và dạng sóng không tuần

hoàn (phụ âm [s]) của tiếng Việt

và trẻ em Tần số càng lớn âm thanh phát ra càng cao Cao độ thường được đo theo

tỉ lệ, ví dụ như tần số dao động của thanh quản trong quá trình sinh âm, có thể được

đo trực tiếp từ dạng sóng tiếng nói

“Cường độ - trị số chỉ năng lượng sóng âm đạt được, đo bằng decibel Cường

độ tương quan với đại lượng về mặt cảm thụ là độ vang (loudness)” [15]

Cường độ của âm thanh không ảnh hưởng đến những đặc điểm về phẩm chất, tức là về âm sắc của nguyên âm Cường độ của nguyên âm tùy thuộc trước hết vào mức độ to nhỏ của toàn câu nói, ngoài ra cũng tùy thuộc vào vị trí của nguyên âm đối với trọng âm từ và trọng âm câu Nếu trọng âm là trọng âm lực thì nguyên âm

có trọng âm sẽ mạnh hơn nguyên âm không có trọng âm, và ngược lại Ngoài ra, cường độ của nguyên âm còn gắn liền với phẩm chất của nó; chẳng hạn các nguyên

âm hẹp thường yếu hơn nguyên âm rộng Cường độ không phải bất biến trong suốt thời gian phát âm nguyên âm, nhưng phần nhiều sự thay đổi cường độ lệ thuộc vào

Trang 20

những điều kiện nhất định như vị trí của nguyên âm so với trọng âm, sự tiếp cận với các loại phụ âm khác nhau… Song cũng có những ngôn ngữ trong đó sự thay đổi về cường độ ở bên trong nguyên âm có một tính chất độc lập

Nghiên cứu cường độ là một công việc không đơn giản nhưng có thể thực hiện bằng những phương pháp ngữ âm học thực nghiệm Trên quan điểm ngữ âm học chỉ cần khảo sát cường độ tương đối Nghiên cứu cường độ tương đối là xác định xem nguyên âm nào trong từ mạnh hơn nguyên âm nào yếu hơn

2.1.2.3 Trường độ

Trường độ là độ dài của âm thanh hay nói cách khác là thời gian diễn ra dao động sóng âm từ lúc bắt đầu đến khi kết thúc tạo nên sự tương phản giữa các bộ phận của lời nói Nó là yếu tố tạo nên sự đối lập giữa nguyên âm này với nguyên

âm khác trong một số ngôn ngữ

Đơn vị đo trường độ tính bằng mili giây (ms) Không có quy luật chung về trường độ tất yếu cho mọi ngôn ngữ Quy luật duy nhất có thể được xem là phổ biến đó là trường độ của nguyên âm phụ thuộc vào nhịp điệu nói Đối với mỗi ngôn ngữ trường độ trung bình của một nguyên âm ở một vị trí nhất định là một đại lượng tương đối cố định Trường độ thường phụ thuộc vào những điều kiện ngữ

âm, hay nói cách khác là phụ thuộc vào vị trí ngữ âm Trường độ trong âm tiết khép và trong âm tiết mở nhiều khi khác nhau, nó cũng có thể phụ thuộc vào tính chất của phụ âm đi sau (hữu thanh hay vô thanh), vào số lượng phụ âm đi sau, vào

vị trí của trọng âm và vào số âm tiết có trong từ Ngoài ra, trường độ của nguyên

âm cũng phụ thuộc một phần vào phẩm chất của nó

2.2 Phân tích đặc trưng của tiếng nói

Tín hiệu tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau

Do vậy, việc xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Các nghiên cứu về nhận dạng tiếng nói đã chỉ ra rằng tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc trưng của tiếng nói từ

Trang 21

những khoảng thời gian ngắn và dùng các đặc trưng này làm dữ liệu hữu ích trong quá trình nhận dạng tiếng nói [11]

Nếu xét trong thời gian dài thì tín hiệu tiếng nói là một tín hiệu ngẫu nhiên, nhưng trong một khoảng thời gian đủ ngắn 10 – 30ms thì tín hiệu tiếng nói có thể được coi là tín hiệu ổn định (về năng lượng, tần số ) Do vậy, trong các hệ thống phân tích âm thanh, tín hiệu tiếng nói sẽ được phân tích, tính toán trong các khung thời gian (Frame) có độ dài giống nhau từ 10 - 30ms

Năng lượng thời gian ngắn của tiếng nói được tính bằng cách gán tín hiệu tiếng nói vào trong các frame có N mẫu Sau đó, năng lượng thời gian ngắn sẽ được tính theo công thức:

𝐸𝑚 = ∑ [𝑥(𝑛)𝑊(𝑛 − 𝑚)]2

𝑛+𝑁+1 𝑛=𝑚

2.3 Đặc tính tĩnh của tiếng nói

Năm 1952, hai nhà khoa học Gordon E.Peterson và Harold L.Barney đã công

bố nghiên cứu của họ về phương pháp điều khiển được sử dụng trong một nghiên cứu về các nguyên âm [10] Đây là một bài viết mang tính bước ngoặt, trong đó các nguyên âm có thể được đặc trưng bởi 2 hoặc 3 tần số formant đầu tiên Chúng

có thể được biểu diễn trong mặt phẳng tần số F1 - F2 bằng một dấu chấm Fant cũng đã đưa ra một nghiên cứu ngữ âm ban đầu về dữ liệu quang phổ dựa trên đặc trưng vị trí, cách thức và phân bố thời gian của các thành phần mang thông tin hữu ích [4] Các đặc trưng đó chính là đặc tính tĩnh của tín hiệu tiếng nói

Cho đến nay, có rất nhiều phương pháp khác nhau để thực hiện trích chọn đặc trưng mà có thể làm nổi bật lên các cách biểu diễn khác nhau của tín hiệu tiếng

Trang 22

nói Những đặc trưng này có thể là các đặc tính tĩnh quan trọng Đó là bởi vì những đặc trưng này hầu hết được trích xuất từ phổ tín hiệu, tại đó nguồn tạo tiếng nói của con người sẽ điều khiển phổ của tín hiệu và tai người sẽ đóng vai trò như cơ quan phân tích phổ Một vài đặc tính tĩnh có thể kể đến như: Cường độ, mã hóa dự đoán tuyến tính (LPC - Linear Predictive Coding), các hệ số dự đoán tuyến tính cảm nhận (PLP - Perceptional Linear Predictive Coefficients), các hệ số phổ trung tâm theo thang tần số Mel (MFCCs - Mel-Frequency Cepstral Coefficients), các

hệ số phổ trung tâm dự đoán tuyến tính (LPCC - Linear Prediction Cepstral Coefficients), các đặc trưng sóng cơ bản (Wavelet Based Features) và các đặc trưng hệ số ma trận không âm (Non-Negative Matrix Factorization features) Trong số những đặc tính đó, MFCC là phương pháp trích chọn đặc trưng phổ biến nhất được sử dụng trong các hệ thống nhận dạng tiếng nói

Hình 2-3: Sơ đồ khối thuật toán tính tham số MFCC

Để trích xuất một vector đặc trưng bao gồm tất cả các thông tin về thông điệp ngôn ngữ, MFCC sẽ sao chép một vài phần về quá trình tạo ra tiếng nói và sự cảm nhận tiếng nói của con người trong các dải tần số khác nhau Với tần số thấp (dưới 100Hz), cảm nhận của tai người là tuyến tính nhưng với tần số cao thì nó biến thiên theo hàm Logarit Do vậy, bộ lọc mà tuyến tính với tần số thấp và biến thiên theo hàm Logarit với tần số cao sẽ được sử dụng để lọc các đặc trưng âm học quan trọng

Trang 23

của tiếng nói [1] [3] MFCC cũng sẽ mô phỏng nhận biết Logarit về cao độ và cường độ âm của hệ thống thính giác con người và cố gắng loại bỏ các đặc tính phụ thuộc người nói bằng cách loại trừ tần số cơ bản và các thành phần sóng hài của chúng

Tín hiệu tiếng nói đã được số hóa s(n) được đưa vào hệ thống số bậc thấp (điển hình là bộ lọc FIR bậc 1) để san bằng phổ tín hiệu và giảm thiểu sự ảnh hưởng không tốt của chúng đến độ chính xác hữu hạn, gây ảnh hưởng về sau trong quá trình xử lý tín hiệu Hệ thống xử lý tín hiệu số được sử dụng trong khâu tiền xử lý như một yếu tố cố định hay đáp ứng chậm (ví dụ như để tính giá trị trung bình các điều kiện chuyển đổi, nhiễu nền hay thậm chí là phổ tín hiệu trung bình) Có lẽ hệ thống tiền xử lý được sử dụng rộng rãi nhất chính là hệ thống bậc 1 được mô tả như sau:

𝐻(𝑧) = 1 − 𝑎 𝑧−1 với 0.9 ≤ 𝑎 ≤ 1.0 (2.3)

Khi đó, đầu ra s ̃(n) của khâu tiền xử lý sẽ có quan hệ với đầu vào s(n) theo phương trình:

Giá trị của a thường nằm xung quanh 0.97

Tiếp theo, tín hiệu s ̃(n) được chia vào các frame có N mẫu với các frame lân cận được tách biệt bởi M mẫu Frame đầu tiên bao gồm N mẫu tín hiệu tiếng nói đầu tiên; frame thứ hai bắt đầu với M mẫu sau mẫu đầu tiên, và lặp lại bởi (N-M) mẫu Tương tự như vậy, frame thứ ba bắt đầu với 2M mẫu sau frame đầu tiên (hoặc

M mẫu sau frame thứ hai) và xếp chồng với (N-2M) mẫu Tiến trình này tiếp tục cho đến khi toàn bộ tiếng nói được tính toán bởi 1 hoặc nhiều frame

Bước tiếp theo là lấy hàm cửa sổ đối với mỗi frame riêng lẻ để giảm thiểu nhất

sự không liên tục của tín hiệu ở điểm bắt đầu và điểm kết thúc của mỗi frame Nếu

ta định nghĩa hàm của sổ là w(n), 0 ≤ n ≤ N-1, thì kết quả của việc tính hàm của sổ

Trang 24

X(k) = ∑ x(n) 𝑒−j2πN nk

𝑁−1 𝑘=0

Sau đó, tín hiệu được đưa vào băng lọc (filter bank) theo thang Mel Như ta đã biết, tai người phân biệt được các tần số không tuyến tính thông qua phổ âm thanh Băng lọc là một phép biến đổi Fourier đơn giản dựa trên cơ sở các băng lọc được thiết kế để tạo ra độ phân giải bằng nhau một cách ước lượng trên thang Mel Hình 2-4 mô tả định dạng chung của băng lọc này

Hình 2-4: Băng lọc theo thang Mel

Có thể thấy các băng lọc sử dụng là dạng tam giác, chúng có khoảng cách bằng nhau trong thang Mel với công thức chuyển đổi từ thang tần số Hz sang thang tần

số Mel được định nghĩa như sau:

𝑀𝑒𝑙(𝑓) = 2595 𝑙𝑜𝑔10(1 + 𝑓

Về cơ bản, các bộ lọc tam giác được trải rộng qua dải tần số từ 0 đến tần số Nyquist Tuy nhiên giới hạn băng thông (từ LOFREQ đến HIFREQ) thường hữu

Trang 25

ích để loại bỏ các thành phần tần số không mong muốn hoặc lọc các thành phần được định trước trong vùng tần số mà ở đó có năng lượng tín hiệu không hữu ích Một ví dụ là LOFREQ = 300Hz và HiFREQ = 3400Hz có thể được sử dụng để xử

lý tín hiệu tiếng nói thoại

Biểu diễn phổ trung tâm (cepstral) của phổ tiếng nói sẽ mang lại sự minh họa tốt nhất về các đặc trưng phổ địa phương của tín hiệu để phục vụ cho phân tích frame Một cải tiến trong cách biểu diễn phổ trung tâm có thể thực hiện bằng cách

mở rộng việc phân tích để bao gồm cả những thông tin về đạo hàm của phổ trung tâm theo thời gian Công thức tính được biểu diễn như sau:

∆𝐶̂ =𝑖 ∑ θ(ĉ − ci+θ ̂i−θ

𝑄 𝜃=1

2 ∑𝑄 𝜃2 𝜃=1

và C1 có một diễn giải phù hợp là để chỉ sự cân bằng năng lượng của toàn bộ các thành phần tần số cao và thấp (dải tần thấp được hiệu chỉnh bù dương trong nửa đầu tiên của chu kỳ cosin đơn và ngược lại với nửa chu kỳ tiếp theo) Các hệ số phổ trung tâm khác thì không có diễn giải nào phù hợp ngoài việc chúng mang thông tin chi tiết về phổ tín hiệu để phân biệt các âm thanh Bởi vì việc thiếu diễn

Trang 26

giải này nên tác động không mong muốn của các đặc tính MFCC đến nhiễu là chưa thể xác định được Do vậy, sự phân bố vector đặc tính đối với mỗi người nói cần phải được tổng hợp để mang lại các giá trị có lợi lớn hơn và có thể làm giảm khả năng phân tách của các lớp [14]

Một trong số những vấn đề cơ bản đối với các đặc trưng của phổ trung tâm là chúng rất nhạy cảm với sự biến dạng của nhiễu Việc thêm nhiễu trắng vào tín hiệu tiếng nói sẽ ảnh hưởng đến phổ công suất của tiếng nói đối với tất cả các thành phần tần số, nhưng ảnh hưởng này lại ít đáng chú ý hơn đối với tần số cao (formant) của phổ (nghĩa là tỷ lệ tín hiệu trên nhiễu sẽ lớn hơn ở các vùng tần số formant so với những vùng không phải là tần số formant) Do các đặc trưng của phổ trung tâm

sử dụng tần số formant tốt hơn so với những vùng không phải tần số formant của phổ công suất nên quá trình tính toán đặc trưng của phổ trung tâm trở nên rất nhạy cảm đối với nhiễu trắng được thêm vào [7]

Cuối cùng, các hệ số phổ trung tâm áp dụng một trọng số giống nhau đối với cả biên độ cao và thấp của phổ log cho dù biết rằng biên độ năng lượng cao có thể chi phối được việc cảm nhận tiếng nói Trọng số giống nhau này sẽ làm giảm độ tin cậy của các hệ số phổ trung tâm bởi vì nhiễu sẽ điền đầy những vùng lõm giữa các formant và thành phần sóng hài, đồng thời cũng làm suy giảm chất lượng của các

hệ số MFCC [2]

2.4 Một số nghiên cứu về đặc tính động của tiếng nói

Một thách thức lớn đặt ra đối với các nhà nghiên cứu tiếng nói là cần phải tìm

ra một cách thức mới để trích chọn đặc trưng của tiếng nói, khắc phục những hạn chế của mô hình tĩnh

Người ta đã chứng minh được rằng tiếng nói tự nhiên không chỉ là một chuỗi đơn giản của các phân đoạn (segment) có trạng thái ổn định, mà hơn thế nó còn là một tiến trình động bởi vì quá trình tạo ra tiếng nói là một quá trình chuyển động liên tục theo thời gian của một hoặc nhiều bộ phận cấu âm trong bộ máy phát âm của con người Tiếng nói được xem như một chuỗi các vị trí, sự kiện rời rạc của

bộ máy phát âm, các phân đoạn dạng sóng và các âm vị [9] Do đó, có một số nghiên cứu đã đưa đặc tính động của tiếng nói vào trong các ứng dụng thực tế Tuy nhiên, những khái niệm về đặc tính động này vẫn chủ yếu được xem như các yếu

Trang 27

tố bổ sung cho các tham số tĩnh, chúng được xem như là những dẫn xuất được sinh

ra từ các tham số tĩnh Vai trò của đặc tính động này chủ yếu là để củng cố hoặc

hỗ trợ cho các phương pháp xử lý mà vẫn dựa trên nền tảng là các tham số tĩnh [22] Do vậy, nghiên cứu về bản chất động của tiếng nói là một hướng đi mới và rất tiềm năng trong lĩnh vực nhận dạng tiếng nói

Trong nghiên cứu của Strange năm 1989, một loạt các thí nghiệm đã chứng minh thành công rằng người nghe có thể nhận biết được các nguyên âm với độ chính xác cao mặc dù vị trí trung tâm của kích thích C1VC2 (phụ âm đầu - nguyên

âm - phụ âm cuối) đã bị xóa bỏ, chỉ còn lại 3 chu kỳ đầu và 4 chu kỳ cuối của phân đoạn nguyên âm Nói cách khác, việc nhận biết nguyên âm có thể thực hiện được trên các khoảng lặng giữa các âm tiết (silent - center) - đó là những khoảng lặng không có giá trị tần số formant của âm tiết (thiếu thông tin) nhưng vẫn có chứa các phần đầu cuối của chuyển đổi formant với các âm tiết bên cạnh Việc nhận biết nguyên âm trong chuỗi C1VC2 được dựa trên nhiều hơn chỉ là thông tin chứa trong một lát quang phổ đơn được lấy mẫu gần điểm giữa của vùng xác định trong phân đoạn nguyên âm Thay vào đó, thông tin liên quan được phân bố trên toàn bộ nguyên âm và nó bao gồm cả các biến thời gian tần số formant Strange cho rằng

“các nguyên âm được hình thành như những cử chỉ đặc trưng mang theo các tham

số thời gian nội tại Các sự kiện khớp nối động này tạo ra một mô hình âm thanh trong đó các hệ phổ - thời gian thay đổi sẽ cung cấp thông tin đầy đủ để xác định

rõ ràng các nguyên âm cần xác định” [22]

Tiếng nói mang trạng thái tức thời và những biến đổi mang tính động của nó có thể mang đến những thông tin hữu ích cho việc nhận dạng tiếng nói Phương pháp tiếp cận đặc tính động này đã xuất hiện trong xử lý tín hiệu tiếng nói từ những ngày đầu, nhưng rất nhiều nhà nghiên cứu đã bỏ qua trong các hệ thống nhận dạng tiếng nói tự động Kết quả nghiên cứu của Gay năm 1978 đã xác nhận rằng với những tốc độ nói khác nhau và với sự suy giảm của nguyên âm (cụ thể là giảm khoảng thời gian tồn tại của nguyên âm) và giảm thời gian chuyển tiếp đối với mỗi tốc độ

là tương đối ổn định với các nguyên âm khác nhau Nếu thời gian chuyển tiếp là bất biến trong toàn bộ tập các C1V với phụ âm đầu C1 không đổi và nguyên âm cuối V thay đổi, thì theo đó tốc độ chuyển tiếp sẽ phụ thuộc vào nguyên âm được tạo ra Vào mỗi thời điểm bắt đầu của chuyển tiếp và trong suốt quá trình chuyển

Trang 28

tiếp sẽ có đủ thông tin để nhận biết nguyên âm được tạo ra Nếu sự cảm nhận theo

âm thanh dựa trên độ dài của âm tiết, dựa trên hướng chuyển tiếp và tốc độ chuyển tiếp thì những kết quả này có thể giải thích cho những kết quả nghiên cứu trên của Strange

Theo đó, René Carré và các cộng sự đã một lần nữa chứng minh và phát triển những nhận định trên đối với các kết quả thực nghiệm cho tiếng Pháp Carré và Mrayati (1991) đã phân tích các quỹ đạo trong không gian formant của chuyển đổi nguyên âm - nguyên âm Kết quả nghiên cứu đối với tiếng nói tự nhiên đã cho thấy quỹ đạo nguyên âm - nguyên âm trong mặt phẳng tần số F1- F2 gần như là một đường thẳng [22] Các nghiên cứu sau của Carré cũng đã đề xuất rằng đặc tính động có thể được đặc trưng bởi hướng và tốc độ của các chuyển tiếp nguyên âm Các nguyên âm có thể được nhận biết ngay bởi điểm bắt đầu động từ khi bắt đầu quá trình chuyển tiếp Giả thuyết này của Carré đã được ông nghiên cứu dựa trên

cơ sở dữ liệu bằng tiếng Pháp [13] và nó đã được thử nghiệm trên cơ sở dữ liệu tiếng Việt trong nghiên cứu của TS Nguyễn Việt Sơn [19]

Trong nghiên cứu của mình về mô hình hóa đặc tính động của tiếng nói, TS Trần Thị Anh Xuân đã tập trung vào mô hình hóa những đặc tính âm thanh mới trong chuyển tiếp nguyên âm - nguyên âm và áp dụng cho hệ thống nhận dạng giọng nói tiếng Việt Theo nghiên cứu của cô, các tham số SSCF (Spectral Subband Centroid Features) có thể thay thế cho các formant và có thể hoạt động như là các tham số “giả tần số formant” ngay cả với phụ âm Đó là do các tham số SSCF đã được chứng minh là tương tự với các tần số formant, nhưng hơn thế, chúng còn liên tục ngay cả trong khoảng thời gian của phụ âm Bên cạnh đó, cô cũng đề xuất phương pháp mô hình hóa âm học và đặc tính động của tiếng nói từ các tham số SSCF, đó là các góc SSCF (SSCF angle) Các góc SSCF được sử dụng để tính toán chuyển tiếp nguyên âm - nguyên âm Kết quả nghiên cứu cho thấy các góc SSCF

ít nhiều cũng có giá trị giống nhau đối với người nói là nam và nữ trong cùng một chuỗi chuyển tiếp V1-V2 và chúng tương đối bất biến đối với tốc độ nói (tốc độ nói nhanh hoặc trung bình) Nghiên cứu này đã cho thấy việc trích chọn đặc trưng động của tiếng nói có thể là một lợi thế lớn cho nhận dạng tiếng nói tự động vì nó cho phép thiết kế một hệ thống nhận dạng tiếng nói độc lập với người nói

Trang 29

2.5 Tính toán mô hình hóa đặc tính động của tiếng nói

2.5.1 Tính SSCF theo định nghĩa cơ bản

Đặc tính SSCF được đề xuất lần đầu tiên bởi Paliwal năm 1998 SSCF được đánh giá như là các tham số “giả tần số formant” bởi vì chúng có các thuộc tính tương tự như các tần số formant [7] Hơn nữa, Các tham số SSCF là các tham số liên tục trong miền thời gian ngay cả đối với các phụ âm Sơ đồ thuật toán tính toán các tham số SSCF được mô tả như Hình 2-5

Hình 2-5: Sơ đồ thuật toán tính SSCF [22]

Theo lý thuyết được giới thiệu trong [7], quy trình tính toán SSCF bao gồm hai bước cơ bản Bước đầu tiên, một dải tần số (từ 0 đến Fs/2, trong đó Fs là tần số lấy mẫu tính bằng Hz) được chia thành các băng con số cố định M Mỗi băng con có giới hạn thấp hơn và cao hơn hình dạng bộ lọc Số lượng bộ lọc băng con phụ thuộc vào mục đích nghiên cứu và kích thước của bộ tham số SSCF bằng với số lượng bộ lọc băng con Bước thứ hai là tính toán trọng tâm (centroid) cho mỗi băng con sử dụng phổ công suất của tín hiệu tiếng nói Mỗi trọng tâm có tần số và cường

độ của nó Tần số trung tâm của phổ băng con thứ m là SSCFm được tính theo công thức sau:

Trang 30

Mục tiêu ban đầu của luận án là đạt được 6 tham số SSCF (SSCF0 ÷ SSCF5)

có khả năng biểu diễn đặc tính của tín hiệu tiếng nói tương tự như 6 tần số formant (F0 ÷ F5) Với mục tiêu sử dụng các tham số SSCF để thay thế cho tần số formant giống như các tham số “giả tần số formant”, số bộ lọc băng con sẽ được sử dụng

là 6 băng con (M = 6) Băng lọc được thiết kế bằng cách chia đều thành 6 băng con

có độ dài bằng nhau theo thang tần số Mel, sau đó chuyển đổi sang miền tần số

Đề xuất sử dụng một bộ lọc hình tam giác cho mỗi băng con Do đó các băng con

sẽ xếp chồng lên nhau Hình dạng của 6 bộ lọc tam giác được thể hiện như trên Hình 2-6 Việc trích xuất các tham số SSCF của hai khung tín hiệu tiếng nói liên tiếp được mô tả như trên Hình 2-7

Hình 2-6: Hình dạng 6 bộ lọc băng con xếp chồng trong thuật toán tính SSCF

[11]

Trang 31

Hình 2-7: Trích xuất các tham số SSCF từ tín hiệu tiếng nói theo từng frame [11]

2.5.2 Ảnh hưởng của các bộ lọc băng con lên đặc tính SSCF

Trong luận văn thạc sỹ của mình, ThS Nguyễn Hằng Phương đã kiểm tra lại tính chính xác của các tham số SSCF được tạo ra theo định nghĩa cơ bản trên cơ

sở dữ liệu thu âm bằng tiếng Pháp [11] Kết quả nghiên cứu đã chứng minh rằng định nghĩa cơ bản về các đặc tính SSCF là chưa thực sự phù hợp và một thiết kế mới cho các bộ lọc băng con là thực sự cần thiết với mục tiêu sử dụng tham số SSCF để thay thế cho tần số formant

Hình 2-8: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển

tiếp /a-i/ khi sử dụng 6 bộ lọc băng con xếp chồng [11]

Trang 32

Theo như thuật toán được mô tả trên Hình 2-5, nguyên nhân dẫn đến kết quả sai khác giữa SSCF và formant là do định nghĩa của bộ lọc băng con [11] Có ý kiến cho rằng các bộ lọc băng con sẽ ảnh hưởng trực tiếp đến kết quả tính toán của các tham số SSCF Do vậy, để cải thiện việc tính toán các tham số SSCF, có thể thực hiện thay đổi số bộ lọc băng con thành 5 bộ lọc mà vẫn giữ lại thuộc tính về độ dài các băng con bằng nhau trên thang tần số Mel Hình dạng của 5 bộ lọc tam giác xếp chồng được thể hiện như trên Hình 2-9

Hình 2-9: Hình dạng 5 bộ lọc băng con xếp chồng trong thuật toán tính SSCF

[11]

Hình 2-10: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển tiếp /a-i/ khi sử dụng 5 bộ lọc băng con xếp chồng [11]

Trang 33

Kết quả so sánh giữa tần số formant và các đặc tính SSCF trong chuyển tiếp i/ khi tính toán các tham số SSCF sử dụng 5 bộ lọc băng con xếp chồng được thể hiện như trên Hình 2-10

/a-Từ các kết quả thử nghiệm có thể thấy rằng khi thay đổi số lượng bộ lọc băng con trong thuật toán tính các tham số SSCF, kết quả thu được có sự sai khác về hình dạng giữa SSCF1- SSCF2 và phạm vi giá trị của SSCF1- SSCF2 Nói một cách khác, các bộ lọc băng con sẽ ảnh hưởng trực tiếp lên giá trị của các tham số SSCF

2.5.3 Thiết kế mới của các bộ lọc băng con trong tính toán SSCF

Sự ảnh hưởng của số lượng bộ lọc băng con lên giá trị của các tham số SSCF

có thể được giải thích là do thuộc tính về độ dài bằng nhau của các băng con trong thang tần số Mel Cụ thể đối với thang tần số Mel (có dải tần từ 0 đến Fs/2), nếu ta

sử dụng 6 bộ lọc băng con xếp chồng thì sẽ cần 7 khoảng cách bằng nhau; nhưng nếu ta sử dụng 5 bộ lọc băng con xếp chồng thì chỉ cần 6 khoảng cách bằng nhau như biểu diễn trên Hình 2-11 [14]

Hình 2-11: Xác định bộ lọc băng con với độ dài bằng nhau trên thang tần số Mel: a) 5 bộ lọc băng con xếp chồng, b) 6 bộ lọc băng con xếp chồng [14]

Dễ dàng nhận thấy rằng trong cùng thang tần số Mel, nếu toàn dải tần số được chia thành nhiều khoảng bằng nhau hơn thì giá trị tần số Mel của mỗi khoảng sẽ nhỏ hơn, và khi đó giá trị tần số (Hz) cũng sẽ nhỏ hơn Điều này giải thích cho các kết quả của tham số SSCF thu được ở phần trước

Như đã phân tích trong mục 2.5.1, để thu được 6 tham số SSCF (SSCF0 ÷ SSCF5) tương ứng với 6 tần số formant (F0 ÷ F5) thì số lượng bộ lọc băng con cần thiết phải là 6 bộ lọc Hơn nữa, thuộc tính độ dài bằng nhau của các băng con trong

Trang 34

thang Mel lại gây bất lợi cho việc tính toán chuyển tiếp nguyên âm bằng tham số

SSCF Do vậy, thiết kế mới của các bộ lọc băng con trong tính toán SSCF với độ

dài các băng con sẽ là sự kết hợp các điểm Mel trong cả hai trường hợp 5 bộ lọc

băng con xếp chồng và 6 bộ lọc băng con xếp chồng [11]

Hình 2-12: Phương pháp xác định bộ lọc băng con mới trên thang tần số Mel:

a) 5 bộ lọc băng con xếp chồng, b) 6 bộ lọc băng con xếp chồng,

c) bộ lọc băng con mới

Các điểm trong thang tần số Mel của bộ lọc băng con mới sẽ được xác định như

Trang 35

Hình 2-13: Hình dạng của bộ lọc băng con mới với 6 tam giác xếp chồng

trong thuật toán tính SSCF [11]

Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển tiếp /a-i/ khi tính các tham số SSCF sử dụng bộ lọc băng con mới với 6 tam giác xếp chồng được thể hiện như trong Hình 2-14

Hình 2-14: Kết quả so sánh giữa tần số formant và đặc tính SSCF trong chuyển tiếp /a-i/ khi sử dụng 6 bộ lọc băng con xếp chồng theo thiết kế mới [11]

Như vậy, việc thiết kế lại các bộ lọc băng con trong tính toán SSCF đã mang lại kết quả tốt hơn, hình dạng phạm vi giá trị của các đặc tính SSCF đã có sự tương đồng so với tần số formant

Trang 36

Tiếp theo, trong mục 2.3 của luận án là những nghiên cứu liên quan đến đặc tính tĩnh của tiếng nói với phương pháp xác định đặc tính tĩnh MFCC Tuy rằng được sử dụng rất rộng rãi trong các hệ thống nhận dạng tiếng nói tự động, vector đặc tính MFCC vẫn có một số điểm hạn chế nhất định MFCC chỉ đơn thuần biểu diễn các đặc tính về năng lượng mà không mô tả đặc tính về tần số của tín hiệu tiếng nói và hơn nữa MFCC còn phụ thuộc vào các đặc trưng của người nói Các hạn chế này có thể sẽ được cải thiện trong tương lai

Với việc chỉ ra kết quả của một số nghiên cứu trước đây về đặc tính động của tiếng nói, mục 2.4 đã mang đến một cái nhìn khái quát về một hướng nghiên cứu mới để trích xuất những thông tin có ích của tín hiệu tiếng nói sử dụng các tham

số SSCF Phương pháp tính toán các tham số SSCF này được giới thiệu chi tiết trong mục 2.5, từ phương pháp tính SSCF theo định nghĩa cơ bản cho đến những phân tích, lập luận để xây dựng nên thiết kế mới cho thuật toán tính SSCF với chất lượng tốt hơn Với việc thiết kế lại các bộ lọc băng con trong tính toán SSCF, các tham số SSCF đã có hình dạng và phạm vi giá trị tương đồng so với tần số formant trong các chuyển tiếp nguyên âm - nguyên âm

Trang 37

CHƯƠNG 3 SỬ DỤNG THAM SỐ SSCF ĐỀ NHẬN BIẾT, PHÂN BIỆT PHỤ ÂM CUỐI VÔ THANH /P,T,K/ TRONG TIẾNG VIỆT

3.1 Cấu trúc âm tiết trong tiếng Việt

3.1.1 Đặc trưng của ngôn ngữ tiếng Việt

Có rất nhiều ngôn ngữ khác nhau trên thế giới, chúng có thể được phân biệt với nhau thông qua chữ viết, cách phát âm hay cấu trúc ngữ pháp Tuy nhiên, xét về mặt ngôn ngữ học, ngôn ngữ được chia làm 3 loại [12]:

- Ngôn ngữ biến đổi (Inflectional language) với các từ có thể thay đổi được hình thái bằng cách thay đổi tiền tố hay hậu tố Ví dụ như tiếng Anh, tiếng Pháp, tiếng Nga

- Ngôn ngữ chắp dính (Agglutination language): từ thường là một chuỗi phụ tố mang ý nghĩa nhất định kết hợp với gốc từ để cấu tạo từ Ví dụ như tiếng Nhật, tiếng Hàn Quốc, tiếng Thổ Nhĩ Kỳ

- Ngôn ngữ đơn lập (Isolating language) như tiếng Việt, tiếng Trung Quốc

Tiếng Việt là một ngôn ngữ đơn lập hay còn gọi là ngôn ngữ không biến hình được cấu thành từ các âm tiết Những đặc trưng riêng biệt của ngôn ngữ tiếng Việt

có thể kể đến như sau:

 Các từ trong tiếng Việt luôn cố định, không thay đổi hình thái Không biến đổi đuôi từ để biểu thị các phạm trù ngữ pháp như giống đực, giống cái, giống trung, số ít, số nhiều Các từ trong tiếng Việt không có các dấu hiệu hình thức để biểu thị mối quan hệ giữa các từ trong cụm từ và trong câu Các ý nghĩa từ vựng của từ được biểu thị bằng các thực từ, không mang các tiêu chí biểu thị quan hệ cú pháp với các từ khác trong câu, chúng luôn đứng biệt lập tách rời nhau

 Cấu tạo từ trong tiếng Việt không dùng phụ tố Mỗi từ tiếng Việt bao gồm một hoặc hai âm tiết trở lên đứng tách rời nhau và không bao gồm tiền tố, trung tố hay hậu tố

 Tiếng Việt là ngôn ngữ có thanh điệu Tiếng Việt có 6 thanh điệu, mỗi thanh điệu đều có thể tham gia vào việc cấu tạo từ và tạo nghĩa cho từ

Trang 38

Ví dụ như me, mè, mẻ, mẽ, mé, mẹ Thanh điệu tạo cho tiếng Việt có tính

nhạc; câu văn có vần điệu, trầm bổng nhịp nhàng

 Âm tiết tiếng Việt ở dạng đầy đủ nhất có 5 thành phần: âm đầu (phụ âm),

âm đệm (bán nguyên âm), âm chính (nguyên âm đơn hoặc nguyên âm đôi), âm cuối (phụ âm hoặc bán nguyên âm) và thanh điệu Trong đó, nguyên âm và thanh điệu là hạt nhân của âm tiết và tự chúng cũng đủ để tạo nên âm tiết Không tính phụ âm đầu, phần còn lại của tiếng Việt còn được gọi là phần vần Tiếng Việt có 155 vần cơ bản và không có phụ âm đôi, phụ âm ba [12]

 Trong tiếng Việt, ranh giới của âm tiết và hình vị (morpheme) trùng nhau Mỗi âm tiết đồng thời có thể là một hình vị hay còn gọi là tiếng Như vậy, một đơn vị trong tiếng Việt vừa có thể là một âm tiết, vừa là một hình vị, vừa là một từ

 Phương tiện biểu hiện ý nghĩa ngữ pháp trong tiếng Việt là trật tự các thành tố (từ và thành phần câu), hư từ, ngữ điêu, dạng láy, ngữ cảnh Trong đó, trật tự các thành tố và hư từ có vai trò rất quan trọng

 Ngôn ngữ nói và ngôn ngữ viết không có sự khác biệt về các quy tắc ngữ

âm, ngữ pháp Các quy tắc ngữ pháp dùng trong văn xuôi và trong ngôn ngữ nói có cùng một định dạng Ngữ pháp hiện đại của ngôn ngữ viết đã khái quát các quy luật chung từ ngôn ngữ nói

Những đặc điểm trên là những đặc điểm dễ nhận thấy của tiếng Việt Khi xem xét các vấn đề của hệ thống nhận dạng tiếng nói với đối tượng hướng đến là tiếng Việt thì những đặc điểm này vô cùng quan trọng, không thể bỏ qua, đặc biệt là hệ thống âm vị - âm tiết và cấu trúc ngữ âm của tiếng Việt

3.1.2 Hệ thống âm vị - âm tiết trong tiếng Việt hiện đại

3.1.2.1 Đặc trưng của âm tiết tiếng Việt

Hệ thống các âm vị cơ bản của tiếng Việt bao gồm 16 nguyên âm (13 nguyên

âm đơn và 3 nguyên âm đôi) và 22 phụ âm [12]

Hầu hết các ngôn ngữ trên thế giới, người ta thường định nghĩa âm tiết là một đơn vị phát âm tối thiểu của lời nói Nghiên cứu âm tiết tức là nghiên cứu sự tổ hợp các âm vị trong kết cấu làm dấu hiệu của các đơn vị có nghĩa của ngôn ngữ

Trang 39

Một điểm cơ bản nhất của các âm tiết tiếng Việt là ranh giới của âm tiết trùng với ranh giới của hình vị, tức là mỗi âm tiết đều đóng vai trò là hình thức biểu đạt của một hình vị - đơn vị có nghĩa dùng làm thành tố cấu tạo từ Ví dụ, trong câu

“Hà Nội mùa thu” gồm có 4 hình vị (có 4 đơn vị nhỏ nhất có ý nghĩa) và cũng có

4 âm tiết (có 4 đơn vị phát âm nhỏ nhất)

Đặc điểm thứ hai của âm tiết tiếng Việt là mỗi âm tiết đều gắn với một trong sáu thanh điệu (ngang, huyền, ngã, hỏi, sắc, nặng) Thanh điệu tham gia vào việc cấu tạo từ, có chức năng phân biệt ý nghĩa của từ và làm dấu hiệu nhận biết từ Thanh điệu có chức năng như một âm vị, nó gắn liền với âm tiết và biểu hiện trong toàn âm tiết [12]

Đối với nhiều ngôn ngữ trên thế giới, việc phân tích âm vị học để xác định thành phần âm vị của ngôn ngữ thì trước tiên phải xác định được hình vị làm tiền đề và sau đó dẫn xuất ra các âm vị Nhưng trong tiếng Việt, hình vị và âm tiết có ranh giới trùng nhau nên âm tiết được xem như điểm xuất phát của việc phân tích âm vị học và được đề cập đến đầu tiên trong nghiên cứu về ngôn ngữ tiếng Việt Do vậy, việc phân tích cấu trúc của âm tiết tiếng Việt đóng vai trò rất quan trọng trong nghiên cứu

3.1.2.2 Cấu trúc của âm tiết tiếng Việt

Theo các kết quả nghiên cứu ngữ âm, mỗi âm tiết tiếng Việt hoàn chỉnh có ba thành phần: Âm đầu, vần và thanh điệu, trong đó phần vần chính là phần âm của

âm tiết Phần vần của âm tiết có thể được chia thành ba thành phần nhỏ hơn là âm đệm, âm chính và âm cuối Do vậy, âm tiêt tiếng Việt ở dạng đầy đủ nhất gồm có năm thành phần: âm đầu, âm đệm, âm chính, âm cuối và thanh điệu Sơ đồ kết hợp giữa các phần trong âm tiết có thể biểu diễn như Hình 3-1:

Hình 3-1: Sơ đồ cấu trúc âm tiết tiếng Việt [12]

Ví dụ, âm tiết “TOÁN” của tiếng Việt có các thành tố: Âm đầu /T/, âm đệm /O/,

âm chính /A/, âm cuối /N/ và thanh sắc

Âm đầu

Thanh điệu Vần

Âm đệm Âm chính Âm cuối

Trang 40

Thanh điệu là thành tố bao trùm cả âm tiết

Âm đầu: Trong âm tiết tiếng Việt, âm đầu bao giờ cũng là phụ âm và bởi vậy

còn được gọi là phụ âm đầu Phân biệt theo chữ viết, âm tiết tiếng Việt bao gồm

22 phụ âm đầu được chia thành các nhóm khác nhau tùy thuộc vào phương thức cấu âm và vị trí cấu âm Ví dụ như nhóm phụ âm môi, phụ âm lưỡi, phụ âm họng…

Âm đệm: là âm xuất hiện giữa phụ âm đầu và âm chính, đóng vai trò của một

âm lưỡi, một bán nguyên âm (tức là âm vị không làm đỉnh của âm tiết) Nói cách khác, âm đệm là bán nguyên âm có cấu tạo như nguyên âm nhưng không làm trung tâm của âm tiết, âm đệm chỉ xuất hiện trong quá trình đi lên của đường biểu diễn cường độ của âm tiết Âm đệm có chức năng tu chỉnh âm sắc của âm tiết mà không phải tạo nên âm sắc chủ yếu của âm tiết (không có tính âm tiết) Trong tiếng Việt

có hai âm đóng vai trò âm đệm là “o” và “u” Ví dụ, trong từ “TOÁN” âm “O” đóng vai trò là âm đệm, trong từ “TUẤN” âm “U” đóng vai trò là âm đệm…

Âm chính: là âm trung tâm của âm tiết, là thành tố hạt nhân bắt buộc phải có

của âm tiết Âm chính trong âm tiết tiếng Việt bao giờ cũng là nguyên âm, bởi vậy

nó còn được gọi là nguyên âm giữa vần Trong tiếng Việt có 16 nguyên âm giữa vần, bao gồm 13 nguyên âm đơn và 3 nguyên âm đôi Tùy thuộc vào vị trí cấu âm,

sự chuyển động của lưỡi, độ mở rộng hay hẹp của khoang miệng hay theo âm sắc,

độ trầm bổng và độ dài ngắn về âm lượng của âm mà các nguyên âm chính được chia thành nhiều nhóm khác nhau

Âm cuối: là những âm đứng cuối vần, cuối âm tiết Trong tiếng Việt có 6 phụ

âm cuối /p/, /t/, /m/, /n/, /k/, /ŋ/ và 2 bán nguyên âm cuối là /u/ và /i/ Hầu hết các phụ âm cuối đứng sau các nguyên âm còn các bán nguyên âm cuối chỉ đứng sau các nguyên âm chính có âm sắc đối lập Các phụ âm cuối được phân loại thành các nhóm theo như Bảng 3-1

Không giống như các phụ âm đầu, sáu phụ âm cuối của tiếng Việt đều là những

âm đóng, tức là trong cách cấu âm không có giai đoạn buông [21] Trong nhiều trường hợp, các phụ âm cuối thực chất chỉ là một khoảng lặng (cụ thể là ba phụ âm cuối /p/, /t/, /k/), chúng được nhận diện với vai trò làm biến đổi âm sắc của âm chính khi kết thúc âm tiết Sự chuyển dịch của các formant của nguyên âm chính theo một hướng nào đó là dấu hiệu duy nhất để nhận diện được các phụ âm cuối

Ngày đăng: 27/02/2021, 09:42

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm