ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG NGUYỄN THỊ KIM DUNG NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG Chuyên ngành: Khoa học máy tính
Trang 1NGUYỄN THỊ KIM DUNG
NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2016
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
NGUYỄN THỊ KIM DUNG
NGHIÊN CỨU PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS PHÙNG TRUNG NGHĨA
THÁI NGUYÊN - 2016
Trang 3LỜI CẢM ƠN
Lời đầu tiên em xin chân thành cảm ơn TS Phùng Trung Nghĩa đã dành
nhiều tâm huyết, kinh nghiệm của thầy để chỉ dẫn, định hướng nghiên cứu cũng như luôn luôn góp ý cho em để hoàn thành luận văn này
Em chân thành cảm ơn toàn thể các thầy cô đã ân cần dạy dỗ, chỉ bảo, truyền đạt cho chúng em những kiến thức quý báu trong suốt quá trình học Cuối cùng em cũng xin gửi lời cảm ơn tới gia đình, những người đã luôn động viên và tạo mọi điều kiện cho em học tập và nghiên cứu thật tốt Và gửi lời cảm ơn tới những người bạn đã giúp đỡ em trong quá trình học tập cũng như hoàn thành đề tài luận văn
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2016
Học viên
Nguyễn Thị Kim Dung
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đề tài nghiên cứu của tôi hoàn toàn do tôi tự làm dưới
sự hướng dẫn của thầy giáo TS Phùng Trung Nghĩa Những kết quả tìm hiểu
và nghiên cứu trình bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất cứ công trình nào
Nếu xảy ra bất cứ điều gì không đúng như những lời cam đoan trên, tôi xin chịu hoàn toàn trách nhiệm trước Nhà trường
Thái Nguyên, ngày tháng năm 2016
Tác giả
Nguyễn Thị Kim Dung
Trang 5MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN ii
DANH MỤC BẢNG iv
DANH MỤC HÌNH v
DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU vi
LỜI NÓI ĐẦU 1
1 Lý do chọn đề tài 1
2 Đối tượng và phạm vi nghiên cứu 2
3 Hướng nghiên cứu của luận văn 3
4 Những nội dung nghiên cứu chính 3
5 Phương pháp nghiên cứu 3
6 Ý nghĩa khoa học của luận văn 3
CHƯƠNG I TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG KHÔNG KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG 4
1.1 Tổng quan về tiếng nói 4
1.1.1 Nguồn gốc và phân loại tiếng nói 4
1.1.2 Quá trình tạo tiếng nói 5
1.2 Các đặc điểm của tiếng nói tiếng việt 8
1.2.1 Đặc tính âm học của tiếng nói 8
1.2.2 Các đặc tính khác 10
1.2.3 Đặc điểm của thanh điệu tiếng Việt 12
1.2.4 Ngữ điệu của tiếng nói trong Tiếng Việt 13
1.3 Tiếng nói truyền trong xương (BC- Bone Conducted) 16
1.4 Khôi phục tiếng nói truyền trong xương 18
1.4.1 Phương pháp phổ chéo 19
1.4.2 Phương pháp biến đổi Fourier 21
Trang 6CHƯƠNG 2: MÔ HÌNH KHÔI PHỤC MÙ TIẾNG NÓI TRUYỀN
TRONG XƯƠNG 23
2.1 Giới thiệu về xử lý mù 23
2.2 Phương pháp khôi phục dùng mô hình dự đoán tuyến tính (LP) 24
2.2.1 Khái niệm mô hình LP 24
2.2.2 Phân tích và tổng hợp LP 28
2.2.3 Phương pháp khôi phục 29
2.3 Các phương pháp khôi phục mù LP 30
2.3.1 Hệ số LSF 30
2.3.3 Mô hình Gaussian hỗn hợp (Gaussian Mixture Model – GMM) 36
2.3.4 Hệ số dự đoán 38
2.3.5 Khôi phục mù LP-GMM 39
CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ CÁC PHƯƠNG PHÁP KHÔI PHỤC TIẾNG NÓI TRUYỀN TRONG XƯƠNG 42
3.1 Cơ sở dữ liệu tiếng nói AC/BC tiếng Việt 42
3.1.1 Môi trường và thiết bị 43
3.1.2 Danh sách từ tiếng Việt 45
3.2 Cài đặt các phương pháp 46
3.3 Đánh giá kết quả thực nghiệm 48
3.3.1 Phương pháp đánh giá chủ quan 48
3.3.2 Phương pháp đánh giá khách quan 50
3.3.3 Kết quả đánh giá thực nghiệm 50
3.4 Nhận xét chung về kết quả 51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 52
Trang 7DANH MỤC CHỮ VIẾT TẮT VÀ KÝ HIỆU
Từ
viết tắt
Tiếng anh Nghĩa tiếng việt
ASR Automatic speech recognition Nhận dạng tiếng nói tự động
AC Air conducted speech Tiếng nói truyền trong không khí
BC Bone conducted speech Tiếng nói truyền trong xương
LP Linear Prediction Dự đoán tuyến tính
GMM Gausian Mixture Models Mô hình hỗn hợp Gaussian
F0 Fundamental Frequency Tần số dao động cơ bản
LPC Linear predictive coding Mã hóa dự đoán tuyến tính
LSF Line spectral frequency Tần số đường phổ
MOS Mean Opinion Scores Đánh giá theo quan điểm người nghe FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
RNN Recurrent nerual network Mạng nơron hồi quy
SRN Simple recurrent network Mạng hồi quy đơn giản
WAV Waveform Audio Dữ liệu âm thanh không nén
HMM Hidden Markor Model Mô hình Mackor ẩn
LCD LP coefficient distance Khoảng cách hệ số LP
Trang 8DANH MỤC BẢNG
Bảng 1.1: Giá trị tần số cơ bản tương ứng với giới tính và độ tuổi 11
Bảng 3.1 Thông tin cơ sở dữ liệu tiếng nói AC/BC 42
Bảng 3.2 Danh sách các thiết bị 43
Bảng 3.3 Mô tả các điểm đặt mic 44
Bảng 3.4 TEMPCO Microphone thông số kỹ thuật 44
Bảng 3.5 Mô tả mức điểm đánh giá 49
Bảng 3.6 Kết quả đánh giá bằng phương pháp LCD của 100 mẫu tín hiệu 50
Bảng 3.7 Kết quả đánh giá bằng phương pháp MOS 51
Trang 9DANH MỤC HÌNH
Hình 1 Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C
tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng
nói AC) ở Mic A 1
Hình 1.1 Mô phỏng quá trình truyền tiếng nói trong không khí 5
Hình 1.2 Bộ máy phát âm của con người 5
Hình 1.3.Mô tả dây thanh âm 6
Hình 1.4 Phổ tín hiệu của các giai đoạn 7
Hình 1.5 Mô hình nguồn lọc tạo tiếng nói 8
Hình 1.6 Sự thay đổi của F0 khi các thanh đi với chữ “Chi” 13
Hình 1.7 Mô hình nguồn lọc của tiếng nói truyền trong không khí và tiếng nói truyền trong xương 17
Hình 1.8 Định nghĩa các hàm: (a) sóng tín hiệu, (b) miền thời gian, và(c) đường bao công suất 19
Hình 1.9 Mối quan hệ của tiếng nói truyền trong không khí và tiếng nói truyền trong xương trong mô hình khôi phục 20
Hình 1.10 (a) Biến đổi từ tiếng nói truyền trong không khí ra tiếng nói truyền trong xương, và (b) từ tiếng nói truyền trong xương ra tiếng nói truyền trong không khí 21
Hình 2.1 Mô hình tổng hợp tiếng nói bằng phương pháp LP 25
Hình 2.2 Tỷ lệ dư lượng AC/BC, (a) tiếng nói AC, (b) tiếng nói BC, (c) tương quan dư lượng (gx(n), gy (n)), (d) tỷ lệ dư lượng Gy (z)/Gx(z) 28
Hình 2.3 Hàm chuyển đổi của mô hình LP 29
Hình 2.4 Sơ đồ khối (a) Mô hình khôi phục không mù 32
Trang 10Hình 2.5 Mô hình SRN 34
Hình 2.6 Hàm mật độ Gauss 36
Hình 2.7 Mô hình GMM 37
Hình 2.8 Hàm mật độ của GMM có 3 phân phối Gauss 38
Hình 3.1 Môi trường ghi âmtiếng nói AC/BC 43
Hình 3.2 TEMPCO micro thu âm tiếng nói truyền trong xương 45
Hình 3.3 Huấn luyện mô hình GMM cho tham số phổ LSF 46
Hình 3.4 Chuyển đổi mô hình GMM cho tham số phổ LSF 47
Trang 11LỜI NÓI ĐẦU
1 Lý do chọn đề tài
Chất lượng và độ nghe hiểu của tiếng nói bị suy giảm nghiêm trọng trong môi trường nhiễu nặng Các nghiên cứu về tiếng nói cho thấy bản thân người nói vẫn có thể nghe được tiếng nói của mình trong môi trường nhiễu nặng [4] Điều này được lí giải do tiếng nói không chỉ được truyền từ miệng đến tai qua môi trường không khí mà còn được truyền bên trong xương mặt
và tiếng nói truyền trong xương ít bị ảnh hưởng bởi môi trường bên ngoài [4] Xuất phát từ thực tế này, một số nhà nghiên cứu đã đề xuất việc sử dụng tiếng nói truyền trong xương (bone-conducted / BC speech) thay cho tiếng nói truyền trong không khí (air-conducted / AC speech) [4-9] Nói cách khác, micro thu âm sẽ đặt ở một số điểm trên khuôn mặt thay vì đặt trực tiếp ở miệng như mô tả trong Hình 1 Việc thu âm tiếng nói truyền trong xương để truyền trong môi trường nhiễu nặng đã được chứng minh bằng thực nghiệm là
ít bị ảnh hưởng bởi môi trường truyền hơn truyền trực tiếp tiếng nói truyền trong không khí và có thể được sử dụng để truyền tiếng nói trong các môi trường đặc biệt như trong công nghiệp, quân sự hay dưới nước,… [4-5]
Hình 1 Sơ đồ thu âm tiếng nói truyền trong xương (tiếng nói BC) ở Mic B, C tại các vị trí 1, 2, 3, 4, 5 và tiếng nói truyền trong không khí (tiếng nói AC) ở
Mic A
Vấn đề là mặc dù tiếng nói BC ít bị ảnh hưởng bởi môi trường truyền hơn tiếng nói AC, bản thân chất lượng tiếng nói BC lại thấp hơn tiếng nói
Trang 12AC tại điểm thu âm ở đầu phát do việc mất thông tin gây ra bởi quá trình truyền trong xương [6] Chính vì vậy việc khôi phục tiếng nói BC trở về tiếng nói AC ở đầu thu là một vấn đề quan trọng được nhiều nhà nghiên cứu quan tâm [6-9]
Có nhiều phương pháp khôi phục tiếng nói AC từ tiếng nói BC đã được
đề xuất như phương pháp dùng phổ chéo (Cross-spectrum) [5], phương pháp dùng biến đổi Fourier [6] Tuy nhiên các phương pháp này yêu cầu có tiếng nói AC tham chiếu tại đầu thu để biến đổi tiếng nói BC thành AC Nói cách khác, đây là các phương pháp không mù (non-blind) Hiển nhiên phạm vi áp dụng của các phương pháp này là rất hạn chế
Trong nghiên cứu [7], [8], [9], phương pháp khôi phục tiếng nói BC mù (không cần có tín hiệu tham chiếu tại đầu thu) sử dụng mô hình dự đoán tuyến tính LP được đề xuất như phương pháp khôi phục mù LP-SRN hay LP-GMM Các phương pháp này cũng đã được so sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Nhật [9] Trong nghiên cứu này sẽ tập trung nghiên cứu về phương pháp khôi phục mù tiếng nói BC sử dụng mô hình LP-GMM và so sánh thực nghiệm trên cơ sở dữ liệu tiếng nói tiếng Việt để có được đánh giá đầy đủ hơn về phương pháp này và sự phù hợp của phương pháp với tiếng nói tiếng Việt
2 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là tiếng nói và các phương pháp khôi phục tiếng nói
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về tiếng nói AC,
BC, các phương pháp khôi phục không mù và mù, và tập trung vào nghiên cứu thực nghiệm đánh giá về hiệu quả của phương pháp khôi phục không mù phổ chéo, Fourier, và phương pháp mù dùng mô hình LP-GMM [9] đối với cơ
sở dữ liệu tiếng nói BC tiếng Việt
Trang 133 Hướng nghiên cứu của luận văn
Hướng nghiên cứu của luận văn là nghiên cứu về vấn đề xử lý nhiễu cho tín hiệu tiếng nói bằng giải pháp dùng tiếng nói BC Trong đó, luận văn tập trung nghiên cứu phương pháp khôi phục mù dùng mô hình LP-GMM [9]
4 Những nội dung nghiên cứu chính
- Tổng quan về tiếng nói AC/BC
- Ảnh hưởng của nhiễu đối với tiếng nói AC/BC
- Khôi phục tiếng nói AC từ BC
- Mô hình LP
- Phương pháp khôi phục mù dùng mô hình LP-GMM
- Mô tả bài toán khôi phục BC thành AC trên CSDL tiếng Việt để áp dụng cho các hệ thống sử dụng tiếng nói BC
- Kết quả đánh giá khách quan và chủ quan đối với phương pháp phổ chéo, Fourier, và phương pháp dùng mô hình LP-GMM
- Đánh giá kết luận và đưa ra kiến nghị
5 Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên thế giới [4-9] để phân tích, đánh giá về phương pháp khôi phục mù tiếng nói BC thành tiếng nói AC
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ nghiên cứu thực nghiệm để xác định phương pháp tối ưu với tiếng Việt
6 Ý nghĩa khoa học của luận văn
Như đã trình bày trong phần 1, nghiên cứu khôi phục tiếng nói BC thành tiếng nói AC có vai trò quan trọng, đặc biệt trong các hệ thống truyền thông tiếng nói trong quân sự, công nghiệp hay các môi trường đặc biệt như dưới nước Đây là hướng nghiên cứu còn khá mới mẻ ở Việt Nam Do vậy vấn đề nghiên cứu trong luận văn có ý nghĩa khoa học và thực tiễn
Trang 14CHƯƠNG I TỔNG QUAN VỀ TIẾNG NÓI TRUYỀN TRONG KHÔNG KHÍ VÀ TIẾNG NÓI TRUYỀN TRONG XƯƠNG
1.1 Tổng quan về tiếng nói
1.1.1 Nguồn gốc và phân loại tiếng nói
Tiếng nói là phương tiện giao tiếp chính trong đàm thoại Nếu phân tích quá trình giao tiếp qua nhiều lớp thì lớp thứ nhất chính là âm thanh và lớp cuối cùng là tiếng nói diễn tả ý nghĩa muốn nói
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh ta về bản chất đều là những sóng âm được lan truyền trong một môi trường nhất định (thường là không khí) Khi chúng ta nói dây thanh trong hầu
bị trấn động tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ – một màng rất mỏng rất nhạy cảm của tai làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số giao động của sóng đạt đến một độ lớn nhất định Tai con người chỉ cảm thụ được những dao động có tần số từ khoảng 20Hz đến khoảng 20000Hz Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng tương ứng gọi là sóng âm Những sóng có tần số nhỏ hơn 20Hz gọi là sóng hạ
âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm những sóng này con người không cảm nhận được Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng Do đó cũng được sử dụng nhiều trong các thiết bị máy móc hiện nay Câu nói, mỗi câu gồm nhiều từ, mỗi từ lại có thể có 1 hay nhiều âm tiết
Ở tiếng Việt, số âm tiết được sử dụng vào khoảng 6700 Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản,… kết hợp với nhau để tạo thành âm thanh Âm thanh phát ra được lan truyền trong không khí để đến tai người nhận Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau thì hầu
Trang 15như là khác nhau dẫn đến khó khăn khi muốn phân chia tiếng nói theo những đặc tính riêng
Hình 1.1 Mô phỏng quá trình truyền tiếng nói trong không khí
1.1.2 Quá trình tạo tiếng nói
a Bộ máy phát âm
Hình 1.2 Bộ máy phát âm của con người
Bộ máy phát âm bao gồm các thành phần riêng rẽ như phổi, khí quản, thanh quản, và các đường dẫn miệng, mũi Trong đó:
- Tuyến âm là ống không đều bắt đầu từ môi, kết thúc bởi dây thanh
Trang 16- Ống dẫn âm là một ống không đồng dạng bắt đầu từ môi, kết thúc bởi dây thanh hoặc thanh quản Ống có độ dài khoảng 17cm đối với người bình thường
- Khoang mũi cũng là ống không đồng dạng thuộc vùng cố định bắt đầu
từ mũi, kết thúc tại vòm miệng, đối với người bình thường khoang mũi có độ dài 12 cm
- Khoang miệng là các nếp da chuyển động có thể điều khiển sự ghép âm thanh giữa khoang miệng và khoang mũi
- Thanh quản chứa hai dây thanh có thể dao động tạo ra sự cộng hưởng cần thiết để tạo ra âm thanh
Hình 1.3.Mô tả dây thanh âm
b Cơ chế phát âm
Hình 1.2 mô tả bộ máy phát âm của con người Năng lượng nguồn nằm ở thanh môn, tuyến âm sẽ được kích thích bởi năng lượng nguồn tại thanh môn Tiếng nói được tạo ra sóng âm học do kích thích từ thanh môn phát ra đẩy không khí có trong phổi lên tạo thành dòng khí va chạm vào hai dây thanh trong tuyến âm Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động âm
sẽ được lan truyền theo tuyến âm (tính từ tuyến âm đến khoang miệng) và sau khi đi qua khoang mũi, môi sẽ tạo ra tiếng nói
Trang 17Trong quá trình phát âm, nếu là âm mũi thì vòm miệng hạ thấp và dòng khí chỉ đi qua đường mũi, nếu là âm thường thì vòm miệng mở, đường mũi khép lại và dòng khí đi theo khoang miệng ra môi
Trong quá trình tạo âm thanh không phải là âm mũi, vòm miệng mở, khoang mũi đóng lại, dòng khí sẽ chỉ đi qua khoang miệng Khi phát âm mũi, vòm miệng hạ thấp và dòng khí sẽ chỉ đi qua khoang mũi
Nói cách khác:
- Tần số rung của dây âm thanh xác định cao độ của tiếng nói
- Vị trí/ hình dạng của môi, lưỡi và mũi xác định âm sắc
- Độ nén từ phổi xác định âm lượng của tiếng nói
Chúng ta có thể nghĩ quá trình tạo tiếng nói của người như mô hình lọc nguồn nơi mà nguồn là luồng không khí được tạo ra bởi các dây âm thanh và
bộ lọc bao gồm khoang yết hầu, mũi, miệng Hình dưới đây cho thấy phổ tín hiệu của mỗi giai đoạn
Hình 1.4 Phổ tín hiệu của các giai đoạn
Nói chung, rung động đều đặn của dây thanh âm sẽ tạo ra âm thanh bán tuần hoàn, mặt khác nếu luồng không khí không đều sẽ tạo ra âm vô thanh
Trang 18Chúng ta cũng có thể sử dụng sơ đồ khối để biểu diễn mô hình nguồn lọc tạo tiếng nói:
Hình 1.5 Mô hình nguồn lọc tạo tiếng nói
1.2 Các đặc điểm của tiếng nói tiếng việt
1.2.1 Đặc tính âm học của tiếng nói
a Âm hữu thanh
Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng thời và chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở ra và sau
đó thanh môn xẹp xuống do không khí chạy qua Do sự cộng hưởng của dây thanh, sóng âm tạo ra có dạng tuần hoàn hoặc gần như tuần hoàn Phổ của âm hữu thanh có nhiều thành phần tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản
b Âm vô thanh
Khi tạo ra âm vô thanh dây thanh không cộng hưởng Âm vô thanh có hai loại cơ bản là âm xát và âm tắc
Âm xát (ví dụ như âm s) được tạo ra khi có sự co thắt tại vài điểm trong tuyến âm Không khí khi đi qua điểm co thắt sẽ chuyển thành chuyển động hỗn loạn tạo nên kích thích giống như nhiễu ngẫu nhiên Thông thường điểm
Trang 19co thắt xảy ra gần miệng nên sự cộng hưởng của tuyến âm ảnh hưởng rất ít đến đặc tính của âm xát được tạo ra
Âm tắc (ví dụ như âm p) được tạo ra khi tuyến âm đóng tại một số điểm làm cho áp suất không khí tăng lên và sau đó được giải phóng đột ngột Sự giải phóng đột ngột này tạo ra kích thích nhất thời của tuyến âm Sự kích thích này có thể xảy ra với sự cộng hưởng hoặc không cộng hưởng của dây thanh tương ứng với âm tắc hữu thanh hoặc vô thanh
c Âm vị
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn cho thông tin về mặt ngôn ngữ và được mô tả bởi các âm vị khác nhau Như vậy, âm vị là đơn vị nhỏ nhất của ngôn ngữ Tuỳ theo từng ngôn ngữ cụ thể mà số lượng các âm vị nhiều hay ít (thông thường số lượng các âm vị vào khoảng 20 – 30) Các âm
vị được chia thành hai loại: nguyên âm và phụ âm
+ Nguyên âm
Nguyên âm là âm hữu thanh được tạo ra bằng sự cộng hưởng của dây thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thành nhiều hình dạng nhất định tạo thành các nguyên âm khác nhau Số lượng các nguyên âm phụ thuộc vào từng ngôn ngữ nhất định
+ Phụ âm
Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Phụ âm có đặc tính hữu thanh hay vô thanh tuỳ thuộc vào việc dây thanh có dao động để tạo nên cộng hưởng không Dòng không khí tại chỗ đóng của vòm miệng tạo
ra phụ âm tắc Phụ âm xát được phát ra từ chỗ co thắt lớn nhất
Trang 201.2.2 Các đặc tính khác
a Tỷ suất thời gian
Trong khi nói chuyện, khoảng thời gian nói và khoảng thời gian nghỉ xen
kẽ nhau Tỷ lệ % thời gian nói trên tổng số thời gian nói và nghỉ được gọi là
tỷ suất thời gian Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta có thể phân loại thành nói nhanh, nói chậm hay nói bình thường
b Hàm năng lượng ngắn hạn
Hàm năng lượng thời gian ngắn của tiếng nói được tính bằng cách chia
tín hiệu tiếng nói thành nhiều khung, mỗi khung chứa N mẫu Các khung này
được đưa qua một cửa sổ có dạng hàm như sau:
Hàm năng lượng ngắn tại mẫu thứ m được tính theo công thức sau:
Thông thường có ba dạng cửa sổ được sử dụng đó là cửa sổ Hamming, cửa sổ Hanning và cửa sổ chữ nhật Hàm năng lượng thời gian ngắn của âm hữu thanh thường lớn hơn so với âm vô thanh
c Tần số cơ bản
Dạng sóng của tiếng nói gồm hai phần: Phần gần giống nhiễu (trong đó biên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lại gần như tuần hoàn) Phần tín hiệu có tính chu kỳ chứa các thành phần tần số
có dạng điều hòa Tần số thấp nhất chính là tần số cơ bản và cũng chính là tần
số dao động của dây thanh Đối với những người nói khác nhau, tần số cơ bản cũng khác nhau Dưới đây là một số giá trị tần số cơ bản tương ứng với từng giới tính và độ tuổi
Trang 21Bảng 1.1: Giá trị tần số cơ bản tương ứng với giới tính và độ tuổi
Giá trị tần số cơ bản Người nói
ta phải xác định được các tham số formant đối với từng loại âm vị, do đó việc đánh giá, ước lượng các formant có ý nghĩa rất quan trọng
Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giới tính của người nói và phụ thuộc vào các dạng âm vị tương ứng với formant đó Đồng thời, formant còn phụ thuộc các âm vị trước và sau đó Về cấu trúc tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạng và kích thước tuyến
âm Thông thường phổ của tín hiệu tiếng nói có khoảng 5 formant nhưng chỉ
có 3 formant đầu tiên ảnh hưởng quan trọng đến các đặc tính của các âm vị, các formant còn lại cũng có ảnh hưởng song rất ít
Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vào người nói trong điều kiện phát âm nhất định Mặc dù phạm vi của các tần số formant tương ứng với mỗi nguyên âm có thể trùm lên nhau nhưng vị trí giữa các formant là không đổi vì sự xê dịch của các formant là song song
Trang 221.2.3 Đặc điểm của thanh điệu tiếng Việt
Đối với tiếng Việt thì mỗi cách viết chỉ có duy nhất một cách đọc Tuy nhiên, một trong những khó khăn lớn nhất của tiếng Việt chính là vấn đề thanh điệu Việc mỗi nguyên âm có 6 thanh (ngang, sắc, huyền, ngã, hỏi, nặng) lại làm cho việc tổng hợp gặp những khó khăn khác Việc đọc không dấu chúng ta hầu hết có thể hiểu được nhưng như vậy vẫn có thể gây ra những hiểu lầm Tuy nhiên, nếu ta đã sinh được sóng âm cho tiếng Việt không dấu, thì ta có thể biến đổi sóng âm đó để thu được sóng âm thể hiện tiếng Việt có dấu
Một âm tiết tiếng Việt khi đọc có 5 loại âm thanh: âm đầu (phụ âm), âm trung bình (bán nguyên âm), âm trung tâm (nguyên âm hoặc nguyên âm đôi),
âm cuối (nguyên âm hoặc bán nguyên âm) và thanh điệu (dấu) Khi thay các thanh điệu vào cùng từ, giá trị F0 thay đổi như sau:[1]
Với thanh ngang, giá trị F0 bắt đầu lớn nhất và duy trì cho tới khi kết thúc âm tiết
Thanh huyền giá trị F0 bắt đầu thấp hơn thanh ngang, thanh sắc và thanh ngã
Thanh ngã giá trị F0 bắt đầu cao, tới giữa âm tiết thì giảm xuống, và tăng lên cao nhất khi đến cuối âm tiết Trong hầu hết các trường hợp, các âm tiết có thanh ngã có giá trị F0 cực tiểu rơi vào khoảng giữa đến 2/3 của F0 tại thời điểm ban đầu
Thanh hỏi giá trị F0 giảm dần đến khoảng 2/3 giá trị F0 ban đầu rồi tăng trở lại
Thanh sắc giá trị F0 giữ ổn định trong khoảng 2/3 thời gian của âm tiết rồi sau đó tăng nhanh
Thanh nặng giá trị F0 giảm nhanh và thời gian kéo dài thường chỉ bằng 2/3 thời gian các thanh khác
Trang 23Dưới đây là đồ thị mô tả sự biến thiên của giá trị F0 các thanh và ví dụ với việc ghi âm chữ “chi” cùng với 6 thanh lần lượt là ngang, huyền, ngã, hỏi, sắc, nặng [17]
Hình 1.6 Sự thay đổi của F0 khi các thanh đi với chữ “Chi”
1.2.4 Ngữ điệu của tiếng nói trong Tiếng Việt
Các ngôn ngữ không có thanh điệu bản thân các âm tiết không phân biệt nhau về âm vực Chỉ khi từ ngữ đi vào cấu tạo câu thì âm tiết mới có cao độ: thấp, cao, trung bình Kết quả của việc biến đổi cao độ làm cho câu có âm điệu, có đường nét lên xuống khác nhau tức là có ngữ điệu Diễn biến cao độ
đó diễn ra trong suốt quá trình câu được phát ra khiến người ta xác định được các mẫu ngữ điệu (Xuống – Lên, Lên – Xuống), các mẫu này sẽ làm nên các đường nét khiến người ta có thể xác định được các loại hình câu (tường thuật
Trang 24hay nghi vấn, phủ định hay khẳng định…) Còn đối với tiếng Việt, bản thân các âm tiết đã bao gồm trong đó các tiêu chí âm điệu của thanh điệu nên một câu tiếng Việt luôn có các đường nét lên xuống
Các thành tố của ngữ điệu Việt
Đường nét của ngữ điệu Việt thường được tạo nên bởi sự phân bố (hay biến đổi) của bốn thành tố cơ bản là cao độ, cường độ (năng lượng) và trường
độ, nhịp độ
+ Cao độ (Pitch): Ngữ điệu tiếng Việt được tạo thành từ sự biến đổi
ngưỡng âm vực thanh điệu của hình tiết Hình tiết tiếng Việt là nơi chứa thanh điệu Mỗi hình tiết đều mang một thanh điệu nhất định Mỗi thanh điệu lại mang hai thông số là âm vực (cao độ) và âm điệu (diễn biến của cao độ) Cao
độ là độ trầm bổng của âm thanh, chính là tần số sóng cơ học của âm thanh Đối với tiếng nói, tần số dao động của dây thanh âm quy định độ cao giọng nói của con người Mỗi người có một độ cao giọng nói khác nhau, độ cao của
nữ giới thường cao hơn nam giới và độ cao của trẻ em thường cao hơn của người lớn Cao độ giọng nói cũng thay đổi với những trạng thái biểu lộ cảm xúc khác nhau Cao độ là yếu tố cơ bản tạo nên những hiện tượng ngữ điệu như: thanh điệu, sắc thái biểu cảm và cả trọng âm Cao độ (pitch) đem đến cặp nét khác biệt ngữ điệu đầu tiên là Cao/Thấp
+ Cường độ (Intensity): là độ to nhỏ của âm thanh Cường độ càng lớn
thì âm thanh có thể truyền đi được càng xa Xét trên phương diện sóng cơ học thì cường độ chính là biên độ của dao động sóng âm, nó quyết định năng lượng của sóng âm Cường độ âm thanh được đo bằng đơn vị Decibel (dB) Cường độ là yếu tố chính tạo nên hiện tượng trọng âm, sự phân bố của cường
độ chính là trọng âm Trọng âm là một đơn vị của ngôn điệu, trọng âm có vai trò quan trọng trong việc tạo lập ngữ điệu Việc một âm tiết nào đó vừa mang tính trọng âm, vừa mang thuộc tính của ngữ điệu là một việc hoàn toàn bình
Trang 25thường trong Việt ngữ Ngữ điệu tiếng Việt là loại mang ngữ điệu mang đậm tính chất cường độ chứ không đơn giản chỉ là sự biến thiên của cao độ cố hữu của thanh điệu Sự đối lập về cường độ (intensity) hay độ lớn (loundness) đem đến nét khu biệt ngữ điệu thứ hai là Mạnh/Yếu Cường độ thông thường
là cao nhất cho giận dữ và thấp nhất cho cảm xúc buồn
+ Trường độ (Duration): là cảm xúc ngữ điệu theo thời gian hay là độ
dài của âm thanh thể hiện qua tốc độ phát âm Nó tạo nên sự tương phản giữa các bộ phận của lời nói Biến đổi về cao độ đưa đến kết quả là có tiếng trầm, tiếng bổng ở trong câu, biến đổi về cường độ cho ta câu nói có “tiếng bấc, tiếng chì”, còn biến đổi về trường độ cho ta câu có thêm tiếng ngắn, tiếng dài Đặc trưng trường độ chính là nét khu biệt của ngữ điệu học, đặc trưng này hoạt động rất yếu ớt trong ngữ điệu các ngôn ngữ phi thanh điệu Âu châu Vì vậy, nó thường được nói đến như ngữ điệu cá nhân, liên quan đến tâm lý, giới tính,… của người nói, hoàn cảnh nói và nội dung câu nói Trong tiếng Việt, trường độ là một thuộc tính có vai trò quan trọng không kém cao độ và cường
độ Sự đối lập về trường độ (duration) hay độ dài (lengh) đem đến nét khác biệt ngữ điệu thứ ba là Dài/Ngắn Ta có thể thấy thời gian phát âm thường là ít nhất với cảm xúc giận dữ (nói rất nhanh) và nhiều nhất với cảm xúc buồn bã (nói chậm)
+ Nhịp độ (Tempo): là diễn biến của các âm đoạn trên trục thời gian
theo cách chúng bị ngắt quãng (cách quãng, đứt quãng, gián đoạn,…) hay liền mạch (liên tục, không đổi, không nghỉ,…), nó khác với tốc độ (sự nhanh chậm), nhịp điệu là sự đều đặn Nhịp độ ở các ngôn ngữ Âu châu hoạt động không nhiều, còn đối với Việt ngữ gần như là bắt buộc vì nó còn liên quan đến nghĩa của câu Nhịp độ có liên quan chặt chẽ đến trường độ Tóm lại, biến đổi về nhịp độ cũng là một nhân tố góp phần làm nên ngữ điệu tiếng Việt Sự đối lập về nhịp độ (tempo) đem đến nét khác biệt ngữ điệu thứ tư là Ngắt (quãng)/Liền (mạch)
Trang 26Từ bốn thành tố trên tạo thành tám nét cơ bản của ngữ điệu bao gồm: cao hay thấp (cao độ), mạnh hay yếu (cường độ), dài hay ngắn (trường độ), ngắt hay liền (nhịp độ) Khi chúng hoạt động sẽ tạo ra ngữ điệu nhưng sự hoạt động của chúng chỉ tập trung ở những điểm nhất định trong câu Vấn đề là phải xác định những điểm đấy Tần số cơ bản F0 được đo bằng đơn vị Hz, đặc trưng cho sự cảm nhận về giai điệu Cường độ của âm thanh được đo bằng Decibels (dB) Trường độ được đo bằng đơn vị centi giây (cs) hay mili giây (ms) Tiếng Việt là ngôn ngữ có thanh điệu, các thanh điệu có các đặc trưng rất khác nhau về đường nét F0 Trong lời nói liên tục, đường nét F0 của các thanh điệu bị biến đổi phụ thuộc vào thanh điệu của các âm tiết liền kề và vị trí của âm tiết trong câu
1.3 Tiếng nói truyền trong xương (BC- Bone Conducted)
Tiếng nói truyền trong xương (âm truyền trong xương) là sự dẫn truyền của âm thanh vào tai thông qua xương của hộp sọ
Âm truyền trong xương giải thích lí do vì sao giọng của mỗi người sẽ khác nhau khi được thu âm và phát lại, bởi vì xương sọ dẫn truyền những tần
số thấp tốt hơn so với việc truyền trong không khí, do đó chúng ta sẽ cảm nhận được giọng của mình thường trầm và đầy đủ hơn so với những người khác, đó cũng là lí do mà người ta sẽ cảm thấy giọng của mình sẽ cao hơn khi được thu âm và phát lại Một số máy trợ thính sử dụng sự dẫn truyền của xương nhằm giúp tái tạo âm thanh giống như nghe trực tiếp bằng tai Chiếc headset sẽ được cố định ở đỉnh đầu và 2 bên má cùng với một đầu dò điện nhằm chuyển đổi tín hiệu điện thành dao động cơ học sau đó sẽ truyền âm thanh vào tai thông qua xương sọ
Tiếng nói truyền trong xương có vẻ như có nhiều ưu điểm hơn tiếng nói truyền trong không khí bởi tính ổn định của nó và có thể lấn át nhiễu của môi trường xung quanh Tuy nhiên bởi đặc tính truyền trong xương nên các tần số
Trang 27cao bị yếu đi khi truyền trong xương Hơn nữa sự suy giảm của tiếng nói truyền trong xương còn phụ thuộc vào một số điều kiện như vị trí các điểm thu khác nhau (Vị trí đặt micro đầu thu BC), âm tiết và người nói Do đó đây thực sự là một vấn đề khó để có một phương pháp khôi phục phù hợp đáp ứng được tất cả các điều kiện
Hình 1.7 Mô hình nguồn lọc của tiếng nói truyền trong không khí và tiếng
nói truyền trong xương
Nguồn kích thích là luồng không khí được cung cấp bởi phổi Lọc theo miền thời gian hoặc theo miền tần số tương ứng phản ánh sự hình thành phổ được thực hiện bởi thanh quản Hợp của hai thành phần này trong miền thời gian sẽ tạo ra tín hiệu tiếng nói truyền trong không khí, tín hiệu
Hình 1.7 là hình được đơn giản từ hình 1.1 Hình này cho thấy quá trình tạo tín hiệu tiếng nói truyền trong xương có thể được coi là tương tự quá trình tạo tín hiệu của tiếng nói trong không khí Điều khác biệt nằm ở lọc của tiếng nói truyền trong xương là bộ lọc
Trang 28Có thể đo đồng thời tiếng nói truyền trong xương ở mặt hoặc đầu của người nói và tiếng nói truyền trong không khí Thay vì trực tiếp kiểm tra các tín hiệu tiếng nói truyền trong xương bằng việc kiểm tra các mối quan hệ của tiếng nói truyền trong không khí tương ứng với nó Các kết quả phân tích mối quan hệ này sẽ được trình bày ở các phần sau
1.4 Khôi phục tiếng nói truyền trong xương
Có một số nghiên cứu phương pháp khôi phục lại chất lượng tiếng nói và
độ hiểu của tiếng nói truyền trong xương Như phương pháp phổ chéo [5], phương pháp Fourier [6], phương pháp LP hay MTF[7]… Phần này trước hết trình bày những tiếp cận của các phương pháp khôi phục với tiếng nói
Hình 1.8 cho thấy ba loại lọc nghịch đảo khác nhau để khôi phục lại tiếng nói Nói chung, tất cả đều phải thiết kế bộ lọc ngược để khôi phục lại tiếng nói truyền trong xương
Như thể hiện trong hình 1.8(a), một trong những cách tiếp cận của phương pháp đơn giản là thiết kế đáp ứng xung ngược từ như phương pháp phổ chéo và phương pháp biến đổi Fourier [5], [6] Những phương pháp phổ chéo và phương pháp biến đổi Fourier xây dựng các hàm chuyển ngược từ BC thành AC Các phần sau của luận văn sẽ tiếp cận cách khôi phục này để khôi phục lại tiếng nói AC từ BC cụ thể sẽ sử dụng mô hình
LP để lọc ngược Tuy nhiên, lọc ngược của mô hình LP được thiết kế bằng cách sử dụng hệ số LP liên quan đến các đặc tính phổ của tín hiệu
Khi đại diện cho một tín hiệu trong một bộ lọc, tín hiệu trong mỗi băng con (kênh) có thể được khôi phục một cách độc lập Do đó, sự khôi phục của các các tín hiệu theo miền thời gian trong mỗi kênh là mục tiêu chính, như thể hiện trong hình 1.8(b) Các phương pháp phổ chéo và Fourier có thể được áp
Trang 29dụng để xây dựng các bộ lọc ngược miền thời gian (đảo ngược (t)) cho tiếng nói truyền trong xương
a) Signal waveform
b) Temporal envelope
c) Power envelope
Hình 1.8 Định nghĩa các hàm: (a) sóng tín hiệu, (b) miền thời gian,
và(c) đường bao công suất
Chúng ta tập trung vào tín hiệu các đường bao công suất hình 1.8(c) chứ không phải là miền thời gian trong hình 1.8(b), từ đó có thể thể hiện các đặc điểm của các tín hiệu như sau [11]:
(1.1)
1.4.1 Phương pháp phổ chéo
Gọi hai tín hiệu tiếng nói truyền trong xương và tiếng nói truyền trong không khí là và trong miền thời gian và các biến đổi Fourier của và trong miền tần số tương ứng
Impluse response
Transfer function
AC temporal envelope
BC temporal envelope
Transfer function
AC power envelope
BC power envelope
Trang 30Hình 1.9 Mối quan hệ của tiếng nói truyền trong không khí và tiếng nói
truyền trong xương trong mô hình khôi phục
Hàm tương quan của và được định nghĩa như sau:
(1.2) (1.3) Trong đó là phức hợp của
Ta có phổ chéo của và là Fourier dài hạn của hàm tương quan chéo như sau :
Trang 311.4.2 Phương pháp biến đổi Fourier
Là phương pháp tiếp cận đầu tiên phải đạt được các đáp ứng xung
để khôi phục lại tiếng nói truyền trong xương thành tiếng nói truyền trong không khí
Hình 1.10 cho thấy một hệ thống đại diện của hình 1.7 Các tín hiệu tiếng nói truyền trong không khí được mô tả như đầu ra của một bộ lọc thanh quản Tín hiệu tiếng nói truyền trong xương có thể thu được thông qua một bộ lọc
Hệ thống hiển thị trong hình 1.10 là hai hệ thống để chuyển đổi giữa tiếng nói truyền trong không khí và tiếng nói truyền trong xương Có thể khôi phục được tiếng nói truyền trong xương bởi hàm chuyển trong hình 1.10 (b)
Về cơ bản là không thể trực tiếp có được hàm chuyển các bộ lọc do đó, cần phải được ước lượng
Trang 32Trong hình 1.10 (b), các mối quan hệ