Đồ án tốt nghiệp SE Subjective Evaluation Đánh giá chủ quan IS Itakura_Saito LLR Log likehook Raito WSS Weighted Spectral Slope Đo theo trọng số của phổ LPC Linear Prediction Coefficient
Trang 1Đồ án tốt nghiệp
Luận văn
Đề tài: "Tìm hiểu về Speech
Enhancement"
Trang 2Đồ án tốt nghiệp
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
LỜI CAM ĐOAN
Kính gửi: Hội đồng bảo vệ đồ án tốt nghiệp Khoa Điện tử _ Viễn thông _
Trường Đại học Bách Khoa Đà Nẵng
Em tên là: Nguyễn Thị Ngọc Diệp
Hiện đang học lớp 04ĐT1- Khoa: Điện tử - Viễn thông – Trường: Đại học Bách Khoa Đà Nẵng
Nhóm em xin cam đoan nội dung của đồ án này không phải là bản sao chép của bất cứ đồ án hoặc công trình đã có từ trước
Sinh viên thực hiện
Nguyễn Thị Ngọc Diệp
Trang 3
Đồ án tốt nghiệp
MỤC LỤC
LỜI CAM ĐOAN 2
MỤC LỤC 3
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH 9
MỞ ĐẦU 11
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 14
1.1 Giới thiệu chương 14
1.2 Nâng cao chất lượng tiếng nói là gì ? 14
1.3 Lý thuyết về tín hiệu và nhiễu 16
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu 16
1.3.1.1 Tín hiệu 16
1.3.1.2 Nguồn tín hiệu 16
1.3.1.3 Hệ thống và xử lý tín hiệu 17
1.3.1.4 Phân loại tín hiệu 17
1.4 Lý thuyết về nhiễu 18
1.4.1 Nguồn nhiễu 18
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau 20
1.5 Tín hiệu rời rạc theo thời gian 21
1.5.1 Tín hiệu bước nhảy đơn vị 22
1.5.2 Tín hiệu xung đơn vị 22
1.5.3 Tín hiệu hàm mũ 22
1.5.4 Tín hiệu hàm sin rời rạc 22
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 23
1.6.1 Sự hội tụ của phép biến đổi Fourier 23
Trang 4Đồ án tốt nghiệp
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier 23
1.6.3 Phép biến đổi Fourier ngược 24
1.6.4 Các tính chất của phép biến đổi Fourier 24
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc 25
1.6.6 Phổ tín hiệu và phổ pha 26
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 27
1.7.1 Trừ phổ 27
1.7.2 Mô hình thống kê 27
1.8 Tín hiệu tiếng nói 27
1.9 Cơ chế tạo tiếng nói 29
1.9.1.1 Bộ máy phát âm của con người 29
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 29
1.9.3 Phân loại âm 30
1.9.4 Thuộc tính âm học của tiếng nói 30
1.10 Kết luận chương 30
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 31
2.1 Giới thiệu chương 31
2.2 Phương pháp đánh giá chủ quan 31
2.2.1 Các phương pháp đánh giá tuyệt đối 32
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR 32
2.2.2 Các phương pháp đánh giá tương đối 32
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu 32
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng 33
2.3 Phương pháp đánh giá khách quan 34
Trang 5Đồ án tốt nghiệp
2.3.1 Đo tỷ số tín hiệu trên nhiễu trên từng khung 34
2.3.2 Đo khoảng cách phổ dựa trên LPC 36
2.3.2.1 Phương pháp đo LLR 36
2.3.2.2 Phương pháp đo IS 37
2.3.2.3 Phương pháp đo theo khoảng cách cepstrum 37
2.3.3 Đánh giá mô phỏng theo cảm nhận nghe của con người 38
2.3.3.1 Phương pháp đo Weighted Spectral Slope 38
2.3.3.2 Phương pháp đo Bark Distortion 39
2.3.3.3 Phương pháp đánh giá cảm nhận chất lượng thoại PESQ 40
2.4 Kết luận chương 40
CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION VÀ WIENER FILTERING 42
3.1 Giới thiệu chương 42
3.2 Sơ đồ khối chung của Spectral Subtraction và Wiener Filtering 42
3.3 Thuật toán Spectral Subtraction 42
3.3.1 Giới thiệu chung 42
3.3.2 Spectral subtraction đối với phổ biên độ 43
3.3.3 Spectral subtraction đối với phổ công suất 44
3.4 Thuật toán Wiener Filtering 46
3.4.1 Giới thiệu chung 46
3.4.2 Nguyên lý cơ bản của Wiener Filtering 47
3.5 Overlap và Adding trong quá trình xử lý tín hiệu tiếng nói 49
3.5.1 Phân tích tín hiệu theo từng frame 49
3.5.2 Overlap và Adding 50
Trang 6Đồ án tốt nghiệp
3.6 Ước lượng và cập nhật nhiễu 51
3.6.1 Voice activity detection 52
3.6.2 Quá trình ước lượng và cập nhật nhiễu 52
3.7 Kết luận chương 53
CHƯƠNG 4: THỰC HIỆN VÀ ĐÁNH GIÁ CÁC THUẬT TOÁN 54
4.1 Giới thiệu chương 54
4.2 Quy trình thực hiện và đánh giá thuật toán 54
4.3 Lưu đồ thuật toán Spectral Subtraction 56
4.4 Lưu đồ thuật toán Wiener Filtering 57
4.5 Thực hiện thuật toán 58
4.6 Đánh giá chất lượng tiếng nói đã được xử lý 60
4.6.1 Cơ sở dữ liệu cho việc đánh giá 60
4.6.2 Tổng quan về quy trình đánh giá 60
4.6.3 Kiểm tra độ tin cậy của các phương pháp đánh giá 61
4.6.4 Thực hiện đánh giá 63
4.6.4.1 Đánh giá thuật toán với các hệ số dự đoán ban đầu 63
4.6.4.2 Tối ưu hệ số alpha cho thuật toán WF 66
4.6.4.3 Hệ số gamma cho thuật toán SS 68
4.6.4.4 Đánh giá thuật toán sau khi đã tối ưu 69
4.6.4.5 Đánh giá độ ổn định của thuật toán trong môi trường nhiễu khác 70
4.6.5 Kết luận chương 72
TÀI LIỆU THAM KHẢO 73
KẾT LUẬN ĐỒ ÁN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 76
PHỤ LỤC 77
Trang 7Đồ án tốt nghiệp
DANH MỤC CÁC HÌNH VẼ VÀ BẢNG
Hình 1.1 Tín hiệu tiếng nói [2] 16
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe [4] 19
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu [4]. .19
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng[4] .20
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau [4] 21
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11] .26
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11] .28
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11] 29
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11] 29
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11] 30
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS [12] 32
Bảng 2.4 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 33
Bảng 2.5 Thang đánh giá DCR 33
Hình 3.1 Sơ đồ khối cho hai thuật toán SS và WF 42
Hình 3.2 Sơ đồ khối của thuật toán Spectral subtraction [26] .46
Hình 3.3 Sơ đồ khối của thuật toán Wiener Filtering 49
Hình 3.4 Phân tích tín hiệu thành các frame [31] 50
Hình 3.5 quá trình thực hiện overlap và adding [32] .51
Hình 4.1 Sơ đồ thực hiện và đánh giá thuật toán tăng cường 54
Hình 4.2 Lưu đồ thuật toán SS 56
Hình 4.3 Lưu đồ thuật toán WF 57
Hình 4.4 dạng sóng và spectrogram của tín hiệu sạch 58
Hình 4.5 Dạng sóng và phổ của tín hiệu bị nhiễu xe hơi với SNR = 10dB 58
Trang 8Đồ án tốt nghiệp
Hình 4.6 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
SS với SNR = 10dB 59
Hình 4.7 Dạng sóng và spectrogram của tín hiệu sau khi xử lý nhiễu xe hơi bằng
WF với SNR = 10dB .59
Hình 4.8 Quy trình thực hiện đánh giá 61 Hình 4.9 Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu xe hơi 62 Hình 4.10 Đồ thị kiểm tra độ ổn định của đánh giá OE đối với nhiễu người nói
xung quanh 62
Hình 4.11 Đồ thị đánh giá Objective với hệ số IS=0.2, NoiseMargin=3 64 Hình 4.12 Đồ thị đánh giá Objective với hệ số IS=0.15, NoiseMargin=2 .65 Hình 4.14 Đồ thị đánh giá objective với hệ số alpha=0.5, 0.8,0.9 với IS=0.15 và
NoiseMargin = 2 67
Hình 4.15 Đồ thị đánh giá objective với hệ số gamma = 1 và gamma = 2 .68 Hình 4.16 Đồ thị đánh giá với IS=0.15 NoiMargin= 2 và alpha = 0.8 cho thuật
toán WF, gama=1 cho thuật toán SS .70
Hình 4.17 Đồ thị đánh giá OE với nhiễu người nói xung quanh .71
Trang 9Đồ án tốt nghiệp
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG
ANH
Từ viết
SNR Signal Noise Ratio Tỉ số tín hiệu trên nhiễu
SPL Sound Pressure Level Mức áp suất của âm thanh
MMSE Minium Mean-Squared Error Tối thiểu hoá sai lệch trung
bình bình phương
SVD Singular Value Decomposition Phép phân tích giá trị đơn
DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh
DTFT Discrete-Time Fourier Transform Phép biến đổi Fourier của tín
hiệu rời rạc
ROC Region of Convergence Miền hội tụ
IDTFT Inverse Discrete Fourier
Transform
Phép biến đổi ngược Fourier rời rạc
LTI Linear Time-Invariant Hệ thống tuyến tính và bất
biến theo thời gian
ITU-T
InternationalTelecommunications Union-Telecommunication
Hiệp hội tiêu chuẩn viễn thông quốc tế
ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối
MOS Mean Opinion Scores Đánh giá theo quan điểm
người nghe CCR Comparison Category Rating Đánh giá bằng cách so sánh DCR Degradation Category Rating Đánh giá suy giảm chất lượng
Trang 10Đồ án tốt nghiệp
SE Subjective Evaluation Đánh giá chủ quan
IS Itakura_Saito
LLR Log likehook Raito
WSS Weighted Spectral Slope Đo theo trọng số của phổ LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính
VAD Voice Activity Detection Thăm dò sự hoạt động của
tiếng nói Speech Enhancement Nâng cao chất lượng tiếng nói
SS Spectral Subtraction
Thuật toán giảm nhiễu tín hiệu tiếng nói bằng phương pháp trừ phổ
WF Wiener Filter
Thuật toán giảm nhiễu tín hiệu tiếng nói bằng cách sử dụng bộ lọc Wiener
Statistical-model-based
Thuật toán giảm nhiễu tín hiệu tiếng nói dựa trên nguyên lý thống kê
Overlap và Adding Xếp chồng và cộng
Trang 11Đồ án tốt nghiệp
MỞ ĐẦU
Trong cuộc sống, tiếng nói đóng một vai trò rất quan trọng đối với con người Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu Vì lý do đó mà các thuật toán về Speech Enhancement ra đời Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại
Xuất phát từ thực tế này nhóm đã bắt tay vào tìm hiểu về Speech Enhancement, nghiên cứu các thuật toán của nó để thực hiện và đánh giá hiệu quả của các thuật toán đó trong môi trường thực tế
Để thực hiện được đồ án, nhóm đã phân chia thành 3 phần tương ứng với 3 thành viên :
- Nguyễn Ngọc Trung : nghiên cứu và thực hiện thuật toán xử lý tiếng nói
sử dụng phương pháp Spectral Subtraction
- Nguyễn Phúc Nguyên : nghiên cứu và thực hiện thuật xử lý tiếng nói sử
dụng bộ lọc Wiener
- Nguyễn Thị Ngọc Diệp : nghiên cứu và thực hiện các phương pháp đánh
giá từ các kết quả đạt được của 2 thuật toán trên trong môi trường thực tế
Để thực hiện được nội dung phần của em thì đồ án của em được kết cấu thành 2 phần, gồm 5 chương :
Phần 1 : Lý thuyết
Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói Chương này giới thiệu một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các
Trang 12Đồ án tốt nghiệp
loại nhiễu , tín hiệu tiếng nói và sự hình thành tiếng nói Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement
Chương 2 : Đánh giá chất lượng tiếng nói Chương này giới thiệu một số phương pháp đánh giá hiệu quả của thuật toán giảm nhiễu trong tiếng nói Gồm
có đánh giá chủ quan và đánh giá khách quan
Chương 3 : Thuật toán Spectral Subtraction và Wiener Filtering Chương này đi sâu vào nghiên cứu nguyên lý cơ bản của từng thuật toán
Phần 2 : Thực hiện và đánh giá
Chương 4 : Thực hiện và đánh giá thuật toán Chương này trình bày các kết quả nhóm đã làm được gồm có thực hiện giảm nhiễu tín hiệu tiếng nói bằng hai thuật toán đã nghiên cứu ở chương 3 Đồng thời so sánh kết quả thu được bằng cách dùng các phương pháp đánh giá đã được giới thiệu ở chương 2
Phương pháp nghiên cứu của đồ án là xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó Dựa trên các kết quả đạt được sau khi
xử lý, sau đó sử dụng các phương pháp đánh giá khách quan để đánh giá tính hiệu quả của các thuật toán xử lý trong môi trường thực tế
Đồ án của nhóm đã thực hiện được 2 thuật toán xử lý tiếng nói trong Speech Enhancement và đưa ra được các kết quả đánh giá khách quan làm cơ sở
để đánh giá tính hiệu quả của 2 thuật toán trên Đó chính là điểm mới trong đồ án của nhóm so với các đồ án đã có trước trong cùng chủ đề nghiên cứu
Trang 13Đồ án tốt nghiệp
Trang 14Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI
1.1 Giới thiệu chương
Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói
là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điểm cuả tín hiệu tiếng nói Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement
1.2 Nâng cao chất lượng tiếng nói là gì ?
Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói Trong hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu Sự cải thiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi nghe và trong nhiều trường hợp nó còn giúp cho người nghe có thể nghe trong môi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài Các thuật toán âng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức
độ nào đó và nó được xem như là các thuật toán nén nhiễu
Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệu tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông Có rất nhiều kịch bản yêu cầu đặt
ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ô tô, nhà hàng, khi truyền đến đích Chính vì vậy mà các thuật toán trong nâng cao chất lượng tiếng nói có thể được sử dụng để cải thiện chất lượng của tiếng nói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xử lý của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn [1] Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng Trong thông tin liên lạc hàng không, các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất lượng và tính
Trang 15Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói
dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái Vì vậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc của quân sự Trong hệ thống hội nghị qua thoại, thì nguồn nhiễu xuất hiện ở một vùng nào đó thì nó sẽ được truyền đến tất cả các vùng khác Các thuật toán nâng cao chất lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong tiếng trước khi được khuếch đại
Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng Xét trên phương diện lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chất lượng và tính dễ nghe hay sự trong suốt của tiếng nói Tuy nhiên, xét trên phương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện được chất lượng của tiếng nói Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng
nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm
đi tính dễ nghe của tiếng nói Do đó, yêu cầu chính trong việc thiết kế một thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói
Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu
và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone
và cảm biến có thể có Sự giao thoa có thể xem như là nhiễu hoặc được xem như tín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thể được xem như là sự tranh chấp giữa các speaker Đặc tính âm nhiễu có thể được cộng thêm vào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống
kê với tín hiệu sạch Số lượng microphone cũng có khả năng ảnh hưởng đến tính hiệu quả của các thuật toán Speech enhancement