1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói

54 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đồ Án Tốt Nghiệp: Tìm Hiểu Thuật Toán Trừ Phổ Trong Xử Lý Tiếng Nói
Tác giả Lương Văn Phượng
Người hướng dẫn Cô Phan Thị Lan Anh
Trường học Cao Đẳng CNTT Hữu Nghị Việt Hàn
Chuyên ngành Tin Học Viễn Thông
Thể loại Đồ Án Tốt Nghiệp
Định dạng
Số trang 54
Dung lượng 1,44 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

g 1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực tế. Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế. Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của mức SNR. Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh. Phép đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound pressure level). Khoảng cách giữa người nói và người nghe cũng ảnh hưởng đến mức cường độ âm thanh, nó tương ứng với phép đo được thực hiện khi microphone được đặt tại những vị trí có khoảng cách khác nhau. Khoảng cách đặc trưng trong giao tiếp facetoface là 1m, khi khoảng cách đó tăng gấp đôi thì mức cường độ âm giảm đi 6 dB. Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và nhiễu trong các môi trường khác nhau. Mức độ của nhiễu nhỏ nhất ở trong các môi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà. Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB SPL. Và khuyến nghị đưa ra là mức tỷ số SNR có hiệu quả trong các môi trường này là 5 đến 15 dB. Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điện ngầm, ở trên máy bay, nó đạt khoảng 70 đến 75 dB SPL. Và mức độ âm của tiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số SNR trong các môi trường này gần như là 0 dB

Trang 1

Trước tiên em xin gửi lời cảm ơn chân thành đến trường Cao Đẳng CNTT Hữu Nghị Việt Hàn đã tạo điều kiện thuận lợi cho em được ngồi học trong lớp học Tin Học Viễn Thông Khóa 4 của trường, em gửi lời cảm ơn chân thành đến quý thầy cô bộ môn thuộc khoa công nghệ thông tin ứng dụng đã nhiệt tình giảng dạy, cung cấp kiến thức

và giúp đỡ động viên để em có thể hoàn thành được đồ án này Đặc biệt gửi lời cảm ơn chân thành tới cô Phan Thị Lan Anh đã hướng dẫn tận tình cho em trong suốt thời gian làm đồ án

Xin cảm ơn những người thân trong gia đình tôi, cảm ơn những người bạn thân thiết đã giúp đỡ tôi trong những lúc khó khăn nhất

Sinh viên thực hiện:

Lương Văn Phượng

Trang 2

LỜI CẢM ƠN i

MỤC LỤC ii

DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH v

DANH MỤC BẢNG BIỂU vii

DANH MỤC HÌNH ẢNH viii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 2

1.1 Giới thiệu chương 2

1.2 Nâng cao chất lượng tiếng nói là gì ? 2

1.3 Tín hiệu, hệ thống và xử lý tín hiệu 3

1.3.1 Tín hiệu 3

1.3.2 Nguồn tín hiệu 4

1.3.3 Hệ thống và xử lý tín hiệu 4

1.3.4 Phân loại tín hiệu 5

1.4 Lý thuyết về nhiễu 5

1.4.1 Nguồn nhiễu 5

1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau 7

1.5 Tín hiệu rời rạc theo thời gian 8

1.5.1 Tín hiệu bước nhảy đơn vị 8

1.5.2 Tín hiệu xung đơn vị 9

1.5.3 Tín hiệu hàm mũ 9

1.5.4 Tín hiệu hàm sin rời rạc 9

1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT 9

1.6.1 Sự hội tụ của phép biến đổi Fourier 10

1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier 10

1.6.3 Phép biến đổi Fourier ngược 10

1.6.4 Các tính chất của phép biến đổi Fourier 11

Trang 3

1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói 13

1.7.1 Trừ phổ 13

1.7.2 Mô hình thống kê 13

1.8 Tín hiệu tiếng nói 13

1.9 Cơ chế tạo tiếng nói 15

1.9.1 Bộ máy phát âm của con người 15

1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói 16

1.9.3 Phân loại âm 16

1.9.4 Thuộc tính âm học của tiếng nói 16

1.10 Kết luận chương 17

CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 18

2.1 Giới thiệu chương 18

2.2 Phương pháp đánh giá chủ quan 18

2.2.1 Các phương pháp đánh giá tuyệt đối 18

2.2.2 Các phương pháp đánh giá tương đối 19

2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu 19

2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng 20

2.3 Phương pháp đánh giá khách quan 20

2.4 Kết luận chương 21

CHƯƠNG 3: THUẬT TOÁN SPECTRAL–SUBTRACTION 22

3.1 Giới thiệu chương 22

3.2 Thuật toán Spectral Subtraction 22

3.2.1 Giới thiệu chung 22

3.2.2 Nguyên tắc cơ bản của thuật toán 22

3.2.3 Spectral subtraction đối với phổ biên độ 23

3.2.4 Spectral subtraction đối với phổ công suất 24

3.3 Sơ đồ khối của thuật toán Spectral Subtraction 25

3.3.1 Phân tích tín hiệu theo từng frame 26

Trang 4

3.3.3 Hàm xử lý giảm nhiễu 27

3.3.4 Ước lượng và cập nhật nhiễu 28

3.3.4.1 Voice activity detection 28

3.3.4.2 Quá trình ước lượng và cập nhật nhiễu 29

3.4 Kết luận chương 29

CHƯƠNG 4: MÔ PHỎNG BẰNG MATLAP 30

4.1 Giới thiệu chương 30

4.2 Giới thiệu chung về phần mềm Matlab 30

4.2.1 Khái niệm về Matlab 30

4.2.2 Các tính năng chính 30

4.3 Quy trình thực hiện và đánh giá thuật toán 31

4.4 Lưu đồ thuật toán Spectral Subtraction 32

4.5 Thực hiện và đánh giá thuật toán 33

4.6 Kết luận chương 36

4.7 Matlap Code của thuận toán giảm nhiễu 36

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ĐỀ TÀI 43

TÀI LIỆU THAM KHẢO ix

PHỤ LỤC x

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN xi

Trang 5

TIẾNG ANH

Từ viết

ACR Absolute Categories Rating Đánh giá theo giá trị tuyệt đối

CCR Comparison Category Rating Đánh giá bằng cách so sánh

DCR Degradation Category Rating Đánh giá suy giảm chất lượng

DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc

DTFT Discrete- Time Fourier Transform Phép biến đổi Fourier của tín hiệu rời

rạc

IDTFT Inverse Discrete Fourier

ITU-T International Telecommunications

Union Telecommunication

Hiệp hội tiêu chuẩn viễn thông quốc tế

IS IS Itakura_Saito

LLR Log Likehook Raito

LPC LPC Linear Prediction Coefficients Hệ số dự đoán tuyến tính

theo thời gian

MMSE Minium Mean-Squared Error Tối thiểu hoá sai lệch trung bình bình

phương

SVD Singular Value Decomposition Phép phân tích giá trị đơn

Trang 6

phổ VAD Voice Activity Detection Thăm dò sự hoạt động của tiếng nói

SMB Statistical Model Based Thuật toán giảm nhiễu tín hiệu tiếng

nói dựa trên nguyên lý thống kê WSS Weighted Spectral Slope Đo theo trọng số của phổ

Trang 7

Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS 19 Bảng 2.2 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR 19 Bảng 2.3 Thang đánh giá DCR 20

Trang 8

Hình 1.1 Tín hiệu tiếng nói 4

Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe 6

Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu 6

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng 7

Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau 8

Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz 13

Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” 14

Hình 1.8 Mặt cắt dọc của cơ quan tạo tiếng nói 15

Hình 1.9 Mô hình kỹ thuật tạo tiếng nói 16

Hình 1.10 Bảng phân loại âm vị trong tiếng Anh của người Mỹ 16

Hình 3.2 Phân tích tín hiệu thành các frame 26

Hình 4.1 Sơ đồ thực hiện và đánh giá thuật toán tăng cường 31

Hình 4.2 Lưu đồ thuật toán SS 32

Hình 4.3 Dạng sóng và phổ của tín hiệu sạch 33

Hình 4.4 Dạng sóng và phổ của tín hiệu bị nhiễu với SNR = 15dB 33

Hình 4.5 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật toán trừ phổ biên độ 34

Hình 4.6 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật toán trừ phổ công suất 34

Hình 4.7 Dạng sóng và phổ của tín hiệu sạch 34

Hình 4.8 Dạng sóng và phổ của tín hiệu bị nhiễu với SNR = 5dB 35

Hình 4.9 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật toán trừ phổ biên độ 35

Hình 4.10 Dạng sóng và phổ của tín hiệu sau khi xử lý nhiễu bằng thuật toán trừ phổ công suất 35

Trang 9

MỞ ĐẦU

Tiếng nói đóng vai trò rất quan trọng trong thông tin liên lạc Quá trình truyền tín hiệu tiếng nói được truyền qua các phương tiện thông tin bị các loại nhiễu tác động nên chất lượng suy giảm Cùng với tiếng nói là sự xuất hiện của rất nhiều các loại dịch vụ thoại như ngày nay Tuy nhiên việc bảo toàn được tín hiệu tiếng nói trên các dịch vụ này là điều vô cùng khó khăn do sự mất mát và suy giảm tín hiệu và nhất là ảnh hưởng của nhiễu sẽ làm cho tín hiệu tiếng nói không còn như ban đầu Vì vậy, các thuật toán

về Speech Enhancement ra đời Tuy không thể bảo toàn được y nguyên tín hiệu ban đầu nhưng sử dụng các thuật toán này ta có thể tăng cường được chất lượng tiếng nói

và giảm bớt nhiễu nền để tín hiệu sau khi xử lý đến người nghe vẫn mang đầy đủ nội dung thông tin và không gây khó chịu bởi nhiễu đối với người nghe Vì vậy, Speech Enhancement đóng một vai trò rất quan trọng trong lĩnh vực thoại

Trong bài đồ án này chúng ta sẽ đi tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói Thuật toán dựa trên nguyên tắc thừa nhận sự có mặt của nhiễu và có thể đạt được mục đích ước lượng phổ của tiếng nói bằng cách trừ đi phổ của nhiễu với phổ của tiếng nói đã bị nhiễu Ta sẽ phân tích từng phần theo sự phát triển của thuật toán và đánh giá kết quả mà thuật toán mang lại

Để thực hiện được nội dung thì đồ án của em được kết cấu gồm 4 chương :

Chương 1 : Tổng quan về nâng cao chất lượng tiếng nói: Chương này giới thiệu

một số khái niệm cơ bản về tín hiệu số, các phép biến đổi, tìm hiểu về các loại nhiễu, tín hiệu tiếng nói và sự hình thành tiếng nói Bên cạnh đó còn giới thiệu khái quát về một số thuật toán trong Speech Enhancement

Chương 2 : Đánh giá chất lượng tiếng nói: Chương này giới thiệu một số

phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói

Chương 3 : Thuật toán Spectral Subtraction : Chương này đi sâu vào nghiên cứu

nguyên lý cơ bản của thuật toán

Chương 4 : Mô phỏng bằng phần mềm matlap: Chương này mô phỏng bằng

phần mềm matlap thực hiện giảm nhiễu tín hiệu tiếng nói bằng thuật toán đã nghiên cứu ở chương 3 từ đó đưa ra nhận xét đánh giá

Phương pháp nghiên cứu của đồ án là tìm hiểu lý thuyết của thuật toán để xây dựng lưu đồ của thuật toán, thực hiện xử lý tiếng nói bằng các thuật toán đó Dựa trên các kết quả đạt được sau đó sử dụng phương pháp đánh giá khách quan để đánh giá tính hiệu quả của thuật toán xử lý trong môi trường thực tế

Trang 10

CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG

TIẾNG NÓI

1.1 Giới thiệu chương

Nội dung của chương trình bày mục đích của nâng cao chất lượng tiếng nói là gì, các loại nhiễu trong tiếng nói, cách hình thành của tiếng nói và các đặc điểm cuả tín hiệu tiếng nói Chương này còn giới thiệu khái quát về các thuật toán sử dụng trong speech enhancement

1.2 Nâng cao chất lượng tiếng nói là gì ?

Nâng cao chất lượng tiếng nói liên quan đến việc cải thiện cảm nhận đối với tiếng nói bị suy giảm chất lượng do sự có mặt của nhiễu trong tiếng nói Trong hầu hết các ứng dụng, thì mục đích của nâng cao chất lượng tiếng nói là sự cải thiện chất lượng và tính dễ nghe của tiếng nói đã bị suy giảm do nhiễu Sự cải thiện về chất lượng mà tốt thì nó làm giảm đi sự khó khăn cho người nghe khi nghe và trong nhiều trường hợp nó còn giúp cho người nghe có thể nghe trong môi trường có nhiễu với mức độ cao và nhiễu đó tồn tại trong thời gian dài Các thuật toán nâng cao chất lượng tiếng nói làm giảm và nén nhiễu nền đến một mức độ nào đó và nó được xem như là các thuật toán nén nhiễu

Trong nhiều trường hợp, sự cần thiết của việc tăng cường trong tín hiệu tiếng nói xuất hiện khi tín hiệu tiếng nói hình thành trong vùng có nhiễu hoặc ảnh hưởng bởi nhiễu trong các kênh truyền thông Có rất nhiều kịch bản yêu cầu đặt ra đối với Speech enhancement trong nhiều trường hợp khác nhau, ví dụ đối với thông tin thoại, trên các

hệ thống điện thoại tế bào thì chịu sự ảnh hưởng nhiễu nền từ ô tô, nhà hàng, khi truyền đến đích Chính vì vậy mà các thuật toán trong nâng cao chất lượng tiếng nói có thể được sử dụng để cải thiện chất lượng của tiếng nói tại điểm thu, mặt khác, nó có thể được sử dụng trong các khối tiền xử lý của hệ thống mã hoá tiếng nói dùng trong các điện thoại tế bào chuẩn Khi nhận dạng tiếng nói, tiếng nói bị nhiễu được tiền xử lý bởi các thuật toán nâng cao chất lượng trước khi được nhận dạng Trong thông tin liên lạc hàng không, các kỹ thuật nâng cao tiếng nói cần được sử dụng để cải thiện chất lượng và tính dễ nghe của tiếng nói của phi công bị ảnh hưởng bởi nhiễu trong buồng lái Vì vậy mà nâng cao chất lượng tiếng nói cũng rất cần thiết trong thông tin liên lạc

Trang 11

lượng tiếng nói được sử dụng như tiền xử lý hoặc làm sạch nhiễu trong tiếng trước khi được khuếch đại

Như các ví dụ minh họa ở trên thì mục tiêu của các thuật toán tăng cường tuỳ thuộc vào các ứng dụng mà chúng ta đang dùng Xét trên phương diện lý tưởng, thì chúng ta mong muốn Speech enhancement cải thiện được cả chất lượng và tính dễ nghe hay sự trong suốt của tiếng nói Tuy nhiên, xét trên phương diện thực tế thì các thuật toán Speech enhancement chỉ có thể cải thiện được chất lượng của tiếng nói Nó

có thể làm giảm được nhiễu nền trong tiếng nói nhưng nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm đi tính dễ nghe của tiếng nói Do đó, yêu cầu chính trong việc thiết kế một thuật toán Speech enhancement phải đảm bảo nén được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói

Giải pháp tổng quát trong các vẩn đề của Speech enhancement phụ thuộc rất lớn vào ứng dụng chúng ta cần sử dụng, đó là các vần đề như là nguồn nhiễu và giao thoa gây ra nhiễu, mối liên hệ giữa nhiễu và tín hiệu sạch, số microphone và cảm biến có thể có Sự giao thoa có thể xem như là nhiễu hoặc được xem như tín hiệu tiếng nói, nó tuỳ thuộc vào môi trường ta đang xét, nó có thể được xem như là sự tranh chấp giữa các speaker Đặc tính âm nhiễu có thể được cộng thêm vào tín hiệu sạch nếu âm thanh được hình thành trong căn phòng bị dội âm thanh Hơn nữa, nhiễu có thể có tính tương quan hoặc không tương quan về mặt thống kê với tín hiệu sạch Số lượng microphone cũng có khả năng ảnh hưởng đến tính hiệu quả của các thuật toán Speech enhancement

1.3 Tín hiệu, hệ thống và xử lý tín hiệu

1.3.1 Tín hiệu

Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức Về mặt toán học,

ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các biến độc lập khác Chẳng hạn như, hàm: x(t) = 20t2 mô tả tín hiệu biến thiên theo biến thời gian

t Hay một ví dụ khác, hàm: s(x,y) = 3x + 5xy + y2 mô tả tín hiệu là hàm theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt phẳng

Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng hàm theo biến độc lập Tuy nhiên, trong thực tế, các mối quan hệ giưa các đại lượng vật lý

và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín hiệu như trong hai

ví dụ vừa nêu trên

Trang 12

Hình 1.1 Tín hiệu tiếng nói

Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo thời gian Chẳng hạn khi ta phát âm từ “away”, dạng sóng của nó được biểu diễn như hình trên

1.3.2 Nguồn tín hiệu

Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào đó

Ví dụ tín hiệu tiếng nói được tạo ra bằng cách ép không khí đi qua dây thanh âm Một bức ảnh có được bằng cách phơi sáng một tấm phim chụp một cảnh/đối tượng nào đó Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống này đáp ứng lại một kích thích nào đó Trong tín hiệu tiếng nói, hệ thống là hệ thống phát âm,

gồm môi, răng, lưỡi, dây thanh…Kích thích liên quan đến hệ thống được gọi là nguồn

tín hiệu Như vậy ta có nguồn tiếng nói, nguồn ảnh và các nguồn tín hiệu khác

1.3.3 Hệ thống và xử lý tín hiệu

Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu Ví dụ,

bộ lọc dùng để giảm nhiễu trong tín hiệu mang tin được gọi là một hệ thống Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng hạn, ta nói rằng đã xử lý tín hiệu

đó Trong trường này, xử lý tín hiệu liên quan đến lọc nhiễu ra khỏi tín hiệu mong muốn

Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán được

thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác

Ở đây ta cần lưu ý đến định nghĩa hệ thống, nó không chỉ đơn thuần là thiết bị

Trang 13

mềm Ví dụ khi xử lý số tín hiệu bằng mạch logic, hệ thống xử lý ở đây là phần cứng Khi xử lý bằng máy tính số, tác động lên tín hiệu bao gồm một loạt các phép toán thực hiện bởi chương trình phần mềm Khi xử lý bằng các bộ vi xử lý-hệ thống bao gồm kết hợp cả phần cứng và phần mềm, mỗi phần thực hiện các công việc riêng nào đó

1.3.4 Phân loại tín hiệu

Các phương pháp ta sử dụng trong xử lý tín hiệu phụ thuộc chặt chẽ vào đặc điểm của tín hiệu Có những phương pháp riêng áp dụng cho một loại tín hiệu nào đó

Do vậy, trước tiên ta cần xem qua cách phân loại tín hiệu liên quan đến những ứng dụng cụ thể Chúng ta có thể phân tín hiệu thành các loại :

- Tín hiệu nhiều hướng và tín hiệu đa kênh

- Tín hiệu liên tục và tín hiệu rời rạc

- Tín hiệu biên độ liên tục và tín hiệu biên độ rời rạc

- Tín hiệu xác định và tín hiệu ngẫu nhiên

Nhiễu có thể hình thành ở một nơi cố định, và không thay đổi theo thời gian, ví

dụ như là tiếng ồn phát ra từ quạt chạy trong PC Nhiễu cũng có thể không đứng yên một chỗ, ví dụ như nhiễu trong nhà hàng, đó là tiếng nói của nhiều người xen lẫn với nhiều cách khác nhau với tiếng ồn phát ra từ nhà bếp Các đặc tính về phổ cũng như thời gian của nhiễu trong nhà hàng thay đổi không theo quy luật nên việc nén nhiễu trong các môi trường có nhiễu thay đổi như vậy sẽ khó khăn hơn nhiều so với các nguồn nhiễu đứng yên không thay đổi

Các đặc tính đặc biệt khác nhau của các loại nhiễu đó là hình dạng của phổ và sự phân bố của năng lượng nhiễu trong miền tần số Ví dụ, nhiễu gây ra bởi gió thì năng lượng của nó tập trung ở tần số thấp dưới 500Hz Nhưng đối với nhiễu trong nhà hàng, trên xe, trên tàu thì khác, năng lượng của nó được phân bố trên một dải tần số rộng

Trang 14

Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe

Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu

Trang 15

Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà

hàng

1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau

Điểm tới hạn trong việc thiết kế các thuật toán của Speech enhancement là sự nhận biết dải biến thiên của tiếng nói và mức độ cường độ nhiễu trong môi trường thực

tế Từ đó, chúng ta có thể mô tả miền biến thiên của mức độ tỷ số tín hiệu trên nhiễu(SNR) được bắt gặp trong môi trường thực tế Điều này rất quan trọng để đánh giá tính hiệu quả của các thuật toán Speech enhancement trong việc nén nhiễu và cải thiện chất lượng của tiếng nói trong dải biến thiên của mức SNR

Mức độ của tiếng nói và nhiễu được đo lường bằng mức độ âm thanh Phép đo lường ở đây là đo mức độ áp suất của âm thanh tính bằng dB SPL(sound pressure level) Khoảng cách giữa người nói và người nghe cũng ảnh hưởng đến mức cường độ

âm thanh, nó tương ứng với phép đo được thực hiện khi microphone được đặt tại những vị trí có khoảng cách khác nhau Khoảng cách đặc trưng trong giao tiếp face-to-face là 1m, khi khoảng cách đó tăng gấp đôi thì mức cường độ âm giảm đi 6 dB

Hình bên dưới này là sự tổng hợp về mức độ âm trung bình giữa tiếng nói và nhiễu trong các môi trường khác nhau Mức độ của nhiễu nhỏ nhất ở trong các môi trường như phòng học, trong nhà ở, trong bệnh viện và trong các toà nhà Trong các môi trường khác nhau, thì mức độ âm của nhiễu nằm trong phạm vi biến thiên từ 50 đến 55 dB SPL, và mức độ âm của tiếng nói là 60 đến 70 dB SPL Và khuyến nghị đưa

Trang 16

ra là mức tỷ số SNR có hiệu quả trong các môi trường này là 5 đến 15 dB Mức độ âm của nhiễu rất cao trong các môi trường ở tàu điện ngầm, ở trên máy bay, nó đạt khoảng

70 đến 75 dB SPL Và mức độ âm của tiếng nói trong các môi trường này cũng đạt mức đó, nên mức tỷ số SNR trong các môi trường này gần như là 0 dB

Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác

nhau

1.5 Tín hiệu rời rạc theo thời gian

Tín hiệu rời rạc theo thời gian x(n) có thể tạo ra bằng cách lấy mẫu tín hiệu liên tục theo thời gian xa(t) với chu kỳ lấy mẫu là Ts (tần số lấy mẫu Fs = 1/ T) Ta có

xa(t)|t=nT = xa(nT) = x(n) , -∞ < n< ∞ (1.1) Lưu ý n là biến nguyên, x(n) là hàm theo biến nguyên, chỉ định tại các giá trị n nguyên Khi n không nguyên, thì x(n) không xác định, chứ không phải bằng 0 Trong nhiều sách về xử lý tín hiệu số, người ta quy ước: khi biến nguyên thì biến được đặt trong dấu ngoặc vuông và khi biến liên tục thì được đặt trong dấu ngoặc tròn Từ đây trở đi, ta ký hiệu tín hiệu rời rạc là: x[n]

Một số tín hiệu rời rạc cơ bản

1.5.1 Tín hiệu bước nhảy đơn vị

0,1

no n

,0

,1

Trang 17

1.5.2 Tín hiệu xung đơn vị

0

0,

1][

n

n n

no n no

n

,0

,1][

1.5.3 Tín hiệu hàm mũ

x[n] = C.an (C,a : là những hằng số) (1.7) Tín hiệu hàm mũ phía phải : x[n] = C.an.u[n]

Tín hiệu hàm mũ phía trái : x[n] = C.an.u[-n]

1.5.4 Tín hiệu hàm sin rời rạc

A : là biên độ của tín hiệu sin

 : pha ban đầu của tín hiệu sin

1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT

Phép biến đổi này áp dụng để phân tích cho cả tín hiệu và hệ thống Nó được dùng trong trường hợp dãy rời rạc dài vô hạn và không tuần hoàn

e n x

Ta nhận xét thấy rằng tuy tín hiệu rời rạc trong miền thời gian nhưng DTFT lại liên tục và tuần hoàn trong miền tần số

DTFT chính là hàm phức theo biến tần số thực Ta gọi DTFT là phổ phức

(complex spectrum) hay ngắn gọn là phổ của tín hiệu rời rạc x[n]

Trang 18

1.6.1 Sự hội tụ của phép biến đổi Fourier

Không phải là tất cả DTFT đều tồn tại (hội tụ) vì DTFT chỉ hội tụ khi

e n

n j n

n j n

n j n

n j n

n j

n x e

n x

e n x e

n x

e n x e

n x

| ] [

| ]

[

|

||

] [

| ]

[

] [ ]

| <thì biến đổi Fourier hội tụ

1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier

n

n j e

Như vậy, biến đổi Fourier chính là biến đổi Z tính trên đường tròn đơn vị Dựa vào đây, ta có thể phát biểu lại điều kiện tồn tại của DTFT như sau :

Biến đổi Fourier của một tín hiệu chỉ tồn tại khi ROC của biến Z của tín hiệu đó

có chứa đường tròn đơn vị

1.6.3 Phép biến đổi Fourier ngược

- Biểu thức tính biến đổi Fourier ngược

Ta thấy X() là một hàm tuần hoàn với chu kỳ 2 , do j

e tuần hoàn với chu kỳ

2

j  j  jjj

e e e e

Trang 19

Nhân 2 vế của biểu thức DTFT với j l

e

2

1 rồi lấy tích phân trong khoảng

(,) tacó

][2

1][]

[2

1)

(2

l x d e n

x d

e e n x d

e

n

l j n

n j l

Ta có thể tính IDFT bằng hai cách : một là tính trực tiếp tích phân trên, hai là chuyển về biến đổi Z rồi tính như biến đổi Z ngược Tuỳ vào từng trường hợp cụ thể

mà ta chọn phương pháp nào cho thuận tiện

1.6.4 Các tính chất của phép biến đổi Fourier

Tính tuyến tính: ax1[n]bx2[n]aX1()bX2() (1.17) Tính dịch thời gian:

) ( ] [nX

x (1.18)

) ( ]

X e n n

2

1)(

2

1][)cos(

)(

][

)(][

0 0

n x n

X n x e

X n x

n j

2

1][]

Trang 20

1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc

Trong miền tần số, mỗi tín hiệu đều có một đặc điểm riêng của nó Ví dụ như, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả các thành phần tần số Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi sự biến thiến nhanh và những xung nhọn là do tần số cao Như xung vuông chẳng hạn, nó chứa tất

cả tần số và cả tần số cao

Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tín hiệu

Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn của các sóng sin riêng có thể kết hợp lại hợp với nhau tạo ra xung vuông Thông tin này quan trọng vì nhiều lý do Ví dụ, thành phần tần số trong một mẫu nhạc chỉ cho ta biết các đặc trưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay hơn Để dự đoán các ảnh hưởng của bộ lọc trên tín hiệu, cần phải biết không chỉ bản chất của bộ lọc mà còn phải biết

cả phổ của tín hiệu nữa

1.6.6 Phổ biên độ và phổ pha

Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ pha (phase spectrum) Phổ biên độ chỉ ra độ lớn của từng thành phần tần số Phổ pha chỉ quan hệ pha giữa các thành phần tần số khác nhau Công cụ để tính phổ tín hiệu rời rạc không tuần hoàn là DTFT

Để tính phổ tín hiệu , ta qua hai bước : một là tính DTFT của tín hiệu – là X(), hai là tính biên độ và pha của X()

) (

)()(   j 

e X

ở đây |X()| là phổ biên độ và () là phổ pha

Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là một hàm chẵn theo tần số  và phổ pha là một hàm lẻ theo 

Do đó, nếu biết phổ X() trong khoảng 0 đến, ta có thể suy ra phổ trong toàn dải tần số Để dễ giải thích phổ, tần số số  từ 0 đến thường được chuyển đổi thành tần số tương tự từ 0 đến fs/2 nếu tần số lấy mẫu là fs

Trang 21

Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz

1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói

1.7.1 Trừ phổ

Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm nhiễu đơn giản nhất Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của tín hiệu Và nhiễu đó

sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch SS lúc ban đầu được đề xuất bởi Weiss trong miền tương quan, và sau đó được

đề xuất bởi Boll trong miền chuyển đổi Fourier

1.7.2 Mô hình thống kê

Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê Nó là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một phương thức ước lượng tuyến tính hoặc phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch Hai thuật toán được sử dụng đó là thuật toán Wiener và minium mean-squared error(MMSE)

1.8 Tín hiệu tiếng nói

Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượng thay đổi theo thời gian Tuy nhiên khi khảo sát trong một khoảng thời gian đủ ngắn (khoảng 10 đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi

Trang 22

Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er”

trong từ “her”

Dạng sóng của tín hiệu có thể được chia thành một số phân đoạn tương ứng với các âm/từ Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như tuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu

Những kiểu của đoạn tiếng nói, chu kỳ, nhiễu, khoảng lặng… thường được tìm thấy trong tiếng nói trôi chảy với sự thay đổi về cường độ, khoảng thời gian và đặc tính phổ

Trang 23

1.9 Cơ chế tạo tiếng nói

1.9.1 Bộ máy phát âm của con người

10.Nắp đóng của thanh quản

11 Dây thanh giả

Trang 24

1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói

Hình 1.9 Mô hình kỹ thuật tạo tiếng nói

1.9.3 Phân loại âm

Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi, bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper

Hình 1.10 Bảng phân loại âm vị trong tiếng Anh của người Mỹ

1.9.4 Thuộc tính âm học của tiếng nói

Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ

và được thể hiện bằng các âm vị khác nhau Số lượng các âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50 Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết Âm tiết đóng vai trò

Trang 25

1.10 Kết luận chương

Chương này đã trình bày được mục đích chính của speech enhancement là triệt nhiễu hoặc là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu Ngoài ra, nội dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để

từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng với mỗi trường hợp cụ thể

Trang 26

CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI

2.1 Giới thiệu chương

Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói

Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh giá theo cảm nhận của người nghe theo một thang đo đã được xác định trước hoặc dựa trên phép đo các thuộc tính của tín hiệu

Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý

2.2 Phương pháp đánh giá chủ quan

Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói

Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói Về bản chất thì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân người nghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá Chất lượng có rất nhiều chỉ tiêu không thể đếm hết được Tùy vào các mục đích thực

tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếng nói Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉ tiêu

và tính chủ quan cao Có một số lượng lớn các đặc trưng để đánh giá khi thực hiện phương pháp nghe chủ quan này Để kết quả đánh giá là đáng tin cậy thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết Dựa trên thực tế đó ITU-T đã đưa ra các khuyến nghị ban hành trong các chuẩn từ ITU-T Rec P.800 đến ITU-T Rec P.899 Có hai loại đánh giá chính là Tuyệt đối và Tương đối Sự đánh giá dựa trên các thang điểm chuẩn đã được đề ra trong chuẩn ITU-T Rec.P.800

2.2.1 Các phương pháp đánh giá tuyệt đối

Phương pháp đánh giá tuyệt đối ACR được sử dụng rộng rãi ITU-T đã khuyến

nghị dùng phương pháp này trong hầu hết các ứng dụng Thang đo được khuyến nghị

Trang 27

 Mean Opinion Scores (MOS)

Được mô tả trong khuyến nghị P.800 của ITU-T, MOS là một phép đo chất lượng thoại nổi tiếng Đây là một phương pháp đo chất lượng mang tính chất chủ quan Có hai phương pháp kiểm tra là đánh giá đàm thoại và đánh giá độ nghe

Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MOS

Score Quality of the Speech Level of Distortion

2.2.2 Các phương pháp đánh giá tương đối

Nhìn chung phương pháp đánh giá này có độ nhạy cao hơn đối với sự suy giảm chất lượng của tín hiệu đã qua xử lý

Dạng đơn giản nhất của phương pháp này là thích nghe mẫu nào hơn Preference

test hay còn gọi là so sánh đánh giá theo từng cặp tín hiệu Paired Comparison Test

Đối với phương pháp này thì người nghe sẽ được nghe hai mẫu thoại và sẽ đánh giá thích mẫu tín hiệu nào hơn

Đánh giá bằng cách so sánh Comparison Category Rating (CCR) được khuyến

nghị bởi ITU-T để đánh giá các hệ thống dùng nâng cao chất lượng tiếng nói

Bảng 2.2 Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR

Rating Quality of Speech

Ngày đăng: 17/05/2022, 16:32

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Tín hiệu tiếng nói. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.1 Tín hiệu tiếng nói (Trang 12)
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.2 Dạng và sự phân bố phổ năng lượng trung bình nhiễu trên xe (Trang 14)
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.3 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trên tàu (Trang 14)
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.4 Dạng và sự phân bố phổ năng lượng trung bình của nhiễu trong nhà hàng (Trang 15)
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.5 Mức nhiễu và tiếng nói (được đo bằng SPL dB) trong các môi trường khác nhau (Trang 16)
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz (Trang 21)
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” (Trang 22)
Hình 1.8 Mặt cắt dọc của cơ quan tạo tiếng nói. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.8 Mặt cắt dọc của cơ quan tạo tiếng nói (Trang 23)
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói (Trang 24)
Hình 1.9 Mô hình kỹ thuật tạo tiếng nói. 1.9.3Phân loại âm - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 1.9 Mô hình kỹ thuật tạo tiếng nói. 1.9.3Phân loại âm (Trang 24)
Bảng 2.1.Thang điểm đánh giá chất lượng tiếng nói theo MO S. - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Bảng 2.1. Thang điểm đánh giá chất lượng tiếng nói theo MO S (Trang 27)
Bảng 2.2. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Bảng 2.2. Thang điểm đánh giá chất lượng tín hiệu tiếng nói theo CCR (Trang 27)
Bảng 2.3. Thang đánh giá DCR - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Bảng 2.3. Thang đánh giá DCR (Trang 28)
Hình 3.1 Sơ đồ khối thuật toán Spectral Subtraction - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 3.1 Sơ đồ khối thuật toán Spectral Subtraction (Trang 33)
Hình 3.2 Phân tích tín hiệu thành các frame. 3.3.2Overlap và Adding - Đồ án Tốt nghiệp: Tìm hiểu thuật toán trừ phổ trong xử lý tiếng nói
Hình 3.2 Phân tích tín hiệu thành các frame. 3.3.2Overlap và Adding (Trang 34)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w