1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các phương pháp nâng cao chất lượng tiếng nói

68 45 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 1,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các đóng góp mới Đã đề xuất được một thuật toán nâng cao chất lượng tiếng nói có những ưu điểm hơn so với các phương pháp hiện có đặc biệt là trong ứng dụng cho các hệ thống nhận dạng

Trang 1

-NGÔ THỊ LÊ

NGHIÊN CỨU CÁC PHƯƠNG PHÁP NÂNG CAO CHẤT

LƯỢNG TIẾNG NÓI

LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: ĐO LƯỜNG VÀ CÁC HỆ THỐNG

ĐIỀU KHIỂN

Người hướng dẫn: TS.Nguyễn Quốc Cường

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan quyển luận văn “Nghiên cứu các phương pháp nâng cao chất lượng tiếng nói” là công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn

trực tiếp của TS Nguyễn Quốc Cường – Đại học Bách Khoa Hà Nội Các số liệu, kết quả nghiên cứu trình bày trong luận văn là trung thực và chưa từng được ai công

bố trong bất kỳ một công trình nghiên cứu nào khác

Học viên

Ngô Thị Lê

Trang 3

MỤC LỤC

LỜI CAM ĐOAN 1

DANH MỤC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 4

DANH MỤC HÌNH VẼ 5

PHẦN MỞ ĐẦU 6

Chương 1 Giới thiệu tổng quan về nâng cao chất lượng tiếng nói 8

1.1 Nâng cao chất lượng tiếng nói là gì 8

1.2 Tại sao phải nâng cao chất lượng tiếng nói 9

1.3 Lịch sử phát triển nâng cao chất lượng tiếng nói 10

1.4 Ứng dụng của nâng cao chất lượng tiếng nói 10

1.5 Đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói như thế nào 11

Chương 2 Trình bày khái quát về các phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc 12

2.1 Loại bỏ nhiễu thích nghi (ANC) 13

2.1.1 Multichannel adaptive noise cancellation (MANC) 14

2.1.2 Multichannel crosstalk resistant ANC (MCRANC) 16

2.2 Nâng cao chất lượng tiếng nói sử dụng phương pháp băng thông nhỏ subband 22

2.3 Phân tích các thành phần độc lập 24

2.3.1 Mô hình phân tích và trộn 24

2.3.2 Phân tách nguồn 26

2.4 Beamforming 29

Chương 3 Trình bày các thuật toán sử dụng trong phương pháp beamformer 31

3.1 Delay and Sum beamforming (DSB) 31

3.2 Generalized Sidelobe Canceller GSC 34

3.2.1 Cấu trúc GSC 34

3.2.2 Thuật toán tìm các hàm truyền 37

3.3 MVDR (minimum variance distortionless response) 38

3.4 Post-filter 40

3.4.1 Nguyên lý 40

Trang 4

3.4.2 Zelinski post-filter 41

3.4.3 Bộ lọc post-filter dựa vào sự gắn kết trong môi trường nhiễu 43

3.4.4 Multimicrophone postfilter 44

Chương 4 Các thuật toán xác định vị trí nguồn và thời gian trễ của tín hiệu 49

4.1 Thuật toán xác định vị trí nguồn 49

4.1.1 Hàm trọng lượng GCC và PHAT 49

4.1.2 Xác định vị trí nguồn dựa vào ML TDOA 50

4.1.3 Xác định vị trí của nguồn dựa vào SRP 51

4.1.4 Thuật toán SRP-PHAT 52

4.2 Thuật toán ước lượng thời gian trễ TDE 54

4.2.1 Tương quan chéo CC (Cross-correlation) 54

4.2.2 Phương pháp generalized cross-correlation GCC 54

Chương 5 Kết quả mô phỏng 56

Chương 6 Thuật toán cải thiện từ thuật toán GSC 58

6.1 Tần số của âm thanh 58

6.2 Bộ lọc thích nghi ràng buộc (LCAF) 58

6.3 Phương pháp đề xuất 60

6.4 Kết quả mô phỏng 62

Chương 7 Hướng phát triển của nâng cao chất lượng tiếng nói 64

Tài liệu tham khảo 65

Trang 5

DANH MỤC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

ANC : Adaptive noise cancellation

BSS : Blind sources seperate

CC : Cross-correlation

CLAF : Constrained adaptive filter

DOA : Direct of arrival

DSB : Delay and Sum beamforming

GCC : Generalized cross-correlation

GSC : Generalized Sidelobe Canceller

HSP : Having speech periods

IMCRA : Improved Minimum Controllers Recursive Averaging LCMV : Linear Constrained Minimum Variance

MANC : Multichannel adaptive noise cancellation

MCRANC : Multichannel crosstalk resistant ANC

MCRA : Minimum Controllers Recursive Averaging

MMSE : Minimum Mean Square Error

MVDR : Minimum variance distortionless response

NSP : Non speech periods

OMLSA : Optimal Modified Log-Spectral Amplitude

PESQ : Perceptual Evaluation of Speech Quality

RTF : Relative transfer function

SS : Spectral Subtraction

TBRR : Transient beam-to-reference ratio

TDE : Time delay estimation

VAD : Detector Voice Activity

Trang 6

DANH MỤC HÌNH VẼ

Hình 2.1 Sơ đồ loại bỏ nhiễu thích 15

Hình 2.2 Lan truyền tín hiệu nhiễu và tiếng nói từ nguồn phát tới các míc thu 16

Hình 2.3 Cấu trúc MCRANC 18

Hình 2.4 Cấu trúc phương pháp nâng cao chất lượng tiếng nói sử dụng băng thông con dùng 23

Hình 2.5 Mô hình BSS trộn tức 24

Hình 2.6 Mô hình BSS trộn xoắn 25

Hình 2.7 Mô hình phân tích Feed-forward 27

Hình 2.8 Mô hình cấu trúc feedback 28

Hình 3.1 Hướng truyền sóng 31

Hình 3.2 Delay and sum beamformer 32

Hình 3.3 Cấu trúc GSC 34

Hình 3.4 Nguồn và nhiễu trong mảng nhiều míc, nhiều đường truyền 40

Hình 3.5 Fixed – sum beamforming với post-filter 41

Hình 3.6 Sơ đồ multimicrophone postfilter 45

Hình 5.1 Tín hiệu thu được sau mảng míc 56

Hình 5.2 Tín hiệu thu được sau khi sử dụng phương pháp DSB 56

Hình 5.3 Tín hiệu thu được sau khi sử dụng phương pháp GSC 57

Hình 6.1 Cấu trúc bộ lọc ràng buộc 59

Hình 6.2 Sơ đồ thuật toán 61

Hình 6.3 Tín hiệu thu được từ mảng míc 62

Hình 6.4 Sau khi sử dụng phương pháp GSC cải tiến kết quả thu được sau 63

Hình 6.5 Tín hiệu trên sau khi sử dụng phương pháp OLMSA 63

Trang 7

PHẦN MỞ ĐẦU

Lí do chọn đề tài

Tiếng nói là phương tiện giao tiếp tự nhiên của con người, việc sử dụng nó trong các bài toán điều khiển các thiết bị là mong muốn của con người Tuy nhiên, trong môi trường luôn tồn tại nhiễu như tiếng ô tô, tiếng động cơ,… với cường độ khác nhau làm cho chất lượng tiếng nói bị giảm xuống Một bài toán được đặt ra là làm sao có thể nâng cao được chất lượng của tiếng nói tốt nhất có thể

Nâng cao chất lượng tiếng nói là một lĩnh vực nghiên cứu tồn tại từ lâu và

đã đạt được nhiều thành tựu đáng kể, ứng dụng nhiều trong thực tế Một số ứng dụng có thể kể đến như áp dụng cho các máy trợ thính, mã hóa tiếng nói hay trong các hệ thống nhận dạng tiếng nói tự động mà ứng dụng cho các bài toán giao tiếp giữa người và robot, các hệ thống truyền nhận tiếng nói như VoiIP… Việc nghiên cứu và triển khai các phương pháp nâng cao chất lượng tiếng nói trên PC đã có một nền tảng khá vững chắc, cùng với sự phát triển nhanh chóng của khoa học và kĩ thuật, tốc độ tính toán của các phương pháp này trên máy PC ngày càng được cải

thiện và đạt được nhiều kết quả tốt

Lịch sử nghiên cứu

Các phương pháp nâng cao chất lượng tiếng nói đã được nghiên cứu trong được 30 năm trên thế giới và có những kết quả khả quan

Mục đích nghiên cứu của luận văn

Nghiên cứu đánh giá các phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc Lựa chọn phương pháp phù hợp cho hệ thống nhận dạng tiếng nói

Các đóng góp mới

Đã đề xuất được một thuật toán nâng cao chất lượng tiếng nói có những ưu điểm hơn so với các phương pháp hiện có đặc biệt là trong ứng dụng cho các hệ thống nhận dạng tiếng nói và thuật toán mới còn có những cải tiến khi được đánh giá cảm nhận bởi tai người

Trang 8

Phương pháp nghiên cứu

Nghiên cứu dựa trên phương pháp beamformer đã được nghiên cứu rất nhiều Đặc biệt thuật toán này được sử dụng rất nhiều trong thực tế vì nó là một trong những thuật toán bám sát sự thay đổi của nhiễu, sự di chuyển của nguồn phát

ra tiếng nói

Nâng cao chất lượng tiếng nói là một trong những vấn đề quan trọng trong giao tiếp và trong lĩnh vực xử lý tiếng nói Nó thường được biết đến như là sự làm suy yếu tín hiệu nhiễu so với tín hiệu tiếng nói, hoặc tách tín hiệu nhiễu ra khỏi tín hiệu thu được từ microphone Tuy nhiên, hiện nay các nghiên cứu để nâng cao chất lượng tiếng nói gặp khó khăn trong việc nâng cao tín hiệu tiếng nói so với nhiễu hoặc tách tiếng ồn xung quanh là do đối tượng phát ra tiếng nói không đứng yên để

mô hình hóa

Trong lĩnh vực này, hai kỹ thuật nâng cao tín hiệu tiếng nói được giới thiệu như là nền tảng cơ bản Một là phương pháp trừ phổ, là phương pháp phổ biến nhất trong tất cả các phương pháp sử dụng một míc Hai là phương pháp beamforming,

là phương pháp sử dụng bộ lọc không gian và thời gian, sử dụng nhiều míc Trừ phổ

có ưu điểm là chỉ cần sử dụng một míc, thuật toán loại bỏ tiếng ồn khá đơn giản, tín hiệu ra đã được xử lý có SRN được cải thiện Beamforming là một kỹ thuật mới nổi trong việc nâng cao tín hiệu tiếng nói, đơn giản là tạo thành một chùm tia tới người nói Tuy nhiên, trừ phổ có nhược điểm quan trọng không thể tránh khỏi là sự biến dạng của tiếng nói sau khi xử lý, gọi là musical – noise, và gây phiền nhiễu cho tai người Beamforming không thể nâng cao tín hiệu tiếng nói mà không cần một số lượng lớn míc

Trang 9

Chương 1 Giới thiệu tổng quan về nâng cao chất lượng tiếng nói

1.1 Nâng cao chất lượng tiếng nói là gì

Lời nói là công cụ hiệu quả nhất và thuận tiện nhất cho giao tiếp của con người Nó đóng vai trò quan trọng trong cuộc sống hàng ngày của chúng ta Tuy nhiên, “chúng ta sống trong thế giới ồn ào” Tín hiệu tiếng nói bị xuống cấp bởi tiếng ồn Ví dụ, khi sử dụng máy ghi âm, bộ đàm, giao diện máy tính và nhiều công

cụ phát triển khác, các tín hiệu tiếng nói mong muốn thường bị xuống cấp bởi môi trường tiếng ồn, và tiếng ồn bộ máy nội bộ Rất cần thiết phải ngăn chặn hoặc hủy

bỏ tiếng ồn trong tín hiệu thu được trước khi chúng ta chuyển, phục hồi hoặc hiểu

nó Vì vậy, gọi là nâng cao tiếng nói nhằm mục đích nâng cao chất lượng và hiểu tín hiệu bị suy thoái Nó có ứng dụng rất rộng Trong lĩnh vực truyền thông, điện thoại bàn, điện thoại di động, VoIP, máy trợ thính, các viễn thông địa phương và đường dài, điều khiển máy bằng giọng nói, nhận dạng giọng nói tự động…

Tuy nhiên, nâng cao tín hiệu tiếng nói là một mục tiêu khá phức tạp và khó khăn cho các nhà nghiên cứu Nghiên cứu làm việc trong lĩnh vực này bắt đầu vào những năm 1960 Đến bây giờ, rất nhiều công việc đã được thực hiện và nhiều cách tiếp cận đã được đề xuất Tuy nhiên các cách này vẫn chưa giải quyết hết các vấn đề trong lĩnh vực này Nhiều thuật toán sử dụng 1 kênh tín hiệu để nâng cao tiếng nói Phương pháp này không thể cải thiện chất lượng và tính hiểu được (intelligibility) của tín hiệu tại cùng một thời gian

Trong thực tế, công việc nghiên cứu gần đây đã chứng minh rằng việc giảm tiếng ồn chỉ có thể đạt được với việc chấp nhận sự biến dạng giọng nói nếu chỉ sử dụng một kênh tín hiệu Nói cách khác, chúng ta không thể tránh biến dạng giọng nói trong khi đàn áp tiếng ồn Kết quả là, hiệu quả của phương pháp tiếp cận một kênh nâng cao tiếng nói khá hạn chế mặc dù một số các phương pháp tiếp cận đã được sử dụng trong các ứng dụng thực tế

Để nâng cao hiệu quả của việc tăng cường tiếng nói, một trong những phương pháp sử dụng míc là một mảng nhiều míc Rõ ràng là một mảng míc có thể

Trang 10

đạt được hiệu suất tốt hơn vì nó cung cấp cho chúng ta nhiều hơn một kênh tín hiệu

Nó không chỉ cung cấp thông tin về thời gian mà còn là tính không gian của tín hiệu

đó Trong những năm gần đây đã chứng minh về mặt lý thuyết rằng, một mảng míc

có thể ngăn chặn việc tiếng ồn bóp méo tiếng nói là tối thiểu

Hầu hết các phương pháp hoặc thuật toán cho mảng nhiều míc phát biểu nâng cao chất lượng tiếng nói sử dụng mảng míc khá lớn Một mảng míc có kích thước lớn có nhiều hạn chế trong các ứng dụng Nếu mảng míc được ứng dụng trong điện thoại di động, nghe viện trợ PDA, các mảng míc này phải đủ nhỏ để nhúng vào thiết bị nhỏ Vì vậy, nghiên cứu các phương pháp hoặc thuật toán nâng cao chất lượng tiếng nói sử dụng mảng nhiều míc có kích thước nhỏ có tầm quan trọng rất lớn và có giá trị lớn

Chúng ta gọi là các mảng micro, có thể được nhúng vào trong một điện thoại, điện thoại di động, máy trợ thính… Mảng míc này có khoảng cách giữa 2 míc xa nhau nhất nói chung là ít hơn 8cm và thường sử dụng ít hơn 8 míc Nhưng cũng có một số ứng dụng sử dụng mảng míc dài vài mét và sử dụng hàng trăm míc Luận án này sẽ tập trung vào việc nghiên cứu các phương pháp và thuật toán cho bài toán nâng cao chất lượng tiếng nói sử dụng mảng míc Từ đó đưa ra một số thử nghiệm đánh giá về hiệu năng cũng như chất lượng của thuật toán nâng cao tín hiệu tiếng nói sử dụng mảng míc

1.2 Tại sao phải nâng cao chất lượng tiếng nói

Chất lượng của việc trao đổi thông tin bằng tiếng nói giữa người nói và người nghe, giữa người và máy thường bị giảm sút rất nhiều nếu trong môi trường

có nhiều tiếng ồn, do chất lượng của đường truyển, do đó sẽ gây đến một cảm giác khó chịu cho người nghe cũng như làm giảm chất lượng của các hệ thống giao tiếp giữa người và máy Trong các hệ thống giao tiếp người máy nếu chất lượng của các quá trình trao đổi thông tin bị kém dẫn đến thông tin đưa ra là sai lệch và làm cho

hệ thống hoạt động không theo mong muốn Do đó vấn đề cải thiện chất lượng của quá trình trao đổi thông tin bằng tiếng nói được đặt ra cấp thiết nhằm đưa lại kết quả

Trang 11

• Cải thiện tính hiểu được của tiếng nói để con người nghe

• Cải thiện chất lượng của lời nói, mà có thể chấp nhận được để con người nghe

• Sửa đổi tiếng nói để cải thiện hiệu suất của hệ thống nhận dạng tự động tiếng nói

• Sửa đối tiếng nói để có thể mã hóa hiệu quả hơn để lưu trữ hoặc truyền đi

1.3 L ịch sử phát triển nâng cao chất lượng tiếng nói

Do thực tế yêu cầu nên nghiên cứu phương pháp nâng cao chất lượng tiếng nói thực sự bắt đầu từ những năm 1960 Lĩnh vực nghiên cứu được mở rộng dần và đặc biệt có những bước đột phá trong những năm gần đây

Trong khoảng 50 năm qua, một số lượng lớn các thuật toán nâng cao chất lượng tiếng nói đã được đề xuất Có nhiều cách phân loại các thuật toán này Tuy nhiên, theo số lượng míc sử dụng, các thuật toán có thể phân loại thành: thuật toán một kênh (sử dụng 1 míc) và các thuật toán đa kênh (sử dụng mảng míc)

Những năm 1980, chủ yếu phát triển các thuật toán nâng cao chất lượng tiếng nói sử dụng 1 míc Trong các thuật toán này có, phương pháp trừ phổ năng lượng, bộ lọc Weiner và các thuật toán dựa vào mô hình tĩnh (statistical) Sau những năm 1990, các thuật toán đa kênh (sử dụng mảng míc) đã phát triển mạnh mẽ với nhiều thuật toán được đề xuất

Trong những năm gần đây, nhiều trường đại học và viện nghiên cứu tham gia nghiên cứu lĩnh vực này Các thuật toán mới liên tục được đưa ra cho cả phương pháp 1 míc và mảng nhiều míc

1.4 Ứng dụng của nâng cao chất lượng tiếng nói

Một số sản phẩm có sử dụng phương pháp nâng cao chất lượng tiếng nói như máy trợ thính kỹ thuật số, míc định hướng (super directive microphone), điện thoại

di động chống tiếng ồn, các thuật toán được sử dụng chủ yếu là phương pháp 1 kênh tín hiệu Nhóm nghiên cứu Windrow tại trường đại học Stanford đã thiết kế vòng cổ

Trang 12

mảng micro cho các máy trợ thính kỹ thuật số Các míc siêu định hướng đã được Audio – technica công bố năm 2004 trong đó có 5 míc tạo thành beamforming Tập đoàn Microsoft cũng giới thiệu kỹ thuật mảng míc cho máy tính để bàn năm 2005, tăng chất lượng tiếng nói và tăng tỉ lệ nhận dạng giọng nói…

1.5 Đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói như thế nào

Để đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói hầu hết là dựa vào việc đánh giá chất lượng của tiếng nói sau khi đã được xử lí bởi các

hệ thống Một yếu tố cũng quan trọng không kém trong việc đánh giá chất lượng của các hệ thống nâng cao chất lượng tiếng nói đó là tính đáp ứng thời gian thực của

hệ thống Chỉ riêng việc đánh giá chất lượng của tiếng nói sau khi xử lí cũng đã có rất nhiều tiêu chí đánh giá Nhưng tựu chung lại thì tiếng nói có thể được đánh giá khách quan dựa trên tính hiểu được của tiếng nói (Inteligibility) và chất lượng tổng thể của tiếng nói (speech quality) [1] Một số phương pháp đánh giá khách quan được sử dụng nhiều trong những đánh giá gần đây đó là đánh giá dựa trên so sánh tỉ

số tín hiệu trên nhiễu phân đoạn (segmented SNR), độ méo trên thang logarithm (log-spectral distortion) và chỉ số PESQ (Perceptual Evaluation of Speech Quality ) Ngoài ra cũng có một đánh giá dựa trên [36] cũng được tham chiếu đến nhiều

Một thuật toán nâng cao chất lượng tiếng nói được cho là tốt một cách khách quan

nếu nó thỏa mãn đồng thời cả ba tiêu chí : chỉ số tín hiệu trên nhiễu phân đoạn lớn,

độ méo trên thang logarithm nhỏ, và chỉ số PESQ là cao Ngoài ra còn có một số tiêu chí đánh giá dựa vào tăng tỉ lệ nhận dạng ở các hệ thống nhận dạng tiếng nói tự động Có thể một thuật toán tăng tỉ số tín hiệu trên nhiễu nhưng chưa đảm bảo có thể làm tăng chất lượng của hệ thống nhận dạng Do đó việc đánh giá khách quan không phản ánh hoàn toàn đúng chất lượng của hệ thống cải thiện tiếng nói khi đưa vào kết hợp với hệ thống nhận dạng Trong khuôn khổ luận văn này, nhằm hướng đến là các hệ thống nhận dạng tiếng nói nên tôi cũng sử dụng một số đánh giá thử nghiệm không những trực tiếp phụ thuộc vào tai người nghe mà còn cả thử nghiệm trên các hệ thống nhận dạng tiếng nói

Trang 13

Chương 2 Trình bày khái quát về các phương pháp nâng cao chất lượng tiếng nói sử dụng mảng míc

Các phương pháp nâng cao chất lượng tiếng nói truyền thống chủ yếu xoay quanh việc xử lý tín hiệu một kênh Các thuật toán này chỉ cần 1 míc do đó rất dễ dàng nhúng vào nhiều thiết bị âm thanh như điện thoại bàn, điện thoại di động, máy tính… Độ tính toán của phương pháp này thấp Có rất nhiều thuật toán cho phương pháp một míc, gồm:

• Thuật toán dựa vào phổ thời gian ngắn

• Thuật toán dựa vào mô hình thống kê

• Thuật toán dựa vào mô hình tai nghe

• Thuật toán dựa vào mô hình phát tiếng nói

• Thuật toán trừ không gian con

• Thuật toán sử dụng phân tích sóng con

• Thuật toán phân tích tín hiệu một kênh

Phương pháp phổ thời gian ngắn có nội dung phong phú trong bài toán nâng cao tiếng nói 1 kênh Nó bao gồm một số thuật toán như phép trừ phổ, phép trừ phổ được cải thiện, lọc Weiner Năm 1979 Boll đề xuất một thuật toán đơn giản nhưng hiệu quả gọi là trừ quang phổ (SS, spectral Subtraction) Nó tìm thấy một phần tín hiệu tinh khiết và tính được quang phổ của nó Sau đó trừ quang phổ nhiễu được nâng cao từ phổ của tín hiệu thu được để ước lượng phổ của tín hiệu sạch Nó chuyển phổ tiếng nói được ước lượng vào trong miền thời gian để lấy tín hiệu trong miền thời gian đã được nâng cao Nhược điểm chính của phương pháp SS là gây ra nhiễu âm nhạc trong tín hiệu đã nâng cao Có nguyên nhân này là do phổ thực sự của nhiễu không thực sự giống phổ đã ước lượng Tuy nhiên, nếu năng lượng của nhiễu nhỏ hơn năng lượng của tín hiệu tiếng nói, thì loại nhiễu âm nhạc là nhỏ và thậm chí là không thể cảm nhận bằng tai Một nhược điểm nữa của thuật toán SS là

Trang 14

cần VAD (Detector Voice Activity) Nếu không những sai sót trong ước lượng phổ nhiễu gây ra thiệt hại nghiêm trọng cho tín hiệu tiếng nói

Thuật toán dựa vào mô hình thống kê sử dụng ước lượng thống kê để ước lượng phổ của tín hiệu sạch trong môi trường có nhiễu Các thuật toán thực hiện sử dụng việc ước lượng xác suất phổ tín hiệu tiếng nói giống như ước lượng maximum – likelihood, ước tính sai lệch bình phương nhỏ nhất hoặc ước lượng posteriori Virag đề xuất một thuật toán nâng cao chất lượng tiếng nói dựa trên tính chất mặt nạ

hệ thống thính giác của con người Sau đó, các thuật toán dựa vào bộ lọc cảm nhận (perceptual filter) cũng được nghiên cứu và phát triển

Các thuật toán dựa vào mô hình phát tiếng nói làm việc bằng cách sử dụng

mô hình theo đó tín hiệu tiếng nói được phát thông qua bộ lọc tuyến tính biến thiên theo thời gian kích thích bởi tín hiệu nguồn Nó ước lượng các thông số của bộ lọc

và sau đó phát ra tín hiệu tiếng nói đã được nâng cao thông qua các thông số đã được ước lượng

Các thuật toán không gian con phân tích không gian của tín hiệu mong đợi

và không gian con của nhiễu bởi việc phân hủy giá trị riêng của tín hiệu thu được Sau đó xây dựng lại tín hiệu tiếng nói sạch trong không gian tín hiệu mong muốn

Các thuật toán wavelet denoising bắt đầu là biến đổi wavelet tín hiệu thu được Sau đó loại bỏ các hệ số nhỏ trong biến đổi wavelet dựa vào đặc tính khác nhau hệ số của tín hiệu tiếng nói và hệ số của nhiễu Sau đó biến đổi ngược lại wavelet để khôi phục tín hiệu sạch

2.1 Loại bỏ nhiễu thích nghi (ANC)

Trong các thuật toán nâng cao chất lượng tiếng nói, loại bỏ nhiễu thích nghi ANC là một trong những phương pháp quan trọng nhất Nó có thể được sử dụng với nhiều nhiễu khác nhau, dễ dàng đáp ứng tính năng thời gian thực cũng như độ tính toán ít phức tạp Không giống với các thuật toán yêu cầu một mảng míc lớn, nó có thể thực hiện tốt với một mảng míc có kích thước nhỏ

Trang 15

2.1.1 Multichannel adaptive noise cancellation (MANC)

Do sự phức tạp của việc lan truyền âm thanh, tín hiệu nhiễu được thu lại bởi kênh chính và kênh tham chiếu có thể không được hoàn toàn tương quan nhau trong các hệ thống ANC 2 míc Cùng một kết quả, hiệu suất của nâng cao chất lượng tiếng nói sử dụng 2 kênh bị hạn chế Đối với hiệu suất lớn, chúng ta nên sử dụng một mảng míc

Trong các thuật toán ANC, các kênh tham chiếu lý tưởng nên chỉ chứa tín hiệu nhiễu Mức độ cao hơn là tín hiệu tiếng nói chọn kênh tham chiếu, loại bỏ phần lớn tín hiệu tiếng nói trong các kênh chính, do đó tín hiệu tiếng nói được nâng cao càng tồi tệ hơn Tuy nhiên trong môi trường thực, ít khi xảy ra kênh tham chiếu chỉ chứa nhiễu Trong một mảng míc nhỏ, kênh tham chiếu chứa một lượng tín hiệu tiếng nói gần như bằng kênh chính

Từ hình vẽ, tín hiệu nhiễu n j ( )t , (j = 1, 2, …,M), lan truyền với đáp ứng xung hn j0( ) thn i j ( ) t tới míc chính M0 và míc tham chiếu Mi (i = 1, 2, …, N) trong khi tín hiệu tiếng nói s(t) lan truyền với đáp ứng xung hs0tới míc chính M0 Kết quả, tín hiệu thu được từ míc M0:

Trang 16

Hình 2.1 Sơ đồ loại bỏ nhiễu thích Tương tự, trong miền thời gian rời rạc, tín hiệu x(t) được thay bằng x(k)

( ) 0( ) ( )

Chúng ta cần điều chỉnh hệ số của bộ lọc A để cực tiểu hóa 2( )

E e k  để ước lượng tối ưu tín hiệu tiếng nói s0(k) theo chuẩn MMSE e(k) sẽ là ước lượng tối ưu của s0(k) và y(k) sẽ là ước lượng tối ưu của n0(k)

Trang 17

2.1.2 Multichannel crosstalk resistant ANC (MCRANC)

Chúng ta giả thiết rằng không có tín hiệu tiếng nói trong kênh tham chiếu Nhưng trong phần lớn môi trường thực, tín hiệu tiếng nói có thể lan truyền đến kênh tham chiếu, do đó tín hiệu trong kênh tham chiếu chứa cả tín hiệu tiếng nói, đặc biệt với mảng míc có kích thước nhỏ Do đó thuật toán ANC không còn phù hợp trong điều kiện này

Nếu như tín hiệu ở kênh chính và kênh tham chiếu chứa cả tín hiệu nhiễu và tiếng nói, chúng ta gọi là “crosstalk” của tín hiệu tiếng nói (hoặc của nhiễu)

Giả thiết, tín hiệu tiếng nói s(k) và nhiễu n(k) được phát ra từ các nguồn độc lập Tín hiệu thu được từ míc Mi

( ) ( ) ( )

x k =s k +n k i = 0, 1, …, N (2.11) Với (N+1) míc, k là chỉ số thời gian rời rạc, hsi(k) và hni(k) là đáp ứng xung của tín hiệu tiếng nói và nhiễu tới míc Mi

Trang 18

Đáp ứng xung của môi trường trung gian giữa tín hiệu tín hiệu vào si(k) và tín hiệu ra sj(k) là h s s i j( )k Đáp ứng xung của môi trường trung gian giữa tín hiệu tín hiệu vào ni(k) và tín hiệu ra nj(k) là h n n i ( )k Thì:

H z

( ) ( )

H z

Với H si( )z là biến đổi z của h si( )k

Trong môi trường thực, tiếng ồn phát ra từ một nguồn nào đó có thể lan truyền tới míc thông qua nhiều đường dẫn bao gồm: lan truyền thẳng, phản xạ, khúc

xạ Tiếng ồn cũng có thể phát ra từ nhiều nguồn Chúng ta xem các tiếng ồn này được phát ra từ một nguồn kết hợp và tất cả các đường truyền được bao gồm trong hàm truyền kết hợp H ni( )z , có đáp ứng xung h ni( )k

Giả sử, tín hiệu trên kênh chính tương quan với tín hiệu trên kênh tham chiếu, đó là giả định hợp lệ nếu các míc đặt gần nhau Khi tín hiệu tham chiếu có chứa cả tiếng nói thì phương pháp MANC không còn là phương pháp phù hợp cho bài toán nâng cao chất lượng tiếng nói Vì do hiệu ứng nhiễu xuyên âm trong điều kiện làm việc và do đó cả tín hiệu tiếng nói và nhiễu đều bị hủy bỏ

Thuật toán MCRANC trong hình vẽ dưới Nó chứa bộ VAD và hai bộ lọc thích nghi A và B Nó sử dụng đặc tính của tín hiệu tiếng nói là chỉ số thời gian có thể chia thành một loạt giai đoạn không tiếng nói NSP (non speech periods) và giai đoạn có tiếng nói HSP (having speech periods)

Trang 19

Trong giai đoạn không có tín hiệu tiếng nói NSP, các míc M0, M1, …, MN

chỉ chứa nhiễu n0(k), n1(k), …, nN(k) Tất cả nhiễu trong kênh tham chiếu tới bộ lọc

A trong giai đoạn đầu của MCRANC để loại bỏ nhiễu trong kênh chính n0(k)

Trang 20

Vì thế, năng lượng sai lệch nhỏ nhất trong biểu thức (2.24) đạt được nếu hệ

số vecto w và wiđược tối ưu hóa

Tuy nhiên, N quá lớn và L quá lớn sẽ làm cho việc tối ưu w trở nên khó khăn

và thiếu chính xác trong quá trình tính toán thực tế Vì thế, giá trị riêng số lượng míc và số lượng mẫu trễ thực sự cần chính xác

Véc to hệ số tối ưu của bộ lọc A cho việc cực tiểu hóa năng lượng tín hiệu sai lệch e1(k) là

Trang 21

trình lan truyền nhiễu Kết quả, đáp ứng xung nhiễu h n n i 0( )k trong đoạn HSP cũng tương tự như trong đoạn NSP trước đó Do đó:

( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( )

1

0

w w

Trang 22

e k∗ Điều này có nghĩa, trong tín hiệu thu được sau míc, năng lượng của tiếng nói

sẽ không giảm như năng lượng của tiếng ồn Điều này có được là do tín hiệu tiếng nói có các đường lan truyền khác đường lan truyền của nhiễu Đó là sự bị ảnh hưởng của môi trường tuyền, vị trí của mảng míc, vị trí của nguồn tiếng nói và nguồn nhiễu Nó có thể coi là kỹ thuật dạng điểm không trong xử lý tín hiệu mảng Sau giai đoạn đầu tiên xử lý bộ lọc A, mảng míc định hình các điểm không tới các hướng trực tiếp của nhiễu từ đường truyền dẫn nhiễu tới míc bởi hướng trực tiếp, khúc xạ và phản xạ Tuy nhiên, các hướng lan truyền của tín hiệu tiếng nói sẽ không hoàn toàn rơi vào điểm không này

Tỉ số tín hiệu trên nhiễu SNR của e1(k) thường là được cải thiện tăng lên so với tín hiệu thu được x0(k), ở đây tín hiệu là p(k) và nhiễu là e k1∗( ) Tuy nhiên, tín hiệu p(k) trong e1(k) không xấp xỉ s0(k), nhưng tín hiệu bị méo của s0(k) Sự méo tín hiệu thương là việc tăng số lượng míc Trong giai đoạn thứ hai với bộ lọc B được sử dụng để thay tín hiệu bị méo p(k) vào trong tín hiệu mong muốn s0(k)

Để đạt được mục đích này, chúng ta chỉ cần điều chỉnh hệ số của bộ lọc B để cực tiểu hóa năng lượng e2(k) (hình vẽ trên) với giả thiết tín hiệu tiếng nói không tương quan với nhiễu SNR của e1(k) cao, sự sai lệch giữa y2(k) và s0(k) nhỏ

Trang 23

Để vượt qua sự biến động của nhiễu còn lại trong tiếng nói đã được nâng cao, cách tốt nhất là điều chỉnh bộ lọc B trong toàn bộ thời gian để cực tiểu hóa

e2(k) trong khi chỉ điều chỉnh bộ lọc A để cực tiểu hóa e1(k) trong thời gian NSP Tín hiệu ra y2(k) của bộ lọc B sẽ được ước lượng tối ưu tín hiệu tiếng nói theo MMSE

Hàm truyền hệ thống của bộ lọc B:

( ) ( ) 1 1

( ) ( ) ( )

( ) ( ) ( ) ( ) ( ) ( ) ( )

2 2 Nâng cao chất lượng tiếng nói sử dụng phương pháp băng thông nhỏ subband

Hệ thống băng thông con phân chia tín hiệu có băng thông rộng thành một số tín hiệu có băng tần bị hạn chế Nó có tính linh hoạt hơn và có kết quả tốt hơn Trong mỗi subband, các tín hiệu rơi vào một mảng tần số tương đối hẹp Vì vậy, một beamformer chính xác hơn có thể được thực hiện, và bậc của bộ lọc loại bỏ tiếng ồn có thể được giảm bớt Một lợi thế quan trọng của việc xử lý băng thông con là cho phép quá trình xử lý khác nhau trong mỗi băng thông con phụ thuộc vào các yếu tố như năng lượng của tín hiệu, năng lượng của nhiễu và mức độ tương quan giữa tín hiệu và nhiễu

Trang 24

Ngoài ra, việc thực hiện một sơ đồ loại bỏ nhiễu thích nghi thông thường trong một số băng con có tần số giới hạn cho phép hội tụ nhanh hơn các hệ số của

bộ lọc do sự suy giảm của năng lượng tín hiệu và chiều dài bộ lọc thích nghi trong từng băng con Kết quả là, chất lượng của tiếng có thể được cải thiện, tổng số thuật toán phức tạp có thể được giảm bớt

Trên hình vẽ, tất cả các tín hiệu của mảng míc xi được chia bởi bank bộ lọc phân tích thành J tín hiệu băng con {x i( )j , j=1, 2,L ,J}, i = 0, 1, , N Tất cả các tín hiệu trong băng con thứ J được sử dụng để nâng cao chất lượng tiếng nói để có được y(j), (j = 1, 2, , J)

Hình 2.4 Cấu trúc phương pháp nâng cao chất lượng tiếng nói sử dụng băng thông

con dùng

Cuối cùng tín hiệu tiếng nói đã được nâng cao của tất cả các băng con y(j)

được tổng hợp lại bởi bộ lọc tổng hợp để hình thành nên tín hiệu tiếng nói đã được nâng cao trên toàn dải băng

Phương pháp băng thông con thường kết kợp với các phương pháp khác để giải bài toán nâng cao chất lượng tiếng nói

Trang 25

2.3 Phân tích các thành phần độc lập

Các phương pháp tách nguôn mù BSS thì thực hiện việc lọc lấy tín hiệu tiếng nói dựa trên các đặc tính thống kê của tiếng nói mà cụ thể là dựa vào tính độc lập thống kê giữa các nguồn âm mà không quan tâm đến vị trí của các nguồn âm trong không gian

2.3.1 Mô hình phân tích và trộn

Khó khăn lớn của phương pháp phân tích nguồn mù là phụ thuộc vào cách các tín hiệu được trộn lẫn trong môi trường vật lý Cách trộn đơn giản nhất là trộn tức thời, các thuật toán BSS đã được thiết kế Mặc dầu có đầy đủ cơ sở lý thuyết, các thuật toán bị hạn chế trong việc áp dụng thực tế phân tích tín hiệu trừ khi nỗ lực đưa vào việc thực thi hệ thống Các đường truyền dẫn âm thanh trong thế giới thực dẫn đến trộn xoắn các tín hiệu khi sử dụng các cảm biến âm thanh để đo, mức độ trộn lẫn rất có ý nghĩa trong vấn đề thời gian phản xạ của các căn phòng lớn Thêm một khó khăn gặp phải là số người nói lớn Kinh nghiệm cho thấy là tách bốn người noi hoặc nhiều hơn là một thách thức lớn

Mô hình phân tích và trộn tức thời

Trong mô hình trộn tức thời, m tín hiệu nguồn chưa biết trước {si(k)},

1 i≤ ≤m, được kết hợp với nhau trong n tín hiệu mà míc thu được {xj(k)}, 1 ≤ ≤j n

Trang 26

Trong đó {aji} là các hệ số của hệ thống trộn bất biến theo thời gian tuyến tính biểu diễn bởi ma trận A (n x m) và vj(k) là tín hiệu nhiễu đưa thêm vào ở míc thứ j

Mục đích của BSS cho sự pha trộn tức thời là điều chỉnh hệ số của ma trận phân tích B (m x n)

chứa việc ước lượng tín hiệu nguồn nguyên thủy

Trong khi nhiều thuật toán phát triển cho trường hợp trộn tức thời, các thuật toán thực tế cho phân tích nguồn phải đưa mô hình trộn xoắn của đường truyền âm thanh vào trong quá trình tính toán

Mô hình phân tích và trộn xoắn

Trộn xoắn phát sinh trong môi trường âm thanh do kết quả của thời gian trễ

từ việc lan truyền âm thanh trong không gian và nhiều đường lan truyền được tạo ra bởi sự phản xạ âm thanh của các đối tượng khác nhau, đặc biệt là trong phòng Kết quả, m nguồn được trộn lẫn bởi hệ thống đa kênh phân tán theo thời gian

Trang 27

Với {xj(k)}, 1 ≤ ≤j n, là n tín hiệu mà míc thu được và {aijl} là hệ số của hệ thống trộn bất biến theo thời gian tuyến tính thời gian rời rạc { }A l l∞=−∞, ma trận A có kích thước (n x m) Ở đây chúng ta có giả thiết các tín hiệu bị giới hạn băng thông nên tín hiệu lấy mẫu có thể thay thể liên tục (continous-time one)

Các thuật toán BSS trộn phải xem xét cả 2 vấn đề: sự không trộn lẫn về mặt không gian và sự thay đổi về mặt thời gian giới thiệu bởi hệ thống trộn Lý tưởng nhất, cấu trúc không gian của nguồn tín hiệu nguyên thủy sẽ được bảo quản trong kết quả ra của hệ thống phân tích, mặc dù tính năng này đòi hỏi một số kiến thức về các cấu trúc thời gian của tín hiệu nguồn Thuật toán BSS trộn phải khai thác cả đặc tính không gian và thời gian để hoạt động đúng, đó là lý do tại sao đôi khi gọi là thuật toán BSS không gian – thời gian

Nếu không có bất kỳ hạn chế bổ sung, hệ thống BSS trộn xử lý tín hiệu trộn:

2.3.2 Phân tách nguồn

Phân tách nguồn dựa vào thống kê bậc với trên giả thiết rằng các nguồn thống kê là độc lập Nhiều thuật toán dựa vào hàm bậc hai và bốn phụ thuộc giữa các mô hình tín hiệu Để phân tách thành công thì yêu cầu nguồn không Gaussian

Mục tiêu của tách nguồn mù là tìm ước lượng y(k), nó là mô hình của tín hiệu nguồn s(k) Đối với điều này, không cần thiết xác định rõ ràng bộ lọc trộn A(k) Thay vào đó cần xác định bộ lọc tách Wl Bộ lọc tách có thể có cấu trúc phản hồi với một đáp ứng xung vô hạn (IIR) hoặc đáp ứng xung hữu hạn (FIR)

Trang 28

Hình 2.7 Mô hình phân tích Feed-forward

Mối quan hệ giữa nguồn và tín hiệu được phân tích

Mục đích của phân tách nguồn không nhất thiết phải phục hồi bản sao giống hệt tín hiệu gốc Thay vào đó, mục đích là để phục hồi nguồn mô hình không cần sự tác động của các nguồn khác, tức là nguồn tín hiệu được tách yn(t) nên chỉ chứa tín hiệu có nguồn gốc từ nguồn đơn duy nhất Vì vậy, mỗi tín hiệu nguồn mô hình có thể là phiên bản lọc của tín hiệu nguồn gốc

( ) ( ) ( ) ( ) ( ) ( )

( ) ( )

Trang 29

Với P là ma trận hoán vị, Λ( )z là ma trận đường chéo với các bộ lọc trên đường chéo của ma trận Nếu có thể xác định A(z) chính xác thì chọn W(z) là nghịch đảo

Cấu trúc feedback

Hình 2.8 Mô hình cấu trúc feedback Thông thường bộ lọc FIR được nghịch đảo bởi cấu trúc feedback sử dụng IIR Nguồn ước lượng được đưa ra bởi biểu thức sau:

Cấu trúc feed-forward và feedback kết hợp với nhau thành cấu trúc lai, nơi

đó cấu trúc feed-forward được theo sau bởi feedback

Nguyên lý phân tách

Các thuật toán tách nguồn mù dựa trên các giả định khác nhau về các nguồn

và hệ thống pha trộn Nói chung, các nguồn được giả thiết là độc lập hoặc ít tương

Trang 30

quan Sự phân tách này có thể chia thành các phương pháp: phương pháp dựa vào xác suất bậc cao và xác suất bậc hai Trong phân tách nguồn xoắn, các cảm biến độc lập với nguồn tín hiệu gốc Điều này có nghĩa, nguồn nên bắt đầu từ nhiều vị trí trong không gian, số nguồn ít hơn số cảm biến

số liệu thống kê của nguồn mục tiêu, nhưng chỉ phụ thuộc vào hướng Cả hai beamformer tối ưu và thích nghi xác định trọng lượng của nó dựa trên các số liệu thống kê để giảm thiểu sai lệch giữa tín hiệu ra mong muốn và tín hiệu ra khỏi beamformer

Một kỹ thuật sử dụng mảng míc đơn giản và mạnh mẽ là delay and sum beamformer, nó bù thời gian trễ giữa tín hiệu giữa các míc và tính trung bình các tín hiệu này Do đó, nó tạo thành một chùm nguồn tín hiệu mục tiêu trong khi giảm nhẹ bất kỳ nguồn âm thanh nào từ hướng khác đến bằng cách lấy trung bình không đồng

bộ pha Tuy nhiên, hiệu suất của chùm tia là tỷ lệ thuận với số lượng míc làm tăng chi phí Beamforming tối ưu và thích nghi xuất hiện để tăng hiệu suất với một số lượng míc nhỏ hơn Các phương pháp mang tính thông dụng là Linear Constrained Minimum Variance (LCMV) beamforming và Generalized Sidelobe Canceller (GSC) beamforming Mặc dù beamforming hiệu quả hơn DSB, nhưng hiệu suất có thể dễ dàng bị suy thoái, trừ khi nguồn nhiễu là đúng hướng và tín hiệu tiếng nói không có tiếng vang Phương pháp beamforming này phù hợp với tín hiệu cho các

Trang 31

đài phát thanh và tín hiệu siêu âm thường có dải thông hẹp; tín hiệu tiếng nói có dải thông rộng thì phương pháp beamforming thích nghi khó có thể loại bỏ nhiễu Tuy nhiên, mảng míc sử dụng phương pháp beamforming có tiềm năng nâng cao chất lượng tiếng nói bằng cách kết hợp với các thuật toán đơn kênh và đa kênh khác

Trang 32

Chương 3 Trình bày các thuật toán sử dụng trong phương pháp beamformer 3.1 Delay and Sum beamforming (DSB)

Delay and Sum beamforming, là loại beamforming cổ điển nhất, là một trong những công nghệ cổ điển và lâu đời nhất thực hiện cho hệ thống mảng quan tâm đến hướng Mặc dầu, về cơ bản không giới hạn băng thông, nhưng DSB sớm sử dụng băng thông hẹp tập trung vào một điểm hoặc một hướng cụ thể Sự chậm trễ về thời gian cho các ứng dụng dải băng thông hẹp có thể thực hiện bằng cách dịch pha cho mỗi tín hiệu sau míc

θ

τ = , trong đó d là khoảng cách giữa 2 míc kề nhau, θ là hướng đến của nguồn âm và c là tốc độ truyền âm Để

Trang 33

ngăn ngừa đặc tính răng cưa của phổ thì

ax

2 m

c d f

≤ với fmax là tần số lớn nhất của nguồn âm Nhìn vào hình trên, tín hiệu mà M míc thu được là:

trong đó v(θ ω s, ) là vecto chỉ hướng đến của tín hiệu tiếng nói

Tương tự tín hiệu nhiễu thu được từ các míc là:

Trang 34

[ ], H [ ],

d k ω =w u k ω =w H{s k[ ] [ ],ω +n k,ω }

Ngày đăng: 28/02/2021, 09:14

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w