1.1.3.3 Kỹ thuật nâng cao chất hrợng trong trường hợp đa kênh 1.1.3 Phương pháp phân tách tiếng nói trong nâng cao chất lượng tiếng nói 1.2 Phương pháp tách nguồn mủ ửng dụng trong nàng
Trang 1Tiọc viên: Chu Minh Huân
DE TAT: NANG CAO CHAT LUONG TIENG NOI SU DUNG
PHƯƠNG PHÁP TÁCH NGUON MU— ỨNG DUNG CHO
HE THONG NHAN DANG TIENG NOI
LUẬN VĂN THẠC SĨ KỸ THUẬT
ĐÓ LƯỞNG VÀ CÁC HỆ THỐNG ĐIÊU KHIỂN
Ila Noi — Năm 2014
Trang 2
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Học viên: Chu Minh Huan
DE TAI : NÂNG CAO CHIÁT LƯỢNG TIÉNG NÓI SỬ DỤNG PIIƯƠNG
PHÁP TÁCH NGUÔN MU — UNG DUNG CHO HE THONG NHẬN
DANG TIENG NOT
CHUYÊN NGÀNH: ĐO LƯỜNG VÀ CÁC HE THONG DIEU KHIEN
LUẬN VĂN THẠC SĨ KŸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYÊN QUỐC CƯỜNG
Hà Nội — Năm 2014
Trang 3Chương] BALTOAN NANG CAO CHAT LUONG ‘TLENG NOL
THƯƠNG PHAP TACH NGUON MU
Giới thiệu chương
1.1 Giới thiệu bài toản nâng cao chất lượng tiếng nói
1.1.1 Nâng cao chất hượng tiếng nói
1.1.2 Các phương pháp năng cao chất lượng liếng nói
1.1.2.1 Kỹ thuật nâng cao chất lượng trong trường hợp đơn kênh
1.1.3.3 Kỹ thuật nâng cao chất hrợng trong trường hợp đa kênh
1.1.3 Phương pháp phân tách tiếng nói trong nâng cao chất lượng tiếng nói
1.2 Phương pháp tách nguồn mủ ửng dụng trong nàng cao chất lượng tiếng
nói
1.2.1 Giới thiêu chung
1.2.2 Các hưởng tiếp cận của phương pháp tách nguồn mủ
1.2.2 1 Phương pháp phân tích thành phân độc lap (Independent
Component Analysis ICA)
Giới thiệu chương
2.1 Giới thiệu vẻ thuật toán DUET
22 Các giả thiêt cần có của thuật toán DUET
Trang 4
4.1 Tổng quan về nhận đạng tiếng nói
4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói
4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói
4.1.2.1 Phin tich cepstral theo thang, do mel
4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive
Coding)
4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear
Prediction)
4.2 Các mô hình nhận dạng tiếng nói
4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)
4.2.1.1 Quả trình Markov
4.2.1.2 Các thành phân của LIMM
42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn
4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)
4.2.2.1 Cấu trúc của mạng neural nhân tạo
4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói
Kết luận clrương,
KÉT LUẬN VÀ KIÊN NGIT
TÀI LIỆU THAM KHẢO
Trang 5TMục đích nghiên cú của luận văn:
- Tim hiểu các kỳ thuật nâng cao chất lượng tiếng nói và phương pháp tách
- _ Ứng đạng phương pháp tách nguẫn mù nâng cao chất lượng tiếng nói cho
hệ thống nhận dạng tiếng nói Tuy nhiên do giới hạn về thời gian, nên luận văn chưa triển khai được ứng dụng
Thương pháp nghiên cứu:
- _ Nghiên cửu các cơ sở lý thuyết về nâng cao chất lượng tiếng nói
-_ Nghiên cứu các cơ sở lý thuyết về phương pháp tách nguồn mù và sử
dung vào nâng cao chất lượng liếng nói
-_ Nghiên cửu ủng dụng kỹ thuật tách nguồn mù cho hệ thống nhân đạng,
tiếng nói
~ Triển khmi thực lễ kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói
và đánh giá kết quả
Nội dung chính của luận văn:
¿ Chương E Bài toán nâng cao chất lượng tiếng nói — Phương pháp tách nguồn mủ
Chương 2 Kỹ thuật lách nguồn trù với tuuật toán DUET
©_ Chương 3 Triển khai thuật toáa DUET nâng cao chất lượng tiếng nói
o Chương 4 Ứng dụng thuật toản DL/lZL trong hệ thống nhận dang
tiếng nói
Trang 6¢
tà ly
“ac nguén tin hiéu cé tinh én định cục bộ
tà
Các nguồn phân biệt với nhau Irong không gian 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET
2.3.1 Khái quát chưng về kỹ thuật DUET
2.3.2 Tuược dễ trong số lai chiêu
2,3.3 Quả trình phân tách các nguồn
2-4 Mô rộng thuật toán DUET
2.4.1 Tăng giới hạn vẻ dò trể
2.4.2 Phương pháp xắp xi các nguồn trực giao rời rạc
Kết luận chương
CHƯƠNG 3 TRIÊN KHAI THUẬT TOÁN DUET NÂNG CAO CHAT
LƯỢNG TIẾNG NÓI
Giới thiệu chương
3.2 Thực hiện thiết kế nhân mềm
3.3.1 Thiết kế giao diện trên Matlab
3.3.2 Triển khai thuật toán
3.2.3 Quả trinh thiết kế
3.3 Chay mô phông và đánh giá kết qua
3.3.1 Chạy mỏ phỏng chương trinh
3.3.1.1 Thứ nghiệm 1)UIZT với số lượng dau vao thay dai
3.3.1.2 Thứ nghiệm DUET với các nguồn biên độ khác nhau
3.3.1.3 Thứ nghiệm DUET với các nguồn độ trễ lớn
3.3.2 Dánh giá kết quả
Kết luận chương
NHÂN DANG TIBNG NOI
Giới thiệu chương
Trang 7TMục đích nghiên cú của luận văn:
- Tim hiểu các kỳ thuật nâng cao chất lượng tiếng nói và phương pháp tách
- _ Ứng đạng phương pháp tách nguẫn mù nâng cao chất lượng tiếng nói cho
hệ thống nhận dạng tiếng nói Tuy nhiên do giới hạn về thời gian, nên luận văn chưa triển khai được ứng dụng
Thương pháp nghiên cứu:
- _ Nghiên cửu các cơ sở lý thuyết về nâng cao chất lượng tiếng nói
-_ Nghiên cứu các cơ sở lý thuyết về phương pháp tách nguồn mù và sử
dung vào nâng cao chất lượng liếng nói
-_ Nghiên cửu ủng dụng kỹ thuật tách nguồn mù cho hệ thống nhân đạng,
tiếng nói
~ Triển khmi thực lễ kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói
và đánh giá kết quả
Nội dung chính của luận văn:
¿ Chương E Bài toán nâng cao chất lượng tiếng nói — Phương pháp tách nguồn mủ
Chương 2 Kỹ thuật lách nguồn trù với tuuật toán DUET
©_ Chương 3 Triển khai thuật toáa DUET nâng cao chất lượng tiếng nói
o Chương 4 Ứng dụng thuật toản DL/lZL trong hệ thống nhận dang
tiếng nói
Trang 8
4.1 Tổng quan về nhận đạng tiếng nói
4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói
4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói
4.1.2.1 Phin tich cepstral theo thang, do mel
4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive
Coding)
4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear
Prediction)
4.2 Các mô hình nhận dạng tiếng nói
4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)
4.2.1.1 Quả trình Markov
4.2.1.2 Các thành phân của LIMM
42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn
4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)
4.2.2.1 Cấu trúc của mạng neural nhân tạo
4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói
Kết luận clrương,
KÉT LUẬN VÀ KIÊN NGIT
TÀI LIỆU THAM KHẢO
Trang 9CHUONG1 BAT TOAN NANG CAO CHAT LUQNG TIENG NÓI —
PHƯƠNG PHÁP TACLL NGUON MU
Giới thiệu chương
Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị
ngày cảng trở lên thông minh và có giao điện thân thiện hơn với con người Những
năng lực cửa cơn người dang dược sao chứp đầu cho các thiết bị my mốc Và ruột
trong những hướng đi lá nhận đạng âm thanh Đây là một hưởng, đi đem lại lợi ích ở
rất nhiều mặt cho nhần loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tổ cũng như đời sống v.v Tuy vậy, khả nắng nghe, và xứ lý âm thanh
của con người vô củng tình vị và phức tạp, không dễ gì tái hiện lại và sao chép cho
cáo thiết bị điện tử Và một trong những thách thức trong quá trình xây đựng hệ
thông nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một van để nhận được sự lưu tầm đặc biệt và khá phát triển trong những
nam gân đây Trong nội dưng của chương này, luận văn sẽ đề cập tới:
-_ Hải toàn nâng cao chất lượng tiếng nỏi và một số phương pháp phổ biến
trong nâng cao chất lượng tiếng nói
-_ Ứng đụng của phương pháp lách nguồn mù trong râng cao chải lượng
tiếng nói
1.1 Giới thiệu bải toán nâng cao chất lượng tiếng nói
Phương pháp nhận dang thông qua trống nỏi đang trở lên phổ biến ở rất thiểu lĩnh vực, đặc biệt là với các ứng đụng về an ninh, bảo mật Các ứng đụng này thường được phát triển với rất nhiên các điểu kiện lý tưởng, hoặc phải rất nghiêm
ngặt như trong các phòng nghiền cứu Tuy nhiền, trong hiện thực thì chất lượng
tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu
tiếng nói đầu vào cân được xử lý trước khi đưa vào nhận dạng,
Trang 10
MOD:
Cơ sở lựa chọn dé tai
Trong suốt hơn nửa thế kỷ vừa qua, lĩnh vực về nghiên cứu xử lý tiếng nói
không ngừng đại được rất nhiều thành tựu và chứng kiến những giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với sự phát triển không ngừng của kỹ thuật cũng như cảng nghệ chế tạo thiết bị tự động, các ứng dụng của xử lý tiếng nói dang dan ma
Tổng phạm vì ra nhiều Tình vực trong cuộc sống Cùng với đó cũng đặt ra nhiều bài
toán hơn cho vẫn để xử lý tiếng nói, đặc biệt lá các vẫn để về nâng cao chất lượng, tiếng nói Các vẫn đề tiền xử lý để thụ được đúng tiếng nói cần quan Lâm và ở một chất lượng cho phép có thể dưa vào xử lý (nhận dạng, diều khiển ) Và một trong, van 8 kha được quan tâm trong những năm gản đây, lá bài toán “Cocktail party”
Ach riêng biệt các tiếng nói từ những nguồn hỗn
Bai toán đặt ra yêu câu: làm sao để
hợp tiếng nỏi của nhiều người? Trong lĩnh vục nâng cao chất lượng tiếng nỏi, thì đây là một vẫn để không hẻ dễ đàng
Và một trong những phương pháp được để xuất và tổ ra rất hiệu qua cho bai toán này là phương pháp tách nguồn mù Phương pháp này đang được áp dụng,
trong rất nhiều lĩnh vực xử lý tín hiện khác nhau như y sinh, xử lý âm thanh, hình
ảnh, nhận đạng.v.v “Tách nguồn mi” dang tha bot được rất nhiều nghiên cứu với
khá nhiều thành tựu về các kỹ thuật và thuật toán Điều này cho thấy tách nguồn mù
là một phương pháp rất hiệu quả và có khả năng từng đụng rộng rãi
Có thể nói, lập trung vào các bài toán nhằm mô phòng lại được những khả nang của con người bằng các thuật toán, và tích hợp cho các thiết bị điện tử, dường, như đang là một xu thế cho những hướng nghiên cửu ngày may Là mnột người rất
quan tâm tới lĩnh vục xổ lý và nhận đạng âm thanh — hình ảnh, em mạnh đạn chọn
hưởng nghiên cửu “Sử dụng phương pháp tách nguồn mử cho nâng, cao chất hượng, tiếng nói”, với để tái nghiên củu:
“Nâng cao chất lượng tiếng nói sứ dụng phương pháp tách nguồn mù — Ứng dụng cho hệ thắng nhận dạng tiếng nói”
Trang 11TMục đích nghiên cú của luận văn:
- Tim hiểu các kỳ thuật nâng cao chất lượng tiếng nói và phương pháp tách
- _ Ứng đạng phương pháp tách nguẫn mù nâng cao chất lượng tiếng nói cho
hệ thống nhận dạng tiếng nói Tuy nhiên do giới hạn về thời gian, nên luận văn chưa triển khai được ứng dụng
Thương pháp nghiên cứu:
- _ Nghiên cửu các cơ sở lý thuyết về nâng cao chất lượng tiếng nói
-_ Nghiên cứu các cơ sở lý thuyết về phương pháp tách nguồn mù và sử
dung vào nâng cao chất lượng liếng nói
-_ Nghiên cửu ủng dụng kỹ thuật tách nguồn mù cho hệ thống nhân đạng,
tiếng nói
~ Triển khmi thực lễ kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói
và đánh giá kết quả
Nội dung chính của luận văn:
¿ Chương E Bài toán nâng cao chất lượng tiếng nói — Phương pháp tách nguồn mủ
Chương 2 Kỹ thuật lách nguồn trù với tuuật toán DUET
©_ Chương 3 Triển khai thuật toáa DUET nâng cao chất lượng tiếng nói
o Chương 4 Ứng dụng thuật toản DL/lZL trong hệ thống nhận dang
tiếng nói
Trang 12Luận văn bảo vệ trước hội đồng ngày 23 tháng 01 năm 2014, đã được chỉnh sửa
bể sung theo yêu cầu của hội đồng,
Người hướng dẫn khoa học Chủ tịch hội đồng
PGS.TS Nguyễn Quốc Cường TS Tran DS Dal
Trang 13CHUONG1 BAT TOAN NANG CAO CHAT LUQNG TIENG NÓI —
PHƯƠNG PHÁP TACLL NGUON MU
Giới thiệu chương
Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị
ngày cảng trở lên thông minh và có giao điện thân thiện hơn với con người Những
năng lực cửa cơn người dang dược sao chứp đầu cho các thiết bị my mốc Và ruột
trong những hướng đi lá nhận đạng âm thanh Đây là một hưởng, đi đem lại lợi ích ở
rất nhiều mặt cho nhần loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tổ cũng như đời sống v.v Tuy vậy, khả nắng nghe, và xứ lý âm thanh
của con người vô củng tình vị và phức tạp, không dễ gì tái hiện lại và sao chép cho
cáo thiết bị điện tử Và một trong những thách thức trong quá trình xây đựng hệ
thông nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một van để nhận được sự lưu tầm đặc biệt và khá phát triển trong những
nam gân đây Trong nội dưng của chương này, luận văn sẽ đề cập tới:
-_ Hải toàn nâng cao chất lượng tiếng nỏi và một số phương pháp phổ biến
trong nâng cao chất lượng tiếng nói
-_ Ứng đụng của phương pháp lách nguồn mù trong râng cao chải lượng
tiếng nói
1.1 Giới thiệu bải toán nâng cao chất lượng tiếng nói
Phương pháp nhận dang thông qua trống nỏi đang trở lên phổ biến ở rất thiểu lĩnh vực, đặc biệt là với các ứng đụng về an ninh, bảo mật Các ứng đụng này thường được phát triển với rất nhiên các điểu kiện lý tưởng, hoặc phải rất nghiêm
ngặt như trong các phòng nghiền cứu Tuy nhiền, trong hiện thực thì chất lượng
tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu
tiếng nói đầu vào cân được xử lý trước khi đưa vào nhận dạng,
Trang 14
MOD:
Cơ sở lựa chọn dé tai
Trong suốt hơn nửa thế kỷ vừa qua, lĩnh vực về nghiên cứu xử lý tiếng nói
không ngừng đại được rất nhiều thành tựu và chứng kiến những giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với sự phát triển không ngừng của kỹ thuật cũng như cảng nghệ chế tạo thiết bị tự động, các ứng dụng của xử lý tiếng nói dang dan ma
Tổng phạm vì ra nhiều Tình vực trong cuộc sống Cùng với đó cũng đặt ra nhiều bài
toán hơn cho vẫn để xử lý tiếng nói, đặc biệt lá các vẫn để về nâng cao chất lượng, tiếng nói Các vẫn đề tiền xử lý để thụ được đúng tiếng nói cần quan Lâm và ở một chất lượng cho phép có thể dưa vào xử lý (nhận dạng, diều khiển ) Và một trong, van 8 kha được quan tâm trong những năm gản đây, lá bài toán “Cocktail party”
Ach riêng biệt các tiếng nói từ những nguồn hỗn
Bai toán đặt ra yêu câu: làm sao để
hợp tiếng nỏi của nhiều người? Trong lĩnh vục nâng cao chất lượng tiếng nỏi, thì đây là một vẫn để không hẻ dễ đàng
Và một trong những phương pháp được để xuất và tổ ra rất hiệu qua cho bai toán này là phương pháp tách nguồn mù Phương pháp này đang được áp dụng,
trong rất nhiều lĩnh vực xử lý tín hiện khác nhau như y sinh, xử lý âm thanh, hình
ảnh, nhận đạng.v.v “Tách nguồn mi” dang tha bot được rất nhiều nghiên cứu với
khá nhiều thành tựu về các kỹ thuật và thuật toán Điều này cho thấy tách nguồn mù
là một phương pháp rất hiệu quả và có khả năng từng đụng rộng rãi
Có thể nói, lập trung vào các bài toán nhằm mô phòng lại được những khả nang của con người bằng các thuật toán, và tích hợp cho các thiết bị điện tử, dường, như đang là một xu thế cho những hướng nghiên cửu ngày may Là mnột người rất
quan tâm tới lĩnh vục xổ lý và nhận đạng âm thanh — hình ảnh, em mạnh đạn chọn
hưởng nghiên cửu “Sử dụng phương pháp tách nguồn mử cho nâng, cao chất hượng, tiếng nói”, với để tái nghiên củu:
“Nâng cao chất lượng tiếng nói sứ dụng phương pháp tách nguồn mù — Ứng dụng cho hệ thắng nhận dạng tiếng nói”
Trang 15
4.1 Tổng quan về nhận đạng tiếng nói
4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói
4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói
4.1.2.1 Phin tich cepstral theo thang, do mel
4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive
Coding)
4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear
Prediction)
4.2 Các mô hình nhận dạng tiếng nói
4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)
4.2.1.1 Quả trình Markov
4.2.1.2 Các thành phân của LIMM
42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn
4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)
4.2.2.1 Cấu trúc của mạng neural nhân tạo
4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói
Kết luận clrương,
KÉT LUẬN VÀ KIÊN NGIT
TÀI LIỆU THAM KHẢO
Trang 16
4.1 Tổng quan về nhận đạng tiếng nói
4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói
4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói
4.1.2.1 Phin tich cepstral theo thang, do mel
4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive
Coding)
4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear
Prediction)
4.2 Các mô hình nhận dạng tiếng nói
4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)
4.2.1.1 Quả trình Markov
4.2.1.2 Các thành phân của LIMM
42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn
4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)
4.2.2.1 Cấu trúc của mạng neural nhân tạo
4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói
Kết luận clrương,
KÉT LUẬN VÀ KIÊN NGIT
TÀI LIỆU THAM KHẢO
Trang 171.1.1 Nang cao chất lượng tiếng nói
"Trong thực tế, có rất nhiều nguyên nhân gây ra sự sai khác vẻ tin hiệu đầu
vào so với tín hiệu gồc Và ta thường thấy có một số các yêu tổ như sau:
Nhiễu cộng hướng: Thường xuất hiện khi thu âm tiếng nói trong một môi
trường có nhiều nên dáng kể, vị dụ như ở sẵn bay
Tiếng vọng của âm thanh: Gây ra bởi quá trình thu xuất hiện sự đội lại của
tín hiệu âm thanh
Hiện ứng chập kênh: Thường gay ra do van dé kênh thu âm, khi không có
sự chuẩn hóa lột đẫn tới không triệt tiêu được các xung đáp ứng,
Tạp âm: Thường xuất hiện khi thu âm trong một môi trường có quả nhiều
âm thanh phúc tạp
'Méo phi tuyển, nhiễu cộng hưởng điện từ băng tấn rồng v v
Đo đó, bài toán nâng cao chất lượng tiếng nói thường nhằm tới việc bú nhiều hoặc bủ kênh gây ra đo các yếu tổ bắt lợi trên Và nhìn chang “chất lượng” được đề cập ở đây, tối thiếu cũng phải đáp ứng được các yêu tố như rõ ràng, dễ nhận biết, dé nghe hoặc là phủ hợp với phương pháp xử lý phia sau phan nang cao chất lương
Tuy nhiên trong nội dung cia han vin sẽ chỉ quan tâm tới ứng dung nâng cao chất
>
lượng tiếng nói trong hệ thông nhận dạng, và do đó, luận văn sẽ ch xem xét tro trường hợp nhỏ: Đơn kênh Đa kênh |12] và phương pháp phân tách tiếng nói
1.1.2 Các phương pháp nâng cao chất lượng tiếng nói
1.1.2.1 Kỹ thuật năng cao chất lượng (rong trường hựp đơn kênh |1 2]
Dây là trường hợp trong đó chỉ tồn tại đuy nhất một kênh tín hiệu, bay nói cách khác lâ chỉ có một đầu vào và một nguiên tín hiệu Thường gặp trong một số hệ
thông thông dụng như tín hiệu điện thoại bàn hay bộ đàm, bay trong lưu trữ tín hiệu
như máy thu âm Trong trường hợp này thưởng giả thiết nhiều lá cổ định và mức độ thay đổi của tiếng nói là biết được Với trường hợp này người ta thường hay đừng
phương pháp trừ phổ (Spectral 8ubtraction - 35) Tình thắn chung của phương pháp
được mỏ tá như trong hình 1-3 và trình bảy chỉ tiết trong [32]
Trang 181.1.1 Nang cao chất lượng tiếng nói
"Trong thực tế, có rất nhiều nguyên nhân gây ra sự sai khác vẻ tin hiệu đầu
vào so với tín hiệu gồc Và ta thường thấy có một số các yêu tổ như sau:
Nhiễu cộng hướng: Thường xuất hiện khi thu âm tiếng nói trong một môi
trường có nhiều nên dáng kể, vị dụ như ở sẵn bay
Tiếng vọng của âm thanh: Gây ra bởi quá trình thu xuất hiện sự đội lại của
tín hiệu âm thanh
Hiện ứng chập kênh: Thường gay ra do van dé kênh thu âm, khi không có
sự chuẩn hóa lột đẫn tới không triệt tiêu được các xung đáp ứng,
Tạp âm: Thường xuất hiện khi thu âm trong một môi trường có quả nhiều
âm thanh phúc tạp
'Méo phi tuyển, nhiễu cộng hưởng điện từ băng tấn rồng v v
Đo đó, bài toán nâng cao chất lượng tiếng nói thường nhằm tới việc bú nhiều hoặc bủ kênh gây ra đo các yếu tổ bắt lợi trên Và nhìn chang “chất lượng” được đề cập ở đây, tối thiếu cũng phải đáp ứng được các yêu tố như rõ ràng, dễ nhận biết, dé nghe hoặc là phủ hợp với phương pháp xử lý phia sau phan nang cao chất lương
Tuy nhiên trong nội dung cia han vin sẽ chỉ quan tâm tới ứng dung nâng cao chất
>
lượng tiếng nói trong hệ thông nhận dạng, và do đó, luận văn sẽ ch xem xét tro trường hợp nhỏ: Đơn kênh Đa kênh |12] và phương pháp phân tách tiếng nói
1.1.2 Các phương pháp nâng cao chất lượng tiếng nói
1.1.2.1 Kỹ thuật năng cao chất lượng (rong trường hựp đơn kênh |1 2]
Dây là trường hợp trong đó chỉ tồn tại đuy nhất một kênh tín hiệu, bay nói cách khác lâ chỉ có một đầu vào và một nguiên tín hiệu Thường gặp trong một số hệ
thông thông dụng như tín hiệu điện thoại bàn hay bộ đàm, bay trong lưu trữ tín hiệu
như máy thu âm Trong trường hợp này thưởng giả thiết nhiều lá cổ định và mức độ thay đổi của tiếng nói là biết được Với trường hợp này người ta thường hay đừng
phương pháp trừ phổ (Spectral 8ubtraction - 35) Tình thắn chung của phương pháp
được mỏ tá như trong hình 1-3 và trình bảy chỉ tiết trong [32]
Trang 19
4.1 Tổng quan về nhận đạng tiếng nói
4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói
4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói
4.1.2.1 Phin tich cepstral theo thang, do mel
4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive
Coding)
4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear
Prediction)
4.2 Các mô hình nhận dạng tiếng nói
4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)
4.2.1.1 Quả trình Markov
4.2.1.2 Các thành phân của LIMM
42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn
4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)
4.2.2.1 Cấu trúc của mạng neural nhân tạo
4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói
Kết luận clrương,
KÉT LUẬN VÀ KIÊN NGIT
TÀI LIỆU THAM KHẢO
Trang 20¢
tà ly
“ac nguén tin hiéu cé tinh én định cục bộ
tà
Các nguồn phân biệt với nhau Irong không gian 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET
2.3.1 Khái quát chưng về kỹ thuật DUET
2.3.2 Tuược dễ trong số lai chiêu
2,3.3 Quả trình phân tách các nguồn
2-4 Mô rộng thuật toán DUET
2.4.1 Tăng giới hạn vẻ dò trể
2.4.2 Phương pháp xắp xi các nguồn trực giao rời rạc
Kết luận chương
CHƯƠNG 3 TRIÊN KHAI THUẬT TOÁN DUET NÂNG CAO CHAT
LƯỢNG TIẾNG NÓI
Giới thiệu chương
3.2 Thực hiện thiết kế nhân mềm
3.3.1 Thiết kế giao diện trên Matlab
3.3.2 Triển khai thuật toán
3.2.3 Quả trinh thiết kế
3.3 Chay mô phông và đánh giá kết qua
3.3.1 Chạy mỏ phỏng chương trinh
3.3.1.1 Thứ nghiệm 1)UIZT với số lượng dau vao thay dai
3.3.1.2 Thứ nghiệm DUET với các nguồn biên độ khác nhau
3.3.1.3 Thứ nghiệm DUET với các nguồn độ trễ lớn
3.3.2 Dánh giá kết quả
Kết luận chương
NHÂN DANG TIBNG NOI
Giới thiệu chương
Trang 21
MOD:
Cơ sở lựa chọn dé tai
Trong suốt hơn nửa thế kỷ vừa qua, lĩnh vực về nghiên cứu xử lý tiếng nói
không ngừng đại được rất nhiều thành tựu và chứng kiến những giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với sự phát triển không ngừng của kỹ thuật cũng như cảng nghệ chế tạo thiết bị tự động, các ứng dụng của xử lý tiếng nói dang dan ma
Tổng phạm vì ra nhiều Tình vực trong cuộc sống Cùng với đó cũng đặt ra nhiều bài
toán hơn cho vẫn để xử lý tiếng nói, đặc biệt lá các vẫn để về nâng cao chất lượng, tiếng nói Các vẫn đề tiền xử lý để thụ được đúng tiếng nói cần quan Lâm và ở một chất lượng cho phép có thể dưa vào xử lý (nhận dạng, diều khiển ) Và một trong, van 8 kha được quan tâm trong những năm gản đây, lá bài toán “Cocktail party”
Ach riêng biệt các tiếng nói từ những nguồn hỗn
Bai toán đặt ra yêu câu: làm sao để
hợp tiếng nỏi của nhiều người? Trong lĩnh vục nâng cao chất lượng tiếng nỏi, thì đây là một vẫn để không hẻ dễ đàng
Và một trong những phương pháp được để xuất và tổ ra rất hiệu qua cho bai toán này là phương pháp tách nguồn mù Phương pháp này đang được áp dụng,
trong rất nhiều lĩnh vực xử lý tín hiện khác nhau như y sinh, xử lý âm thanh, hình
ảnh, nhận đạng.v.v “Tách nguồn mi” dang tha bot được rất nhiều nghiên cứu với
khá nhiều thành tựu về các kỹ thuật và thuật toán Điều này cho thấy tách nguồn mù
là một phương pháp rất hiệu quả và có khả năng từng đụng rộng rãi
Có thể nói, lập trung vào các bài toán nhằm mô phòng lại được những khả nang của con người bằng các thuật toán, và tích hợp cho các thiết bị điện tử, dường, như đang là một xu thế cho những hướng nghiên cửu ngày may Là mnột người rất
quan tâm tới lĩnh vục xổ lý và nhận đạng âm thanh — hình ảnh, em mạnh đạn chọn
hưởng nghiên cửu “Sử dụng phương pháp tách nguồn mử cho nâng, cao chất hượng, tiếng nói”, với để tái nghiên củu:
“Nâng cao chất lượng tiếng nói sứ dụng phương pháp tách nguồn mù — Ứng dụng cho hệ thắng nhận dạng tiếng nói”
Trang 22TMục đích nghiên cú của luận văn:
- Tim hiểu các kỳ thuật nâng cao chất lượng tiếng nói và phương pháp tách
- _ Ứng đạng phương pháp tách nguẫn mù nâng cao chất lượng tiếng nói cho
hệ thống nhận dạng tiếng nói Tuy nhiên do giới hạn về thời gian, nên luận văn chưa triển khai được ứng dụng
Thương pháp nghiên cứu:
- _ Nghiên cửu các cơ sở lý thuyết về nâng cao chất lượng tiếng nói
-_ Nghiên cứu các cơ sở lý thuyết về phương pháp tách nguồn mù và sử
dung vào nâng cao chất lượng liếng nói
-_ Nghiên cửu ủng dụng kỹ thuật tách nguồn mù cho hệ thống nhân đạng,
tiếng nói
~ Triển khmi thực lễ kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói
và đánh giá kết quả
Nội dung chính của luận văn:
¿ Chương E Bài toán nâng cao chất lượng tiếng nói — Phương pháp tách nguồn mủ
Chương 2 Kỹ thuật lách nguồn trù với tuuật toán DUET
©_ Chương 3 Triển khai thuật toáa DUET nâng cao chất lượng tiếng nói
o Chương 4 Ứng dụng thuật toản DL/lZL trong hệ thống nhận dang
tiếng nói
Trang 23¢
tà ly
“ac nguén tin hiéu cé tinh én định cục bộ
tà
Các nguồn phân biệt với nhau Irong không gian 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET
2.3.1 Khái quát chưng về kỹ thuật DUET
2.3.2 Tuược dễ trong số lai chiêu
2,3.3 Quả trình phân tách các nguồn
2-4 Mô rộng thuật toán DUET
2.4.1 Tăng giới hạn vẻ dò trể
2.4.2 Phương pháp xắp xi các nguồn trực giao rời rạc
Kết luận chương
CHƯƠNG 3 TRIÊN KHAI THUẬT TOÁN DUET NÂNG CAO CHAT
LƯỢNG TIẾNG NÓI
Giới thiệu chương
3.2 Thực hiện thiết kế nhân mềm
3.3.1 Thiết kế giao diện trên Matlab
3.3.2 Triển khai thuật toán
3.2.3 Quả trinh thiết kế
3.3 Chay mô phông và đánh giá kết qua
3.3.1 Chạy mỏ phỏng chương trinh
3.3.1.1 Thứ nghiệm 1)UIZT với số lượng dau vao thay dai
3.3.1.2 Thứ nghiệm DUET với các nguồn biên độ khác nhau
3.3.1.3 Thứ nghiệm DUET với các nguồn độ trễ lớn
3.3.2 Dánh giá kết quả
Kết luận chương
NHÂN DANG TIBNG NOI
Giới thiệu chương
Trang 24
4.1 Tổng quan về nhận đạng tiếng nói
4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói
4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói
4.1.2.1 Phin tich cepstral theo thang, do mel
4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive
Coding)
4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear
Prediction)
4.2 Các mô hình nhận dạng tiếng nói
4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)
4.2.1.1 Quả trình Markov
4.2.1.2 Các thành phân của LIMM
42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn
4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)
4.2.2.1 Cấu trúc của mạng neural nhân tạo
4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói
Kết luận clrương,
KÉT LUẬN VÀ KIÊN NGIT
TÀI LIỆU THAM KHẢO
Trang 25¢
tà ly
“ac nguén tin hiéu cé tinh én định cục bộ
tà
Các nguồn phân biệt với nhau Irong không gian 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET
2.3.1 Khái quát chưng về kỹ thuật DUET
2.3.2 Tuược dễ trong số lai chiêu
2,3.3 Quả trình phân tách các nguồn
2-4 Mô rộng thuật toán DUET
2.4.1 Tăng giới hạn vẻ dò trể
2.4.2 Phương pháp xắp xi các nguồn trực giao rời rạc
Kết luận chương
CHƯƠNG 3 TRIÊN KHAI THUẬT TOÁN DUET NÂNG CAO CHAT
LƯỢNG TIẾNG NÓI
Giới thiệu chương
3.2 Thực hiện thiết kế nhân mềm
3.3.1 Thiết kế giao diện trên Matlab
3.3.2 Triển khai thuật toán
3.2.3 Quả trinh thiết kế
3.3 Chay mô phông và đánh giá kết qua
3.3.1 Chạy mỏ phỏng chương trinh
3.3.1.1 Thứ nghiệm 1)UIZT với số lượng dau vao thay dai
3.3.1.2 Thứ nghiệm DUET với các nguồn biên độ khác nhau
3.3.1.3 Thứ nghiệm DUET với các nguồn độ trễ lớn
3.3.2 Dánh giá kết quả
Kết luận chương
NHÂN DANG TIBNG NOI
Giới thiệu chương
Trang 26CHUONG1 BAT TOAN NANG CAO CHAT LUQNG TIENG NÓI —
PHƯƠNG PHÁP TACLL NGUON MU
Giới thiệu chương
Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị
ngày cảng trở lên thông minh và có giao điện thân thiện hơn với con người Những
năng lực cửa cơn người dang dược sao chứp đầu cho các thiết bị my mốc Và ruột
trong những hướng đi lá nhận đạng âm thanh Đây là một hưởng, đi đem lại lợi ích ở
rất nhiều mặt cho nhần loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tổ cũng như đời sống v.v Tuy vậy, khả nắng nghe, và xứ lý âm thanh
của con người vô củng tình vị và phức tạp, không dễ gì tái hiện lại và sao chép cho
cáo thiết bị điện tử Và một trong những thách thức trong quá trình xây đựng hệ
thông nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một van để nhận được sự lưu tầm đặc biệt và khá phát triển trong những
nam gân đây Trong nội dưng của chương này, luận văn sẽ đề cập tới:
-_ Hải toàn nâng cao chất lượng tiếng nỏi và một số phương pháp phổ biến
trong nâng cao chất lượng tiếng nói
-_ Ứng đụng của phương pháp lách nguồn mù trong râng cao chải lượng
tiếng nói
1.1 Giới thiệu bải toán nâng cao chất lượng tiếng nói
Phương pháp nhận dang thông qua trống nỏi đang trở lên phổ biến ở rất thiểu lĩnh vực, đặc biệt là với các ứng đụng về an ninh, bảo mật Các ứng đụng này thường được phát triển với rất nhiên các điểu kiện lý tưởng, hoặc phải rất nghiêm
ngặt như trong các phòng nghiền cứu Tuy nhiền, trong hiện thực thì chất lượng
tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu
tiếng nói đầu vào cân được xử lý trước khi đưa vào nhận dạng,
Trang 27CHUONG1 BAT TOAN NANG CAO CHAT LUQNG TIENG NÓI —
PHƯƠNG PHÁP TACLL NGUON MU
Giới thiệu chương
Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị
ngày cảng trở lên thông minh và có giao điện thân thiện hơn với con người Những
năng lực cửa cơn người dang dược sao chứp đầu cho các thiết bị my mốc Và ruột
trong những hướng đi lá nhận đạng âm thanh Đây là một hưởng, đi đem lại lợi ích ở
rất nhiều mặt cho nhần loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tổ cũng như đời sống v.v Tuy vậy, khả nắng nghe, và xứ lý âm thanh
của con người vô củng tình vị và phức tạp, không dễ gì tái hiện lại và sao chép cho
cáo thiết bị điện tử Và một trong những thách thức trong quá trình xây đựng hệ
thông nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một van để nhận được sự lưu tầm đặc biệt và khá phát triển trong những
nam gân đây Trong nội dưng của chương này, luận văn sẽ đề cập tới:
-_ Hải toàn nâng cao chất lượng tiếng nỏi và một số phương pháp phổ biến
trong nâng cao chất lượng tiếng nói
-_ Ứng đụng của phương pháp lách nguồn mù trong râng cao chải lượng
tiếng nói
1.1 Giới thiệu bải toán nâng cao chất lượng tiếng nói
Phương pháp nhận dang thông qua trống nỏi đang trở lên phổ biến ở rất thiểu lĩnh vực, đặc biệt là với các ứng đụng về an ninh, bảo mật Các ứng đụng này thường được phát triển với rất nhiên các điểu kiện lý tưởng, hoặc phải rất nghiêm
ngặt như trong các phòng nghiền cứu Tuy nhiền, trong hiện thực thì chất lượng
tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu
tiếng nói đầu vào cân được xử lý trước khi đưa vào nhận dạng,
Trang 28¢
tà ly
“ac nguén tin hiéu cé tinh én định cục bộ
tà
Các nguồn phân biệt với nhau Irong không gian 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET
2.3.1 Khái quát chưng về kỹ thuật DUET
2.3.2 Tuược dễ trong số lai chiêu
2,3.3 Quả trình phân tách các nguồn
2-4 Mô rộng thuật toán DUET
2.4.1 Tăng giới hạn vẻ dò trể
2.4.2 Phương pháp xắp xi các nguồn trực giao rời rạc
Kết luận chương
CHƯƠNG 3 TRIÊN KHAI THUẬT TOÁN DUET NÂNG CAO CHAT
LƯỢNG TIẾNG NÓI
Giới thiệu chương
3.2 Thực hiện thiết kế nhân mềm
3.3.1 Thiết kế giao diện trên Matlab
3.3.2 Triển khai thuật toán
3.2.3 Quả trinh thiết kế
3.3 Chay mô phông và đánh giá kết qua
3.3.1 Chạy mỏ phỏng chương trinh
3.3.1.1 Thứ nghiệm 1)UIZT với số lượng dau vao thay dai
3.3.1.2 Thứ nghiệm DUET với các nguồn biên độ khác nhau
3.3.1.3 Thứ nghiệm DUET với các nguồn độ trễ lớn
3.3.2 Dánh giá kết quả
Kết luận chương
NHÂN DANG TIBNG NOI
Giới thiệu chương
Trang 291.1.1 Nang cao chất lượng tiếng nói
"Trong thực tế, có rất nhiều nguyên nhân gây ra sự sai khác vẻ tin hiệu đầu
vào so với tín hiệu gồc Và ta thường thấy có một số các yêu tổ như sau:
Nhiễu cộng hướng: Thường xuất hiện khi thu âm tiếng nói trong một môi
trường có nhiều nên dáng kể, vị dụ như ở sẵn bay
Tiếng vọng của âm thanh: Gây ra bởi quá trình thu xuất hiện sự đội lại của
tín hiệu âm thanh
Hiện ứng chập kênh: Thường gay ra do van dé kênh thu âm, khi không có
sự chuẩn hóa lột đẫn tới không triệt tiêu được các xung đáp ứng,
Tạp âm: Thường xuất hiện khi thu âm trong một môi trường có quả nhiều
âm thanh phúc tạp
'Méo phi tuyển, nhiễu cộng hưởng điện từ băng tấn rồng v v
Đo đó, bài toán nâng cao chất lượng tiếng nói thường nhằm tới việc bú nhiều hoặc bủ kênh gây ra đo các yếu tổ bắt lợi trên Và nhìn chang “chất lượng” được đề cập ở đây, tối thiếu cũng phải đáp ứng được các yêu tố như rõ ràng, dễ nhận biết, dé nghe hoặc là phủ hợp với phương pháp xử lý phia sau phan nang cao chất lương
Tuy nhiên trong nội dung cia han vin sẽ chỉ quan tâm tới ứng dung nâng cao chất
>
lượng tiếng nói trong hệ thông nhận dạng, và do đó, luận văn sẽ ch xem xét tro trường hợp nhỏ: Đơn kênh Đa kênh |12] và phương pháp phân tách tiếng nói
1.1.2 Các phương pháp nâng cao chất lượng tiếng nói
1.1.2.1 Kỹ thuật năng cao chất lượng (rong trường hựp đơn kênh |1 2]
Dây là trường hợp trong đó chỉ tồn tại đuy nhất một kênh tín hiệu, bay nói cách khác lâ chỉ có một đầu vào và một nguiên tín hiệu Thường gặp trong một số hệ
thông thông dụng như tín hiệu điện thoại bàn hay bộ đàm, bay trong lưu trữ tín hiệu
như máy thu âm Trong trường hợp này thưởng giả thiết nhiều lá cổ định và mức độ thay đổi của tiếng nói là biết được Với trường hợp này người ta thường hay đừng
phương pháp trừ phổ (Spectral 8ubtraction - 35) Tình thắn chung của phương pháp
được mỏ tá như trong hình 1-3 và trình bảy chỉ tiết trong [32]
Trang 30TMục đích nghiên cú của luận văn:
- Tim hiểu các kỳ thuật nâng cao chất lượng tiếng nói và phương pháp tách
- _ Ứng đạng phương pháp tách nguẫn mù nâng cao chất lượng tiếng nói cho
hệ thống nhận dạng tiếng nói Tuy nhiên do giới hạn về thời gian, nên luận văn chưa triển khai được ứng dụng
Thương pháp nghiên cứu:
- _ Nghiên cửu các cơ sở lý thuyết về nâng cao chất lượng tiếng nói
-_ Nghiên cứu các cơ sở lý thuyết về phương pháp tách nguồn mù và sử
dung vào nâng cao chất lượng liếng nói
-_ Nghiên cửu ủng dụng kỹ thuật tách nguồn mù cho hệ thống nhân đạng,
tiếng nói
~ Triển khmi thực lễ kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói
và đánh giá kết quả
Nội dung chính của luận văn:
¿ Chương E Bài toán nâng cao chất lượng tiếng nói — Phương pháp tách nguồn mủ
Chương 2 Kỹ thuật lách nguồn trù với tuuật toán DUET
©_ Chương 3 Triển khai thuật toáa DUET nâng cao chất lượng tiếng nói
o Chương 4 Ứng dụng thuật toản DL/lZL trong hệ thống nhận dang
tiếng nói
Trang 311.1.1 Nang cao chất lượng tiếng nói
"Trong thực tế, có rất nhiều nguyên nhân gây ra sự sai khác vẻ tin hiệu đầu
vào so với tín hiệu gồc Và ta thường thấy có một số các yêu tổ như sau:
Nhiễu cộng hướng: Thường xuất hiện khi thu âm tiếng nói trong một môi
trường có nhiều nên dáng kể, vị dụ như ở sẵn bay
Tiếng vọng của âm thanh: Gây ra bởi quá trình thu xuất hiện sự đội lại của
tín hiệu âm thanh
Hiện ứng chập kênh: Thường gay ra do van dé kênh thu âm, khi không có
sự chuẩn hóa lột đẫn tới không triệt tiêu được các xung đáp ứng,
Tạp âm: Thường xuất hiện khi thu âm trong một môi trường có quả nhiều
âm thanh phúc tạp
'Méo phi tuyển, nhiễu cộng hưởng điện từ băng tấn rồng v v
Đo đó, bài toán nâng cao chất lượng tiếng nói thường nhằm tới việc bú nhiều hoặc bủ kênh gây ra đo các yếu tổ bắt lợi trên Và nhìn chang “chất lượng” được đề cập ở đây, tối thiếu cũng phải đáp ứng được các yêu tố như rõ ràng, dễ nhận biết, dé nghe hoặc là phủ hợp với phương pháp xử lý phia sau phan nang cao chất lương
Tuy nhiên trong nội dung cia han vin sẽ chỉ quan tâm tới ứng dung nâng cao chất
>
lượng tiếng nói trong hệ thông nhận dạng, và do đó, luận văn sẽ ch xem xét tro trường hợp nhỏ: Đơn kênh Đa kênh |12] và phương pháp phân tách tiếng nói
1.1.2 Các phương pháp nâng cao chất lượng tiếng nói
1.1.2.1 Kỹ thuật năng cao chất lượng (rong trường hựp đơn kênh |1 2]
Dây là trường hợp trong đó chỉ tồn tại đuy nhất một kênh tín hiệu, bay nói cách khác lâ chỉ có một đầu vào và một nguiên tín hiệu Thường gặp trong một số hệ
thông thông dụng như tín hiệu điện thoại bàn hay bộ đàm, bay trong lưu trữ tín hiệu
như máy thu âm Trong trường hợp này thưởng giả thiết nhiều lá cổ định và mức độ thay đổi của tiếng nói là biết được Với trường hợp này người ta thường hay đừng
phương pháp trừ phổ (Spectral 8ubtraction - 35) Tình thắn chung của phương pháp
được mỏ tá như trong hình 1-3 và trình bảy chỉ tiết trong [32]
Trang 321.1.1 Nang cao chất lượng tiếng nói
"Trong thực tế, có rất nhiều nguyên nhân gây ra sự sai khác vẻ tin hiệu đầu
vào so với tín hiệu gồc Và ta thường thấy có một số các yêu tổ như sau:
Nhiễu cộng hướng: Thường xuất hiện khi thu âm tiếng nói trong một môi
trường có nhiều nên dáng kể, vị dụ như ở sẵn bay
Tiếng vọng của âm thanh: Gây ra bởi quá trình thu xuất hiện sự đội lại của
tín hiệu âm thanh
Hiện ứng chập kênh: Thường gay ra do van dé kênh thu âm, khi không có
sự chuẩn hóa lột đẫn tới không triệt tiêu được các xung đáp ứng,
Tạp âm: Thường xuất hiện khi thu âm trong một môi trường có quả nhiều
âm thanh phúc tạp
'Méo phi tuyển, nhiễu cộng hưởng điện từ băng tấn rồng v v
Đo đó, bài toán nâng cao chất lượng tiếng nói thường nhằm tới việc bú nhiều hoặc bủ kênh gây ra đo các yếu tổ bắt lợi trên Và nhìn chang “chất lượng” được đề cập ở đây, tối thiếu cũng phải đáp ứng được các yêu tố như rõ ràng, dễ nhận biết, dé nghe hoặc là phủ hợp với phương pháp xử lý phia sau phan nang cao chất lương
Tuy nhiên trong nội dung cia han vin sẽ chỉ quan tâm tới ứng dung nâng cao chất
>
lượng tiếng nói trong hệ thông nhận dạng, và do đó, luận văn sẽ ch xem xét tro trường hợp nhỏ: Đơn kênh Đa kênh |12] và phương pháp phân tách tiếng nói
1.1.2 Các phương pháp nâng cao chất lượng tiếng nói
1.1.2.1 Kỹ thuật năng cao chất lượng (rong trường hựp đơn kênh |1 2]
Dây là trường hợp trong đó chỉ tồn tại đuy nhất một kênh tín hiệu, bay nói cách khác lâ chỉ có một đầu vào và một nguiên tín hiệu Thường gặp trong một số hệ
thông thông dụng như tín hiệu điện thoại bàn hay bộ đàm, bay trong lưu trữ tín hiệu
như máy thu âm Trong trường hợp này thưởng giả thiết nhiều lá cổ định và mức độ thay đổi của tiếng nói là biết được Với trường hợp này người ta thường hay đừng
phương pháp trừ phổ (Spectral 8ubtraction - 35) Tình thắn chung của phương pháp
được mỏ tá như trong hình 1-3 và trình bảy chỉ tiết trong [32]
Trang 33
MOD:
Cơ sở lựa chọn dé tai
Trong suốt hơn nửa thế kỷ vừa qua, lĩnh vực về nghiên cứu xử lý tiếng nói
không ngừng đại được rất nhiều thành tựu và chứng kiến những giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với sự phát triển không ngừng của kỹ thuật cũng như cảng nghệ chế tạo thiết bị tự động, các ứng dụng của xử lý tiếng nói dang dan ma
Tổng phạm vì ra nhiều Tình vực trong cuộc sống Cùng với đó cũng đặt ra nhiều bài
toán hơn cho vẫn để xử lý tiếng nói, đặc biệt lá các vẫn để về nâng cao chất lượng, tiếng nói Các vẫn đề tiền xử lý để thụ được đúng tiếng nói cần quan Lâm và ở một chất lượng cho phép có thể dưa vào xử lý (nhận dạng, diều khiển ) Và một trong, van 8 kha được quan tâm trong những năm gản đây, lá bài toán “Cocktail party”
Ach riêng biệt các tiếng nói từ những nguồn hỗn
Bai toán đặt ra yêu câu: làm sao để
hợp tiếng nỏi của nhiều người? Trong lĩnh vục nâng cao chất lượng tiếng nỏi, thì đây là một vẫn để không hẻ dễ đàng
Và một trong những phương pháp được để xuất và tổ ra rất hiệu qua cho bai toán này là phương pháp tách nguồn mù Phương pháp này đang được áp dụng,
trong rất nhiều lĩnh vực xử lý tín hiện khác nhau như y sinh, xử lý âm thanh, hình
ảnh, nhận đạng.v.v “Tách nguồn mi” dang tha bot được rất nhiều nghiên cứu với
khá nhiều thành tựu về các kỹ thuật và thuật toán Điều này cho thấy tách nguồn mù
là một phương pháp rất hiệu quả và có khả năng từng đụng rộng rãi
Có thể nói, lập trung vào các bài toán nhằm mô phòng lại được những khả nang của con người bằng các thuật toán, và tích hợp cho các thiết bị điện tử, dường, như đang là một xu thế cho những hướng nghiên cửu ngày may Là mnột người rất
quan tâm tới lĩnh vục xổ lý và nhận đạng âm thanh — hình ảnh, em mạnh đạn chọn
hưởng nghiên cửu “Sử dụng phương pháp tách nguồn mử cho nâng, cao chất hượng, tiếng nói”, với để tái nghiên củu:
“Nâng cao chất lượng tiếng nói sứ dụng phương pháp tách nguồn mù — Ứng dụng cho hệ thắng nhận dạng tiếng nói”
Trang 34CHUONG1 BAT TOAN NANG CAO CHAT LUQNG TIENG NÓI —
PHƯƠNG PHÁP TACLL NGUON MU
Giới thiệu chương
Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị
ngày cảng trở lên thông minh và có giao điện thân thiện hơn với con người Những
năng lực cửa cơn người dang dược sao chứp đầu cho các thiết bị my mốc Và ruột
trong những hướng đi lá nhận đạng âm thanh Đây là một hưởng, đi đem lại lợi ích ở
rất nhiều mặt cho nhần loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tổ cũng như đời sống v.v Tuy vậy, khả nắng nghe, và xứ lý âm thanh
của con người vô củng tình vị và phức tạp, không dễ gì tái hiện lại và sao chép cho
cáo thiết bị điện tử Và một trong những thách thức trong quá trình xây đựng hệ
thông nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một van để nhận được sự lưu tầm đặc biệt và khá phát triển trong những
nam gân đây Trong nội dưng của chương này, luận văn sẽ đề cập tới:
-_ Hải toàn nâng cao chất lượng tiếng nỏi và một số phương pháp phổ biến
trong nâng cao chất lượng tiếng nói
-_ Ứng đụng của phương pháp lách nguồn mù trong râng cao chải lượng
tiếng nói
1.1 Giới thiệu bải toán nâng cao chất lượng tiếng nói
Phương pháp nhận dang thông qua trống nỏi đang trở lên phổ biến ở rất thiểu lĩnh vực, đặc biệt là với các ứng đụng về an ninh, bảo mật Các ứng đụng này thường được phát triển với rất nhiên các điểu kiện lý tưởng, hoặc phải rất nghiêm
ngặt như trong các phòng nghiền cứu Tuy nhiền, trong hiện thực thì chất lượng
tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu
tiếng nói đầu vào cân được xử lý trước khi đưa vào nhận dạng,
Trang 35
4.1 Tổng quan về nhận đạng tiếng nói
4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói
4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói
4.1.2.1 Phin tich cepstral theo thang, do mel
4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive
Coding)
4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear
Prediction)
4.2 Các mô hình nhận dạng tiếng nói
4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)
4.2.1.1 Quả trình Markov
4.2.1.2 Các thành phân của LIMM
42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn
4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)
4.2.2.1 Cấu trúc của mạng neural nhân tạo
4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói
Kết luận clrương,
KÉT LUẬN VÀ KIÊN NGIT
TÀI LIỆU THAM KHẢO
Trang 36
MOD:
Cơ sở lựa chọn dé tai
Trong suốt hơn nửa thế kỷ vừa qua, lĩnh vực về nghiên cứu xử lý tiếng nói
không ngừng đại được rất nhiều thành tựu và chứng kiến những giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với sự phát triển không ngừng của kỹ thuật cũng như cảng nghệ chế tạo thiết bị tự động, các ứng dụng của xử lý tiếng nói dang dan ma
Tổng phạm vì ra nhiều Tình vực trong cuộc sống Cùng với đó cũng đặt ra nhiều bài
toán hơn cho vẫn để xử lý tiếng nói, đặc biệt lá các vẫn để về nâng cao chất lượng, tiếng nói Các vẫn đề tiền xử lý để thụ được đúng tiếng nói cần quan Lâm và ở một chất lượng cho phép có thể dưa vào xử lý (nhận dạng, diều khiển ) Và một trong, van 8 kha được quan tâm trong những năm gản đây, lá bài toán “Cocktail party”
Ach riêng biệt các tiếng nói từ những nguồn hỗn
Bai toán đặt ra yêu câu: làm sao để
hợp tiếng nỏi của nhiều người? Trong lĩnh vục nâng cao chất lượng tiếng nỏi, thì đây là một vẫn để không hẻ dễ đàng
Và một trong những phương pháp được để xuất và tổ ra rất hiệu qua cho bai toán này là phương pháp tách nguồn mù Phương pháp này đang được áp dụng,
trong rất nhiều lĩnh vực xử lý tín hiện khác nhau như y sinh, xử lý âm thanh, hình
ảnh, nhận đạng.v.v “Tách nguồn mi” dang tha bot được rất nhiều nghiên cứu với
khá nhiều thành tựu về các kỹ thuật và thuật toán Điều này cho thấy tách nguồn mù
là một phương pháp rất hiệu quả và có khả năng từng đụng rộng rãi
Có thể nói, lập trung vào các bài toán nhằm mô phòng lại được những khả nang của con người bằng các thuật toán, và tích hợp cho các thiết bị điện tử, dường, như đang là một xu thế cho những hướng nghiên cửu ngày may Là mnột người rất
quan tâm tới lĩnh vục xổ lý và nhận đạng âm thanh — hình ảnh, em mạnh đạn chọn
hưởng nghiên cửu “Sử dụng phương pháp tách nguồn mử cho nâng, cao chất hượng, tiếng nói”, với để tái nghiên củu:
“Nâng cao chất lượng tiếng nói sứ dụng phương pháp tách nguồn mù — Ứng dụng cho hệ thắng nhận dạng tiếng nói”
Trang 37CHUONG1 BAT TOAN NANG CAO CHAT LUQNG TIENG NÓI —
PHƯƠNG PHÁP TACLL NGUON MU
Giới thiệu chương
Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị
ngày cảng trở lên thông minh và có giao điện thân thiện hơn với con người Những
năng lực cửa cơn người dang dược sao chứp đầu cho các thiết bị my mốc Và ruột
trong những hướng đi lá nhận đạng âm thanh Đây là một hưởng, đi đem lại lợi ích ở
rất nhiều mặt cho nhần loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tổ cũng như đời sống v.v Tuy vậy, khả nắng nghe, và xứ lý âm thanh
của con người vô củng tình vị và phức tạp, không dễ gì tái hiện lại và sao chép cho
cáo thiết bị điện tử Và một trong những thách thức trong quá trình xây đựng hệ
thông nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một van để nhận được sự lưu tầm đặc biệt và khá phát triển trong những
nam gân đây Trong nội dưng của chương này, luận văn sẽ đề cập tới:
-_ Hải toàn nâng cao chất lượng tiếng nỏi và một số phương pháp phổ biến
trong nâng cao chất lượng tiếng nói
-_ Ứng đụng của phương pháp lách nguồn mù trong râng cao chải lượng
tiếng nói
1.1 Giới thiệu bải toán nâng cao chất lượng tiếng nói
Phương pháp nhận dang thông qua trống nỏi đang trở lên phổ biến ở rất thiểu lĩnh vực, đặc biệt là với các ứng đụng về an ninh, bảo mật Các ứng đụng này thường được phát triển với rất nhiên các điểu kiện lý tưởng, hoặc phải rất nghiêm
ngặt như trong các phòng nghiền cứu Tuy nhiền, trong hiện thực thì chất lượng
tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu
tiếng nói đầu vào cân được xử lý trước khi đưa vào nhận dạng,