Luận văn thạc sĩ nâng cao chất lượng tiếng nói sử dụng phương pháp tách nguồn mù Ứng dụng cho hệ thống nhận dạng tiếng nói

1.1.3.3 Kỹ thuật nâng cao chất hrợng trong trường hợp đa kênh 1.1.3 Phương pháp phân tách tiếng nói trong nâng cao chất lượng tiếng nói 1.2 Phương pháp tách nguồn mủ ửng dụng trong nàng

Trang 1

Tiọc viên: Chu Minh Huân

DE TAT: NANG CAO CHAT LUONG TIENG NOI SU DUNG

PHƯƠNG PHÁP TÁCH NGUON MU— ỨNG DUNG CHO

HE THONG NHAN DANG TIENG NOI

LUẬN VĂN THẠC SĨ KỸ THUẬT

ĐÓ LƯỞNG VÀ CÁC HỆ THỐNG ĐIÊU KHIỂN

Ila Noi — Năm 2014

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Học viên: Chu Minh Huan

DE TAI : NÂNG CAO CHIÁT LƯỢNG TIÉNG NÓI SỬ DỤNG PIIƯƠNG

PHÁP TÁCH NGUÔN MU — UNG DUNG CHO HE THONG NHẬN

DANG TIENG NOT

CHUYÊN NGÀNH: ĐO LƯỜNG VÀ CÁC HE THONG DIEU KHIEN

LUẬN VĂN THẠC SĨ KŸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS NGUYÊN QUỐC CƯỜNG

Hà Nội — Năm 2014

Trang 3

Chương] BALTOAN NANG CAO CHAT LUONG ‘TLENG NOL

THƯƠNG PHAP TACH NGUON MU

Giới thiệu chương

1.1 Giới thiệu bài toản nâng cao chất lượng tiếng nói

1.1.1 Nâng cao chất hượng tiếng nói

1.1.2 Các phương pháp năng cao chất lượng liếng nói

1.1.2.1 Kỹ thuật nâng cao chất lượng trong trường hợp đơn kênh

1.1.3.3 Kỹ thuật nâng cao chất hrợng trong trường hợp đa kênh

1.1.3 Phương pháp phân tách tiếng nói trong nâng cao chất lượng tiếng nói

1.2 Phương pháp tách nguồn mủ ửng dụng trong nàng cao chất lượng tiếng

nói

1.2.1 Giới thiêu chung

1.2.2 Các hưởng tiếp cận của phương pháp tách nguồn mủ

1.2.2 1 Phương pháp phân tích thành phân độc lap (Independent

Component Analysis ICA)

2.1 Giới thiệu vẻ thuật toán DUET

22 Các giả thiêt cần có của thuật toán DUET

Trang 4

4.1 Tổng quan về nhận đạng tiếng nói

4.1.1 Các hướng tiếp cận nhận trorer nhận dạng tiếng nói

4.1.2 Các phương pháp trích chọn tham số đặc trưng của tiếng nói

4.1.2.1 Phin tich cepstral theo thang, do mel

4.1.2.2 Phương pháp mã dự đoán tuyến tinh TPC (Linear Predictive

Coding)

4.1.2.3 Phương pháp đự đoán tuyến tính trực giác PLP (Perceptual Linear

Prediction)

4.2 Các mô hình nhận dạng tiếng nói

4.2.1 Mô hình Markov an (Hidden Markov Model — HMM)

4.2.1.1 Quả trình Markov

4.2.1.2 Các thành phân của LIMM

42.1.3 Ba bai toán cơ bản của của mô hình Markov ẫn

4.2.2 Mé hinh mang neural nbn tao (Artificial Neural Networks ANN)

4.2.2.1 Cấu trúc của mạng neural nhân tạo

4.3 Ứng dụng kỹ thuật DUET trong hệ thống nhận đạng tiếng nói

Kết luận clrương,

KÉT LUẬN VÀ KIÊN NGIT

TÀI LIỆU THAM KHẢO

Trang 5

TMục đích nghiên cú của luận văn:

- Tim hiểu các kỳ thuật nâng cao chất lượng tiếng nói và phương pháp tách

- _ Ứng đạng phương pháp tách nguẫn mù nâng cao chất lượng tiếng nói cho

hệ thống nhận dạng tiếng nói Tuy nhiên do giới hạn về thời gian, nên luận văn chưa triển khai được ứng dụng

Thương pháp nghiên cứu:

- _ Nghiên cửu các cơ sở lý thuyết về nâng cao chất lượng tiếng nói

-_ Nghiên cứu các cơ sở lý thuyết về phương pháp tách nguồn mù và sử

dung vào nâng cao chất lượng liếng nói

-_ Nghiên cửu ủng dụng kỹ thuật tách nguồn mù cho hệ thống nhân đạng,

tiếng nói

~ Triển khmi thực lễ kỹ thuật tách nguồn mù nâng cao chất lượng tiếng nói

và đánh giá kết quả

Nội dung chính của luận văn:

¿ Chương E Bài toán nâng cao chất lượng tiếng nói — Phương pháp tách nguồn mủ

Chương 2 Kỹ thuật lách nguồn trù với tuuật toán DUET

©_ Chương 3 Triển khai thuật toáa DUET nâng cao chất lượng tiếng nói

o Chương 4 Ứng dụng thuật toản DL/lZL trong hệ thống nhận dang

tiếng nói

Trang 6

¢

tà ly

“ac nguén tin hiéu cé tinh én định cục bộ

tà

Các nguồn phân biệt với nhau Irong không gian 2.3 Kỹ thuật ước lượng nguồn đầu vào có tính đến suy hao - DUET

2.3.1 Khái quát chưng về kỹ thuật DUET

2.3.2 Tuược dễ trong số lai chiêu

2,3.3 Quả trình phân tách các nguồn

2-4 Mô rộng thuật toán DUET

2.4.1 Tăng giới hạn vẻ dò trể

2.4.2 Phương pháp xắp xi các nguồn trực giao rời rạc

Kết luận chương

CHƯƠNG 3 TRIÊN KHAI THUẬT TOÁN DUET NÂNG CAO CHAT

LƯỢNG TIẾNG NÓI

3.2 Thực hiện thiết kế nhân mềm

3.3.1 Thiết kế giao diện trên Matlab

3.3.2 Triển khai thuật toán

3.2.3 Quả trinh thiết kế

3.3 Chay mô phông và đánh giá kết qua

3.3.1 Chạy mỏ phỏng chương trinh

3.3.1.1 Thứ nghiệm 1)UIZT với số lượng dau vao thay dai

3.3.1.2 Thứ nghiệm DUET với các nguồn biên độ khác nhau

3.3.1.3 Thứ nghiệm DUET với các nguồn độ trễ lớn

3.3.2 Dánh giá kết quả

NHÂN DANG TIBNG NOI

Trang 7

tiếng nói

Trang 8

Coding)

Prediction)

Trang 9

CHUONG1 BAT TOAN NANG CAO CHAT LUQNG TIENG NÓI —

PHƯƠNG PHÁP TACLL NGUON MU

Ngày nay, với sự phát triển của khoa học công nghệ các máy móc thiết bị

ngày cảng trở lên thông minh và có giao điện thân thiện hơn với con người Những

năng lực cửa cơn người dang dược sao chứp đầu cho các thiết bị my mốc Và ruột

trong những hướng đi lá nhận đạng âm thanh Đây là một hưởng, đi đem lại lợi ích ở

rất nhiều mặt cho nhần loại, ở cả phương diện nghiên cứu khoa học, trong công nghiệp, y tổ cũng như đời sống v.v Tuy vậy, khả nắng nghe, và xứ lý âm thanh

của con người vô củng tình vị và phức tạp, không dễ gì tái hiện lại và sao chép cho

cáo thiết bị điện tử Và một trong những thách thức trong quá trình xây đựng hệ

thông nhận dạng tiếng nói là bài toán về xử lý nâng cao chất lượng tiếng nói Đây cũng là một van để nhận được sự lưu tầm đặc biệt và khá phát triển trong những

nam gân đây Trong nội dưng của chương này, luận văn sẽ đề cập tới:

-_ Hải toàn nâng cao chất lượng tiếng nỏi và một số phương pháp phổ biến

trong nâng cao chất lượng tiếng nói

-_ Ứng đụng của phương pháp lách nguồn mù trong râng cao chải lượng

tiếng nói

1.1 Giới thiệu bải toán nâng cao chất lượng tiếng nói

Phương pháp nhận dang thông qua trống nỏi đang trở lên phổ biến ở rất thiểu lĩnh vực, đặc biệt là với các ứng đụng về an ninh, bảo mật Các ứng đụng này thường được phát triển với rất nhiên các điểu kiện lý tưởng, hoặc phải rất nghiêm

ngặt như trong các phòng nghiền cứu Tuy nhiền, trong hiện thực thì chất lượng

tiếng nói thu được thường sai khác rất nhiều so với lý thuyết Và do đó, tín hiệu

tiếng nói đầu vào cân được xử lý trước khi đưa vào nhận dạng,

Trang 10

MOD:

Cơ sở lựa chọn dé tai

Trong suốt hơn nửa thế kỷ vừa qua, lĩnh vực về nghiên cứu xử lý tiếng nói

không ngừng đại được rất nhiều thành tựu và chứng kiến những giai đoạn phát triển mạnh mẽ Cho tới ngày nay, với sự phát triển không ngừng của kỹ thuật cũng như cảng nghệ chế tạo thiết bị tự động, các ứng dụng của xử lý tiếng nói dang dan ma

Tổng phạm vì ra nhiều Tình vực trong cuộc sống Cùng với đó cũng đặt ra nhiều bài

toán hơn cho vẫn để xử lý tiếng nói, đặc biệt lá các vẫn để về nâng cao chất lượng, tiếng nói Các vẫn đề tiền xử lý để thụ được đúng tiếng nói cần quan Lâm và ở một chất lượng cho phép có thể dưa vào xử lý (nhận dạng, diều khiển ) Và một trong, van 8 kha được quan tâm trong những năm gản đây, lá bài toán “Cocktail party”

Ach riêng biệt các tiếng nói từ những nguồn hỗn

Bai toán đặt ra yêu câu: làm sao để

hợp tiếng nỏi của nhiều người? Trong lĩnh vục nâng cao chất lượng tiếng nỏi, thì đây là một vẫn để không hẻ dễ đàng

Và một trong những phương pháp được để xuất và tổ ra rất hiệu qua cho bai toán này là phương pháp tách nguồn mù Phương pháp này đang được áp dụng,

trong rất nhiều lĩnh vực xử lý tín hiện khác nhau như y sinh, xử lý âm thanh, hình

ảnh, nhận đạng.v.v “Tách nguồn mi” dang tha bot được rất nhiều nghiên cứu với

khá nhiều thành tựu về các kỹ thuật và thuật toán Điều này cho thấy tách nguồn mù

là một phương pháp rất hiệu quả và có khả năng từng đụng rộng rãi

Có thể nói, lập trung vào các bài toán nhằm mô phòng lại được những khả nang của con người bằng các thuật toán, và tích hợp cho các thiết bị điện tử, dường, như đang là một xu thế cho những hướng nghiên cửu ngày may Là mnột người rất

quan tâm tới lĩnh vục xổ lý và nhận đạng âm thanh — hình ảnh, em mạnh đạn chọn

hưởng nghiên cửu “Sử dụng phương pháp tách nguồn mử cho nâng, cao chất hượng, tiếng nói”, với để tái nghiên củu:

“Nâng cao chất lượng tiếng nói sứ dụng phương pháp tách nguồn mù — Ứng dụng cho hệ thắng nhận dạng tiếng nói”

Trang 11

tiếng nói

Trang 12

Luận văn bảo vệ trước hội đồng ngày 23 tháng 01 năm 2014, đã được chỉnh sửa

bể sung theo yêu cầu của hội đồng,

Người hướng dẫn khoa học Chủ tịch hội đồng

PGS.TS Nguyễn Quốc Cường TS Tran DS Dal

Trang 13

tiếng nói

Trang 14

MOD:

Trang 15

Coding)

Prediction)

Trang 16

Coding)

Prediction)

Trang 17

1.1.1 Nang cao chất lượng tiếng nói

"Trong thực tế, có rất nhiều nguyên nhân gây ra sự sai khác vẻ tin hiệu đầu

vào so với tín hiệu gồc Và ta thường thấy có một số các yêu tổ như sau:

Nhiễu cộng hướng: Thường xuất hiện khi thu âm tiếng nói trong một môi

trường có nhiều nên dáng kể, vị dụ như ở sẵn bay

Tiếng vọng của âm thanh: Gây ra bởi quá trình thu xuất hiện sự đội lại của

tín hiệu âm thanh

Hiện ứng chập kênh: Thường gay ra do van dé kênh thu âm, khi không có

sự chuẩn hóa lột đẫn tới không triệt tiêu được các xung đáp ứng,

Tạp âm: Thường xuất hiện khi thu âm trong một môi trường có quả nhiều

âm thanh phúc tạp

'Méo phi tuyển, nhiễu cộng hưởng điện từ băng tấn rồng v v

Đo đó, bài toán nâng cao chất lượng tiếng nói thường nhằm tới việc bú nhiều hoặc bủ kênh gây ra đo các yếu tổ bắt lợi trên Và nhìn chang “chất lượng” được đề cập ở đây, tối thiếu cũng phải đáp ứng được các yêu tố như rõ ràng, dễ nhận biết, dé nghe hoặc là phủ hợp với phương pháp xử lý phia sau phan nang cao chất lương

Tuy nhiên trong nội dung cia han vin sẽ chỉ quan tâm tới ứng dung nâng cao chất

>

lượng tiếng nói trong hệ thông nhận dạng, và do đó, luận văn sẽ ch xem xét tro trường hợp nhỏ: Đơn kênh Đa kênh |12] và phương pháp phân tách tiếng nói

1.1.2 Các phương pháp nâng cao chất lượng tiếng nói

1.1.2.1 Kỹ thuật năng cao chất lượng (rong trường hựp đơn kênh |1 2]

Dây là trường hợp trong đó chỉ tồn tại đuy nhất một kênh tín hiệu, bay nói cách khác lâ chỉ có một đầu vào và một nguiên tín hiệu Thường gặp trong một số hệ

thông thông dụng như tín hiệu điện thoại bàn hay bộ đàm, bay trong lưu trữ tín hiệu

như máy thu âm Trong trường hợp này thưởng giả thiết nhiều lá cổ định và mức độ thay đổi của tiếng nói là biết được Với trường hợp này người ta thường hay đừng

phương pháp trừ phổ (Spectral 8ubtraction - 35) Tình thắn chung của phương pháp

được mỏ tá như trong hình 1-3 và trình bảy chỉ tiết trong [32]

Trang 18

>

Trang 19

Coding)

Prediction)

Trang 20

¢

tà ly

tà

Trang 21

MOD:

Trang 22

tiếng nói

Trang 23

¢

tà ly

tà

Trang 24

Coding)

Prediction)

Trang 25

¢

tà ly

tà

Trang 26

tiếng nói

Trang 27

tiếng nói

Trang 28

¢

tà ly

tà

Trang 29

>

Trang 30

tiếng nói

Trang 31

>

Trang 32

>

Trang 33

MOD:

Trang 34

tiếng nói

Trang 35

Coding)

Prediction)

Trang 36

MOD:

Trang 37

tiếng nói

Tiêu đề	Nâng Cao Chất Lượng Tiếng Nói Sử Dụng Phương Pháp Tách Nguồn Mù Ứng Dụng Cho Hệ Thống Nhận Dạng Tiếng Nói
Tác giả	Chu Minh Huân
Người hướng dẫn	PGS.TS. Nguyễn Quốc Cường
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Đo Lường Và Các Hệ Thống Điều Khiển
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2014
Thành phố	Hà Nội

Định dạng
Số trang	75
Dung lượng	189,56 KB