1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn

74 1,7K 9
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Kỹ Thuật Điện Tử, Truyền Thông, Trí Tuệ Nhân Tạo
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 74
Dung lượng 2,7 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một trong những ứng dụng kinh điển của mạng neuron là lớp các bài toán nhận dạng mẫu, ở đó mỗi một mẫu là một tập hợphay một vector các tham số biểu thị các thuộc tính của một quá trình

Trang 1

GIỚI THIỆU 3

1 Mục đích, nhiệm vụ của đồ án 4

2 Ý nghĩa 4

3 Một số mục tiêu chính trong đồ án 5

Phần 1 Tổng quan về hệ thống nhận dạng giọng nói 6

1 Nguồn gốc âm thanh 6

2 Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người 7

3 Khái quát về ngữ âm tiếng việt 9

4 Âm tố 10

5 Âm thanh và số hóa âm thanh 14

6 Các tiếp cận nhận dạng giọng nói 26

Phần 2 Phân tích dữ liệu tiếng nói 29

I Mô tả chung của việc mã hóa tín hiệu giọng nói 29

1 Mã hóa 29

2 Giải mã 31

3 Giữ chậm 32

II Mô tả các hàm thực hiện mã hóa 32

1 Tiền xử lý 33

2 Phân tích và lượng tử dự báo tuyến tính 33

2.1 Tính toán cửa sổ và tự tương quan 34

2.2 Thuật toán Levinson-Durbin 35

2.3 Quá trình chuyển đổi LP sang LSP 36

2.4 Lượng tử hóa các hệ số LSP 38

III Thuật toán VAD trong xác định vùng âm thanh 42

1 Mô tả chung về thuật toán VAD/DTX/CNG 42

2 Mô tả chi tiết thuật toán VAD 43

2.1 Trích rút tham số 45

2.2 Khởi tạo trung bình trượt của các đặc trưng nhiễu nền 46

2.3 Tạo năng lượng tối thiểu 48

2.4 Tạo ra các tham số khác nhau 48

2.5 Khởi tạo đa đường quyết định hoạt động giọng nói 49

2.6 Làm trơn quyết định hoạt động giọng nói 51

2.7 Cập nhật trung bình trượt các đặc trưng nhiễu nền 53

Phần 3 Mạng neuron cho nhận dạng giọng nói 55

1 Mạng Nơron 55

2 Mạng Nơron nhân tạo 55

3 Luật học của mạng 56

4 Mạng LVQ(learnned Vecter Quantization) hay Kohonen 59

Phần 4 Xây dựng ứng dụng mạng Neuron trong nhận dạng tiếng nói 63

1 Đặt vấn đề 63

2 Yêu cầu đối với chương trình 63

3 Xây dựng ứng dụng 64

4 Kết quả đạt được và hướng phát triển của chương trình 70

Kết luận 74

TÀI LIỆU THAM KHẢO… … ……… 75

Trang 2

GIỚI THIỆU

Trong những năm gần đây, người ta thường nhắc tới “trí tuệ nhân tạo”như một phương thức mô phỏng trí thông minh của con người từ việc lưu trữđến xử lý thông tin Và nó thực sự đã trở thành nền tảng cho việc xây dựngcác thế hệ máy thông minh hiện đại Cũng với mục đích đó, nhưng dựa trên

quan điểm nghiên cứu hoàn toàn khác, một môn khoa học đã ra đời, đó là lý

thuyết mạng neuron Tiếp thu các thành tựu về thần kinh sinh học, mạng

neuron luôn được xây dựng thành một cấu trúc mô phỏng trực tiếp các tổ chứcthần kinh trong bộ não con người

Một trong những ứng dụng kinh điển của mạng neuron là lớp các bài toán

nhận dạng mẫu, ở đó mỗi một mẫu là một tập hợp(hay một vector) các tham

số biểu thị các thuộc tính của một quá trình vật lý nào đó(ví dụ tín hiệu tiếngnói) Ngoài sức mạnh vốn có, mạng neuron còn thể hiện ưu điểm của mìnhtrong việc nhận dạng thông qua khả năng mềm dẻo, dễ thích nghi với môitrường Chính vì vậy, có thể coi mạng neuron trước tiên là một công cụ đểnhận dạng Nhiều công trình nghiên cứu, nhiều ứng dụng thực nghiệm đãđược thực hiện trên mạng neuron với mục đích nhận dạng và đã thu đượcnhững thành công to lớn

Trước sự quyến rũ của các ứng dụng trí tuệ nhân tạo, cùng bản tính tò mòtrước một lý thuyết mới chưa từng nghiên cứu và sự động viên khuyến khíchcủa thầy giáo hướng dẫn, tôi đã quyết định thực hiện những nghiên cứu banđầu về lý thuyết mạng neuron với một mục đích cụ thể là ứng dụng nó vào vấn

đề nhận dạng tiếng nói

Trang 3

Xử lý âm thanh và nhận dạng tiếng nói có một ý nghĩa quan trọng và thiếtthực trong nhiều lĩnh vực như: nhận dạng, phát thanh, truyền hình, viễn thông,

và nhiều lĩnh vực khác

Nhận dạng tiếng nói là một lĩnh vực khó, một vấn đề nghiên cứu trọngđiểm được nhiều nhà khoa học quan tâm ở các lĩnh vực khác nhau : Tin học,toán học, điều khiển, điện tử, sinh học

Trước sự phát triển mạnh mẽ của công nghệ thông tin, vấn đề nhận dạngcàng được quan tâm nhiều hơn nhằm nâng cao hiệu quả giao tiếp giữa người

và máy Chính sự quan trọng đặc biệt này mà tôi đã chọn nhận dạng âm thanhtiếng Việt là đề tài nghiên cứu

LSF 1, p=10), Dải năng lượng đầy(E f), Dải

năng lượng thấp(E l ), Tỉ lệ qua điểm không(ZC)

2 Ý nghĩa.

Hướng nghiên cứu áp dụng module VAD trong nhận dạng giọng nói làmột hướng mới, đơn giản hơn cả về mặt cấu trúc và thiết kế cơ sở dữ liệu cũngnhư quá trình nhận dạng sau này, mà vẫn đảm bảo được những yêu cầu cầnthiết Nếu giải quyết tốt sẽ cho phép nhận dạng giọng nói chính xác tỉ lệ cao

Trang 4

3 Một số mục tiêu chính trong đồ án.

 Tổng quan về hệ thống nhận dạng tiếng nói và đặc điểm âm thanhtiếng việt

 Các vấn đề phân tích dữ liệu tiếng nói

o Mô tả chung mã hóa tín hiệu giọng nói

o Mô tả các hàm thực hiện mã hóa

o Thuật toán VAD trong xác định vùng âm thanh

 Tìm hiểu mạng neuron cho nhận dạng giọng nói(cụ thể với mạngLVQ- learnned Vecter Quantization hay Kohonen.)

 Xây dựng chương trình nhận dạng giọng nói sử dụng mạng neuronLVQ

 Kết luận và hướng phát triển tiếp theo của đồ án

Trang 5

Phần 1: Tổng quan về hệ thống nhận dạng giọng nói

1 Nguồn gốc âm thanh.

Âm thanh là do vật thể rung động, phát ra tiếng ra tiếng và lan truyền đitrong không khí Sở dĩ tai ta nghe được âm thanh là nhờ có màng nhĩ Màngnhĩ nối liền với hệ thống thần kinh

Làn sóng âm thanh từ vật thể rung động phát ra, được lan truyền trongkhông khí, tới tai ta làm rung động màng nhĩ theo đúng nhịp điệu rung độngcủa vật thể đã phát ra tiếng Nhờ đó, tai ta nghe được âm thanh Không khí làmôi trường truyền dẫn âm thanh, tuy nhiên, không phải tất cả các âm thanhđều được con người thu nhận mà chỉ những âm thanh có tần số trong mộtphạm vi nhất định Như vậy bản chất âm thanh là một dao động có tần số, conngười có thể cảm nhận được từ dao động này Nếu dao động có biên độ cànglớn thì âm lượng càng lớn và ngược lại Tần số dao động của các âm thanhtrong tự nhiên có phạm vi rộng, tuy nhiên con người chỉ cảm nhận trong mộtphạm vi nhất định

Âm thanh được lan truyền trong các chất khí, lỏng, rắn…nhưng khônglan truyền được trong khoảng chân không Một số chất truyền dẫn âm kém.Các chất dẫn âm kém thường là loại mềm, xốp như bong, dạ, cỏ khô Các chấtnày gọi là chất hút âm, được dung lót tường các rạp hát, phòng cách âm…đểhút âm, giảm tiếng vang

Vận tốc truyền lan của âm thanh phụ thuộc vào chất truyền âm, ví dụ tốc

đọ truyền âm trong không khí là 340 m/s, trong nước là 1480 m/s, trong sắt là

5000 m/s Trong quá trình truyền lan, nếu gặp phải các vật chướng ngại nhưtường, núi đá,…thì phần lớn năng lượng của âm thanh sẽ bị phản xạ trở lại,

Trang 6

một phần nhỏ tiếp tục truyền lan về phía trước Còn một phần nhỏ nữa củanăng lượng âm thanh bị cọ sát với vật chướng ngại biến thành nhiệt năng tiêutan đi.

2 Quá trình sản xuất tiếng nói và thu nhận tiếng nói của con người.

Hình 1.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con

người.

Hình 1.1 đưa ra một sơ đồ khối của quá trình sản xuất tiếng nói/nhận thứctiếng nói của con người Quá trình sản xuất tiếng nói bắt đầu từ khi người nóitạo ra một thông điệp(trong ý nghĩ của anh ta) và muốn chuyển tải nó chongười nghe thông qua tiếng nói Tổ chức thần kinh tương ứng chịu tráchnhiệm tạo ra thông điệp dưới dạng văn bản biểu diễn các từ của thông điệp.Bước tiếp theo của quá trình là chuyển đổi thông điệp sang dạng một mã ngônngữ Điều này gần như tương đương với việc chuyển đổi các biểu diễn vănbản của thông điệp thành một chuỗi các âm vị tương ứng với những âm thanhtạo nên các từ; Đồng thời với việc ghi nhận âm điệu nhằm xác định sự kéo dài,

sự nhấn mạnh, và trọng âm cao thấp của âm thanh Khi một mã ngôn ngữ

Trang 7

được lựa chọn, người nói phải thực hiện một loạt các lệnh thần kinh vận động

để làm cho các dây thanh dao động, đồng thời cấu trúc hình dạng ống dẫn âmthanh phát ra một chuỗi các âm thanh Như vậy, đầu ra cuối cùng của quátrình là một tín hiệu âm học Các lệnh thần kinh vận động phải điều khiển mộtcách đồng bộ tất cả các khâu vận động như sự hoạt động của môi, hàm, lưỡi,

Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe,quá trình thu nhận tiếng nói(hay nhận dạng tiếng nói) bắt đầu Đầu tiên, ngườinghe xử lý tín hiệu âm thanh thông qua màng nền của tai trong, nó có khảnăng cung cấp một phân tích phổ cho tín hiệu tới Một quá trình xử lý thầnkinh chuyển đổi tín hiệu phổ tại đầu ra của màng nền thành các tín hiệu hoạtđộng đối với thần kinh thính giác, có thể coi đây như một quá trình lấy ra cácđặc trưng Bằng một phương pháp đặc biệt(chưa được hiểu một cách thấuđáo), các tín hiệu hoạt động đi qua hệ thần kinh thính giác được chuyển đổithành một mã ngôn ngữ cho những trung tâm xử lý cấp cao hơn bên trong bộnão, và cuối cùng là việc hiểu được nội dung thông điệp

Từ sự minh họa quá trình nhận dạng tiếng nói thông qua hệ thống thầnkinh con người như trên, chúng ta có thể có một chút ý niệm về khả năng ứngdụng mạng neuron nhân tạo trong việc mô phỏng một số tổ chức thần kinhnhư một phần của hệ thần kinh thính giác

Trang 8

3 Khái quát về ngữ âm tiếng việt.

3.1 Ý nghĩa của các nghiên cứu ngữ âm trong nhận dạng tiếng nói tiếng việt.

Trong thời gian gần đây, các hệ nhận dạng tiếng nói phát triển theohướng tiếp cận ngữ âm học kết hợp với hướng tiếp cận nhận dạng theo mẫuthống kê truyền thống Việc kết hợp hướng nhận dạng thống kê và sử dụngcác tri thức về ngữ âm học để tạo ra các hệ nhận dạng hoạt động giống vớicách thức mà con người nghe và hiểu tiếng nói nhất Vì vậy, các nghiên cứu

về ngữ âm, đặc biệt là các nghiên cứu dành cho lĩnh vực nhận dạng trở nênmang ý nghĩa quan trọng Công việc nghiên cứu này có ý nghĩa riêng biệttrên từng ngôn ngữ (vì mỗi ngôn ngữ đều có đặc điểm riêng, ngoài nhữngđiểm chung) Vì vậy, muốn xây dựng tốt hệ nhận dạng tiếng nói tiếngViệt, trước tiên chúng ta phải nghiên cứu ngữ âm tiếng Việt để biết đượcđặc điểu âm học của Tiếng Việt

3.2 Các đặc tính cơ bản của tiếng việt.

Âm tiếng việt tương đối tách biệt: Trong tiếng việt các âm của các từtrong một câu phát âm hầu như tách biệt nhau, nghĩa là các từ đó được phát

âm hoàn toàn độc lập, không có hiện tượng đọc nối nhau như trong tiếng Anh

Tiếng việt tương đối nhất quán giữa cách phát âm và cách viết:

Nguyên tắc chính của chữ tiếng việt là ký âm, nghĩa là đọc sao viết vậy.Nhưng sau các nghiên cứu trên tiếng việt đã chỉ ra một số bất đồng trong hệthống chữ viết, mặc dù vậy nhìn chung tiếng việt vẫn nhất quán giữa đọc vàviết

Trang 9

Hiện tượng môi hoá: Trong tiếng việt có một số âm môi như: ô,u Cácphụ âm đứng trước các âm này sẽ bị hiện tượng biến đổi sóng âm, gọi là hiệntượng môi hoá

4 Âm tố.

Âm tố là đơn vị ngữ âm nhỏ nhất mà tai người có thể phân biệt được.Chúng không mang chức năng phân biệt nghĩa hay nhận diện từ Âm tốthường tương ứng với âm vị

Âm tố là những yếu tố tự nhiên, phụ thuộc vào ngữ điệu, hoàn cảnh phát

âm khi chúng kết hợp với các yếu tố khác trong cùng một âm tiết, bộ máy phát

âm của mỗi cá nhân,… Chính vì vậy người ta không liệt kê được có bao nhiêu

âm tố trong các ngôn ngữ

4.1 Phân loại âm tố theo cấu âm.

Âm tố cơ bản được chia làm hai loại: Nguyên âm và phụ âm.

Về mặt chức năng, các nguyên âm thường là hạt nhân(hay đỉnh) của âm

tiết-thành phần phát âm rõ và gây chú ý nhất trong một âm tiết Thanh điệu vàngữ điệu của một ngôn ngữ cũng được chứa đựng chủ yếu trong nguyên âm

Phụ âm, ngược lại thường là yếu tố đi kèm không tạo thành âm tiết(trừ

các phụ âm vang)

Ngoài ra còn có các âm tố bán nguyên âm, vốn mang đặc điểm củanguyên âm nhưng có chức năng khác với chức năng của nguyên âm, thườngchỉ đi kèm với nguyên âm khác để tạo âm tiết

Trang 10

4.2 Phân loại âm tố về mặt âm học.

4.2.1 Các đặc trưng âm học

Sự phân loại các âm tố về mặt âm học đã được xây dựng dựa trên âmphổ Các máy phân tích âm phổ cho chúng ta các phổ đồ(phổ hình), qua đócác âm tố thể hiện rõ các đặc trưng âm học: cao độ, cường độ, trường độ Dựa trên đặc điểm của phổ đồ, âm tố được phân loại theo các đặc trưngsau:

Nguyên âm – Không nguyên âm

Đặc trưng nguyên âm: được thể hiện bằng các cấu trúc formant

Có đặc trưng nguyên âm là nguyên âm và các âm vang Không có đặctrưng nguyên âm là các âm ồn

Phụ âm – Không phụ âm

Đặc trưng âm học của phụ âm là có mức năng lượng thấp Nếu có mứcnăng lượng cao là nguyên âm Có đặc trưng phụ âm là các phụ âm vang và ồn

Bổng - Trầm

Những âm bổng có tần số lớn, còn những âm trầm có tần số nhỏ Những

âm trầm thường được đặc trưng bằng sự phân bổ năng lượng tập trung ở phầndưới của phổ Âm bổng gồm các nguyên âm hàng trước, phụ âm răng,các phụ âm lưỡi trước, lưỡi giữa Âm trầm là các nguyên âm hàng sau, cácphụ âm môi và phụ âm lưỡi sau

Loãng - Đặc

Đặc trưng âm học của tiêu chí đặc là có vùng formant ở trung tâm củaphổ đối lập với loãng là trên phổ hình có một hay một số formant phân bố xa

Trang 11

trung tâm Âm đặc bao gồm các nguyên âm không thuộc độ nâng cao, cácphụ âm lưỡi trước, lưỡi giữa và lưỡi sau Các âm loãng bao gồm những âm

có độ nâng của lưỡi cao (nguyên âm khép), những phụ âm răng, phụ âmmôi ([i], [u], [ư] trong tiếng Việt)

Ngắt - Không ngắt

Ðó là sự đối lập giữa có và không có sự chuyển tiếp đột ngột giữa sự cómặt và vắng mặt của âm thanh “Các phụ âm xát thường có khởi âm từ từ.Ngược lại, các phụ âm tắc thường có sự ngắt đột ngột sóng âm đi trướcbằng một khoảng im lặng hoàn toàn” (R Jacobson, G Fant và M Halle,1962)

Âm ngắt bao gồm các phụ âm tắc (trừ nhóm mũi) Còn lại (nguyên âm,phụ âm xát, phụ âm mũi) là những âm không ngắt

Gắt - Không gắt

Ðó là đối lập giữa cường độ lớn hay nhỏ của tiếng ồn Trên phổ hình, các

âm gắt có vùng tối thay đổi sắc thái rõ rệt Những phụ âm gắt bao gồm cácphụ âm xát điển hình, các âm tắc - xát, bật hơi, phụ âm rung Những loạihình âm còn lại là những âm không gắt

Căng - Lơi

Những âm căng là những âm có độ dài lớn, năng lượng lớn và có thanh

cộng hưởng thể hiện rõ trên phổ hình Âm căng bao gồm các phụ âm mạnh và các nguyên âm đặc Âm lơi bao gồm những phụ âm yếu và các nguyên âm

loãng

Hữu thanh - Vô thanh

Trang 12

Ðó là sự đối lập giữa có hay không có những dao động điều hoà ở vùngtần số thấp Âm hữu thanh bao gồm các nguyên âm, phụ âm vang và phụ âmhữu thanh.

Mũi - Miệng (hay Mũi - Không mũi)

Phổ hình của các âm mũi có mật độ phooc-măng dày hơn so vớicác âm miệng tương ứng Ở các nguyên âm mũi giữa F1 và F2 xuất hiệnthêm một formant phụ, và đồng thời có sự giảm cường độ của F1 và F2.Trong tiếng Việt có các âm mũi được thể hiện bằng các chữ cái: m, n, nh, ng

Giáng - Không giáng

Các âm giáng là những âm trầm hóa - có một hoặc một số các formantcủa nó bị hạ thấp so với các âm không giáng Các nguyên âm tròn môi như[u], [ô], [o] trong tiếng Việt và những phụ âm đứng trước [u], [ô], [o] bị môihóa đều là những âm giáng

Thăng - Không thăng

Ngược lại so với âm giáng, chúng là những âm bổng hóa - các nguyên

âm hàng trước thường là các âm có một trong số các phoóc măng caohơn các âm không thăng tương ứng

Thanh hầu hóa - Không thanh hầu hóa

Các âm thanh hầu hóa đặc trưng bởi tốc độ biến đổi năng lượng lớntrong một khoảng thời gian ngắn Trong tiếng Việt, âm thanh hầu hóa có thểxuất hiện trong các âm tiết vắng phụ âm đầu như ăn, uống, uể, oải,… hoặctrước các phụ âm hữu thanh, đặc biệt là trước [b], [đ], và [l]

Trang 13

4.2.2 Nhận dạng tiếng nói dựa vào các đặc trưng âm học.

Như trên đã phân tích, có rất nhiều đặc trưng âm học Và các đặc trưngđều có thể rút ra được từ quá trình phân tích phổ đồ May mắn là với tín hiệu

âm thanh được lưu vào máy tính dưới dạng số, không cần dùng máy phântích phổ, người ta vẫn có thể phân tích để đưa ra phổ đồ bằng thuật toán

(bằng phép biến đổi Fourier ngắn kỳ - Short-term Discrete Fourier

Transform) Người ta dựa vào những đặc trưng này cùng với những mô

Trang 14

Mỗi âm có một tần số riêng và đơn vị tính là héc (Hz).

Áp xuất âm thanh.

Sóng âm trên không là dạng nhiễu loạn vật lý trong không khí, môitrường đàn hồi, chạy qua không khí với tốc tộ vốn phụ thuộc đôi chút vàonhiệt độ không khí Độ lớn tức thời của sóng ở thời điểm riêng trong khônggianvà thời gian có thể được biểu diễn theo những cách khác nhau Ví dụ, độdịch chuyển, tốc độ âm thanh, thăng giáng trên và dưới áp suất khí quyển dosóng gây ra Áp suất âm thanh gọi tắt là thanh áp là bar Ngày nay thường sửdụng đơn vị Passcan (Pa) để đo thanh áp 1 bar = 100 KPa, 1 Pa = 1N/m2

Mức áp suất âm thanh.

Các áp suất âm thanh thường được vẽ trên thang loga gọi là mức áp suất

âm thanh biểu thị theo Dexiben (dB) Áp suất chuẩn đối với âm thanh trongkhông khí, tương ứng với 0 dB, được định nghĩa như áp suất âm thanh 20

Pa Đó là áp suất âm thanh chuẩn p0 Như vậy mức áp suất âm thanh Lp theo

dB tương ứng với áp suất âm thanh p được định nghĩa:

Trang 15

Lp = 20log(p/p0) dB

Công suất âm thanh.

Công suất âm thanh là năng lượng âm thanh đi qua một diện tích S trongthời gian một giây Công suất âm thanh P có thể tính bằng công thức:

P = psv (W) Trong đó p là thanh áp, v là tốc độ dao động của một phần tử không khí tại đó và s là diện tích.

Công suất âm thanh nói chung tỉ lệ với bình phương áp suất âm thanh

Cường độ âm thanh.

Cường độ âm thanh I là công suất âm thanh đi qua một đơn vị diện tích là

1cm2

pv S

P

I  

Ba đại lượng áp suất âm thanh, công suất âm thanh, cường độ âm thanh

gắn liền với nhau: P = IS = psv Cả ba đều biểu thị độ lớn nhỏ của âm thanh.

Âm thanh có năng lượng càng lớn thì công suất, cường độ và áp suất của âmthanh càng lớn

b) Đơn vị vật lý của âm thanh.

Các dao động âm phát ra từ nguồn lan truyền trong môi trường đàn hồinhư không khí dưới dạng sóng đàn hồi gọi là sóng âm Sóng âm kích độngmàng nhĩ tai gây cảm giác về âm Âm thanh có những đặc trưng cơ bản là: Độcao của âm, độ to của âm, âm sắc Do đó cần phân biệt các loại đại lượng vềâm:

Trang 16

Quãng độ cao (quãng tần số).

Trong thực tế, ta thường nghe thấy âm thanh với các độ cao thấp khácnhau Điều này được biểu hiện rõ nhất khi nghe nhạc Cảm giác cao thấp của

âm thanh do tần số dao động của âm thanh mang lại Nói cách khác cảm giáccao thấp phụ thuộc vào sự chấn động nhanh hay chậm của cấc phần tử trongmôi trường truyền (không khí) trong một đơn vị thời gian (giây) Những âm

có tần số khác nhau cho người nghe các cảm giác âm cao thấp khác nhau.Những âm có tần số cao được gọi là âm cao (hoặc thanh), các âm có tần sốnhỏ được gọi là âm thấp (hoặc trầm).(???:giói hạn tàn số cao,thấp???)

Tai người nhạy cảm hơn với sự thay đổi của các âm ở tần số cao Điềunày thể hiện rõ ở ngưỡng nghe của tai người; ở các tần số trong khỏng từ 1000đến 5000Hz, ngưỡng nghe vào khoảng 10-12 W/m2 trong khi đó với tần số50Hz, ngưỡng nghe lớn gấp 5000 lần

có âm thanh và không có âm thanh) Khi xác định cường độ âm, người ta lấy

I0 là ngưỡng nghe của âm có tần số 1000Hz, gọi là tần số chuẩn

Trang 17

Ngưỡng nghe của con người cũng phụ thuộc vào tần số của âm Với các

âm có tần số 1000 – 5000Hz, ngưỡng nghe vào khoảng 10-12W/m2 Với tần số

50 Hz, ngưỡng nghe khoảng 10-7W/m2

Giá trị cường độ âm lên tới 10W/m2 thì sóng âm sẽ tạo ra cảm giác đaucho người nghe Giá trị này được gọi là ngưỡng đau.Tai người phân biệt các

âm tốt nhất với các âm có tần số trong khoảng 1000 – 5000Hz

Âm sắc được hình thành trên cơ sở tần số và biên độ của sóng âm Thựcnghiệm chứng tở rằng khi một người nào đó phát ra một âm có tần số f1 thìcũng đồng thời phát ra các âm có tần số f2=2f1,f3=3f1 Âm có tần số f1 đượcgọi là âm cơ bản hay hoạ âm thứ nhất Các âm có tần số f2,f3 được gọi là cáchoạ âm thứ 2,3 Các âm này có biên độ và hệ số tắt dần tuỳ theo cấu trúc

Trang 18

khoang miệng và cổ họng của từng người Kết quả là âm do con người phát ra

là một đường phức tạp có chu kỳ (không còn là đường hình sin)

4.2 Quá trình số hoá âm thanh.

a) Tín hiệu tương tự của âm thanh.

Tín hiệu: Tín hiệu được định nghĩa như một thực thể vật lý phụ thuộc vàothời gian, khoảng cách hoặc một số biến độc lập khác Về phương diện toánhọc, tín hiệu được mô tả như một hàm của một hoặc nhiều biến độc lập

Tín hiệu tương tự của âm thanh: Là âm thanh trong tự nhiên, các daođộng âm thanh này con người cảm nhận được Các thiết bị phát thanh(loa) đềuthực hiện tạo dao động, để dao động đó truyền đến tai người Tín hiệu âmthanh là nguồn tín hiệu liên tục có đầu vào ở dạng song là hàm mẫu của mộtquá trình dao động x(t) Như vậy, tín hiệu âm thanh là tín hiệu liên tục theothời gian, do vậy khi xử lý trên thiết bị số, chúng ta cần phải biến đổi sang tínhiệu số

b) Quá trình lấy mẫu âm thanh tương tự

Đây là quá trình rời rạc hoá tín hiệu âm thanh tương tự về thời gian.Nguyên tắc cơ bản của quá trình này là tín hiệu âm thanh tương tự sẽ được lấymẫu với tần số lấy mẫu trong một giây (tốc độ lấy mẫu) là cố định, ví dụ: tần

số lấy mẫu là 10000Hz thì trong một giây lấy được 10000 mẫu Khi lấy mẫuphải chú ý đảm bảo tần số lấy mẫu phải lớn hơn hoặc bằng hai lần tần số lớnnhất của sóng âm tương tự để tránh hiện tượng giả tần số Nếu tần số lớn nhấtcủa tín hiệu của sóng âm thanh tương tự F(Hz) thì tần số lấy mẫu lớn hơn hoặcbằng 2F (gọi là tần số Nyquist), chẳng hạn nếu ta số hoá tín hiệu lời nói ở tần

số 5kHz thì tần số lấy mẫu phải là 10kHz hoặc lớn hơn

Trang 19

Hình 1.2: Quá trình số hoá thành dạng sóng file Wave

c) Quá trình lượng tử hoá.

Đây là quá trình rời rạc biên độ tín hiệu của sóng âm tương tự Quátrình này lấy biên độ của tín hiệu tại mỗi lần lấy mẫu và biểu diễn các biên độ

đó dưới dạng nhị phân Để lựa chọn cách thức lượng tử cần phải xem xét haikía cạnh: giá trị nhỏ nhất của tốc độ dữ liệu (data rate) và giá trị lớn nhất củachất lượng âm (quality)

 Tốc độ dữ liệu được tính bằng bps (bits per sencond) dùng để địnhdạng sóng âm, nó là tích của số mẫu được lấy trong một giây (sample persecond) và số bit tương ứng một mẫu đã được lấy Do tốc độ lấy mẫu là cốđịnh nên ta phải đảm bảo số bit để biểu diễn một mẫu càng lớn càng nghetrung thực với âm thanh thật (do nó ảnh hưởng đến sự phân giải tiêu chuẩncủa tín hiệu tương tự tại mỗi thời điểm lấy mẫu, và do đó ảnh hưởng đến chấtlượng âm thanh cần thu)

Trang 20

 Giá trị lớn nhất của chất lượng âm: nghĩa là khi chuyển đổi ngượcsóng âm số sang sóng âm tương tự phải đảm bảo lỗi xảy ra là nhỏ nhất Điềunày đồng nhất với sóng âm tương tự sau khi được chuyển ngược từ sóng âm

số phải nghe giống sóng âm tương tự ban đầu được số hoá

Việc lấy mẫu của tín hiệu không gây ra sự mất mát thông tin của tín hiệutương tự cần lấy mẫu, quá trình lượng tử hoá ngược lại gây ra mất mát thôngtin (hay còn gọi là lỗi lượng tử hoá) và gây ra nhiễu Hệ số nhiễu tín hiệu(Signal – to – noise) được dùng để đánh giá chất lượng âm thanh, được tínhtheo công thức:

N i

i e

i x

1 2 1 2

) (

) (

Trong đó x(n) là mẫu thứ n, e(n) là lỗi lượng tử hoá đối với mẫu x(n) đó.Tín hiệu tiếng nói sau khi được lượng tử hoá sẽ được lưu vào máy tínhdưới dạng các file âm thanh khác nhau, tuỳ thuộc vào mục đích sử dụng, như

có thể được lưu trữ nguyên mẫu như đã lượng tử hoá, hoặc đựơc nén rồi mớilưu trữ Ta xem xét các loại file phổ biến sau

4.3 Cấu trúc file WAVE.

a) Các loại file âm thanh.

Có rất nhiều dạng file âm thanh, như dạng file “.MP3”, “.MIDI”,

“.WAV”, “.RA”, “AIFF”, “.WMA” Song phổ biến hơn là ở dạng “.wav” Dạng file này đưa ra ở dạng thô, dữ liệu âm thanh không được nén Được phátminh đầu tiên bởi Microsoft, các file wave vẫn được sử dụng một cách rộngrãi (ví dụ các âm thanh lúc khởi động và tắt Window) Chất lượng âm thanh

Trang 21

rất tốt nhưng kích thước file rất lớn Một bài hát pop đầy đủ ở dạng Wave cóthể chiếm 40 MB của không gian đĩa hoặc nhiều hơn.

b) Cấu trúc file WAVE.

Một trong những cấu trúc đơn giản nhất, cơ bản trong việc lưu trữ dữ liệu

âm thanh là tập tin dạng wave Tập tin dạng wave là tập tin lưu trữ dữ liệudạng waveform, dữ liệu khi thu âm được lưu giữ trực tiếp vào tập tin, nên tốc

độ mã và giải mã dữ liệu dạng này rất nhanh Sau đây là cấu trúc file wave:Định dạng file wave là tập con trong định dạng file multimedia dạngRIFF của Microsoft Một file RIFF được bắt đầu là file header, tiếp theo lầnlượt là các đoạn Data Một file wave thường bắt đầu là từ “RIFF” với mộtđoạn đơn “WAVE” bao gồm 2 đoạn con là “fmt” để mô tả định dạng dữ liệu

và đoạn “data” chứa các đoạn dữ liệu thực hiện Nó được gọi là định dạngchuẩn

Trang 22

Định dạng file wave chuẩn được bắt đầu với RIFF header:

0 4 ChunkID Chứa từ “RIFF” mã ASCII

4 4 ChunkSize 36 + SubChunk2Size

8 4 Format Chứa từ “WAVE”

Trang 23

Định dạng “WAVE” bao gồm 2 đoạn con: “fmt” và “data”:

Đoạn con “fmt” để mô tả định dạng dữ liệu âm thanh:

32 2 BlockAlign = NumChannels * BitsPerSample/8 Là số

byte của một mẫu chứa tất cả các kênh

34 2 BitsPerSample 8 bits=8, 16 bits=16, etc.

Đoạn con “data” chứa kích thước của dữ liệu và dữ liệu âm thanh thựcthi:

36 4 Subchunk2ID Chứa từ “data”

40 4 Subchunk2Size = NumSamples * NumChannels *

BitsPerSample/8

Là số byte của phần dữ liệu âm thanh

44 * Data Là phần dữ liệu âm thanh thực thi.

Độ lớn file Wave phụ thuộc vào các yếu tố sau:

Trang 24

- Tần số lấy mẫu: Tần số lấy mẫu càng cao thìdung lượng file càng lớn.

lượng file càng lớn

file càng lớn

Từ việc hiểu cấu trúc lưu trữ file wav trong máy tính mà ta hoàn toàn

có thể thao tác xử lý các file wav một cách đơn giản như: việc cắt, dán, nốighép, và điều chỉnh phát 1 đoạn trong 1 file wav bất kỳ để nghe

4.4 Xử lý file WAVE.

Một file wave bao giờ cũng có phần header và phần dữ liệu Trong đóheader chứa các thông tin như độ dài file, số bit/mẫu, kiểu kênh mono haystereo,…

Muốn thao tác xử lý các file wave thì chúng ta phải thay đổi một sốthông số trong header như độ dài file,…sau đó ghi các dữ liệu cần thiết sau khighi header mới vào

+ Các trường cần thay đổi khi thực hiện các thao tác xử lý File

Trang 25

File 1; khi phát, âm thanh File 1 như ban đầu còn file 2 sẽ phát chậm hơn(điều này tương đương với 1 dọng trầm được phát thay vì dọng cao) Ngượclại, File 2 có tốc độ lấy mẫu bé hơn File 1, thì khi ghép File2 vào File 1, khiphát, âm thanh File 1 như ban đầu còn file 2 sẽ phát nhanh hơn (điều nàytương đương với 1 dọng cao được phát thay vì dọng trầm).

- Nếu 2 File cùng tốc độ lấy mẫu:

+ Giả sử cùng cùng kênh là 1 hoặc 2, nhưng mức lưọng tử khácnhau, chẳng hạn File1 là 8Bit/mẫu, File2 là 16Bit/mẫu khi ghép 2 File lại vớinhau ta cần phải thực hiện 1 phép ánh xạ 1 File về dạng cùng mức lượng tửcủa File kia bằng cách, thực hiện biến đổi giá trị mẫu từ miền [0,255] tới miền[0,65535] hoặc ngược lại

+ Nếu cùng mức lượng tử, cùng kênh thì sao chép bình thường

+ Nếu cùng mức lượng tử nhưng khác kênh Ta cần biến đổi 1 File

về dạng cùng kênh với File kia bằng cách: Biến 1 File Mono  Stereo thì mỗimẫu của File Mono được nhân lên thêm 1 mẫu nữa và chèn vào sau mẫu đó.Biến Stereo  Mono bằng cách chỉ lấy mẫu của kênh trái hoặc kênh phải Lúcnày từ File Stereo ta được 2 File MonoLeft và MonoRight

6 Các tiếp cận nhận dạng giọng nói.

Về cơ bản, có ba tiếp cận nhận dạng giọng nói chính như sau:

1 Tiếp cận âm thanh – ngữ âm

2 Tiếp cận nhận dạng mẫu

3 Tiếp cận trí tuệ nhân tạo

Trang 26

Tiếp cận âm thanh-ngữ âm dựa trên cơ sở công nhận sự tồn tại của các

đơn vị ngữ âm trong ngôn ngữ tiếng nói Các đơn vị ngữ âm này được biểu

diễn đặc trưng bởi một tập những thuộc tính thể hiện trong tín hiệu âm thanhhay biểu diễn phổ theo thời gian Bước đầu tiên của tiếp cận âm thanh-ngữ âmcho nhận dạng tiếng nói được gọi là bước phân đoạn và gán nhãn bởi vì nóliên quan đến việc phân đoạn tín hiệu âm thanh thành các vùng rời rạc(theo tờigian) mà ở đó các thuộc tính âm học của tín hiệu biểu diễn cho một(hay một

vài) đơn vị ngữ âm Sau đó gán một(hoặc nhiều) nhãn ngữ âm cho mỗi vùng

phân đoạn dựa theo các thuộc tính âm học Bước thứ hai của tiếp cận là giaiđoạn thực sự nhận dạng tiếng nói Nhiệm vụ chính của bước này là cố gắngxác định một từ hợp lệ(hay chuỗi từ hợp lệ) từ một chuỗi các nhãn ngữ âm thuđược từ bước thứ nhất đựa trên cơ sở các ràng buộc(về từ vựng và cú pháp)của tác vụ cần nhận dạng tiếng nói

Tiếp cận nhận dạng mẫu về cơ bản là một quan điểm sử dụng trực tiếp

các mẫu tiếng nói(speech pattern-đoạn tín hiệu tiếng nói cần nhận dạng) mà

không cần xác định rõ các đặc trưng và cũng không cần phân đoạn tín hiệunhư đối với tiếp cận âm thanh-ngữ âm Phương pháp này cũng gồm hai bước,

tích luỹ các mẫu tiếng nói, và nhận dạng mẫu thông qua so sánh mẫu “Kiến

thức” về tiếng nói được đưa vào hệ thống thông qua thủ tục tích luỹ Nếu có

đủ các phiên bản của một mẫu trong một tập hợp tích luỹ, thủ tục tích luỹ sẽ

có khả năng biểu diễn đặc trưng một cách đầy đủ các thuộc tính âm học củamẫu đó Việc biểu diễn đặc trưng tiếng nói thông qua sự tích luỹ này có thểcoi như một bài toán phân loại mẫu Đặc tính hữu ích chủ yếu của phươngpháp này nằm ở khâu so sánh mẫu trong đó các mẫu tiếng nói không biết được

Trang 27

so sánh trực tiếp với các mẫu đã được học bằng tích luỹ và đồng thời được

phân loại theo sự tương ứng mẫu tốt nhất.

Tiếp cận nhận dạng mẫu thường được lựa chọn cho các ứng dụng nhậndạng tiếng nói bởi ba lý do sau:

1 Tính dễ sử dụng và dễ hiểu trong thuật toán

2 Tính bất biến và khả năng thích nghi đối với những từ vựng, người

sử dụng, các tập hợp đặc trưng, các thuật toán so sánh mẫu và các quy tắcquyết định khác nhau

3 Khẳng định tính năng cao trong thực tế

Từ những mô tả trên về tiếp cận nhận dạng mẫu cho nhận dạng tiếng nói,chúng ta có thể nhận ra nhiều điểm tương đồng về lý thuyết đối với các bàitoán được giải quyết bằng công cụ mạng neuron Điểm khác biệt chính ở đâynằm ở khái niệm lưu trữ các mẫu tích luỹ Đối với mạng neuron, các mẫu lưutrữ được mã hóa thành các trọng số synapse và các hệ số hiệu chỉnh của mạngthông qua quá trình tích luỹ; Quá trình “so sánh mẫu” cũng được trìu tượnghóa bằng việc đưa các mẫu không biết qua đầu vào của mạng rồi sau đó thựchiện quyết định “so sánh” trên các đầu ra của mạng

Tiếp cận nhận dạng tiếng nói cuối cùng được bàn đến ở đây là tiếp cậntrí tuệ nhân tạo mà dường như khai thác quan điểm của hai tiếp cận kể trên

Tiếp cận này cố gắng “máy móc hóa” chức năng nhận dạng theo cách mà con

người áp dụng trí thông minh của mình trong việc quan sát, phân tích và thựchiện những quyết định trên các đặc trưng âm học của tín hiệu Một trongnhững kỹ thuật được xây dựng theo quan điểm này là việc sử dụng một hệchuyên gia cho việc phân đoạn và gán nhãn tín hiệu, hay việc học và thích

Trang 28

nghi theo thời gian… Xét trên khía cạnh mô phỏng trí tuệ con người thì việcứng dụng mạng neuron phần nào mang tính chất của tiếp cận trí tuệ nhân tạo.

Phần 2: Phân tích dữ liệu tiếng nói

I Mô tả chung của việc mã hóa tín hiệu giọng nói.

1 Mã hóa

Hình 2.1: Nguyên lý của mã hóa CS-ACELP

Trang 29

Nguyên lý mã hóa được thể hiện trong hình 2.1 Tín hiệu đầu vào đãđược lọc thông cao và chia tỉ lệ trong khối tiền xử lý Tín hiệu được tiền xử lý

là đầu vào cho tất cả các phân tích tiếp theo Phân tích LP được thực hiện trênkhung 10ms nhằm tính toán các hệ số lọc LP Các hệ số đó được chuyển đổisang cặp phổ vạch(LSP) và lượng tử hóa sử dụng 2 giai đoạn lượng tửvectơ(VQ) với 18 bits Tín hiệu kích thích được lựa chọn bằng cách sử dụngmột phân tích thủ tục tìm kiếm tổng hợp sai số giữa giọng nói ban đầu(gốc) vàgiọng nói khôi phục lại là nhỏ nhất theo trọng số

Các tham số trích rút(các tham số codebook cố định và thích ứng) đượcxác định trên khung phụ 5 ms(tương ứng 40 mẫu) Các hệ số lọc LP đã lượng

tử hoặc chưa được lượng tử được sử dụng cho khung phụ thứ 2, trong khitrong khung phụ thứ nhất các hệ số lọc LP đã nội suy được sử dụng(cả lượng

tử và chưa lượng tử) Một chu kỳ mở giữ chậm được đánh giá trên mỗi khung

10 ms dựa trên tín hiệu giọng nói được gán trọng số Quá trình hoạt động tiếptheo được lặp lại cho mỗi khung phụ Tín hiệu đích x(n) được tính toán bằngcách lọc phần dư LP qua lọc tổng hợp theo trọng số W(z)/ Aˆ(z) Giai đoạnban đầu của bộ lọc đó được cập nhật bằng cách lọc sai số giữa LP số dư và LPtrích rút, điều này tương đương trừ đáp ứng đầu vào rỗng của lọc tổng hợp có

trọng số từ các tín hiệu giọng nói có trọng số Đáp ứng xung h(n) của lọc tổng

hợp có trọng số được tính toán Phân tích chu kỳ đóng được thực hiện sau

đó(tìm kiếm codebook giữ chậm và năng lượng thích ứng), sử dụng x(n) đích

và đáp ứng xung h(n) bằng cách tìm kiếm xung quanh giá trị của chu kỳ trễ

mở Chu kỳ trễ được mã hóa với 8 bits trong khung phụ thứ nhất và được mã

hóa vi phân với 5 bits trong khung phụ thứ 2 Tín hiệu đích x(n) được cập nhật bằng cách trừ codebook thích ứng và đích mới x’(n) Một codebook đại số với

Trang 30

17 bits được sử dụng cho trích rút codebook cố định Codebook thích ứng vàcodebook cố định được lượng tử hóa với 7 bits Cuối cùng bộ nhớ lọc đượccập nhật sử dụng tín hiệu trích rút đã được định rõ.

2 Giải mã.

Hình 3: Nguyên lý của giải mã CS-ACELP

Nguyên lý giải mã được thể hiện trong hình 3 Đầu tiên các chỉ số củatham số được trích rút từ dòng bit nhận được Các chỉ số này khi giải mã thuđược các tham số mã tương ứng với một khung giọng nói 10 ms Các tham sốnày là các hệ số LSP, hai phân đoạn chu kỳ giữ chậm, hai vectơ codebook cốđịnh, và hai tập năng lượng thích ứng và năng lượng codebook cố định Các

hệ số LSP được nội suy và chuyển đổi sang các hệ số lọc LP cho mỗi khungphụ Sau đó với mỗi 5 ms khung phụ các bước tiếp theo được thực hiện:

- Sự kích thích được xây dựng bằng cách thêm vào các vectơ thích ứng

và codebook cố định được chia tỉ lệ bởi năng lượng tương ứng của chúng

Trang 31

- Khôi phục lại giọng nói bằng cách lọc các kích thích qua lọc tổng hợpLP.

- Khôi phục lại tín hiệu giọng nói hợp lệ qua một giai đoạn xử lý bổxung bởi lọc thông cao và thao tác chia tỉ lệ

3 Giữ chậm

Công tác mã này mã hóa các tín hiệu giọng nói và các tín hiệu âm thanhkhác với các khung 10 ms Hơn nữa, nó được xem xét trước 5 ms, kết quảtoàn bộ thuật toán giữ chậm 15 ms Tất cả sự làm chậm thêm vào trong sựthực thi thực tế của công tác mã này tương ứng:

- Thời gian xử lý cần thiết cho quá trình mã hóa và giải mã

- Thời gian truyền các kết nối truyền thông

- Giữ chậm đa thành phần khi phối hợp dữ liệu âm thanh với dữ liệukhác

II Mô tả các hàm thực hiện mã hóa

Trang 32

1 Tiền xử lý

Đầu vào của mã hóa giọng nói là tín hiệu 16 bit PCM Có 2 hàm tiền xử

lý được áp dụng trước khi thực hiện việc mã hóa:

1. Chia tỉ lệ tín hiệu

2. Lọc thông cao

Chia tỉ lệ bao gồm phân chia tín hiệu đầu vào có tác dụng giảm thiểu khảnăng tràn bộ nhớ khi thực hiện với điểm cố định Lọc thông cao đáp ứng ngănngừa các thành phần tần số thấp không mong muốn Một bộ lọc cực khôngbậc 2 cùng với tần số cắt 140 Hz được sử dụng

2 1

2 1

1

9114024

0 9059465

1 1

46363718

0 92724705

0 46363718

0 )

z z

z

H h

Trang 33

Các tín hiệu vào được lọc qua Hh1(z) ký hiệu là S(n) và sẽ được sử dụngtrong tất cả các bước mã hóa tiếp theo.

2 Phân tích và lượng tử dự báo tuyến tính.

Sự phân tích thời gian ngắn và lọc tổng hợp dựa trên 10 tham số lọc dựbáo tuyến tính Lọc tổng hợp LP được định nghĩa như là:

1 )

( 1

i

i

i z a z

A

Với aˆ i, i=1,…,10 là các hệ số dự báo tuyến tính(Đã được lượng tử).Phân tích dự báo thời gian ngắn, hoặc phân tích dự báo tuyến tính thực hiệntrên khung tín hiệu giọng nói sử dụng phương thức tự tương quan cùng vớicửa sổ không đối xứng 30 ms Với 80 mẫu(tương ứng với 10 ms), các hệ số tựtương quan của tín hiệu giọng nói đã được cửa sổ hóa, được tính toán vàchuyển đổi sang các hệ số LP sử dụng thuật toán Levinson Sau đó các hệ số

LP được biến đổi sang miền LSP cho mục đích lượng tử và nội suy Các bộlọc nội suy đã được lượng tử hoặc chưa được lượng tử, được chuyển đổi trở vềcác hệ số lọc LP

2.1 Tính toán cửa sổ và tự tương quan.

Cửa sổ phân tích LP gồm 2 phần: Phần thứ nhất là cửa sổ Hamming vàphần thứ 2 là chu trình hàm cosin Cửa sổ được đưa ra bởi:

159

) 200 (

2 cos(

199 , , 0 n ) 399 n 2 0.46cos(

0.54 (n)

-W p

n n

l

Cửa sổ phân tích LP áp dụng với 120 mẫu từ khung giọng nói quá khứ,

80 mẫu từ khung giọng nói hiện tại, và 40 mẫu từ khung tương lai Thủ tụccửa sổ được minh họa trong hình dưới đây:

Trang 34

Tín hiệu giọng nói đã được cửa sổ:

s’(n)= Wlp(n)s(n) n=0,…,239được sử dụng để tính hệ số tự tương quan:

( ' ) ( ' )

(

k n

k k

n s n s k

2 2

1 exp ) (

W

s lag

Với f0=60 hz là dải tần mở rộng, và fs=8000 Hz là tần số mẫu Hơn nữa,r(0) được nhân bởi nhân tố hiệu chỉnh nhiễu trắng 1.0001, tương đương vớicộng thêm nhiễu sàn -40dB Hệ số tự tương quan đã chỉnh sửa được đưa rabởi:

r’(0)=1.0001 r(0)

r’(k)= Wlag(k)r(k) k=1,…,10

Trang 35

2.2 Thuật toán Levinson-Durbin.

Các hệ số tự tương quan đã biến đổi r’(k) được sử dụng để thu được các

( '

|) (|

'

k k

r k

i r

end

a k a a

i to j for

k a

E j i r a k

a

to i for

r E

i i i

i j i i i j i j

i i i

i i

j

i j i

i

] 1 [ 2 ]

] 1 [ ] 1 [ ] ]

] 1 [ 1

0 1

] 1 [ 0 0

) 1 (

1 1

/ ) ( ' 1

10 1

) 0 ( '

Kết quả cuối cùng cho bởi a j =a j [10] , j=0, ,10 , với a0=1.0

2.3 Quá trình chuyển đổi LP sang LSP.

Các hệ số lọc LP a i , i=0, ,10 được chuyển đổi sang các hệ số cặp phổvạch(LSP) cho mục đích lượng tử và nội suy Các hệ số LSP được xác định lànghiệm của tổng các đa thức:

F’1(z) = A(z) + z-11A(z-1) (9)Và:

F’2(z) = A(z) - z-11A(z-1) (10)

Trang 36

Đa thức F’1(z) là đối xứng, và đa thức F’2(z) là không đối xứng Chúng ta

có thể nhận thấy rằng tất cả các nghiệm của các đa thức đó tạo thành một chutrình và luân phiên nhau F’1(z) có một nghiệm z = -1( ) và F’2 có mộtnghiệm z = 1(  0) Hai nghiệm này được loại ra bằng cách định nghĩa các

đa thức mới:

F1(z) = F’1(z) / (1 + z-1) (11)Và:

F2(z) = F’2(z) / (1 – z-1) (12)Mỗi đa thức có 5 nghiêm liên hợp trên một chu trình đơn vị (eji) vàchúng có thể được viết:

2 1

i

q z

2 1

i

q z

với q i  cos( i) Các hệ số i là tần số phổ vạch(LSF) và chúng thỏamãn 0  1 2  10   Các hệ số qi là các hệ số LSP trong miền cosine.Bởi vì cả hai đa thức F1(z) và F2(z) là đối xứng nên chúng ta chỉ cần tínhtoán 5 hệ số đầu tiên của mỗi đa thức Các hệ số của hai đa thức này được tìmbởi mối tương quan đệ quy:

f 1 (i+1) = a i+1 + a 10-i – f 1 (i) i = 0, ,4

f 2 (i+1) = a i+1 + a 10-i – f 2 (i) i = 0, ,4 (15)

Với f 1 (0) = f 2 (0) = 1.0 Các hệ số LSP được tìm kiếm bằng cách đánh giá

các đa thức F1(z) và F2(z) tại 60 điểm cách đều nhau giữa 0 và  và kiểm tra

Trang 37

sự đổi dấu Nếu có sự đổi dấu sẽ tồn tại 1 nghiệm sau đó chúng ta chia nhỏđoạn có sự đổi dấu làm 4 đảm bảo nghiệm tìm thấy chính xác hơn Các đathức Chebyshev được sử dụng để đánh giá F1(z) và F2(z) Trong phương phápnày các nghiệm được tìm kiếm chính xác trong miền cosine Các đa thức F1(z)hoặc F2(z), được đánh giá tại z  e j , được viết:

  2e 5 C(x)

 (16)với :

C(x) = T5(x) + f(1)T4(x) + f(2)T3(x) + f(3)T2(x) + f(4)T1(x) + f(5)/2

(17)

ở đây T m(x)  cos(m ) là bậc thứ m của đa thức Chebyshev, và f(i) , i=1,

…,5 là hệ số của F1(z) hoặc F2(z), được tính toán từ phương trình (15) Đathức C(x) được đánh giá tại giá trị x cos(  )sử dụng quan hệ đệ quy :

2 / ) 5 ( )

(

) 5 ( 2

1 4

2 1

2 1

f b xb

x

C

end

k f b xb b

to down k

for

k k k

i

Một bộ chuyển đổi dự báo trung bình trượt(MA) bậc 4 được sử dụng để

dự báo các hệ số LSF của khung hiện thời Sự khác nhau giữa các hệ số dựbáo và hệ số tính toán là đã lượng tử hóa sử dụng 2 giai đoạn bộ lượng tử

Ngày đăng: 19/06/2014, 21:06

HÌNH ẢNH LIÊN QUAN

Hình 1.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người. - Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
Hình 1.1 Sơ đồ biểu diễn quá trình sản xuất thu nhận tiếng nói của con người (Trang 5)
Hình 1.2: Quá trình số hoá thành dạng sóng file Wave - Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
Hình 1.2 Quá trình số hoá thành dạng sóng file Wave (Trang 18)
Hình 2.1: Nguyên lý của mã hóa CS-ACELP - Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
Hình 2.1 Nguyên lý của mã hóa CS-ACELP (Trang 27)
Hình 3: Nguyên lý của giải mã CS-ACELP - Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
Hình 3 Nguyên lý của giải mã CS-ACELP (Trang 29)
Hình B.1 : Hệ thống truyền thông tiếng nói cùng với VAD - Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
nh B.1 : Hệ thống truyền thông tiếng nói cùng với VAD (Trang 41)
Hình B.2: Biểu đồ tiến trình VAD - Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
nh B.2: Biểu đồ tiến trình VAD (Trang 42)
Bảng B.3 : Bảng giá trị các hằng số - Đồ án tốt nghiệp đại học nghiên cứu, tìm hiểu mạng neuron và ứng dụng mạng neuron trong nhận dạng giọng nói trên tập từ hữu hạn
ng B.3 : Bảng giá trị các hằng số (Trang 47)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w