1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói

116 481 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Các Đặc Trưng Của Tiếng Việt Áp Dụng Vào Nhận Dạng Tiếng Nói Tiếng Việt
Tác giả Đỗ Xuân Đạt, Vũ Văn Tuấn
Người hướng dẫn Th.S. Thỏi Hựng Văn
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Tốt Nghiệp
Năm xuất bản 2003
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 116
Dung lượng 1,59 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương pháp dãy bộ lọc Một kỹ thuật phân tích phổ, có ưu ñiểm là thực hiện thời gian thực, ñơn giản, và dễ làm, sử dụng một dãy bộ lọc, hay một tập hợp các bộ lọc cả tín hiệu liên tục-an

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

BỘ MÔN CÔNG NGHỆ TRI THỨC

LUẬN VĂN TỐT NGHIỆP

CỬ NHÂN CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT

ÁP DỤNG VÀO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

Giáo viên hướng dẫn:

Th.S Thái Hùng VănSinh viên thực hiện:

Đỗ Xuân Đạt – 9912540

Võ Văn Tuấn – 9912737

Thành phố Hồ Chí Minh, tháng 7 năm 2003

Trang 2

Lời Cảm Ơn

Hoàn thành luận văn này, chúng em xin chân thành cảm

ơn thầy Thái Hùng Văn ñã trực tiếp hướng dẫn và tạo ñiều kiện cho chúng em tiếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh vực vô cùng lý thú.

Chúng em xin gởi lời cảm ơn ñến các thầy cô trong trường, ñặc biệt là các thầy cô bộ môn Công Nghệ Tri Thức, và thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật ñã truyền ñạt cho chúng em nhiều kiến thức bổ ích.

Chúng tôi cũng không thể không nhắc ñến sự ñộng viên chăm sóc của gia ñình, sự cộng tác giúp ñỡ và ủng hộ tinh thần của bạn bè, ñặc biệt là bạn Nguyễn Tấn Dũng và anh Đặng Hoàng Vũ Chúng tôi xin ghi ơn tất cả.

Thành phố Hồ Chí Minh, tháng 7 năm 2003.

Đỗ Xuân Đạt - Võ Văn Tuấn

Trang 3

Lời Giới Thiệu

Trong quá trính tiến hoá, con người ñã trở thành ñộng vật mạnh nhất, cao

cấp nhất nhờ vào hai thứ: lao ñộng và tiếng nói Lao ñộng tạo ra tư duy và tiếng

nói giúp con người kết hợp với nhau Cùng với thời gian, các phương tiện giaotiếp - thông tin của con người ñã phát triển rất phong phú ña dạng Tuy nhiên, dù

ña dạng ñến ñâu cũng không thể thay thế ñược vai trò của tiếng nói Tiếng nói làmột phương tiện giao tiếp ñặc biệt hiệu quả và cực kỳ phổ dụng, là một chức năng

vô cùng quý giá của con người [L.V.Lợi-99] Sự phát triển vượt bậc của con ngườichính là nhờ ở tốc ñộ và khả năng giao tiếp phong phú của tiếng nói

Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thaythế các lao ñộng tay chân Tuy nhiên ñể ñiều khiển máy móc, con người phải làmkhá nhiều thao tác tốn nhiều thời gian và cần phải ñược ñào tạo Điều này gây trởngại không ít ñối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật.Chúng ta hãy tưởng tượng trong nhà có một người máy giúp việc Khi ta muốnngười máy làm việc, ta phải lục tìm ñĩa chương trình tương ứng, phải nạp chươngtrình, … phải chạy lăng xăng làm một danh sách các công việc trong khi lúc ñó tañang ngồi bên bàn làm việc, ñang phải tập trung suy nghĩ vào một vấn ñề cần giảiquyết Và ta hãy tưởng tượng xem nếu người máy ñó “nghe hiểu” ñược những gì

ta nói Lúc ñó ta chỉ cần “nhờ vả” một câu, mọi việc sẽ trở nên dễ dàng!

Đi tìm giải pháp giúp cho máy có thể “nghe hiểu” ñược, con người ñã bướcvào lĩnh vực nhận dạng tiếng nói Hơn nửa thế kỷ trôi qua, con người ñã thu ñượcnhững thành tựu ñáng kể, có những ứng dụng khá hữu ích vào ñời sống Nhưng dùsao, khả năng “nghe hiểu” của máy vẫn còn một khoảng cách khá xa so với thực

tế Mặt khác, các hệ thống nhân dạng hiện nay cũng chỉ ñược phát triển tương ñốitốt ñối với một số ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Hoa,… Còn ñối vớinước ta, nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ Đến nay tuycũng ñã ñạt ñược một số thành tựu và ñã có những ứng dụng nhất ñịnh, nhưngnhìn chung, nhận dạng tiếng Việt vẫn chưa ñạt ñược kết quả cần thiết ñể có thể tạo

ra một sản phẩm thực tế hoàn chỉnh Khó khăn nằm ở tính phức tạp của vấn ñề vàmức ñộ ñầu tư cũng như kế thừa chưa cao Các nghiên cứu chủ yếu vẫn là nhận

Trang 4

dạng tiếng nói chung chung chứ chưa có nhiều phân tích kỹ các ñặc tính riêng củatiếng Việt Các hệ nhận dạng trước ñây hầu hết không phân biệt ñược từ ñồng âmnhư: a, á, à, ả, ã, ạ… Hơn nữa kích thước từ ñiển (số từ nhận biết ñược) còn nhỏ,thời gian học mẫu khá lâu, và nhận dạng mang tính phụ thuộc người nói khá cao.Vấn ñề còn khó khăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.Văn-00] Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thốngcác ngành khoa học có liên quan như: ngôn ngữ học, thống kê học, sinh lý học, vật

lý học, toán học, âm học, tâm lý học, lý thuyết thông tin và truyền tin… và dĩnhiên có cả công nghệ thông tin

Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chếtrên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiềuñặc trưng âm học tiếng Việt hơn, từ ñó dùng nhiều ñặc trưng hơn ñể nhận dạnggiúp nâng cao ñộ chính xác và phân biệt ñược các từ ñồng âm góp phần nâng kíchthước từ ñiển lên lớn hơn

Nội dung luận văn ñược trình bày thành các chương như sau:

Chương 1: Tiếng nói và ngữ âm tiếng Việt Chương thứ nhất tóm tắt về

tiếng nói và trình bày một số ñặc ñiểm ngữ âm tiếng Việt Trong số ñó, luận vănquan tâm nhiều ñến thanh ñiệu, là ñặc ñiểm khác biệt của tiếng Việt so với nhiềungôn ngữ khác

Chương 2: Xử lý tín hiệu số - phân tích tiếng nói: Trình bày một số kiến

thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói

Chương 3: Nhận dạng tiếng nói Chương này mô tả một hệ nhận dạng

tiếng nói tổng quát, và ñi cụ thể vào hệ nhận dạng tiếng nói sử dụng mô hìnhMarkov ẩn liên tục

Chương 4: Một số khảo sát về thanh ñiệu tiếng Việt Đây là các khảo sát

của người viết về thanh ñiệu tiếng Việt Kết quả khảo sát sẽ ñược kết hợp, so sánhvới các nghiên cứu về ngữ âm tiếng Việt trước ñây ñể rút ra các ñặc ñiểm ngữ âmtiếng Việt, làm cơ sở cho việc xây dựng một hệ nhận dạng tiếng Việt theo mô tảcủa luận văn

Chương 5: Xây dựng mô hình nhận dạng thanh ñiệu tiếng Việt Nhận

dạng thanh ñiệu là bước ñầu tiên ứng dụng các nghiên cứu nói trên vào một hệ

Trang 5

nhận dạng tiếng Việt của luận văn Bắt ñầu từ ñặc tính ñặc trưng của tiếng Việt làthanh ñiệu

Chương 6: Thiết kế mô hình nhận dạng tiếng Việt Phần này là thiết kế

của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh Ứng dụng mô ñun nhậndạng thanh ñiệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh

Chương 7: Hiện thực hoá mô hình nhận dạng tiếng Việt Chương cuối

cùng là các cài ñặt cụ thể của luận văn về một hệ nhận dạng tiếng Việt

Phần phụ lục 1: giới thiệu về một số ñặc ñiểm ngữ âm tiếng Việt Trong

ñó, luận văn chú ý nhiều ñến ñặc ñiểm thanh ñiệu ñược dùng ñể ứng dụng trongphân lớp tiếng Việt

Phần phụ lục 2: Giới thiệu vai trò của tần số cơ bản trong tiếng nói và một

số phương pháp rút trích tần số cơ bản

Trang 6

Mục Lục

Lời Cảm Ơn i

Lời Giới Thiệu ii

Mục Lục v

Chương 1 Tiếng nói và ngữ âm tiếng Việt 1

1.1 Giới thiệu tiếng nói 1

1.1.1 Sự phân bố về biên ñộ 1

1.1.2 Sự phân bố về tần số 2

1.1.3 Sự biến ñổi các tần số cơ bản 2

1.1.4 Tỷ số tiếng nói 2

1.2 Ngữ âm tiếng Việt (Tham khảo phụ lục 1) 2

1.2.1 Thanh ñiệu 2

1.2.2 Âm vị 3

1.2.3 Trường ñộ 3

Chương 2 Xử lý tín hiệu số - phân tích tín hiệu tiếng nói 7

2.1 Xử lý tín hiệu số 7

2.1.1 Lấy mẫu tín hiệu 7

Hàm lấy mẫu: 7

2.1.1.1 Phổ của các tín hiệu ñược lấy mẫu 8

2.1.1.2 Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu liên tục theo thời gian thời gian 9

2.1.2 Dãy xung 10

2.1.3 Biến ñổi Fourier rời rạc 11

2.1.3.1 Biến ñổi Fourier rời rạc 12

Trang 7

2.1.3.2 Biến ñổi Fourier nhanh 13

2.1.4 Biến ñổi cosin rời rạc 13

2.1.5 Các bộ lọc 14

2.1.6 Cửa sổ tín hiệu 15

2.2 Phân tích tín hiệu tiếng nói 20

2.2.1 Phương pháp dãy bộ lọc 20

2.2.2 Trích ñặc trưng MFCC 28

2.2.3 Phương pháp mã hóa dự báo tuyến tính (LPC) 32

2.2.3.1 Làm rõ tín hiệu 34

2.2.3.2 Phân ñoạn thành các frame 34

2.2.3.3 Lấy cửa sổ 35

2.2.3.4 Phân tích tự tương quan 36

2.2.3.5 Phân tích LPC 36

2.2.3.6 Chuyển các hệ số LPC thành các hệ số cepstral 37

2.2.3.7 Đặt trọng số cho các hệ số cepstral 37

2.3 Phát hiện chu kỳ tiếng nói – phương pháp tìm tần số cơ bản (Tham khảo phụ lục 2) 38

2.3.1 Các kỹ thuật theo miền thời gian 39

2.3.2 Các kỹ thuật phân tích phổ hữu hạn 39

2.3.3 Mô tả tín hiệu 40

2.3.3.1 Tiếng nói thô 40

2.3.3.2 Lỗi dự báo tuyến tính 40

2.3.4 Một số phương pháp cài ñặt các kỹ thuật trích F0: 41

2.3.4.1 Phương pháp dùng cepstral: 41

2.3.4.2 Phương pháp tự tương quan: 41

2.3.4.3 Phương pháp CLIP (center clipping pitch detector) 42

Trang 8

2.3.4.4 Phương pháp SIFT (Simplified Inverse Filter Tracking) 43 2.3.4.5 Hàm AMDF (Average Magnitude Difference Function) 43

2.3.4.6 Phương pháp so khớp biên ñộ 43

Chương 3 Nhận dạng tiếng nói 46

3.1 Tổng quan một hệ nhận dạng: 46

3.2 Tổng quan một hệ nhận dạng tiếng nói: 46

3.3 Những thuận lợi và khó khăn của nhận dạng tiếng nói: 49

3.4 Nhận dạng tiếng nói sử dụng mô hình Markov ẩn 50

3.4.1 Mô hình Markov ẩn và các bài toán cần giải quyết: 50

3.4.1.1 Giải quyết bài toán thứ nhất: 51

3.4.1.2 Giải quyết bài toán thứ hai: 52

3.4.1.3 Giải quyết bài toán thứ ba: 52

3.4.2 Mô hình Markov ẩn liên tục (CDHMM - Continuous Densities Hidden Markov Model) 55

Chương 4 Một số khảo sát về thanh ñiệu tiếng Việt 59

4.1 Thanh 1 (Thanh ngang) 59

4.2 Thanh 2 (Thanh huyền) 60

4.3 Thanh 3 (Thanh ngã) 61

4.4 Thanh 4 (Thanh hỏi) 63

4.5 Thanh 5 (Thanh sắc) 64

4.6 Thanh 6 (Thanh nặng) 66

Chương 5 Xây dựng mô hình nhận dạng thanh ñiệu tiếng Việt 66

5.1 Tiền xử lý 66

5.2 Trích F0 từ tín hiệu tiếng nói (pitch extraction) 69

5.3 Tạo vector ñặc trưng từ vector V(F0) 71

5.4 Huấn luyện cho mô hình 72

Trang 9

5.5 Nhận dạng 73

5.6 Một số kết quả nhận dạng thanh ñiệu tiếng Việt 74

Chương 6 Thiết kế mô hình nhận dạng tiếng nói tiếng Việt 77

6.1 Công ñoạn huấn luyện 77

6.2 Công ñoạn nhận dạng 79

Chương 7 Hiện thực hoá mô hình nhận dạng tiếng Việt 80

7.1 Nhận dạng tiếng ñơn 80

7.2 Nhận dạng câu 82

Chương 8 Kết luận 84

8.1 Kết luận 84

8.2 Hướng phát triển: 85

Tài liệu tham khảo 86

Phụ lục 1: Ngữ âm tiếng Việt 87 Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tần số cơ 100

Trang 10

Chương 1. Tiếng nói và ngữ âm tiếng Việt

1.1 Gi i thi#u ti'ng nói

Tiếng nói là một loại sóng âm Khi ta nói, tiếng nói ñược truyền ñi mangtheo thông tin dưới dạng các dao ñộng cùng phương truyền ñến tai người nhận.Mức ñộ truyền tin của tiếng nói ñược xem là nhanh nhất trong các khả năng tựnhiên của con người

Khác với sách báo, thư tín… chỉ tryền tin một chiều, tiếng nói giúp tatruyền tin cả hai chiều Sách báo giúp ta ghi lại thông tin ñể sau này ñọc lại, nhưngtiếng nói giúp ta thể hiện bản thân hơn Thông qua cách nói chuyện, khả năng ứng

xử, ta có thể ñánh giá ñược trình ñộ và nhân cách của môt người Tiếng nói làphương tiện truyền tin nhanh nhất và hiệu quả nhất của con người

Tiếng nói có rất nhiều ñặc tính:

Đặc tính của sóng âm gồm các ñặc tính sinh lý, vật lý như: cường

ñộ, tần số, biên ñộ, năng lượng, âm sắc, ñộ cao, ñộ to…

Đặc tính xã hội như: ngữ ñiệu, sắc thái tình cảm, ñịa phương…

Số từ ñược sử dụng thường xuyên trong giao tiếp hằng ngày của một ngườidao ñộng trong khoảng từ 2000 ñến 3000 từ Số từ người ta sử dụng trung bìnhkhoảng 5000 ñến 10000 từ [5]

Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu ñếntần số, biên ñộ (hay năng lượng) Tiếng nói có miền tần số cơ bản nằm trongkhoảng 80 – 8000 Hz [11]

1.1.1 Sự phân bố về biên ñộ

Khi thống kê với khoảng 80 người (4 người/ ngôn ngữ), người ta nhậnthấy rằng biên ñộ tối ña ñạt ñược của một tiếng nói có thể lớn hơn 50dB [5].Trong một chuỗi tiếng nói, biên ñộ tiếng nói sẽ phân bố liên tục theo dạng hìnhsin

Trang 11

1.1.2 Sự phân bố về tần số

Khi phát âm các từ với tần số từ thấp ñến cao, người ta thấy rằng việc tăngdần tần số gắn liền với việc giảm dần biên ñộ Thực nghiệm cho thấy với namcũng như nữ, phổ tiếng nói của chúng ta theo tần số là một ñường cong có ñộ dốckhoảng -10dB/Octave

1.1.3 Sự biến ñổi các tần số cơ bản

Thống kê theo thời gian về sự biến ñổi các tần số trong giọng nói con ngườicho thấy giá trị trung bình và ñộ lệch tần số cơ bản trong giọng nói nữ thường gấpñôi nam

Quá trình khảo sát cũng cho thấy 18% trong số các biến ñổi về tần số cơbản là biến ñổi tăng, và 50% là giảm Người ta cũng nhận thấy trong chuỗi tiếngnói của con người, các khoảng lặng chèn vào giữa các từ có tác dụng làm chotiếng nói của chúng ta nghe êm hơn, và tần số của chúng ổn ñịnh trong miền có ñộbiến thiên khoảng 10 Hz

1.1.4 Tỷ số tiếng nói

Trong chuỗi tiếng nói của chúng ta, có thể dễ dàng nhận thấy ngoại trừ cáctiếng, còn có các khoảng trống ñược chèn vào, và tỷ số giữa ñoạn có tiếng nói thực

sự so với khoảng thời gian tổng cộng của chuỗi âm ñược gọi là tỷ số tiếng nói

Thực nghiệm chứng minh khi chúng ta tăng tốc ñộ nói thì khoảng trốnggiữa các tiếng bị giảm nhiều Và ngược lại, khi giảm tốc ñộ nói thì các khoảngtrống giữa các từ bị dài ra

1.2 Ng) âm ti'ng Vi#t (Tham kh,o ph/ l/c 1)

1.2.1 Thanh ñiệu

Thanh ñiệu là ñặc tính ñặc trưng của tiếng Việt nói riêng và các ngôn ngữ

có thanh ñiệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…

Thanh ñiệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phânbiệt các từ ñồng âm Đây là ñặc ñiểm mà ña số các hệ nhận dạng tiếng Việt trướcñây chưa xử lý

Trang 12

Trong tiếng Việt, thanh ñiệu cũng là một ñặc ñiểm mang ñậm tính ñịaphương Tổng cộng có 6 thanh, nhưng tuỳ vào từng ñịa phương mà số lượng thanhñiệu tiếng Việt có thể bị giảm xuống còn 5 hay 4 do sự sát nhập một số thanh lạivới nhau.

Người ta phân biệt thanh ñiệu dựa vào 2 yếu tố: âm ñiệu và âm vực

Âm ñiệu là sự thay ñổi tần số cơ bản của thanh ñiệu, hay ñường nétcủa thanh ñiệu

Âm vực: là miền giá trị của tần số cơ bản

1.2.2 Âm vị

Trong ngôn ngữ nói, tiếng nói bao gồm nhiều câu, mỗi câu bao gồm nhiều

từ, và mỗi từ lại bao gồm nhiều âm vị Theo quan ñiểm ngữ âm, âm vị ñược xem

là ñơn vị nhỏ nhất của tiếng nói

Âm vị gồm 2 loại chính: nguyên âm và phụ âm

Nguyên âm là các âm mà khi phát âm, luồng không khí ñi ra không

bị cản trở

Phụ âm là các âm mà luồng không khí khi ñi ra bị cản trở ở một số

bộ phận của bộ máy phát âm

Ngoài ra, người ta còn chia một dạng âm vị nữa như một bán nguyên âm,khi sự cản trở luồng không khí là không ñáng kể Các bán nguyên âm có ñặc ñiểmgần như nguyên âm nhưng thường chỉ ñi kèm, và bản thân không tạo thành âm tiếtñược

Các nguyên âm và phụ âm riêng biệt lại ñược chia thành nhiều nhóm nhỏdựa vào các ñặc ñiểm vật lý, sinh học, hay vị trí và cách thức phát âm của bộ máyphát âm

1.2.3 Trường ñộ

Trường ñộ tiếng nói là thời gian phát âm một tiếng Xét ñến trường ñộ sẽliên quan ñến tính tắc – xát, hệ thống âm chính – âm cuối, ảnh hưởng của nhữngbiến ñổi của âm cuối… Thường thì âm tắc, còn gọi là âm khép, sẽ làm cho trường

ñộ của tiếng nói giảm do sự tắc thanh quản

Trang 13

Chương 2.

Xử lý tín hiệu số - phân tích tín hiệu tiếng nói

2.1 X1 lý tín hi#u s2

Hiểu một cách ñơn giản thì tín hiệu (signal) là tất cả các biến có mang hoặc

chứa một loại thông tin nào ñấy mà ta có thể biến ñổi, hiển thị hoặc gia công Cáctín hiệu trong thế giới thực như tiếng nói (voice), âm thanh (sound), hình ảnh(image)… ñều có bản chất hết sức phức tạp Do ñó các tín hiệu này thường bị biến

ñổi thành các tín hiệu số (số hóa) ñể dễ dàng xử lý chúng Tín hiệu số (digital

signal) là tín hiệu ñược biểu diễn bằng một dãy số Xử lý tín hiệu số (Digital Signal

Processing – DSP) bao hàm mọi phép xử lý các dãy số ñể có ñược các thông tin

Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các hệ thống liên tục

Nó ñược gọi bằng các tên khác nhau như: hàm Dirac Delta, hàm sàng lọc,… và

“hàm lấy mẫu” là một trong số các tên ñó Hàm lấy mẫu có các tính chất sau:

Tính chất 1:

Tính chất 2:

Trong các tính chất trên, là một số thực bất kì

Trang 14

Hình sau ñây minh họa hàm lấy mẫu lý tưởng:

Hình 2.1: Hàm lấy mẫu lý tưởng

Kết quả của phép lấy mẫu là:

2.1.1.1 Phổ của các tín hiệu ñược lấy mẫu

Sử dụng lý thuyết của phép biến ñổi Fourier, phổ tần số của các tín hiệu liêntục theo thời gian ñược mô tả như sau:

Và dạng sóng của tín hiệu ñược thể hiện theo phổ của nó như sau:

Do biểu thức trên ñược áp dụng cho tất cả các hàm liên tục theo thời gianx(t) nên nó cũng ñúng cho xs(t):

Thay xs(t) vào, ta ñược:

Trang 15

Trật tự phép lấy phân tích và phép cộng có thể thay ñổi, áp dụng tính chất 1của hàm lấy mẫu, ta ñược:

Phương trình trên là dạng biểu diễn chính xác hàm X(f) theo chuỗi Fourier.Trong ñó, Xs(f) là hàm tuần hoàn theo chu kỳ 1/T Các hệ số của chuỗi Fourier làx(nT) và chúng ñược tính bằng tích phân sau:

Hai biểu thức (2.8) và (2.9) là cặp biến ñổi giữa tín hiệu trên miền thời gian

và phổ tần số của nó

2.1.1.2 Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu liên tục theo thời gian thời gian

Trong biểu thức (2.5), ta thay t = nT và dùng công thức (2.9):

Ta viết lại vế phải của phương trình (2.5):

Trang 16

Có duy nhất 1 dãy gọi là dãy xung ñơn vị, ñây là một dãy quan trọng, và

ñược ký hiệu là u(n) Dãy này mang giá trị 0 tại tất cả các giá trị n, trừ n = 0 Tại

n = 0, dãy xung có giá trị bằng 1 Thông thường dãy này ñược dịch ñi m giá trị

trước khi sử dụng u(n-m) Dãy u(n) là phần tương ứng của hàm lấy mẫu trong

không gian rời rạc

Tính chất của dãy xung cũng tương tự như tính chất của hàm lấy mẫu:

Trang 17

Hình 2.2 : Dãy xung

2.1.3 Biến ñổi Fourier rời rạc

Các tín hiệu hình sin sau khi qua xử lý vẫn ñảm bảo cho ra các kết xuất làcác tín hiệu hình sin, chỉ có biên ñộ và pha là có thể thay ñổi, còn tần số và hìnhdạng vẫn giữ nguyên Tín hiệu trong thế giới thực ở dạng sóng liên tục theo chu kỳ,các sóng này là tổng hợp của các ñường hình sin rời rạc có tần số, biên ñộ khácnhau và pha của tín hiệu hình sin có tần số f tương ứng với một giá trị biểu diễn ñặctính tần số của tín hiệu tại tần số f Vì vậy, các tín hiệu Fourier có thể dùng ñể tổng

hợp trở lại thành các tín hiệu hình sin ban ñầu thông qua biến ñổi Fourier (Fourier Transform) Có 4 loại biến ñổi Fourier tương ứng với 4 loại tín hiệu:

Biến ñổi Fourier

Biến ñổi Fourier thời gian rời rạc

(Discrete Time Fourier Transform)

Rời rạc không chu kỳ

Biến ñổi Fourier rời rạc Rời rạc có chu kỳ

Trang 18

(Discrete Fourier Transform – DFT)

Một tín hiệu x(n) có ñộ dài L hữu hạn ñược dùng như là một chu kỳ tín hiệu.(Ta có thể xây dựng tín hiệu xp(n) tuần hoàn bằng cách xếp chồng tuần hoàn x(n))

Biến ñổi Fourier của x(n):

Trong ñó X(w) ñược lấy mẫu tại các ñiểm w=2 k/N, với L≤N là ñiều kiện ñể

có thể khôi phục lại x(n) từ X(w) (ñịnh lý lấy mẫu Shannon)

Do phải xử lý bằng máy tính nên những tín hiệu có ñộ dài hữu hạn và có trụctần số rời rạc mới có thể thực hiện dễ dàng nên biến ñổi Fourier rời rạc là thích hợpnhất

2.1.3.1 Biến ñổi Fourier rời rạc

Sau khi lấy mẫu hàm X(w) ta ñược một chuỗi X(k) chiều dài N, quá trìnhnày là biến ñổi Fourier rời rạc X(k) = DFT(x(n)) và ñược tóm tắt lại như sau:

Một số tính chất của biến ñổi Fourier rời rạc:

- Tính dịch vòng

Trang 19

DFT(x(n-p))=e-j2 kp/NX(k) với dãy (n-p) ñược ñịnh nghĩa là dịch vòng củax(n).

Độ phức tạp của công thức này là O(N 2

), không hiệu quả vì phải thực hiện

một khối lượng tính toán lớn Người ta thường dùng một phương pháp hiệu quả hơn

ñó là biến ñổi Fourier nhanh (Fast Fourier Transform – FFT).

2.1.3.2 Biến ñổi Fourier nhanh

Nguyên tắc cơ bản của tất cả các thuật toán FFT là dựa trên việc phân tíchcách tính DFT của một dãy N số thành phép tính DFT của các dãy nhỏ hơn (số ñiểm

tính DFT nhỏ hơn) Một trong những thuật toán FFT thông dụng hiện nay là thuật toán FFT cơ số 2 phân chia theo tần số (Radix-2, Decimation-In-Frequency FFT Algorithm) Thuật toán phân chia dựa trên việc phân chia dãy x(n) thành các

dãy nhỏ hơn ñược gọi là thuật toán phân chia theo tần số vì chỉ số n thường ñượcgắn liền với tần số Ví dụ phân chia theo tần số của FFT 16 ñiểm ñược minh họanhư sau:

Độ phức tạp của phương pháp này là O(Nlog 2 (N)).

2.1.4 Biến ñổi cosin rời rạc

Với biến ñổi fourier, ta sử dụng cả hàm sin và cos ñể mô tả tín hiệu Còn vớibiến ñổi cosine, ta chỉ sử dụng hàm cos ñể mô tả tín hiệu Cụ thể ta có công thứcbiến ñổi dãy u(n), n=0 (N-1), sau:

Ở ñây ñược tính như sau:

N

1

Trang 20

Ví dụ: Âm thanh khi ñược thu, tín hiệu thường chứa thêm các tiếng ồn củamôi trường như tiếng ồ ồ của quạt trần thổi vào micro; các ñiểm lốm ñốm trênnhững tấm ảnh lâu ngày ….

- Khôi phục các tín hiệu méo mó: Có một số trường hợp vì một nguyên nhânnào ñó (thường là nguyên nhân liên quan ñến thiết bị) sẽ tạo ra các tín hiệuvào bị méo mó Vì vậy cần phải chỉnh lại ñể tăng chất lượng chương trình xử

- Hệ có ñáp ứng xung hữu hạn (Finite Impulse Response – FIR): hệ có tín

hiệu ra chỉ phụ thuộc vào tín hiệu vào nên các hệ này còn ñược gọi là mạchkhông truy hồi hay mạch không ñệ qui (non-recursive) Nghĩa là có N=0trong phương trình sai tuyến tính hệ số hằng Khi ñó:

Trang 21

- Hệ có ñáp ứng xung vô hạn (Infinite Impulse Response – IIR): hệ xử lý

có ñáp ứng xung có ñộ dài vô hạn hay ñáp ứng xung vô hạn Tín hiệu rakhông những chỉ phụ thuộc vào tín hiệu vào mà còn phụ thuộc vào quá khứcủa chính tín hiệu ra, vì vậy chúng còn ñược gọi là các mạch có truy hồi hay

ñệ qui Nghĩa là N>0 trong phương trình sai phân tuyến tính hệ số hăng

2.1.6 Cửa sổ tín hiệu

Thông thường, việc phân tích tín hiệu ñược thực hiện trên một dãy hữu hạngồm N mẫu xN(n0),…, xN(n0 + N –1) Dãy tín hiệu này ñược lấy ra từ một tín hiệudài hơn hoặc dài vô hạn x(n) Một dãy con như vậy gọi là một cửa sổ tín hiệu Việcquan sát tín hiệu x(n) bằng một ñoạn xN(n) trong khoảng n0…(n0 + N –1) tươngñương với việc nhân x(n) với một hàm cửa sổ w(n-n0)

Trong xử lý tín hiệu số, các cửa sổ thường dùng ñược biểu diễn thông quacửa sổ Hamming tổng quát:

Tuỳ theo các giá trị khác nhau của mà ta có các cửa sổ khác nhau:

= 0.54, ta có cửa sổ Hamming:

Trang 23

Hình 2.7a: Âm /a/, cửa sổ chữ nhật,

512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)

Hình 2.7b: Âm /a/, cửa sổ Hamming,

512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)

Trang 24

Hình 2.7c: Âm /a/, cửa sổ Hanning,

512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)

Hình 2.8a: Âm /s/, cửa sổ chữ nhật,

512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)

Trang 25

Hình 2.8b: Âm /s/, cửa sổ Hamming,

512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)

Hình 2.8c: Âm /s/, cửa sổ Hanning,

512 ñiểm(45ms, trái) và 64 ñiểm(5.6ms, phải)

Trang 26

2.2 Phân tích tín hi#u ti'ng nói

2.2.1 Phương pháp dãy bộ lọc

Một kỹ thuật phân tích phổ, có ưu ñiểm là thực hiện thời gian thực, ñơn giản,

và dễ làm, sử dụng một dãy bộ lọc, hay một tập hợp các bộ lọc (cả tín hiệu liên

tục-analog lẫn số), mỗi bộ lọc phân tích một miền tần số tín khác nhau của tín hiệu ñầu

vào Được sử dụng trong nhiều bộ nhận dạng tiếng nói mang tính thương mại, dãy

bộ lọc tỏ ra linh hoạt hơn phép phân tích DFT, bỡi vì băng thông của nó có thể thay

ñổi tuỳ theo ñộ cảm nhận của tai so với băng thông cố ñịnh ở hai mức phân tích là

băng tần rộng và băng tần hẹp Hơn nữa, nhiều ứng dụng ñòi hỏi một tập hợp nhỏ

các tham số về phổ thể hiện cấu trúc phổ của năng lượng Cường ñộ kết xuất từ một

dãy 8-12 bộ lọc cơ bản thể hiện phổ ñầy ñủ và chính xác hơn so với cả một DFT với

mức ñộ chi tiết hơn Một phép ước lượng thông dụng là ñặt các bộ lọc theo một qui

ñịnh nào ñó, ví dụ: cách ñều nhau, băng thông cố ñịnh của các bộ lọc lên ñến

1 KHz, và lấy logarit ñể tăng băng thông mỗi bộ lọc Các bộ lọc ñược dùng là 1-3-8

Một số hệ thống nhận dạng tiếng nói sử dụng hai mức phân tích phổ, một dãy bộ lọc

thô chỉ gồm vài bộ dùng ñể phân lớp thô âm thanh, và theo sau là một phép phân

tích chi tiết hơn sử dụng một tập hợp lớn các bộ lọc

Hình 2.9: Sơ ñồ phân tích dãy bộ lọc

Mô hình phân tích dãy bộ lọc ñược trình bày ở hình 2.9

Tín hiệu tiếng nói ñược lấy mẫu s(n), ñược ñưa qua một dãy gồm Q bộ lọc

thông dải, ñầu ra ở mỗi bộ lọc là các tín hiệu:

Trang 27

trong ñó, chúng ta giả sử rằng ñáp ứng xung của bộ lọc dãy thứ i là hi(m) vớichiều dài là Mi mẫu, vì vậy chúng ta sử dụng biểu diễn tích chập cho phép toán lọc

ñể biểu diễn tường minh si(n), ta gọi si(n) là tín hiệu tiếng nói ñược lọc thông dải.Bởi vì mục ñích của bộ phân tích dãy lọc là cho ra ñánh giá về năng lượng tín hiệutiếng nói trong một băng tần cho trước, nên mỗi tín hiệu ñược lọc thông dải si(n) sẽñược ñưa tiếp qua một bộ tính toán phi tuyến, chẳng hạn bộ nắn chỉnh Bộ tính toánphi tuyến sẽ chuyển phổ tín hiệu sang băng tần thấp, ñồng thời cũng tạo ra các thànhphần tần số cao Sau ñó, chúng ta cần dùng một bộ lọc thông thấp ñể loại bỏ cácthành phần tần số cao, cho ra tập các tín hiệu ui(n), 1 i Q, mỗi ui(n) biểu diễnmột ước lượng năng lượng của tín hiệu tiếng nói trong mỗi băng tần

Để hiểu rõ các hiệu ứng khi ñưa si(n) qua bộ tính toán phi tuyến và bộ lọcthông thấp, chúng ta hãy giả sử si(n) là tín hiệu hình sin với tần số i, tức là:

Giả thiết này ñúng cho tiếng nói trong trường hợp nó là các âm hữu thanh cótrạng thái ổn ñịnh khi băng thông của bộ lọc ñủ hẹp ñể chỉ có hài âm ñược ñi qua.Nếu ta sử dụng bộ nắn chỉnh full-wave, tức là:

thì có thể biểu diễn kết xuất của bộ tính toán phi tuyến như sau:

Trang 28

0 ) ( 1

0 ) ( 1

) ( neu neu s s i n n

i

n w

Như ñược minh họa trong hình 2.10(a) – 2.10(c) Vì kết xuất ở bộ tính phi

tuyến có thể ñược xem như là biến ñiệu theo thời gian, nên trong miền tần số, ta

nhận ñược kết quả:

Trong ñóVi(ejw), Si(ejw), W(ejw) là các biến ñổi Fourier của các tín hiệu vi(n),

si(n), w(n) tương ứng, và là tích chập vòng Phổ Si(ejw) là một xung ñơn tại

0 = i, trong khi ñó phổ W(ejw) là một tập hợp các xung tại các tần số hài âm lẻ

q = iq, q = 1,3,…Qmax Vì vậy phổ Vi(ejw) là một xung tại = 0 và một tập hợp

các xung biên ñộ nhỏ hơn tại q = iq, q = 2,4,6,… như ñược trình bày ở hình

2.10(d)-2.10(f) Kết quả của bộ lọc thông thấp là vẫn giữ ñược thành phần DC của

Vi(ejw) và lọc ra các thành phần có tần số cao do phép tính phi tuyến tạo ra

Trang 29

Hình 2.10: Dạng sóng và phổ của tín hiệu thuần sin qua phân tích dãy bộ

Băng thông của tín hiệu vi(n) có liên quan ñến tốc ñộ biến ñổi nhanh nhất củacác hài âm tiếng nói trong một băng tần hẹp, nói chung thường khoảng 20-30 Hz

Vì vậy hai bước xử lý cuối cùng trong mô hình dãy bộ lọc ở mô hình 2.9 là làmgiảm tốc ñộ lấy mẫu, trong ñó tín hiệu qua lọc thông thấp ti(n) ñược lấy mẫu lại ởtốc ñộ khoảng 40-60 Hz, và nén dải rộng của tín hiệu bằng bộ nén biên ñộ (thường

là bộ nén logarit)

Loại dãy bộ lọc thông dụng nhất ñược sử dụng trong nhận dạng tiếng nói làdãy bộ lọc ñồng chuẩn với tần số trung tâm ficủa bộ lọc thông dải thứ i ñược ñịnhnghĩa như sau:

trong ñó Fslà tần số lấy mẫu tín hiệu, N là số bộ lọc ñược ñặt cách ñều nhau

ñể cần phủ dải tần số tín hiệu Số bộ lọc thật sự Q dùng trong dãy bộ lọc thoả mãnquan hệ sau:

Trang 30

với dấu ñẳng thức xảy ra khi toàn bộ dãy tần số của tín hiệu ñược sử dụng

trong phân tích Băng thông bi của bộ lọc thứ i nói chung thường thoả mãn tính

chất:

với dấu ñẳng thức xảy ra khi không có sự chồng lấp tần số giữa các kênh lọc

kề nhau, và dấu bất ñẳng thức có nghĩa là các kênh lọc kề nhau có sự chồng lấp (nếu

bi<

N

F s

thì một số phần của phổ tiếng nói sẽ bị khiếm khuyết khi phân tích, khi ñó

trong phổ tiếng nói sẽ bị mất bớt ý nghĩa)

Thay vì dùng bộ lọc ñồng chuẩn, chúng ta có thể thiết kế dãy bộ lọc không

ñồng chuẩn, tuỳ theo tiêu chuẩn sắp ñặt các bộ lọc như thế nào Một tiêu chuẩn

thường ñược sử dụng là ñặt các bộ lọc theo một tỷ lệ tần số logarit (Tỷ lệ này

thường ñược căn cứ trên cách tiếp cận thính giác) Vì vậy, ta có thể thiết kế Q bộ

lọc thông dải với tần số trung tâm fivà băng thông binhư sau:

trong ñó, C và fitương ứng là băng thông và tần số trung tâm của bộ lọc ñầu

tiên và là hệ số tăng logarit Giá trị thường dùng nhất của là 2 hay 4/3

Phương pháp dãy bộ lọc có thể ñược cài ñặt theo nhiều cách, tuỳ thuộc vào

phương pháp dùng ñể thiết kế dãy bộ lọc riêng biệt Có hai phương pháp thiết kế

dãy bộ lọc số, ñó là phương pháp ứng xung vô hạn (IIR) và phương pháp ứng xung

hữu hạn (FIR) Với các bộ lọc IIR, cách cài ñặt hữu hiệu nhất là dùng cấu trúc nối tiếp hay song song Với các bộ lọc FIR, cách cài ñặt ñơn giản nhất là dùng cấu

Trang 31

trúc trực tiếp Trong trường hợp này, nếu ta ký hiệu ñáp ứng xung thức i là hi(n),

0 n L – 1 thì kết xuất xi(n) của kênh thứ i có thể ñược biểu diễn dưới dạng tích

chập hữu hạn, rời rạc của tín hiệu vào s(n) với ñáp ứng xung hi(n), tức là:

Việc tính toán biểu thức trên ñược lặp lại cho mỗi kênh i, i = 1,2,…,Q Ưu

ñiểm của cấu trúc trực tiếp là sự ñơn giản của nó và khả năng có thể làm việc với

hi(n) bất kỳ Khuyết ñiểm của cách cài ñặt này là yêu cầu tính toán nhiều Vì vậy,

với dãy bộ lọc FIR Q kênh, chúng ta cần:

CDFFIR= LQ phép nhân và cộng ñể tính xi(n), i = 1,2,…,Q ở mỗi giá trị n

Một cách cài ñặt khác ít tốn kém hơn có thể áp dụng cho trường hợp trong ñó

mỗi ñáp ứng xung của bộ lọc thông dải có thể ñược biểu diễn dưới dạng một cửa sổ

thông thấp cố ñịnh w(n) ñược biến ñiệu bỡi tín hiệu mũ phức ej in, tức là:

khi ñó xi(n) trở thành:

trong ñó Sn(ej i) là biến ñổi Fourier ngắn hạn của s(n) tại tần số i= 2 fi

Đẳng thức trên rất quan trọng, vì tồn tại những phương pháp tính toán biến ñổi

Fourier rất hữu hiệu ñó là FFT (Fast Fourier Transform)

Giả sử ta sử dụng dãy bộ lọc ñồng chuẩn, tần số của bộ lọc thứ i là:

Trang 32

i = fi = i

N

F s

khi ñó ta có thể viết lại xi(n) như sau:

Bây giờ ta phân tổng theo m thành tổng kép theo r và k, với r và k ñược xácñịnh theo thuật Euclide:

Nói cách khác, ta phân tổng theo m thành các “mảnh” có kích thước N Nếu

ta ñặt:

Sn(m) = s(m)w(n-m)

Thì có thể viết lại xi(n) như sau:

Vìe-j2 ir= 1với mọi i, r nên:

Nếu ta ñịnh nghĩa:

r n

Thì:

Trang 33

Như vậy xi(n) là biến ñổi Fourier rời rạc N ñiểm của dãy un(k), sau ñó biếnñiệu bỡi dãy j N in

e

2

.Tóm lại, các bước cơ bản ñể thiết lập dãy bộ lọc ñồng chuẩn qua các phươngpháp biến ñổi FFT như sau:

1 Thành lập tín hiệu ñược lấy cửa sổ:

Sn(m) = s(m)w(n-m), m = n – L + 1,…,n

Trong ñó w(n) là cửa sổ hữu hạn có chiều dài L mẫu

2 Thành lập tín hiệu:

r n

LQ C

Giả sử N = 32, L = 128, Q = 16 thì:

R =

5

* 32

* 2

16

* 128

= 6.4

Như vậy, cài ñặt theo FFT hiệu quả hơn 6.4 lần so với cấu trúc trực tiếp

Trang 34

Hình 2.11: Sơ ñồ phân tích dãy bộ lọc có bộ ñếm số ñiểm cắt zero

Như trên ñã thấy, mỗi nhánh của mô hình dãy lọc lọc ở hình 2.9 tính toánxấp xỉ năng lượng tiếng nói trong băng tần ñược phủ bỡi các bộ lọc thông dải củanhánh ñó Tuy nhiên, trong nhiều hệ thống nhận dạng, ta thường bổ sung vào tậpñặc trưng này các bộ ñếm số ñiểm cắt zero ở kết xuất của mỗi bộ lọc thông dải, nhưñược trình bày ở hình 2.11 Do việc ñưa vào hệ thống thông tin về số ñiểm cắt zeronên số ñặc trưng tăng lên gấp ñôi, tuy nhiên ñộ phức tạp tính toán cũng không tănglên ñáng kể

2.2.2 Trích ñặc trưng MFCC

Một số nghiên cứu cho thấy rằng khi tiếp nhận âm thanh, hệ thống thính giáccủa con người thu nhận ñộ lớn các tần số âm thanh nhưng không theo thang tuyếntính Do ñó một số thang ñã ñược xây dựng nhằm miêu tả chính xác hơn sự tiếpnhận của hệ thống thính Các thang này ñược xây dựng chủ yếu dựa trên thí nghiệmthực tiễn

Các thang ñược xây dựng bằng thực nghiệm nên muốn chuyển ñổi từ tần số

Hz sang các thang khác phải dùng các bảng chuẩn Như vậy, trong nhiều trườnghợp không tiện lợi, do ñó người ta xây dựng các công thức ñể xấp xỉ sự chuyển ñổinày

Một số thang ño khác và công thức chuyển ñổi của nó:

Trang 35

Hình 2.3a: Đồ thị biểu diễn mối quan hệ giữa Bark và Hz

Hình 2.3b: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz

Trong các thang ño trên, thang Mel hay ñược dùng nhất MFCC chính là ñặctrưng ñược lấy từ thông tin phổ tín hiệu trên thang Mel Ta có các bước tính MFCCsau:

Trang 36

y với b0 = 1, b1= - 0.97 ñể làm rõ tín hiệu Ta sử dụng cửa sổ

Hamming ñể lấy cửa sổ tín hiệu sau khi ñã làm rõ tín hiệu Sau ñó, ta dùng phépbiến ñổi Fourier ñể chuyển tín hiệu từ miền thời gian sang miền tần số Dãy bộ lọcñược thiết kế là dãy bộ lọc tam giác có tần số giữa ñều nhau trên thang Mel

Hình 2.5: Bộ lọc trên thang Mel

Trang 37

Hình 2.6: Bộ lọc trên tần số thật

Lấy log trên dãy kết quả từ dãy bộ lọc và thực hiện biến ñổi cosin rời rạc(DCT: Discrete Cosine Transform) ta thu ñược véc tơ ñặc trưng MFCC

Vậy quá trình trích ñặc trưng MFCC ñược thực hiện qua các bước sau:

Bước 1: Thiết kế dãy bộ lọc

Với: Fs: tần số lấy mẫu

N: số bộ lọc cách ñều phủ hết dải tần tiếng nói

Q: số lượng bộ lọc dải thông thực tế sử dụng Q thoả mãn quan hệ

2 /

N Q

Độ rộng dải thông của mỗi bộ lọc b i F s /N

Tính trọng số của mỗi bộ lọc lên dải thông tương ứng:

Gọi : fc: tần số trung tâm của dải thông hiện tại thuộc bộ lọc

fc’: tần số trung tâm của dải thông thuộc bộ lọc kế tiếp

Trang 38

f: tần số ñang xét.

f : hiệu fc’– fc.Trọng số bộ lọc tác dụng lên tần số f:

Bước 2: Tính ñặc trưng MFCC

Gọi khung tín hiệu vào là sN(n)

Thực hiện làm rõ tín hiệu trên sN(n), ta ñược s’N(n)

Thực hiện lấy cửa sổ trên s’N(n), ta ñược s’’N(n)

Thực hiện phép biến ñổi Fourier trên s’’N(n)

Đối với mỗi bộ lọc, tính tổng các tích giữa biên ñộ tần số tín hiệu và trọng sốtương ứng ở bộ lọc

Lấy log trên dãy kết quả và thực hiện phép biến ñổi cosin rời rạc ta thu ñượcvector ñặc trưng MFCC

2.2.3 Phương pháp mã hóa dự báo tuyến tính (LPC)

Ý tưởng cơ bản của phương pháp mã hóa dự báo tuyến tính (LPC) là tại thờiñiểm n, mẫu tiếng nói s(n) có thể ñược xấp xỉ bỡi một tổ hợp tuyến tính của p mẫutrước ñó:

trong ñó giả sử a1, a2, … , ap là hằng số trên khung dữ liệu (frame) ñược phântích

Chúng ta chuyển quan hệ trên thành dạng ñẳng thức bằng cách thêm vào sốhạng Gu(n) gọi là nguồn kích thích:

trong ñó u(n) là nguồn kích thích ñược chuyển hóa và G gọi là ñộ lợi của nó

Trang 39

dẫn ñến hàm truyền là:

Hình 2.12: Mô hình dự báo tuyến tính

Ta ký hiệu ~ n s ( ) là giá trị dự báo của s(n):

1

)(

Khi ñó sai số dự báo e(n) ñược ñịnh nghĩa là:

Trang 40

Hình 2.13: Sơ ñồ bộ xử lý LPC dùng cho trích ñặc trưng tiếng nói

Để tìm tập các hệ số dự báo ak, k = 1,2,…,p trên frame ñược phân tích, cáchtiếp cận cơ bản là ta cực tiểu hóa sai số bình phương trung bình Khi ñó sẽ dẫn ñếnviệc ta phải giải một hệ phương trình với p ẩn số Có nhiều phương pháp ñể giải hệphương trình ñó, nhưng trong thực tế, hai lớp phương pháp thường ñược dùng nhấtlà: phương pháp tự tương quan và phương pháp ñồng biến Ở ñây, chúng tôi chỉtrình bày lại kết quả tính toán và cách thức áp dụng vào một hệ cử lý LPC như thếnào

Hình 2.13 trình bày sơ ñồ chi tiết của bộ xử lý LPC dùng ñể trích ñặc trưngtiếng nói Các bước cơ bản trong tiến trình xử lý như sau:

2.2.3.1 Làm rõ tín hiệu

Mục ñích của bước này nhằm làm nổi bật ñặc trưng của tín hiệu và làm cho

nó ít nhạy hơn với các hiệu ứng do ñộ chính xác hữu hạn ở những bước xử lý sau.Thông thường bộ làm rõ tín hiệu là một bộ lọc thông cao với phương trình sai phânlà:

2.2.3.2 Phân ñoạn thành các frame

Sau bước làm rõ tín hiệu, ~ n s( )ñược chia thành các frame, mỗi frame gồm N

Ngày đăng: 14/08/2014, 15:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] B. H. Vu, “Về ủặc trưng cơ bản của thanh ủiệu tiếng Việt ở trạng thỏi tĩnh”, 1999 Sách, tạp chí
Tiêu đề: Về ủặc trưng cơ bản của thanh ủiệu tiếng Việt ở trạng thái tĩnh
[2] Đinh Lê Thư – Nguyễn Văn Huệ, “Cơ cấu ngữ âm tiếng Việt”, NXB giáo dục, 1998 Sách, tạp chí
Tiêu đề: Cơ cấu ngữ âm tiếng Việt
Nhà XB: NXBgiáo dục
[4] L. R Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proc. IEEE, 77(2), pp. 257-286, 1989 Sách, tạp chí
Tiêu đề: A Tutorial on Hidden Markov Models and SelectedApplications in Speech Recognition
[6] Lê Văn Lợi, “Thanh học – Các bệnh về giọng nói, lời nói và ngôn ngữ”, NXB Y học, 1999 Sách, tạp chí
Tiêu đề: Thanh học – Các bệnh về giọng nói, lời nói và ngôn ngữ
Nhà XB: NXBY học
[7] Nguyễn Đức Hoàng Hạ – Luận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 2002 [8] Nguyễn Quốc Cường, “Tone Recognition for Vietnamese”, 2001 Sách, tạp chí
Tiêu đề: Tone Recognition for Vietnamese
[9] Steven W. Smith, “Digital Signal Processing”, 1999 Sách, tạp chí
Tiêu đề: Digital Signal Processing
[10] Steve Young et all, “The HTK Book”, the Cambridge University Engineering Department, July 2000 Sách, tạp chí
Tiêu đề: The HTK Book
[14] W.J Yang et all, "Hidden Markov Model for Mandarin Lexical Tone Recognition", IEEE Trans. ASSP, vol36, no 7, July 1988, pp 988-992 Sách, tạp chí
Tiêu đề: Hidden Markov Model for Mandarin Lexical ToneRecognition
[15] P. Renevey, “Speech Recognition in Noisy Conditions Using Missing Feature Approach”, EPFL, 2000 Sách, tạp chí
Tiêu đề: Speech Recognition in Noisy Conditions Using Missing FeatureApproach
[16] Lawrence Rabiner and Biing-Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall, 1993 Sách, tạp chí
Tiêu đề: Fundamentals of SpeechRecognition
[3] Hồ Ngọc Điệp – Luận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 1999 Khác
[5] Hà Việt Uyên Synh - Luận án thạc sĩ Khoa CNTT – ĐH KHTN, 1999 Khác
[11] Thái Hùng Văn - Luận án thạc sĩ Khoa CNTT – ĐH KHTN, 2000 Khác
[13] Võ Tuấn Kiệt - Luận án thạc sĩ Khoa CNTT – ĐH KHTN, 1999 Khác

HÌNH ẢNH LIÊN QUAN

Hình 2.2 : Dãy xung - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.2 Dãy xung (Trang 17)
Hình 2.7a: Âm /a/, cửa sổ chữ nhật, - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.7a Âm /a/, cửa sổ chữ nhật, (Trang 23)
Hình 2.7c: Âm /a/, cửa sổ Hanning, 512 ủiểm(45ms, trỏi) và 64 ủiểm(5.6ms, phải) - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.7c Âm /a/, cửa sổ Hanning, 512 ủiểm(45ms, trỏi) và 64 ủiểm(5.6ms, phải) (Trang 24)
Hình 2.8b:  Âm /s/, cửa sổ Hamming, - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.8b Âm /s/, cửa sổ Hamming, (Trang 25)
Hình 2.10: Dạng sóng và phổ của tín hiệu thuần sin qua phân tích dãy bộ lọc. - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.10 Dạng sóng và phổ của tín hiệu thuần sin qua phân tích dãy bộ lọc (Trang 29)
Hỡnh 2.11: Sơ ủồ phõn tớch dóy bộ lọc cú bộ ủếm số ủiểm cắt zero - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
nh 2.11: Sơ ủồ phõn tớch dóy bộ lọc cú bộ ủếm số ủiểm cắt zero (Trang 34)
Hình 2.3a: Đồ thị biểu diễn mối quan hệ giữa Bark và Hz - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.3a Đồ thị biểu diễn mối quan hệ giữa Bark và Hz (Trang 35)
Hỡnh 2.4: Cỏc bước tớnh ủặc trưng MFCC - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
nh 2.4: Cỏc bước tớnh ủặc trưng MFCC (Trang 36)
Hình 2.6: Bộ lọc trên tần số thật - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.6 Bộ lọc trên tần số thật (Trang 37)
Hình 2.12: Mô hình dự báo tuyến tính - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.12 Mô hình dự báo tuyến tính (Trang 39)
Hỡnh 2.13: Sơ ủồ bộ xử lý LPC dựng cho trớch ủặc trưng tiếng núi - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
nh 2.13: Sơ ủồ bộ xử lý LPC dựng cho trớch ủặc trưng tiếng núi (Trang 40)
Hình 2.15:  hình dạng tín hiệu tiếng nói - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.15 hình dạng tín hiệu tiếng nói (Trang 49)
Hình 2.16b: Kết quả sau khi lọc Median - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 2.16b Kết quả sau khi lọc Median (Trang 51)
Hình 3.2a: Mô hình Left - Right - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 3.2a Mô hình Left - Right (Trang 60)
Hình 4.2: thanh huyền - Đồ án nghiên cứu đặc trưng của tiếng việt trong nhận dạng tiếng nói
Hình 4.2 thanh huyền (Trang 67)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w