1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt

116 635 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Các Đặc Trưng Của Tiếng Việt Áp Dụng Vào Nhận Dạng Tiếng Nói Tiếng Việt
Tác giả Đỗ Xuân Đạt, Võ Văn Tuấn
Người hướng dẫn Th.S Thái Hùng Văn
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn tốt nghiệp
Năm xuất bản 2003
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 116
Dung lượng 1,59 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

BỘ MÔN CÔNG NGHỆ TRI THỨC

LUẬN VĂN TỐT N GHIỆP

CỬ NHÂN CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU CÁC ĐẶC TRƯNG CỦA TIẾNG VIỆT

ÁP DỤNG VÀO NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

Giáo viên hướng dẫn:

Th.S Thái Hùng VănSinh viên thực hiện:

Đỗ Xuân Đạt– 9912540

Võ Văn Tuấn– 9912737

Thành phố Hồ Chí Minh, tháng 7 năm 2003

Trang 2

Lời Cảm Ơn

Hoàn thành luận văn này, chúng em xin chân thành cảm

ơn thầy Thái Hùng Văn đã trực tiếp hướng dẫn và tạo điều kiện cho chúng em tiếp cận với lĩnh vực nhận dạng tiếng nói, một lĩnh vực vô cùng lý thú.

Chúng em xin gởi lời cảm ơn đến các thầy cô trong trường, đặc biệt là các thầy cô bộ môn Công N ghệ Tri Thức, và thầy Trần Tiến Đức trường ĐH Sư Phạm Kỹ Thuật đã truyền đạt cho chúng em nhiều kiến thức bổ ích.

Chúng tôi cũng không thể không nhắc đến sự động viên chăm sóc của gia đình, sự cộng tác giúp đỡ và ủng hộ tinh thần của bạn bè, đặc biệt là bạn N guyễn Tấn Dũng và anh Đặng Hoàng Vũ Chúng tôi xin ghi ơn tất cả.

Thành phố Hồ Chí Minh, tháng 7 năm 2003.

Đỗ Xuân Đạt - Võ Văn Tuấn

Trang 3

Lời Giới Thiệu

Trong quá trính tiến hoá, con người đã trở thành động vật mạnh nhất, cao

cấp nhất nhờ vào hai thứ: lao động và tiếng nói Lao động tạo ra tư duy và tiếng

nói giúp con người kết hợp với nhau Cùng với thời gian, các phương tiện giaotiếp - thông tin của con người đã phát triển rất phong phú đa dạng Tuy nhiên, dù

đa dạng đến đâu cũng không thể thay thế được vai trò của tiếng nói Tiếng nói làmột phương tiện giao tiếp đặc biệt hiệu quả và cực kỳ phổ dụng, là một chức năng

vô cùng quý giá của con người [L.V.Lợi-99] Sự phát triển vượt bậc của con ngườichính là nhờ ở tốc độ và khả năng giao tiếp phong phú của tiếng nói

Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thaythế các lao động tay chân Tuy nhiên để điều khiển máy móc, con người phải làmkhá nhiều thao tác tốn nhiều thời gian và cần phải được đào tạo Điều này gây trởngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật.Chúng ta hãy tưởng tượng trong nhà có một người máy giúp việc Khi ta muốnngười máy làm việc, ta phải lục tìm đĩa chương trình tương ứng, phải nạp chươngtrình, … phải chạy lăng xăng làm một danh sách các công việc trong khi lúc đó tađang ngồi bên bàn làm việc, đang phải tập trung suy nghĩ vào một vấn đề cần giảiquyết Và ta hãy tưởng tượng xem nếu người máy đó “nghe hiểu” được những gì

ta nói Lúc đó ta chỉ cần “nhờ vả” một câu, mọi việc sẽ trở nên dễ dàng!

Đi tìm giải pháp giúp cho máy có thể “nghe hiểu” được, con người đã bướcvào lĩnh vực nhận dạng tiếng nói Hơn nửa thế kỷ trôi qua, con người đã thu đượcnhững thành tựu đáng kể, có những ứng dụng khá hữu ích vào đời sống Nhưng dùsao, khả năng “nghe hiểu” của máy vẫn còn một khoảng cách khá xa so với thực

tế Mặt khác, các hệ thống nhân dạng hiện nay cũng chỉ được phát triển tương đốitốt đối với một số ngôn ngữ như tiếng Anh, tiếng Pháp, tiếng Hoa,… Còn đối vớinước ta, nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ Đến nay tuycũng đã đạt được một số thành tựu và đã có những ứng dụng nhất định, nhưngnhìn chung, nhận dạng tiếng Việt vẫn chưa đạt được kết quả cần thiết để có thể tạo

ra một sản phẩm thực tế hoàn chỉnh Khó khăn nằm ở tính phức tạp của vấn đề vàmức độ đầu tư cũng như kế thừa chưa cao Các nghiên cứu chủ yếu vẫn là nhận

Trang 4

dạng tiếng nói chung chung chứ chưa có nhiều phân tích kỹ các đặc tính riêng củatiếng Việt Các hệ nhận dạng trước đây hầu hết không phân biệt được từ đồng âmnhư: a, á, à, ả, ã, ạ… Hơn nữa kích thước từ điển (số từ nhận biết được) còn nhỏ,thời gian học mẫu khá lâu, và nhận dạng mang tính phụ thuộc người nói khá cao.Vấn đề còn khó khăn ở chỗ nhận dạng tiếng nói mang tính liên ngành [T.H.Văn-00] Nghiên cứu nhận dạng tiếng nói bằng máy tính là nghiên cứu cả một hệ thốngcác ngành khoa học có liên quan như: ngôn ngữ học, thống kê học, sinh lý học, vật

lý học, toán học, âm học, tâm lý học, lý thuyết thông tin và truyền tin… và dĩnhiên có cả công nghệ thông tin

Luận văn này xây dựng với mong muốn góp phần khắc phục những hạn chếtrên, nâng cao hiệu quả nhận dạng tiếng Việt; bằng cách rút trích và sử dụng nhiềuđặc trưng âm học tiếng Việt hơn, từ đó dùng nhiều đặc trưng hơn để nhận dạnggiúp nâng cao độ chính xác và phân biệt được các từ đồng âm góp phần nâng kíchthước từ điển lên lớn hơn

Nội dung luận văn được trình bày thành các chương như sau:

Chương 1: Tiếng nói và ngữ âm tiếng Việt Chương thứ nhất tóm tắt về

tiếng nói và trình bày một số đặc điểm ngữ âm tiếng Việt Trong số đó, luận vănquan tâm nhiều đến thanh điệu, là đặc điểm khác biệt của tiếng Việt so với nhiềungôn ngữ khác

Chương 2: Xử lý tín hiệu số - phân tích tiếng nói: Trình bày một số kiến

thức cơ bản về xử lý tín hiệu số và một số phương pháp tiếp cận tín hiệu tiếng nói

Chương 3: N hận dạng tiếng nói Chương này mô tả một hệ nhận dạng

tiếng nói tổng quát, và đi cụ thể vào hệ nhận dạng tiếng nói sử dụng mô hìnhMarkov ẩn liên tục

Chương 4: Một số khảo sát về thanh điệu tiếng Việt Đây là các khảo sát

của người viết về thanh điệu tiếng Việt Kết quả khảo sát sẽ được kết hợp, so sánhvới các nghiên cứu về ngữ âm tiếng Việt trước đây để rút ra các đặc điểm ngữ âmtiếng Việt, làm cơ sở cho việc xây dựng một hệ nhận dạng tiếng Việt theo mô tảcủa luận văn

Chương 5: Xây dựng mô hình nhận dạng thanh điệu tiếng Việt Nhận

dạng thanh điệu là bước đầu tiên ứng dụng các nghiên cứu nói trên vào một hệ

Trang 5

nhận dạng tiếng Việt của luận văn Bắt đầu từ đặc tính đặc trưng của tiếng Việt làthanh điệu

Chương 6: Thiết kế mô hình nhận dạng tiếng Việt Phần này là thiết kế

của luận văn về một hệ nhận dạng tiếng Việt hoàn chỉnh Ứng dụng mô đun nhậndạng thanh điệu vào một hệ nhận dạng tiếng Việt hoàn chỉnh

Chương 7: Hiện thực hoá mô hình nhận dạng tiếng Việt Chương cuối

cùng là các cài đặt cụ thể của luận văn về một hệ nhận dạng tiếng Việt

Phần phụ lục 1: giới thiệu về một số đặc điểm ngữ âm tiếng Việt Trong

đó, luận văn chú ý nhiều đến đặc điểm thanh điệu được dùng để ứng dụng trongphân lớp tiếng Việt

Phần phụ lục 2:Giới thiệu vai trò của tần số cơ bản trong tiếng nói và một

số phương pháp rút trích tần số cơ bản

Trang 6

Mục Lục

Lời Cảm Ơn i

Lời Giới Thiệu ii

Mục Lục v

Chương 1 Tiếng nói và ngữ âm tiếng Việt 1

1.1 Giới thiệu tiếng nói 1

1.1.1 Sự phân bố về biên độ 1

1.1.2 Sự phân bố về tần số 2

1.1.3 Sự biến đổi các tần số cơ bản 2

1.1.4 Tỷ số tiếng nói 2

1.2 Ngữ âm tiếng Việt (Tham khảo phụ lục 1) 2

1.2.1 Thanh điệu 2

1.2.2 Âm vị 3

1.2.3 Trường độ 3

Chương 2 Xử lý tín hiệu số - phân tích tín hiệu tiếng nói 7

2.1 Xử lý tín hiệu số 7

2.1.1 Lấy mẫu tín hiệu 7

Hàm lấy mẫu: 7

2.1.1.1 Phổ của các tín hiệu được lấy mẫu 8

2.1.1.2 Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu liên tục theo thời gian thời gian 9

2.1.2 Dãy xung 10

2.1.3 Biến đổi Fourier rời rạc 11

2.1.3.1 Biến đổi Fourier rời rạc 12

Trang 7

2.1.3.2 Biến đổi Fourier nhanh 13

2.1.4 Biến đổi cosin rời rạc 13

2.1.5 Các bộ lọc 14

2.1.6 Cửa sổ tín hiệu 15

2.2 Phân tích tín hiệu tiếng nói 20

2.2.1 Phương pháp dãy bộ lọc 20

2.2.2 Trích đặc trưng MFCC 28

2.2.3 Phương pháp mã hóa dự báo tuyến tính (LPC) 32

2.2.3.1 Làm rõ tín hiệu 34

2.2.3.2 Phân đoạn thành các frame 34

2.2.3.3 Lấy cửa sổ 35

2.2.3.4 Phân tích tự tương quan 36

2.2.3.5 Phân tích LPC 36

2.2.3.6 Chuyển các hệ số LPC thành các hệ số cepstral 37

2.2.3.7 Đặt trọng số cho các hệ số cepstral 37

2.3 Phát hiện chu kỳ tiếng nói – phương pháp tìm tần số cơ bản (Tham khảo phụ lục 2) .38

2.3.1 Các kỹ thuật theo miền thời gian 39

2.3.2 Các kỹ thuật phân tích phổ hữu hạn 39

2.3.3 Mô tả tín hiệu 40

2.3.3.1 Tiếng nói thô 40

2.3.3.2 Lỗi dự báo tuyến tính 40

2.3.4 Một số phương pháp cài đặt các kỹ thuật trích F0: 41

2.3.4.1 Phương pháp dùng cepstral: 41

2.3.4.2 Phương pháp tự tương quan: 41

2.3.4.3 Phương pháp CLIP (center clipping pitch detector) 42

Trang 8

2.3.4.4 Phương pháp SIFT (Simplified Inverse Filter Tracking) 43 2.3.4.5 Hàm AMDF (Average Magnitude Difference Function) 43

2.3.4.6 Phương pháp so khớp biên độ 43

Chương 3 Nhận dạng tiếng nói 46

3.1 Tổng quan một hệ nhận dạng: 46

3.2 Tổng quan một hệ nhận dạng tiếng nói: 46

3.3 Những thuận lợi và khó khăn của nhận dạng tiếng nói: 49

3.4 Nhận dạng tiếng nói sử dụng mô hình Markov ẩn 50

3.4.1 Mô hình Markov ẩn và các bài toán cần giải quyết: 50

3.4.1.1 Giải quyết bài toán thứ nhất: 51

3.4.1.2 Giải quyết bài toán thứ hai: 52

3.4.1.3 Giải quyết bài toán thứ ba: 52

3.4.2 Mô hình Markov ẩn liên tục (CDHMM - Continuous Densities Hidden Markov Model) 55

Chương 4 Một số khảo sát về thanh điệu tiếng Việt 59

4.1 Thanh 1 (Thanh ngang) 59

4.2 Thanh 2 (Thanh huyền) 60

4.3 Thanh 3 (Thanh ngã) 61

4.4 Thanh 4 (Thanh hỏi) 63

4.5 Thanh 5 (Thanh sắc) 64

4.6 Thanh 6 (Thanh nặng) 66

Chương 5 Xây dựng mô hình nhận dạng thanh điệu tiếng Việt 66

5.1 Tiền xử lý 66

5.2 Trích F0 từ tín hiệu tiếng nói (pitch extraction) 69

5.3 Tạo vector đặc trưng từ vector V(F0) 71

5.4 Huấn luyện cho mô hình 72

Trang 9

5.5 Nhận dạng 73

5.6 Một số kết quả nhận dạng thanh điệu tiếng Việt 74

Chương 6 Thiết kế mô hình nhận dạng tiếng nói tiếng Việt 77

6.1 Công đoạn huấn luyện 77

6.2 Công đoạn nhận dạng 79

Chương 7 Hiện thực hoá mô hình nhận dạng tiếng Việt 80

7.1 Nhận dạng tiếng đơn 80

7.2 Nhận dạng câu 82

Chương 8 Kết luận 84

8.1 Kết luận 84

8.2 Hướng phát triển: 85

Tài liệu tham khảo 86

Phụ lục 1: Ngữ âm tiếng Việt 87 Phụ lục 2: Vai trò của tần số cơ bản và một số kỹ thuật xử lý tần số cơ 100

Trang 10

Chương 1. Tiếng nói và ngữ âm tiếng Việt

1.1 Giới thiệu tiếng nói

Tiếng nói là một loại sóng âm Khi ta nói, tiếng nói được truyền đi mangtheo thông tin dưới dạng các dao động cùng phương truyền đến tai người nhận.Mức độ truyền tin của tiếng nói được xem là nhanh nhất trong các khả năng tựnhiên của con người

Khác với sách báo, thư tín… chỉ tryền tin một chiều, tiếng nói giúp tatruyền tin cả hai chiều Sách báo giúp ta ghi lại thông tin để sau này đọc lại, nhưngtiếng nói giúp ta thể hiện bản thân hơn Thông qua cách nói chuyện, khả năng ứng

xử, ta có thể đánh giá được trình độ và nhân cách của môt người Tiếng nói làphương tiện truyền tin nhanh nhất và hiệu quả nhất của con người

Tiếng nói có rất nhiều đặc tính:

Đặc tính của sóng âm gồm các đặc tính sinh lý, vật lý như: cường

độ, tần số, biên độ, năng lượng, âm sắc, độ cao, độ to…

Đặc tính xã hội như: ngữ điệu, sắc thái tình cảm, địa phương…

Số từ được sử dụng thường xuyên trong giao tiếp hằng ngày của một ngườidao động trong khoảng từ 2000 đến 3000 từ Số từ người ta sử dụng trung bìnhkhoảng 5000 đến 10000 từ [5]

Nghiên cứu về nhận dạng tiếng nói trên máy tính, ta sẽ xem xét chủ yếu đếntần số, biên độ (hay năng lượng) Tiếng nói có miền tần số cơ bản nằm trongkhoảng 80 – 8000 Hz [11]

1.1.1 Sự phân bố về biên độ

Khi thống kê với khoảng 80 người (4 người/ ngôn ngữ), người ta nhậnthấy rằng biên độ tối đa đạt được của một tiếng nói có thể lớn hơn 50dB [5].Trong một chuỗi tiếng nói, biên độ tiếng nói sẽ phân bố liên tục theo dạng hìnhsin

Trang 11

1.1.2 Sự phân bố về tần số

Khi phát âm các từ với tần số từ thấp đến cao, người ta thấy rằng việc tăngdần tần số gắn liền với việc giảm dần biên độ Thực nghiệm cho thấy với namcũng như nữ, phổ tiếng nói của chúng ta theo tần số là một đường cong có độ dốckhoảng -10dB/Octave

1.1.3 Sự biến đổi các tần số cơ bản

Thống kê theo thời gian về sự biến đổi các tần số trong giọng nói con ngườicho thấy giá trị trung bình và độ lệch tần số cơ bản trong giọng nói nữ thường gấpđôi nam

Quá trình khảo sát cũng cho thấy 18% trong số các biến đổi về tần số cơbản là biến đổi tăng, và 50% là giảm Người ta cũng nhận thấy trong chuỗi tiếngnói của con người, các khoảng lặng chèn vào giữa các từ có tác dụng làm chotiếng nói của chúng ta nghe êm hơn, và tần số của chúng ổn định trong miền có độbiến thiên khoảng 10 Hz

1.1.4 Tỷ số tiếng nói

Trong chuỗi tiếng nói của chúng ta, có thể dễ dàng nhận thấy ngoại trừ cáctiếng, còn có các khoảng trống được chèn vào, và tỷ số giữa đoạn có tiếng nói thực

sự so với khoảng thời gian tổng cộng của chuỗi âm được gọi là tỷ số tiếng nói

Thực nghiệm chứng minh khi chúng ta tăng tốc độ nói thì khoảng trốnggiữa các tiếng bị giảm nhiều Và ngược lại, khi giảm tốc độ nói thì các khoảngtrống giữa các từ bị dài ra

1.2 Ngữ âm tiếng Việt (Tham khảo phụ lục 1)

1.2.1 Thanh điệu

Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ngữ

có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, tiếng Pháp,…

Thanh điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phânbiệt các từ đồng âm Đây là đặc điểm mà đa số các hệ nhận dạng tiếng Việt trướcđây chưa xử lý

Trang 12

Trong tiếng Việt, thanh điệu cũng là một đặc điểm mang đậm tính địaphương Tổng cộng có 6 thanh, nhưng tuỳ vào từng địa phương mà số lượng thanhđiệu tiếng Việt có thể bị giảm xuống còn 5 hay 4 do sự sát nhập một số thanh lạivới nhau.

Người ta phân biệt thanh điệu dựa vào 2 yếu tố: âm điệu và âm vực

Âm điệu là sự thay đổi tần số cơ bản của thanh điệu, hay đường nétcủa thanh điệu

Âm vực: là miền giá trị của tần số cơ bản

1.2.2 Âm vị

Trong ngôn ngữ nói, tiếng nói bao gồm nhiều câu, mỗi câu bao gồm nhiều

từ, và mỗi từ lại bao gồm nhiều âm vị Theo quan điểm ngữ âm, âm vị được xem

là đơn vị nhỏ nhất của tiếng nói

Âm vị gồm 2 loại chính: nguyên âm và phụ âm

Nguyên âm là các âm mà khi phát âm, luồng không khí đi ra không

bị cản trở

Phụ âm là các âm mà luồng không khí khi đi ra bị cản trở ở một số

bộ phận của bộ máy phát âm

Ngoài ra, người ta còn chia một dạng âm vị nữa như một bán nguyên âm,khi sự cản trở luồng không khí là không đáng kể Các bán nguyên âm có đặc điểmgần như nguyên âm nhưng thường chỉ đi kèm, và bản thân không tạo thành âm tiếtđược

Các nguyên âm và phụ âm riêng biệt lại được chia thành nhiều nhóm nhỏdựa vào các đặc điểm vật lý, sinh học, hay vị trí và cách thức phát âm của bộ máyphát âm

1.2.3 Trường độ

Trường độ tiếng nói là thời gian phát âm một tiếng Xét đến trường độ sẽliên quan đến tính tắc – xát, hệ thống âm chính – âm cuối, ảnh hưởng của nhữngbiến đổi của âm cuối… Thường thì âm tắc, còn gọi là âm khép, sẽ làm cho trường

độ của tiếng nói giảm do sự tắc thanh quản

Trang 13

Chương 2.

Xử lý tín hiệu số - phân tích tín hiệu tiếng nói

2.1 Xử lý tín hiệu số

Hiểu một cách đơn giản thì tín hiệu (signal) là tất cả các biến có mang hoặc

chứa một loại thông tin nào đấy mà ta có thể biến đổi, hiển thị hoặc gia công Cáctín hiệu trong thế giới thực như tiếng nói (voice), âm thanh (sound), hình ảnh(image)… đều có bản chất hết sức phức tạp Do đó các tín hiệu này thường bị biếnđổi thành các tín hiệu số (số hóa) để dễ dàng xử lý chúng Tín hiệu số (digital

signal)là tín hiệu được biểu diễn bằng một dãy số Xử lý tín hiệu số (Digital Signal

Processing – DSP) bao hàm mọi phép xử lý các dãy số để có được các thông tin cần thiết.

Thông thường, sau khi số hóa tín hiệu, ta chọn các phép biến đổi với mụcđích chung là làm cho tín hiệu này dễ xử lý hơn

2.1.1 Lấy mẫu tín hiệu

Hàm lấy mẫu:

Hàm lấy mẫu là cầu nối giữa các hệ thống rời rạc và các hệ thống liên tục

Nó được gọi bằng các tên khác nhau như: hàm Dirac Delta, hàm sàng lọc,… và

“hàm lấy mẫu” là một trong số các tên đó Hàm lấy mẫu có các tính chất sau:

Tính chất 1:

Tính chất 2:

Trong các tính chất trên, là một số thực bất kì

Trang 14

Hình sau đây minh họa hàm lấy mẫu lý tưởng:

Hình 2.1: Hàm lấy mẫu lý tưởng

Kết quả của phép lấy mẫu là:

2.1.1.1 Phổ của các tín hiệu được lấy mẫu

Sử dụng lý thuyết của phép biến đổi Fourier, phổ tần số của các tín hiệu liêntục theo thời gian được mô tả như sau:

Và dạng sóng của tín hiệu được thể hiện theo phổ của nó như sau:

Do biểu thức trên được áp dụng cho tất cả các hàm liên tục theo thời gianx(t) nên nó cũng đúng cho xs(t):

Thay xs(t) vào, ta được:

Trang 15

Trật tự phép lấy phân tích và phép cộng có thể thay đổi, áp dụng tính chất 1của hàm lấy mẫu, ta được:

Phương trình trên là dạng biểu diễn chính xác hàm X(f) theo chuỗi Fourier.Trong đó, Xs(f) là hàm tuần hoàn theo chu kỳ 1/T Các hệ số của chuỗi Fourier làx(nT) và chúng được tính bằng tích phân sau:

Hai biểu thức (2.8) và (2.9) là cặp biến đổi giữa tín hiệu trên miền thời gian

và phổ tần số của nó

2.1.1.2 Mối quan hệ giữa phổ của tín hiệu rời rạc và phổ của tín hiệu liên tục theo thời gian thời gian

Trong biểu thức (2.5), ta thay t = nT và dùng công thức (2.9):

Ta viết lại vế phải của phương trình (2.5):

Trang 16

Có duy nhất 1 dãy gọi là dãy xung đơn vị, đây là một dãy quan trọng, và

được ký hiệu là u(n) Dãy này mang giá trị 0 tại tất cả các giá trị n, trừ n = 0 Tại

n = 0, dãy xung có giá trị bằng 1 Thông thường dãy này được dịch đi m giá trị

trước khi sử dụng u(n-m) Dãy u(n) là phần tương ứng của hàm lấy mẫu trong

không gian rời rạc

Tính chất của dãy xung cũng tương tự như tính chất của hàm lấy mẫu:

Trang 17

Hình 2.2 : Dãy xung

2.1.3 Biến đổi Fourier rời rạc

Các tín hiệu hình sin sau khi qua xử lý vẫn đảm bảo cho ra các kết xuất làcác tín hiệu hình sin, chỉ có biên độ và pha là có thể thay đổi, còn tần số và hìnhdạng vẫn giữ nguyên Tín hiệu trong thế giới thực ở dạng sóng liên tục theo chu kỳ,các sóng này là tổng hợp của các đường hình sin rời rạc có tần số, biên độ khácnhau và pha của tín hiệu hình sin có tần số f tương ứng với một giá trị biểu diễn đặctính tần số của tín hiệu tại tần số f Vì vậy, các tín hiệu Fourier có thể dùng để tổng

hợp trở lại thành các tín hiệu hình sin ban đầu thông qua biến đổi Fourier (Fourier

Transform) Có 4 loại biến đổi Fourier tương ứng với 4 loại tín hiệu:

Biến đổi Fourier

Biến đổi Fourier thời gian rời rạc

(Discrete Time Fourier Transform)

Rời rạc không chu kỳ

Trang 18

(Discrete Fourier Transform – DFT)

Một tín hiệu x(n) có độ dài L hữu hạn được dùng như là một chu kỳ tín hiệu.(Ta có thể xây dựng tín hiệu xp(n) tuần hoàn bằng cách xếp chồng tuần hoàn x(n))

Biến đổi Fourier của x(n):

có thể khôi phục lại x(n) từ X(w) (định lý lấy mẫu Shannon)

Do phải xử lý bằng máy tính nên những tín hiệu có độ dài hữu hạn và có trụctần số rời rạc mới có thể thực hiện dễ dàng nên biến đổi Fourier rời rạc là thích hợpnhất

2.1.3.1 Biến đổi Fourier rời rạc

Sau khi lấy mẫu hàm X(w) ta được một chuỗi X(k) chiều dài N, quá trìnhnày là biến đổi Fourier rời rạc X(k) = DFT(x(n)) và được tóm tắt lại như sau:

Một số tính chất của biến đổi Fourier rời rạc:

Trang 19

DFT(x(n-p))=e-j2 kp/NX(k) với dãy (n-p) được định nghĩa là dịch vòng củax(n).

), không hiệu quả vì phải thực hiệnmột khối lượng tính toán lớn Người ta thường dùng một phương pháp hiệu quả hơn

đó là biến đổi Fourier nhanh (Fast Fourier Transform – FFT)

2.1.3.2 Biến đổi Fourier nhanh

Nguyên tắc cơ bản của tất cả các thuật toán FFT là dựa trên việc phân tíchcách tính DFT của một dãy N số thành phép tính DFT của các dãy nhỏ hơn (số điểm

tính DFT nhỏ hơn) Một trong những thuật toán FFT thông dụng hiện nay là thuật

toán FFT cơ số 2 phân chia theo tần số (Radix-2, Decimation-In-Frequency

dãy nhỏ hơn được gọi là thuật toán phân chia theo tần số vì chỉ số n thường đượcgắn liền với tần số Ví dụ phân chia theo tần số của FFT 16 điểm được minh họanhư sau:

Độ phức tạp của phương pháp này là O(N log2 (N )).

2.1.4 Biến đổi cosin rời rạc

Với biến đổi fourier, ta sử dụng cả hàm sin và cos để mô tả tín hiệu Còn vớibiến đổi cosine, ta chỉ sử dụng hàm cos để mô tả tín hiệu Cụ thể ta có công thứcbiến đổi dãy u(n), n=0 (N-1), sau:

1

Trang 20

Ví dụ: Âm thanh khi được thu, tín hiệu thường chứa thêm các tiếng ồn củamôi trường như tiếng ồ ồ của quạt trần thổi vào micro; các điểm lốm đốm trênnhững tấm ảnh lâu ngày ….

- Khôi phục các tín hiệu méo mó: Có một số trường hợp vì một nguyên nhânnào đó (thường là nguyên nhân liên quan đến thiết bị) sẽ tạo ra các tín hiệuvào bị méo mó Vì vậy cần phải chỉnh lại để tăng chất lượng chương trình xử

- Hệ có đáp ứng xung hữu hạn (Finite Impulse Response – FIR): hệ có tín

hiệu ra chỉ phụ thuộc vào tín hiệu vào nên các hệ này còn được gọi là mạchkhông truy hồi hay mạch không đệ qui (non-recursive) Nghĩa là có N=0trong phương trình sai tuyến tính hệ số hằng Khi đó:

Trang 21

- Hệ có đáp ứng xung vô hạn (Infinite Impulse Response – IIR): hệ xử lý

có đáp ứng xung có độ dài vô hạn hay đáp ứng xung vô hạn Tín hiệu rakhông những chỉ phụ thuộc vào tín hiệu vào mà còn phụ thuộc vào quá khứcủa chính tín hiệu ra, vì vậy chúng còn được gọi là các mạch có truy hồi hay

đệ qui Nghĩa là N>0 trong phương trình sai phân tuyến tính hệ số hăng

2.1.6 Cửa sổ tín hiệu

Thông thường, việc phân tích tín hiệu được thực hiện trên một dãy hữu hạngồm N mẫu xN(n0),…, xN(n0 + N –1) Dãy tín hiệu này được lấy ra từ một tín hiệudài hơn hoặc dài vô hạn x(n) Một dãy con như vậy gọi là một cửa sổ tín hiệu Việcquan sát tín hiệu x(n) bằng một đoạn xN(n) trong khoảng n0…(n0 + N –1) tươngđương với việc nhân x(n) với một hàm cửa sổ w(n-n0)

Trong xử lý tín hiệu số, các cửa sổ thường dùng được biểu diễn thông quacửa sổ Hamming tổng quát:

Tuỳ theo các giá trị khác nhau của mà ta có các cửa sổ khác nhau:

Trang 23

Hình 2.7a: Âm /a/, cửa sổ chữ nhật,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.7b: Âm /a/, cửa sổ Hamming,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Trang 24

Hình 2.7c: Âm /a/, cửa sổ Hanning,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.8a: Âm /s/, cửa sổ chữ nhật,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Trang 25

Hình 2.8b: Âm /s/, cửa sổ Hamming,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Hình 2.8c: Âm /s/, cửa sổ Hanning,

512 điểm(45ms, trái) và 64 điểm(5.6ms, phải)

Trang 26

2.2 Phân tích tín hiệu tiếng nói

2.2.1 Phương pháp dãy bộ lọc

Một kỹ thuật phân tích phổ, có ưu điểm là thực hiện thời gian thực, đơn giản,

và dễ làm, sử dụng một dãy bộ lọc, hay một tập hợp các bộ lọc (cả tín hiệu liên

tục-analog lẫn số), mỗi bộ lọc phân tích một miền tần số tín khác nhau của tín hiệu đầu

vào Được sử dụng trong nhiều bộ nhận dạng tiếng nói mang tính thương mại, dãy

bộ lọc tỏ ra linh hoạt hơn phép phân tích DFT, bỡi vì băng thông của nó có thể thay

đổi tuỳ theo độ cảm nhận của tai so với băng thông cố định ở hai mức phân tích là

băng tần rộng và băng tần hẹp Hơn nữa, nhiều ứng dụng đòi hỏi một tập hợp nhỏ

các tham số về phổ thể hiện cấu trúc phổ của năng lượng Cường độ kết xuất từ một

dãy 8-12 bộ lọc cơ bản thể hiện phổ đầy đủ và chính xác hơn so với cả một DFT với

mức độ chi tiết hơn Một phép ước lượng thông dụng là đặt các bộ lọc theo một qui

định nào đó, ví dụ: cách đều nhau, băng thông cố định của các bộ lọc lên đến

1 KHz, và lấy logarit để tăng băng thông mỗi bộ lọc Các bộ lọc được dùng là 1-3-8

Một số hệ thống nhận dạng tiếng nói sử dụng hai mức phân tích phổ, một dãy bộ lọc

thô chỉ gồm vài bộ dùng để phân lớp thô âm thanh, và theo sau là một phép phân

tích chi tiết hơn sử dụng một tập hợp lớn các bộ lọc

Hình 2.9: Sơ đồ phân tích dãy bộ lọc

Mô hình phân tích dãy bộ lọc được trình bày ở hình 2.9

Tín hiệu tiếng nói được lấy mẫu s(n), được đưa qua một dãy gồm Q bộ lọc

thông dải, đầu ra ở mỗi bộ lọc là các tín hiệu:

Trang 27

trong đó, chúng ta giả sử rằng đáp ứng xung của bộ lọc dãy thứ i là hi(m) vớichiều dài là Mi mẫu, vì vậy chúng ta sử dụng biểu diễn tích chập cho phép toán lọc

để biểu diễn tường minh si(n), ta gọi si(n) là tín hiệu tiếng nói được lọc thông dải.Bởi vì mục đích của bộ phân tích dãy lọc là cho ra đánh giá về năng lượng tín hiệutiếng nói trong một băng tần cho trước, nên mỗi tín hiệu được lọc thông dải si(n) sẽđược đưa tiếp qua một bộ tính toán phi tuyến, chẳng hạn bộ nắn chỉnh Bộ tính toánphi tuyến sẽ chuyển phổ tín hiệu sang băng tần thấp, đồng thời cũng tạo ra các thànhphần tần số cao Sau đó, chúng ta cần dùng một bộ lọc thông thấp để loại bỏ cácthành phần tần số cao, cho ra tập các tín hiệu ui(n), 1 i Q, mỗi ui(n) biểu diễnmột ước lượng năng lượng của tín hiệu tiếng nói trong mỗi băng tần

Để hiểu rõ các hiệu ứng khi đưa si(n) qua bộ tính toán phi tuyến và bộ lọcthông thấp, chúng ta hãy giả sử si(n) là tín hiệu hình sin với tần số i, tức là:

Giả thiết này đúng cho tiếng nói trong trường hợp nó là các âm hữu thanh cótrạng thái ổn định khi băng thông của bộ lọc đủ hẹp để chỉ có hài âm được đi qua.Nếu ta sử dụng bộ nắn chỉnh full-wave, tức là:

thì có thể biểu diễn kết xuất của bộ tính toán phi tuyến như sau:

Trang 28

với ( ) 11 neu s ((n)) 00

n s neu i i

n w

Như được minh họa trong hình 2.10(a) – 2.10(c) Vì kết xuất ở bộ tính phi

tuyến có thể được xem như là biến điệu theo thời gian, nên trong miền tần số, ta

nhận được kết quả:

Trong đóVi(ejw), Si(ejw), W(ejw) là các biến đổi Fourier của các tín hiệu vi(n),

si(n), w(n) tương ứng, và là tích chập vòng Phổ Si(ejw) là một xung đơn tại

0 = i, trong khi đó phổ W(ejw) là một tập hợp các xung tại các tần số hài âm lẻ

q = iq, q = 1,3,…Qmax Vì vậy phổ Vi(ejw) là một xung tại = 0 và một tập hợp

các xung biên độ nhỏ hơn tại q = iq, q = 2,4,6,… như được trình bày ở hình

2.10(d)-2.10(f) Kết quả của bộ lọc thông thấp là vẫn giữ được thành phần DC của

Vi(ejw) và lọc ra các thành phần có tần số cao do phép tính phi tuyến tạo ra

Trang 29

Hình 2.10: Dạng sóng và phổ của tín hiệu thuần sin qua phân tích dãy bộ

Băng thông của tín hiệu vi(n) có liên quan đến tốc độ biến đổi nhanh nhất củacác hài âm tiếng nói trong một băng tần hẹp, nói chung thường khoảng 20-30 Hz

Vì vậy hai bước xử lý cuối cùng trong mô hình dãy bộ lọc ở mô hình 2.9 là làmgiảm tốc độ lấy mẫu, trong đó tín hiệu qua lọc thông thấp ti(n) được lấy mẫu lại ởtốc độ khoảng 40-60 Hz, và nén dải rộng của tín hiệu bằng bộ nén biên độ (thường

là bộ nén logarit)

Loại dãy bộ lọc thông dụng nhất được sử dụng trong nhận dạng tiếng nói làdãy bộ lọc đồng chuẩn với tần số trung tâm ficủa bộ lọc thông dải thứ i được địnhnghĩa như sau:

trong đó Fslà tần số lấy mẫu tín hiệu, N là số bộ lọc được đặt cách đều nhau

để cần phủ dải tần số tín hiệu Số bộ lọc thật sự Q dùng trong dãy bộ lọc thoả mãnquan hệ sau:

Trang 30

với dấu đẳng thức xảy ra khi toàn bộ dãy tần số của tín hiệu được sử dụng

trong phân tích Băng thông bi của bộ lọc thứ i nói chung thường thoả mãn tính

chất:

với dấu đẳng thức xảy ra khi không có sự chồng lấp tần số giữa các kênh lọc

kề nhau, và dấu bất đẳng thức có nghĩa là các kênh lọc kề nhau có sự chồng lấp (nếu

bi<

F s

thì một số phần của phổ tiếng nói sẽ bị khiếm khuyết khi phân tích, khi đó

trong phổ tiếng nói sẽ bị mất bớt ý nghĩa)

Thay vì dùng bộ lọc đồng chuẩn, chúng ta có thể thiết kế dãy bộ lọc không

đồng chuẩn, tuỳ theo tiêu chuẩn sắp đặt các bộ lọc như thế nào Một tiêu chuẩn

thường được sử dụng là đặt các bộ lọc theo một tỷ lệ tần số logarit (Tỷ lệ này

thường được căn cứ trên cách tiếp cận thính giác) Vì vậy, ta có thể thiết kế Q bộ

lọc thông dải với tần số trung tâm fivà băng thông binhư sau:

trong đó, C và fitương ứng là băng thông và tần số trung tâm của bộ lọc đầu

tiên và là hệ số tăng logarit Giá trị thường dùng nhất của là 2 hay 4/3

Phương pháp dãy bộ lọc có thể được cài đặt theo nhiều cách, tuỳ thuộc vào

phương pháp dùng để thiết kế dãy bộ lọc riêng biệt Có hai phương pháp thiết kế

dãy bộ lọc số, đó là phương pháp ứng xung vô hạn (IIR) và phương pháp ứng xung

hữu hạn (FIR) Với các bộ lọc IIR, cách cài đặt hữu hiệu nhất là dùng cấu trúc nối tiếp hay song song Với các bộ lọc FIR, cách cài đặt đơn giản nhất là dùng cấu

Trang 31

trúc trực tiếp Trong trường hợp này, nếu ta ký hiệu đáp ứng xung thức i là hi(n),

0 n L – 1 thì kết xuất xi(n) của kênh thứ i có thể được biểu diễn dưới dạng tích

chập hữu hạn, rời rạc của tín hiệu vào s(n) với đáp ứng xung hi(n), tức là:

Việc tính toán biểu thức trên được lặp lại cho mỗi kênh i, i = 1,2,…,Q Ưu

điểm của cấu trúc trực tiếp là sự đơn giản của nó và khả năng có thể làm việc với

hi(n) bất kỳ Khuyết điểm của cách cài đặt này là yêu cầu tính toán nhiều Vì vậy,

với dãy bộ lọc FIR Q kênh, chúng ta cần:

CDFFIR= LQ phép nhân và cộng để tính xi(n), i = 1,2,…,Q ở mỗi giá trị n

Một cách cài đặt khác ít tốn kém hơn có thể áp dụng cho trường hợp trong đó

mỗi đáp ứng xung của bộ lọc thông dải có thể được biểu diễn dưới dạng một cửa sổ

thông thấp cố định w(n) được biến điệu bỡi tín hiệu mũ phức ej in, tức là:

khi đó xi(n) trở thành:

trong đó Sn(ej i) là biến đổi Fourier ngắn hạn của s(n) tại tần số i= 2 fi

Đẳng thức trên rất quan trọng, vì tồn tại những phương pháp tính toán biến đổi

Fourier rất hữu hiệu đó là FFT (Fast Fourier Transform)

Giả sử ta sử dụng dãy bộ lọc đồng chuẩn, tần số của bộ lọc thứ i là:

Trang 32

i = f i = i

F s

khi đó ta có thể viết lại xi(n) như sau:

Bây giờ ta phân tổng theo m thành tổng kép theo r và k, với r và k được xácđịnh theo thuật Euclide:

Nói cách khác, ta phân tổng theo m thành các “mảnh” có kích thước N Nếu

ta đặt:

Sn(m) = s(m)w(n-m)

Thì có thể viết lại xi(n) như sau:

Vìe-j2 ir= 1với mọi i, r nên:

Nếu ta định nghĩa:

r n

Thì:

Trang 33

Như vậy xi(n) là biến đổi Fourier rời rạc N điểm của dãy un(k), sau đó biếnđiệu bỡi dãy e j N in

2

.Tóm lại, các bước cơ bản để thiết lập dãy bộ lọc đồng chuẩn qua các phươngpháp biến đổi FFT như sau:

1 Thành lập tín hiệu được lấy cửa sổ:

Trong đó w(n) là cửa sổ hữu hạn có chiều dài L mẫu

2 Thành lập tín hiệu:

r n

R =

5

* 32

* 2

16

* 128

= 6.4Như vậy, cài đặt theo FFT hiệu quả hơn 6.4 lần so với cấu trúc trực tiếp

Trang 34

Hình 2.11: Sơ đồ phân tích dãy bộ lọc có bộ đếm số điểm cắt zero

Như trên đã thấy, mỗi nhánh của mô hình dãy lọc lọc ở hình 2.9 tính toánxấp xỉ năng lượng tiếng nói trong băng tần được phủ bỡi các bộ lọc thông dải củanhánh đó Tuy nhiên, trong nhiều hệ thống nhận dạng, ta thường bổ sung vào tậpđặc trưng này các bộ đếm số điểm cắt zero ở kết xuất của mỗi bộ lọc thông dải, nhưđược trình bày ở hình 2.11 Do việc đưa vào hệ thống thông tin về số điểm cắt zeronên số đặc trưng tăng lên gấp đôi, tuy nhiên độ phức tạp tính toán cũng không tănglên đáng kể

2.2.2 Trích đặc trưng MFCC

Một số nghiên cứu cho thấy rằng khi tiếp nhận âm thanh, hệ thống thính giáccủa con người thu nhận độ lớn các tần số âm thanh nhưng không theo thang tuyếntính Do đó một số thang đã được xây dựng nhằm miêu tả chính xác hơn sự tiếpnhận của hệ thống thính Các thang này được xây dựng chủ yếu dựa trên thí nghiệmthực tiễn

Các thang được xây dựng bằng thực nghiệm nên muốn chuyển đổi từ tần số

Hz sang các thang khác phải dùng các bảng chuẩn Như vậy, trong nhiều trườnghợp không tiện lợi, do đó người ta xây dựng các công thức để xấp xỉ sự chuyển đổinày

Một số thang đo khác và công thức chuyển đổi của nó:

Trang 35

Hình 2.3a: Đồ thị biểu diễn mối quan hệ giữa Bark và Hz

Hình 2.3b: Đồ thị biểu diễn mối quan hệ giữa Mel và Hz

Trong các thang đo trên, thang Mel hay được dùng nhất MFCC chính là đặctrưng được lấy từ thông tin phổ tín hiệu trên thang Mel Ta có các bước tính MFCCsau:

Trang 36

Hamming để lấy cửa sổ tín hiệu sau khi đã làm rõ tín hiệu Sau đó, ta dùng phépbiến đổi Fourier để chuyển tín hiệu từ miền thời gian sang miền tần số Dãy bộ lọcđược thiết kế là dãy bộ lọc tam giác có tần số giữa đều nhau trên thang Mel.

Hình 2.5: Bộ lọc trên thang Mel

Trang 37

Hình 2.6: Bộ lọc trên tần số thật

Lấy log trên dãy kết quả từ dãy bộ lọc và thực hiện biến đổi cosin rời rạc(DCT: Discrete Cosine Transform) ta thu được véc tơ đặc trưng MFCC

Vậy quá trình trích đặc trưng MFCC được thực hiện qua các bước sau:

Bước 1: Thiết kế dãy bộ lọc

Với: Fs: tần số lấy mẫu

N: số bộ lọc cách đều phủ hết dải tần tiếng nói

Q: số lượng bộ lọc dải thông thực tế sử dụng Q thoả mãn quan hệ

2 /

Q

Độ rộng dải thông của mỗi bộ lọc b i F s /N

Tính trọng số của mỗi bộ lọc lên dải thông tương ứng:

Gọi : fc: tần số trung tâm của dải thông hiện tại thuộc bộ lọc

fc’: tần số trung tâm của dải thông thuộc bộ lọc kế tiếp

Trang 38

f: tần số đang xét.

f : hiệu fc’– fc.Trọng số bộ lọc tác dụng lên tần số f:

Bước 2: Tính đặc trưng MFCC

Gọi khung tín hiệu vào là sN(n)

Thực hiện làm rõ tín hiệu trên sN(n), ta được s’N(n)

Thực hiện lấy cửa sổ trên s’N(n), ta được s’’N(n)

Thực hiện phép biến đổi Fourier trên s’’N(n)

Đối với mỗi bộ lọc, tính tổng các tích giữa biên độ tần số tín hiệu và trọng sốtương ứng ở bộ lọc

Lấy log trên dãy kết quả và thực hiện phép biến đổi cosin rời rạc ta thu đượcvector đặc trưng MFCC

2.2.3 Phương pháp mã hóa dự báo tuyến tính (LPC)

Ý tưởng cơ bản của phương pháp mã hóa dự báo tuyến tính (LPC) là tại thờiđiểm n, mẫu tiếng nói s(n) có thể được xấp xỉ bỡi một tổ hợp tuyến tính của p mẫutrước đó:

trong đó giả sử a1, a2, … , ap là hằng số trên khung dữ liệu (frame) được phântích

Chúng ta chuyển quan hệ trên thành dạng đẳng thức bằng cách thêm vào sốhạng Gu(n) gọi là nguồn kích thích:

trong đó u(n) là nguồn kích thích được chuyển hóa và G gọi là độ lợi của nó

Trang 39

dẫn đến hàm truyền là:

Hình 2.12: Mô hình dự báo tuyến tính

Ta ký hiệu ~ n s ( ) là giá trị dự báo của s(n):

Trang 40

Hình 2.13: Sơ đồ bộ xử lý LPC dùng cho trích đặc trưng tiếng nói

Để tìm tập các hệ số dự báo ak, k = 1,2,…,p trên frame được phân tích, cáchtiếp cận cơ bản là ta cực tiểu hóa sai số bình phương trung bình Khi đó sẽ dẫn đếnviệc ta phải giải một hệ phương trình với p ẩn số Có nhiều phương pháp để giải hệphương trình đó, nhưng trong thực tế, hai lớp phương pháp thường được dùng nhấtlà: phương pháp tự tương quan và phương pháp đồng biến Ở đây, chúng tôi chỉtrình bày lại kết quả tính toán và cách thức áp dụng vào một hệ cử lý LPC như thếnào

Hình 2.13 trình bày sơ đồ chi tiết của bộ xử lý LPC dùng để trích đặc trưngtiếng nói Các bước cơ bản trong tiến trình xử lý như sau:

2.2.3.1 Làm rõ tín hiệu

Mục đích của bước này nhằm làm nổi bật đặc trưng của tín hiệu và làm cho

nó ít nhạy hơn với các hiệu ứng do độ chính xác hữu hạn ở những bước xử lý sau.Thông thường bộ làm rõ tín hiệu là một bộ lọc thông cao với phương trình sai phânlà:

2.2.3.2 Phân đoạn thành các frame

Sau bước làm rõ tín hiệu, ~ n s( )được chia thành các frame, mỗi frame gồm N

Ngày đăng: 05/12/2013, 12:50

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] B. H. Vu, “Về đặc trưng cơ bản của thanh điệu tiếng Việt ở trạng thái tĩnh”, 1999 Sách, tạp chí
Tiêu đề: Về đặc trưng cơ bản của thanh điệu tiếng Việt ở trạng thái tĩnh
[2] Đinh Lê Thư – Nguyễn Văn Huệ, “Cơ cấu ngữ âm tiếng Việt”, NXB giáo dục, 1998 Sách, tạp chí
Tiêu đề: Cơ cấu ngữ âm tiếng Việt
Nhà XB: NXBgiáo dục
[4] L. R Rabiner, “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition”, Proc. IEEE, 77(2), pp. 257-286, 1989 Sách, tạp chí
Tiêu đề: A Tutorial on Hidden Markov Models and SelectedApplications in Speech Recognition
[6] Lê Văn Lợi, “Thanh học – Các bệnh về giọng nói, lời nói và ngôn ngữ”, NXB Y học, 1999 Sách, tạp chí
Tiêu đề: Thanh học – Các bệnh về giọng nói, lời nói và ngôn ngữ
Nhà XB: NXBY học
[7] Nguyễn Đức Hoàng Hạ – Luận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 2002 [8] Nguyễn Quốc Cường, “Tone Recognition for Vietnamese”, 2001 Sách, tạp chí
Tiêu đề: Tone Recognition for Vietnamese
[9] Steven W. Smith, “Digital Signal Processing”, 1999 Sách, tạp chí
Tiêu đề: Digital Signal Processing
[10] Steve Young et all, “The HTK Book”, the Cambridge University Engineering Department, July 2000 Sách, tạp chí
Tiêu đề: The HTK Book
[14] W.J Yang et all, "Hidden Markov Model for Mandarin Lexical Tone Recognition", IEEE Trans. ASSP, vol36, no 7, July 1988, pp 988-992 Sách, tạp chí
Tiêu đề: Hidden Markov Model for Mandarin Lexical ToneRecognition
[15] P. Renevey, “Speech Recognition in Noisy Conditions Using Missing Feature Approach”, EPFL, 2000 Sách, tạp chí
Tiêu đề: Speech Recognition in Noisy Conditions Using Missing FeatureApproach
[16] Lawrence Rabiner and Biing-Hwang Juang, “Fundamentals of Speech Recognition”, Prentice Hall, 1993 Sách, tạp chí
Tiêu đề: Fundamentals of SpeechRecognition
[3] Hồ Ngọc Điệp – Luận văn tốt nghiệp Khoa CNTT – ĐH KHTN, 1999 Khác
[5] Hà Việt Uyên Synh - Luận án thạc sĩ Khoa CNTT – ĐH KHTN, 1999 Khác
[11] Thái Hùng Văn - Luận án thạc sĩ Khoa CNTT – ĐH KHTN, 2000 Khác
[13] Võ Tuấn Kiệt - Luận án thạc sĩ Khoa CNTT – ĐH KHTN, 1999 Khác

HÌNH ẢNH LIÊN QUAN

Hình 2.2 : Dãy xung - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.2 Dãy xung (Trang 17)
Hình 2.7a: Âm /a/, cửa sổ chữ nhật, - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.7a Âm /a/, cửa sổ chữ nhật, (Trang 23)
Hình 2.7c: Âm /a/, cửa sổ Hanning, 512 điểm(45ms, trái) và 64 điểm(5.6ms, phải) - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.7c Âm /a/, cửa sổ Hanning, 512 điểm(45ms, trái) và 64 điểm(5.6ms, phải) (Trang 24)
Hình 2.8b:  Âm /s/, cửa sổ Hamming, - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.8b Âm /s/, cửa sổ Hamming, (Trang 25)
Hình 2.10: Dạng sóng và phổ của tín hiệu thuần sin qua phân tích dãy bộ lọc. - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.10 Dạng sóng và phổ của tín hiệu thuần sin qua phân tích dãy bộ lọc (Trang 29)
Hình 2.11: Sơ đồ phân tích dãy bộ lọc có bộ đếm số điểm cắt zero - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.11 Sơ đồ phân tích dãy bộ lọc có bộ đếm số điểm cắt zero (Trang 34)
Hình 2.3a: Đồ thị biểu diễn mối quan hệ giữa Bark và Hz - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.3a Đồ thị biểu diễn mối quan hệ giữa Bark và Hz (Trang 35)
Hình 2.4: Các bước tính đặc trưng MFCC - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.4 Các bước tính đặc trưng MFCC (Trang 36)
Hình 2.6: Bộ lọc trên tần số thật - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.6 Bộ lọc trên tần số thật (Trang 37)
Hình 2.12: Mô hình dự báo tuyến tính - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.12 Mô hình dự báo tuyến tính (Trang 39)
Hình 2.13: Sơ đồ bộ xử lý LPC dùng cho trích đặc trưng tiếng nói - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.13 Sơ đồ bộ xử lý LPC dùng cho trích đặc trưng tiếng nói (Trang 40)
Hình 2.15:  hình dạng tín hiệu tiếng nói - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.15 hình dạng tín hiệu tiếng nói (Trang 49)
Hình 2.16b: Kết quả sau khi lọc Median - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 2.16b Kết quả sau khi lọc Median (Trang 51)
Hình 3.2a: Mô hình Left - Right - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 3.2a Mô hình Left - Right (Trang 60)
Hình 4.2: thanh huyền - Nghiên cứu các đặc trưng tiếng Việt áp dụng vào nhận dạng tiếng nói tiếng Việt
Hình 4.2 thanh huyền (Trang 67)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w