1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tổng quan và mô phỏng về nhận dạng tiếng nói (an overview and simulation on vietnamese speech recognition)

221 141 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 221
Dung lượng 3,8 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ơû chương này sẽ trình bày một số khái niệm về ngữ âm học, phân tích các đặc điểm cấu trúc của âm tiết tiếng Việt, của thanh điệu và sự tác động của thanh điệu lên âm tiết... Tiếng nói c

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ĐỀ TÀI

TỔNG QUAN VÀ MÔ PHỎNG VỀ

NHẬN DẠNG TIẾNG VIỆT

AN OVERVIEW AND SIMULATION ON VIETNAMESE SPEECH RECOGNITION

GVHD: TS LÊ TIẾN THƯỜNG HVTH:THIỀM CÔNG NGUYÊN

NĂM 2003

Trang 2

Em xin cám ơn các thầy cô trong Bộ môn Viễn thông, Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh đã dạy dỗ, truyền đạt những tri thức làm cơ sở cho em hoàn thành cuốn luận văn này

Xin cám ơn gia đình, bạn bè, đồng nghiệp đã giúp đỡ, động viên, tạo điều kiện cho tôi trong suốt thời gian qua

THIỀM CÔNG NGUYÊN

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SỸ

Họ và tên học viên: Nguyễn Hoài Nam Phái: Nam

Ngày,tháng, năm sinh: 20/10/1976 Nơi sinh: Thanh Hoá

Chuyên ngành: Kĩ thuật Vô tuyến – Điện tử Mã số: 2.07.01

I TÊN ĐỀ TÀI

Tổng Quan Các Phương Pháp Mã Hoá Ảnh

II NHIỆM VỤ VÀ NỘI DUNG

- Nghiên cứu, tìm hiểu một số các cơ sở toán học về ảnh

- Nghiên cứu, tìm hiểu các mô hình nén ảnh, các kỹ thuật nén ảnh không suy hao và suy hao

- Nghiên cứu, tìm hiểu các cơ sở toán học của các phương pháp biến đổi ảnh như Fourier, DCT, Hadamard, Wavelets,

- Xây dựng các giải thuật ứng dụng các phép biến đổi vào trong nén ảnh và xử lý ảnh

- Xây dựng các chương trình mô phỏng

- Dựa vào kết quả mô phỏng so sánh giữa các phương pháp, đánh giá độ hiệu quả của các phương pháp Ứng dụng vào trong thực tế

- Hướng phát triển của đề tài

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 10/06/2003

V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN

TS Lê Tiến Thường

TS Đinh Việt Hào

1

Trang 4

CB HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH

TS Lê Tiến Thường

TS Đinh Việt Hào

PGS TS Vũ Đình Thành TS Phạm Hồng Liên

Nội dung và đề cương luận văn thạc sỹ đã được Hội Đồng Chuyên Ngành thông qua

Ngày tháng năm 2003

Trang 5

ABSTRACT HVTH: THIEÀM COÂNG NGUYEÂN

AN OVERVIEW AND SIMULATION ON VIETNAMESE SPEECH RECOGNITION

Abstract

For many years, speech recognition by machine existed only in the minds of fiction writers However, in recent years, the real problem of automatic speech recognition has been addressed in many research laboratories throughout the world The ultimate goal of this research is to produce a machine which will recognise accurately normal human speech from any speaker Such a machine could be used in

science-a wide vscience-ariety of science-applicscience-ations including speech input to computers, office science-automscience-ation, factory automation, security systems, aids for handicapped, consumer products In

an ever-expanding information technology and advanced telecommunication age, speech recognition and synthesis devices would permit remote access to a wide variety of information services over the telephone

There are three main areas in speech technology – speech synthesis, speech recognition and speech coding The content of thesis is about automatic speech recognition (ASR) with application to command and control system, and development the independent motion system using DSP56303 of Motorola to recognize speech, control motion as demand The problem to be solved in designing an ASR system are related to a large variety of disciplines such as acoustics, signal processing, pattern recognition, phonetics, linguistics, neuroscience, and computer science

The thesis also introduces many signal analysis techniques such as: STFT and CWT in extracting formants, extracting pitch period by phase of CWT, MFSC, MFCC,PLP And some recognizer are used for Vietnamese speech recognition: DTW, codebook recognition, HMM, Neuron network

Trang 6

LỜI NÓI ĐẦU

Việc sử dụng các thiết bị máy móc để thay thế sức người trong xã hội ngày nay đã trở nên phổ biến, đặc biệt trong các lĩnh vực như : y tế, giáo dục, công nghiệp, các ngành thăm dò, thám hiểm Do đó, nhu cầu nghiên cứu và hiểu biết cùng với các ứng dụng về các máy móc tự động ngày càng trở nên cấp thiết Quá trình giao tiếp với máy móc là một lĩnh vực nghiên cứu khá mới, đặc biệt là ở Việt Nam Việc giao tiếp giữa người và máy thông qua rất nhiều hình thức, tuy nhiên một phương pháp tiên tiến mà ngày nay thường được sử dụng đó là giao tiếp bằng ngôn ngữ tự nhiên : Tiếng nói

Có ba lĩnh vực chính trong công nghệ tiếng nói là: tổng hợp tiếng nói, nhận dạng tiếng nói và mã hoá tiếng nói Mục đích của lĩnh vực tổng hợp tiếng nói là phát triển hệ máy có thể chuyển đổi dạng văn bản thành tiếng nói tự nhiên Các ứng dụng của nó bao gồm hệ thống tiếng nói phát ra từ máy tính, các máy đọc, các hệ thống bản tin công cộng

Ưùng dụng các Chip có thể lập trình được - ví dụ như DSP ( digital signal processing)

- vào xử lý tiếng nói mang lại những lợi ích rất lớn, đặc biệt là trong các hệ thống độc lập yêu cầu tiêu tốn ít năng lượng, giá thành hạ, nhỏ gọn Đây là một lĩnh vực nghiên cứu khá mới, và hứa hẹn có những ứng dụng rất lớn

Nội dung cơ bản của đề tài là khái quát các phương pháp nhận dạng tiếng nói và lựa chọn phương pháp để xây dựng một hệ thống nhận dạng và xử lý tiếng nói ứng dụng trong việc điều khiển các hệ thống máy móc thực thi các yêu cầu của người điều khiển Việc nhận dạng và xử lý tiếng nói được thực hiện song song trên hệ thống giả lập máy tính và trên thực tế để có thể theo dõi và đánh giá kết quả thực hiện Đề tài này được xây dựng theo cấu trúc như sau:

ƒ Tổng hợp các kỹ thuật, các phương pháp xử lý tiếng nói như DTW, HMM, Wavelets, Neural network

ƒ Xây dựng mô hình nhận dạng tiếng nói trên máy tính để làm cơ sở nhận dạng và so sánh với mô hình thực tế

ƒ Nghiên cứu hệ xử lý số tính hiệu DSP56303 của Motorala và ứng dụng vào hệ thống xử lý tiếng nói

Trang 7

ABSTRACT HVTH: THIỀM CÔNG NGUYÊN

Phần trình bày của luận văn bao gồm các phần sau:

Chương 1 Cơ sở ngữ âm học

Trình bày một số khái niệm về ngữ âm học, phân tích đặc điểm cấu trúc của âm tiết tiếng Việt

Chương 2 Cơ sở lý thuyết phân tích tín hiệu

Trình bày tóm tắt lý thuyết cơ bản và khái quát một số phương pháp xử lý, phân tích tín hiệu

Chương 3 Cơ sở nhận dạng tiếng nói

Trình bày các phương pháp xử lý tín hiệu tiếng nói: số hoá tín hiệu tiếng nói, tách tín hiệu ra khỏi nền nhiễu, trích các đặc trưng của tiếng nói và đưa ra mô hình huấn luyện, nhận dạng Chương này đề cập đến hai quá trình liên quan với nhau trong xử lý tiếng nói: front-end và back-end processing

Chương 4 Nhận dạng dùng kỹ thuật đối sánh mẫu

Trình bày phương pháp nhận dạng dựa trên kỹ thuật đối sánh mẫu: DTW, VQ

Chương 5 Nhận dạng dùng mô hình Markov ẩn

Mô hình Markov ẩn là một kỹ thuật nhận dạng dựa trên mô hình thống kê Chương này trình bày các khái niệm của một HMM, cấu trúc và các biến thể của HMM: Gaussian HMM, Autoregressive HMM, semi-Markov model và đưa ra một hệ nhận dạng dùng mô hình HMM

Chương 6 Nhận dạng dùng mạng Neuron

Mạng neuron được hình thành dựa trên ý tưởng mô phỏng lại các hoạt động của bộ não người, Mạng neuron được diễn tả bởi cơ cấu tổ chức của mạng, những đặc tính của từng nút trong mạng và những qui luật học tập, do đó nó có rất nhiều ứng dụng quan trọng đặc biệt là trong lĩnh vực xử lý tiếng nói Chương này cũng giới một giải thuật rất quan trọng trong mạng neuron là kỹ thuật lan truyền ngược – backpropagation Đồng thời giới tjiệu mô hình kết hợp NN và HMM

Chương 7 Tổng quan về Kit DSP56303

Chương này trình bày cấu trúc tổng quát của Kit DSP56303, ấu trúc các khối chức năng, cơ chế hoạt động của chúng để làm cơ sở cho việc xây dựng hệ nhận dạng dựa trên Kit DSP56303

Chương 8 Kết quả thực hiện

Trình bày sơ đồ giải thuật, mô hình nhận dạng tiếng nói bằng Kit DSP56303, một số kết quả thực hiện, hướng phát triển của đề tài

Trang 8

MỤC LỤC

CHƯƠNG 1

CƠ SỞ NGỮ ÂM HỌC

1.1 BẢN CHẤT CỦA TIẾNG NÓI 2

1.1.1.Các đặc trưng vật lý 2

1.1.2.Phân loại tiếng nói 2

1.2 CƠ SỞ NGỮ ÂM TIẾNG VIỆT 3

1.2.1.Ngữ âm Tiếng Việt 3

1.2.2.Âm tiết Tiếng Việt 7

1.2.3.Hệ thống các âm vị Tiếng Việt 9

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT PHÂN TÍCH TÍN HIỆU 2.1 CÁC PHÉP BIẾN ĐỔI 19

2.1.1.Phân tích Fourier thời gian ngắn STFT 19

2.1.2.Phép biến đổi wavelets 21

2.2 XỬ LÝ VÀ BIỂU DIỄN TÍN HIỆU 25

2.2.1.Xửõ lý tín hiệu liên tục 26

2.2.2.Xử lý tín hiệu rời rạc 27

2.2.3.Khai triển chuỗi cho các hàm thời gian liên tục 27

2.2.4.Độ phân giải thời gian, tần số của các khai triển 29

2.2.5.Khai triển Haar 31

2.2.6.Phương pháp dãy lọc 32

2.2.7.Phương pháp mã dự báo tuyến tính LPC 41

2.3 NÂNG CAO KHẢ NĂNG BIỂU DIỄN TÍN HIỆU 49

2.3.1.Các phần tử cơ bản 51

2.3.2.Thủ tục phân lớp 52

2.3.3.So sánh lượng tử hóa vector và vô hướng 54

Trang 9

CHƯƠNG 3

CƠ SỞ NHẬN DẠNG TIẾNG NÓI

3.1 XỬ LÝ TÍN HIỆU 56

3.1.1.Số hóa tín hiệu tiếng nói 56

3.1.2.Tách tiếng nói khỏi nền nhiễu .58

3.1.3.Trích các đặc trưng của tiếng nói 76

3.2 HUẤN LUYỆN VÀ NHẬN DẠNG 105

3.2.1.Hệ nhận dạng tiếng nói tự động (ASR) 105

3.2.2.Hệ nhận dạng người nói .109

3.2.3.Giới thiệu các phương pháp 110

CHƯƠNG 4 NHẬN DẠNG DÙNG KỸ THUẬT ĐỐI SÁNH MẪU 4.1 CÁC ĐỘ LỆCH TRONG NHẬN DẠNG TIẾNG NÓI 113 4.1.1.Định nghĩa các độ lệch 113

4.1.2.Một số độ lệch thường dùng 113

4.2 CANH LỀ VÀ CHUẨN HÓA THEO THỜI GIAN 117

4.2.1.Ý nghĩa 117

4.2.2.Các ràng buộc 118

4.2.3.Quy hoạch động DP 119

4.3 PHÉP CO GIÃN THỜI GIAN ĐỘNG 120

4.3.1.Giới thiệu phương pháp 120

4.3.2.Tìm lời giải bằng quy hoạch động 122

4.3.3.Tóm tắt giải thuật 123

4.4 HỆ NHẬN DẠNG ĐỐI SÁNH MẪU HƯỚNG DTW 125

4.4.1.Huấn luyện mẫu 125

4.4.2.Nhận dạng .127

4.5 HỆ NHẬN DẠNG ĐỐI SÁNH MẪU HƯỚNG VQ 128

4.5.1.Đặt vấn đề 128

4.5.2.VQ và đối sánh mẫu không cần chuẩn hóa theo thời gian 128

4.5.3.VQ và nhận dạng người nói 130

CHƯƠNG 5 NHẬN DẠNG DÙNG MÔ HÌNH MARKOV ẨN 5.1 NHỮNG KHÁI NIỆM 133

5.1.1.Những thành phần của một mô hình Markov ẩn 133

5.1.2.HMM – Bộ tạo dãy quan sát 134

5.1.3.Nhận xét 135

Trang 10

5.2 CÁC LOẠI CẤU TRÚC VÀ BIẾN THỂ CỦA HMM 136

5.2.1.Các loại cấu trúc 136

5.2.2.Biến thể của HMM 138

5.2.3.So sánh các HMM 148

5.3 HỆ NHẬN DẠNG DÙNG MÔ HÌNH MARKOV ẨN 149

5.3.1.Đặt vấn đề 149

5.3.2.Lựa chọn các tham số cho mô hình 151

5.3.3.Dùng thuật toán K-means phân chia thành trạng thái 152

5.3.4.Sát nhập khoảng trạng thái vào mô hình HMM 153

CHƯƠNG 6 NHẬN DẠNG DÙNG MẠNG NEURON 6.1 NHỮNG KHÁI NIỆM CHUNG 155

6.1.1.Giới thiệu mạng neuron nhân tạo 155

6.1.2.Mô hình cơ bản của một neuron nhân tạo 157

6.1.3.Cấu trúc mạng 159

6.2 KỸ THUẬT LAN TRUYỀN NGƯỢC 161

6.2.1.Giới thiệu 161

6.2.1.Giải thuật conjugate_ gradient 164

6.2.2.Giải thuật cập nhật Fletcher-Reeves 165

6.2.3.Giải thuậât khởi động lại Powell_Beale 165

6.2.4.Các giải thuật Quasi_Newton 165

6.2.5.Giải thuật Levenberg_Marquardt 166

6.2.6.Các vấn đề trong huấn luyện 166

6.3 KẾT HỢP NN-HMM 168

6.3.1.Dùng NN thi công HMM 168

6.3.2.Huấn luyện cấp frame 169

6.3.3.Huấn luyện cấp segment 170

6.3.4.Huấn luyện cấp từ 170

6.3.5.Tối ưu hóa toàn diện .171

6.3.6.Sự phụ thuộc vào ngữ cảnh .171

6.3.7.Sự độc lập với người nói .174

6.3.8.Nhận biết từ 176

CHƯƠNG 7 TỔNG QUAN VỀ KIT DSP56303 7.1 ĐẶC ĐIỂM VÀ MÔ TẢ KIT DSP56303 178

7.1.1.Bộ nhớ 178

7.1.2.FSRAM 178

7.1.3.Audio codec CS4218 180

Trang 11

7.1.4.Bộ chuyển đổi câu lệnh 183

7.1.5.Giao tiếp bên ngoài board mạch 185

7.2 CẤU HÌNH BỘ XỬ LÝ SỐ TÍN HIỆU DSP56303 189

7.2.1.Tổng quan về bộ xử lý số tín hiệu DSP56303 189

7.2.2.Các khối chức năng của DSP56303 190

7.3 KIẾN TRÚC CỦA DSP56303 193

7.3.1.GPIO 194

7.3.2.HI08 (Host Interface) 194

7.3.3.Bộ giao tiếp nối tiếp đồng bộ tăng cường (ESSI) 194

7.3.4.Bộ giao tiếp nối tiếp SCI 194

7.3.5.Mô đun định thời 195

7.3.6.Cấu hình bộ nhớ 195

7.3.7.Cấu hình không gian bộ nhớ 196

CHƯƠNG 8 KẾT QUẢ THỰC HIỆN HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 8.1 SƠ ĐỒ KHỐI 199

8.2 THỰC HIỆN 200

8.2.1.Bộ biến đổi A/D 201

8.2.2.Tách tiếng nói khỏi nền nhiễu 201

8.2.3.Làm nổi tín hiệu 201

8.2.4.Chia khung tín hiệu 201

8.2.5.Cửa sổ Hamming 201

8.2.6.Phân tích tự tương quan 201

8.2.7.Giải thuật Levinson-Durbin 202

8.2.9.Output 203

8.3 KẾT QUẢ THỰC HIỆN 205

8.3.1.Chương trình mô phỏng thực hiện trên Mathlab 205

8.3.2.Đánh giá khả năng thực hiện trên Kit DSP56303 206

8.3.3.Đánh giá kết quả 207

8.3.4.Kết luận 207

8.4 HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 208

Trang 12

CHƯƠNG 1

CƠ SỞ NGỮ ÂM HỌC

Tiếng việt là loại ngôn ngữ đơn âm kết hợp với sáu thanh điệu khác nhau để tạo nên các từ có ý nghĩa khác nhau đồng thời cấu trúc âm học của nó cũng khác nhau, do đó việc phân tích tín hiệu tiếng nói tiếng Việt rất phức tạp và khó khăn

Ơû chương này sẽ trình bày một số khái niệm về ngữ âm học, phân tích các đặc điểm cấu trúc của âm tiết tiếng Việt, của thanh điệu và sự tác động của thanh điệu lên âm tiết

Trang 13

1.1 BẢN CHẤT CỦA TIẾNG NÓI

Ở mức độ ngôn ngữ học tiếng nói có thể được xem như là một chuỗi các âm thanh cơ bản

được gọi là âm vị (phoneme) Do đó âm vị là đơn vị cơ bản để tạo ra âm thanh nhưng đôi khi

chúng ta không nhận được âm vị đó từ tín hiệu tiếng nói Cùng một âm vị có thể biểu diễn bởi nhiều tiếng nói khác nhau Hơn nữa, các người nói khác nhau phát âm cùng một chuỗi tiếng nói thì sẽ chuyển đi cùng một lượng thông tin như nhau, nhưng âm thanh lại không giống nhau hoàn toàn Nguyên nhân chính là do sự khác nhau về hình dạng của bộ máy phát âm của mỗi người và do sự ảnh hưởng của thổ ngữ (dialect) tức là tiếng nói được phát

ra ở những khu vực khác nhau Vì hình dáng của bộ máy phát âm và do đó là âm thanh được tạo ra được điều khiển bởi các cơ quan phát âm (speech articulators), các âm vị tương ứng trực tiếp với vị trí cũng như là sự dịch chuyển của các khớp (articulatory) trong bộ máy phát âm (còn gọi là điệu bộ khi phát âm (articulatory gestures) Điệu bộ của sự phát âm có thể tĩnh hoặc động tuỳ thuộc vào sự không chuyển động hoặc chuyển động của các khớp khi phát âm

Tiếng nói có các đặc trưng (các thuộc tính vật lý) như sau:

Độ cao: tức là mức độ cao thấp của âm phụ thuộc vào sự chấn động nhanh hay chậm của

không khí trong một khoảng thời gian nhất định, được người ta gọi là tần số dao động

Độ mạnh: thường gọi là cường độ do biên độ dao động quyết định (trong ngôn ngữ phụ âm

phát ra thường mạnh hơn nguyên âm) Đây chính là một trong những đặc điểm góp phần nhận diện sự khác biệt giữa phụ âm và nguyên âm trong âm thanh lời nói

Độ dài: hay trường độ của âm phụ thuộc vào sự chấn động lâu hay mau của các phần tử

không khí

Âm sắc: là sắc thái riêng của một âm do các cá thể khác nhau tạo ra Giọng nói của người

này khác với người kia chính là âm sắc của mỗi một người làm nên nét cái khu biệt ấy

Tiếng ồn và tiếng thanh: do một bên là sự chuyển động không nhịp nhàng còn bên kia là

sự chuyển động nhịp nhàng (có chu kỳ ổn định) tạo ra

Tiếng nói có thể được phân làm ba loại khác nhau như sau:

Âm hữu thanh (voiced sounds): là dạng tiếng nói giống như khi ta phát các âm ‘a’, ‘o’… Aâm

thanh này được phát ra khi dây thanh được căng ra và chúng chuyển động theo kiểu nới lỏng (relaxation mode) tạo nên áp suất không khí làm cho thanh môn mở ra và để cho không khí chuyển động xuyên qua nó Sự chuyển động này của các dây thanh tạo ra một dạng sóng của dòng không khí gần giống dạng tam giác Dạng sóng này có dạng tuần hoàn hoặc gần tuần hoàn Chúng có phổ tần số của các thành phần hài là bội số của tần số cơ bản còn gọi

là tần số pitch và tốc độ suy giảm của chúng là 12dB/octave

C1-CƠ SỞ NGỮ ÂM HỌC 2 HVTH: THIỀM CÔNG NGUYÊN

Trang 14

Bộ máy phát âm của con người hoạt động giống như một bộ cộng hưởng, khuếch đại một vài thành phần hài và làm suy giảm các thành phần hài còn lại để tạo ra dạng sóng nguyên âm

Tốc độ chuyển động của dây thanh phụ thuộc vào áp suất không khí trong phổi và sức căng của dây thanh Cả hai điều này đều có thể được điều khiển bởi người nói để làm thay đổi cường độ âm thanh được phát ra

Tiếng nói của người đàn ông trưởng thành có tần số cơ bản thay đổi trong khoảng từ 50 đến 250Hz, trung bình khoảng 120Hz Trong khi đó tiếng nói của người phụ nữ trưởng thành có tần số cơ bản cao hơn rất nhiều, có thể lên đến 500Hz

Âm vô thanh (unvoiced sounds): ví dụ như p, t, f… khi phát ra các âm này dây thanh đới

không chuyển động Âm vô thanh được chia làm hai loại là âm xát (fricative sounds) và âm

bật hơi (aspirated sounds)

Khi phát âm các ï âm xát ( ‘s’, ‘x’…) sự siết lại được tạo ra tại một vài điểm nào đó trong bộ

máy phát âm và không khí bị ép buộc phải đi qua, do đó tạo ra một sự chuyển động hỗn loạn (turbulence) sẽ kích thích nhiễu ngẫu nhiên phát sinh Sư siết lại thường có xu hướng xảy ra ở phía trước miệng nên sự cộng hưởng của bộ máy phát âm ít ảnh hưởng đến các âm xát được phát ra

Khi phát âm các âm bật hơi (h, kh, k…) sự chuyển động hỗn loạn của không khí xảy ra tại

thanh môn trong khi các dây thanh được giữ ở khoảng cách khá xa nhau Trong trường hợp này, sự cộng hưởng của dây thanh đới sẽ điều chỉnh dạng phổ của nhiễu ngẫu nhiên Hiệu ứng này sẽ được nghe rất rõ đối với các tiếng nói thì thầm (whisper)

Âm bật hơi (plosive sounds): ví dụ như âm ‘đ’ trong từ ‘đi’ Khi phát các âm này, bộ máy

phát âm sẽ được đóng lại hoàn toàn tại một điểm nào đó trong bộ máy phát âm Aùp suất không khí trong bộ máy phát âm sẽ tăng lên tức thời và sau đó được giải phóng một cách đột ngột Sự giải thoát nhanh chóng của áp suất này sẽ tạo nên một sự kích thích tạm thời của bộ máy phát âm Sự kích thích tạm thời này có thể xảy ra kèm theo hoặc không kèm theo sự chuyển động của dây thanh đới

1.2 CƠ SỞ NGỮ ÂM TIẾNG VIỆT

Phần này sẽ giúp người đọc nắm được các khái niệm, các đặc trưng cơ bản và các nét khu biệt dùng để phân biệt các từ trong tiếng Việt qua việc trình bày cụ thể cấu trúc, các thành phần cơ bản và sự tác động qua lại lẫn nhau giữa các thành phần trong ngôn ngữ tiếng Việt

Tiếng Việt là một ngôn ngữ đơn âm (monosyllable) sử dụng các ký tự Latinh kết hợp với sáu thanh điệu khác nhau tạo nên các từ có ý nghĩa khác nhau đồng thời cấu trúc âm học của nó cũng khác nhau Chính điều này đã làm nên tính chất phức tạp của tiếng Việt khi ta phân tích phổ tần số của nó, đồng thời do sự tác động của các thanh điệu làm cho tiếng Việt có giai điệu trầm bổng khác nhau đối với các thanh điệu khác nhau

Trang 15

1.2.1.1 Âm tố và nhận diện

b) Tín hiệu được phóng đại để thể hiện pitch period

Hình 1.1

Âm tố (sound) là đơn vị ngữ âm nhỏ nhất không thể chia tách được nữa Chẳng hạn như

trong âm tố ma ta có 2 âm tố là [m] và [a] Âm tố được ghi lại một cách thống nhất trong một bảng ký hiệu phiên âm đặt trong 2 ngoặc vuông, ví dụ [m] và [a] Bảng phiên âm quốc

tế có tên là IPA (Internation Phonetic Association) Nguyên tắc của sự phiên âm là mỗi một âm trong ngôn ngữ chỉ được dùng một con chữ Tuy nhiên trong lời nói thường có nét rườm rà, vì vậy người ta còn thường dùng thêm dấu phụ để biểu hiện, chẳng hạn ta dùng dấu

ngửa (ن) đặt trên nguyên âm để chỉ tính chất ngắn của nó (ví dụ [ă] là âm [a] ngắn v.v )

C1-CƠ SỞ NGỮ ÂM HỌC 4 HVTH: THIỀM CÔNG NGUYÊN

Trang 16

Âm thanh được tạo ra từ bộ máy phát âm của con người và chúng được ghi nhận như một

hiện tượng âm học nên âm tố được nhận diện nhờ vào sự cấu âm và âm học của nó Tuy

nhiên trong ngôn ngữ người ta không phải bao giờ cũng sử dụng tất cả các đặc điểm của 2 bình diện trên để khu biệt lời nói mà chỉ lựa chọn một số đặc trưng nào đó Ví dụ như chúng

ta dựa vào độ dài/ngắn của từ để phân biệt từ tám và từ tắm

Dựa theo cách thoát ra của luồng không khí khi phát âm, các âm thường được phân tách theo thế lưỡng phân để có được hai loại như sau:

1 Nguyên âm: (vowels) được tạo ra bởi sự kích thích âm thanh bên trong bộ máy phát âm

với các khớp được giữ ở vị trí tĩnh (articulator remaining static) Nguyên âm được phát đi từ miệng, không có sự kết hợp với mũi Trong một số ngôn ngữ chẳng hạn như tiếng Pháp thì âm thanh có thể được hoăc không được mũi hóa Hình dạng của mũi được giữ khá cố định và mỗi nguyên âm được phân biệt bởi vị trí của lưỡi (nâng lên hoặc hạ xuống, đưa ra trước hoặc ra sau) Do đó nguyên âm còn có thể được phân ra thành nguyên âm trước, nguyên âm giữa và nguyên âm sau tùy thuộc vào vị trí của lưỡi trong quá trình phát âm Ở mức độ âm học mỗi nguyên âm được phân biệt bởi 3 hoặc 4 formant của nó

Trong tiếng Việt [i], [e], [a], [u], [o]… là những nguyên âm Về mặt âm học các

âm này bao giờ cũng là tiếng thanh bởi vì khi phát các nguyên âm, sự chấn động của các phần tử không khí thoát ra ta có một chu kỳ khá đều đặn Bởi vì khi cấu âm để hình thành một nguyên âm, bộ máy phát âm làm việc khá điều hòa, đều đặn từ đầu đến cuối Sự hoạt dộng điều hòa của bộ máy phát âm như vậy làm cho luồng hơi thoát ra với cường độ yếu nhưng không bị cản lại, không bị tắc nghẽn mà liên tục

2 Phụ âm: Khác với tạo ra các nguyên âm, khi tạo ra các phụ âm, luồng không khí từ phổi

đi ra thường bị cản trở ở một điểm nào đó Chẳng hạn trong tiếng Việt sự khép chặt của

2 môi làm nên phụ âm [m], sự tiếp xúc giữa 2 đầu lưỡi với lợi tạo nên một sự cản trở để có được các âm [t], [d]… Như vậy các phụ âm thường được tạo nên nhờ những tiếng nổ

hay tiếng xát có một âm hưởng rất khó nghe Cách cấu âm này tạo ra một kết quả âm

học là các phụ âm thường có tần số chấn động không ổn định, do đó là tiếng động chứ

không phải là tiếng thanh như nguyên âm Điều này xảy ra do khi phát các phụ âm, bộ máy phát âm làm việc không điều hòa, khi căng, khi chùng, làm nên sự tắc nghẽn, đứt quãng

Về mặt phương thức cấu âm, phụ âm được phân thành các loại như sau:

Phụ âm bật hơi: ví dụ như ‘th’: khi phát âm không khí không những phá vỡ sự

cản trở gây nên một tiếng nổ nhẹ mà đồng thời khi thoát ra còn gây ra một tiếng cọ xát ở khe giữa hai mép dây thanh

Phụ âm mũi: ví dụ như ‘m’, ‘n’, ‘ng’, ‘nh’ Do dây thanh tạo ra, theo luồng

không khí từ phổi đi lên thoát ra ngoài tự do qua mũi, chịu sự cộng hưởng của khoang mũi Phụ âm này có đặc điểm của nguyên âm nên được gọi là phụ âm vang

Trang 17

Phụ âm xát: như ‘v’, ‘s’, ‘g’: là tiếng cọ xát do luồng không khí từ phổi đi ra

bị cản trở không hoàn toàn, chỉ bị khó khăn phải lách qua khe hẹp nhỏ và khi thoát ra cọ xát với thành của bộ máy phát âm

Xét về phương diện phổ tần số: đặc trưng phổ của dạng sóng tiếng nói là thay đổi theo

thời gian (không dừng) Tiếng nói được chia thành những đoạn âm thanh có tính chất ngữ âm giống nhau qua các khoảng thời gian ngắn Dựa vào cách phân loại âm tiết trên, tiếng

nói được phân loại theo diện rộng gồm: (1) nguyên âm không hạn chế luồng không khí qua bộ máy phát âm và có chu kỳ đặc trưng, và (2) phụ âm có biên độ yếu hơn, thường gây

nhiễu cho nguyên âm, và không có chu kỳ đặc trưng

Hình 1.7 vẽ biên độ của phần xác lập của nguyên âm /a/ và phụ âm /l/ Một lần nữa chứng minh dạng sóng của nguyên âm có chu kỳ tuần hoàn ổn định, còn phụ âm thì không có đặc

điểm này Một chu kỳ của phần tuần hoàn gọi là chu kỳ cơ bản (pitch period) Ở mỗi trường

hợp của phổ nguyên âm và phụ âm có những vùng cộng hưởng và vùng phản cộng hưởng rõ trong phổ Các tần số cộng hưởng có khuynh hướng hình thành toàn bộ phổ, được gọi là các

formant Khái niệm này thường được dùng để chỉ tần số cộng hưởng trung tâm Các formant

thường kí hiệu là F1, F2, F3…, bắt đầu với tần số thấp nhất Về nguyên tắc, trong tín hiệu

tiếng nói có vô hạn formant nhưng thực tế ta thường tìm 3-5 formants trong băng thông

Nyquyst sau khi lấy mẫu là đủ đặc trưng cho tiếng nói này

Ngoài hai loại âm tố chủ yếu là phụ âm và nguyên âm vừa nêu trên, trong ngôn ngữ còn có

một loại âm tố trung gian, đó là các bán nguyên âm hay các bán phụ âm Những âm tố này vừa mang tính chất nguyên âm vừa mang tính chất phụ âm Ví dụ âm [-i] và [u] trong 2 từ

hai, cau là các bán nguyên âm Như vậy nếu nguyên âm ở một cực và phụ âm ở cực kia thì

bán nguyên âm sẽ ở vị trí trung gian của hai cực ấy

1.2.1.2 Âm vị

Âm vị là một đơn vị tối thiểu của một hệ thống ngữ âm trong một ngôn ngữ có chức năng cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ ấy Trong âm học để ghi âm vị người ta thường đặt ký hiệu nguyên âm ở trong hai vạch nghiêng song song Ví

dụ: /b/, /a/, /e/, v.v…

Đặc trưng của âm vị: âm vị có những đặc trưng cấu âm và những đặc trưng âm học cụ thể,

xác định Nhưng trong số những đặc trưng ấy chỉ có một vài đặc trưng được sử dụng để thực hiện chức năng mà âm vị đảm nhiệm Những đặc trưng ấy là nét khu biệt của âm vị, nhờ nó các âm vị phân biệt được với nhau Ví dụ trong tiếng Việt âm vị /n/ có ba đặc trưng, 2 đặc trưng về cấu âm là tắc và đầu lưỡi và một đặc trưng âm học là vang Nhờ đặc trưng cấu âm đầu lưỡi, /n/ khu biệt được với /m/ là một phụ âm cũng có đặïc trưng tắc và vang nhưng có cấu âm môi Tính chất tắc làm cho /n/ phân biệt được với /l/ là một phụ âm đầu lưỡi và vang nhưng là phụ âm xát Cuối cùng nhờ đặc trưng vang, /n/ khu biệt được với /t/ vốn là một phụ âm tắt, đầu lưỡi nhưng là một phụ âm ồn Như vậy nhờ có ba đặc trưng về cấu âm và âm

học của mình, /n/ phân biệt được với /m/, /l/ và /t/ và do đó ta phân biệt được các âm na, la,

ma và ta Các đặc trưng này được gọi là các đặc trưng khu biệt Có thể nói các âm vị phân

C1-CƠ SỞ NGỮ ÂM HỌC 6 HVTH: THIỀM CÔNG NGUYÊN

Trang 18

biệt được với nhau nhờ những đặc trưng khu biệt và các đặc trưng này bao giờ cũng được thể hiện đồng thời Chính nhờ những tính chất này mà đôi khi người ta còn định nghĩa âm vị là một chùm những đặc trưng khu biệt được thể hiện đồng thời

Khi tìm hiểu âm vị chúng ta nhận thấy âm vịù và âm tố có một nét chung đều là đơn vị tối thiểu, nhỏ nhất trong hệ thống ngữ âm của ngôn ngữ Nhưng giữa âm vị và âm tố có

một vài sự khác biệt như sau:

Âm tố là một đơn vị ngữ âm nhỏ nhất không thể chia tách, còn âm vị là một đơn vị nhỏ nhất có chức năng cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa Vì thế âm vị chỉ gồm những đặc trưng khu biệt còn âm tố bao gồm cả những đặc trưng khu biệt lẫn những đặc trưng không khu biệt

Âm tố là một đơn vị cụ thể (là các âm [a], [b], [c] có thực) còn âm vị là một đơn vị

trừu tượng Do vậy âm vị được thể hiện ra bằng các âm tố và âm tố là sự thể hiện của các âm vị

1.2.2 Âm tiết Tiếng Việt

1.2.2.1 Âm tiết

Âm tiết chính là đơn vị phát âm ngắn nhất trong tiếng Việt Một âm tiết có thể gồm nhiều yếu tố ngữ âm cấu thành nhưng dù ta phát âm chậm đến đâu cũng không thể tách ra được

Ví dụ “thắng lợi” bao gồm 2 âm tiết là âm tiết “thắng” và âm tiết “lợi”

Khi phát âm một âm tiết, các cơ thịt của bộ máy phát âm đều trải qua ba giai đoạn: tăng cường dần độ căng, đạt tới đỉnh điểm của độ căng và sau đó là giảm độ căng Tương ứng với quá trình đó là một đường cong hình sin biểu thị quá trình cấu âm tạo ra âm tiết

Hình 1.2 Đường cong biểu thị quá trình phát âm của 2 âm tiết “xanh xanh”

Các điểm 1, 3, 5 là ranh giới các âm tiết; 2, 4 là đỉnh các âm tiết

Căn cứ vào cách kết thúc tức là phần giảm độ căng các âm tiết tiếng Việt sẽ được phân loại như sau:

Âm tiết mở là những âm tiết kết thúc bằng cách giữ nguyên âm sắc của nguyên âm (những

âm tiết không có phần cuối là phụ âm hay bán nguyên âm) Ví dụ như các âm tiết: ta, ma,

ta, to…

Âm tiết khép là những âm tiết kết thúc bằng phụ âm Ví dụ như các âm tiết: tát, tốt, đánh,

canh…(khi phụ âm kết thúc là các âm vang như m,ng, nh … người ta nói rằng đó là

Trang 19

các âm tiết nửa khép)

Âm tiết nửa mở là những âm tiết kết thúc bằng một bán nguyên âm Ví dụ như các âm tiết:

tay, cay, tao, câu…

1.2.2.2 Đặc điểm âm tiết Tiếng Việt

Tiếng Việt cũng như các loại ngôn ngữ khác đều có đơn vị nhỏ nhất là âm tiết Âm tiết hay còn gọi là tiếng của tiếng Việt có các đặc điểm sau đây:

a) Tính độc lập rất cao: đặc điểm này được thể hiện trong dòng lời nói, âm tiết bao giờ

cũng được thể hiện rõ ràng và tách ra thành từng khúc đoạn riêng biệt, điều mà các ngôn ngữ khác không có được

b) Âm tiết tiếng Việt không có hiện tượng nối âm (liaison): Điều này khác với các ngôn

ngữ khác chẳng hạn như tiếng Anh khi ta nói nhanh các từ this, is, a, book thì các từ này có thể được nối lại với nhau thành thi_si_sa_book, hoặc trong tiếng Pháp 3 từ Les, a, mis có thể đọc nối lại với nhau thành Lé_sa_mis còn trong tiếng Việt khi ta nói một câu,

chẳng hạn “tôi ăn cơm” thì dù cho ta nói nhanh đến đâu câu nói này cũng sẽ nghe được

thành 3 từ tách ra riêng biệt,“tôi_ăn_ cơm “ rõ ràng Như vậy ranh giới giữa các âm tiết

trong tiếng Việt là rõ ràng trong mọi tình huống

c) Âm tiết trong tiếng Việt có khả năng biểu hiện ý nghĩa: Tuyệt đại đa số các âm tiết

trong tiếng Việt là những từ đơn và có nghĩa Chẳng hạn như các từ giảng đường, sinh

viên thì mỗi một từ giảng, đường, sinh, viên đều có nghĩa riêng của chúng

d) Âm tiết của tiếng Việt có cấu trúc chặt chẽ: Âm tiết tiếng Việt cũng như nhiều ngôn

ngữ châu Aâu khác, không phải là một khối không thể phân tách được Tuy nhiên, âm tiết tiếng Việt có một cấu trúc chặt chẽ riêng biệt của mình Mô hình cấu trúc tổng quát của một âm tiết tiếng Việt được thể hiện như sau:

Bảng 1.1 Cấu trúc của một âm tiết tiếng Việt

Thanh điệu Phần vần Aâm

Đầu Aâm

đệm

Aâm chính

Aâm cuối

Từ mô hình trên ta thấy trong tiếng Việt mỗi âm tiết ở dạng đầy đủ sẽ bao gồm năm phần như sau:

1) Thanh điệu: mỗi âm tiết đều có một thanh điệu có chức năng phân biệt các âm tiết hoặc

các từ khác nhau về cao độ Trong tiếng Việt có tất cả sáu thanh là: thanh không dấu (thanh ngang), thanh huyền, thanh sắc, thanh nặng, thanh hỏi, thanh ngã

2) Âm đầu: có chức năng mở đầu một âm tiết Âm đầu bao giờ cũng do các phụ âm đảm

nhiệm Trong các âm tiết như ăn uống tuy chữ viết không có phụ âm đầu nhưng thực chất chúng cũng có một phụ âm tắt thanh hầu, được ký hiệu là /?/

C1-CƠ SỞ NGỮ ÂM HỌC 8 HVTH: THIỀM CÔNG NGUYÊN

Trang 20

3) Âm đệm: có chức năng làm thay đổi âm sắc của âm tiết sau lúc mở đầu Thành phần

này do bán nguyên âm /w/ đảm nhiệm Chính nhờ có nó mà người ta phân biệt âm sắc

của âm tiết tán và toán, tấn và tuấn Ở đây, toán và tuấn là âm tiết có âm đệm, tán và

tấn thì không có âm đệm hay người ta gọi nó có âm đệm zero

4) Âm chính: đây là thành phần hạt nhân của âm tiết, là thành phần quyết định âm sắc chủ

yếu của âm tiết Thành phần này bao giờ cũng do một nguyên âm đảm nhiệm, khác với các thành phần khác trong tiếng Việt, thành phần này bao giờ cũng được thể hiện bằng chữ viết

5) Âm cuối: Có chức năng kết thúc âm tiết và do các phụ âm và bán nguyên âm đảm

nhiệm Cũng như âm đệm thành phần này có thể không có mặt Trong trường hợp ấy ta có âm cuối zêro

Như vậy, các âm tiết tiếng Việt có tối đa là 5 thành phần và có tối thiểu là 3 thành phần Có

thể không có âm đệm và âm cuối như từ “đa”ù

Tuy nhiên 5 thành phần trên không phải bình đẳng nhau về mức độ độc lập và khả năng kết hợp Âm tiết tiếng Việt có cấu trúc 2 bậc như sau (hình 1.9):

1.2.3 Hệ thống các âm vị Tiếng Việt

1.2.3.1 Âm đầu

Tất cả các âm tiết trong tiếng Việt về mặt cấu âm đều bắt đầu bằng động tác khép lại (môi, lưỡi, khe thanh…), gây ra sự cản trở không khí hoàn toàn hoặc một phần, sau đó mới mở ra tạo nên một tiếng động đặc thù Như vậy các âm vị đảm nhiệm âm đầu đều là phụ âm

Các âm đầu và sự thể hiện bằng chữ viết: trong tiếng Việt có tất cả 22 âm vị làm âm đầu

Người ta thường ghi âm vị bằng ký hiệu phiên âm quốc tế, tuy nhiên trong thực tế các âm vị đều được thể hiện bằng chữ viết Đa số các âm vị đều có sự thể hiện bằng một con chữ, có 9 trường hợp được thể hiện bằng cách ghép 2 con chữ và 1 trường hợp phải ghép 3 con chữ để

II… Âm đệm - Âm chính - Âm cuối I… Âm đầu - Vần - Thanh điệu

Âm tiết

Hình 1.3 Cấu trúc hai bậc của âm tiết tiếng Việt

Trang 21

ghi 1 âm vị Có một số âm vị được thể hiện không thống nhất Các âm vị âm đầu và sự thể hiện bằng chữ viết được trình bày trong các bảng 1.3

Bảng 1.2 Các âm vị âm đầu được thể hiện bằng một chữ viết tương ứng

Aâm vị Chữ viết Aâm vị Chữ viết Aâm vị Chữ viết

‘k’ khi đứng trước các âm / i, e, ε, ie / (ký, kể, kẻ, kiếp)

‘q’ khi đứng trước nguyên âm: /ų/ (quả)

‘c’ trong các trường hợp còn lại (cá, cờ)

‘gh’ khi đứng trước / i, e, ε / (ghế, ghi)

‘g’ trong các trường hợp còn lại (gỗ, gà)

‘ngh’ khi đứng trước / i, e, ε, įe / (nghĩ)

‘ng’ trong các trường hợp còn lại (ngữ)

‘r’ theo cách phát âm miền trung và miền nam (rực rỡ)

‘gi’ theo cách phát âm của một số thầy cô giáo

/z/

‘d’ (con dao)

‘gi’ theo cách phát âm phổ biến ngoài xã hội Nếu theo sau là ‘i, ie, ia’ thì

‘gi’ bị tinh giảm thành ‘g’ (gì, giếng)

Tùy những từ cụ thể mà /z/ được ghi là ‘d’ hay ‘gi’ Không có quy luật cụ

thể

/γ/

ŋ

ŗ

Các đặc điểm khu biệt của âm đầu: người ta dựa vào 2 đặc trưng để phân biệt các âm đầu

là đặc trưng về phương thức cấu âm và đặc trưng về sự định vị của bộ máy phát âm

Phương thức cấu âm:

Đặc điểm tắt hoặc xát làm các phụ âm tắt /b, d, t, t’, c, m, n, נ, r/ phân biệt với các phụ âm

xát /f, v, s, z, l, h, γ, ş/

C1-CƠ SỞ NGỮ ÂM HỌC 10 HVTH: THIỀM CÔNG NGUYÊN

Trang 22

Trong cả 2 loại phụ âm tắt và phụ âm xát, tiêu chí về thanh tính tạo nên sự khác biệt giữa

các phụ âm vang /m, n, r, ŋ/ với các phụ âm ồn /b, d, t, t’, c, k, נ, f, v, s, z, ş/

Đặc trưng bật hơi khu biệt /t/ với /t’/

Sự định vị của bộ máy phát âm:

Đặc trưng định vị môi, lưỡi, thanh hầu khu biệt các phụ âm môi /b, m, f, v/ với các âm lưỡi /d, t, s, t’, z, ş, c, k, ŋvà các âm thanh hầu /h, נ/

Trong số các phụ âm lưỡi lại có sự đối lập giữa các âm đầu lưỡi / d, t, s, z/ với các âm mặt lưỡi /c, η/ và các âm gốc lưỡi /k, γ, ŋ/

Trong số các âm đầu lưỡi lại có khu biệt giữa các đầu lưỡi quặt /ζ, t/, với các âm đầu lưỡi

bẹt / d, t, s, z, n, l, t’/

Từ đặc trưng vừa nêu các âm đầu có thể được phân biệt như trong bảng 1.5

Bảng 1.4 Sự phân loại các âm đầu

Đầu lưỡi

Vị trí

Mặt lưỡi

Cuối lưỡi

Thanh hầu

không Ta hãy xét 2 âm tiết “toán” và “tán”, khi phát âm “toán“, ngoài động tác cấu âm /t/

bình thường, còn kèm theo hiện tượng môi chúm lại làm âm sắc bị trầm đi một chút so với

âm tiết “tán” Hiện tượng tròn môi xuất hiện trong suốt giai đoạn phát âm của âm đầu và

phần đầu của nguyên âm Về mặt âm học nó làm xuất hiện một âm lướt /ų/ giữa phụ âm

đầu và nguyên âm Ngược lại ở âm tiết “tán” không có hiện tượng tròn môi do đó không có

âm lướt / ų / nào cả

Về mặt âm học, “toán” và “tán” khác nhau ở chỗ âm tiết bị trầm hóa hay không trầm hóa

Căn cứ về mặt cấu âm, người ta giả thuyết các đặc trưng âm học này tồn tại như hai âm vị độc lập, âm vị bán nguyên âm môi / ų / nếu âm sắc bị trầm hóa (tròn môi khi phát âm) và

Trang 23

âm vị /zero/ nếu âm sắc không bị trầm hóa (không tròn môi khi phát âm) Đây là hai âm vị làm âm đệm

Về mặt chữ viết âm vị / ų / được ghi bằng ‘u’ khi đứng trước các nguyên âm hẹp và hơi hẹp

như “huế, huân, huy”, hoặc khi đứng sau phụ âm /k/ như “quê, quân” Ngoài ra / ų / còn được ghi bằng ’o’ khi xuất hiện trước các nguyên âm rộng và hơi rộng ví dụ như “hoa hòe,

họa hoằn” Aâm vị /zero/ được thể hiện bằng sự vắng mặt một con chữ

Quy luật phân bố âm đệm sau âm đầu:

Âm đệm / ų / không xuất hiện sau tất cả các phụ âm môi /b, m, f, v/ và 2 phụ âm /n,

ζ/ /ų/ cũng không xuất hiện trước tất cả các nguyên âm tròn môi, ngoại trừ một số

ngoại lệ sau đây:

/ ų / xuất hiện sau /n/ chỉ trong 2 từ Hán việt “noa”, “noãn”

/ζ/ đứng trước / ų / chỉ trong 1 từ “roa”

/γ/ chỉ đứng trước /⎦/ trong 1 từ “âgóa”

Ngược lại, âm vị /zero/ chỉ có thể xuất hiện sau tất cả các phụ âm đầu

1.2.3.3 Âm chính

Các âm vị làm âm chính và sự thể hiện bằng chữ viết

Trong tiếng Việt đỉnh âm tiết bao giờ cũng nằm ở đoạn nguyên âm Các nguyên âm mang âm sắc chủ yếu của âm tiết Do đó chúng được coi là các âm chính của âm tiết Có tất cả 16 âm vị nguyên âm làm âm chính Trong đó có 13 nguyên âm đơn và 3 nguyên âm đôi

Cũng giống như các âm đầu, khi thể hiện bằng chữ viết có một số âm vị nguyên âm chỉ có duy nhất một chữ viết tương ứng, tuy nhiên cũng có một số nguyên âm được thể hiện không thống nhất, mỗi âm vị nguyên âm có thể có nhiều chữ viết Các bảng 1.6 và 1.7 trình bày tất cả các âm vị nguyên âm và sự thể hiện bằng chữ viết tương ứng

Bảng 1.5 Sự thể hiện bằng chữ viết của các đơn vị nguyên âm

Aâm vị Chữ viết Aâm vị Chữ viết

Các đặc điểm khu biệt của các nguyên âm

Các nguyên âm có thể được nhân diện dựa vào đặc điểm về mặt âm sắc, âm lượng và trường độ của chúng

C1-CƠ SỞ NGỮ ÂM HỌC 12 HVTH: THIỀM CÔNG NGUYÊN

Trang 24

Bảng 1.6 Các quy ước về chữ viết của các đơn vị nguyên âm Âm vị Chữ viết

/i/

‘y’ khi âm đầu là /נ/, âm đệm và âm cuối là âm vị /zero/ (ý kiến) Đôi khi âm đầu khác /נ/ mà /i/ cũng được ghi bằng ‘y’ do thói quen (ký, lý luận…)

‘y’ sau âm đệm /ų / (suy, nguỵ)

‘i’ trong các trường hợp còn lại (im đi, nín thinh…)

/o/

‘ôô’ trong thể dài khi đứng trước /η, k/

‘ô’ trong thể ngắn khi đứng trước /η, k/ và trong các trường hợp còn lại

(bông, ôm, tôm)

/נ/ ‘oo’khi đứng trước /η, k/ (xoong, moóc)

‘o’ trong các trường hợp còn lại (con cò)

/Õ/ ‘o’ khi xuất hiện trước /η, k/ (vòng, tóc)

/غ/ ‘a’ khi xuất hiện trước /η, k/ (sách, xanh)

/ă/ ‘a’ khi đứng trước /u/, /i/ (rau đay)

‘ă’ trong các trường hợp còn lại

/įe/

‘yê’ trong âm tiết co âm đệm là /ų / và âm cuối khác /zero/ (uyển chuyển) hoặc khi âm đệm là /zero/ âm đầu là / כ/ (yêu)

‘iê’ khi âm cuối khác /zero/, âm đệm /zero/ và âm đầu khác / כ/ (tiêu tiền)

‘ia’ khi âm cuối là /zero/ (chia) Nếu có âm đệm là /ų/ thì ‘ia’ được thay bằng ‘ya’(khuya)

/ųο/ ‘uô’ khi âm tiết có âm cuối khác /zero/ (uống thuốc)

‘ua’ khi âm cuối là /zerô/ (lúa, úa)

/щỎ/ ‘Ươ’ khi âm tiết có âm cuối khác /zero/(ương bướng )

‘ưa’ khi âm cuối là /zero/ (ưa, chừa)

Âm sắc: Các nguyên âm có thể được phân biệt dựa vào đặc điểm bổng trầm của âm sắc

Thêm vào đó, còn có một số đặc trưng nữa về âm sắc, đó là âm sắc bổng hoặc trầm đó có bị thay đổi từ đầu đến cuối hay không

Về đặc trưng bổng trầm:

Loại bổng : /i, e, ε, įe, غ/

Loại trầm vừa: /Ш, a, ă, ŏ, ð, щÕ/

Loại cực trầm : /u, o,כ , כֿ , ųο/

Trong 3 loại âm sắc trên thì âm trầm vừa có thể được xem là âm sắc trung hòa Về tính cố định hoặc không cố định của âm sắc:

Loại âm sắc cố định gồm các âm vị /i, e, a, u, Ш, o, w, ε, כ, ŏ /

Loại âm sắc không cố định gồm các nguyên âm đôi /įe, щŏ, ųο/

Âm lượng Các nguyên âm có thể được phân biệt dựa vào âm lượng lớn hoặc nhỏ Các

nguyên âm thuộc âm lượng lớn lại có sự phân biệt giữa âm lượng cực lớn và âm lượng vừa Loại âm lượng nhỏ cũng được chia làm hai loại là nhỏ vừa và nhỏ

Trang 25

Loại âm lượng cực lớn gồm các nguyên âm / ε, غ, a, ă, כ, ŏ/

Loại âm lượng vừa gồm có /e, ŏ, ð, o/

Loại âm lượng nhỏ vừa gồm có các nguyên âm đôi /įe, щŏ, ųο/

Trường độ có 4 âm vị nguyên âm ngắn, phân biệt với 4 âm vị nguyên âm dài tương ứng về

mặt phẩm chất: ε/غ, ŏ/ ð, כ/כֿ Nguyên âm còn lại đều là nguyên âm dài

Sự phân bố các âm chính sau âm đệm

Nói chung tất cả các nguyên âm đều có thể xuất hiện sau âm đệm /zero/, ngoại trừ 2 trường hợp ngoại lệ như sau:

/ ųο/ (uô, ua) không xuất hiện sau phụ âm đầu /f/

/įe/ (iê, ia, yê, ya) không xuất hiện sau phụ âm đầu /γ/ (g, gh)

Ngược lại sau âm đệm /Ų/ không bao giờ xuất hiện các nguyên âm trầm /u, o, כ, ųο/ và hai nguyên âm trung hòa / Ш, щ ŏ/ Các âm bổng /e, i, ε, غ, įθ/ khi đã đi với /ų/ thì không bao giờ đi với âm cuối là phụ âm môi /p, m/

1.2.3.4 Âm cuối

Các âm vị làm âm cuối và sự thể hiện bằng chữ viết

Ngoài việc khác biệt về âm đầu, âm đệm âm chính và các thanh điệu, các âm tiết tiếng Việt còn được phân biệt với nhau bằng cách kết thúc khác nhau Có những âm tiết kết thúc bằng cách kéo dài và giữ nguyên âm sắc của âm chính, đó là trường hợp của các âm tiết có các âm tiết là âm vị /zero/ Những âm khác lại kết thúc bằng cách biến đổi âm sắc của âm tiết ở phần cuối của âm tiết do động tác khép lại của bộ máy phát âm, ứng với trường hợp các âm cuối là các phụ âm hay bán nguyên âm

Có tất cả 9 âm vị làm âm cuối, bao gồm 6 phụ âm, 2 bán nguyên âm và 1 âm vị /zero/ Các âm vị cuối và sự thể hiện bằng chữ viết tương ứng được trình bày trong bảng 1.8

Các đặc điểm khu biệt âm cuối

Về phương thức cấu tạo âm, các âm cuối có thể khu biệt nhau theo các tiêu chí sau đây:

Ồn vang:

Các âm ồn: /p, t, k/

Các âm vang: /m, n, ױ, ų, į/

Mũi, không mũi:

Các âm mũi: /p, m, ŋ/

Các âm không mũi: /ų, į/

Về mặt định vị có thể phân biệt các âm cuối theo các nhóm sau:

Các âm môi:/p, m, ų/

Các âm lưỡi: /t, k, n, ױ, į,/

C1-CƠ SỞ NGỮ ÂM HỌC 14 HVTH: THIỀM CÔNG NGUYÊN

Trang 26

Quy luật phân bố của âm cuối sau âm chính

Âm cuối /zero/ chỉ xuất hiện sau nguyên âm dài bao gồm cả nguyên âm đơn và nguyên âm đôi

Các bán nguyên âm cuối chỉ được phân bố sau các nguyên âm chính có âm sắc đối lập: /ų/ có âm sắc trầm, chỉ được phân bố sau các nguyên âm bổng và trung hòa

/į/ có âm sắc bổng, chỉ xuất hiện sau các nguyên âm trầm và trung hòa

Các nguyên âm ngắn /غ,כֿ/ không bao giờ xuất hiện trước các bán nguyên âm cuối Các phụ âm cuối nói chung được phân bố đều đặn sau các âm chính, ngoại trừ /غ,כֿ/

Các âm môi không xuất hiện sau /ш/

Các phụ âm /p, t, m, n/ không xuất hiện sau các nguyên âm ngắn /غ,כֿ /

Bảng 1.7 Sự phân loại các âm cuối trong tiếng Việt

/k/ ‘ch’ khi xuất hiện sau các nguyên âm bổng /i, e, غ/

‘c’ trong các trường hợp khác

Phụ

Aâm

/ױ/ ‘nh’ khi xuất hiện sau các nguyên âm bổng / i, e,غ /

‘ng’ trong các trường hợp còn lại

Ų ‘o’ khi đứng sau các nguyên âm dài, âm lượng lớn /ε, a/

‘u’ trong các trường hợp còn lại

Bán

nguyên

Aâm į, ‘y’ khi đứng sau các nguyên âm ngắn /ă, ð/

‘i’ trong các trường hợp còn lại

/zero/ khuyết một con chữ

1.2.3.5 Thanh điệu và sự tác động của chúng lên âm tiết

Thanh điệu là một yếu tố thể hiện cao độ và sự chuyển biến của cao độ trong mỗi âm tiết

Thanh điệu tác động lên toàn bộ âm tiết (âm đầu, âm đệm, âm chính và âm cuối)

Hệ thống thanh điệu Tiếng Việt không thể hiện đồng đều ở các địa phương Từ Nghệ An trở vào, nói chung chỉ có 5 thanh điệu với những hệ thống khác nhau:

- Thanh Hóa: thanh ngã trùng với thanh hỏi

- Bắc Trung Bộ: thanh ngã trùng với thanh nặng

- Nam Trung Bộ và Nam Bộ : thanh ngã trùng với thanh hỏi

Trang 27

Thanh điệu làm thay đổi thành phần tần số cơ bản của âm tiết, là sự nâng lên hoặc hạ xuống của âm điệu theo thời gian Tuy nhiên sự thể hiện của mỗi thanh điệu mỗi khác nhau Người ta dựa vào 3 tiêu chí để nhân diện các thanh điệu Đó là:

Cao độ: Ta nhận thấy rằng các thanh điệu không dấu, ngã sắc thuộc âm vực cao

Trong khi các âm điệu huyền hỏi nặng thuộc âm vực thấp

Sự thay đổi âm điệu: Thanh huyền và thanh không dấu có âm điệu bằng phẳng,

không thay đổi, gọi là âm điệu bằng Các âm ngã, sắc, hỏi và nặng có âm điệu thay đổi phức tạp, không bằng phẳng gọi là âm điệu trắc

Cách thay đổi âm điệu: khi phát âm, nếu âm điệu chỉ thay đổi theo một hướng chỉ

đi lên hoặc đi xuống) ta gọi là âm điệu không gãy Các thanh sắc, nặng thuộc loại này Ngược lại các thanh ngã, hỏi làm âm điệu thay đổi phức tạp, đổi hướng nên được gọi là âm điệu gãy

Bảng 1.8 Phân bố âm điệu và âm vực của thanh điệu

Không bằng phẳng

Âm điệu

Các thanh điệu được thể hiện thông qua sự biến đổi của âm điệu theo thời gian, còn gọi là đường nét thanh điệu

Đầy đủ và khu biệt rõ ràng nhất là hệ thống thanh điệu của miền Bắc mà tiêu biểu là Hà Nội, được miêu tả như sau:

t

f

(1)(2)

t

f

Thanh ngang (1): đường nét thanh điệu bằng

phẳng, hầu như không lên xuống từ đầu đến cuối

Thanh huyền (2): Đường nét âm điệu bằng phẳng,

hơi đi xuống thoai thoải đều đều

Thanh ngã (3): Bắt đầu thấp (gần ngang cao độ

xuất phát của thanh 2 nhưng kết thúc ở âm vực

cao) Đường nét phức tạp, không bằng phẳng, đi

xuống dốc đứng, nghẽn thanh hầu gây gián đoạn ở

giữa rồi vút lên đột ngột, kết thúc cao hơn lúc đầu

rất nhiều

Thanh hỏi (4): đường nét âm điệu phức tạp, thấp

dần rồi đi lên cân đối với đi xuống, kết thúc bằng

với độ cao lúc ban đầu

C1-CƠ SỞ NGỮ ÂM HỌC 16 HVTH: THIỀM CÔNG NGUYÊN

Trang 28

Thanh sắc (5): đường nét không đều, từ thấp lên cao

không đổi hướng, kết thúc rất cao bằng một nét tắt

Thanh nặng (6): âm vực thấp (bắt đầu gần bằng thanh

2) Đường nét không đều, từ cao xuống thấp không

đổi hướng, kết thúc bằng một nét tắt giọng Nếu âm

cuối là âm mũi thì thì phần đi xuống nằm vào âm

cuối Nếu âm cuối là âm tắt vô thanh thì phần đi

xuống nằm ngay ở cuối âm chính

Trong thanh điệu cao độ kết thúc có tầm quan trọng hơn hẳn cao độ xuất phát Ta nhận thấy

rằng để nhận biết được sáu thanh điệu trên ta chỉ cần ba sự phân biệt đó là âm vực (cao hay thấp), âm điệu (gãy hay không gãy) và đưỡng nét âm điệu (đi lên hay đi xuống)

Thanh điệu được thể hiện rõ nét nhất trong phần vần, hay đúng hơn là trong phần âm chính và âm cuối, vì đây là thành phần tạo nên âm hưởng cơ bản của toàn bộ âm tiết Nếu âm cuối là phụ âm tắt, vô thanh thì sự thể hiện của âm điệu bị hạn chế Do đó các thanh điệu nào mà đường nét âm điệu đòi hỏi một thời gian dài mới thể hiện được thì không thể xuất hiện được cùng với loại âm cuối này Ngược lại nếu âm cuối là âm mũi, bán nguyên âm hay âm vị /zero/ thì đường nét âm điệu đặc trựng cho mỗi thanh điệu mới có điều kiện để thể hiện đầy đủ Như vậy sự phân bố của âm điệu chủ yếu phụ thuộc vào âm cuối của âm tiết Điều này được minh họa trong bảng sau:

Bảng 1.9 Sự phân bố thanh điệu theo âm cuối của âm tiết, ký hiệu X để chỉ rằng

thanh điệu có thể xuất hiện ở vị trí tương ứng

T điệu

Có âm cuối

Có âm cuối

không vô

Trang 29

CHƯƠNG 2

CƠ SỞ LÝ THUYẾT PHÂN TÍCH

TÍN HIỆU

Chương 2 sẽ trình bày tóm tắt lý thuyết cơ bản và khái quát một

số phương pháp xử lý, phân tích tín hiệu về sau

Trong chương này sẽ bao gồm một số phần cơ bản như sau:

Phần các phép biến đổi bao gồm phép biến đổi STFT và phép

biến đổi CWT Đồng thời phân tích đặc điểm và tính ưu việt của

phép biến đổi CWT so với các phép biến đổi cổ điển khác

Phần kế tiếp sẽ trình bày về việc xử lý và biểu diễn tín hiệu

tiếng nói Trong phần này cũng giới thiệu một số phương pháp

xử lý từ đầu đến cuối (front-end processing) cho các hệ nhận

dạng tiếng nói đó là phương pháp dãy lọc và phương pháp mã

dự báo tuyến tính LPC

Phần cuối sẽ trình bày phép lượng tử hoá vector để nâng cao

khả năng biểu diễn của tín hiệu, nhằm giảm không gian lưu trữ

thông tin cho phép nhận dạng hiệu quả hơn

Trang 30

2.1 CÁC PHÉP BIẾN ĐỔI

Chúng ta chủ yếu bàn về phép biến đổi wavelets liên tục CWT (Continuous Wavelets Transform) và phân tích tính ưu việt của nó so với các phép biến đổi cổ điển Tuy nhiên để mô tả một cách có hệ thống, trước hết phép biến đổi Fourier thời gian ngắn được trình bày

sơ lược, đây chính là một sự cải tiến của phép biến đổi Fourier cổ điển

2.1.1 Phân tích Fourier thời gian ngắn STFT (Short Time Fourier

Transform)

Nhằm cố gắng khắc phục những nhược điểm của phép biến đổi Fourier cổ điển, năm 1946 Dennis Gabor đã đưa ra được phép biến đổi Fourier cải tiến Phép biến đổi này thực hiện phân tích tín hiệu trong một khoảng thời gian ngắn nên được gọi là phép biến đổi Fourier thời gian ngắn sử dụng phương pháp cửa sổ hoá tín hiệu Phương pháp này ánh xạ tín hiệu thành một hàm 2 biến thời gian và tần số Biểu diễn tín hiệu bằng STFT được mô tả theo hình 2.2

Phép biến đổi Fourier thời gian ngắn cho ta một sự mô tả hoà hợp hơn giữa miền thời gian và tần số của tín hiệu Sau khi biến đổi ta có thể nhận biết được tín hiệu bao gồm những thành phần tần số nào và những thành phần tần số ấy xuất hiện trong lân cận những thời điểm nào trong miền thời gian Chúng ta nói STFT có tính định vị cả thời gian và tần số nên rất thích hợp để phân tích các tín hiệu không dừng như tín hiệu tiếng nói

Cửa sổ

STFT

Hình 2.1 Biểu diễn tín hiệu bằng STFT

2.1.1.1 Công thức biến đổi

Biến đổi STFT là biến đổi Fourier thông thường của tín hiệu f(t) sau khi nhân với cửa sổ ω(t-τ):

( ), e (t ) ( )f t dt g ( ) ( )t ,f t

τ ω

Trang 31

trong đó gω (t) = ω(t-τ)ejωt là phiên bản dịch và điều chế của hàm cửa sổ ω(t) với ω(t) là hàm lọc thoả điều kiện hàm có năng lượng hữu hạn và khả tích tuyệt đối

Công thức (2.1) cho thấy STFT đo sự giống nhau giữa tín hiệu với phiên bản dịch và điều chế của hàm cửa sổ cơ bản ω(t) Các thao tác dịch và điều chế hàm cửa sổ (cơ sở) ω(t) không làm thay đổi kích thước của hàm cửa sổ mà chỉ tịnh tiến theo các trục thời gian và tần số Do đó, mỗi hàm cửa sổ sử dụng trong phép khai triển STFT có cùng độ phân giải thời gian-tần số, chỉ khác nhau vị trí trên mặt phẳng thời gian-tần số

Công thức (2.1) cũng cho thấy STFT chính là biến đổi Fourier của tín hiệu sau khi được lọc Hàm sau khi biến đổi là hàm hai biến (ω,τ) với τ là biến được thêm vào tương ứng vị trí lọc được áp dụng Rõ ràng hàm cửa sổ ω(t) cho ta phổ tần số của tín hiệu f(t) xung quanh τ Nếu chọn các giá trị ω và τ liên tục thì STFT phủ toàn bộ mặt phẳng thời gian tần số Tuy nhiên điều này là rất dư thừa Do đó chúng ta có thể rời rạc STFT trên một lưới hình chữ nhật (mωo, nτo) Nếu hàm cửa sổ là lọc thông thấp có tần số cắt ωb hoặc băng thông 2ωb thì

ωo được chọn nhỏ hơn 2ωb và τo nhỏ hơn π/ωb để việc lấy mẫu không mất thông tin

Bởi vì STFT là biến đổi Fourier cục bộ nên bất kỳ cửa sổ nào được dùng phải là hàm cửa sổ thích hợp Một cửa sổ hình chữ nhật có tính cục bộ tần số kém nên một cửa sổ trơn (smooth) hơn là hợp lý Một ví dụ là cửa sổ hình tam giác có phổ suy giảm 1/ω2 và rõ ràng là sự lựa

chọn tốt hơn Các cửa sổ trơn hơn được dùng trong phân tích tín hiệu như Hanning window:

khácnơi , 0

T/2]

[-T/2,t

/)]

T/cos(

[

Một cửa sổ cổ điển khác được sử dụng bởi Gabor là hàm cửa sổ Gaussian:

(2.3) Hệ số α xác định bề rộng về thời gian của cửa sổ phân tích, β là hệ số chuẩn hoá

Trang 32

2.1.1.3 Hạn chế của phép biến đổi Fourier thời gian ngắn

Phép biến đổi Fourier thời gian ngắn có ưu điểm là cho ta một sự hoà hợp khi mô tả tín hiệu giữa 2 miền thời gian và tần số Tuy nhiên nó gặp phải một trở ngại là khi ta đã chọn một cửa sổ phân tích thì kích thước của cửa sổ này sẽ không đổi trên toàn mặt phẳng thời gian-tần số Mọi thành phần thời gian, tần số của tín hiệu được định vị như nhau trong khi nhiều tín hiệu lại yêu cầu những cách xử lý linh hoạt hơn như tín hiệu xung δ(t) yêu cầu định vị tốt về thời gian Điều này chỉ có thể thực hiện được khi kích thước của cửa sổ phân tích có thể thay đổi được tuỳ theo yêu cầu định vị tốt về thời gian hay tần số Hạn chế này sẽ được khắc phục trong phép biến đổi wavelets sẽ được trình bày tiếp theo

2.1.2 Phép biến đổi wavelets (Wavelets Transform)

2.1.2.1 Giới thiệu

Phép biến đổi wavelets là một bước cải tiến tiếp theo của phép biến đổi Fourier thời gian ngắn Như chúng ta đã phân tích ở mục trước phép biến đổi Fourier thời gian ngắn không thể hiện tính linh hoạt khi định vị các thành phần trong một tín hiệu vì kích thước cửa sổ phân tích không thay đổi được, do đó tín hiệu chỉ được phân tích ở một độ phân giải thời gian và độ phân giải tần số cố định Điều này được khắc phục trong phép biến đổi wavelets, cửa sổ sử dụng để phân tích tín hiệu có thể được phóng to hay thu nhỏ (“zoom in” or “zoom

out”) bởi một thao tác đơn giản là thay đổi hệ số co giãn (scale factor), đồng thời cửa sổ đó có thể dịch chuyển được thông qua một hệ số dịch chuyển (shift factor) trong hàm cơ sở

Trang 33

Biên độ scale

Ưu điểm lớn nhất của phép biến đổi wavelets so với các phép biến đổi cổ điển khác là nó cho phép sự phân tích khu vực (local analysis) Nghĩa là cho phép phân tích tín hiệu trong từng vùng thời gian-tần số của tín hiệu Từ đó cho phép ta phân tích một số đặc điểm của tín hiệu mà các phép phân tích khác không thể thực hiện được như là phân tích điểm gãy, sự thay đổi đột ngột, sự tự tương tự (self similiar) của tín hiệu …

Khác với phép biến đổi Fourier dựa trên một hàm cơ sở là hàm sin nên có khoảng thời gian tồn tại vô hạn (-∞, +∞) Phép biến đổi wavelets dựa trên một hàm cơ sở có khoảng thời gian tồn tại giới hạn và có giá trị trung bình bằng không Một ví dụ về hàm cơ sở của phân tích wavelets được thể hiện trong hình 2.4:

Hình 2.3 Hàm cơ sở trong phép biến đổi wavelets

Phép biến đổi Wavelets phân tích một tín hiệu thành những phiên bản được co giãn và dịch từ một hàm wavelets ban đầu còn gọi là hàm wavelets mẹ (mother wavelet) Biến đổi wavelets được định nghĩa là tổng trên toàn trục thời gian của tín hiệu nhân với phiên bản được dịch và co giãn từ một hàm cơ sở wavelets ψ:

(scale,position) f( ) (t scale,position)dt

−ψ

Kết quả của phép biến đổi wavelets là một tập hợp các hệ số wavelets C Đó là một hàm hai biến theo hệ số co giãn (scale) và vị trí tại điểm phân tích (position) Kết quả này khi được thể hiện trên không gian 3 chiều còn gọi là scalogram (hình 2.4)

Trang 34

Hình 2.4 Các hệ số wavelets trên không gian 3 chiều

Nếu nhân các hệ số với phiên bản scale và dịch hợp lý của mother wavelets, chúng ta sẽ khôi phục tín hiệu gốc ban đầu

Trong phép biến đổi wavelets có một sự tương ứng giữa hệ số co giãn và tần số

Do đó, hệ số scale tỷ lệ nghịch với tần số

2.1.2.2 Biến đổi wavelets liên tục CWT (Continuous WaveletsTransform)

Cho hàm wavelets mẹ (mother wavelet) ψ(t) ∈ L2(R) là đáp ứng xung của bộ lọc thông dải và có giá trị trung bình bằng 0

(2.8) Khi đó, một phiên bản được dịch và lấy tỷ lệ từ hàm ψ(t) có dạng:

( ) =Ψ( )0 =0ψ

−dtt

a

bta

tb , a

Trang 35

với a ∈ R+\{0}: hệ số tỷ lệ

ωΨ

C

2

(2.11)

với Ψ(ω) là hàm biến đổi Fourier của ψ(t)

Hàm wavelets đã chuẩn hoá nên có năng lượng bằng 1:

=ωωΨπ

tt

(2.13)

( )2 = ψ( )2 =1

ψa,b t tBiến đổi wavelets liên tục của hàm f(t) ∈ L2(R) được tính bởi công thức biến đổi:

(2.14) Công thức tổng hợp f(t) từ biến đổi wavelets của nó là:

( b )

Trang 36

Một ví dụ cổ điển của việc phân tích wavelets liên tục sử dụng hàm mũ phức là hàm Morlet wavelets có dạng như sau:

( )ω =e− ( ω − ω ) 2 / 2Ψ

(2.16)

và phổ của nó:

(2.17) Hệ số 1/ 2π được chọn để cho ψ( )t =1 (chuẩn hoá năng lượng)

2.1.2.3 Biến đổi wavelets rời rạc

Vì những hàm wavelets ψa,b(t) được định nghĩa đối với mọi điểm trong không gian (a,b) nên việc áp dụng những cơ sở wavelets trở nên rất dư thừa Để giảm bớt các dư thừa này ta có thể rời rạc hóa thông số a, b theo công thức sau: a = aom, b = n bo aom Trong đó, ao > 0 và bo

> 0 và là những thông số cố định, m và n là những số tự nhiên

(2.19) Nếu chọn ψ(t), a0, b0, thích hợp thì ta được công thức khôi phục lại f(t) như sau:

o

m o o /

m o n

,

a

a nb t a

=

( )tc

)t

Z n ,

m m,n

ψ

2.2 XỬ LÝ VÀ BIỂU DIỄN TÍN HIỆU

Tín hiệu (signal) là biểu hiện vật lý của thông tin (information) Các thông tin này thường là những thông tin về trạng thái (state) hay hành vi (behavior) của một hệ vật lý nào đó Về mặt toán học, tín hiệu được coi là hàm của một hay vài biến độc lập

Trang 37

Tín hiệu liên tục theo thời gian là tín hiệu có biến độc lập liên tục Ngược lại, tín hiệu rời

rạc theo thời gian là tín hiệu có biến độc lập rời rạc

Tín hiệu tương tưï là tín hiệu liên tục cả về biên độ và thời gian

Tín hiệu được lượng tử hoá là tín hiệu có biên độ rời rạc nhưng thời gian liên tục

Tín hiệu số là tín hiệu rời rạc (theo biến độc lập) đồng thời biên độ cũng rời rạc

Bảng sau minh hoạ cách phân loại tín hiệu :

Bảng 2.1 Phân loại tín hiệu

Biên độ

Tín hiệu tương tự (Analog)

Tín hiệu lượng tử (Quantised) Liên tục

Tín hiệu rời rạc (Discrete) Tín hiệu số (Digital) Rời rạc

Tiếng nói được xem là một tín hiệu âm thanh và được xem là hàm của một biến độc lập, đó là thời gian Tiếng nói mà chúng ta nghe được là một tín hiệu tương tự Tiếng nói dùng xử lý trên môi trường máy tính đã được rời rạc hoá thông qua quá trình lấy mẫu Vì vậy, tiếng nói có thể được biểu diễn bằng một chuỗi số Thêm vào đóù tín hiệu này đã được lượng tử hoá nghĩa là biên độ cũng được rời rạc hoá, nên được xem là tín hiệu số Thông thường âm thanh nói chung và tiếng nói nói riêng được lưu trữ như các chuỗi số nguyên trên máy tính

2.2.1 Xửõ lý tín hiệu liên tục

Biến đổi Laplace là sự mở rộng của biến đổi Fourier trên mặt phẳng phức:

j

j

∈σπ

= +∫∞

−21

(2.22)

Trang 38

Ta kí hiệu cặp biến đổi Laplace: f(t) ↔ F(s), s ∈ ROC

2.2.2 Xử lý tín hiệu rời rạc

Biến đổi Z được định nghĩa như sau:

(2.23)

Ta kí hiệu cặp biến đổi z: f[t] ↔ F(z), z ∈ ROC

Tính chất:

f[n]=h[n]*g[n] ↔ F(z)=H(z).G(z) (2.24) x[n-k] ↔ z-k X(z) (2.25) Cho phương trình vi phân bất biến:

( ) [ ] n n

znfz

zbz

X

zYzH

0 1 0 1

(2.27)

Ta thấy đầu ra là tích chập của đầu vào với bộ lọc rời rạc có đáp ứng xung h[n], biến đổi z

ngược của H(z)

2.2.3 Khai triển chuỗi cho các hàm thời gian liên tục

Trong mục này, chúng ta sẽ tìm cách biểu diễn các hàm liên tục theo thời gian bằng cách

khai triển chuỗi Ta đi tìm các tập hàm liên tục thời gian trực giao {ϕk(t)} sao cho các tín

hiệu f(t) thuộc một lớp nào đó (ví dụ L2(R)) có thể được biểu diễn bởi:

( )= ∑∞ ϕ ( ) ( ) ( )ϕ

−∞

=

k k t , f u k t t

Nói cách khác, f(t) có thể được viết bằng tổng các hình chiếu trực giao xuống các vector cơ

sở Các vector cơ sở {ϕk(t)} phải thoả mãn 2 ràng buộc:

Trực giao: ϕk( ) ( )u , ϕl u = δ[ ]k − l (2.30)

Đầy đủ: Span của nó phải phủ không gian các hàm cần được biểu diễn

Trang 39

Các khai triển chuỗi cơ bản:

a) Chuỗi Fourier cho hàm tuần hoàn: một hàm tuần hoàn có thể được viết bằng tổ hợp

tuyến tính từ các hàm sine, cosine hay các hàm luỹ thừa phức

(2.31) Trong đó F[k] là các hệ số Fourier

e k F t

T / k 2

j f t dt e

T

1 k

Có nghĩa là biến đổi Fourier của một chu kì được tính toán tại các số nguyên lần ω0 = 2π/T Chúng ta thấy rằng tập các hàm { ej (2kπt) / T, k ∈ Z, t ∈ [-T/2, T/2]} là một tập trực giao, tức là:

e

] 2 T/

, 2 T/

[

/T t k 2 j /T t k 2

khácnơi,

/

, T

T / sin t c sin t

Trang 40

Trong miền thời gian chúng ta chập hàm đã lấy mẫu xs(t) với hàm cửa sổ g(t) để phục hồi

Hơn nữa nếu một tín hiệu không có băng thông hữu hạn, thì đó là thực hiện một phép chiếu

trực giao xuống không gian của các tín hiệu có băng thông hữu hạn trong khoảng tần số

(-ωs/2, ωs/2)

2.2.4 Độ phân giải thời gian, tần số của các khai triển

Ta vừa xem xét khai triển của 2 loại tín hiệu: tín hiệu tuần hoàn và tín hiệu có băng thông

hữu hạn, và sẽ quan tâm đến việc khai triển các tín hiệu tổng quát hơn Khi đó các hàm cơ

sở mặc dù có biểu thức ngắn gọn nhưng lại không có giới hạn trong miền thời gian Các ảnh

hưởng cục bộ trải ra các vùng rộng của miền khai triển Điều này thường không mong muốn

nếu chúng ta muốn phát hiện ảnh hưởng cục bộ nào đó trong một tín hiệu, mà đây lại là

thao tác cơ bản trong việc phân tích các tín hiệu không ổn định Một ví dụ đơn giản là biến

đổi Fourier của một hàm xung δ(t) xuất hiện tại thời điểm t=0 cho kết quả là phổ X(ω) = 1

trên toàn trục tần số

Do đó khi xây dựng các khai triển chuỗi, chủ yếu dựa trên wavelets, tập hàm cơ sở cần phải

thoả mãn những yêu cầu nào đó

Các yêu cầu của hàm cơ sở:

• Đặc tả đơn giản

• Có tính cục bộ cả về thời gian và tần số

• Bất biến đối với một số phép toán (ví dụ như phép dịch trong miền thời gian)

• Tính trơn (liên tục, khả sai phân)

• Tính moment (moment bằng 0)

Tn

1t

−∞

=

Ngày đăng: 16/04/2021, 04:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[18] T. Le-Tien, T. Tien Duc, "Continuous Vietnamese Speech Recognition using Neural networks" , Journal of Science & Technology Development, Vietnam Nation university of HOCHIMINH city, 10-2002, Vol.5, pp 13-21 (in Vietnamese) Sách, tạp chí
Tiêu đề: Continuous Vietnamese Speech Recognition using Neural networks
[19] T. Le-Tien, et al, "An efficient wavelets-based approach for Vietnamese speech recognition", DGPT – Posts and Telecommunications Journal, Special Issue on Research and Development on Telecommunications and Information Technology, May-2002, ISSN 0866-7039, pp 5-14 (in Vietnamese) Sách, tạp chí
Tiêu đề: An efficient wavelets-based approach for Vietnamese speech recognition
[20] T. Le-Tien, T.T.Hung, T.T. Duc, H.D. Chien, "Recognizing formants anh pitch periods for Vietnamese speech based on the local modulus maxima in the wavelet domain", Journal of Science & Technology Development, Vietnam Nation university of HOCHIMINH city, Vol. 4, No 1&2-2001, pp 43-55 (in English) Sách, tạp chí
Tiêu đề: Recognizing formants anh pitch periods for Vietnamese speech based on the local modulus maxima in the wavelet domain
[21] T. Le-Tien, et al, "Feature extraction based on discrete wavelet transform for Vietnamese Speech recognition", Proceedings of 8 th Conference on Science and Technology, 26&27 th April, 2002, HoChiMinh University of Technology, Vietnam, pp 1-4 (in Vietnamese) Sách, tạp chí
Tiêu đề: Feature extraction based on discrete wavelet transform for Vietnamese Speech recognition
[22] N.T.Duy-L.M.Linh, “Wavelet and neural networks applied to vietnamese speech recognition”, Graduation thesis, Supervisor Dr Thuong Le-Tien, Telecom Department Ho Chi Minh University of Technology, 01-2002 Sách, tạp chí
Tiêu đề: Wavelet and neural networks applied to vietnamese speech recognition
[3] Robi Polikar, ‘The Engineer’s Ultimate Guide To Wavelet Analysis’, http://www.public.iastate.edu/∼rpolikar/WAVELETS/Tutorial.html, 1996 Link
[7] Peter I. Corke, ‘Robotics Toolbox’, http://www.brb.dmt.csiro.au/dmt/pro-grams/autom/matlab.html, 1996 Link
[8] Garett A. Sohl, James E. Bobrow, ‘ A recursive multibody dynamics and sensitivity algorithim for branched kinematic chains’, http://www.eng.uci.edu/∼ - bobrow, 2000 Link
[2] Michel Misiti, Yves Misiti, Georges Oppenhein, Jean-Michel Poggi, ‘MATLAB – Wavelet toolbox User’s Guide’, 1997 Khác
[5] Thuong Le-Tien, ‘A study on the continous wavelet transform for the Vietnamese speech processing’, Proceedings of the 1997 Intenational Conference on Neural Information Processing and Intelligent Information Systems, ICONIP'97, University of Otago, Dunedin, New Zealand, pp 1072-1075, November 1997 Khác
[10] Cao Xuân Hạo, ‘Tiếng Việt mấy vấn đề về ngữ âm, ngữ nghĩa ngữ pháp’ NXB Giáo Dục, 1998 Khác
[11] S. Kadamble, G.F Boudreaux-Bartels, ‘Application of the wavelet transform for pitch detection of speech signals’ IEEE tran. On Inf. Theory, vol.38, Mar 1992 Khác
[12] T.Le-Tien, H. Talhami, D.T. Nguyen, ‘simple algorithim for wavelet maxima modulus extraction in time-scale representation’, IEEE Electronic Letter, Feb 97 vol.33 Khác
[13] J. Do, PD. Dieu, S.E. Goodman, ‘Vietnam Information technology for the transition’, IEEE Computer Society, March 1996 Khác
[14] H.V. Khuong, L.N. Phu, ‘A study on Vietnamese speech-base controller for communication using wavelets’, Graduation thesis, Supervisor Dr Thuong Le-Tien, Telecom Department Ho Chi Minh University of Technology, 12-2000 Khác
[15] T.T Hung, ‘ Astudy on speech recognition for robot communication using wavelet transform’, Master thesis, Supervisor Dr Thuong Le-Tien, Telecom Department Ho Chi Minh University of Technology, 8-2000 Khác
[16] DSP56303 Digital Signal Processor User’s Manual, Technical Data, Motorola Inc., 1996 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm