Nghiên cứu nhận dạng tiếng việt sử dụng mạng Neural Nghiên cứu nhận dạng tiếng việt sử dụng mạng Neural Nghiên cứu nhận dạng tiếng việt sử dụng mạng Neural luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
Trang 1-
LUẬN VĂN THẠC SĨ KHOA HỌC
NGHIÊN CỨU NHẬN DẠNG TIẾNG VIỆT SỬ DỤNG MẠNG NEURAL
NGÀNH: KỸ THUẬT ĐIỆN TỬ
3.04.3898
NGUYỄN THỊ PHƯƠNG THẢO
Người hướng dẫn khoa học : TS PHẠM VĂN BÌNH
Trang 2MỤC LỤC
MỤC LỤC i
DANH MỤC HÌNH VẼ, ĐỒ THỊ iv
DANH MỤC BẢNG BIỂU vi
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI 4
1.1 Sự hình thành và một số đặc điểm cơ bản của tiếng nói 4
1.2 Biểu diễn tín hiệu âm thanh trên miền thời gian và tần số 6
1.3 Một số tính chất thống kê của tiếng nói 9
1.3.1 Sự phân bố về biên độ 9
1.3.2 Thống kê đối với phổ tiếng nói 10
1.4 Mô hình hình thành tiếng nói 11
1.4.1 Lý thuyết mô hình hình thành tiếng nói 11
1.4.2 Mô hình mạch tương đương rời rạc tuyến tính 11
1.4.3 Mô hình Vocal Tract 12
1.5 Một số phương pháp nhận dạng tiếng nói tự động 14
1.5.1 Phương pháp ngữ âm – âm tiết 15
1.5.2 Phương pháp nhận dạng mẫu 16
1.5.3 Phương pháp sử dụng trí tuệ nhân tạo 17
1.5.4 Phương pháp sử dụng mạng neural 17
CHƯƠNG 2 XỬ LÝ TÍN HIỆU VÀ PHƯƠNG PHÁP PHÂN TÍCH XÁC ĐỊNH ĐẶC TRƯNG CỦA TIẾNG NÓI 18
2.1 Phân tích và xử lý tín hiệu 19
2.2 Lý thuyết mã hóa dự báo tuyến tính (LPC) 20
2.2.1 Cơ sở lý thuyết phương pháp mã hóa dự báo tuyến tính 21
2.2.2 Phương pháp tự tương quan 24
2.2.3 Mô hình pha trích trọn đặc trưng 28
2.3 Các kĩ thuật so sánh mẫu 36
2.3.1 Giới thiệu 36
2.3.2 Phát hiện tiếng nói 38
2.3.3 Kỹ thuật căn chỉnh thời gian động 41
Trang 3CHƯƠNG 3 MẠNG NEURAL NHÂN TẠO 48
3.1 Mạng neural sinh học 48
3.2 Mô hình và kiến trúc mạng neuron nhân tạo 50
3.2.1 Mô hình mạng neural nhân tạo 51
3.2.2 Kiến trúc mạng neural nhân tạo 55
3.3 Huấn luyện mạng Neural 59
3.3.1 Luật Hebb 60
3.3.2 Luật giả nghịch đảo (Pseudoinverse Rule) 63
3.3.3 Một số dạng biến đổi của luật Hebb 64
3.4 Một số kiến trúc mạng Neural 65
3.4.1 Kiến trúc mạng Perceptron một lớp 65
3.4.2 Mạng Perceptron nhiều lớp và thuật toán lan truyền ngược 69
3.4.3 Mạng cạnh tranh, mạng tự tổ chức và mạng lượng tử véc tơ 75
3.5 Một số kết quả đã được nghiên cứu dùng mạng neural trong nhận dạng tiếng nói 85
3.5.1 Công nghệ dùng mạng neural nhận dạng tiếng nói 85
3.5.2 Các mạng không hồi quy 86
3.5.3 Mạng hồi quy 87
CHƯƠNG 4 PHÂN TÍCH ĐẶC ĐIỂM NGỮ ÂM TIẾNG VIỆT 88
4.1 Đặc điểm của âm tiết tiếng Việt 88
4.2 Cấu tạo của âm tiết tiếng Việt 89
4.2.1 Âm vị tiếng Việt 91
4.2.2 Sự thể hiện của các âm vị trên chữ viết 96
4.3 Lựa chọn đơn vị nhận dạng tiếng Việt 99
4.3.1 Mô hình từ và âm tiết 99
4.3.2 Mô hình âm vị 100
4.3.3 Mô hình âm đầu - vần 101
CHƯƠNG 5 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT 103
5.1 Khối xử lý tín hiệu 103
5.1.1 Phát hiện điểm bắt đầu và kết thúc của âm tiết 104
5.1.2 Chuẩn hoá biên độ và nhiễu 106
Trang 45.1.4 Cắt khung và phân tích tham số LPC 109
5.1.5 Véc tơ tham số LPC 109
5.2 Khối nhận dạng 110
5.2.1 Thiết kế mạng LVQ2 cho nhận dạng âm tiết 110
5.2.2 Thiết kế mạng Perceptron 113
5.3 Thiết kế chương trình 116
5.3.1 Chức năng huấn luyện 116
5.3.2 Chức năng nhận dạng 117
5.4 Thử nghiệm và đánh giá kết quả 117
KẾT LUẬN 118
TÀI LIỆU THAM KHẢO 120
Trang 5DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1 Mô hình âm thanh 4
Hình 1.2 Dạng tín hiệu của câu nói “It’s time” 6
Hình 1.3 Phổ của đoạn âm thanh “Every salt breeze comes from the sea” 7
Hình 1.4 Phổ tần số - biên độ tín hiệu 8
Hình 1.5 Tần số Formant của câu “Why do I owe you a letter” 9
Hình 1.6 Sự thay đổi độ lệch tiêu chuẩn và trung bình so với tần số cơ bản 10
Hình 1.7 Phân bố tần số cơ bản 10
Hình 1.8 Mô hình quá trình tạo tiếng nói 11
Hình 1.9 Mô hình mạch tương đương rời rạc tuyến tính 12
Hình 1.10 Mô hình Vocal Tract 13
Hình 1.11 Phổ biên độ của mỗi tần số Formant 14
Hình 1.12 Sơ đồ khối hệ thống nhận dạng tiếng nói ngữ âm – âm tiết 15
Hình 1.13 Mô tả sơ đồ khối của hệ nhận dạng mẫu 17
Hình 2.1 Mô hình dự báo tuyến tính 21
Hình 2.2 Minh hoạ mẫu tiếng nói, đoạn được định trọng, và lỗi dự báo đối với âm hữu thanh tại đó lỗi dự báo là lớn ở đầu đoạn 25
Hình 2.3 Minh hoạ mẫu tiếng nói, đoạn được định trọng và lỗi dự báo đối với âm hữu thanh nơi lỗi dự báo là lớn ở cuối đoạn 27
Hình 2.4 Minh hoạ mẫu tiếng nói, đoạn tiếng được định trọng và lỗi dự báo đối với âm vô thanh nơi hầu như không có sự giả tạo ở rìa đoạn 28
Hình 2.5 Sơ đồ khối của bộ xử lý LPC để nhận dạng tiếng nói 29
Hình 2.6 Phổ cường độ của mạng tiền khuếch đại LPC với a~=0.95 29
Hình 2.7 Chia khối thành các khuông 31
Hình 2.8 Sơ đồ khối nhận dạng tiếng nói sử dụng phương pháp hiện trong pha phát hiện tiếng nói 40
Hình 2.9 Sơ đồ khối hệ nhận dạng sử dụng phương pháp ẩn trong pha phát hiện tiếng nói 40
Hình 2.10 Ví dụ hai vị trí biên có thể xảy ra của một từ 41
Trang 6Hình 2.11 Sơ đồ khối hệ nhận dạng sử dụng phương pháp lai trong pha phát hiện tiếng
nói 41
Hình 2.12 Lưới minh họa quy hoạch động 44
Hình 2.13 Minh họa căn chỉnh thời gian động giữa mẫu chuẩn “SPEECH” với mẫu nhận dạng có nhiễu “SsPEEhhH” 45
Hình 2.14 Mô tả hướng đi tới các ô (i,j), (i,0), (i,1) 47
Hình 3.1 Sơ đồ khối hệ thần kinh 48
Hình 3.2 Các thành phần của mạng neural 49
Hình 3.3 Mô hình mạng neural một đầu vào 51
Hình 3.4 Mô hình mạng neural nhiều đầu vào 54
Hình 3.5 Mô hình mạng neural nhiều đầu vào rút gọn 54
Hình 3.6 Kiến trúc mạng neural một lớp 55
Hình 3.7 Mạng neural một lớp S neuron, R đầu vào 56
Hình 3.8 Mạng 3 tầng 57
Hình 3.9 Khối trễ 58
Hình 3.10 Khối tích 58
Hình 3.11 Mạng hồi quy 59
Hình 3.12 Bộ kết hợp tuyến tính 60
Hình 3.13 Mạng Perceptron 65
Hình 3.14 Mạng Perceptron một neuron hai đầu vào 66
Hình 3.15 Mạng Perceptron 67
Hình 3.16 Mạng 3 tầng 70
Hình 3.17 Mạng Hamming 76
Hình 3.18 Tầng cạnh tranh 78
Hình 3.19 Đồ thị biểu diễn luật Kohonen 79
Hình 3.20 Láng giềng 81
Hình 3.21 Mạng LVQ 83
Hình 4.1 Cây biểu diễn cấu trúc âm tiết của tiếng Việt 89
Hình 4.2 Sơ đồ âm tiết tiếng Việt tổng thể 91
Trang 7Hình 4.3 Sơ đồ hình thang nguyên âm 93
Hình 5.1 Sơ đồ khối của một hệ thống nhận dạng âm tiết 103
Hình 5.2 Sơ đồ khối pha phát hiện điểm bắt đầu và kết thúc âm tiết 105
Hình 5.3 Mạng LVQ ( Kích thước s1 và s2 chưa xác định ở đây) 111
Hình 5.4 Sơ đồ huấn luyện và nhận dạng mạng neuron 115
DANH MỤC BẢNG BIỂU Bảng 2.1 Các giá trị đặc trưng cho các tham số phân tích LPC đối với hệ nhận dạng tiếng nói 36
Bảng 3.1 Một số hàm truyền của mạng neural 52
Bảng 3.2 Tóm tắt một số kết quả của một số người nghiên cứu về nhận dạng tiếng nói 86
Bảng 3.3 Nhận dạng tiếng nói dùng mạng neuron hồi quy 87
Bảng 4.1 Số lượng phụ âm đầu trong âm tiết tiếng Việt 92
Bảng 4.2 Sự thể hiện của âm vị âm cuối 95
Bảng 4.3 Sự thể hiện của âm vị trên âm tiết 97
Trang 8MỞ ĐẦU
Từ xưa đến nay, tiếng nói là một phương thức truyền thông nhanh và hiệu quả nhất giữa con người với con người Khi mới sinh ra, chúng ta học nói một cách bắt chước mà không cần biết đến những khái niệm thế nào là tiếng nói, thế nào là âm tiết Quá trình học nói được hoàn thiện theo thời gian trưởng thành của mỗi người và điều đó đến một cách tự nhiên trong cuộc sống đến mức chúng ta không thể nhận ra được sự phức tạp của ngôn ngữ Sự phức tạp của ngôn ngữ được biểu hiện rõ nét khi chúng ta học một ngoại ngữ hoàn toàn mới Sự phức tạp được thể hiện ở phát âm, từ vựng, ngữ pháp, ngữ điệu câu nói, ngữ cảnh câu nói và đôi lúc là ngôn ngữ và cách phát âm ở các địa phương khác nhau
Trong giao tiếp, giọng nói được truyền từ người này sang người khác, từ nơi này qua nơi khác, tiếng nói có thể bị méo bởi tiếng ồn xung quanh Như vậy môi trường cũng là yếu tố quyết định đến chất lượng tiếng nói
Nếu xét đến nguồn gốc sinh ra tiếng nói hay cấu tạo bộ máy phát âm của con người thì sự phức tạp càng gấp bội Bộ máy phát âm không hoạt động một cách máy móc, cứng nhắc mà phụ thuộc vào từng người cũng như trạng thái và cảm xúc người nói Cùng một câu nói với một người nói chúng ta có thể cảm nhận được sự khác nhau ở những thời điểm khác nhau
Với tất cả những lý do trên, việc xây dựng một hệ thống nhận dạng tiếng nói bằng máy tính là vấn đề rất phức tạp Tuy nhiên, nếu có thể nhận dạng tiếng nói tự động bằng máy tính, chúng ta sẽ giải quyết được nhiều vấn đề trong cuộc sống như tự động hoá các hoạt động văn phòng, nhập dữ liệu máy tính bằng lời, quay số điện thoại bằng lời, hỗ trợ người tàn tật và tất cả những hoạt động khác với máy tính mà có thể giải phóng được đôi tay
Trang 9Những ứng dụng hấp dẫn đó đã thúc đẩy con người nghiên cứu về nhận dạng tiếng nói hơn bốn thập kỷ qua và đã đến nay đã đạt được một số thành công đáng kể Trên thế giới đã có một số hệ thống nhận dạng tiếng nói cỡ lớn,
có độ chính xác tương đối cao, các hệ thống này chủ yếu được phát triển trên các máy tính lớn hoặc các vi mạch xử lý tiếng nói chuyên dụng và sử dụng các cơ sở dữ liệu tiếng nói khá hoàn chỉnh, chủ yếu là tiếng Anh Ngoài yếu
tố bí mật công nghệ, tiếng nói của mỗi dân tộc có những đặc thù riêng đòi hỏi người dân nước đó phải quan tâm nghiên cứu, khai thác triệt để các yếu tố đặc thù của tiếng mẹ đẻ nhằm phát triển các hệ thống nhận dạng tiếng nói phù hợp
Từ nhận thức vấn đề như trên tôi hướng tới và tiến hành nghiên cứu đề tài
“Nghiên cứu nhận dạng tiếng Việt sử dụng mạng Neural” nhằm mục đích
xây dựng thử nghiệm chương trình nhận dạng với nội dung cơ bản như sau: CHƯƠNG 1: TỔNG QUAN VỀ TIẾNG NÓI VÀ MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI Trong chương này tôi xin trình bày một
số đặc điểm của tiếng nói và cơ chế hình thành tiếng nói, đồng thời với một số các tham số quan trọng đặc trưng của tiếng nói người để dựa vào đó xây dựng
mô hình nhận dạng tiếng nói
CHƯƠNG 2 XỬ LÝ TÍN HIỆU VÀ PHƯƠNG PHÁP PHÂN TÍCH XÁC ĐỊNH ĐẶC TRƯNG CỦA TIẾNG NÓI Trong chương này tôi sẽ mô
tả một số phương pháp xử lý và trích chọn đặc trưng tiếng nói Phương pháp LPC được chọn để trính các tham số tiếng nói Ngoài ra, chương này cũng đề cập đến một số kỹ thuật quan trọng đó là tách điểm đầu, cuối âm tiết, căn chỉnh thời gian động
CHƯƠNG 3 MẠNG NEURAL NHÂN TẠO là một công cụ có khả
năng giải quyết được nhiều bài toán khó, thực tế những nghiên cứu về mạng
Trang 10neural đưa ra một cách tiếp cận khác với những cách tiếp cận truyền thống trong lý thuyết nhận dạng Chương này sẽ mô tả tóm tắt mạng neural sinh học, mô hình và kiến trúc mạng neural nhân tạo, các luật huấn luyện mạng neural nhân tạo, và một số mạng neural nhân tạo thường được dùng trong nhận dạng tiếng nói là mạng Perceptron đa lớp với thuật toán lan truyền ngược, mạng KOHONEN, mạng tự tổ chức (SOFM) và mạng LVQ Cuối cùng là một số kết quả đã được nghiên cứu dùng mạng neural trong nhận dạng tiếng nói
CHƯƠNG 4 PHÂN TÍCH ĐẶC ĐIỂM NGỮ ÂM TIẾNG VIỆT
Mỗi ngôn ngữ nói đều có những đặc thù riêng, việc khai thác triệt để các yếu
tố đặc thù của tiếng Việt sẽ giúp cho chúng ta xây dựng các hệ thống nhận dạng tiếng nói có độ chính xác cao hơn Chương này sẽ mô tả một số đặc tính
âm học của tiếng việt và phân tích lựa chọn đơn vị nhận dạng tiếng Việt
CHƯƠNG 5 XÂY DỰNG HỆ THỐNG NHẬN DẠNG TIẾNG VIỆT
Chương này tôi xin trình bày phần mềm thử nghiệm nhận dạng tiếng Việt trên ngôn ngữ visual C++
Cuối cùng, tôi xin trân trọng gửi lời cảm ơn sâu sắc đến thầy giáo hướng
dẫn TS Phạm Văn Bình, người đã hết lòng giúp đỡ, hướng dẫn tôi hoàn
thành luận văn này Tôi cũng xin gửi lời cảm ơn các giáo viên của khoa Điện
tử viễn thông đã dạy và truyền đạt những kiến thức quý giá trong quá trình học ở trường
Xin chân thành cảm ơn!
Trang 11CHƯƠNG 1 TỔNG QUAN VỀ TIẾNG NÓI VÀ MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI
Để tiến hành xây dựng một mô hình Nhận dạng tiếng nói thì yếu tố đầu tiên và hết sức quan trọng là phải hiểu được cơ chế hình thành tiếng nói, các đặc trưng cơ bản nhất của nó Trong chương này tôi xin trình bày cơ chế hình thành tiếng nói, một số đặc trưng cơ bản có tính chất quan trọng
1.1 Sự hình thành và một số đặc điểm cơ bản của tiếng nói
Hình 1.1 Mô hình âm thanh
Khi con người muốn nói một điều gì đó não bộ sẽ xử lý chuyển những ý niệm đó thành các từ và phát ra các xung thần kinh đưa đến để điều khiển hệ thống phát âm của con người để hình thành nên tiếng nói và truyền đạt đến người nghe, về phía người nghe khi nhận được âm thanh của người nói não bộ
sẽ xử lý và chuyển các từ nhận được thành các ý niệm Tương ứng với nó, chúng ta cũng có thể khái quát hệ thống của chúng ta như sau: đầu tiên chúng
ta có 1 văn bản, văn bản này được máy tính sắp xếp các âm tiết và tạo thành
từ, sau đó điều khiển hệ thống phát âm để phát ra âm thanh như ý muốn Bên nhận (bên nhận dạng âm thanh) sẽ tách các từ, chuyển thành văn bản
Tiếng nói của con người được hình thành như sau:
Trang 12- Không khí được đẩy từ phổi qua hệ thống phát âm của con người trong
đó bao gồm cả vocal tract, đi ra và trở thành tiếng nói Dây thanh quản (vocal cord) có thể hoạt động theo một vài cách thức khác nhau trong quá trình nói, nhưng chức năng chính của nó là tạo ra sự dao động trong không khí bởi sự đóng mở của nó, gây nên các âm thanh và từ đó hình thành ra các nguyên âm
và phụ âm Trong đó:
+ Đối với các phụ âm dừng (stop consonant) hay Plosive như là /p/, /t/, /k/ thì dây thanh quản không dao động và nhanh chóng chuyển từ trạng thái đóng hoàn toàn sang trạng thái hoàn toàn mở và đột ngột giải phóng ra luồng không khí có áp suất cao Đối với những phụ âm vô thanh hay Fricative như /s/, /f/, / / thì vocal cord có thể hoàn toàn mở
+ Đối với nguyên âm hay âm hữu thanh như là /a/, /i/ thì dây thanh quản (vocal cord) dao động (đóng và mở) Tốc độ dao động của dây thanh quản xác định ra tần số gọi là Pitch Đối với phụ nữ và trẻ em Pitch thường cao nghĩa là dao động nhanh Trong khi đó đàn ông thưòng có Pitch thấp nghĩa là dao động chậm
+ Khi nói hình dạng của vocal tract thay đổi tạo ra các âm thanh khác nhau
+ Tốc độ thay đổi hình dạng của vocal tract tương đối chậm từ 10 đến 100ms
+ Lượng không khí từ phổi đi ra xác định độ ồn của tiếng nói
+ Các phụ âm như Semivowel (bán nguyên âm), nasal, affricate cũng thuộc họ các phụ âm
+ Phụ âm Semivowel như là /w/, /l/, /j/, /r/ cũng được hình thành như nguyên âm nhưng các tính chất vật lý không ổn định, chúng đi kèm với những
Trang 13luồng không khí không ổn định hay những âm thanh dưới dạng xung, hình thành do sự co thắt của vocal tract khi được nới lỏng
+ Các phụ âm mũi (Nasal) như là /m/, /n/, / / Mặc dù vocal tract đóng nhưng vòm miệng mở một đường đến hốc mũi, những phụ âm này hình thành theo con đường đó và chúng bị ảnh hưởng bởi cả vocal tract và nasal tract + Các phụ âm Affricate ví dụ như là /t / được hình thành bởi sự kế tiếp của những âm plosive sau các âm fricative
1.2 Biểu diễn tín hiệu âm thanh trên miền thời gian và tần số
Tín hiệu thoại là dạng tín hiệu biến đổi chậm theo thời gian, nghĩa là trong
1 khoảng thời gian ngắn (5-100msec) các đặc tính của tín hiệu hầu như không đổi Tuy nhiên, trong khoảng thời gian dài hơn, tín hiệu có sự thay đổi tùy thuộc vào âm thanh được phát ra Hình dưới đây mô tả 1 đoạn tín hiệu thoại
tương ứng với câu “It’s time” được phát âm bởi 1 giọng nam
Hình 1.2 Dạng tín hiệu của câu nói “It’s time”
Đoạn tín hiệu này được ngắt thành 5 đoạn, mỗi đoạn 100 msec, tức là toàn
bộ 500msec Từ trên hình ta thấy có 2 đoạn tín hiệu, đoạn đầu tương ứng với
Trang 14từ “It’s”, đoạn còn lại tương ứng với “time” Trong đoạn tín hiệu trên ta thấy
có 3 trạng thái: trạng thái không có tín hiệu (S - Silence); trạng thái vô thanh (U - Unvoice) – lúc này dây thanh quản không dao động, lúc này tín hiệu là ngẫu nhiên; trạng thái hữu thanh (V - Voice) – dây thanh quản rung tạo ra tín hiệu gần như tuần hoàn
Như vậy, ta có thể chia tín hiệu âm thanh ra thành 3 loại, tuy nhiên việc chia này sẽ không chính xác Trong môi trường có nhiễu, ta sẽ khó phân biệt được đâu là trạng thái không có tín hiệu (S) và đâu là trạng thái vô thanh (V)
Hình 1.3 Phổ của đoạn âm thanh “Every salt breeze comes from the sea”
Một cách biểu diễn khác đó là biểu diễn tín hiệu dưới dạng phổ Có lẽ đây
là cách biểu diễn phổ biến nhất của tín hiệu thoại do nó có thể cho ta biết rất nhiều thông số: cường độ âm thanh, dải tần số của tín hiệu và trục thời gian Hình 1.3 biểu diễn phổ của tín hiệu một người đàn ông phát âm câu: “Every salt breeze comes from the sea” Ta thấy có 3 đồ thị, đồ thị đầu tiên biểu diễn phổ băng rộng của đoạn tín hiệu, thứ 2 là đồ thị phổ băng hẹp và cuối cùng đồ thị biên độ tín hiệu ở hình thứ 3 Phổ băng rộng tương ứng với phép phân tích phổ trong mỗi 15msec, sử dụng bộ lọc băng rộng (băng thông 125Hz) Cường
độ phổ được biểu diễn bằng độ tối của điểm ảnh Hình 1.4 cho ta thấy mối
Trang 15quan hệ giữa tần số và cường độ của nó trong 1 thời điểm t0 nào đó Phổ băng hẹp sử dụng bộ lọc băng hẹp (băng thông 40Hz) Nhìn hình có thể thấy: tương ứng với trạng thái không tín hiệu (S) – phổ của nó có mầu trắng (tức là tần số bằng 0), trạng thái vô thanh (V) – phổ tín hiệu có tần số cao
Hình 1.4 Phổ tần số - biên độ tín hiệu
Phương pháp thứ 3 để biểu diễn tín hiệu tiếng nói là trích ra các tham số đặc trưng của chúng dựa vào đặc điểm quá trình hình thành tiếng nói Bởi vì vocal tract thực chất có dạng hình ống, và lý thuyết âm thanh nói rằng hàm truyền đạt của năng lượng có thể được đặc trưng bởi các tần số tự nhiên hay cộng hưởng của ống Các tần số cộng hưởng được gọi là tần số formant, nó đặc trưng cho tần số tập trung nhiều năng lượng nhất của âm thanh Hình 1.5 cho ta biết phổ băng rộng của tín hiệu tương ứng với câu “Why do I owe you
a letter” phát âm bởi 1 giọng nam, đồ thị thứ 2 là họ các đường biểu diễn tần
số Formant của tín hiệu bao gồm các từ F1 – F5 Ta có thể thấy hầu như 3 tần
số cộng hưởng F1 – F3 nhỏ hơn 3500Hz Tần số Formant tương ứng với mức năng lượng cao nhất của tín hiệu trong từng thời điểm Do đó biểu diễn thông qua đồ thị tần số Formant là cách biểu diễn hiệu quả, gọn gàng các đặc điểm
Trang 16thời gian của tín hiệu Vấn đề chính ở đây là việc ước lượng tần số formant đối với âm thanh nhỏ và phân biệt giữa miền không tín hiệu và miền vô thanh
Hình 1.5 Tần số Formant của câu “Why do I owe you a letter”
Vậy một số khái niệm chúng ta cần chú ý ở đây:
+ Pitch: tần số dao động của dây thanh quản
+ Độ ồn (dB): đối với tiếng nói của con người thay đổi từ 30 – 80 dB + Biên độ: đó chính là mức thay đổi của thanh áp
+ Tần số Formant: tần số mang năng lượng cao thông thường ta chỉ cần quan tâm đến các tần số Formant F1, F2, F3 Thông thường trên đồ thị ta có thể nhìn thấy các tần số Formant của tín hiệu là các điểm đậm, tương ứng với năng lượng tín hiệu lớn Đường phân bố F1 là đường đậm lớn nhất gần trục tọa độ
1.3 Một số tính chất thống kê của tiếng nói
1.3.1 Sự phân bố về biên độ
Khi thống kê với khoảng 80 người (4 người nói * 20 ngôn ngữ) thì kết quả cho thấy biên độ tối đa đạt được của một tiếng nói có thể lớn hơn 50dB Sự phân bố biên độ tiếng nói trong một chuỗi tiếng nói sẽ theo dạng hàm mũ
Trang 171.3.2 Thống kê đối với phổ tiếng nói
Khi phát âm các từ với tần số từ thấp đến cao, người ta thấy rằng việc tăng dần tần số tương ứng với việc giảm dần biên độ Kết quả nghiên cứu cũng cho thấy phổ tiếng nói là sự kết hợp giữa phổ bằng phẳng (ứng với dải tần số thấp hơn 500Hz) với phổ có độ dốc -10dB/octave (ứng với dải tần số cao hơn 500Hz)
Hình 1.6 Sự thay đổi độ lệch tiêu chuẩn và trung bình so với tần số cơ bản
Hình 1.7 Phân bố tần số cơ bản
Thống kê theo thời gian về sự biến đổi tần số trong giọng nói con người cho thấy giá trị độ lệch tần số tiêu chuẩn, độ lệch trung bình trong giọng nam tương ứng là 20.5Hz và 125Hz và đối với nữ các giá trị này thường gấp đôi
Trang 181.4 Mô hình hình thành tiếng nói
1.4.1 Lý thuyết mô hình hình thành tiếng nói
Hình 1.8 Mô hình quá trình tạo tiếng nói
Cơ cấu hình thành tiếng nói có thể phân thành 3 phần như sau:
+ Phần nguồn âm thanh (Sound source production) bao gồm nguồn tạo nhiễu trắng (đối với âm vô thanh) và nguồn tạo xung (đối với âm hữu thanh) + Phần phát âm bởi Vocal Tract (Articualation by Vocal tract) có thể là
mô hình nối tầng hoặc mô hình ghép nối song song của một vài bộ cộng hưởng và phản cộng huởng đơn
+ Phần phát xạ tiếng nói (Radiation) từ môi hoặc mũi, có thể là cả hai
1.4.2 Mô hình mạch tương đương rời rạc tuyến tính
Mô hình hình thành tiếng nói đơn giản và quan trọng nhất mà thường được đề cập đến ở đây là mô hình mạch tương đương rời rạc tuyến tính được
mô tả ở hình 1.9 Mô hình được chia ra làm ba thành phần :
Trang 19+ Nguồn G( )
+ Thành phần liên quan đến cách phát âm(Articulation) H( )(chứa đựng các tính chất cộng hưởng và phản cộng hưởng)
+ Thành phần đặc trưng cho sóng âm thanh S( )
Hình 1.9 Mô hình mạch tương đương rời rạc tuyến tính
Mối quan hệ giữa ba thành phần này được diễn tả bởi biểu thức dưới đây:
S( ) G( ) H( ) (1.1) Nguồn âm thanh G( ) được xấp xỉ bởi nguồn xung và nguồn tạo nhiễu trắng (hay nhiễu ngẫu nhiên) Thành phần H( )diễn tả tính chất của lọc của
bộ lọc toàn cực hay bộ lọc cực không
- Tính chất phổ của G( )là bằng phẳng, còn H( ) là bộ lọc số có hệ số thay đổi theo thời gian, chứa đựng các tính chất về đường bao phổ và các tính chất phát xạ để bổ xung vào các tính chất lọc của Vocal Track
1.4.3 Mô hình Vocal Tract
- Chiều dài của Vocal tract khoảng 15-17cm đối với người lớn, bước sóng
Trang 20tần số 1kHz và 5kHz Bán kính tuơng đương của Vocal Tract nhỏ hơn 2cm, trong dải tần số 4-5kHz thì / 4 lớn hơn bán kính của Vocal Tract
- Ta có thể xấp xỉ Vocal Tract bằng các đoạn nhỏ có chiều dài xnhỏ hơn 1/4 chiều dài bước sóng, có thể x c/ 4F Nếu F = 4kHz thì x phải nhỏ hơn 1cm A n là thiết diện mỗi đoạn
Hình 1.10 Mô hình Vocal Tract
- Các tần số cộng hưởng của Vocal Tract là các tần số Formant Nếu tần
số Formant thứ n và băng tần của nó là n và n Biên độ phổ H( ) có thể viết dưới dạng sau, với H( )là hàm truyền của Vocal Tract (Vocal Tract Transmission Function)
Trang 21Hình 1.11 Phổ biên độ của mỗi tần số Formant
1.5 Một số phương pháp nhận dạng tiếng nói tự động
Trong phần trước tôi đã phần nào trình bày một số dạng biểu diễn của tiếng nói hướng đến mục tiêu nhận dạng trong máy tính Nó chỉ ra một hướng trong nhận dạng tiếng nói dựa trên việc nhận biết các đặc điểm ngữ âm của
âm thanh, liên hệ với các ký tự tương ứng Phương pháp này có thể gọi nôm
na là phương pháp ngữ âm – âm tiết, nó được nghiên cứu phát triển khá nhiều trong 40 năm qua Tuy nhiên, vì rất nhiều lý do, phương pháp này không thu được nhiều thành công như mong đợi, ngoài ra hiện này, có rất nhiều phương pháp khác đã được áp dụng trong thực tế và thu được khá nhiều thành công Trong phần này, tôi xin trình bày một số phương pháp phổ biến khác và giới thiệu những nét cơ bản nhất của các hệ nhận dạng tiếng nói tương ứng với mỗi phương pháp cũng như ưu và nhược điểm của nó
Chúng ta có 4 phương pháp đang được ứng dụng và phát triển trong nhận
dạng tiếng nói: Phương pháp đối sánh ngữ âm – âm tiết, Phương pháp nhận
dạng mẫu (Pattern Recognition), Phương pháp sử dụng trí tuệ nhân tạo, Phương pháp sử dụng mạng neural
Trang 221.5.1 Phương pháp ngữ âm – âm tiết
Phương pháp ngữ âm – âm tiết dựa trên lý thuyết âm học của tiếng nói Phương pháp này yêu cầu tập hợp ngữ âm (hay khối ngữ âm) là hữu hạn Các đơn vị ngữ âm này được phân biệt bởi 1 nhóm các đặc tính khác nhau trong dạng tín hiệu, phổ tần số, và sự biến thiên thời gian Mặc dù các đặc trưng của một đơn vị ngữ âm thường biến thiên lớn, ví dụ: người nói viêm họng hay do các địa phương khác nhau phát âm khác nhau Tuy nhiên xin giả sử rằng sự thay đổi đó theo một luật nhất định và không phức tạp để huấn luyện và áp dụng trong thực nghiệm Hình 1.12 là sơ đồ hệ thống nhận dạng tiếng nói ngữ
âm âm tiết bao gồm các pha sau đây: phân tích tiếng nói, trích trọn đặc trưng, phân đoạn và gán nhãn, so khớp và nhận dạng
Hình 1.12 Sơ đồ khối hệ thống nhận dạng tiếng nói ngữ âm – âm tiết
Tuy nhiên phương pháp này có một số điểm hạn chế:
Phương pháp này đòi hỏi phải phân tích kỹ càng về các đặc tính ngữ
âm của đơn vị âm tiết Tuy nhiên hiện nay việc tìm hiểu các đặc tính này chưa hoàn thành nhưng đã đảm bảo được với các trường hợp đơn giản nhất
Việc lựa chọn nội dung được thực hiện chủ yếu dựa trên các cân nhắc không theo dự tính trước Đối với hầu hết các hệ thống, lựa chọn nội dung chủ yếu dựa trên trực giác và không phải là tối ưu nhất
Trang 23Các bộ phân tách âm thanh không tối ưu Các phương pháp phi thể thức nói chung được sử dụng để xây dựng cây nhị phân Gần đây nhất là phương pháp cây phân loại và hồi quy được sử dụng để xây dựng các cây quyết định mạnh hơn
Các vấn đề trên làm cho các hệ thống theo phương pháp ngữ âm - âm tiết
là một phương pháp hay, tuy nhiên nó cần phải có sự nghiên cứu cẩn thận để giải quyết toàn vẹn các vấn đề tồn đọng
1.5.2 Phương pháp nhận dạng mẫu
Phương pháp nhận dạng mẫu (Pattern Recognition) được sử dụng nhận dạng tiếng nói dựa trên nguyên tắc là các mẫu được sử dụng trực tiếp mà không cần quyết định nội dung rõ ràng Phương pháp này gồm 2 bước: huấn luyện mẫu và nhận dạng dựa trên sự so sánh mẫu “Tri thức” của hệ thống được xây dựng dần qua quá trình huấn luyện Điểm mấu chốt ở đây là nếu các kiểu mẫu (versions of pattern) được huấn luyện đầy đủ, quá trình huấn luyện
có thể mô tả tương ứng tích chất âm học của mẫu (mà không cần quan tâm tới bất cứ mẫu nào đang được huấn luyện) Các dạng đặc điểm của tiếng nói thông qua huấn luyện được gọi là phân loại mẫu bởi vì trong quá trình học máy các đặc điểm âm học của các lớp tiếng nói đáng tin cậy và lặp lại trong các mẫu Sau quá trình học máy, hệ thống bắt đầu có thể nhận dạng bằng cách
so sánh các tín hiệu vào và các mẫu đã học được rồi đưa ra quyết định phù hợp nhất
Phương pháp này bao gồm 4 bước: Đo lường đặc trưng, học mẫu, phân loại mẫu, ra quyết định Điểm mạnh và yếu của phương pháp này như sau:
1 Hiệu quả của hệ thống phụ thuộc vào số lượng dữ liệu để xây dựng các lớp mẫu tham chiếu Nói chung, càng nhiều mẫu học thì hiệu quả của
Trang 24Hình 1.13 Mô tả sơ đồ khối của hệ nhận dạng mẫu
2 Mẫu tham chiếu phụ thuộc vào môi trường truyền dẫn và môi trường phát âm vì các đặc điểm phổ âm thanh bị tác động nhiều của nhiễu nền
và nhiễu truyền dẫn
3 Không sử dụng các lý thuyết ngôn ngữ trong hệ thống, do đó việc lựa chọn hoàn toàn không dựa trên bất cứ cú pháp, ngữ nghĩa nào của âm thanh
1.5.3 Phương pháp sử dụng trí tuệ nhân tạo
Nhận dạng tiếng nói theo khuynh hướng trí tuệ nhân tạo là sự lai ghép giữa khuynh hướng âm học với khuynh hướng nhận dạng mẫu vì nó khai thác các ý tưởng của hai khuynh hướng đó Nhận dạng tiếng nói theo khuynh hướng này là tự động hoá thủ tục nhận dạng theo cách mà con người áp dụng trí tuệ của mình để hình tượng hoá, phân tích và đưa ra quyết định về các đặc trưng âm học
1.5.4 Phương pháp sử dụng mạng neural
Mạng neural nhân tạo là một trong những công cụ được sử dụng phổ biến hiện nay và được ứng dụng giải quyết rất nhiều bài toán phức tạp Xây dựng
hệ thống nhận dạng sử dụng mạng neural đã và đang được đầu tư nghiên cứu
và đạt được những bước tiến nhất định Trong luận văn này tôi xin trình bày một số nghiên cứu của mình về ứng dụng mạng neural trong nhận dạng tiếng nói
Trang 25CHƯƠNG 2 XỬ LÝ TÍN HIỆU VÀ PHƯƠNG PHÁP PHÂN TÍCH XÁC ĐỊNH ĐẶC TRƯNG CỦA TIẾNG NÓI
Thông thường một hệ thống nhận dạng tiếng nói cho dù áp dụng phương pháp nhận dạng nào: Ngữ âm học, nhận dạng mẫu, trí tuệ nhân tạo hay mạng neural nhân tạo đều phải có quá trình tiền xử lý tín hiệu để chuyển tín hiệu tiếng nói từ dạng sóng sang dạng biểu diễn tham số vì khi nhận dạng ta không thể đối sánh hay huấn luyện mạng neural trực tiếp từ tín hiệu dạng sóng mà phải chuyển về các tham số đặc trưng Như vậy, có thể nói xử lý tín hiệu có vai trò đặc biệt quan trọng trong việc trích chọn các tham số đặc trưng của tiếng nói
Trong các phương pháp biểu diễn tín hiệu theo tham số thì phương pháp biểu diễn phổ của tín hiệu được sử dụng rộng rãi nhất và được coi là cốt lõi của xử lý tín hiệu trong nhận dạng tiếng nói Hai phương pháp phân tích phổ thường dùng là phương pháp dải bộ lọc (filter bank) và phương pháp mã hoá
dự đoán tuyến tính (LPC –Linear Predictive Coding) Tuy nhiên phương pháp
mã hoá dự đoán tuyến tính là kỹ thuật có ưu thế mạnh nhất đối với việc xác định các tham số cơ sở của tiếng nói, tức là xác định độ cao (pitch), các formant, phổ của tiếng nói, các hàm của các vùng tuyến âm (vocal tract area functions) Điều quan trọng của phương pháp này là khả năng cung cấp các tham số cực kỳ chính xác và tốc độ tính toán nhanh hơn các phương pháp khác Kỹ thuật được thực hiện đơn giản và có thể thực hiện bằng phần mềm hoặc phần cứng Đây là một mô hình rất tốt trong các ứng dụng nhận dạng tiếng nói
Trong chương này sẽ mô tả quá trình tạo và thu nhận tiếng nói, đưa ra một
mô hình số xấp xỉ với mô hình tạo tiếng nói của con người và các khái niệm chính trong xử lý tiếng nói Với những ưu thế của phương pháp mã hoá dự
Trang 26đoán tuyến tính, phần ba chương này sẽ mô tả cách xác định các tham số của tiếng nói dùng kỹ thuật LPC để nhận dạng
Một số tham số đặc trưng của tiếng nói
a Tần số lấy mẫu
Tiếng nói về cơ bản là dạng tín hiệu tương tự Quá trình lấy mẫu sẽ chuyển tín hiệu từ miền tương tự sang miền số với một tần số lấy mẫu nhất định Tần số lấy mẫu là số lần lấy mẫu trong 1 đơn vị thời gian, thông thường
là giây Tần số lấy mẫu ký hiệu là Fs Khoảng thời gian quá trình lấy mẫu lặp lại gọi là chu kỳ lấy mẫu Thường chúng ta có thể dùng 8 hoặc 16 bit để lưu 1 mẫu
Nhiễu đối với hệ thống là loại âm thanh không phải tiếng nói sinh ra trong môi trường xung quanh ta Ngay cả bộ phát âm của con người cũng sinh ra nhiễu, chẳng hạn tiếng thở, tiếng bật lưỡi, tiếng chép miệng, hay khi môi chạm vào micro Không dễ gì có thể lọc được hết nhiễu, ta chỉ có thể tối thiểu hóa chúng để chúng không gây ảnh hưởng đến chất lượng nhận dạng
Với tín hiệu tiếng nói là s(n), tín hiệu nhận được sau quá trình thu là s’(n) Như vậy: s’(n) – s(n) chính là nền nhiễu Độ nhiễu của tín hiệu được xác định
thông qua năng lượng của tín hiệu:
Trang 27(2.1)
Như vây, nếu E càng lớn, thì nhiễu càng nhỏ, nếu E tiến ra vô cùng thì tín hiệu sạch, không có nhiễu
c Tần số cơ bản
Một âm thanh có thể là tổng hợp của nhiều tần số, tần số chính bao trùm
âm thanh được gọi là tần số cơ bản Trong tiếng nói, tần số cơ bản là đáp ứng của sự rung động các dây âm thanh, tần số cơ bản được ký hiệu là F0
Tần số cơ bản có giá trị phụ thuộc vào tần số lấy mẫu và khoảng cách a, là khoảng cách giữa hai đỉnh sóng âm tuần hoàn
Formant là dải tần số được tăng cường do hiện tượng cộng hưởng trong ống dẫn thanh, đặc trưng cho âm sắc của mỗi nguyên âm Trong mỗi dải tần như thế có một tần số được tăng cường hơn cả được gọi là đỉnh Formant Một nguyên âm do người phát ra có nhiều Formant:
F1: ứng với cộng hưởng vùng yết hầu
F2: ứng với cộng hưởng khoang miệng
Khi ta nói sẽ có sự xuất hiện của formant F3, các formant khác F4, F5 liên quan đến các đặc trưng giọng nói riêng của mỗi cá nhân Mỗi lần môi, lưỡi, hàm ở các vị trí khác nhau là một lần hộp cộng hưởng miệng và yết hầu thay đổi hình dáng, thể tích, lối thoát của không khí làm thay đổi âm sắc của
âm thanh đi qua chúng
2.2 Lý thuyết mã hóa dự báo tuyến tính (LPC)
Lý thuyết mã hoá dự báo tuyến tính (LPC) đã sử dụng trong các hệ thống
Trang 28khiến người ta sử dụng LPC trong các hệ nhận dạng tiếng nói Các chi tiết và dẫn xuất toán học sẽ tạm thời bỏ qua
Đầu tiên, một số lý do LPC được dùng phổ biến:
1- LPC cung cấp mẫu tín hiệu tốt của tiếng nói Điều này đặc biệt đúng với các vùng tiếng hữu thanh gần như đều đặn trong đó tất cả các điểm cực của LPC cho độ xấp xỉ tốt với hình bao phổ dải hữu thanh Trong các miền
âm vô thanh và chuyển tiếp, mẫu LPC có hiệu quả kém hơn so với miền hữu thanh, nhưng vẫn hợp lý đối với mục đích nhận dạng tiếng nói
2 - Cách ứng dụng LPC để phân tích tín hiệu tiếng nói dẫn đến một sự phân biệt dải nguồn phát âm hợp lý Do vậy, có khả năng biểu diễn chi tiết các đặc tính của dải phát âm
3 - LPC là phương pháp dễ vận dụng Phương pháp LPC là sử dụng tính chính xác của toán học và đơn giản dễ hiểu khi thực hiện ở cả phần cứng và phần mềm Việc tính toán bao hàm trong xử lý LPC ít hơn so với một số phương pháp khác
Dựa vào các lý do nêu trên, xử lý LPC đã được dùng trong rất nhiều bộ nhận dạng và vẫn đang được nghiên cứu phát triển
Hình 2.1 Mô hình dự báo tuyến tính 2.2.1 Cơ sở lý thuyết phương pháp mã hóa dự báo tuyến tính
Ý tưởng của mẫu LPC là một mẫu tiếng nói cho trước ở thời điểm n, s(n),
có thể được xấp xỉ bằng một tổ hợp tuyến tính của p mẫu tiếng nói trước đó:
Trang 29s(n) a1s(n-1) + a2s(n-2) + + aps(n-p) (2.2) trong đó a1, a2, , an coi là các hằng trên toàn khuông phân tích tiếng nói Ta chuyển đẳng thức (2.1) tương đương bằng cách thêm giới hạn kích thích, Gu(n), có:
1
p i i
(2.4) Coi tổ hợp tuyến tính của các mẫu tiếng nói trước đó là dự báo s (n), được định nghĩa là:
1
p k k
Trang 30tích Vì các đặc tính phổ của tiếng nói biến đổi theo thời gian nên các hệ số dự báo tại thời điểm cho trước, n phải được ước lượng từ một đoạn tín hiệu tiếng nói ngắn xuất hiện quanh thời điểm n Như vậy cách cơ bản là tìm một tập các
hệ số dự báo giảm thiểu lỗi dự báo trung bình bậc hai trong một đoạn dạng sóng tiếng nói (Thường thì kiểu phân tích phổ thời gian ngắn này được thực hiện trên các khuông tiếng nói liên tiếp, có dãn cách khuông khoảng 10ms)
Để thiết lập các biểu thức được giải để xác định các hệ số dự báo, ta định nghĩa tiếng nói và các đoạn lỗi tại thời điểm n là:
E a n k
Trang 31n m
( , ) 0 0 ( , ) 0
1
(2.15)
Như vậy lỗi quân phương tối thiểu chứa một thành phần cố định ( n( , ) 0 0 )
và các thành phần phụ thuộc vào các hệ số dự báo
Để giải biểu thức (2.13) nhằm tìm các hệ số dự báo tối ưu (a sk ), ta phải tính n( , )i k với 1 i p và 0 k p, và sau đó giải tập kết quả p biểu thức đồng thời Thực tế, cách giải các biểu thức (cũng như cách tính các số ) là một hàm mạnh cấp m được dùng trong việc định rõ cả 2 dạng tiếng nói đem phân tích và khoảng vượt do lỗi quân phương sẽ được tính Bây giờ ta sẽ bàn về 2 phương pháp chuẩn để định khoảng đối với tiếng nói
2.2.2 Phương pháp tự tương quan
Một cách khá đơn giản và dễ hiểu để định rõ các giới hạn trên m trong các tổng là coi đoạn tiếng nói, sn(m), gần bằng 0 bên ngoài khoảng 0 m N-1 Điều này tương đương với việc coi tín hiệu tiếng nói s(m+n) được nhân với cửa sổ có độ dài hữu hạn w(m) bằng 0 bên ngoài khoảng 0 m N-1 Như vậy, mẫu tiếng nói để tối thiểu hoá có thể viết là:
Trang 32Hình 2.2 Minh hoạ mẫu tiếng nói, đoạn được định trọng, và lỗi dự báo đối
với âm hữu thanh tại đó lỗi dự báo là lớn ở đầu đoạn
Theo biểu thức (2.15), với m<0, tín hiệu lỗi en(m) đúng bằng 0 vì sn(m)=0 với mọi m<0 và do vậy không có lỗi dự báo Hơn thế, với m>N-1+p thì lại không có lỗi dự báo vì sn(m)=0 với mọi m>N-1 Tuy nhiên, trong miền m=0 (tức là từ m=0 đến m=p-1) tín hiệu tiếng nói được chia cửa sổ sn(m) được dự báo từ các mẫu trước đó, một số trong chúng có thể bằng 0 Do khả năng các lỗi dự báo tương đối lớn có trong miền này và thực sự có thể thấy trong thanh dưới của hình 2-2 Hơn thế, trong miền m=N-1 (tức là từ m=N-1 đến m=N-
Trang 331+p) khả năng lỗi dự báo lớn lại có vì tín hiệu tiếng nói được đặt giá bằng 0 (được định trọng) đang được dự báo từ ít nhất một số mẫu tiếng nói khác 0 trước đó Trong thanh dưới trên hình 2-3 ta thấy tác động này ở cuối dạng sóng lỗi dự báo Hai hiệu ứng này đặc biệt nổi bật đối với tiếng nói hữu thanh khi bắt đầu một chu kỳ lên cao hoặc rất gần m=0 hay m=N-1 điểm mẫu Với
âm vô thanh, các rắc rối được hạn chế một cách cơ bản vì không có phần dạng sóng nào là nhạy dương Do vậy ta thấy không có hiệu ứng nào ở thanh dưới của hình 2-4 Mục đích của cửa sổ ở biểu thức (2.16) là làm hẹp tín hiệu gần m=0 và gần m=N-1 sao cho giảm thiểu các lỗi ở các mép đoạn
Nhờ sử dụng tín hiệu đã định trọng của biểu thức (2.16) lỗi quân phương trở thành:
m
2 0
1
và n( , )i k có thể viết là
) ( ) ( )
, (
1
0
k m s i m s k
k N
m n
) ( )
, (
) ( 1
0
k i m s m s k
k i N
m n
Trang 34Vì hàm tự tương quan là đối xứng, tức là rn(-k) = rn(k) nên các đẳng thức LPC viết thành:
r i n k a k r i k
a
r r r
( ) ( ) (
1 2
Hình 2.3 Minh hoạ mẫu tiếng nói, đoạn được định trọng và lỗi dự báo
đối với âm hữu thanh nơi lỗi dự báo là lớn ở cuối đoạn
Chú ý rằng ma trận R là ma trận đối xứng, tất cả các phần tử thuộc đường chéo của ma trận này đều có giá trị bằng nhau, điều đó có nghĩa là ma trận này là ma trận khả đảo và nghiệm của nó nằm bên phía trái của phương trình Sai số trung bình bình phương tối thiểu sẽ có dạng:
Trang 35(2.24)
Hình 2.4 Minh hoạ mẫu tiếng nói, đoạn tiếng được định trọng và lỗi dự
báo đối với âm vô thanh nơi hầu như không có sự giả tạo ở rìa đoạn 2.2.3 Mô hình pha trích trọn đặc trưng
Tại đây, ngoài việc bàn các đặc tính chung của phương pháp LPC, ta mô
tả chi tiết bộ xử lý LPC đã dùng rộng rãi trong các hệ nhận dạng tiếng nói Hình 2-5 mô tả một sơ đồ khối của bộ xử lý LPC Các bước cơ bản trong việc
Trang 36chuyển, các nền nhiễu, hoặc thậm chí lấy trung bình phổ tín hiệu) Có lẽ mạng tiền khuếch đại được dùng rộng rãi nhất là các hệ bậc một cố định:
H z( ) 1 a z~ 1 0 9 a 1 0 (2.25)
Hình 2.5 Sơ đồ khối của bộ xử lý LPC để nhận dạng tiếng nói
Trong trường hợp này, đầu ra của mạng tiền khuếch đại, ~( )s n , liên quan đến đầu vào của mạng s(n) theo đẳng thức vi phân
s n s n as n 1 (2.26)
Hình 2.6 Phổ cường độ của mạng tiền khuếch đại LPC với a~=0.95
Giá trị chung nhất đối với a~quanh 0.95 (Với các hệ điểm cố định thường dùng giá trị a~=15/16=0.9375) Một ví dụ đơn giản về bộ tiền khuếch đại thích nghi bậc một là hàm chuyển:
H z( ) 1 a z~n 1 (2.27)
Trang 37trong đó a~
nthay đổi theo thời gian (n) phù hợp với tiêu chí thích nghi đã chọn Một khả năng chọn là a~n= rn(1)/rn(0) Hình 2-6 cho thấy đặc tính cường độ của H(ej ) với giá trị a~= 0.95 Có thể thấy rằng tại = (một nửa tần số lấy mẫu) có độ khuếch đại 32dB vượt so với tại =0
2 Phân khối khuông Trong bước này tín hiệu được tiền khuếch đại, ~ n s( )được chia khối thành các khuông N mẫu, với các khuông kề nhau được ngăn cách bởi M mẫu Hình 2-7 minh hoạ việc chia khối thành các khuông đối với trưòng hợp trong đó M=(1/3)N Khuông minh hoạ đầu tiên chứa N mẫu tiếng nói đầu tiên Khuông thứ hai bắt đầu sau khuông thứ nhất M mẫu, và chồng lên nó N - M mẫu Thông thường, khuông thứ 3 bắt đầu sau 2M so với khuông đầu tiên (hoặc M mẫu sau khuông thứ 2) và chồng lên khuông đầu N - 2M mẫu Quá trình này tiếp tục cho đến khi toàn bộ tiếng nói được tính hết cho một hay nhiều khuông Dễ thấy là nếu M N thì các khuông chồng lên nhau và ước đoán phổ LPC kết quả sẽ là tương quan từ khuông này đến khuông khác; Nếu M<<N thì các ước đoán phổ LPC từ khuông này đến khuông khác sẽ khá trôi chảy Nói cách khác, nếu M>N, sẽ không có chồng lấp giữa các khuông kề nhau; Thực tế, một số tín hiệu tiếng nói sẽ hoàn toàn
bị mất (tức là không bao giờ xuất hiện trong bất cứ khuông phân tích nào), và mối tương quan giữa các ước đoán phổ LPC của các khuông kề nhau sẽ không chứa một thành phần nhiễu mà cường độ của nó tăng như M (nghĩa là, khi có nhiều tiếng nói bị bỏ qua không phân tích) Tình trạng này là không thể chấp nhận trong phân tích LPC cho nhận dạng tiếng nói Nếu ta biểu thị
khuông tiếng nói thứ l là s l (n) và có L khuông trong toàn bộ tín hiệu tiếng nói thì
x n( ) ~(s M n) n 0 1 , , ,N 1 0 1 , , L 1 (2.28)
Trang 38Tức là, khuông tiếng nói đầu tiên x0(n) chứa các mẫu tiếng nói ~( )s 0 ,~( )s 1 , ,
Hình 2.7 Chia khối thành các khuông
3 Chia cửa sổ Bước tiếp theo là chia cửa sổ từng khuông riêng biệt sao
cho giảm thiểu sự ngắt quãng tín hiệu ở đầu và cuối mỗi khuông Khái niệm ở đây giống với khái niệm đã bàn về biểu diễn vùng tần số của phổ ngắn hạn -
để dùng cửa sổ nhằm thu hẹp tín hiệu đến 0 tại đầu và cuối mỗi khuông Nếu
ta định nghĩa cửa sổ là w(n), 0 n N-1, thì kết quả chia cửa sổ là:
1 0
) ( ) ( ) (
4 Phân tích tự tương quan Mỗi khuông của tín hiệu được chia cửa sổ là
tự tương quan với khuông tiếp theo để cho:
Trang 39trong đó giá trị tự tương quan cao nhất p là bậc của phép phân tích LPC Các giá trị p thường dùng là từ 8 đến 16, với p=8 đang dùng cho hầu hết các hệ được mô tả trong cuốn sách này Một lợi thế nữa của phân tích tự tương quan
là mối tương quan thứ 0 -R( ) 0 là năng lượng của khuông thứ Năng lượng của khuông là tham số quan trọng đối với hệ phát hiện tiếng nói sẽ bàn tiếp trong chương sau
5 Phân tích LPC Bước xử lý tiếp theo là phân tích LPC, chuyển từng
khuông của p+1 mối tự tương quan thành một "tập tham số LPC", trong đó tập có thể là các hệ số LPC, các hệ số phản ánh (PARCOR), các hệ số truyền miền logarit, các hệ số cepstral, hay bất cứ chuyển đổi mong muốn nào của các tập trên Phương pháp chính thức để chuyển từ các hệ số tự tương quan sang tập tham số LPC (để dùng cho phương pháp tự tương quan LPC) được gọi là phương pháp Durbin và có thể cho một cách hình thức như thuật toán (để thuận tiện, ta sẽ bỏ qua nhỏ ở dưới r m( )):
( )
j i j i
j i j i
k
E( )i ( 1 k i2)E(i 1) (2.36) trong đó tổng trong đẳng thức (2.33) được bỏ qua đối với i=1 Tập các đẳng thức (2.32-2.36) được giải đệ qui với i=1,2, ,p, và lời giải cuối cùng được cho là
Trang 40g m các hệ số truyền miền logarit log 1
1
k k
m m
(2.37c)
6 Chuyển tham số LPC thành các hệ số Cepstral Một tập tham số
LPC rất quan trọng, có thể suy trực tiếp từ tập hệ số LPC, là các hệ số Cepstral (phổ kép) LPC, c(m) Dạng đệ qui là:
1
1
1 ,
số logarit tỉ số miền Nói chung, thường dùng biểu diễn cepstral với các hệ số Q>p, trong đó Q 3 p
2
7 Định trọng tham số Do tính nhậy cảm của các hệ số cepstral bậc thấp
đối với sườn phổ tổng thể và do tính nhậy cảm của hệ số cepstral bậc cao đối với nhiễu (và các dạng biến đổi giống nhiễu khác), nó trở thành kỹ thuật chuẩn để định trọng các hệ số cepstral nhờ một cửa sổ được làm hẹp sao cho giảm thiểu được những nhạy cảm này Cách thông thường để điều chỉnh áp dụng một cửa sổ cepstral là coi biểu diễn Fourier của logarit phổ cường độ và
vi phân theo tần số của nó như sau:
m j m
m e c e
) (
m j m
m e c jm e
) ( )
(