Khi chúng ta nói dây thanh trong hầu bị chấn động, tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ một màng mỏng rất nhạy cảm của tai ta làm cho màng nhĩ cũng dao động, c
Trang 1CHƯƠNG 1 TỔNG QUANG VỀ TIẾNG NÓI
1.1 NGUỒN GỐC CỦA TIẾNG NÓI
Âm thanh của lời nói cũng như âm thanh trong thế giới tự nhiên xung quanh
ta, về bản chất đều là những sóng âm được lan truyền trong một môi trường nhất định (thường là không khí) Khi chúng ta nói dây thanh trong hầu bị chấn động, tạo nên những sóng âm, sóng truyền trong không khí đến màng nhĩ một màng
mỏng rất nhạy cảm của tai ta làm cho màng nhĩ cũng dao động, các dây thần kinh của màng nhĩ sẽ nhận được cảm giác âm khi tần số dao động của sóng đạt đến một
độ lớn nhất định Tai con người chỉ cảm thụ được những dao động có tần số từ
khoảng 16Hz đến khoảng 20000Hz Những dao động trong miền tần số này gọi là dao động âm hay âm thanh, và các sóng tương ứng gọi là sóng âm Những sóng cótần số nhỏ hơn 16Hz gọi là sóng hạ âm, những sóng có tần số lớn hơn 20000Hz gọi là sóng siêu âm, con người không cảm nhận được (ví dụ loài dơi có thể nghe được tiếng siêu âm) Sóng âm, sóng siêu âm và hạ âm không chỉ truyền trong
không khí mà còn có thể lan truyền tốt ở những môi trường rắn, lỏng, do đó cũng được sử dụng rất nhiều trong các thiết bị máy móc hiện nay
1.2 QUÁ TRÌNH TẠO TIẾNG NÓI
Hình 1.1 Hệ thống phát âm của con người
Lời nói là kết quả của sự vận động các bộ phận phận như lưỡi, thanh môn, môi, họng, thanh quản, Đầu tiên áp lực từ phổi qua khí quản đưa tới thanh quản, ở đây có các dây thanh giống như đôi môi đối xứng nằm ngay thanh quản Hai môi
Trang 2này có thể khép hoàn toàn và mỡ ra, tạo thành thanh môn để không khí bắn qua Tùy theo tốc độ hoạt động của dây thanh mà tần số không khí bắn qua thanh môn khác nhau, không khí sau khi qua thanh môn được đưa tới các khoang mũi và
khoang miệng, các khoang này có tác dụng như các hộp cộng hưởng, cộng hưởng
ở những tần số khác nhau để tạo ra các luồng sóng âm có tần số lớn nhất khác
nhau Các khoang cộng hưởng này có kích thước thay đổi tùy theo hướng phát âm,trong đó rõ nhất là lưỡi, khi nói lưỡi thay đổi liên tục, tần số sóng âm thay đổi liên tục Người ta nhận thấy rằng trong quá trình phát âm, các bộ phận trên thay đổi liên tục trong khoảng thời gian từ 20ms đến 30ms, vì trong khoảng thời gian này, nguồn phát âm cố định
1.3 PHÂN LOẠI TIẾNG NÓI
Tiếng nói là âm thanh mang mục đích diễn đạt thông tin, rất uyển chuyển và đặc biệt Là công cụ của tư duy và trí tuệ, tiếng nói mang tính đặc trưng của loài người Nó không thể tách riêng khi nhìn vào toàn thể nhân loại, và nhờ có ngôn ngữ tiếng nói mà loài người sống và phát triển xã hội tiến bộ, có văn hóa, văn
minh như ngày nay Trong quá trình giao tiếp người nói, có nhiều câu nói, mỗi câugồm nhiều từ, mỗi từ lại có thể gồm 1 hay nhiều âm tiết Ở tiếng Việt, số âm tiết được sử dụng vào khoảng 6700 Khi chúng ta phát ra một tiếng thì có rất nhiều bộ phận như lưỡi, thanh môn, môi, họng, thanh quản,… kết hợp với nhau để tạo thành
âm thanh Âm thanh phát ra được lan truyền trong không khí để đến tai người
nhận Vì âm thanh phát ra từ sự kết hợp của rất nhiều bộ phận, do đó âm thanh ở mỗi lần nói khác nhau hầu như khác nhau dẫn đến khá khó khăn khi ta muốn phân chia tiếng nói theo những đặc tính riêng Người ta chỉ chia tiếng nói thành 3 loại
cơ bản như sau:
• Âm hữu thanh: Là âm khi phát ra thì có thanh, ví dụ như chúng ta nói
“i”, “a”, hay “o” chẳng hạn Thực ra âm hữu thanh được tạo ra là do việc không khí qua thanh môn (thanh môn tạo ra sự khép mở của dây thanh dưới sự điều khiển của hai sụn chóp) với một độ căng của dây thanh sao cho chúng tạo nên dao động
• Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung
đôi chút tạo ra giọng nhưgiọng thở, ví dụ“h”, “p” hay “th”
• Âm bật: để phát ra âm bật, đầu tiên bộmáy phát âm phải đóng kín, tạo
nên một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví dụ“ch”, “t”
Trang 31.4 PHÂN TÍCH TIẾNG NÓI
Phân tích tiếng nói là nhằm tìm ra một dạng thức tối ưu biểu diễn được tiếng nói một cách hiệu quả Nó là cơ sở cho việc phát triển các công nghệ tổng hợp, nhận dạng và nâng cao chất lượng tiếng nói Phân tích tiếng nói thường thực hiện việc trích chọn hoặc chuyển đổi tín hiệu tiếng nói sang một dạng thức biểu diễn khác sao cho có thể biểu diễn thông tin tiếng nói tốt hơn theo cách mà chúng ta cần Một cách tổng quát, hầu hết các phương pháp phân tích tín hiệu tiếng nói tập trung vào một trong ba vấn đề chính Thứ nhất là tìm cách loại bỏ ảnh hưởng củapha, thành phần không đóng vai trong quan trọng trong việc truyền tải thông tin tiếng nói Thứ hai, thực hiện việc chia tách nguồn âm và mạch lọc (mô hình tuyến âm) sao cho chúng ta có thể nghiên cứu biên phổ của tín hiệu một cách độc lập Cuối cùng là chuyển đổi tín hiệu hoặc biên phổ tín hiệu sang một dạng biểu diễn khác hiệu quả hơn
1.4.1 Mô hình phân tích tiếng nói
Mô hình tổng quát cho việc phân tích tiếng nói được trình bày trong hình 1.2 Các dạng tín hiệu tại các bước được trình bày kèm theo trong minh họa
Tín hiệu tiếng nói được tiền xử lý bằng cách cho qua một bộ lọc thông thấp với tần số cắt khoảng 8 kHz Tín hiệu thu được thực hiện quá trình biến đổi sang dạng tín hiệu số nhờ bộ biến đổi ADC Thông thường, tần số lấy mẫu bằng 16kHz với tốc độ bit lượng tử hóa là 16 bit
Tín hiệu tiếng nói dạng số được phân khung với chiều dài khung thường
khoảng 30ms và khoảng lệch các khung thường bằng 10ms Khung phân tích tín hiệu sau đó được chỉnh biên bằng cách lấy cửa sổ với các hàm cửa sổ phổ biến
như Hamming, Hanning Tín hiệu thu được sau khi lấy cửa sổ được đưa vào phântích với các phương pháp phân tích phổ (chẳng hạn như STFT,LPC, ) Hoặc sau khi phân tích phổ cơ bản , tiếp tục được đưa đến các khối để trích chọn các đặc trưng
Trang 4Hình 1.2 Mô hình tổng quát phân tích tiếng nói
CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI
2.1 NHẬN DẠNG TIẾNG NÓI
Trang 5Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã
được học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn vị nhận dạng, chúng cóthể là các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhậndạng với các mẫu đã được học và lưu trữ trong bộ nhớ
Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếngnói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói
Nhận dạng tiếng nói có nhiều ứng dụng :
• Đọc chính tả Là ứng dụng được sử dụng nhiều nhất trong các hệ
nhận dạng Thay vì nhập liệu bằng tay thông qua bàn phím, người sử dụng nói với máy qua micro và máy xác định các từ được nói trong đó
• Điều khiển – giao tiếp không dây Chẳng hạn hệ thống cho phép
máy tính nhận lệnh điều khiển bằng giọng nói con người như: “chạy chương trình”, “tắt máy” một số ưu điểm của việc sử dụng tiếng nóithay cho các thiết bị vào chuẩn như chuột, bàn phím là thuận tiện tốc
độ cao, không bị ảnh hưởng của cáp, khoảng cách, không đòi hỏi huấn luyện sử dụng
• Điện thoai- liên lạc Một số hệ thống ( chẳng hạn ở máy điện thoại
di động) cho phép người sử dụng đọc tên người trong danh sách thay
vì bấm số
•
2.2 MỘT SỐ PHƯƠNG PHÁP NHẬN DẠNG TIẾNG NÓI
2.2.1 Phương pháp ngữ âm – âm vị học (acoustic-phonetic approach)
Trang 6Phương pháp ngữ âm- âm vị học dựa trên lý thuyết âm vị: lý thuyết này khẳng định sự tồn tại hữu hạn và duy nhất các đơn vị ngữ âm cơ bản trong ngôn ngữ nói gọi
là âm vị, được phân chia thành: nguyên âm- phụ âm, vô thanh- hữu thanh, âm vang-
âm bẹt Các âm vị có thể xác định bởi tập các đặc trưng của phổ của tín hiệu tiến nói theo thời gian
Đặc trưng quan trọng nhất của âm vị là Formant Đó là vùng tần số có cộng
hưởng cao nhất của tín hiệu Ngoài ra còn một số đặc trưng khác như âm vực( cao độ pitch), âm lượng Hệ thống nhận dạng dự trên phương pháp này sẽ tách các đặc trưng
-từ tín hiệu tiếng nói và xác định chúng tương ứng với âm vị nào Sau đó, dựa vào một
từ điển phiên âm, máy sẽ xác định chuỗi cac âm vị có khả năng là phát âm của từ nào nhất
Hình 2.1 Phương pháp phân loại nguyên âm tiếng anh
Hình 2.1 cho ta phương pháp phân biệt nguyên âm bằng đặc trưng Formant và chiều dài phân đoạn Chúng ta giả sử rằng có ba đặc trưng đã được phát hiện trong
phân đoạn là formant thứ nhất F1, formant thứ hai F2 và chiều dài của phân đoạn D
Trang 7Để phân loại một phân đoạn nguyên âm trong 10 nguyên âm ổn định, một số phép thửcần phải thực hiện để phân tách các nhóm nguyên âm Như trình bày trong hình trên, phép thử đầu tiên tách các nguyên âm có tần số F1 thấp (còn gọi là các nguyên âm khuếch tán (diffuse) chẳng hạn như/i/, /i/, /u/, ) với các nguyên âm có tần số cao
(còn gọi là các nguyên âm gọn (compact) bao gồm /a/, ) Mỗi tập con này lại được phân tách thêm dựa vào tần số F2, trong đó các nguyên âm acute (âm sắc) có tần số F2 cao và các nguyên âm grave (âm huyền) có tần số F2 thấp Phép kiểm tra thứ ba dựa trên khoảng thời gian của phân đoạn sẽ phân tách các nguyên âm căng (tense
vowel), tức là các nguyên âm có giá trị D lớn với các nguyên âm lax (thả lỏng), tức là các nguyên âm có giá trị D nhỏ Cuối cùng, một phép kiểm tra mịn hơn (finer) đối với các giá trị formant để phân tách các nguyên âm chưa phân tách còn lại tạo ra lớp các nguyên âm bằng (flat) tức là các nguyên âm có F1+F2 lớn hơn một ngưỡng T nào đó
và các nguyên âm đơn giản (plain) ( các nguyên âm có F1+F2 nằm dưới một ngưỡng Tnào đó)
Việc phân loại nguyên âm ở trên chỉ là một phần nhỏ trong quá trình xác định
âm vị của phương pháp, trên thực tế, ta cần xác định nguyên âm đơn,kép, phụ âm, âm
vô thanh, hữu thanh hay khoảng lặng
Xét về khía cạnh nguyên lí, phương pháp này có vẻ rất đơn giản Tuy nhiên các thử nghiệm trong thực tế cho thấy phương pháp cho kết quả nhận dạng không cao,
nguyên nhân từ những vấn đề sau:
• Phương pháp cần rất nhiều tri thức về ngữ âm học, nhất là các tri thức liên quan đến đặc tính âm học của các âm vị Mà những tri thức này nhìn chung còn chưa được nghiên cứu đầy đủ
• Formant chỉ ổn định với nguyên âm, còn với phụ âm formant rất khó xác
định và không ổn định Hơn nửa việc xác định các formant cho độ chính xác không cao Đặc biệt khi chịu ảnh hưởng của nhiễu
• Rất khó phân biệt các âm vị dựa trên phổ, nhất là các phụ âm vô thanh Có một số phụ âm rất giống nhiễu (ví dụ; /s/, /h/)
2.2.2 Phương pháp nhận dạng mẫu
Trang 8Phương pháp nhận dạng mẫu dựa vào lý thuyết xác suất thống kê để nhận dạng
dựa trên ý tưởng: so sánh đối tượng cần nhận dạng với các mẫu được thu thập trước
đó để tìm mẫu “giống” đối tượng nhất.
Như vậy hệ thống nhận dạng sẽ trải qua 2 giai đoạn:
• Giai đoạn huấn luyện thực hiện các nhiệm vụ: thu thập mẫu, phân lớp
và huấn luyện hệ thống ghi nhớ các mẫu đó
• Giai đoạn nhận dạng: nhận vào đối tượng cần nhận dạng, so sánh với các mẫu và đưa ra kết quả là mẫu giống đối tượng nhất
Phần lớn các hệ thống nhận dạng thành công trên thế giới là sử dụng phương pháp này Phương pháp có những ưu điểm sau:
• Sử dụng đơn giản, dể hiểu, mang tính toán khoa học cao (lý thuyết xác suất thống kê, lý thuyết máy học, )
• Ít bị ảnh hưởng của những biến thể về bộ từ vựng, tập đặc trưng, đơn
vị nhận dạng, môi trường xung quanh
• Cho kết quả cao Điều này đã được kểm chứng trong thực tế
2.2.3 Phương pháp trí tuệ nhân tạo
Phương pháp trí tuệ nhân tạo nghiên cứu cách học nói và học nghe của con
người, tìm hiểu các quy luật ngữ âm, ngữ pháp, ngữ nghĩa, ngữ cảnh và tích hợp
chúng bổ sung cho các phương pháp khác để nâng cao kết quả nhận dạng
Chẳng hạn có thể thêm các hệ chuyên gia( expert system), các luật logic mờ (fuzzy logic) về ngữ âm, âm vị vào các hệ nhận dạng tiếng nói dựa trên phương phápngữ âm – âm vị học để tăng độ chính xác cho việc xác định các âm vị ( vấn đề đã được
đề cập rất khó nếu chỉ sử dụng các thông tin về âm phổ)
Hay đối với hệ nhận dạng mẫu, người ta cải tiến bằng cách đối với mỗi tượng cần nhận dạng, hệ thống sẽ chọn ra một số mẫu giống “giống” đối tượng nhất, sau đó kiềm chứng tiếp các kết quả đó bằng các luật ngữ pháp, ngữ nghĩa, ngử cảnh để xác định mẫu phù hợp nhất
Hiện nay đang có một phương pháp trí tuệ nhân tạo trong nhận dạng tiếng nói được nghiên cứu rộng rãi là mạng nơron Tùy vào cách sử dụng, mạng nơron có thể
Trang 9coi là mở rộng của phương pháp nhận dạng mẫu hoặc phương pháp ngữ âm- âm vị
học
CHƯƠNG 3 TRÍCH CHỌN ĐẶC TRƯNG MFCC VÀ LPC TRONG
NHẬN DẠNG TIẾNG NÓI
Trang 103.1 TRÍCH CHỌN ĐẶC TRƯNG MFCC
MFCC( Mel-scale Frequency Cepstral Coefficient) là phương pháp trích đặc trưng
dựa tên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz.
3.1.1 Sơ đồ khối quá trình tính MFCC
Đối với phương pháp MFCC, việc tính đặc trưng có sơ đồ như sau:
Hình 3.1 Sơ đồ khối quá trình trích chọn đặc trưng MFCC
Quá trình tính toán như sau: đầu tiên tín hiệu tiếng nói được chia thành các
Frame có độ dài 10ms Mỗi frame sẽ được nhân với một hàm cửa sổ, thường là cửa sổ Hamming sau đó được chuyển sang miền tần số nhờ biến đổi Fourier Tín hiệu ở miền tần số được nhân với các bộ loc mel-scale, lấy logarit rồi biến đổi Fourier ngược (để chuyển sang miền cepstral) sẽ được các hệ số MFCC
Một số hệ thống có tính thêm năng lượng (cũng lấy logarit) và đặc trưng delta ( dạo hàm rời rạc theo thời gian của MFCC) nhằm thêm thông tin cho các pha sau của quá trình nhận dạng
3.1.2 Phân khung và cửa sổ hóa
Trang 11Tín hiệu tiếng nói đươc tiền xử lý bằng cách cho qua các mạch lọc, và chuyển sang tín hiệu số nhờ bố biến đổi ADC gồm L mẫu Sau đó được chia thành các khung với độ rộng khoảng 10-30ms Và để tránh mất thông tin, các khung thường được lấy bao trùm lên nhau Sau đó khung phân tích tín hiệu được chỉnh biên bằng cách nhân với một hàm cửa sổ độ rộng N.
Hàm cửa sổ thường được dùng là làm cửa sổ Hamming:
Hình 3.2 Đồ thị hàm cửa sổ Hamming
3.1.3 Biến đổi Fourier rời rạc
Tín hiệu của một khung sau khi nhân với hàm cửa sổ, được chuyển sang miền tần số bằng biến đổi Fourier rời rạc:
3.1.4 Lọc qua các bộ lọc mel-scale
Các bộ lọc mel-scale là các bộ lọc tam giác, đặt cách đều nhau trong miền tần
số nhỏ hơn 1kHz và khoảng cách tăng theo hàm mũ trong miền từ 1kHz đến fs/2 ( mộtnửa của dãy tần số lấy mẫu)
Trang 12Hình 3.3 Các bộ lọc mel-scale tam giác
Với M bộ lọc đó, ta hoàn toàn xác định được hệ số nhân hi(k) của mỗi bộ lọc Kết quả lọc đối với tín hiệu ở miền tần số qua các bộ lọc được tính như sau:
)Chú ý: X(k) là số phức nhưng thông tin về pha của X(k) không quan trọng nên
ta chỉ tính kết quả lọc với modun của X(k)
Việc nhân tín hiệu ở miền tần số với các bộ lọc mel-scale để chuyển biểu diễn miền tần số từ thang Hz sang thang mel mục dích là phân giải tần số theo đặc điểm
cảm thụ âm của con người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối
với tần số trên 1kHz
3.1.5 Logarit và biến đổi Fourier ngược
Lấy logarit của tín hiệu ở miền tần số (spectrum) rồi biến đổi Fourier ngược sẽ đưa tín hiệu về một miền gọi là cepstrum có đơn vị thời gian Biến đổi từ spectrum
sang cepstrum là một biến đổi đồng hình
Công thức của bước này là :