Đối với tiếng nói, tần số giao động của đôi dây thanh quiđịnh độ cao giọng nói của con người và mỗi người có một độ cao giọng nóikhác nhau.. Nguyên âm và phụ âm: Tín hiệu tiếng nói
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
BỘ MÔN KỸ THUẬT MÁY TÍNH
Sinh viên thực hiện:
Nguyễn Thượng Khang MSSV: 20083366 Nguyễn Anh Sơn MSSV: 20082230
Lớp : KTMT– K53
Hà Nội - 2012
Trang 2Mục lục
I Lý thuyết: 3
1 Khái niệm tiếng nói và xử lý tiếng nói: 3
1.1 Tiếng nói: 3
1.2 Xử lý tiếng nói: 3
2 Bộ máy phát âm của con người: 3
3 Các đặc tính của âm thanh: 4
3.1 Đặc tính vật lý của âm thanh: 4
3.2 Đặc tính âm học của âm thanh: 4
4 Xử lý tín hiệu tiếng nói: 8
4.1 Sự biểu hiện và phân tích tiếng nói: 8
4.2 Phương pháp xử lý đồng hình: 11
4.3 Xác định tần số cơ bản F0: 13
II Thiết kế chương trình: 16
1 Cấu trúc file wave: 16
1.1 Khái niệm về tập tin wave 16
1.2 Cấu trúc tập tin wave: 17
2 Phân tích và thiết kế chức năng chương trình: 20
3 Cài đặt chương trình: 20
4 Thử nghiệm chương trình: 27
Trang 3Tín hiệu tiếng nói được tạo thành bởi chuỗi các âm vị liên tiếp Sự sắpxếp của các âm vị được chi phối bởi các quy tắc của ngôn ngữ.
1.2 Xử lý tiếng nói:
Xử lý tiếng nói là xử lý thông tin chứa trong tín hiệu tiếng nói nhằm lantruyền, lưu trữ tín hiệu tiếng nói hoặc là tổng hợp nhận dạng tiếng nói
Mục đích của việc xử lý tiếng nói:
- Mã hóa tiếng nói: Để lan truyền và lưu trữ tiếng nói một cách hiệu quả.
- Tổng hợp và nhận dạng tiếng nói: Giúp giải quyết các vấn về giao
tiếp giữa con người và hệ thống nói chung bằng tiếng nói
- Phân tích tiếng nói: Phục vụ cho việc nghiên cứu về tín hiệu tiếng nói.
2 Bộ máy phát âm của con người:
Các thành phần giúp cho con người có thể phát âm bao gồm: Phổi, khíquản và các đường dẫn miệng mũi
Thanh quản: Chứa hai dây thanh và có thể giao động tạo ra sự cổnghưởng cần thiết để tạo ra âm thanh Khoảng cách giữa hai dây thanh gọi là thanhmôn
Vị trí nguồn âm của âm tuần hoàn nằm tại thanh môn
Chu kì rung của dây thanh (T0) được gọi là chu kì cơ bản, 1/T0 được gọilà tần số cơ bản Toàn bộ bộ máy phát âm tính từ thanh môn trở lên gọi là tuyếnâm
Cơ chế phát âm:
- Tuyến âm được kích thích bởi nguồn năng lượng chính tại thanh môn.Luồng khí từ phổi đi lên qua khí quản, luồng khí này sẽ va chạm vào hai dâythanh trong tuyến âm Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động
âm sẽ được lan truyền theo tuyến âm và sau khi đi qua khoang mũi và môi sẽtạo ra tiếng nói
- Khoang mũi là ống không đều bắt đầu từ môi Kết thúc bởi vòm miệng,
có độ dài cố định khoảng 12cm đối với người lớn
- Vòm miệng là các nếp cơ chuyển động
3 Các đặc tính của âm thanh:
3.1 Đặc tính vật lý của âm thanh:
Trang 4- Độ cao: Độ cao hay còn gọi là độ trầm bổng của âm thanh Độ trầm
bổng của âm thanh phụ thuộc vào sự chuyển động nhanh hay chậm của cácphần tử không khí trong một đơn vị thời gian Nói cách khác, độ cao phụ thuộcvào tần số giao động Đối với tiếng nói, tần số giao động của đôi dây thanh quiđịnh độ cao giọng nói của con người và mỗi người có một độ cao giọng nóikhác nhau
- Cường độ: Cường độ là độ to nhỏ của âm thanh, cường độ càng lớn thì
âm thanh truyền đi càng xa trong môi trường có nhiễu Cường độ của sóng tiếngnói do biên độ dao động của song qui định Trong tiếng nói, cường độ củanguyên âm thường lớn hơn phụ âm nên tai người nghe nguyên âm dễ hơn
- Độ dài: Độ dài của âm phụ thuộc vào sự chấn động lâu hay mau của
các phần tử không khí Cùng một âm nhưng trong các từ khác nhau thì độ dàikhác nhau
- Âm sắc: Âm sắc là sắc thái riêng của một âm, cùng một nội dung, cùng
một độ cao nhưng mỗi người có âm sắc khác nhau
3.2 Đặc tính âm học của âm thanh:
Như đã nói tiếng nói được tạo thành bởi các chuỗi âm vị lien tiếp Sự sắpxếp của các âm vị được chi phối bởi các qui tắc ngôn ngữ Mỗi ngôn ngữ có sốlượng các âm vị khác nhau, thông thường cỡ 20 – 30 và bé hơn 50 cho mọingôn ngữ Các âm vị chia làm hai loại chính nguyên âm và phụ âm
a Nguyên âm và phụ âm:
Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn thông tin về mặt ngônngữ và được mô tả bởi các âm vị khác nhau Như vậy âm vị là đơn vị nhỏ nhấtcủa ngôn ngữ Tùy theo từng ngôn ngữ cụ thể mà số lượng các âm vị khác nhau.Các âm vị được chia thành: nguyên âm và phụ âm
Nguyên âm: Nguyên âm được tạo thành bằng sự cộng hưởng của dây
thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thànhnhiều hình dạng nhất tạo thành các nguyên âm khác nhau Mỗi nguyên âm đượcđặc trưng bởi ba formant đầu
Phụ âm: Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần
những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Dòngkhông khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc Những phụ âm xátđược phát ra từ chỗ co thắt lớn nhất và các âm tắc xát tạo ra từ khoảng giữa Phụ
âm có đặc tính hữu thanh và vô thanh tùy thuộc vào dây thanh có dao động đểtạo thành cộng hưởng không Đặc tính của phụ âm tùy thuộc vào tính chu kì củadạng song, phổ tần số, thời gian tồn tại và sự truyền âm
Hệ thống âm vị: Hệ thống âm vị bao gồm 11 nguyên âm đơn, 3 nguyên
âm đôi và 22 phụ âm Sự phân biệt nguyên âm là theo độ nâng của lưỡi và sựchuyển động của lười Sự phân loại phụ âm là theo tắc hay xát, hữu thanh hay
vô thanh…
11 nguyên âm đơn:
Trang 5STT Nguyên âm đơn Ví dụ
Nguyên âm đôi:
Trang 6b Âm hữu thanh và âm vô thanh:
Âm hữu thanh: Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng
thời và chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở
ra và sau đó thanh môn xẹp xuống Do sự cộng hưởng của dây thanh, sóng âmtạo tạo ra có dạng gần như tuần hoàn Phổ của âm hữu thanh có nhiều thànhphần hài tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản
Âm vô thanh: Khi tạo ra âm vô thanh dây thanh không cộng hưởng.
Nguồn của âm vô thanh là nguồn là nguồn không tuần hoàn Nó có vị trí không
cố định mà thay đổi theo âm chúng ta tạo ra Phổ của nguồn âm khá đều trongmột phạm vi rộng từ vài Hz đến KHz Tuyến âm được đặc trưng bởi các bộ lọcthông dải.Tín hiệu đầu ra cũng là ngẫu nhiên
c Các yếu tố khác:
Tỷ suất thời gian: Trong khi nói chuyện, khoảng nói chuyện và khoảng
nghỉ xen kẽ nhau Tỷ số thời gian nói và nghỉ gọi là tỷ suất thời gian
Hàm năng lượng ngắn: Việc nghiên cứu xử lý tiếng nói trong thực tế chỉ
trong một thời gian hữu hạn (về mặt lý thuyết thì phải xét cho đến vô cùng), haytrên số mẫu xác định Việc nghiên cứu trên các mẫu này với các kĩ thuật nhấtđịnh sẽ cho kết quả gần đúng so với lý thuyết Thông thường việc lấy mẫu tínhiệu tiếng nói được thực hiện thông qua các cửa sổ
Tần số vượt qua điểm không: Tần suất vượt qua điểm không là số lần
biên độ tín hiệu tiếng nói vượt qua giá trị không trong khoảng thời gian chotrước Thông thường giá trị này của âm vô thanh lớn hơn âm hữu thanh do đặctính ngẫu nhiên của âm vô thanh Đặc điểm này cũng được ứng dụng trong quátrình tiền xử lý trong nhận dạng tiếng nói tự động
Phát hiện điểm cuối: Trong xử lý tiếng nói việc xác định khi nào bắt đầu
xuất hiện và kết thúc quá trình nói là rất quan trọng và cần thiết Có nhiềuphương pháp,ví dụ như sau:
Trang 7Lấy một mẫu nhỏ của nền nhiễu trong khoảng thời gian yên lặng trướckhi nói Dùng hàm năng lượng thời gian ngắn để tính năng lượng cho mẫu,ngưỡng của tiếng nói được chọn là giá trị giữa năng lượng yên tĩnh và nănglượng đỉnh Ban đầu giả thiết điểm cuối xuất hiện tại điểm năng lượng tín hiệuvượt qua ngưỡng Để tính đúng ước lượng này, người ta giả thiết so sánh chúngvới giá trị đó trong vùng yên tĩnh Khi những thay đổi phát hiện được trong khitính toán tần suất trên ở ngoài ngưỡng giả thiết thì điểm cuối được giả thiết lạitại điểm mà sự thay đổi xẩy ra.
Formant: Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ
cao nhất xét trong xét trong một khoảng nào đó (cực đại khu vực) xác định mộtformant Ngoài tần số, formant còn được xác định cả biên độ và giải thông củachúng Về mặt vật lý các tần sô formant tương ứng với các tần số cộng hưởngtuyến âm Trong xử lý tiếng nói đặc biệt là trong tổng hợp tiếng nói, để môphỏng lại tuyến âm người ta phải xác định được các tham số formant đối vớitừng loại âm vị, do đó việc đánh giá ước lượng các formant có ý nghĩa rất quantrọng
Tần số formant biến đổi trong một dải rộng thuộc vào giới tính người nóivà đối với từng âm vị Đồng thời formant còn phụ thuộc vào các âm vị trước vàsau nó Thông thường phổ tần số tiếng nói chứa khoảng 6 formant nhưng ảnhhưởng lớn nhất đến đặc tính của âm vị là 3 formant đầu tiên
Tần số formant đặc trưng cho nguyên âm biến đổi tùy thuộc vào ngườinói trong điều kiện phát âm nhất định Mặc dù phạm vi tần số formant của cácnguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì
sự xê dịch của các formant là song song
4 Xử lý tín hiệu tiếng nói:
Kỹ thuật phân tích tiếng nói có thể được phân lớp vào miền tần số vàmiền thời gian Mục đích chính trong phân tích tiếng nói là đánh giá đáp ứngtần số của bộ máy phát âm (tuyến âm) Các kỹ thuật xử lý tín hiệu tiếng nói
Trang 8thông thường là dung dãy các bộ lọc, phân tích Fourier, xử lý đồng hình hoặccepstral.
Khái niệm “short time analysis” là cơ sở cho hầu hết các kỹ thuật phântích tiếng nói Giả sử rằng trong khoảng thời gian dài tín hiệu tiếng nói là khôngdừng nhưng với khoảng thời gian đủ nhỏ (10 – 30 ms), có thể xem nó là dừng.Đây là lý do mà sự thay đổi phổ tín hiệu tiếng nói có liên hệ trực tiếp với sựchuyển động của hệ phát âm (môi, cổ họng…) và các rang buộc ngữ cảnh, sinh
lý khác Vì vậy các hệ thống phân tích tiếng nói đều thực hiện trên cơ sở thờigian biến đổi, với các khung thời gian được chọn 10 -30 ms
4.1 Sự biểu hiện và phân tích tiếng nói:
Tiếng nói liên tục là tập hợp các âm thanh phức tạp mà chúng ta khó sảnsinh nhân tạo Tín hiệu tiếng nói được tạo thành bởi các chuỗi âm vị liên tiếpbao gồm nguyên âm và phụ âm Trong tín hiệu tiếng nói bao gồm F0 và cácthành phần được sản sinh bởi các giây thanh Tuyến âm thay đổi các tín hiệunguồn tạo nên Formant Mỗi tần số Formant có một biên độ và giải thông và đôikhi khó có thể định nghĩa các tham số này một cách chính xác Tần số cơ bản vàtần số Formant là những khái niệm quan trọng nhất trong tổng hợp và xử lýtiếng nói nói chung
Các âm vô thanh không có tần số cơ bản và có thể được xem là nhiễutrắng Thì thầm là trường hợp đặc biệt của tiếng nói, khi thì thầm thì ở đó không
có tần số cơ bản
Dạng tiếng nói của 3 nguyên âm (/a/, /i/, /u/) Với miền thời gian và miềntần số như trong hình sau
Hình 1: Miền thời gian và miền tần số của nguyên âm a,e, i, u
Tần số của âm thanh bình thường nằm trong khoảng 300 Hz đến 3400
Hz Vì vậy để biểu diễn tín hiệu tiếng nói trong kênh thoại thì 3 formant đầu là
đủ Để chất lượng cao hơn tần số lấy mẫu phải nằm từ 10 kHz tới 20kHz
Trang 9Phương pháp thường sử dụng để mô tả tín hiệu tiếng nói là spectrogram(ảnh phổ) mà qua đó biểu diễn thời gian – tần số - biên độ của một tín hiệu Khi
đó miền có tần số cao hơn thì màu xám hơn Phổ của nguyên âm và phụ âmcũng dễ dàng nhận thấy Do vậy ảnh phổ là phương pháp biểu diễn hữu ích nhất
để nghiên cứu tiếng nói
Hình 2: Ảnh phổ biểu diễn miền thời gian của từ kaksi
Để xác định tần số cơ bản của tiếng nói thì sơ đồ khối như sau:
Phân tích Cepstral cung cấp phương pháp để tách riêng tuyến âm vànguồn kích thích Tín hiệu tiếng nói sau khi qua bộ lọc hiệu chỉnh (thực chất làbộ lọc thông cao) với hệ số truyền đạt:
H(z) = 1 – az-1, a < 1 và thường được chọn cỡ 0.95 – 0.98
Bộ lọc hiệu chỉnh dùng để xét ảnh hưởng của tuyến âm trong miền tần số
Do đặc tính phổ của tín hiệu nguồn, âm hữu thanh năng lượng tập trung ở miềntần thấp có độ dốc phổ là 12dB/octave Môi là bộ lọc thông cao có độ dốc cỡ
Bộ lọc hiệu
chỉnh
Trang 106dB/octave Để phổ bằng phẳng hơn cần bộ lọc hiệu chỉnh bù lại 12dB/octave –6dB/octave, do đó người ta chọn a = 0.95 – 0.98 Cửa sổ thường được chọn làcửa số Hamming nhằm giảm sai số phân tích phổ khi độ dài tín hiệu hữu hạn.Quá trình lấy log10| | cho phổ đều hơn.
4.2 Phương pháp xử lý đồng hình:
Chúng ta đã biết rằng tín hiệu tiếng nói gồm ba thành phần, một dãy cácxung mô tả các pitch, xung kích thích và đáp ứng xung của ống thanh Trongmiền thời gian, gọi s(n) là tín hiệu nguồn, e(n) là tín hiệu kích thích và h(n) biểudiễn đáp ứng xung của ống thanh
Logarithm hóa hai vê ta có
log{|S()|} =log{|E()|} + log{|H()|}.
Như vậy logarithm của |S()| là tổng logarithm của |E()| và |H()| Hơn nữa | H()| được quyết định bởi tuyến âm theo hướng tần số biến đổi chậm, trong khi đó phân bố |E()| có chu kì biến đổi nhan hơn theo tần số Điều này có nghĩa là hai thành phần này có thể phân tách nhau nhờ toán tử lọc Phép lọc này thông thường được thực hiện nhờ biến đổi Fourier ngược của log{|S()|}, cho ta cepstrum của tín hiệu Trong Cepstrum, chu kì pitch phân bố có tính chu kì, trong khi đó phân bố của tuyến âm xảy
ra gần trục hoành hơn bởi vì biến đổi chậm hơn.
Sơ đồ hệ thống đồng hình cho phân tích tiếng nói.
Trong ảnh phổ xuất hiện các họ hài với chu kì của nguồn xung làm choviệc quan sát trở nên khó khăn Nếu cùng lúc có nhiều nguồn xung tuần hoànvới các tần số khác nhau, trong ảnh phổ sẽ xuất hiện các họ hài với các chu kìkhác nhau của các nguồn, nên cần phải dung đến cepstrum Trong cepstrum ta
có thể nhận ra các xung nhảy vọt đặc trưng cho các họ hài của phổ Nếu ta chặnđược các xung của cepstrum này, tính được dãy tín hiệu theo thời gian sau khi
đã dùng phép biến đổi ngược, thì lúc đó ta sẽ có dạng đáp ứng xung đặc trưngcho sự truyền đạt của hệ thống Nếu dùng lọc tần số thấp để chặn tất cả các tínhiệu trừ xung của cepstrum đặc trưng cho nguồn xung thì sau phép biến đổingược ta nhận lại được tín hiệu theo thời gian của đáp ứng nguồn xung
Bộ lọc
hiệu chỉnh
Cửa sổhamming
Log10| |
Trang 11Hình 3: Tín hiệu tuần hoàn.
Ta thấy Cepstrum biến đổi tương đối chậm đặc trưng cho hàm truyền đạtvà Cepstrum nhảy vọt đại diện cho sự lặp lại tuần hoàn
Hình 4: Cepstrum tương ứng của tín hiệu tuần hoàn.
Sử dụng Cepstrum trong việc đánh giá cường độ và các tần số đỉnh cộnghưởng Nếu không có sự dao động tuần hoàn trong phổ thì trong Cepstrumtương ứng sẽ không có đỉnh xuất hiện Do đó, với mọi âm thanh có chu kìcường độ ngắn nhất, đỉnh cường độ xuất hiện trong các vùng nơi mà các thànhphần Cepstrum khác đã suy giảm đi đáng kể, nên khó phát hiện xung nhảy vọt
Vì vậy, tốt nhất nên sử dụng một ngưỡng thấp trong quá trình tìm kiếm đỉnhcường độ
Hình 5: Tín hiệu không tuần hoàn.
Quan sát Cepstrum tương ứng ta thấy không có gì nổi trội
Trang 12cơ bản cho âm hữu thanh.
Một số phương pháp xác đinh F0:
- Dựa vào hàm tự tương quan
- Dựa vào hàm vi sai biên độ trung bình
- Dùng bộ lọc đảo và hàm tự tương quan
Để tính tần số cơ bản dựa trên cepstrum, ta phải tính được chu kì T0 củatín hiệu tiếng nói Giả sử có một khung cửa sổ với độ dài 32ms, tại thời điểm
Trang 13đầu tiên ta xác định hai đỉnh cao nhất trên cepstrum, khoảng cách giữa hai điểmnày là chu kì của tiếng nói,do đó tần số cơ bản là 1/T0.
Hình 7: Tính chu kì cơ bản T0.
Tiếp theo ta dịch chuyển tiếp một nửa độ dài cửa sổ (16ms) đến vị trí tiếptheo, xác định các đỉnh cao nhất trong cửa số 32 ms và lại tính tương tự như trênthu được tần số cơ bản tiếp theo Cuối cùng ta thu được một tập các tần số cơbản, chúng được biểu diễn như trên đồ thị sau: