BÀI tập lớn xử lý TIẾNG nói xử lý đồng hình

Đối với tiếng nói, tần số giao động của đôi dây thanh quiđịnh độ cao giọng nói của con người và mỗi người có một độ cao giọng nóikhác nhau.. Nguyên âm và phụ âm: Tín hiệu tiếng nói

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

BỘ MÔN KỸ THUẬT MÁY TÍNH

Sinh viên thực hiện:

Nguyễn Thượng Khang MSSV: 20083366 Nguyễn Anh Sơn MSSV: 20082230

Lớp : KTMT– K53

Hà Nội - 2012

Trang 2

Mục lục

I Lý thuyết: 3

1 Khái niệm tiếng nói và xử lý tiếng nói: 3

1.1 Tiếng nói: 3

1.2 Xử lý tiếng nói: 3

2 Bộ máy phát âm của con người: 3

3 Các đặc tính của âm thanh: 4

3.1 Đặc tính vật lý của âm thanh: 4

3.2 Đặc tính âm học của âm thanh: 4

4 Xử lý tín hiệu tiếng nói: 8

4.1 Sự biểu hiện và phân tích tiếng nói: 8

4.2 Phương pháp xử lý đồng hình: 11

4.3 Xác định tần số cơ bản F0: 13

II Thiết kế chương trình: 16

1 Cấu trúc file wave: 16

1.1 Khái niệm về tập tin wave 16

1.2 Cấu trúc tập tin wave: 17

2 Phân tích và thiết kế chức năng chương trình: 20

3 Cài đặt chương trình: 20

4 Thử nghiệm chương trình: 27

Trang 3

Tín hiệu tiếng nói được tạo thành bởi chuỗi các âm vị liên tiếp Sự sắpxếp của các âm vị được chi phối bởi các quy tắc của ngôn ngữ.

1.2 Xử lý tiếng nói:

Xử lý tiếng nói là xử lý thông tin chứa trong tín hiệu tiếng nói nhằm lantruyền, lưu trữ tín hiệu tiếng nói hoặc là tổng hợp nhận dạng tiếng nói

Mục đích của việc xử lý tiếng nói:

- Mã hóa tiếng nói: Để lan truyền và lưu trữ tiếng nói một cách hiệu quả.

- Tổng hợp và nhận dạng tiếng nói: Giúp giải quyết các vấn về giao

tiếp giữa con người và hệ thống nói chung bằng tiếng nói

- Phân tích tiếng nói: Phục vụ cho việc nghiên cứu về tín hiệu tiếng nói.

2 Bộ máy phát âm của con người:

Các thành phần giúp cho con người có thể phát âm bao gồm: Phổi, khíquản và các đường dẫn miệng mũi

Thanh quản: Chứa hai dây thanh và có thể giao động tạo ra sự cổnghưởng cần thiết để tạo ra âm thanh Khoảng cách giữa hai dây thanh gọi là thanhmôn

Vị trí nguồn âm của âm tuần hoàn nằm tại thanh môn

Chu kì rung của dây thanh (T0) được gọi là chu kì cơ bản, 1/T0 được gọilà tần số cơ bản Toàn bộ bộ máy phát âm tính từ thanh môn trở lên gọi là tuyếnâm

Cơ chế phát âm:

- Tuyến âm được kích thích bởi nguồn năng lượng chính tại thanh môn.Luồng khí từ phổi đi lên qua khí quản, luồng khí này sẽ va chạm vào hai dâythanh trong tuyến âm Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động

âm sẽ được lan truyền theo tuyến âm và sau khi đi qua khoang mũi và môi sẽtạo ra tiếng nói

- Khoang mũi là ống không đều bắt đầu từ môi Kết thúc bởi vòm miệng,

có độ dài cố định khoảng 12cm đối với người lớn

- Vòm miệng là các nếp cơ chuyển động

3 Các đặc tính của âm thanh:

3.1 Đặc tính vật lý của âm thanh:

Trang 4

- Độ cao: Độ cao hay còn gọi là độ trầm bổng của âm thanh Độ trầm

bổng của âm thanh phụ thuộc vào sự chuyển động nhanh hay chậm của cácphần tử không khí trong một đơn vị thời gian Nói cách khác, độ cao phụ thuộcvào tần số giao động Đối với tiếng nói, tần số giao động của đôi dây thanh quiđịnh độ cao giọng nói của con người và mỗi người có một độ cao giọng nóikhác nhau

- Cường độ: Cường độ là độ to nhỏ của âm thanh, cường độ càng lớn thì

âm thanh truyền đi càng xa trong môi trường có nhiễu Cường độ của sóng tiếngnói do biên độ dao động của song qui định Trong tiếng nói, cường độ củanguyên âm thường lớn hơn phụ âm nên tai người nghe nguyên âm dễ hơn

- Độ dài: Độ dài của âm phụ thuộc vào sự chấn động lâu hay mau của

các phần tử không khí Cùng một âm nhưng trong các từ khác nhau thì độ dàikhác nhau

- Âm sắc: Âm sắc là sắc thái riêng của một âm, cùng một nội dung, cùng

một độ cao nhưng mỗi người có âm sắc khác nhau

3.2 Đặc tính âm học của âm thanh:

Như đã nói tiếng nói được tạo thành bởi các chuỗi âm vị lien tiếp Sự sắpxếp của các âm vị được chi phối bởi các qui tắc ngôn ngữ Mỗi ngôn ngữ có sốlượng các âm vị khác nhau, thông thường cỡ 20 – 30 và bé hơn 50 cho mọingôn ngữ Các âm vị chia làm hai loại chính nguyên âm và phụ âm

a Nguyên âm và phụ âm:

Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn thông tin về mặt ngônngữ và được mô tả bởi các âm vị khác nhau Như vậy âm vị là đơn vị nhỏ nhấtcủa ngôn ngữ Tùy theo từng ngôn ngữ cụ thể mà số lượng các âm vị khác nhau.Các âm vị được chia thành: nguyên âm và phụ âm

Nguyên âm: Nguyên âm được tạo thành bằng sự cộng hưởng của dây

thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thànhnhiều hình dạng nhất tạo thành các nguyên âm khác nhau Mỗi nguyên âm đượcđặc trưng bởi ba formant đầu

Phụ âm: Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần

những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Dòngkhông khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc Những phụ âm xátđược phát ra từ chỗ co thắt lớn nhất và các âm tắc xát tạo ra từ khoảng giữa Phụ

âm có đặc tính hữu thanh và vô thanh tùy thuộc vào dây thanh có dao động đểtạo thành cộng hưởng không Đặc tính của phụ âm tùy thuộc vào tính chu kì củadạng song, phổ tần số, thời gian tồn tại và sự truyền âm

Hệ thống âm vị: Hệ thống âm vị bao gồm 11 nguyên âm đơn, 3 nguyên

âm đôi và 22 phụ âm Sự phân biệt nguyên âm là theo độ nâng của lưỡi và sựchuyển động của lười Sự phân loại phụ âm là theo tắc hay xát, hữu thanh hay

vô thanh…

11 nguyên âm đơn:

Trang 5

STT Nguyên âm đơn Ví dụ

Nguyên âm đôi:

Trang 6

b Âm hữu thanh và âm vô thanh:

Âm hữu thanh: Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng

thời và chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở

ra và sau đó thanh môn xẹp xuống Do sự cộng hưởng của dây thanh, sóng âmtạo tạo ra có dạng gần như tuần hoàn Phổ của âm hữu thanh có nhiều thànhphần hài tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản

Âm vô thanh: Khi tạo ra âm vô thanh dây thanh không cộng hưởng.

Nguồn của âm vô thanh là nguồn là nguồn không tuần hoàn Nó có vị trí không

cố định mà thay đổi theo âm chúng ta tạo ra Phổ của nguồn âm khá đều trongmột phạm vi rộng từ vài Hz đến KHz Tuyến âm được đặc trưng bởi các bộ lọcthông dải.Tín hiệu đầu ra cũng là ngẫu nhiên

c Các yếu tố khác:

Tỷ suất thời gian: Trong khi nói chuyện, khoảng nói chuyện và khoảng

nghỉ xen kẽ nhau Tỷ số thời gian nói và nghỉ gọi là tỷ suất thời gian

Hàm năng lượng ngắn: Việc nghiên cứu xử lý tiếng nói trong thực tế chỉ

trong một thời gian hữu hạn (về mặt lý thuyết thì phải xét cho đến vô cùng), haytrên số mẫu xác định Việc nghiên cứu trên các mẫu này với các kĩ thuật nhấtđịnh sẽ cho kết quả gần đúng so với lý thuyết Thông thường việc lấy mẫu tínhiệu tiếng nói được thực hiện thông qua các cửa sổ

Tần số vượt qua điểm không: Tần suất vượt qua điểm không là số lần

biên độ tín hiệu tiếng nói vượt qua giá trị không trong khoảng thời gian chotrước Thông thường giá trị này của âm vô thanh lớn hơn âm hữu thanh do đặctính ngẫu nhiên của âm vô thanh Đặc điểm này cũng được ứng dụng trong quátrình tiền xử lý trong nhận dạng tiếng nói tự động

Phát hiện điểm cuối: Trong xử lý tiếng nói việc xác định khi nào bắt đầu

xuất hiện và kết thúc quá trình nói là rất quan trọng và cần thiết Có nhiềuphương pháp,ví dụ như sau:

Trang 7

Lấy một mẫu nhỏ của nền nhiễu trong khoảng thời gian yên lặng trướckhi nói Dùng hàm năng lượng thời gian ngắn để tính năng lượng cho mẫu,ngưỡng của tiếng nói được chọn là giá trị giữa năng lượng yên tĩnh và nănglượng đỉnh Ban đầu giả thiết điểm cuối xuất hiện tại điểm năng lượng tín hiệuvượt qua ngưỡng Để tính đúng ước lượng này, người ta giả thiết so sánh chúngvới giá trị đó trong vùng yên tĩnh Khi những thay đổi phát hiện được trong khitính toán tần suất trên ở ngoài ngưỡng giả thiết thì điểm cuối được giả thiết lạitại điểm mà sự thay đổi xẩy ra.

Formant: Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ

cao nhất xét trong xét trong một khoảng nào đó (cực đại khu vực) xác định mộtformant Ngoài tần số, formant còn được xác định cả biên độ và giải thông củachúng Về mặt vật lý các tần sô formant tương ứng với các tần số cộng hưởngtuyến âm Trong xử lý tiếng nói đặc biệt là trong tổng hợp tiếng nói, để môphỏng lại tuyến âm người ta phải xác định được các tham số formant đối vớitừng loại âm vị, do đó việc đánh giá ước lượng các formant có ý nghĩa rất quantrọng

Tần số formant biến đổi trong một dải rộng thuộc vào giới tính người nóivà đối với từng âm vị Đồng thời formant còn phụ thuộc vào các âm vị trước vàsau nó Thông thường phổ tần số tiếng nói chứa khoảng 6 formant nhưng ảnhhưởng lớn nhất đến đặc tính của âm vị là 3 formant đầu tiên

Tần số formant đặc trưng cho nguyên âm biến đổi tùy thuộc vào ngườinói trong điều kiện phát âm nhất định Mặc dù phạm vi tần số formant của cácnguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì

sự xê dịch của các formant là song song

4 Xử lý tín hiệu tiếng nói:

Kỹ thuật phân tích tiếng nói có thể được phân lớp vào miền tần số vàmiền thời gian Mục đích chính trong phân tích tiếng nói là đánh giá đáp ứngtần số của bộ máy phát âm (tuyến âm) Các kỹ thuật xử lý tín hiệu tiếng nói

Trang 8

thông thường là dung dãy các bộ lọc, phân tích Fourier, xử lý đồng hình hoặccepstral.

Khái niệm “short time analysis” là cơ sở cho hầu hết các kỹ thuật phântích tiếng nói Giả sử rằng trong khoảng thời gian dài tín hiệu tiếng nói là khôngdừng nhưng với khoảng thời gian đủ nhỏ (10 – 30 ms), có thể xem nó là dừng.Đây là lý do mà sự thay đổi phổ tín hiệu tiếng nói có liên hệ trực tiếp với sựchuyển động của hệ phát âm (môi, cổ họng…) và các rang buộc ngữ cảnh, sinh

lý khác Vì vậy các hệ thống phân tích tiếng nói đều thực hiện trên cơ sở thờigian biến đổi, với các khung thời gian được chọn 10 -30 ms

4.1 Sự biểu hiện và phân tích tiếng nói:

Tiếng nói liên tục là tập hợp các âm thanh phức tạp mà chúng ta khó sảnsinh nhân tạo Tín hiệu tiếng nói được tạo thành bởi các chuỗi âm vị liên tiếpbao gồm nguyên âm và phụ âm Trong tín hiệu tiếng nói bao gồm F0 và cácthành phần được sản sinh bởi các giây thanh Tuyến âm thay đổi các tín hiệunguồn tạo nên Formant Mỗi tần số Formant có một biên độ và giải thông và đôikhi khó có thể định nghĩa các tham số này một cách chính xác Tần số cơ bản vàtần số Formant là những khái niệm quan trọng nhất trong tổng hợp và xử lýtiếng nói nói chung

Các âm vô thanh không có tần số cơ bản và có thể được xem là nhiễutrắng Thì thầm là trường hợp đặc biệt của tiếng nói, khi thì thầm thì ở đó không

có tần số cơ bản

Dạng tiếng nói của 3 nguyên âm (/a/, /i/, /u/) Với miền thời gian và miềntần số như trong hình sau

Hình 1: Miền thời gian và miền tần số của nguyên âm a,e, i, u

Tần số của âm thanh bình thường nằm trong khoảng 300 Hz đến 3400

Hz Vì vậy để biểu diễn tín hiệu tiếng nói trong kênh thoại thì 3 formant đầu là

đủ Để chất lượng cao hơn tần số lấy mẫu phải nằm từ 10 kHz tới 20kHz

Trang 9

Phương pháp thường sử dụng để mô tả tín hiệu tiếng nói là spectrogram(ảnh phổ) mà qua đó biểu diễn thời gian – tần số - biên độ của một tín hiệu Khi

đó miền có tần số cao hơn thì màu xám hơn Phổ của nguyên âm và phụ âmcũng dễ dàng nhận thấy Do vậy ảnh phổ là phương pháp biểu diễn hữu ích nhất

để nghiên cứu tiếng nói

Hình 2: Ảnh phổ biểu diễn miền thời gian của từ kaksi

Để xác định tần số cơ bản của tiếng nói thì sơ đồ khối như sau:

Phân tích Cepstral cung cấp phương pháp để tách riêng tuyến âm vànguồn kích thích Tín hiệu tiếng nói sau khi qua bộ lọc hiệu chỉnh (thực chất làbộ lọc thông cao) với hệ số truyền đạt:

H(z) = 1 – az-1, a < 1 và thường được chọn cỡ 0.95 – 0.98

Bộ lọc hiệu chỉnh dùng để xét ảnh hưởng của tuyến âm trong miền tần số

Do đặc tính phổ của tín hiệu nguồn, âm hữu thanh năng lượng tập trung ở miềntần thấp có độ dốc phổ là 12dB/octave Môi là bộ lọc thông cao có độ dốc cỡ

Bộ lọc hiệu

chỉnh

Trang 10

6dB/octave Để phổ bằng phẳng hơn cần bộ lọc hiệu chỉnh bù lại 12dB/octave –6dB/octave, do đó người ta chọn a = 0.95 – 0.98 Cửa sổ thường được chọn làcửa số Hamming nhằm giảm sai số phân tích phổ khi độ dài tín hiệu hữu hạn.Quá trình lấy log10| | cho phổ đều hơn.

4.2 Phương pháp xử lý đồng hình:

Chúng ta đã biết rằng tín hiệu tiếng nói gồm ba thành phần, một dãy cácxung mô tả các pitch, xung kích thích và đáp ứng xung của ống thanh Trongmiền thời gian, gọi s(n) là tín hiệu nguồn, e(n) là tín hiệu kích thích và h(n) biểudiễn đáp ứng xung của ống thanh

Logarithm hóa hai vê ta có

log{|S()|} =log{|E()|} + log{|H()|}.

Như vậy logarithm của |S()| là tổng logarithm của |E()| và |H()| Hơn nữa | H()| được quyết định bởi tuyến âm theo hướng tần số biến đổi chậm, trong khi đó phân bố |E()| có chu kì biến đổi nhan hơn theo tần số Điều này có nghĩa là hai thành phần này có thể phân tách nhau nhờ toán tử lọc Phép lọc này thông thường được thực hiện nhờ biến đổi Fourier ngược của log{|S()|}, cho ta cepstrum của tín hiệu Trong Cepstrum, chu kì pitch phân bố có tính chu kì, trong khi đó phân bố của tuyến âm xảy

ra gần trục hoành hơn bởi vì biến đổi chậm hơn.

Sơ đồ hệ thống đồng hình cho phân tích tiếng nói.

Trong ảnh phổ xuất hiện các họ hài với chu kì của nguồn xung làm choviệc quan sát trở nên khó khăn Nếu cùng lúc có nhiều nguồn xung tuần hoànvới các tần số khác nhau, trong ảnh phổ sẽ xuất hiện các họ hài với các chu kìkhác nhau của các nguồn, nên cần phải dung đến cepstrum Trong cepstrum ta

có thể nhận ra các xung nhảy vọt đặc trưng cho các họ hài của phổ Nếu ta chặnđược các xung của cepstrum này, tính được dãy tín hiệu theo thời gian sau khi

đã dùng phép biến đổi ngược, thì lúc đó ta sẽ có dạng đáp ứng xung đặc trưngcho sự truyền đạt của hệ thống Nếu dùng lọc tần số thấp để chặn tất cả các tínhiệu trừ xung của cepstrum đặc trưng cho nguồn xung thì sau phép biến đổingược ta nhận lại được tín hiệu theo thời gian của đáp ứng nguồn xung

Bộ lọc

hiệu chỉnh

Cửa sổhamming

Log10| |

Trang 11

Hình 3: Tín hiệu tuần hoàn.

Ta thấy Cepstrum biến đổi tương đối chậm đặc trưng cho hàm truyền đạtvà Cepstrum nhảy vọt đại diện cho sự lặp lại tuần hoàn

Hình 4: Cepstrum tương ứng của tín hiệu tuần hoàn.

Sử dụng Cepstrum trong việc đánh giá cường độ và các tần số đỉnh cộnghưởng Nếu không có sự dao động tuần hoàn trong phổ thì trong Cepstrumtương ứng sẽ không có đỉnh xuất hiện Do đó, với mọi âm thanh có chu kìcường độ ngắn nhất, đỉnh cường độ xuất hiện trong các vùng nơi mà các thànhphần Cepstrum khác đã suy giảm đi đáng kể, nên khó phát hiện xung nhảy vọt

Vì vậy, tốt nhất nên sử dụng một ngưỡng thấp trong quá trình tìm kiếm đỉnhcường độ

Hình 5: Tín hiệu không tuần hoàn.

Quan sát Cepstrum tương ứng ta thấy không có gì nổi trội

Trang 12

cơ bản cho âm hữu thanh.

Một số phương pháp xác đinh F0:

- Dựa vào hàm tự tương quan

- Dựa vào hàm vi sai biên độ trung bình

- Dùng bộ lọc đảo và hàm tự tương quan

Để tính tần số cơ bản dựa trên cepstrum, ta phải tính được chu kì T0 củatín hiệu tiếng nói Giả sử có một khung cửa sổ với độ dài 32ms, tại thời điểm

Trang 13

đầu tiên ta xác định hai đỉnh cao nhất trên cepstrum, khoảng cách giữa hai điểmnày là chu kì của tiếng nói,do đó tần số cơ bản là 1/T0.

Hình 7: Tính chu kì cơ bản T0.

Tiếp theo ta dịch chuyển tiếp một nửa độ dài cửa sổ (16ms) đến vị trí tiếptheo, xác định các đỉnh cao nhất trong cửa số 32 ms và lại tính tương tự như trênthu được tần số cơ bản tiếp theo Cuối cùng ta thu được một tập các tần số cơbản, chúng được biểu diễn như trên đồ thị sau:

Định dạng
Số trang	25
Dung lượng	743,5 KB