1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI tập lớn xử lý TIẾNG nói xử lý đồng hình

25 176 6
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 743,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đối với tiếng nói, tần số giao động của đôi dây thanh quiđịnh độ cao giọng nói của con người và mỗi người có một độ cao giọng nóikhác nhau.. Nguyên âm và phụ âm: Tín hiệu tiếng nói

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

BỘ MÔN KỸ THUẬT MÁY TÍNH

Sinh viên thực hiện:

Nguyễn Thượng Khang MSSV: 20083366 Nguyễn Anh Sơn MSSV: 20082230

Lớp : KTMT– K53

Hà Nội - 2012

Trang 2

Mục lục

I Lý thuyết: 3

1 Khái niệm tiếng nói và xử lý tiếng nói: 3

1.1 Tiếng nói: 3

1.2 Xử lý tiếng nói: 3

2 Bộ máy phát âm của con người: 3

3 Các đặc tính của âm thanh: 4

3.1 Đặc tính vật lý của âm thanh: 4

3.2 Đặc tính âm học của âm thanh: 4

4 Xử lý tín hiệu tiếng nói: 8

4.1 Sự biểu hiện và phân tích tiếng nói: 8

4.2 Phương pháp xử lý đồng hình: 11

4.3 Xác định tần số cơ bản F0: 13

II Thiết kế chương trình: 16

1 Cấu trúc file wave: 16

1.1 Khái niệm về tập tin wave 16

1.2 Cấu trúc tập tin wave: 17

2 Phân tích và thiết kế chức năng chương trình: 20

3 Cài đặt chương trình: 20

4 Thử nghiệm chương trình: 27

Trang 3

Tín hiệu tiếng nói được tạo thành bởi chuỗi các âm vị liên tiếp Sự sắpxếp của các âm vị được chi phối bởi các quy tắc của ngôn ngữ.

1.2 Xử lý tiếng nói:

Xử lý tiếng nói là xử lý thông tin chứa trong tín hiệu tiếng nói nhằm lantruyền, lưu trữ tín hiệu tiếng nói hoặc là tổng hợp nhận dạng tiếng nói

Mục đích của việc xử lý tiếng nói:

- Mã hóa tiếng nói: Để lan truyền và lưu trữ tiếng nói một cách hiệu quả.

- Tổng hợp và nhận dạng tiếng nói: Giúp giải quyết các vấn về giao

tiếp giữa con người và hệ thống nói chung bằng tiếng nói

- Phân tích tiếng nói: Phục vụ cho việc nghiên cứu về tín hiệu tiếng nói.

2 Bộ máy phát âm của con người:

Các thành phần giúp cho con người có thể phát âm bao gồm: Phổi, khíquản và các đường dẫn miệng mũi

Thanh quản: Chứa hai dây thanh và có thể giao động tạo ra sự cổnghưởng cần thiết để tạo ra âm thanh Khoảng cách giữa hai dây thanh gọi là thanhmôn

Vị trí nguồn âm của âm tuần hoàn nằm tại thanh môn

Chu kì rung của dây thanh (T0) được gọi là chu kì cơ bản, 1/T0 được gọilà tần số cơ bản Toàn bộ bộ máy phát âm tính từ thanh môn trở lên gọi là tuyếnâm

Cơ chế phát âm:

- Tuyến âm được kích thích bởi nguồn năng lượng chính tại thanh môn.Luồng khí từ phổi đi lên qua khí quản, luồng khí này sẽ va chạm vào hai dâythanh trong tuyến âm Hai dây thanh dao động sẽ tạo ra cộng hưởng, dao động

âm sẽ được lan truyền theo tuyến âm và sau khi đi qua khoang mũi và môi sẽtạo ra tiếng nói

- Khoang mũi là ống không đều bắt đầu từ môi Kết thúc bởi vòm miệng,

có độ dài cố định khoảng 12cm đối với người lớn

- Vòm miệng là các nếp cơ chuyển động

3 Các đặc tính của âm thanh:

3.1 Đặc tính vật lý của âm thanh:

Trang 4

- Độ cao: Độ cao hay còn gọi là độ trầm bổng của âm thanh Độ trầm

bổng của âm thanh phụ thuộc vào sự chuyển động nhanh hay chậm của cácphần tử không khí trong một đơn vị thời gian Nói cách khác, độ cao phụ thuộcvào tần số giao động Đối với tiếng nói, tần số giao động của đôi dây thanh quiđịnh độ cao giọng nói của con người và mỗi người có một độ cao giọng nóikhác nhau

- Cường độ: Cường độ là độ to nhỏ của âm thanh, cường độ càng lớn thì

âm thanh truyền đi càng xa trong môi trường có nhiễu Cường độ của sóng tiếngnói do biên độ dao động của song qui định Trong tiếng nói, cường độ củanguyên âm thường lớn hơn phụ âm nên tai người nghe nguyên âm dễ hơn

- Độ dài: Độ dài của âm phụ thuộc vào sự chấn động lâu hay mau của

các phần tử không khí Cùng một âm nhưng trong các từ khác nhau thì độ dàikhác nhau

- Âm sắc: Âm sắc là sắc thái riêng của một âm, cùng một nội dung, cùng

một độ cao nhưng mỗi người có âm sắc khác nhau

3.2 Đặc tính âm học của âm thanh:

Như đã nói tiếng nói được tạo thành bởi các chuỗi âm vị lien tiếp Sự sắpxếp của các âm vị được chi phối bởi các qui tắc ngôn ngữ Mỗi ngôn ngữ có sốlượng các âm vị khác nhau, thông thường cỡ 20 – 30 và bé hơn 50 cho mọingôn ngữ Các âm vị chia làm hai loại chính nguyên âm và phụ âm

a Nguyên âm và phụ âm:

Tín hiệu tiếng nói là tín hiệu tương tự biểu diễn thông tin về mặt ngônngữ và được mô tả bởi các âm vị khác nhau Như vậy âm vị là đơn vị nhỏ nhấtcủa ngôn ngữ Tùy theo từng ngôn ngữ cụ thể mà số lượng các âm vị khác nhau.Các âm vị được chia thành: nguyên âm và phụ âm

Nguyên âm: Nguyên âm được tạo thành bằng sự cộng hưởng của dây

thanh khi dòng khí được thanh môn đẩy lên Khoang miệng được tạo lập thànhnhiều hình dạng nhất tạo thành các nguyên âm khác nhau Mỗi nguyên âm đượcđặc trưng bởi ba formant đầu

Phụ âm: Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gần

những điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành Dòngkhông khí tại chỗ đóng của vòm miệng tạo ra phụ âm tắc Những phụ âm xátđược phát ra từ chỗ co thắt lớn nhất và các âm tắc xát tạo ra từ khoảng giữa Phụ

âm có đặc tính hữu thanh và vô thanh tùy thuộc vào dây thanh có dao động đểtạo thành cộng hưởng không Đặc tính của phụ âm tùy thuộc vào tính chu kì củadạng song, phổ tần số, thời gian tồn tại và sự truyền âm

Hệ thống âm vị: Hệ thống âm vị bao gồm 11 nguyên âm đơn, 3 nguyên

âm đôi và 22 phụ âm Sự phân biệt nguyên âm là theo độ nâng của lưỡi và sựchuyển động của lười Sự phân loại phụ âm là theo tắc hay xát, hữu thanh hay

vô thanh…

11 nguyên âm đơn:

Trang 5

STT Nguyên âm đơn Ví dụ

Nguyên âm đôi:

Trang 6

b Âm hữu thanh và âm vô thanh:

Âm hữu thanh: Âm hữu thanh được tạo ra từ các dây thanh bị căng đồng

thời và chúng rung động ở chế độ dãn khi không khí tăng lên làm thanh môn mở

ra và sau đó thanh môn xẹp xuống Do sự cộng hưởng của dây thanh, sóng âmtạo tạo ra có dạng gần như tuần hoàn Phổ của âm hữu thanh có nhiều thànhphần hài tại giá trị bội số của tần số cộng hưởng, còn gọi là tần số cơ bản

Âm vô thanh: Khi tạo ra âm vô thanh dây thanh không cộng hưởng.

Nguồn của âm vô thanh là nguồn là nguồn không tuần hoàn Nó có vị trí không

cố định mà thay đổi theo âm chúng ta tạo ra Phổ của nguồn âm khá đều trongmột phạm vi rộng từ vài Hz đến KHz Tuyến âm được đặc trưng bởi các bộ lọcthông dải.Tín hiệu đầu ra cũng là ngẫu nhiên

c Các yếu tố khác:

Tỷ suất thời gian: Trong khi nói chuyện, khoảng nói chuyện và khoảng

nghỉ xen kẽ nhau Tỷ số thời gian nói và nghỉ gọi là tỷ suất thời gian

Hàm năng lượng ngắn: Việc nghiên cứu xử lý tiếng nói trong thực tế chỉ

trong một thời gian hữu hạn (về mặt lý thuyết thì phải xét cho đến vô cùng), haytrên số mẫu xác định Việc nghiên cứu trên các mẫu này với các kĩ thuật nhấtđịnh sẽ cho kết quả gần đúng so với lý thuyết Thông thường việc lấy mẫu tínhiệu tiếng nói được thực hiện thông qua các cửa sổ

Tần số vượt qua điểm không: Tần suất vượt qua điểm không là số lần

biên độ tín hiệu tiếng nói vượt qua giá trị không trong khoảng thời gian chotrước Thông thường giá trị này của âm vô thanh lớn hơn âm hữu thanh do đặctính ngẫu nhiên của âm vô thanh Đặc điểm này cũng được ứng dụng trong quátrình tiền xử lý trong nhận dạng tiếng nói tự động

Phát hiện điểm cuối: Trong xử lý tiếng nói việc xác định khi nào bắt đầu

xuất hiện và kết thúc quá trình nói là rất quan trọng và cần thiết Có nhiềuphương pháp,ví dụ như sau:

Trang 7

Lấy một mẫu nhỏ của nền nhiễu trong khoảng thời gian yên lặng trướckhi nói Dùng hàm năng lượng thời gian ngắn để tính năng lượng cho mẫu,ngưỡng của tiếng nói được chọn là giá trị giữa năng lượng yên tĩnh và nănglượng đỉnh Ban đầu giả thiết điểm cuối xuất hiện tại điểm năng lượng tín hiệuvượt qua ngưỡng Để tính đúng ước lượng này, người ta giả thiết so sánh chúngvới giá trị đó trong vùng yên tĩnh Khi những thay đổi phát hiện được trong khitính toán tần suất trên ở ngoài ngưỡng giả thiết thì điểm cuối được giả thiết lạitại điểm mà sự thay đổi xẩy ra.

Formant: Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên độ

cao nhất xét trong xét trong một khoảng nào đó (cực đại khu vực) xác định mộtformant Ngoài tần số, formant còn được xác định cả biên độ và giải thông củachúng Về mặt vật lý các tần sô formant tương ứng với các tần số cộng hưởngtuyến âm Trong xử lý tiếng nói đặc biệt là trong tổng hợp tiếng nói, để môphỏng lại tuyến âm người ta phải xác định được các tham số formant đối vớitừng loại âm vị, do đó việc đánh giá ước lượng các formant có ý nghĩa rất quantrọng

Tần số formant biến đổi trong một dải rộng thuộc vào giới tính người nóivà đối với từng âm vị Đồng thời formant còn phụ thuộc vào các âm vị trước vàsau nó Thông thường phổ tần số tiếng nói chứa khoảng 6 formant nhưng ảnhhưởng lớn nhất đến đặc tính của âm vị là 3 formant đầu tiên

Tần số formant đặc trưng cho nguyên âm biến đổi tùy thuộc vào ngườinói trong điều kiện phát âm nhất định Mặc dù phạm vi tần số formant của cácnguyên âm có thể trùng lên nhau nhưng vị trí giữa các formant đó không đổi vì

sự xê dịch của các formant là song song

4 Xử lý tín hiệu tiếng nói:

Kỹ thuật phân tích tiếng nói có thể được phân lớp vào miền tần số vàmiền thời gian Mục đích chính trong phân tích tiếng nói là đánh giá đáp ứngtần số của bộ máy phát âm (tuyến âm) Các kỹ thuật xử lý tín hiệu tiếng nói

Trang 8

thông thường là dung dãy các bộ lọc, phân tích Fourier, xử lý đồng hình hoặccepstral.

Khái niệm “short time analysis” là cơ sở cho hầu hết các kỹ thuật phântích tiếng nói Giả sử rằng trong khoảng thời gian dài tín hiệu tiếng nói là khôngdừng nhưng với khoảng thời gian đủ nhỏ (10 – 30 ms), có thể xem nó là dừng.Đây là lý do mà sự thay đổi phổ tín hiệu tiếng nói có liên hệ trực tiếp với sựchuyển động của hệ phát âm (môi, cổ họng…) và các rang buộc ngữ cảnh, sinh

lý khác Vì vậy các hệ thống phân tích tiếng nói đều thực hiện trên cơ sở thờigian biến đổi, với các khung thời gian được chọn 10 -30 ms

4.1 Sự biểu hiện và phân tích tiếng nói:

Tiếng nói liên tục là tập hợp các âm thanh phức tạp mà chúng ta khó sảnsinh nhân tạo Tín hiệu tiếng nói được tạo thành bởi các chuỗi âm vị liên tiếpbao gồm nguyên âm và phụ âm Trong tín hiệu tiếng nói bao gồm F0 và cácthành phần được sản sinh bởi các giây thanh Tuyến âm thay đổi các tín hiệunguồn tạo nên Formant Mỗi tần số Formant có một biên độ và giải thông và đôikhi khó có thể định nghĩa các tham số này một cách chính xác Tần số cơ bản vàtần số Formant là những khái niệm quan trọng nhất trong tổng hợp và xử lýtiếng nói nói chung

Các âm vô thanh không có tần số cơ bản và có thể được xem là nhiễutrắng Thì thầm là trường hợp đặc biệt của tiếng nói, khi thì thầm thì ở đó không

có tần số cơ bản

Dạng tiếng nói của 3 nguyên âm (/a/, /i/, /u/) Với miền thời gian và miềntần số như trong hình sau

Hình 1: Miền thời gian và miền tần số của nguyên âm a,e, i, u

Tần số của âm thanh bình thường nằm trong khoảng 300 Hz đến 3400

Hz Vì vậy để biểu diễn tín hiệu tiếng nói trong kênh thoại thì 3 formant đầu là

đủ Để chất lượng cao hơn tần số lấy mẫu phải nằm từ 10 kHz tới 20kHz

Trang 9

Phương pháp thường sử dụng để mô tả tín hiệu tiếng nói là spectrogram(ảnh phổ) mà qua đó biểu diễn thời gian – tần số - biên độ của một tín hiệu Khi

đó miền có tần số cao hơn thì màu xám hơn Phổ của nguyên âm và phụ âmcũng dễ dàng nhận thấy Do vậy ảnh phổ là phương pháp biểu diễn hữu ích nhất

để nghiên cứu tiếng nói

Hình 2: Ảnh phổ biểu diễn miền thời gian của từ kaksi

Để xác định tần số cơ bản của tiếng nói thì sơ đồ khối như sau:

Phân tích Cepstral cung cấp phương pháp để tách riêng tuyến âm vànguồn kích thích Tín hiệu tiếng nói sau khi qua bộ lọc hiệu chỉnh (thực chất làbộ lọc thông cao) với hệ số truyền đạt:

H(z) = 1 – az-1, a < 1 và thường được chọn cỡ 0.95 – 0.98

Bộ lọc hiệu chỉnh dùng để xét ảnh hưởng của tuyến âm trong miền tần số

Do đặc tính phổ của tín hiệu nguồn, âm hữu thanh năng lượng tập trung ở miềntần thấp có độ dốc phổ là 12dB/octave Môi là bộ lọc thông cao có độ dốc cỡ

Bộ lọc hiệu

chỉnh

Trang 10

6dB/octave Để phổ bằng phẳng hơn cần bộ lọc hiệu chỉnh bù lại 12dB/octave –6dB/octave, do đó người ta chọn a = 0.95 – 0.98 Cửa sổ thường được chọn làcửa số Hamming nhằm giảm sai số phân tích phổ khi độ dài tín hiệu hữu hạn.Quá trình lấy log10| | cho phổ đều hơn.

4.2 Phương pháp xử lý đồng hình:

Chúng ta đã biết rằng tín hiệu tiếng nói gồm ba thành phần, một dãy cácxung mô tả các pitch, xung kích thích và đáp ứng xung của ống thanh Trongmiền thời gian, gọi s(n) là tín hiệu nguồn, e(n) là tín hiệu kích thích và h(n) biểudiễn đáp ứng xung của ống thanh

Logarithm hóa hai vê ta có

log{|S()|} =log{|E()|} + log{|H()|}.

Như vậy logarithm của |S()| là tổng logarithm của |E()| và |H()| Hơn nữa | H()| được quyết định bởi tuyến âm theo hướng tần số biến đổi chậm, trong khi đó phân bố |E()| có chu kì biến đổi nhan hơn theo tần số Điều này có nghĩa là hai thành phần này có thể phân tách nhau nhờ toán tử lọc Phép lọc này thông thường được thực hiện nhờ biến đổi Fourier ngược của log{|S()|}, cho ta cepstrum của tín hiệu Trong Cepstrum, chu kì pitch phân bố có tính chu kì, trong khi đó phân bố của tuyến âm xảy

ra gần trục hoành hơn bởi vì biến đổi chậm hơn.

Sơ đồ hệ thống đồng hình cho phân tích tiếng nói.

Trong ảnh phổ xuất hiện các họ hài với chu kì của nguồn xung làm choviệc quan sát trở nên khó khăn Nếu cùng lúc có nhiều nguồn xung tuần hoànvới các tần số khác nhau, trong ảnh phổ sẽ xuất hiện các họ hài với các chu kìkhác nhau của các nguồn, nên cần phải dung đến cepstrum Trong cepstrum ta

có thể nhận ra các xung nhảy vọt đặc trưng cho các họ hài của phổ Nếu ta chặnđược các xung của cepstrum này, tính được dãy tín hiệu theo thời gian sau khi

đã dùng phép biến đổi ngược, thì lúc đó ta sẽ có dạng đáp ứng xung đặc trưngcho sự truyền đạt của hệ thống Nếu dùng lọc tần số thấp để chặn tất cả các tínhiệu trừ xung của cepstrum đặc trưng cho nguồn xung thì sau phép biến đổingược ta nhận lại được tín hiệu theo thời gian của đáp ứng nguồn xung

Bộ lọc

hiệu chỉnh

Cửa sổhamming

Log10| |

Trang 11

Hình 3: Tín hiệu tuần hoàn.

Ta thấy Cepstrum biến đổi tương đối chậm đặc trưng cho hàm truyền đạtvà Cepstrum nhảy vọt đại diện cho sự lặp lại tuần hoàn

Hình 4: Cepstrum tương ứng của tín hiệu tuần hoàn.

Sử dụng Cepstrum trong việc đánh giá cường độ và các tần số đỉnh cộnghưởng Nếu không có sự dao động tuần hoàn trong phổ thì trong Cepstrumtương ứng sẽ không có đỉnh xuất hiện Do đó, với mọi âm thanh có chu kìcường độ ngắn nhất, đỉnh cường độ xuất hiện trong các vùng nơi mà các thànhphần Cepstrum khác đã suy giảm đi đáng kể, nên khó phát hiện xung nhảy vọt

Vì vậy, tốt nhất nên sử dụng một ngưỡng thấp trong quá trình tìm kiếm đỉnhcường độ

Hình 5: Tín hiệu không tuần hoàn.

Quan sát Cepstrum tương ứng ta thấy không có gì nổi trội

Trang 12

cơ bản cho âm hữu thanh.

Một số phương pháp xác đinh F0:

- Dựa vào hàm tự tương quan

- Dựa vào hàm vi sai biên độ trung bình

- Dùng bộ lọc đảo và hàm tự tương quan

Để tính tần số cơ bản dựa trên cepstrum, ta phải tính được chu kì T0 củatín hiệu tiếng nói Giả sử có một khung cửa sổ với độ dài 32ms, tại thời điểm

Trang 13

đầu tiên ta xác định hai đỉnh cao nhất trên cepstrum, khoảng cách giữa hai điểmnày là chu kì của tiếng nói,do đó tần số cơ bản là 1/T0.

Hình 7: Tính chu kì cơ bản T0.

Tiếp theo ta dịch chuyển tiếp một nửa độ dài cửa sổ (16ms) đến vị trí tiếptheo, xác định các đỉnh cao nhất trong cửa số 32 ms và lại tính tương tự như trênthu được tần số cơ bản tiếp theo Cuối cùng ta thu được một tập các tần số cơbản, chúng được biểu diễn như trên đồ thị sau:

Ngày đăng: 06/04/2020, 16:26

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w