1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng DSP trong nhận dạng tiếng nói tiếng việt

97 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng Dụng Dsp Trong Nhận Dạng Tiếng Nói - Tiếng Việt
Tác giả Trương Thị Bích Ngà
Người hướng dẫn TS. Phạm Trường Hải, ThS. Hồ Trung Mỹ
Trường học Đại Học Quốc Gia Tp.Hồ Chí Minh
Chuyên ngành Kỹ Thuật Điện Tử
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2003
Thành phố Tp.Hồ Chí Minh
Định dạng
Số trang 97
Dung lượng 1,25 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Toàn bộ luận án được chia làm bốn chương: chương đầu tiên đề cập đến đặc tính tự nhiên của tiếng nói nhằm mục đích lý giải tại sao tồn tại hai phương trích đặc điểm tiếng nói, chương hai

Trang 1

Đại Học Quốc Gia Tp.Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRƯƠNG THỊ BÍCH NGÀ

ĐỀ TÀI

ỨNG DỤNG DSP TRONG NHẬN DẠNG

TIẾNG NÓI- TIẾNG VIỆT

CHUYÊN NGÀNH :KỸ THUẬT ĐIỆN TỬ

MÃ SỐ NGÀNH:

LUẬN VĂN THẠC SỸ

Tp.Hồ Chí Minh 06/03

Trang 2

Đại Học Quốc Gia Tp.Hồ Chí Minh CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập –Tự Do-Hạnh Phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên : Trương Thị Bích Ngà Phái : Nữ

Ngày, tháng, năm sinh: 31/10/1974 Nơi sinh: Hà Nội

Chuyên ngành : KT Vô Tuyến _Điện tử Mã số :

I TÊN ĐỀ TÀI

Ứng dụng DSP trong nhận dạng tiếng nói –tiếng Việt

II NHIỆM VỤ VÀ NỘI DUNG:

ƒ Nhận dạng tiếng nói gồm 50 từ ứng dụng trong điều khiển

ƒ Xây dựng một hệ nhận dạng tiếng nói - tiếng Việt bằng mô hình Markov ẩn

Nội dung gồm bốn chương: giới thiệu tiếng nói tự nhiên, lý thuyết cơ sở của xử lý tín hiệu số, phương pháp trích đặc điểm bằng MFCC và thuật toán nhận dạng tiếng nói phát âm rời bằng mô hình Markov ẩn

IV NGÀY HOÀN THÀNH NHIỆM VỤ : 15/05/03

V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS Phạm trường Hải

VI HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 1: TS Vũ Đình Thành

VII HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 2: TS Nguyễn Như Anh

CÁN BỘ HƯỚNG DẪN CÁN BỘ NHẬN XÉT 1 CÁN BỘ NHẬN XÉT 2

(Ký tên và ghi rõ họ, tên, học hàm, học vị) Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên ngành thông qua

Ngày tháng năm

Trang 3

LỜI CÁM ƠN

Tôi chân thành cảm ơn Th.S Hồ trung Mỹ người đã hướng dẫn tận tình và gợi mở nhiều ý tưởng để tôi có thể hoàn thành được luận án này

Tôi xin chân thành cảm ơn Th.S Trần Tiến Đức đã giúp đỡ và đề nghị những cải tiến xác đáng để luận án được hoàn thiện hơn

Tôi cũng xin chân thành cảm ơn các thầy cô, bạn bè, đồng nghiệp và gia đình đã khích lệ, động viên và tạo mọi điều kiện tốt nhất cho tôi trong quá thực hiện luận án

Trang 4

LỜI MỞ ĐẦU

Xử lý tiếng nói là một hướng phát triển của lý thuyết và thực hành xử lý tín hiệu số –Digital Signal Processing (DSP) Ngày nay, phương pháp DSP được sử dụng trong phân tích tiếng nói, tổng hợp, mã hóa, nhận dạng và gia tăng tiếng nói cũng như sửa đổi tiếng nói, nhận dạng người nói và nhận dạng ngôn ngữ Một vài phương pháp bao gồm kỹ thuật xử lý cho khử nhiễu, các chuyển đổi (ví dụ: chuyển đổi Fourier, tương quan) và những phương pháp trích đặc điểm Những đặc điểm cục bộ gồm: tính toán độ dốc , mật độ địa phương, mặt nạ biến ….Trong lý thuyết, nó có thể nhận dạng tiếng nói trực tiếp từ dạng sóng số hóa Tuy nhiên, bởi vì sự thay đổi lớn của tín hiệu tiếng nói, nó có một khái niệm tốt để trình bày một vài hình thức trích đặc điểm là làm giảm sự biến thiên Trong thực tế, tính toán hình bao của phổ của tương lai gần giảm đến biến quan trọng bằng cách làm nhẵn chi tiết phổ, như là khử thông tin nguồn biến thiên, có âm thanh tiếng nói hay phụ âm xát không và nếu là tiếng nói nó khử ảnh hưởng của tính chu kỳ hoặc cường độ

Nhận dạng tiếng nói là một đề tài đã được nghiên cứu và cũng đã có nhiều hệ nhận dạng tiếng nói đã được sản phẩm hóa trên thế giới Tuy vậy, nhận dạng tiếng nói tiếng Việt vẫn còn mới mẻ ở nước ta

Mục tiêu của luận án này là xây dựng một hệ nhận dạng tiếng nói tiếng Việt bằng mô hình Markov ẩn và ứng dụng nhận dạng 50 từ dùng trong điều khiển Toàn bộ luận án được chia làm bốn chương: chương đầu tiên đề cập đến đặc tính tự nhiên của tiếng nói nhằm mục đích lý giải tại sao tồn tại hai phương trích đặc điểm tiếng nói, chương hai trình bày lý thuyết cơ sở của xử lý tín hiệu số làm nền tảng cho xử lý tiếng nói, chương ba thảo luận tỉ mỉ hai phương pháp trích đặc điểm tiếng nói là dãy bộ lọc và cepstrum, đồng thời cũng trình bày phương pháp lượng tử hóa vector để trích đặc tính trung bình và đánh nhãn cho từng frame tiếng nói nhằm cung cấp các kết quả cho chương cuối, chương cuối thảo luận thuật toán nhận dạng tiếng nói phát âm rời bằng mô hình Markov ẩn

Do trình độ và năng lực còn hạn chế nên chắc chắn luận án có nhiều sai sót Kính mong sự chỉ dẫn của thầy cô và các bạn

Tp HCM, ngày 15 tháng 5 năm 2003

Trang 5

Abstract

Automatic speech recognition (ASR) has become an important in today’s driven society as we are searching for more efficient and natural man-machine interface Current ASR is based on acoustical models, from which more complex task, such as word recognition Most state of the art systems use acoustical models of phones, together with hidden Markov models (HMM) to model complex speech units The output of the acoustical modeling is the probability of observing a particular phone in an interval of speech, which then serves as input to a hidden Makov word model

technology-In this study the acoustic-phonetic approach is followed to construct an isolation speech phone recognizer for the Vietnamese language The phone recognizer based on the pattern recognition system, consists of a pre-processor, feature extractor and classifier Cepstral parameters have been show to be an effective method of extracting information

or features from spoken language, thus Mel frequency cepstrum coffients (MFCC) are used as features The Mel scale describes the relation between different perceived pitches, and has been derived from empirical data, obtained from physical auditory experiments To demonstrate an application of the phone recognizer, an automatic labeling system utilizing HMM with Viterbi searches are presented

Trang 6

CHƯƠNG 1

TIẾNG NÓI TỰ NHIÊN

Chương này giới thiệu tóm tắt lịch sử nhận dạng tiếng nói đồng thời thảo luận cơ chế tạo lập và nhận thức tiếng nói của con người, điều này dẫn tới các phương pháp trích đặc tính tiếng nói khác nhau Ngoài ra chúng ta cũng phân loại các âm thanh khác nhau như âm hữu thanh, âm vô thanh, nguyên âm, phụ âm Hiểu biết rõ ngữ âm tiếng Việt là điều thuận lợi giúp cho quá trình nhận dạng tốt hơn

1.1 CƠ CHẾ TẠO LẬP TIẾNG NÓI CỦA NGƯỜI

Hình 1.1 minh họa cơ quan phát âm của người Chủ yếu gồm phổi, khí quản, thanh quản, bộ phận mũi và miệng Thanh quản có hai nếp gấp gọi là dây thanh âm, dây thanh âm sẽ rung khi luồng không khí đi qua khe thanh môn là khe giữa hai dây thanh âm Bộ phận miệng là một ống âm học không đều, dài xấp xỉ 17cm đối với đàn ông trưởng thành tính từ môi đến dây thanh âm hay thanh quản Tiết diện cắt ngang của bộ phận miệng thay đổi từ zero đến

do phần cơ của bộ phận cấu âm - articulator (môi, lưỡi, hàm và vòm miệng mềm) điều khiển Bộ phận mũi cũng là một ống âm học không đều có diện tích và chiều dài cố định (dài chừng 12cm đối với đàn ông trưởng thành), bắt đầu từ lỗ mũi đến vòm miệng mềm Vòm miệng mềm làm nhiệm vụ liên kết âm thanh giữa bộ phận mũi và miệng Quá trình tạo ra âm phi mũi như sau: vòm miệng mềm ngăn chặn bộ phận mũi và âm thanh phát

ra thông qua môi Đối với quá trình tạo ra âm mũi, vòm miệng mềm hạ thấp xuống và bộ phận mũi liên kết với bộ phận miệng, lúc này phía trước của bộ phận miệng khép lại hoàn toàn và âm thanh phát ra thông qua mũi Đối với âm thanh nói giọng mũi, âm thanh phát ra cả mũi và môi

N T2

Hình 1.1 Cơ quan phát âm của người

Khi nói, phổi đầy không khí do giãn nỡ lồng xương sườn và co lại của cơ hoành Khi lồng xương sườn co lại, không khí bị đẩy ra và đi dọc theo khí quản, xuyên qua thanh môn Luồng không khí này là nguồn năng lượng tạo ra tiếng nói Có thể điều khiển luồng không khí theo nhiều cách khác nhau để tạo ra các âm thanh khác nhau

Trang 7

(a) Âm hữu thanh (voiced), giống như âm khi chúng ta nói ‘a’ hay ‘e’, được tạo ra khi dây

thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua Những dây thanh âm rung tạo ra dạng sóng của luồng không khí có dạng xấp xỉ tam giác như minh họa trên Hình 1.2, có chu kỳ hay tựa chu kỳ với phổ tần số có nhiều hài với tốc độ suy giảm xấp xỉ 12dB/octave Bộ phận phát âm hoạt động giống như hốc cộng hưởng, khuếch đại những thành phần hài này và suy giảm những thành phần hài khác để tạo ra âm hữu thanh Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điều khiển hai yếu tố trên để thay đổi chu kỳ bước sóng (pitch) âm thanh Chu kỳ bước sóng âm thanh của đàn ông trưởng thành thường từ 50Hz đến 250Hz, giá trị trung bình chừng 120Hz Đối với phụ nữ trưởng thành, giới hạn trên cao hơn nhiều, có thể lên đến 500Hz

Hình 1.2 Dạng sóng của luồng không khí

Trong ngôn ngữ các nguyên âm về bản chất âm học là những âm hữu thanh

(b) Âm vô thanh (unvoiced) được tạo ra khi dây thanh âm không rung Có hai loại âm vô

thanh cơ bản - âm xát và âm hơi Đối với âm xát, ví dụ như khi nói ‘s’ , một số điểm trên bộ phận phát âm bị co lại khi luồng không khí ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát Đối với âm bật hơi, giống như khi chúng ta nói ‘h’ trong ‘hùng’, hỗn loạn xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh

Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví dụ âm ‘i’ và ‘u’ trong tiếng Việt trong những từ như ‘ai’, ‘âu’

(c) Phụ âm nổ, ví dụ như âm ‘p’, ‘t’, ‘k’ hay ‘đ’, ‘b’, ‘g’ trong tiếng Việt được tạo ra do loại

kích thích khác Đối với lớp âm thanh này, bộ phận phát âm đóng lại ở một vài điểm, áp suất không khí tăng lên và thình lình giảm xuống Áp suất thình lình giảm xuống tạo ra kích thích ngắn của bộ phận phát âm Lúc này dây thanh âm có thể rung để tạo ra âm hữu thanh nổ (‘đ’, ‘b’, ‘g’) hay không rung để tạo ra âm vô thanh nổ (‘p’, ‘t’, ‘k’) Ngoài ra còn có

Trang 8

1.2 MÔ HÌNH LỌC NGUỒN TẠO TIẾNG NÓI

L

Hình 1.3 minh họa mô hình rất đơn giản của bộ phận phát ra nguyên âm ‘eh’ hay nguyên

âm trung tính là một ống đều có chiều dài L, một đầu là nguồn âm thanh (dây thanh âm) và

đầu kia được mở ra (môi) Ống này cộng hưởng ở các tần số lẻ , , , , ở đó

với c là vận tốc âm thanh trong không khí Bộ phận phát âm điển hình có chiều

Hình 1.3 Mô hình ống đều của bộ phận phát âm

Những thảo luận ở trên dẫn đến ý tưởng cho rằng có thể xem quá trình tạo ra tiếng nói là bộ lọc nguồn, trong đó tín hiệu từ nguồn âm thanh (cũng có thể là có chu kỳ hay nhiễu) được lọc bằng bộ lọc biến thiên theo thời gian có tính chất cộng hưởng tương tự với bộ phận phát âm Như vậy có thể thu được phổ tần số của tín hiệu tiếng nói bằng cách nhân phổ của nguồn âm thanh với đặc tính tần số của bộ lọc Hình 1.4 minh họa tiếng nói hữu thanh và vô thanh Các độ lợi AV và AN xác định cường độ của nguồn tạo âm hữu thanh và vô thanh

Hình 1.4 Tạo tiếng nói theo mô hình lọc nguồn

Mặc dầu bộ phận phát âm có một số hữu hạn các đỉnh cộng hưởng hay formant nhưng chỉ cần khảo sát ba hay bốn đỉnh cộng hưởng đầu tiên phủ trên băng tần từ 100Hz đến 3.5kHz, bởi vì biên độ của các formant cao hơn của tiếng nói hữu thanh bị suy giảm hầu như hoàn toàn với độ suy giảm -12dB/octave Trường hợp tiếng nói vô thanh, phổ tương đối rộng và bằng phẳng, số lượng các formant như vậy vẫn đủ mặc dầu mô hình đúng cho tiếng nói vô thanh thường phải mở rộng băng tần lên đến 7-8kHz Một điểm đáng lưu ý là bộ lọc của mô

Trang 9

hình lọc nguồn trên Hình 1.4 không những đặc tả tính chất phát xạ của bộ phận phát âm mà còn nêu ra ảnh hưởng bức xạ của miệng Ảnh hưởng tổng trở bức xạ có thể mô hình hóa bằng đặc tính của bộ lọc thông cao bậc nhất có độ tăng lên chừng 6dB/octave trong băng tần từ 0-3kHz

Mô hình lọc nguồn cho quá trình tạo tiếng nói khá đơn giản Như đã đề cập ở trên, không thể lọc được âm xát bằng các đỉnh cộng hưởng của bộ phận phát âm như âm hữu thanh hay âm bật hơi, vì vậy mô hình lọc nguồn không hoàn toàn chính xác cho âm xát Ngoài ra, mô hình lọc nguồn còn giả thiết nguồn phát âm bị tách tuyến tính ra khỏi bộ lọc và do đó không có sự tương tác nào giữa chúng Điều giả thiết này không hoàn toàn đúng bởi vì độ rung của dây thanh âm là do áp suất âm thanh bên trong của bộ phận phát âm, liên kết với bộ phận phát âm và phổi trong suốt chu kỳ thanh quản mở, vì vậy cần phải biến đổi đặc tính của bộ lọc ở mỗi chu kỳ kích âm Tuy nhiên những điều thứ yếu này thường được bỏ qua và mô hình lọc nguồn là chấp nhận được

1.3 NGỮ ÂM HỌC

Ngôn ngữ con người bao giờ cũng là ngôn ngữ thành tiếng Tuy nhiên hình thức diễn đạt bằng âm thanh của các từ trong ngôn ngữ không phải là âm thanh đơn thuần Khi đọc nhẩm, khi nghĩ thầm vẫn có những từ xuất hiện với hình thức âm thanh của chúng song đó chỉ là những hình ảnh âm học Trong giao tế bằng lời cũng vậy, người nghe không phải khi nào cũng tri giác tất cả những gì người đó cảm thụ bằng thính giác Người nghe thường chỉ nhận biết những đặc trưng âm học nào khiến họ phân biệt được từ và hiểu được nội dung của lời nói

1.3.1 Cơ sở ngữ âm học

a Cơ sở âm học

Âm thanh của ngôn ngữ được tạo thành do sự rung động của dây thanh và các khí quan khác của bộ phận phát âm Âm thanh của ngôn ngữ chỉ có thể là những chấn động mà tai người có thể nghe được Âm học phân biệt các âm thanh theo những đặc tính sau:

Độ cao: phụ thuộc vào tần số dao động (tần số chấn động của dây thanh), tần số dao động

càng lớn thì âm thanh càng cao Còn tần số dao động phụ thuộc vào độ dầy, mức căng của dây thanh và áp suất không khí phía dưới và phía trên thanh hầu Tai người có thể phân biệt độ cao từ 16 – 20.000 Hz

Độ lớn (cường độ): phụ thuộc vào biên độ dao động Đối với ngôn ngữ cường độ âm thanh

bảo đảm sự xác minh trong giao tế và nó là cơ sở để tạo thành các kiểu trọng âm khác nhau

Độ dài (trường độ): là thời gian kéo dài của âm thanh Độ dài sử dụng để phân biệt các

nguyên âm dài và nguyên âm ngắn (các nguyên âm có trọng âm thường dài hơn các nguyên âm không có trọng âm) Ví dụ a và ă

Ngoài ra các âm còn phân biệt với nhau nhờ âm sắc của chúng Âm sắc có được là do sự cộng hưởng, tức là sự khuếch đại một số thượng âm nào đó trong một cộng hưởng trường tạo nên mối quan hệ với âm cơ bản và tiếng ồn So sánh cách phát âm hai từ ‘bình’ và chữ

‘bính’ trong tiếng Việt, ‘bình’ được phát ra với ‘giọng’ thấp hay có cao độ thấp hơn, còn

‘bính’ có ‘giọng’ cao hơn hay cao độ cao hơn, do đó người nghe có thể phân biệt được hai

Trang 10

nặng’ được gọi là thanh điệu Thanh điệu là sự nâng cao hay hạ thấp ‘giọng nói’ trong một âm tiết Như vậy thanh điệu là sự thay đổi cao độ của ‘giọng nói’, điều đó có nghĩa là có sự thay đổi biên độ của tần số cơ bản trong âm hữu thanh Dây thanh âm rung tạo ra âm thanh Biên độ của thành phần tần số cơ bản giữ nguyên trong khi biên độ các thành phần hài thay đổi, do hiện tượng cộng hưởng toàn bộ âm thanh sẽ thay đổi âm sắc và chúng ta có các nguyên âm khác nhau với cùng một thanh điệu, chẳng hạn ‘à, ù, ì’ Ngược lại nếu biên độ của thành phần tần số cơ bản thay đổi trong khi biên độ các thành phần hài không đổi, do đó không có sự biến đổi gì về cộng hưởng và chúng ta có được một nguyên âm với âm sắc không đổi nhưng với nhiều thanh điệu khác nhau, chẳng hạn như ‘à, á, ả’ Như vậy thanh điệu được xác định bằng tần số cơ bản

Điều nhận xét trên đây gợi ý cho chúng ta trong quá trình nhận dạng là nếu đã phân lớp được từ cần nhận dạng thuộc về lớp ‘a, á, à, ả, ã, ạ’, chúng ta chỉ cần xét thành phần tần số

cơ bản là xác định được cụ thể từ cần nhận dạng là từ nào

b Cơ sở sinh lý học

Bộ phận phát âm của con người gồm bốn phần:

Phổi: vai trò của phổi là tạo nên luồng không khí Lời nói được tạo thành do năng lượng

của luồng không khí đi ra

Thanh hầu và dây thanh: tiếng thanh được tạo ra trong thanh hầu do hoạt động của dây

thanh Nếu khe thanh đóng lại thì luồng không khí từ phổi đi qua khe thanh sẽ làm rung dây thanh và tạo tiếng thanh ngược lại nếu khe thanh mở để không khí qua tự do dây thanh không rung thì không có tiếng thanh sẽ tạo ra những phụ âm vô thanh

Các khoang trên thanh hầu: khoang miệng và khoang yết hầu có đặc điểm sự thay đổi

của khoang này đều kéo theo sự thay đổi của khoang kia Mỗi lần môi, lưỡi thay đổi tư thế là một lần chúng ta có một hốc cộng hưởng miệng và một hốc cộng hưởng yết hầu khác nhau Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức khả năng dao động riêng hay khả năng cộng hưởng của chúng chính là mô tả độ mở của miệng, vị trí của lưỡi và hình dáng của môi Độ mở của miệng hay độ nâng của lưỡi cho biết thể tích của hốc cộng hưởng Căn cứ vào độ mở (hay độ nâng) khác nhau mà chúng ta có các nguyên âm khác nhau: nguyên âm rộng (hay cao) như ‘a’, ‘e’, nguyên âm hẹp (hay thấp) như ‘i’, ‘u’

Môi: hình dáng của môi cho biết đặc điểm của lối thoát không khí của hốc cộng hưởng

miệng Hai môi có thể chúm tròn và nhô ra phía trước cho chúng ta những nguyên âm với âm sắc trầm hơn bình thường, đó là những nguyên âm như ‘u’, ‘ô’, ‘o’ Trái lại, nếu hai môi

ở tư thế bình thường hay dẹt ra khi phát âm, chúng ta có những nguyên âm không tròn hay dẹt như ‘a’, ‘i’, ‘e’

c Cơ sở xã hội

Các âm tố trong lời nói không chỉ là những chấn động xác định được truyền trong môi trường không khí và cũng không chỉ là kết quả hoạt động của bộ máy phát âm Các âm tố này còn được sử dụng như một đơn vị nhỏ nhất để xây dựng những đơn vị có nghĩa của ngôn nhữ Nhờ vậy mà ngôn ngữ mới trở thành công cụ giao tế Nhưng mỗi dân tộc lại nói một thứ tiếng khác nhau, có âm tố được sử dụng ở ngôn ngữ này lại không được sử dụng ở

Trang 11

ngôn ngữ khác vì vậy ngữ âm có cơ sở xã hội Mỗi ngôn ngữ có hệ thống âm vị riêng và hệ thống này thay đổi trong quá trình phát triển lịch sử của mình

1.3.2 Âm tố

Âm tố là đơn vị ngữ âm nhỏ nhất không thể phân chia được nữa Ví dụ: âm tiết ‘na’ gồm hai âm tố là ‘n’ và ‘a’

Để mô tả nguyên âm người ta tìm cách xác định hốc cộng hưởng khoang miệng và hốc

cộng hưởng khoang yết hầu - nguồn gốc của các formant nói trên

Trong việc mô tả phụ âm một loạt đặc trưng ngữ âm khác lại được nêu lên Đặc điểm cơ

bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở , song sự cản trở ấy diễn ra với những mức độ khác nhau, đúng hơn là những cách khác nhau và ở những bộ phận khác nhau của bộ phận phát âm

Về phương pháp cấu âm, người ta phân biệt phụ âm tắc (như ‘p’, ‘t’, ‘đ’, ‘b’) với phụ âm xát (như ‘v’, ‘s’, ‘g’ trong tiếng Việt) Đặc trưng của loại phụ âm thứ nhất là một tiếng nổ, phát sinh do luồng không khí từ phổi đi ra bị cản trở hoàn toàn, phải phá vỡ sự cản trở ấy để thoát ra ngoài Trái lại, đặc trưng của loại phụ âm thứ hai là tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra cọ xát vào thành của bộ phận phát âm

Người ta còn chia phụ âm tắc ra làm hai loại là phụ âm bật hơi và phụ âm mũi Cấu âm của các phụ âm bật hơi như ‘th’ trong tiếng Việt, không khí không những phá vỡ sự cản trở gây nên một tiếng nổ nhẹ mà đồng thời khi thoát ra cũng gây ra một tiếng cọ xát ở khe hở của hai mép dây thanh âm Phụ âm mũi trong tiếng Việt như ‘m’, ‘n’, ‘ng’, ‘nh’ có sắc thái mũi, phát sinh do luồng không khí từ phổi đi lên qua mũi mà thoát ra chứ không qua đường miệng, và ở đây âm do dây thanh âm tạo ra nhận được sự cộng hưởng ở khoang mũi Trong cấu tạo của phụ âm mũi, lối thoát của không khí bị đóng hoàn toàn ở đằng miệng nên được coi là phụ âm tắc, nhưng không khí lại thoát ra hoàn toàn tự do ở đằng mũi Chính do chỗ phụ âm mũi được cấu tạo do sự rung động của dây thanh âm và không khí ra ngoài không

bị cản trở - nghĩa là chúng có những đặc điểm cơ bản của việc cấu tạo nguyên âm - nên phụ âm mũi còn được gọi là phụ âm vang

Đối với các phụ âm xát cần chú ý đến một số phụ âm kiểu như ‘l’ trong tiếng Việt Trong cấu âm của phụ âm này, đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí từ phổi lên buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má để thoát ra ngoài gây ra một tiếng xát nhẹ Cách cấu âm này khiến cho người ta gọi những phụ âm kiểu ‘l’ như vậy là phụ âm bên

Việc mô tả phụ âm còn một điều quan trọng nữa là xác định vị trí cấu âm của chúng Hai âm ‘b’ và ‘đ’ trong tiếng Việt đều được cấu tạo theo phương pháp tắc nhưng phân biệt nhau

ở chỗ một đằng sự cản trở không khí xảy ra giữa hai môi, một đằng do sự tiếp xúc của đầu lưỡi và lợi

1.3.3 Âm vị

Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm vị Điều quan trọng cần nhận thức rõ âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị kết hợp với nhau theo một cách nào đó để

Trang 12

âm vị chứa đựng thông tin như nhau, còn giọng nói khác nhau là do phương ngữ , hình dáng, độ dài của bộ phận phát âm

- Có tính độc lập cao: điều này thể hiện ở điểm âm tiết tiếng Việt bao giờ cũng được ngắt

ra thành từng khúc rõ ràng, không có hiện tượng nhược hóa hay mất đi Phần cuối âm tiết đứng trước không tham gia vào việc hình thành âm tiết sau đó như một số ngôn ngữ khác Mặt khác, khi phát âm các âm tiết tiếng Việt tần số cơ bản luôn thay đổi để thể hiện phần thanh điệu và do đó ranh giới giữa các âm tiết càng rõ ràng

- Các âm tiết tiếng Việt là các đơn vị mang ý nghĩa ngay cả khi chúng đứng một mình

- Có cấu trúc chặt chẽ

Qua phân tích ngữ âm học ở phần trên, chúng ta nhận thấy rằng khi phát âm một từ dây thanh âm rung tạo ra dạng sóng của luồng không khí như trên Hình 1.2, đến lượt bộ phận cấu âm và mũi biến đổi chậm làm thay đổi dạng sóng phát ra bên ngoài để tạo ra những từ khác nhau Như vậy tín hiệu tiếng nói là do xung bước sóng chập với tín hiệu biến thiên chậm của bộ phận cấu âm Điều này dẫn tới việc trích tham số tiếng nói rất hiệu quả là phân tích cepstral, trong phương pháp này người ta muốn lấy phần tín hiệu có tần số thấp do bộ phận cấu âm tạo ra Thảo luận chi tiết về cepstral được trình bày ở Chương 3

1.4 HỆ THỐNG NGHE CỦA NGƯỜI

Quá trình nghe của người như sau: sóng áp suất âm thanh tác động đến tai người, sóng này được chuyển thành một chuỗi xung điện, chuỗi này được truyền tới não bộ thông qua hệ thần kinh, ở não, chuỗi được xử lý và giải mã

Hình 1.5 là hệ thống nghe của người Tai được chia thành ba phần: tai ngoài, tai giữa và tai trong Tai ngoài gồm vành tai và ống tai dẫn tới màng nhĩ Sóng âm di chuyển dọc theo ống tai và tác động đến màng nhĩ, làm cho màng nhĩ rung Biên độ rung của màng nhĩ thường từ vài nanometre (10 ) và tiếng nói thì thầm làm cho biên độ rung lớn nhất bằng 1 1

đường kính của phân tử hydrogen

9

Trang 13

Hình 1.5 Hệ thống nghe của người

Ở tai giữa, một khúc xương nhỏ gọi là xương búa được gắn với màng nhĩ Khi màng nhĩ rung, xương búa tiếp xúc với một khúc xương khác gọi là xương đe, làm cho xương đe quay Xương đe lại được nối với một khúc xương nữa gọi là xương bàn đạp, xương bàn đạp nối với cửa sổ oval của tai trong Ba khúc xương búa, đe, và bàn đạp là ba khúc xương nhỏ nhất của tai người Chức năng của ba khúc xương nhỏ này là truyền độ rung của màng nhĩ đến cửa sổ oval của tai trong

Cửa sổ oval là một lỗ mở ở thành xương ốc tai được bao phủ bằng màng Chia phần ốc tai chứa đầy dịch theo chiều dọc thành hai màng gọi là màng Reissner và màng đáy Cửa sổ oval rung làm sóng áp suất lan truyền qua dịch ốc tai, sóng áp suất này làm màng đáy bị lệch ở một vài điểm khác nhau Gắn với màng đáy là cơ quan Corti Cơ quan dạng nhầy này chứa 30000 tế bào lông được sắp thành ba hàng ngoài và một hàng trong Mỗi tế bào lông có chứa nhiều sợi lông nhỏ nhô ra Những sợi lông nhỏ này sẽ rung động khi màng đáy chuyển động, và điều này tạo ra thế năng cho tế bào lông Tế bào lông tiếp xúc với dây thần kinh tận của neuron thần kinh thính giác và thế năng này tạo ra chuỗi xung điện truyền tới não thông qua dây thần kinh thính giác

Từ những điều đã mô tả ở trên, chúng ta nhận thấy rằng chuyển động của màng đáy đóng vai trò quan trọng của quá trình nghe Nhiều đặc tính của cơ chế nghe đã được khám phá khi nghiên cứu vật lý-thần kinh học Màng đáy là ống không đều dài chừng 35mm, có mặt đáy gần cửa sổ oval, hẹp và cứng dần về phía đỉnh, kết quả tạo ra những điểm khác nhau tương ứng với các tần số âm thanh khác nhau Khi chúng ta nghe một sóng âm thuần túy tức âm đơn (sóng sine), những điểm khác nhau trên màng đáy sẽ rung động theo tần số của âm đơn đi vào tai Điểm lệch lớn nhất trên màng đáy phụ thuộc vào tần số của âm đơn Tần số cao tạo ra điểm lệch lớn nhất ở phía đáy và tần số thấp tạo ra điểm lệch lớn nhất phía đỉnh Như vậy màng đáy đóng vai trò là bộ phận phân tích tần số tín hiệu vào phức tạp, bằng cách tách những thành phần tần số khác nhau ở những điểm khác nhau dọc theo chiều dài của nó Mỗi điểm như vậy có thể xem là bộ lọc thông dải có tần số trung tâm và băng thông xác định Những đáp ứng tần số của những điểm khác nhau đã được đo bằng thực

nghiệm cho thấy rằng những đáp ứng này đều có hệ số phẩm chất Q gần như không đổi (Q

là ‘hệ số chất lượng’ và đặc trưng cho tính chất nhọn của đáp ứng băng thông; nó là tỉ số của tần số trung tâm và độ rộng băng tần còn ‘không đổi’ nghĩa là mỗi bộ lọc đều có cùng

giá trị Q) Những đáp ứng này không đối xứng quanh tần số trung tâm, vùng tần số cao có

tốc độ suy giảm dốc hơn nhiều so với vùng tần số thấp Vị trí của độ lệch cực đại dọc theo màng nhày biến đổi theo quan hệ phi tuyến với tần số Người ta đã chứng minh rằng mối liên hệ này gần như theo hàm logarithm, sự gia tăng tuyến tính của độ lệch sẽ tương ứng với sự gia tăng logarithm của tần số

Những nghiên cứu chỉ ra rằng ngưỡng nghe của một âm đơn tăng lên khi có sự hiện diện của những âm đơn lân cận khác (âm mặt nạ) và chỉ có băng tần hẹp xung quanh âm đơn mới tham gia vào hiệu ứng mặt nạ, băng tần này thường gọi là băng tần tới hạn Giá trị của băng tần tới hạn phụ thuộc vào tần số của của âm đơn cần thử Ví dụ âm đơn 100Hz có băng tần tới hạn xấp xỉ 90Hz; âm đơn 5kHz có băng tần tới hạn xấp xỉ 1000Hz Hình 1.6 là những băng tần tới hạn của một dải rộng tần số được xác định theo các thử nghiệm thần kinh-âm học Giá trị của những băng tần tới hạn này hẹp hơn nhiều so với những giá trị

Trang 14

Hình 1.6 Băng tần tới hạn

Cuối cùng có thể xem quá trình nghe của hệ thính giác là một dãy các bộ lọc băng thông, có đáp ứng phủ lấp lên nhau và ‘băng thông hiệu quả’ của chúng xấp xỉ với các giá trị của băng tần tới hạn Đây là cơ sở để thiết kế dãy bộ lọc cho xử lý tiếng nói

Mục đích của toàn bộ chương này là lý giải hai cách trích đặc tính của tiếng nói Một cách là căn cứ vào bộ phận phát âm dẫn tới các hệ số cepstral, cách kia lại căn cứ vào bộ phận nghe dẫn tới các hệ số bộ lọc

Trang 15

CHƯƠNG 2

CƠ SỞ XỬ LÝ TÍN HIỆU SỐ

Xử lý tín hiệu số - digital signal processing (DSP) bắt đầu bằng tín hiệu lượng tử hóa rời rạc, và xuất hiện trong máy tính dưới dạng một chuỗi các giá trị số Hình 2.1 là ví dụ về

phép toán xử lý tín hiệu số Có chuỗi số vào x n( ), phép toán O{ } và chuỗi số ra y n( )

Hình 2.1 Phép toán DSP.

Phép toán được phân thành hai loại là tuyến tính và phi tuyến Hình 2.2 là cấu trúc cây của các phép toán

Hình 2.2 Cấu trúc cây của các phép toán

Các phép toán biến đổi chuỗi số theo các hướng sau đây:

1 Trích tham số hay đặc điểm của chuỗi số

2 Tạo lập chuỗi số ra tương tự như chuỗi số vào nhưng đẹp hơn

3 Khôi phục chuỗi số từ các trạng thái trước đó

4 Mã hóa hay nén chuỗi số

Một hệ xử lý tín hiệu số đầy đủ có thể gồm nhiều phép toán trên cùng chuỗi số hay là phép toán trên kết quả của phép toán trước đó Hình 2.3 là một ví dụ như vậy

Trang 16

Hình 2.3 Một hệ DSP

Chương này được chia thành nhiều phần Phần 2.1 thảo luận về chuỗi số: cách tạo lập, phổ, liên hệ với tín hiệu liên tục Phần 2.2 thảo luận về đặc tính chung của các phép toán bất biến theo thời gian thường sử dụng nhất trong DSP Phần 2.3 thảo luận về lớp các phép toán được gọi là lọc số Phần 2.4 giới thiệu phép biến đổi Fourier rời rạc - discrete Fourier transform (DFT) Phần 2.5 giới thiệu tính chất chung của các phép toán phi tuyến Phần 2.6 bàn về đại số tuyến tính và cuối cùng Phần 2.7 thảo luận về lý thuyết xác suất ứng dụng trong xử lý tín hiệu

2.1 CHUỖI SỐ

Muốn cho máy tính xử lý được tín hiệu, phải lấy mẫu tín hiệu tại nhiều thời điểm Hình 2.4

là lấy mẫu hàm liên tục theo thời gian t, mỗi mẫu cách nhau T giây Kết quả chúng ta được tập các số gọi là chuỗi số Nếu hàm liên tục theo thời gian là x t() , thì hàm lấy mẫu là

x nT( ) theo Thông thường, chúng ta chuẩn hóa thời gian giữa hai lần lấy mẫu là 1 nên n

x nT( ) trở thành x n( )

Hình 2.4 Lấy mẫu tín hiệu

Trang 17

2.1.1 Hàm lấy mẫu

Hàm lấy mẫu là cầu nối giữa hàm thời gian liên tục và hàm thời gian rời rạc Hàm lấy mẫu

còn có tên khác là hàm delta Dirac Hàm lấy mẫu có những tính chất sau đây:

τ ở hai phương trình trên có thể là giá trị thực

Để hiểu tại sao hàm này là hàm lấy mẫu lý tưởng, đầu tiên chúng ta khảo sát hàm lấy mẫu

thực tế như minh họa trên Hình 2.5 Hàm này có độ rộng xung là một đơn vị theo thời

gian và biên độ là một đơn vị theo biên độ Rõ ràng Tính chất 2 thỏa mãn Tuy nhiên khi

nhân với thì hàm lấy mẫu

(2.3)

Điều này có thể hiểu là quá trình lấy mẫu bị nhòe trong phạm vi một dãy liên quan đến độ

rộng xung của Δ( )t Muốn xấp xỉ hàm lấy mẫu tốt hơn thì hàm Δ( )t có độ rộng xung hẹp

hơn Tuy nhiên, khi độ rộng xung hẹp lại thì biên độ phải tăng lên Về mặt giới hạn, chúng

ta thấy rằng hàm lấy mẫu lý tưởng có độ rộng xung hẹp vô hạn sao cho mẫu được lấy tại

một thời điểm, còn biên độ lớn vô hạn sao cho tín hiệu lấy mẫu có cùng năng lượng hữu

hạn như nhau

Hình 2.5 Hàm lấy mẫu thực tế

2.1.2 Sử dụng hàm lấy mẫu

Hình 2.6 minh họa quá trình lấy mẫu dùng hàm lấy mẫu lý tưởng tại các thời điểm cách

nhau T giây Kết quả, chúng ta có được dạng sóng theo thời gian

Trang 18

Chú ý rằng là tín hiệu liên tục theo thời gian được tạo ra từ một tập vô hạn của các tín

hiệu liên tục theo thời gian

x t s( )

x t( ) (δ −t nT) Do hàm lấy mẫu tạo ra hệ số nhân khác zero tại

những giá trị t nT= , nên có thể viết lại x t s( )như sau:

Trong phương trình sau cùng này, chúng ta thấy xuất hiện chuỗi số x nT( ) Đây là tập hợp

số và sẽ được thảo luận trong các phần kế

Hình 2.6 Hàm lấy mẫu lý tưởng

2.1.3 Phổ của tín hiệu lấy mẫu

Theo lý thuyết biến đổi Fourier, phổ tần số của dạng sóng liên tục theo thời gian x t( ) được

Trang 19

Phương trình này biểu diễn chính xác chuỗi Fourier của là hàm có chu kỳ T Các hệ

số của chuỗi Fourier là

1 2

Hai phương trình sau cùng là cặp chuỗi Fourier cho phép tính tín hiệu theo thời gian hay

phổ tần số tùy theo đối số của cặp chuỗi Fourier Chú ý rằng tín hiệu đã bị loại bỏ và

thay vào đó là

x t s( )

x nT( )

2.1.4 Liên hệ giữa phổ của tín hiệu liên tục và tín hiệu rời rạc

Xét phương trình (2.7) tại thời điểm t nT= và cho kết quả này bằng vế phải của phương

trình (2.11), chúng ta thu được mối liên hệ giữa hai phổ như sau:

1 2

Vế phải của phương trình (2.7) có thể biễu diễn là tổng vô hạn của một tập các tích phân có

giới hạn hữu hạn

x nT X f e j fnT df

m T

m T

2 1 2

1 2

Di chuyển phép tổng vào trong tích phân, chú ý e j2 mn

1

π = với mọi m, n nguyên, và thành

phần bên trong tích phân tương tự với thành phần bên trong tích phân của phương trình

(2.11), nên chúng ta có mối liên hệ sau:

m T

Trang 20

Phương trình (2.15) nói lên rằng phổ tần số của tín hiệu lấy mẫu là tổng vô hạn phổ tần số

của tín hiệu liên tục, ở đó khoảng cách giữa hai phổ tần số của tín hiệu liên tục là 1

Chúng ta hãy khảo sát trường hợp phổ tần số của tín hiệu liên tục bằng với phổ tần số của

tín hiệu lấy mẫu, ít nhất là trong một phạm vi tần số nào đó Nếu không có thành phần phổ

nào của tín hiệu liên tục lớn hơn 1

2T thì hai phổ sẽ bằng nhau trong phạm vi tần số từ

tần số đã nói ở trên

Tiêu chuẩn lấy mẫu Nyquist căn cứ trên những điều vừa thảo luận và khẳng định rằng nếu

tần số lấy mẫu lớn hơn hai lần tần số lớn nhất của tín hiệu liên tục thì có thể khôi phục

hoàn toàn tín hiệu liên tục từ tín hiệu lấy mẫu Ngược lại, nếu tần số lấy mẫu nhỏ hơn hai

lần tần số lớn nhất của tín hiệu liên tục thì xảy ra hiện tượng trùm phổ Tín hiệu liên tục

được khôi phục lại sẽ bị méo và độ méo phụ thuộc vào độ trùm phổ

2.1.5 Chuỗi xung đơn vị

Có một chuỗi số quan trọng là chuỗi xung đơn vị và ký hiệu là Chuỗi xung đơn vị

gồm vô hạn mẫu có giá trị zero với mọi n

Trang 21

2.2 CÁC PHÉP TOÁN TUYẾN TÍNH BẤT BIẾN

Các phép toán được sử dụng rộng rãi nhất trong DSP là tuyến tính và bất biến theo thời

gian - linear time invariant (LTI)

Tính chất tuyến tính được phát biểu như sau:

Cho x n( ) là chuỗi hữu hạn vàO{ }là phép toán trong không gian n-chiều, đặt

Trang 22

Chúng ta gọi

h n( )= O{ ( )}u n0 (2.26) là đáp ứng của chuỗi xung đơn vị Do tính chất bất biến theo thời gian nên

Phương trình (2.28) phát biểu rằng y n( ) là tổng chập x n( ) với đáp ứng xung h n Thay

vào phương trình (2.28), chúng ta có dạng tương đương

Cho đến bây giờ các mô tả toán học của chuỗi số và phép toán đều giả thiết là đáp ứng

xung của phép toán vẫn có giá trị ngay cả trước thời điểm tác động của chuỗi số vào Đây

là dạng tổng quát của phương trình và phù hợp cho phát triển lý thuyết Tuy nhiên, không

có một hệ vật lý nào có thể tạo ra chuỗi số ra khi chưa có chuỗi số vào tác động Bởi vì các

phép toán và chuỗi số DSP có tính vật lý nên chúng ta chỉ thảo luận các phép toán và chuỗi

số có thể tồn tại trong thực tế

Bước đầu tiên khi biểu diễn chuỗi số thực tế là chuỗi số phải bắt đầu tại một thời điểm cụ

thể nào đó Như vậy có thể giả thiết rằng các thành phần của chuỗi số sẽ có giá trị zero tại

những chỉ số thời gian nhỏ hơn zero, đồng thời sau thời điểm zero giá trị của chuỗi có thể là

zero hay khác zero Thuộc tính này của chuỗi số và phép toán được gọi là nhân quả hay nói

cách khác chuỗi số ra của hệ DSP tại thời điểm n (tức là y n( )) chỉ phụ thuộc vào chuỗi số

vào tại thời điểm hiện tại và quá khứ (tức là x n x n( ), ( −1), (x n−2) ) chứ không phụ thuộc

vào chuỗi số tương lai (tức là x n( +1), (x n+2) )

Bây giờ tổng chập của phép toán nhân quả có thể viết

nghĩa là đáp ứng không có giá trị với mọi m nhỏ hơn zero

2.2.2 Phương trình sai phân

Về mặt lý thuyết các phép toán bất biến theo thời gian, nhân quả, tuyến tính, rời rạc theo

thời gian có thể mô tả bằng phương trình sai phân bậc N

0 1

Trang 23

Một cách tổng quát phương trình không thay đổi nếu tất cả hệ số được chuẩn hóa theo a o

0 1

1 1

hay

y n( )=b x n0 ( )+b x n1 ( − +1) b x n2 ( − +2)

+b N−1x n( − N+ −1) a y n1 ( − −1) a y n2 ( −2)

Trong phương trình (2.32) và (2.33) thành phần y n m( − ) và x n p( − ) cũng là hàm y n( ) và

x n( ) nhưng đã được dời đi hay làm trễ tương ứng Chẳng hạn, trên Hình 2.8 minh họa chuỗi

x n( ) và x n( − 3) là x n( ) nhưng dời đi ba mẫu

Sử dụng tính chất trễ và phương trình (2.34), chúng ta có thể xây dựng cấu trúc tổng quát

của phép toán LTI Trên Hình 2.9, mỗi hộp là một phần tử trễ có độ lợi là một Các hệ số

được ghi trên chân của đồ thị Vòng tròn là phép tổng các phần tử

Trang 24

Hình 2 8 Dời chuỗi số

Hình 2.9 Đồ thị của phép toán tuyến tính

2.2.3 Biến đổi z của phép toán LTI

Có phép biến đổi tuyến tính rất hiệu quả để phân tích tín hiệu rời rạc theo thời gian, giống

như phép biến đổi Laplace để phân tích tín hiệu liên tục theo thời gian Phép biến đổi này

là biến đổi z và được định nghĩa như sau:

ở đó ký hiệu gọi là ‘biến đổi z của’ và z trong phương trình trên là số phức Một trong

những tính chất quan trọng của biến đổi z là mối liên hệ với chuỗi số trễ theo thời gian Để

chứng minh điều này, chúng ta hãy lấy biến đổi z của chuỗi

Trang 25

Bởi vì p luôn luôn dương và x n( )= 0 với mọi n < 0 , nên

So sánh phép tổng trong phương trình cuối cùng này và phương trình (2.35) là phép biến đổi

z của x n( ), chúng ta có

L{ (x np)}=zp L{ ( )}x n =zp X z( )

Áp dụng tính chất này của biến đổi z vào phương trình tổng quát của phép toán tuyến tính

bất biến theo thời gian như sau:

Bởi vì biến đổi z là phép biến đổi tuyến tính có tính phân phối và tính kết hợp nên chúng ta

viết lại phương trình trên như sau:

(2.43)

L{ ( )}y n a p L{ (y n p)} b L{ (x n q)}

p

q q

p p p

1

Hình 2.10 là vẽ lại Hình 2.9 trong miền biến đổi z nhưng dựa trên phương trình (2.44) Đồ

thị là như nhau nếu chúng ta coi hệ số nhân trong miền biến đổi z tương đương với trễ

một đơn vị thời gian trong miền thời gian

z−1

Trang 26

Hình 2.10 Đồ thị biến đổi z của phép toán LTI

2.2.4 Hàm truyền trong miền tần số của phép toán LTI

Lấy biến đổi Fourier hai vế của phương trình (2.30), chúng ta có

( )( ) = ( ) −

Hình 2.11 là sơ đồ khối của phương trình (2.51) theo miền thời gian và Hình 2.12 là sơ đồ

khối của phương trình (2.51) theo miền tần số (biến đổi Fourier) Phép toán gồm

biên độ và góc pha của hàm theo biến (thường được gọi là tần số lấy mẫu

Trang 27

Hình 2.12 Miền tần số của phép toán LTI

2.2.5 Liên hệ giữa biến đổi z với đáp ứng tần số

Nhắc lại cặp biến đổi Fourier

Để đơn giản khi ký hiệu, chúng ta chuẩn hóa chu kỳ lấy mẫu T = 1

Bây giờ hãy so sánh phương trình (2.52) với biến đổi z của x n( )

Phương trình (2.52) và (2.54) là bằng nhau với chuỗi x n( ) là nhân quả (tức là x n( )= 0 với

mọi n< 0) nếu chúng ta đặt z như sau:

z=e jf

Hình 2.13 là quỹ tích các giá trị của z trong mặt phẳng phức theo phương trình (2.55) Quỹ

tích này là vòng tròn có bán kính là một Như vậy, khi đánh giá biến đổi z của chuỗi nhân

quả x n( ) trên vòng tròn đơn vị của mặt phẳng phức sẽ tương đương với biểu diễn trong

miền tần số của x n( ) Đây là một trong những tính chất rất hiệu quả của phép biến đổi z

khi phân tích tín hiệu rời rạc

Trang 28

Hình 2.13 Vòng tròn đơn vị trên mặt phẳng phức

Chúng ta cũng nhận thấy rằng đáp ứng xung của một phép toán nào đó chỉ đơn thuần là

chuỗi , và biến đổi Fourier của chuỗi này là đáp ứng tần số của phép toán đó Biến

đổi z của chuỗi

h m( ) H z( ) cũng được đánh giá trên vòng tròn đơn vị để tạo ra biểu diễn trên miền tần số của chuỗi này Điều này được viết như sau:

2.2.6 Tóm tắt phép toán tuyến tính

Ở Phần 2.2 này chúng ta đã biểu diễn các lớp phép toán được ứng dụng rộng rãi trong xử lý

tín hiệu rời rạc: tuyến tính, nhân quả, bất biến theo thời gian Các biểu diễn này được tóm

tắt sau đây:

1 Đáp ứng xung - h m( ) (Phần 2.2.1)

Trang 29

Các biểu diễn trên là công cụ hữu ích để nghiên cứu tín hiệu rời rạc theo thời gian Hiểu

các liên hệ này là một trong những chìa khóa để thiết kế hiệu quả các hệ DSP

2.3 LỌC SỐ

Các phép toán tuyến tính vừa giới thiệu và phân tích ở phần trên có thể coi như là các bộ

lọc số Bộ lọc số cho phép các thành phần tần số này được truyền không đổi tới ngõ ra, còn

các thành phần tần số khác bị chặn lại Có hai lớp lọc phổ biến Nhắc lại phương trình sai

phân của phép toán tổng quát:

1 1

Chú ý rằng tổng vô hạn đã được thay bằng tổng hữu hạn Điều này là cần thiết để bộ lọc có

thể tổ chức được

Lớp đầu tiên của bộ lọc số có a p = 0 với mọi p Tên chung của bộ lọc loại này là đáp ứng

xung hữu hạn - finite impulse response (FIR) bởi vì đáp ứng xung có chiều dài là hữu hạn

(không lớn hơn Q) Bộ lọc này còn có tên gọi lọc trung bình di chuyển - moving average

(MA) bởi vì ngõ ra đơn thuần là trung bình có trọng của những giá trị vào

Lớp thứ hai của bộ lọc số là bộ lọc đáp ứng xung vô hạn - infinite impulse response (IIR)

Lớp này bao gồm bộ lọc tự hồi quy - autoregressive (AR) và dạng tổng quát nhất, bộ lọc

ARMA Ở trường hợp AR, b q = 0 với mọi q∈[ 1 Q−1]

Với bộ lọc ARMA, phương trình tổng quát được áp dụng (phương trình 2.57) Trong bộ lọc

IIR, đáp ứng của một xung ở ngõ vào có thể tạo ra vô hạn xung ở ngõ ra với tập hệ số cho

trước Độ ổn định là vấn đề đối với bộ lọc IIR bởi vì nếu chọn các hệ số không khéo, ngõ ra

sẽ tăng ra vô cực ứng với một vài giá trị của ngõ vào

chúng ta nhận thấy các hệ số của bộ lọc FIR giống với các phần tử của chuỗi đáp ứng xung

nếu đáp ứng xung này có chiều dài hữu hạn

với

b q = ( )h q q =0 1 2, , , Q−1

Trang 30

Điều này có nghĩa là nếu ngõ vào là chuỗi đáp ứng xung, phép toán là đáp ứng xung hữu

hạn thì chúng ta xác định được ngay các hệ số của bộ lọc FIR Tuy nhiên, như đã đề cập khi

bắt đầu phần này, bộ lọc được xét theo quan điểm tần số Do đó, cách thông dụng nhất là

cho đáp ứng trong miền tần số và yêu cầu xác định các hệ số của bộ lọc

Có nhiều phương pháp xác định các hệ số của bộ lọc FIR khi cho đáp ứng trong miền tần

số Dưới đây là tóm tắt hai phương pháp phổ biến nhất để thiết kế bộ lọc FIR

1 Sử dụng DFT trên đáp ứng tần số lấy mẫu Phương pháp này đòi hỏi đáp ứng tần số

của bộ lọc được lấy mẫu với chu kỳ T là thời gian giữa hai mẫu trong hệ DSP Phép

biến đổi Fourier ngược - inverse discrete Fourier transform (IDFT) áp dụng cho đáp

ứng đã lấy mẫu này để tạo ra đáp ứng xung của bộ lọc Kết quả tốt nhất sẽ đạt được

nếu tác động một cửa sổ làm trơn lên đáp ứng tần số trước khi hình thành IDFT

2 Tối ưu xấp xỉ mini-max dùng kỹ thuật thảo chương tuyến tính McClellan và Parks đã

dùng thuật toán trao đổi Remez để tạo ra các hệ số FIR tối ưu nếu cho trước đáp

ứng tần số của bộ lọc Rabiner và Gold đã giới thiệu đầy đủ chương trình này

Chúng ta có thể nghiên cứu đáp ứng tần số của bộ lọc thông qua hàm truyền của phép toán

tuyến tính tổng quát:

Q

p p p

1

1

1

Chú ý rằng phép tổng là hữu hạn để tổ chức được bộ lọc trong thực tế Đối với lọc FIR, các

hệ số a p = 0 nên phương trình trên trở thành:

q q

1 1

2.3.2 Lọc FIR có pha tuyến tính

Nhiều ứng dụng trong viễn thông và xử lý ảnh quan tâm đến bộ lọc FIR có pha thay đổi

tuyến tính khi tần số thay đổi Điều này là quan trọng bởi vì hàm truyền pha liên quan đến

độ méo nhỏ nhất khi truyền tín hiệu qua bộ lọc Trong lọc FIR, các hệ số b quan hệ với

nhau một cách đơn giản là có thể tạo ra được bộ lọc FIR có pha tuyến tính

q

Pha tuyến tính khi tần số thay đổi có nghĩa là

H f( ) |= H f e( )| j[α βf+ ]

Trang 31

ở đó và β là hằng số Nếu hàm truyền có thể tách thành hàm thực theo f nhân với thừa

số pha thì hàm truyền này sẽ có pha tuyến tính

1 1

Thay z=e jf vào phương trình trên để tạo ra đáp ứng tần số

H f( )= +b b ej f +b ej ( f)+ + b Q e j (Q )f

− − −

0 1

2 2

H f( )=ej f{[b e j f +b Q e j f]

− −2

0 2

1 2

πζ πζ πζ

+ − +

− − −

[b e1 j2π ζ( 1)f b Q 2e j2π ζ( 1)f] + − +

− − −

[b e2 j2π ζ( 2)f b Q 3e j2π ζ( 2)f] + }

Nếu mỗi cặp hệ số bên trong dấu [ ] bằng nhau như sau:

Trang 32

Hình 2.14 Đáp ứng của bộ lọc thông thấp FIR (theo Paul M Embree và Bruce Kimble)

Xét đáp ứng của một bộ lọc FIR cụ thể với các hệ số rất đơn giản, lấy theo phương trình

MA như sau:

y n( )=0 11 ∗x n( )+0 22 ∗x n( − +1) 0 34 ∗x n( −2) + 0 22 ∗x n( − +3) 0 11 ∗x n( −4)

Khi quan sát các hệ số của bộ lọc, chúng ta có thể nhận ra bộ lọc này là lọc thông thấp, bởi

vì một giá trị hằng (thành phần một chiều) ở ngõ vào sẽ tạo ra một giá trị như vậy ở ngõ ra Ngoài ra, tất cả hệ số đều dương nên bộ lọc có khuynh hướng lấy trung bình các giá trị liền nhau

Hình 2.14 minh họa đáp ứng của bộ lọc FIR này Bộ lọc này thực sự là bộ lọc thông thấp và giá trị null ở băng dừng là đặc tính của bộ lọc rời rạc theo thời gian

Q

p p p

Trang 33

2.3.5 Đáp ứng của một bộ lọc IIR cụ thể

Hình 2.15 Đáp ứng của bộ lọc thông thấp IIR (theo Paul M Embree và Bruce Kimble)

Xét bộ lọc IIR đơn giản nhất, lấy theo phương trình AR như sau:

y n( )= x n( )+y n( − 1)Quan sát đáp ứng của bộ lọc này khi ngõ vào là các giá trị đơn giản, chúng ta nhận thấy rằng: ngõ vào là zero, ngõ ra là giá trị hằng; ngõ vào là giá trị dương, ngõ ra tăng tuyến tính theo thời gian; ngõ vào là giá trị âm, ngõ ra giảm tuyến tính theo thời gian Hình 2.15 là đáp ứng tần số của bộ lọc này

2.3.6 Đặc tả bộ lọc

Như đã đề cập ở phần trước, biên độ và pha của bộ lọc thường được đặc tả trong miền tần số Hình 2.16 là đáp ứng biên độ của bộ lọc thông thấp Độ lợi của bộ lọc được chuẩn hóa xấp xỉ một ở tần số thấp Hình vẽ này minh họa một số thuật ngữ quan trọng liên quan đến đặc tả bộ lọc

Hình 2.16 Đáp ứng biên độ của bộ lọc thông thấp đã chuẩn hóa (theo Stearns)

Trang 34

Băng thông - passband - là miền cho phép tín hiệu ngõ vào truyền tới ngõ ra nhưng suy hao

rất ít hay không suy hao Trong bộ lọc thông thấp, băng thông bắt đầu từ tần số w = 0 đến

điểm bắt đầu của băng chuyển tiếp là trên Hình 2.18 Băng chuyển tiếp - transition band

- là miền mà tín hiệu ra bị suy hao cho tới khi dừng hẳn Băng chuyển tiếp kết thúc ở tần số

băng dừng Băng dừng là dải tần số mà tín hiệu bị suy hao với hệ số suy hao cho trước

Bộ lọc điển hình được đặc tả bằng các tham số sau đây:

w p

1 Độ nhấp nhô băng thông - 2δ

2 Độ suy hao băng dừng - 1/ λ

3 Tần số bắt đầu chuyển tiếp và dừng chuyển tiếp - w pw s

4 Độ rộng của băng chuyển tiếp - w sw p

5 Tần số cắt - là tần số mà ở đó độ lợi bị suy hao so với độ lợi qui định của băng thông Thường là suy hao từ -1 dB đến -3 dB

2.3.7 Cấu trúc bộ lọc

Có nhiều cách để tổ chức bộ lọc khi cho phương trình của bộ lọc FIR hay IIR Mỗi cấu trúc, về mặt toán học là tương đương, nhưng có thể tạo ra các kết quả khác nhau do độ chính xác của con số trong máy tính hay phần cứng được dùng

Hình 2.17 là ba cấu trúc để tổ chức bộ lọc Đầu tiên là dạng tổ chức trực tiếp theo hàm

truyền (Hình 2.17a) Cấu trúc này sử dụng biến đổi z phương trình hàm truyền của bộ lọc,

tổ chức một phần tử trễ và nhân trực tiếp hệ số

Dạng trực tiếp của bộ lọc có thể chuyển thành dạng nối tiếp bằng cách tách hàm truyền thành tích các hàm truyền (Hình 2.17b) Tương tự, có thể tách hàm truyền thành tổng các hàm truyền, cách này tạo ra dạng song song của bộ lọc (Hình 2.17c)

Trang 35

Hình 2.17 Cấu trúc bộ lọc số (theo Stearns)

2.4 BIẾN ĐỔI FOURIER RỜI RẠC - DISCRETE FOURIER TRANSFORM

Cho tới bây giờ, chúng ta đã vài lần sử dụng biến đổi Fourier khi đề cập đến đặc tính của

chuỗi số và phép toán tuyến tính Biến đổi Fourier của chuỗi số nhân quả như sau:

ở đó chu kỳ lấy mẫu đã chuẩn hóa là một ( T = 1) Nếu chuỗi số có độ dài giới hạn (để có

thể tổ chức được cho máy tính) thì

Bởi vì X f( ) là hàm tuần hoàn với chu kỳ 1/ T =1, nên tích phân trên có thể lấy trên chu

kỳ nào cũng được

(2.68)

x n( )=∫ X f e( ) j2 fn df

0 1

π

Trang 36

2.4.1 Dạng DFT

Biểu diễn trên của biến đổi Fourier là chính xác nhưng có trở ngại chính trong xử lý số -

biến tần số là liên tục chứ không phải rời rạc Để khắc phục điều này, chúng ta phải biểu

diễn lại tín hiệu theo thời gian và tần số

Biến đổi Fourier rời rạc thuận DFT

Phần này sẽ giới thiệu các tính chất quan trọng của DFT Sử dụng các tính chất này chúng

ta sẽ tổ chức hiệu quả khi tính toán DFT

Tính tuần hoàn Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì

ở đó A k( ) và B k( ) là DFT của chuỗi a n( ) và b n( ) trong miền thời gian

Tính chất này cũng được suy ra từ định nghĩa ở Phương trình (2.69)

Tính dời theo thời gian Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì

DFT{ (x np)}=e− 2πj kp N/ X k( )Thật vậy, theo định nghĩa ở Phương trình (2.69) chúng ta có

1

Trang 37

2.4.3 Phổ công suất

DFT thường được dùng làm công cụ để phân tích phổ của chuỗi số vào Biên độ của một

thành phần tần số cụ thể thường được quan tâm Có thể chia DFT thành biên độ và pha như

Nếu chúng ta quan tâm đến phổ công suất của tín hiệu thì chúng ta lấy tín hiệu nhân với

liên hợp phức của nó

X k X( ) ∗( ) |k = X k( )|2= X + X

real 2 imag 2

Tuy nhiên, nảy sinh một vài vấn đề khi dùng DFT làm công cụ phân tích phổ Vấn đề nảy

sinh liên quan đến giả thiết là chúng ta đã tạo ra DFT của chuỗi số trong một chu kỳ của

dạng sóng có chu kỳ lặp lại Hình 2.18 minh họa điều này Trên hình vẽ thể hiện, mọi chuỗi

số đều bị gián đọan theo thời gian tại các biên của chu kỳ giả Điều gián đoạn này sẽ gây

ra thành phần tần số rất cao ở chuỗi số ra Những thành phần này có thể sẽ lớn hơn nhiều

tần số lấy mẫu, và bị dời vào giữa phổ

Hình 2.18 Tạo chu kỳ từ một đoạn

Trang 38

Kỹ thuật dùng để khắc phục khó khăn này là cửa sổ hóa Vấn đề phải khắc phục là phần

gián đoạn ở cạnh của mỗi chu kỳ của dạng sóng Bởi vì thuật toán DFT tổng quát không

biết được độ gián đoạn ở hai biên, nên kỹ thuật cửa sổ chỉ đơn thuần giảm bớt biên độ của

chuỗi số ở hai biên Điều này được làm từng bước và làm trơn sao cho không tạo ra thành

phần gián đoạn mới và kết quả là giảm bớt thành phần tần số bị dời đi Không có cải tiến

nào mà không trả giá Bởi vì áp dụng cửa sổ vào chuỗi số trước khi DFT, nên độ trung thực

của biểu diễn phổ bị suy giảm Kết quả là độ phân giải của các thành phần tần số bằng

nhau hơi bị suy giảm Cửa số tốt nhất đòi hỏi phải làm cho tín hiệu giả (bị dời đi) suy giảm

nhiều nhất đồng thời suy hao của độ phân giải phổ là nhỏ nhất

Có nhiều loại cửa sổ khác nhau nhưng đều có đặc tính chung là: giảm các phần tử gần biên

(gần n= 0 và n= N − 1) và bù bằng cách tăng giá trị các thành phần ở xa biên Các cửa sổ

thông dụng là cửa sổ Hamming, Hanning

2.4.4 Phổ trung bình

Bởi vì tín hiệu luôn luôn có nhiễu, nhiễu gây ra do tính chất của thiết bị tạo tín hiệu hay

nhiễu bên ngoài tác động đến nguồn tín hiệu Nếu chỉ lấy DFT một lần thì thường biểu diễn

không trung thực phổ tín hiệu Để khắc phục điều này, chúng ta lấy DFT nhiều lần từ nhiều

nguồn tín hiệu giống nhau và lấy trung bình theo thời gian của phổ công suất Nếu mỗi DFT

được lấy trong mỗi NT giây thì

Rõ ràng, phổ tín hiệu không thể thay đổi nhiều trong khoảng từ t = 0 tới t= (Max NT)( )

2.4.5 Biến đổi Fourier nhanh

Biến đổi Fourier nhanh - fast Fourier transform (FFT) là thuật toán rất hiệu quả để tính

DFT của một chuỗi số Ưu điểm là ở chỗ nhiều tính toán được lặp lại do tính tuần hoàn của

số hạng Fourier e− 2π /j kn N Dạng của DFT là

Chú ý rằng W(N qN+ )(k rN+ ) =W nk với mọi q r, nguyên do tính tuần hoàn của số hạng Fourier

Chúng ta tách DFT thành hai phần

2 1

ở đó chỉ số dưới N của số hạng Fourier biểu diễn kích thước của chuỗi

Nếu chúng ta biểu diễn thành phần chẳn của chuỗi số x n( ) bằng và thành phần lẻ là

thì phương trình trên có thể viết lại

xev

xod

Trang 39

N nk n

2 1

Bây giờ, chúng ta có hai biểu thức có dạng DFT, do đó chúng ta có thể viết

X k( )= Xev( )k +W N k/2Xod( )k

Chỉ số phải chạy đến k N − 1 nhưng do sử dụng tính chu kỳ của hàm chẳn và hàm lẻ, nên

chỉ cần tính DFT N / 2 điểm để có được các giá trị của X k( )

=λ( )0 +λ( )

=λ( )0 −λ( )

Đối với 2 điểm DFT này chỉ cần phép cộng và trừ mà không cần phép nhân Để tính toàn

bộ DFT, chúng ta nhân 2 điểm DFT với các thừa số W thích hợp từ W0 tới W N /2 1− Hình

2.21 là đồ thị tính 8 điểm FFT Chúng ta có thể so sánh tính trực tiếp DFT với FFT như sau:

Hình 2.19 FFT của 8 điểm, cơ số 2, phân chia theo tần số (theo Proakis và Manolakis)

Khi tính trực tiếp DFT, mỗi giá trị của k cần N phép nhân phức và N-1 phép cộng phức

Đối với DFT, mỗi hàm có dạng

λ( )0 ± W pλ( )1(gọi là bướm do đồ thị có hình cánh bướm) yêu cầu một phép nhân và hai phép cộng Từ đồ

thị ở Hình 2.21 chúng ta có thể tổng quát hóa số bướm là

Trang 40

Số bướm = N N

2 log2

Điều này là do có N / 2 hàng bướm (bởi vì mỗi bướm có hai ngõ vào) và log2 N cột bướm

Bảng 2.1 là danh sách các phép cộng và nhân ứng với N khác nhau của DFT và FFT

Chúng ta nhận thấy rằng FFT nhanh hơn rất nhiều lần khi tính trực tiếp DFT

Bảng 2.1 So sánh số lượng phép toán bướm của DFT và FFT

2.5 ĐẠI SỐ TUYẾN TÍNH: MA TRẬN VÀ VECTOR

Phần này giới thiệu những tính chất của ma trận và vector ứng dụng cho xử lý tín hiệu số

Nếu định nghĩa chuỗi số x n( ) trong khoảng n = 1 tới n N= , thì chuỗi số này được viết như

sau:

{ ( )}x n = x( ), ( ), ( ), , (1 x 2 x 3 x N−2), (x N −1), (x N)Một ký hiệu nữa khi dùng chuỗi số làm vector

(2.83)

{ ( )}

( )( )( ) ( )

x n

x x x

Chuyển vị của vector là x

xT = [ ( ), ( ), ( ), , ( )]x 1 x 2 x 3 x N

Tính toán lọc hay cửa sổ thường dùng phương trình sau:

Ngày đăng: 16/04/2021, 04:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] L. Rabiner and B. H. Juang, Fundamentals of speech recognition, Prentice-Hall, Englewood Cliffs, 1993 Sách, tạp chí
Tiêu đề: Fundamentals of speech recognition
[2] F. J. Owens, Signal processing of speech, Macmillan, London, 1993 Sách, tạp chí
Tiêu đề: Signal processing of speech
[3] John R. Deller, Jr., John G. Proakis, John H. L. Hansen, Discrete-time processing of speech signals. Macmillan, 1993 Sách, tạp chí
Tiêu đề: Discrete-time processing of speech signals
[4] Herveù A. Bourlard, Connectionist Speech Recognition, Kluwer Academic, 1994 Sách, tạp chí
Tiêu đề: Connectionist Speech Recognition
[5] Paul M. Embree, Bruce Kimble, C Language Algorithms for digital signal processing, Prentice-Hall, 1990 Sách, tạp chí
Tiêu đề: C Language Algorithms for digital signal processing
[6] Emmanuel C. Ifeachor and Barrier W.Jervis, Digital Signal Processing, Addision-Wesley, 1993 Sách, tạp chí
Tiêu đề: Digital Signal Processing
[7] Claudio Becchrtti, Speech Recognition theory and C++ Implementation, 2000 Sách, tạp chí
Tiêu đề: Speech Recognition theory and C++ Implementation
[8] Ravi P.Ramanchandar, Morden methods of speech processing, Kluwer Academic, 1995 Sách, tạp chí
Tiêu đề: Morden methods of speech processing
[11] Hồ Ngọc Điệp, Nhận dạng tiếng nói tiếng Việt, 1999 Sách, tạp chí
Tiêu đề: Nhận dạng tiếng nói tiếng Việt
[12] Trần Tiến Đức, Nhận dạng tiếng nói tiếng việt bằng mô hình markov ẩn ứng dụng nhận dạng 10 chữ số, 1998 Sách, tạp chí
Tiêu đề: Nhận dạng tiếng nói tiếng việt bằng mô hình markov ẩn ứng dụng nhận dạng 10 chữ số
[9] Nguyễn Hữu Phương, Xử lý tin hiệu số Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w