Toàn bộ luận án được chia làm bốn chương: chương đầu tiên đề cập đến đặc tính tự nhiên của tiếng nói nhằm mục đích lý giải tại sao tồn tại hai phương trích đặc điểm tiếng nói, chương hai
Trang 1Đại Học Quốc Gia Tp.Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRƯƠNG THỊ BÍCH NGÀ
ĐỀ TÀI
ỨNG DỤNG DSP TRONG NHẬN DẠNG
TIẾNG NÓI- TIẾNG VIỆT
CHUYÊN NGÀNH :KỸ THUẬT ĐIỆN TỬ
MÃ SỐ NGÀNH:
LUẬN VĂN THẠC SỸ
Tp.Hồ Chí Minh 06/03
Trang 2Đại Học Quốc Gia Tp.Hồ Chí Minh CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập –Tự Do-Hạnh Phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên : Trương Thị Bích Ngà Phái : Nữ
Ngày, tháng, năm sinh: 31/10/1974 Nơi sinh: Hà Nội
Chuyên ngành : KT Vô Tuyến _Điện tử Mã số :
I TÊN ĐỀ TÀI
Ứng dụng DSP trong nhận dạng tiếng nói –tiếng Việt
II NHIỆM VỤ VÀ NỘI DUNG:
Nhận dạng tiếng nói gồm 50 từ ứng dụng trong điều khiển
Xây dựng một hệ nhận dạng tiếng nói - tiếng Việt bằng mô hình Markov ẩn
Nội dung gồm bốn chương: giới thiệu tiếng nói tự nhiên, lý thuyết cơ sở của xử lý tín hiệu số, phương pháp trích đặc điểm bằng MFCC và thuật toán nhận dạng tiếng nói phát âm rời bằng mô hình Markov ẩn
IV NGÀY HOÀN THÀNH NHIỆM VỤ : 15/05/03
V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS Phạm trường Hải
VI HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 1: TS Vũ Đình Thành
VII HỌ VÀ TÊN CÁN BỘ CHẤM NHẬN XÉT 2: TS Nguyễn Như Anh
CÁN BỘ HƯỚNG DẪN CÁN BỘ NHẬN XÉT 1 CÁN BỘ NHẬN XÉT 2
(Ký tên và ghi rõ họ, tên, học hàm, học vị) Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên ngành thông qua
Ngày tháng năm
Trang 3LỜI CÁM ƠN
Tôi chân thành cảm ơn Th.S Hồ trung Mỹ người đã hướng dẫn tận tình và gợi mở nhiều ý tưởng để tôi có thể hoàn thành được luận án này
Tôi xin chân thành cảm ơn Th.S Trần Tiến Đức đã giúp đỡ và đề nghị những cải tiến xác đáng để luận án được hoàn thiện hơn
Tôi cũng xin chân thành cảm ơn các thầy cô, bạn bè, đồng nghiệp và gia đình đã khích lệ, động viên và tạo mọi điều kiện tốt nhất cho tôi trong quá thực hiện luận án
Trang 4LỜI MỞ ĐẦU
Xử lý tiếng nói là một hướng phát triển của lý thuyết và thực hành xử lý tín hiệu số –Digital Signal Processing (DSP) Ngày nay, phương pháp DSP được sử dụng trong phân tích tiếng nói, tổng hợp, mã hóa, nhận dạng và gia tăng tiếng nói cũng như sửa đổi tiếng nói, nhận dạng người nói và nhận dạng ngôn ngữ Một vài phương pháp bao gồm kỹ thuật xử lý cho khử nhiễu, các chuyển đổi (ví dụ: chuyển đổi Fourier, tương quan) và những phương pháp trích đặc điểm Những đặc điểm cục bộ gồm: tính toán độ dốc , mật độ địa phương, mặt nạ biến ….Trong lý thuyết, nó có thể nhận dạng tiếng nói trực tiếp từ dạng sóng số hóa Tuy nhiên, bởi vì sự thay đổi lớn của tín hiệu tiếng nói, nó có một khái niệm tốt để trình bày một vài hình thức trích đặc điểm là làm giảm sự biến thiên Trong thực tế, tính toán hình bao của phổ của tương lai gần giảm đến biến quan trọng bằng cách làm nhẵn chi tiết phổ, như là khử thông tin nguồn biến thiên, có âm thanh tiếng nói hay phụ âm xát không và nếu là tiếng nói nó khử ảnh hưởng của tính chu kỳ hoặc cường độ
Nhận dạng tiếng nói là một đề tài đã được nghiên cứu và cũng đã có nhiều hệ nhận dạng tiếng nói đã được sản phẩm hóa trên thế giới Tuy vậy, nhận dạng tiếng nói tiếng Việt vẫn còn mới mẻ ở nước ta
Mục tiêu của luận án này là xây dựng một hệ nhận dạng tiếng nói tiếng Việt bằng mô hình Markov ẩn và ứng dụng nhận dạng 50 từ dùng trong điều khiển Toàn bộ luận án được chia làm bốn chương: chương đầu tiên đề cập đến đặc tính tự nhiên của tiếng nói nhằm mục đích lý giải tại sao tồn tại hai phương trích đặc điểm tiếng nói, chương hai trình bày lý thuyết cơ sở của xử lý tín hiệu số làm nền tảng cho xử lý tiếng nói, chương ba thảo luận tỉ mỉ hai phương pháp trích đặc điểm tiếng nói là dãy bộ lọc và cepstrum, đồng thời cũng trình bày phương pháp lượng tử hóa vector để trích đặc tính trung bình và đánh nhãn cho từng frame tiếng nói nhằm cung cấp các kết quả cho chương cuối, chương cuối thảo luận thuật toán nhận dạng tiếng nói phát âm rời bằng mô hình Markov ẩn
Do trình độ và năng lực còn hạn chế nên chắc chắn luận án có nhiều sai sót Kính mong sự chỉ dẫn của thầy cô và các bạn
Tp HCM, ngày 15 tháng 5 năm 2003
Trang 5Abstract
Automatic speech recognition (ASR) has become an important in today’s driven society as we are searching for more efficient and natural man-machine interface Current ASR is based on acoustical models, from which more complex task, such as word recognition Most state of the art systems use acoustical models of phones, together with hidden Markov models (HMM) to model complex speech units The output of the acoustical modeling is the probability of observing a particular phone in an interval of speech, which then serves as input to a hidden Makov word model
technology-In this study the acoustic-phonetic approach is followed to construct an isolation speech phone recognizer for the Vietnamese language The phone recognizer based on the pattern recognition system, consists of a pre-processor, feature extractor and classifier Cepstral parameters have been show to be an effective method of extracting information
or features from spoken language, thus Mel frequency cepstrum coffients (MFCC) are used as features The Mel scale describes the relation between different perceived pitches, and has been derived from empirical data, obtained from physical auditory experiments To demonstrate an application of the phone recognizer, an automatic labeling system utilizing HMM with Viterbi searches are presented
Trang 6CHƯƠNG 1
TIẾNG NÓI TỰ NHIÊN
Chương này giới thiệu tóm tắt lịch sử nhận dạng tiếng nói đồng thời thảo luận cơ chế tạo lập và nhận thức tiếng nói của con người, điều này dẫn tới các phương pháp trích đặc tính tiếng nói khác nhau Ngoài ra chúng ta cũng phân loại các âm thanh khác nhau như âm hữu thanh, âm vô thanh, nguyên âm, phụ âm Hiểu biết rõ ngữ âm tiếng Việt là điều thuận lợi giúp cho quá trình nhận dạng tốt hơn
1.1 CƠ CHẾ TẠO LẬP TIẾNG NÓI CỦA NGƯỜI
Hình 1.1 minh họa cơ quan phát âm của người Chủ yếu gồm phổi, khí quản, thanh quản, bộ phận mũi và miệng Thanh quản có hai nếp gấp gọi là dây thanh âm, dây thanh âm sẽ rung khi luồng không khí đi qua khe thanh môn là khe giữa hai dây thanh âm Bộ phận miệng là một ống âm học không đều, dài xấp xỉ 17cm đối với đàn ông trưởng thành tính từ môi đến dây thanh âm hay thanh quản Tiết diện cắt ngang của bộ phận miệng thay đổi từ zero đến
do phần cơ của bộ phận cấu âm - articulator (môi, lưỡi, hàm và vòm miệng mềm) điều khiển Bộ phận mũi cũng là một ống âm học không đều có diện tích và chiều dài cố định (dài chừng 12cm đối với đàn ông trưởng thành), bắt đầu từ lỗ mũi đến vòm miệng mềm Vòm miệng mềm làm nhiệm vụ liên kết âm thanh giữa bộ phận mũi và miệng Quá trình tạo ra âm phi mũi như sau: vòm miệng mềm ngăn chặn bộ phận mũi và âm thanh phát
ra thông qua môi Đối với quá trình tạo ra âm mũi, vòm miệng mềm hạ thấp xuống và bộ phận mũi liên kết với bộ phận miệng, lúc này phía trước của bộ phận miệng khép lại hoàn toàn và âm thanh phát ra thông qua mũi Đối với âm thanh nói giọng mũi, âm thanh phát ra cả mũi và môi
N T2
Hình 1.1 Cơ quan phát âm của người
Khi nói, phổi đầy không khí do giãn nỡ lồng xương sườn và co lại của cơ hoành Khi lồng xương sườn co lại, không khí bị đẩy ra và đi dọc theo khí quản, xuyên qua thanh môn Luồng không khí này là nguồn năng lượng tạo ra tiếng nói Có thể điều khiển luồng không khí theo nhiều cách khác nhau để tạo ra các âm thanh khác nhau
Trang 7(a) Âm hữu thanh (voiced), giống như âm khi chúng ta nói ‘a’ hay ‘e’, được tạo ra khi dây
thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua Những dây thanh âm rung tạo ra dạng sóng của luồng không khí có dạng xấp xỉ tam giác như minh họa trên Hình 1.2, có chu kỳ hay tựa chu kỳ với phổ tần số có nhiều hài với tốc độ suy giảm xấp xỉ 12dB/octave Bộ phận phát âm hoạt động giống như hốc cộng hưởng, khuếch đại những thành phần hài này và suy giảm những thành phần hài khác để tạo ra âm hữu thanh Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điều khiển hai yếu tố trên để thay đổi chu kỳ bước sóng (pitch) âm thanh Chu kỳ bước sóng âm thanh của đàn ông trưởng thành thường từ 50Hz đến 250Hz, giá trị trung bình chừng 120Hz Đối với phụ nữ trưởng thành, giới hạn trên cao hơn nhiều, có thể lên đến 500Hz
Hình 1.2 Dạng sóng của luồng không khí
Trong ngôn ngữ các nguyên âm về bản chất âm học là những âm hữu thanh
(b) Âm vô thanh (unvoiced) được tạo ra khi dây thanh âm không rung Có hai loại âm vô
thanh cơ bản - âm xát và âm hơi Đối với âm xát, ví dụ như khi nói ‘s’ , một số điểm trên bộ phận phát âm bị co lại khi luồng không khí ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Bởi vì những điểm co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát Đối với âm bật hơi, giống như khi chúng ta nói ‘h’ trong ‘hùng’, hỗn loạn xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh
Ngoài hai loại âm cơ bản ở trên, còn có một loại âm trung gian vừa mang tính chất nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví dụ âm ‘i’ và ‘u’ trong tiếng Việt trong những từ như ‘ai’, ‘âu’
(c) Phụ âm nổ, ví dụ như âm ‘p’, ‘t’, ‘k’ hay ‘đ’, ‘b’, ‘g’ trong tiếng Việt được tạo ra do loại
kích thích khác Đối với lớp âm thanh này, bộ phận phát âm đóng lại ở một vài điểm, áp suất không khí tăng lên và thình lình giảm xuống Áp suất thình lình giảm xuống tạo ra kích thích ngắn của bộ phận phát âm Lúc này dây thanh âm có thể rung để tạo ra âm hữu thanh nổ (‘đ’, ‘b’, ‘g’) hay không rung để tạo ra âm vô thanh nổ (‘p’, ‘t’, ‘k’) Ngoài ra còn có
Trang 81.2 MÔ HÌNH LỌC NGUỒN TẠO TIẾNG NÓI
L
Hình 1.3 minh họa mô hình rất đơn giản của bộ phận phát ra nguyên âm ‘eh’ hay nguyên
âm trung tính là một ống đều có chiều dài L, một đầu là nguồn âm thanh (dây thanh âm) và
đầu kia được mở ra (môi) Ống này cộng hưởng ở các tần số lẻ , , , , ở đó
với c là vận tốc âm thanh trong không khí Bộ phận phát âm điển hình có chiều
Hình 1.3 Mô hình ống đều của bộ phận phát âm
Những thảo luận ở trên dẫn đến ý tưởng cho rằng có thể xem quá trình tạo ra tiếng nói là bộ lọc nguồn, trong đó tín hiệu từ nguồn âm thanh (cũng có thể là có chu kỳ hay nhiễu) được lọc bằng bộ lọc biến thiên theo thời gian có tính chất cộng hưởng tương tự với bộ phận phát âm Như vậy có thể thu được phổ tần số của tín hiệu tiếng nói bằng cách nhân phổ của nguồn âm thanh với đặc tính tần số của bộ lọc Hình 1.4 minh họa tiếng nói hữu thanh và vô thanh Các độ lợi AV và AN xác định cường độ của nguồn tạo âm hữu thanh và vô thanh
Hình 1.4 Tạo tiếng nói theo mô hình lọc nguồn
Mặc dầu bộ phận phát âm có một số hữu hạn các đỉnh cộng hưởng hay formant nhưng chỉ cần khảo sát ba hay bốn đỉnh cộng hưởng đầu tiên phủ trên băng tần từ 100Hz đến 3.5kHz, bởi vì biên độ của các formant cao hơn của tiếng nói hữu thanh bị suy giảm hầu như hoàn toàn với độ suy giảm -12dB/octave Trường hợp tiếng nói vô thanh, phổ tương đối rộng và bằng phẳng, số lượng các formant như vậy vẫn đủ mặc dầu mô hình đúng cho tiếng nói vô thanh thường phải mở rộng băng tần lên đến 7-8kHz Một điểm đáng lưu ý là bộ lọc của mô
Trang 9hình lọc nguồn trên Hình 1.4 không những đặc tả tính chất phát xạ của bộ phận phát âm mà còn nêu ra ảnh hưởng bức xạ của miệng Ảnh hưởng tổng trở bức xạ có thể mô hình hóa bằng đặc tính của bộ lọc thông cao bậc nhất có độ tăng lên chừng 6dB/octave trong băng tần từ 0-3kHz
Mô hình lọc nguồn cho quá trình tạo tiếng nói khá đơn giản Như đã đề cập ở trên, không thể lọc được âm xát bằng các đỉnh cộng hưởng của bộ phận phát âm như âm hữu thanh hay âm bật hơi, vì vậy mô hình lọc nguồn không hoàn toàn chính xác cho âm xát Ngoài ra, mô hình lọc nguồn còn giả thiết nguồn phát âm bị tách tuyến tính ra khỏi bộ lọc và do đó không có sự tương tác nào giữa chúng Điều giả thiết này không hoàn toàn đúng bởi vì độ rung của dây thanh âm là do áp suất âm thanh bên trong của bộ phận phát âm, liên kết với bộ phận phát âm và phổi trong suốt chu kỳ thanh quản mở, vì vậy cần phải biến đổi đặc tính của bộ lọc ở mỗi chu kỳ kích âm Tuy nhiên những điều thứ yếu này thường được bỏ qua và mô hình lọc nguồn là chấp nhận được
1.3 NGỮ ÂM HỌC
Ngôn ngữ con người bao giờ cũng là ngôn ngữ thành tiếng Tuy nhiên hình thức diễn đạt bằng âm thanh của các từ trong ngôn ngữ không phải là âm thanh đơn thuần Khi đọc nhẩm, khi nghĩ thầm vẫn có những từ xuất hiện với hình thức âm thanh của chúng song đó chỉ là những hình ảnh âm học Trong giao tế bằng lời cũng vậy, người nghe không phải khi nào cũng tri giác tất cả những gì người đó cảm thụ bằng thính giác Người nghe thường chỉ nhận biết những đặc trưng âm học nào khiến họ phân biệt được từ và hiểu được nội dung của lời nói
1.3.1 Cơ sở ngữ âm học
a Cơ sở âm học
Âm thanh của ngôn ngữ được tạo thành do sự rung động của dây thanh và các khí quan khác của bộ phận phát âm Âm thanh của ngôn ngữ chỉ có thể là những chấn động mà tai người có thể nghe được Âm học phân biệt các âm thanh theo những đặc tính sau:
Độ cao: phụ thuộc vào tần số dao động (tần số chấn động của dây thanh), tần số dao động
càng lớn thì âm thanh càng cao Còn tần số dao động phụ thuộc vào độ dầy, mức căng của dây thanh và áp suất không khí phía dưới và phía trên thanh hầu Tai người có thể phân biệt độ cao từ 16 – 20.000 Hz
Độ lớn (cường độ): phụ thuộc vào biên độ dao động Đối với ngôn ngữ cường độ âm thanh
bảo đảm sự xác minh trong giao tế và nó là cơ sở để tạo thành các kiểu trọng âm khác nhau
Độ dài (trường độ): là thời gian kéo dài của âm thanh Độ dài sử dụng để phân biệt các
nguyên âm dài và nguyên âm ngắn (các nguyên âm có trọng âm thường dài hơn các nguyên âm không có trọng âm) Ví dụ a và ă
Ngoài ra các âm còn phân biệt với nhau nhờ âm sắc của chúng Âm sắc có được là do sự cộng hưởng, tức là sự khuếch đại một số thượng âm nào đó trong một cộng hưởng trường tạo nên mối quan hệ với âm cơ bản và tiếng ồn So sánh cách phát âm hai từ ‘bình’ và chữ
‘bính’ trong tiếng Việt, ‘bình’ được phát ra với ‘giọng’ thấp hay có cao độ thấp hơn, còn
‘bính’ có ‘giọng’ cao hơn hay cao độ cao hơn, do đó người nghe có thể phân biệt được hai
Trang 10nặng’ được gọi là thanh điệu Thanh điệu là sự nâng cao hay hạ thấp ‘giọng nói’ trong một âm tiết Như vậy thanh điệu là sự thay đổi cao độ của ‘giọng nói’, điều đó có nghĩa là có sự thay đổi biên độ của tần số cơ bản trong âm hữu thanh Dây thanh âm rung tạo ra âm thanh Biên độ của thành phần tần số cơ bản giữ nguyên trong khi biên độ các thành phần hài thay đổi, do hiện tượng cộng hưởng toàn bộ âm thanh sẽ thay đổi âm sắc và chúng ta có các nguyên âm khác nhau với cùng một thanh điệu, chẳng hạn ‘à, ù, ì’ Ngược lại nếu biên độ của thành phần tần số cơ bản thay đổi trong khi biên độ các thành phần hài không đổi, do đó không có sự biến đổi gì về cộng hưởng và chúng ta có được một nguyên âm với âm sắc không đổi nhưng với nhiều thanh điệu khác nhau, chẳng hạn như ‘à, á, ả’ Như vậy thanh điệu được xác định bằng tần số cơ bản
Điều nhận xét trên đây gợi ý cho chúng ta trong quá trình nhận dạng là nếu đã phân lớp được từ cần nhận dạng thuộc về lớp ‘a, á, à, ả, ã, ạ’, chúng ta chỉ cần xét thành phần tần số
cơ bản là xác định được cụ thể từ cần nhận dạng là từ nào
b Cơ sở sinh lý học
Bộ phận phát âm của con người gồm bốn phần:
Phổi: vai trò của phổi là tạo nên luồng không khí Lời nói được tạo thành do năng lượng
của luồng không khí đi ra
Thanh hầu và dây thanh: tiếng thanh được tạo ra trong thanh hầu do hoạt động của dây
thanh Nếu khe thanh đóng lại thì luồng không khí từ phổi đi qua khe thanh sẽ làm rung dây thanh và tạo tiếng thanh ngược lại nếu khe thanh mở để không khí qua tự do dây thanh không rung thì không có tiếng thanh sẽ tạo ra những phụ âm vô thanh
Các khoang trên thanh hầu: khoang miệng và khoang yết hầu có đặc điểm sự thay đổi
của khoang này đều kéo theo sự thay đổi của khoang kia Mỗi lần môi, lưỡi thay đổi tư thế là một lần chúng ta có một hốc cộng hưởng miệng và một hốc cộng hưởng yết hầu khác nhau Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức khả năng dao động riêng hay khả năng cộng hưởng của chúng chính là mô tả độ mở của miệng, vị trí của lưỡi và hình dáng của môi Độ mở của miệng hay độ nâng của lưỡi cho biết thể tích của hốc cộng hưởng Căn cứ vào độ mở (hay độ nâng) khác nhau mà chúng ta có các nguyên âm khác nhau: nguyên âm rộng (hay cao) như ‘a’, ‘e’, nguyên âm hẹp (hay thấp) như ‘i’, ‘u’
Môi: hình dáng của môi cho biết đặc điểm của lối thoát không khí của hốc cộng hưởng
miệng Hai môi có thể chúm tròn và nhô ra phía trước cho chúng ta những nguyên âm với âm sắc trầm hơn bình thường, đó là những nguyên âm như ‘u’, ‘ô’, ‘o’ Trái lại, nếu hai môi
ở tư thế bình thường hay dẹt ra khi phát âm, chúng ta có những nguyên âm không tròn hay dẹt như ‘a’, ‘i’, ‘e’
c Cơ sở xã hội
Các âm tố trong lời nói không chỉ là những chấn động xác định được truyền trong môi trường không khí và cũng không chỉ là kết quả hoạt động của bộ máy phát âm Các âm tố này còn được sử dụng như một đơn vị nhỏ nhất để xây dựng những đơn vị có nghĩa của ngôn nhữ Nhờ vậy mà ngôn ngữ mới trở thành công cụ giao tế Nhưng mỗi dân tộc lại nói một thứ tiếng khác nhau, có âm tố được sử dụng ở ngôn ngữ này lại không được sử dụng ở
Trang 11ngôn ngữ khác vì vậy ngữ âm có cơ sở xã hội Mỗi ngôn ngữ có hệ thống âm vị riêng và hệ thống này thay đổi trong quá trình phát triển lịch sử của mình
1.3.2 Âm tố
Âm tố là đơn vị ngữ âm nhỏ nhất không thể phân chia được nữa Ví dụ: âm tiết ‘na’ gồm hai âm tố là ‘n’ và ‘a’
Để mô tả nguyên âm người ta tìm cách xác định hốc cộng hưởng khoang miệng và hốc
cộng hưởng khoang yết hầu - nguồn gốc của các formant nói trên
Trong việc mô tả phụ âm một loạt đặc trưng ngữ âm khác lại được nêu lên Đặc điểm cơ
bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở , song sự cản trở ấy diễn ra với những mức độ khác nhau, đúng hơn là những cách khác nhau và ở những bộ phận khác nhau của bộ phận phát âm
Về phương pháp cấu âm, người ta phân biệt phụ âm tắc (như ‘p’, ‘t’, ‘đ’, ‘b’) với phụ âm xát (như ‘v’, ‘s’, ‘g’ trong tiếng Việt) Đặc trưng của loại phụ âm thứ nhất là một tiếng nổ, phát sinh do luồng không khí từ phổi đi ra bị cản trở hoàn toàn, phải phá vỡ sự cản trở ấy để thoát ra ngoài Trái lại, đặc trưng của loại phụ âm thứ hai là tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra cọ xát vào thành của bộ phận phát âm
Người ta còn chia phụ âm tắc ra làm hai loại là phụ âm bật hơi và phụ âm mũi Cấu âm của các phụ âm bật hơi như ‘th’ trong tiếng Việt, không khí không những phá vỡ sự cản trở gây nên một tiếng nổ nhẹ mà đồng thời khi thoát ra cũng gây ra một tiếng cọ xát ở khe hở của hai mép dây thanh âm Phụ âm mũi trong tiếng Việt như ‘m’, ‘n’, ‘ng’, ‘nh’ có sắc thái mũi, phát sinh do luồng không khí từ phổi đi lên qua mũi mà thoát ra chứ không qua đường miệng, và ở đây âm do dây thanh âm tạo ra nhận được sự cộng hưởng ở khoang mũi Trong cấu tạo của phụ âm mũi, lối thoát của không khí bị đóng hoàn toàn ở đằng miệng nên được coi là phụ âm tắc, nhưng không khí lại thoát ra hoàn toàn tự do ở đằng mũi Chính do chỗ phụ âm mũi được cấu tạo do sự rung động của dây thanh âm và không khí ra ngoài không
bị cản trở - nghĩa là chúng có những đặc điểm cơ bản của việc cấu tạo nguyên âm - nên phụ âm mũi còn được gọi là phụ âm vang
Đối với các phụ âm xát cần chú ý đến một số phụ âm kiểu như ‘l’ trong tiếng Việt Trong cấu âm của phụ âm này, đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí từ phổi lên buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má để thoát ra ngoài gây ra một tiếng xát nhẹ Cách cấu âm này khiến cho người ta gọi những phụ âm kiểu ‘l’ như vậy là phụ âm bên
Việc mô tả phụ âm còn một điều quan trọng nữa là xác định vị trí cấu âm của chúng Hai âm ‘b’ và ‘đ’ trong tiếng Việt đều được cấu tạo theo phương pháp tắc nhưng phân biệt nhau
ở chỗ một đằng sự cản trở không khí xảy ra giữa hai môi, một đằng do sự tiếp xúc của đầu lưỡi và lợi
1.3.3 Âm vị
Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm vị Điều quan trọng cần nhận thức rõ âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị kết hợp với nhau theo một cách nào đó để
Trang 12âm vị chứa đựng thông tin như nhau, còn giọng nói khác nhau là do phương ngữ , hình dáng, độ dài của bộ phận phát âm
- Có tính độc lập cao: điều này thể hiện ở điểm âm tiết tiếng Việt bao giờ cũng được ngắt
ra thành từng khúc rõ ràng, không có hiện tượng nhược hóa hay mất đi Phần cuối âm tiết đứng trước không tham gia vào việc hình thành âm tiết sau đó như một số ngôn ngữ khác Mặt khác, khi phát âm các âm tiết tiếng Việt tần số cơ bản luôn thay đổi để thể hiện phần thanh điệu và do đó ranh giới giữa các âm tiết càng rõ ràng
- Các âm tiết tiếng Việt là các đơn vị mang ý nghĩa ngay cả khi chúng đứng một mình
- Có cấu trúc chặt chẽ
Qua phân tích ngữ âm học ở phần trên, chúng ta nhận thấy rằng khi phát âm một từ dây thanh âm rung tạo ra dạng sóng của luồng không khí như trên Hình 1.2, đến lượt bộ phận cấu âm và mũi biến đổi chậm làm thay đổi dạng sóng phát ra bên ngoài để tạo ra những từ khác nhau Như vậy tín hiệu tiếng nói là do xung bước sóng chập với tín hiệu biến thiên chậm của bộ phận cấu âm Điều này dẫn tới việc trích tham số tiếng nói rất hiệu quả là phân tích cepstral, trong phương pháp này người ta muốn lấy phần tín hiệu có tần số thấp do bộ phận cấu âm tạo ra Thảo luận chi tiết về cepstral được trình bày ở Chương 3
1.4 HỆ THỐNG NGHE CỦA NGƯỜI
Quá trình nghe của người như sau: sóng áp suất âm thanh tác động đến tai người, sóng này được chuyển thành một chuỗi xung điện, chuỗi này được truyền tới não bộ thông qua hệ thần kinh, ở não, chuỗi được xử lý và giải mã
Hình 1.5 là hệ thống nghe của người Tai được chia thành ba phần: tai ngoài, tai giữa và tai trong Tai ngoài gồm vành tai và ống tai dẫn tới màng nhĩ Sóng âm di chuyển dọc theo ống tai và tác động đến màng nhĩ, làm cho màng nhĩ rung Biên độ rung của màng nhĩ thường từ vài nanometre (10 ) và tiếng nói thì thầm làm cho biên độ rung lớn nhất bằng 1 1
đường kính của phân tử hydrogen
9
−
Trang 13Hình 1.5 Hệ thống nghe của người
Ở tai giữa, một khúc xương nhỏ gọi là xương búa được gắn với màng nhĩ Khi màng nhĩ rung, xương búa tiếp xúc với một khúc xương khác gọi là xương đe, làm cho xương đe quay Xương đe lại được nối với một khúc xương nữa gọi là xương bàn đạp, xương bàn đạp nối với cửa sổ oval của tai trong Ba khúc xương búa, đe, và bàn đạp là ba khúc xương nhỏ nhất của tai người Chức năng của ba khúc xương nhỏ này là truyền độ rung của màng nhĩ đến cửa sổ oval của tai trong
Cửa sổ oval là một lỗ mở ở thành xương ốc tai được bao phủ bằng màng Chia phần ốc tai chứa đầy dịch theo chiều dọc thành hai màng gọi là màng Reissner và màng đáy Cửa sổ oval rung làm sóng áp suất lan truyền qua dịch ốc tai, sóng áp suất này làm màng đáy bị lệch ở một vài điểm khác nhau Gắn với màng đáy là cơ quan Corti Cơ quan dạng nhầy này chứa 30000 tế bào lông được sắp thành ba hàng ngoài và một hàng trong Mỗi tế bào lông có chứa nhiều sợi lông nhỏ nhô ra Những sợi lông nhỏ này sẽ rung động khi màng đáy chuyển động, và điều này tạo ra thế năng cho tế bào lông Tế bào lông tiếp xúc với dây thần kinh tận của neuron thần kinh thính giác và thế năng này tạo ra chuỗi xung điện truyền tới não thông qua dây thần kinh thính giác
Từ những điều đã mô tả ở trên, chúng ta nhận thấy rằng chuyển động của màng đáy đóng vai trò quan trọng của quá trình nghe Nhiều đặc tính của cơ chế nghe đã được khám phá khi nghiên cứu vật lý-thần kinh học Màng đáy là ống không đều dài chừng 35mm, có mặt đáy gần cửa sổ oval, hẹp và cứng dần về phía đỉnh, kết quả tạo ra những điểm khác nhau tương ứng với các tần số âm thanh khác nhau Khi chúng ta nghe một sóng âm thuần túy tức âm đơn (sóng sine), những điểm khác nhau trên màng đáy sẽ rung động theo tần số của âm đơn đi vào tai Điểm lệch lớn nhất trên màng đáy phụ thuộc vào tần số của âm đơn Tần số cao tạo ra điểm lệch lớn nhất ở phía đáy và tần số thấp tạo ra điểm lệch lớn nhất phía đỉnh Như vậy màng đáy đóng vai trò là bộ phận phân tích tần số tín hiệu vào phức tạp, bằng cách tách những thành phần tần số khác nhau ở những điểm khác nhau dọc theo chiều dài của nó Mỗi điểm như vậy có thể xem là bộ lọc thông dải có tần số trung tâm và băng thông xác định Những đáp ứng tần số của những điểm khác nhau đã được đo bằng thực
nghiệm cho thấy rằng những đáp ứng này đều có hệ số phẩm chất Q gần như không đổi (Q
là ‘hệ số chất lượng’ và đặc trưng cho tính chất nhọn của đáp ứng băng thông; nó là tỉ số của tần số trung tâm và độ rộng băng tần còn ‘không đổi’ nghĩa là mỗi bộ lọc đều có cùng
giá trị Q) Những đáp ứng này không đối xứng quanh tần số trung tâm, vùng tần số cao có
tốc độ suy giảm dốc hơn nhiều so với vùng tần số thấp Vị trí của độ lệch cực đại dọc theo màng nhày biến đổi theo quan hệ phi tuyến với tần số Người ta đã chứng minh rằng mối liên hệ này gần như theo hàm logarithm, sự gia tăng tuyến tính của độ lệch sẽ tương ứng với sự gia tăng logarithm của tần số
Những nghiên cứu chỉ ra rằng ngưỡng nghe của một âm đơn tăng lên khi có sự hiện diện của những âm đơn lân cận khác (âm mặt nạ) và chỉ có băng tần hẹp xung quanh âm đơn mới tham gia vào hiệu ứng mặt nạ, băng tần này thường gọi là băng tần tới hạn Giá trị của băng tần tới hạn phụ thuộc vào tần số của của âm đơn cần thử Ví dụ âm đơn 100Hz có băng tần tới hạn xấp xỉ 90Hz; âm đơn 5kHz có băng tần tới hạn xấp xỉ 1000Hz Hình 1.6 là những băng tần tới hạn của một dải rộng tần số được xác định theo các thử nghiệm thần kinh-âm học Giá trị của những băng tần tới hạn này hẹp hơn nhiều so với những giá trị
Trang 14Hình 1.6 Băng tần tới hạn
Cuối cùng có thể xem quá trình nghe của hệ thính giác là một dãy các bộ lọc băng thông, có đáp ứng phủ lấp lên nhau và ‘băng thông hiệu quả’ của chúng xấp xỉ với các giá trị của băng tần tới hạn Đây là cơ sở để thiết kế dãy bộ lọc cho xử lý tiếng nói
Mục đích của toàn bộ chương này là lý giải hai cách trích đặc tính của tiếng nói Một cách là căn cứ vào bộ phận phát âm dẫn tới các hệ số cepstral, cách kia lại căn cứ vào bộ phận nghe dẫn tới các hệ số bộ lọc
Trang 15CHƯƠNG 2
CƠ SỞ XỬ LÝ TÍN HIỆU SỐ
Xử lý tín hiệu số - digital signal processing (DSP) bắt đầu bằng tín hiệu lượng tử hóa rời rạc, và xuất hiện trong máy tính dưới dạng một chuỗi các giá trị số Hình 2.1 là ví dụ về
phép toán xử lý tín hiệu số Có chuỗi số vào x n( ), phép toán O{ } và chuỗi số ra y n( )
Hình 2.1 Phép toán DSP.
Phép toán được phân thành hai loại là tuyến tính và phi tuyến Hình 2.2 là cấu trúc cây của các phép toán
Hình 2.2 Cấu trúc cây của các phép toán
Các phép toán biến đổi chuỗi số theo các hướng sau đây:
1 Trích tham số hay đặc điểm của chuỗi số
2 Tạo lập chuỗi số ra tương tự như chuỗi số vào nhưng đẹp hơn
3 Khôi phục chuỗi số từ các trạng thái trước đó
4 Mã hóa hay nén chuỗi số
Một hệ xử lý tín hiệu số đầy đủ có thể gồm nhiều phép toán trên cùng chuỗi số hay là phép toán trên kết quả của phép toán trước đó Hình 2.3 là một ví dụ như vậy
Trang 16Hình 2.3 Một hệ DSP
Chương này được chia thành nhiều phần Phần 2.1 thảo luận về chuỗi số: cách tạo lập, phổ, liên hệ với tín hiệu liên tục Phần 2.2 thảo luận về đặc tính chung của các phép toán bất biến theo thời gian thường sử dụng nhất trong DSP Phần 2.3 thảo luận về lớp các phép toán được gọi là lọc số Phần 2.4 giới thiệu phép biến đổi Fourier rời rạc - discrete Fourier transform (DFT) Phần 2.5 giới thiệu tính chất chung của các phép toán phi tuyến Phần 2.6 bàn về đại số tuyến tính và cuối cùng Phần 2.7 thảo luận về lý thuyết xác suất ứng dụng trong xử lý tín hiệu
2.1 CHUỖI SỐ
Muốn cho máy tính xử lý được tín hiệu, phải lấy mẫu tín hiệu tại nhiều thời điểm Hình 2.4
là lấy mẫu hàm liên tục theo thời gian t, mỗi mẫu cách nhau T giây Kết quả chúng ta được tập các số gọi là chuỗi số Nếu hàm liên tục theo thời gian là x t() , thì hàm lấy mẫu là
x nT( ) theo Thông thường, chúng ta chuẩn hóa thời gian giữa hai lần lấy mẫu là 1 nên n
x nT( ) trở thành x n( )
Hình 2.4 Lấy mẫu tín hiệu
Trang 172.1.1 Hàm lấy mẫu
Hàm lấy mẫu là cầu nối giữa hàm thời gian liên tục và hàm thời gian rời rạc Hàm lấy mẫu
còn có tên khác là hàm delta Dirac Hàm lấy mẫu có những tính chất sau đây:
τ ở hai phương trình trên có thể là giá trị thực
Để hiểu tại sao hàm này là hàm lấy mẫu lý tưởng, đầu tiên chúng ta khảo sát hàm lấy mẫu
thực tế như minh họa trên Hình 2.5 Hàm này có độ rộng xung là một đơn vị theo thời
gian và biên độ là một đơn vị theo biên độ Rõ ràng Tính chất 2 thỏa mãn Tuy nhiên khi
nhân với thì hàm lấy mẫu
(2.3)
Điều này có thể hiểu là quá trình lấy mẫu bị nhòe trong phạm vi một dãy liên quan đến độ
rộng xung của Δ( )t Muốn xấp xỉ hàm lấy mẫu tốt hơn thì hàm Δ( )t có độ rộng xung hẹp
hơn Tuy nhiên, khi độ rộng xung hẹp lại thì biên độ phải tăng lên Về mặt giới hạn, chúng
ta thấy rằng hàm lấy mẫu lý tưởng có độ rộng xung hẹp vô hạn sao cho mẫu được lấy tại
một thời điểm, còn biên độ lớn vô hạn sao cho tín hiệu lấy mẫu có cùng năng lượng hữu
hạn như nhau
Hình 2.5 Hàm lấy mẫu thực tế
2.1.2 Sử dụng hàm lấy mẫu
Hình 2.6 minh họa quá trình lấy mẫu dùng hàm lấy mẫu lý tưởng tại các thời điểm cách
nhau T giây Kết quả, chúng ta có được dạng sóng theo thời gian
Trang 18Chú ý rằng là tín hiệu liên tục theo thời gian được tạo ra từ một tập vô hạn của các tín
hiệu liên tục theo thời gian
x t s( )
x t( ) (δ −t nT) Do hàm lấy mẫu tạo ra hệ số nhân khác zero tại
những giá trị t nT= , nên có thể viết lại x t s( )như sau:
Trong phương trình sau cùng này, chúng ta thấy xuất hiện chuỗi số x nT( ) Đây là tập hợp
số và sẽ được thảo luận trong các phần kế
Hình 2.6 Hàm lấy mẫu lý tưởng
2.1.3 Phổ của tín hiệu lấy mẫu
Theo lý thuyết biến đổi Fourier, phổ tần số của dạng sóng liên tục theo thời gian x t( ) được
Trang 19Phương trình này biểu diễn chính xác chuỗi Fourier của là hàm có chu kỳ T Các hệ
số của chuỗi Fourier là
1 2
Hai phương trình sau cùng là cặp chuỗi Fourier cho phép tính tín hiệu theo thời gian hay
phổ tần số tùy theo đối số của cặp chuỗi Fourier Chú ý rằng tín hiệu đã bị loại bỏ và
thay vào đó là
x t s( )
x nT( )
2.1.4 Liên hệ giữa phổ của tín hiệu liên tục và tín hiệu rời rạc
Xét phương trình (2.7) tại thời điểm t nT= và cho kết quả này bằng vế phải của phương
trình (2.11), chúng ta thu được mối liên hệ giữa hai phổ như sau:
1 2
Vế phải của phương trình (2.7) có thể biễu diễn là tổng vô hạn của một tập các tích phân có
giới hạn hữu hạn
x nT X f e j fnT df
m T
m T
2 1 2
1 2
Di chuyển phép tổng vào trong tích phân, chú ý e j2 mn
1
π = với mọi m, n nguyên, và thành
phần bên trong tích phân tương tự với thành phần bên trong tích phân của phương trình
(2.11), nên chúng ta có mối liên hệ sau:
m T
Trang 20Phương trình (2.15) nói lên rằng phổ tần số của tín hiệu lấy mẫu là tổng vô hạn phổ tần số
của tín hiệu liên tục, ở đó khoảng cách giữa hai phổ tần số của tín hiệu liên tục là 1
Chúng ta hãy khảo sát trường hợp phổ tần số của tín hiệu liên tục bằng với phổ tần số của
tín hiệu lấy mẫu, ít nhất là trong một phạm vi tần số nào đó Nếu không có thành phần phổ
nào của tín hiệu liên tục lớn hơn 1
2T thì hai phổ sẽ bằng nhau trong phạm vi tần số từ
tần số đã nói ở trên
Tiêu chuẩn lấy mẫu Nyquist căn cứ trên những điều vừa thảo luận và khẳng định rằng nếu
tần số lấy mẫu lớn hơn hai lần tần số lớn nhất của tín hiệu liên tục thì có thể khôi phục
hoàn toàn tín hiệu liên tục từ tín hiệu lấy mẫu Ngược lại, nếu tần số lấy mẫu nhỏ hơn hai
lần tần số lớn nhất của tín hiệu liên tục thì xảy ra hiện tượng trùm phổ Tín hiệu liên tục
được khôi phục lại sẽ bị méo và độ méo phụ thuộc vào độ trùm phổ
2.1.5 Chuỗi xung đơn vị
Có một chuỗi số quan trọng là chuỗi xung đơn vị và ký hiệu là Chuỗi xung đơn vị
gồm vô hạn mẫu có giá trị zero với mọi n
Trang 212.2 CÁC PHÉP TOÁN TUYẾN TÍNH BẤT BIẾN
Các phép toán được sử dụng rộng rãi nhất trong DSP là tuyến tính và bất biến theo thời
gian - linear time invariant (LTI)
Tính chất tuyến tính được phát biểu như sau:
Cho x n( ) là chuỗi hữu hạn vàO{ }là phép toán trong không gian n-chiều, đặt
Trang 22Chúng ta gọi
h n( )= O{ ( )}u n0 (2.26) là đáp ứng của chuỗi xung đơn vị Do tính chất bất biến theo thời gian nên
Phương trình (2.28) phát biểu rằng y n( ) là tổng chập x n( ) với đáp ứng xung h n Thay
vào phương trình (2.28), chúng ta có dạng tương đương
Cho đến bây giờ các mô tả toán học của chuỗi số và phép toán đều giả thiết là đáp ứng
xung của phép toán vẫn có giá trị ngay cả trước thời điểm tác động của chuỗi số vào Đây
là dạng tổng quát của phương trình và phù hợp cho phát triển lý thuyết Tuy nhiên, không
có một hệ vật lý nào có thể tạo ra chuỗi số ra khi chưa có chuỗi số vào tác động Bởi vì các
phép toán và chuỗi số DSP có tính vật lý nên chúng ta chỉ thảo luận các phép toán và chuỗi
số có thể tồn tại trong thực tế
Bước đầu tiên khi biểu diễn chuỗi số thực tế là chuỗi số phải bắt đầu tại một thời điểm cụ
thể nào đó Như vậy có thể giả thiết rằng các thành phần của chuỗi số sẽ có giá trị zero tại
những chỉ số thời gian nhỏ hơn zero, đồng thời sau thời điểm zero giá trị của chuỗi có thể là
zero hay khác zero Thuộc tính này của chuỗi số và phép toán được gọi là nhân quả hay nói
cách khác chuỗi số ra của hệ DSP tại thời điểm n (tức là y n( )) chỉ phụ thuộc vào chuỗi số
vào tại thời điểm hiện tại và quá khứ (tức là x n x n( ), ( −1), (x n−2) ) chứ không phụ thuộc
vào chuỗi số tương lai (tức là x n( +1), (x n+2) )
Bây giờ tổng chập của phép toán nhân quả có thể viết
nghĩa là đáp ứng không có giá trị với mọi m nhỏ hơn zero
2.2.2 Phương trình sai phân
Về mặt lý thuyết các phép toán bất biến theo thời gian, nhân quả, tuyến tính, rời rạc theo
thời gian có thể mô tả bằng phương trình sai phân bậc N
0 1
Trang 23Một cách tổng quát phương trình không thay đổi nếu tất cả hệ số được chuẩn hóa theo a o
0 1
1 1
hay
y n( )=b x n0 ( )+b x n1 ( − +1) b x n2 ( − +2)
+b N−1x n( − N+ −1) a y n1 ( − −1) a y n2 ( −2)
Trong phương trình (2.32) và (2.33) thành phần y n m( − ) và x n p( − ) cũng là hàm y n( ) và
x n( ) nhưng đã được dời đi hay làm trễ tương ứng Chẳng hạn, trên Hình 2.8 minh họa chuỗi
x n( ) và x n( − 3) là x n( ) nhưng dời đi ba mẫu
Sử dụng tính chất trễ và phương trình (2.34), chúng ta có thể xây dựng cấu trúc tổng quát
của phép toán LTI Trên Hình 2.9, mỗi hộp là một phần tử trễ có độ lợi là một Các hệ số
được ghi trên chân của đồ thị Vòng tròn là phép tổng các phần tử
Trang 24Hình 2 8 Dời chuỗi số
Hình 2.9 Đồ thị của phép toán tuyến tính
2.2.3 Biến đổi z của phép toán LTI
Có phép biến đổi tuyến tính rất hiệu quả để phân tích tín hiệu rời rạc theo thời gian, giống
như phép biến đổi Laplace để phân tích tín hiệu liên tục theo thời gian Phép biến đổi này
là biến đổi z và được định nghĩa như sau:
ở đó ký hiệu gọi là ‘biến đổi z của’ và z trong phương trình trên là số phức Một trong
những tính chất quan trọng của biến đổi z là mối liên hệ với chuỗi số trễ theo thời gian Để
chứng minh điều này, chúng ta hãy lấy biến đổi z của chuỗi
Trang 25Bởi vì p luôn luôn dương và x n( )= 0 với mọi n < 0 , nên
So sánh phép tổng trong phương trình cuối cùng này và phương trình (2.35) là phép biến đổi
z của x n( ), chúng ta có
L{ (x n− p)}=z−p L{ ( )}x n =z−p X z( )
Áp dụng tính chất này của biến đổi z vào phương trình tổng quát của phép toán tuyến tính
bất biến theo thời gian như sau:
Bởi vì biến đổi z là phép biến đổi tuyến tính có tính phân phối và tính kết hợp nên chúng ta
viết lại phương trình trên như sau:
(2.43)
L{ ( )}y n a p L{ (y n p)} b L{ (x n q)}
p
q q
p p p
1
Hình 2.10 là vẽ lại Hình 2.9 trong miền biến đổi z nhưng dựa trên phương trình (2.44) Đồ
thị là như nhau nếu chúng ta coi hệ số nhân trong miền biến đổi z tương đương với trễ
một đơn vị thời gian trong miền thời gian
z−1
Trang 26Hình 2.10 Đồ thị biến đổi z của phép toán LTI
2.2.4 Hàm truyền trong miền tần số của phép toán LTI
Lấy biến đổi Fourier hai vế của phương trình (2.30), chúng ta có
( )( ) = ( ) −
Hình 2.11 là sơ đồ khối của phương trình (2.51) theo miền thời gian và Hình 2.12 là sơ đồ
khối của phương trình (2.51) theo miền tần số (biến đổi Fourier) Phép toán gồm
biên độ và góc pha của hàm theo biến (thường được gọi là tần số lấy mẫu
Trang 27Hình 2.12 Miền tần số của phép toán LTI
2.2.5 Liên hệ giữa biến đổi z với đáp ứng tần số
Nhắc lại cặp biến đổi Fourier
Để đơn giản khi ký hiệu, chúng ta chuẩn hóa chu kỳ lấy mẫu T = 1
Bây giờ hãy so sánh phương trình (2.52) với biến đổi z của x n( )
Phương trình (2.52) và (2.54) là bằng nhau với chuỗi x n( ) là nhân quả (tức là x n( )= 0 với
mọi n< 0) nếu chúng ta đặt z như sau:
z=e j2πf
Hình 2.13 là quỹ tích các giá trị của z trong mặt phẳng phức theo phương trình (2.55) Quỹ
tích này là vòng tròn có bán kính là một Như vậy, khi đánh giá biến đổi z của chuỗi nhân
quả x n( ) trên vòng tròn đơn vị của mặt phẳng phức sẽ tương đương với biểu diễn trong
miền tần số của x n( ) Đây là một trong những tính chất rất hiệu quả của phép biến đổi z
khi phân tích tín hiệu rời rạc
Trang 28Hình 2.13 Vòng tròn đơn vị trên mặt phẳng phức
Chúng ta cũng nhận thấy rằng đáp ứng xung của một phép toán nào đó chỉ đơn thuần là
chuỗi , và biến đổi Fourier của chuỗi này là đáp ứng tần số của phép toán đó Biến
đổi z của chuỗi là
h m( ) H z( ) cũng được đánh giá trên vòng tròn đơn vị để tạo ra biểu diễn trên miền tần số của chuỗi này Điều này được viết như sau:
2.2.6 Tóm tắt phép toán tuyến tính
Ở Phần 2.2 này chúng ta đã biểu diễn các lớp phép toán được ứng dụng rộng rãi trong xử lý
tín hiệu rời rạc: tuyến tính, nhân quả, bất biến theo thời gian Các biểu diễn này được tóm
tắt sau đây:
1 Đáp ứng xung - h m( ) (Phần 2.2.1)
Trang 29Các biểu diễn trên là công cụ hữu ích để nghiên cứu tín hiệu rời rạc theo thời gian Hiểu
các liên hệ này là một trong những chìa khóa để thiết kế hiệu quả các hệ DSP
2.3 LỌC SỐ
Các phép toán tuyến tính vừa giới thiệu và phân tích ở phần trên có thể coi như là các bộ
lọc số Bộ lọc số cho phép các thành phần tần số này được truyền không đổi tới ngõ ra, còn
các thành phần tần số khác bị chặn lại Có hai lớp lọc phổ biến Nhắc lại phương trình sai
phân của phép toán tổng quát:
1 1
Chú ý rằng tổng vô hạn đã được thay bằng tổng hữu hạn Điều này là cần thiết để bộ lọc có
thể tổ chức được
Lớp đầu tiên của bộ lọc số có a p = 0 với mọi p Tên chung của bộ lọc loại này là đáp ứng
xung hữu hạn - finite impulse response (FIR) bởi vì đáp ứng xung có chiều dài là hữu hạn
(không lớn hơn Q) Bộ lọc này còn có tên gọi lọc trung bình di chuyển - moving average
(MA) bởi vì ngõ ra đơn thuần là trung bình có trọng của những giá trị vào
Lớp thứ hai của bộ lọc số là bộ lọc đáp ứng xung vô hạn - infinite impulse response (IIR)
Lớp này bao gồm bộ lọc tự hồi quy - autoregressive (AR) và dạng tổng quát nhất, bộ lọc
ARMA Ở trường hợp AR, b q = 0 với mọi q∈[ 1 Q−1]
Với bộ lọc ARMA, phương trình tổng quát được áp dụng (phương trình 2.57) Trong bộ lọc
IIR, đáp ứng của một xung ở ngõ vào có thể tạo ra vô hạn xung ở ngõ ra với tập hệ số cho
trước Độ ổn định là vấn đề đối với bộ lọc IIR bởi vì nếu chọn các hệ số không khéo, ngõ ra
sẽ tăng ra vô cực ứng với một vài giá trị của ngõ vào
chúng ta nhận thấy các hệ số của bộ lọc FIR giống với các phần tử của chuỗi đáp ứng xung
nếu đáp ứng xung này có chiều dài hữu hạn
với
b q = ( )h q q =0 1 2, , , Q−1
Trang 30Điều này có nghĩa là nếu ngõ vào là chuỗi đáp ứng xung, phép toán là đáp ứng xung hữu
hạn thì chúng ta xác định được ngay các hệ số của bộ lọc FIR Tuy nhiên, như đã đề cập khi
bắt đầu phần này, bộ lọc được xét theo quan điểm tần số Do đó, cách thông dụng nhất là
cho đáp ứng trong miền tần số và yêu cầu xác định các hệ số của bộ lọc
Có nhiều phương pháp xác định các hệ số của bộ lọc FIR khi cho đáp ứng trong miền tần
số Dưới đây là tóm tắt hai phương pháp phổ biến nhất để thiết kế bộ lọc FIR
1 Sử dụng DFT trên đáp ứng tần số lấy mẫu Phương pháp này đòi hỏi đáp ứng tần số
của bộ lọc được lấy mẫu với chu kỳ T là thời gian giữa hai mẫu trong hệ DSP Phép
biến đổi Fourier ngược - inverse discrete Fourier transform (IDFT) áp dụng cho đáp
ứng đã lấy mẫu này để tạo ra đáp ứng xung của bộ lọc Kết quả tốt nhất sẽ đạt được
nếu tác động một cửa sổ làm trơn lên đáp ứng tần số trước khi hình thành IDFT
2 Tối ưu xấp xỉ mini-max dùng kỹ thuật thảo chương tuyến tính McClellan và Parks đã
dùng thuật toán trao đổi Remez để tạo ra các hệ số FIR tối ưu nếu cho trước đáp
ứng tần số của bộ lọc Rabiner và Gold đã giới thiệu đầy đủ chương trình này
Chúng ta có thể nghiên cứu đáp ứng tần số của bộ lọc thông qua hàm truyền của phép toán
tuyến tính tổng quát:
Q
p p p
1
1
1
Chú ý rằng phép tổng là hữu hạn để tổ chức được bộ lọc trong thực tế Đối với lọc FIR, các
hệ số a p = 0 nên phương trình trên trở thành:
q q
1 1
2.3.2 Lọc FIR có pha tuyến tính
Nhiều ứng dụng trong viễn thông và xử lý ảnh quan tâm đến bộ lọc FIR có pha thay đổi
tuyến tính khi tần số thay đổi Điều này là quan trọng bởi vì hàm truyền pha liên quan đến
độ méo nhỏ nhất khi truyền tín hiệu qua bộ lọc Trong lọc FIR, các hệ số b quan hệ với
nhau một cách đơn giản là có thể tạo ra được bộ lọc FIR có pha tuyến tính
q
Pha tuyến tính khi tần số thay đổi có nghĩa là
H f( ) |= H f e( )| j[α βf+ ]
Trang 31ở đó và β là hằng số Nếu hàm truyền có thể tách thành hàm thực theo f nhân với thừa
số pha thì hàm truyền này sẽ có pha tuyến tính
1 1
Thay z=e j2πf vào phương trình trên để tạo ra đáp ứng tần số
H f( )= +b b e−j f +b e−j ( f)+ + b Q e j (Q )f
− − −
0 1
2 2
H f( )=e−j f{[b e j f +b Q e j f]
− −2
0 2
1 2
πζ πζ πζ
+ − +
− − −
[b e1 j2π ζ( 1)f b Q 2e j2π ζ( 1)f] + − +
− − −
[b e2 j2π ζ( 2)f b Q 3e j2π ζ( 2)f] + }
Nếu mỗi cặp hệ số bên trong dấu [ ] bằng nhau như sau:
Trang 32Hình 2.14 Đáp ứng của bộ lọc thông thấp FIR (theo Paul M Embree và Bruce Kimble)
Xét đáp ứng của một bộ lọc FIR cụ thể với các hệ số rất đơn giản, lấy theo phương trình
MA như sau:
y n( )=0 11 ∗x n( )+0 22 ∗x n( − +1) 0 34 ∗x n( −2) + 0 22 ∗x n( − +3) 0 11 ∗x n( −4)
Khi quan sát các hệ số của bộ lọc, chúng ta có thể nhận ra bộ lọc này là lọc thông thấp, bởi
vì một giá trị hằng (thành phần một chiều) ở ngõ vào sẽ tạo ra một giá trị như vậy ở ngõ ra Ngoài ra, tất cả hệ số đều dương nên bộ lọc có khuynh hướng lấy trung bình các giá trị liền nhau
Hình 2.14 minh họa đáp ứng của bộ lọc FIR này Bộ lọc này thực sự là bộ lọc thông thấp và giá trị null ở băng dừng là đặc tính của bộ lọc rời rạc theo thời gian
Q
p p p
Trang 332.3.5 Đáp ứng của một bộ lọc IIR cụ thể
Hình 2.15 Đáp ứng của bộ lọc thông thấp IIR (theo Paul M Embree và Bruce Kimble)
Xét bộ lọc IIR đơn giản nhất, lấy theo phương trình AR như sau:
y n( )= x n( )+y n( − 1)Quan sát đáp ứng của bộ lọc này khi ngõ vào là các giá trị đơn giản, chúng ta nhận thấy rằng: ngõ vào là zero, ngõ ra là giá trị hằng; ngõ vào là giá trị dương, ngõ ra tăng tuyến tính theo thời gian; ngõ vào là giá trị âm, ngõ ra giảm tuyến tính theo thời gian Hình 2.15 là đáp ứng tần số của bộ lọc này
2.3.6 Đặc tả bộ lọc
Như đã đề cập ở phần trước, biên độ và pha của bộ lọc thường được đặc tả trong miền tần số Hình 2.16 là đáp ứng biên độ của bộ lọc thông thấp Độ lợi của bộ lọc được chuẩn hóa xấp xỉ một ở tần số thấp Hình vẽ này minh họa một số thuật ngữ quan trọng liên quan đến đặc tả bộ lọc
Hình 2.16 Đáp ứng biên độ của bộ lọc thông thấp đã chuẩn hóa (theo Stearns)
Trang 34Băng thông - passband - là miền cho phép tín hiệu ngõ vào truyền tới ngõ ra nhưng suy hao
rất ít hay không suy hao Trong bộ lọc thông thấp, băng thông bắt đầu từ tần số w = 0 đến
điểm bắt đầu của băng chuyển tiếp là trên Hình 2.18 Băng chuyển tiếp - transition band
- là miền mà tín hiệu ra bị suy hao cho tới khi dừng hẳn Băng chuyển tiếp kết thúc ở tần số
băng dừng Băng dừng là dải tần số mà tín hiệu bị suy hao với hệ số suy hao cho trước
Bộ lọc điển hình được đặc tả bằng các tham số sau đây:
w p
1 Độ nhấp nhô băng thông - 2δ
2 Độ suy hao băng dừng - 1/ λ
3 Tần số bắt đầu chuyển tiếp và dừng chuyển tiếp - w p và w s
4 Độ rộng của băng chuyển tiếp - w s −w p
5 Tần số cắt - là tần số mà ở đó độ lợi bị suy hao so với độ lợi qui định của băng thông Thường là suy hao từ -1 dB đến -3 dB
2.3.7 Cấu trúc bộ lọc
Có nhiều cách để tổ chức bộ lọc khi cho phương trình của bộ lọc FIR hay IIR Mỗi cấu trúc, về mặt toán học là tương đương, nhưng có thể tạo ra các kết quả khác nhau do độ chính xác của con số trong máy tính hay phần cứng được dùng
Hình 2.17 là ba cấu trúc để tổ chức bộ lọc Đầu tiên là dạng tổ chức trực tiếp theo hàm
truyền (Hình 2.17a) Cấu trúc này sử dụng biến đổi z phương trình hàm truyền của bộ lọc,
tổ chức một phần tử trễ và nhân trực tiếp hệ số
Dạng trực tiếp của bộ lọc có thể chuyển thành dạng nối tiếp bằng cách tách hàm truyền thành tích các hàm truyền (Hình 2.17b) Tương tự, có thể tách hàm truyền thành tổng các hàm truyền, cách này tạo ra dạng song song của bộ lọc (Hình 2.17c)
Trang 35Hình 2.17 Cấu trúc bộ lọc số (theo Stearns)
2.4 BIẾN ĐỔI FOURIER RỜI RẠC - DISCRETE FOURIER TRANSFORM
Cho tới bây giờ, chúng ta đã vài lần sử dụng biến đổi Fourier khi đề cập đến đặc tính của
chuỗi số và phép toán tuyến tính Biến đổi Fourier của chuỗi số nhân quả như sau:
ở đó chu kỳ lấy mẫu đã chuẩn hóa là một ( T = 1) Nếu chuỗi số có độ dài giới hạn (để có
thể tổ chức được cho máy tính) thì
Bởi vì X f( ) là hàm tuần hoàn với chu kỳ 1/ T =1, nên tích phân trên có thể lấy trên chu
kỳ nào cũng được
(2.68)
x n( )=∫ X f e( ) j2 fn df
0 1
π
Trang 362.4.1 Dạng DFT
Biểu diễn trên của biến đổi Fourier là chính xác nhưng có trở ngại chính trong xử lý số -
biến tần số là liên tục chứ không phải rời rạc Để khắc phục điều này, chúng ta phải biểu
diễn lại tín hiệu theo thời gian và tần số
Biến đổi Fourier rời rạc thuận DFT
Phần này sẽ giới thiệu các tính chất quan trọng của DFT Sử dụng các tính chất này chúng
ta sẽ tổ chức hiệu quả khi tính toán DFT
Tính tuần hoàn Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì
ở đó A k( ) và B k( ) là DFT của chuỗi a n( ) và b n( ) trong miền thời gian
Tính chất này cũng được suy ra từ định nghĩa ở Phương trình (2.69)
Tính dời theo thời gian Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì
DFT{ (x n−p)}=e− 2πj kp N/ X k( )Thật vậy, theo định nghĩa ở Phương trình (2.69) chúng ta có
1
Trang 372.4.3 Phổ công suất
DFT thường được dùng làm công cụ để phân tích phổ của chuỗi số vào Biên độ của một
thành phần tần số cụ thể thường được quan tâm Có thể chia DFT thành biên độ và pha như
Nếu chúng ta quan tâm đến phổ công suất của tín hiệu thì chúng ta lấy tín hiệu nhân với
liên hợp phức của nó
X k X( ) ∗( ) |k = X k( )|2= X + X
real 2 imag 2
Tuy nhiên, nảy sinh một vài vấn đề khi dùng DFT làm công cụ phân tích phổ Vấn đề nảy
sinh liên quan đến giả thiết là chúng ta đã tạo ra DFT của chuỗi số trong một chu kỳ của
dạng sóng có chu kỳ lặp lại Hình 2.18 minh họa điều này Trên hình vẽ thể hiện, mọi chuỗi
số đều bị gián đọan theo thời gian tại các biên của chu kỳ giả Điều gián đoạn này sẽ gây
ra thành phần tần số rất cao ở chuỗi số ra Những thành phần này có thể sẽ lớn hơn nhiều
tần số lấy mẫu, và bị dời vào giữa phổ
Hình 2.18 Tạo chu kỳ từ một đoạn
Trang 38Kỹ thuật dùng để khắc phục khó khăn này là cửa sổ hóa Vấn đề phải khắc phục là phần
gián đoạn ở cạnh của mỗi chu kỳ của dạng sóng Bởi vì thuật toán DFT tổng quát không
biết được độ gián đoạn ở hai biên, nên kỹ thuật cửa sổ chỉ đơn thuần giảm bớt biên độ của
chuỗi số ở hai biên Điều này được làm từng bước và làm trơn sao cho không tạo ra thành
phần gián đoạn mới và kết quả là giảm bớt thành phần tần số bị dời đi Không có cải tiến
nào mà không trả giá Bởi vì áp dụng cửa sổ vào chuỗi số trước khi DFT, nên độ trung thực
của biểu diễn phổ bị suy giảm Kết quả là độ phân giải của các thành phần tần số bằng
nhau hơi bị suy giảm Cửa số tốt nhất đòi hỏi phải làm cho tín hiệu giả (bị dời đi) suy giảm
nhiều nhất đồng thời suy hao của độ phân giải phổ là nhỏ nhất
Có nhiều loại cửa sổ khác nhau nhưng đều có đặc tính chung là: giảm các phần tử gần biên
(gần n= 0 và n= N − 1) và bù bằng cách tăng giá trị các thành phần ở xa biên Các cửa sổ
thông dụng là cửa sổ Hamming, Hanning
2.4.4 Phổ trung bình
Bởi vì tín hiệu luôn luôn có nhiễu, nhiễu gây ra do tính chất của thiết bị tạo tín hiệu hay
nhiễu bên ngoài tác động đến nguồn tín hiệu Nếu chỉ lấy DFT một lần thì thường biểu diễn
không trung thực phổ tín hiệu Để khắc phục điều này, chúng ta lấy DFT nhiều lần từ nhiều
nguồn tín hiệu giống nhau và lấy trung bình theo thời gian của phổ công suất Nếu mỗi DFT
được lấy trong mỗi NT giây thì
Rõ ràng, phổ tín hiệu không thể thay đổi nhiều trong khoảng từ t = 0 tới t= (Max NT)( )
2.4.5 Biến đổi Fourier nhanh
Biến đổi Fourier nhanh - fast Fourier transform (FFT) là thuật toán rất hiệu quả để tính
DFT của một chuỗi số Ưu điểm là ở chỗ nhiều tính toán được lặp lại do tính tuần hoàn của
số hạng Fourier e− 2π /j kn N Dạng của DFT là
Chú ý rằng W(N qN+ )(k rN+ ) =W nk với mọi q r, nguyên do tính tuần hoàn của số hạng Fourier
Chúng ta tách DFT thành hai phần
2 1
ở đó chỉ số dưới N của số hạng Fourier biểu diễn kích thước của chuỗi
Nếu chúng ta biểu diễn thành phần chẳn của chuỗi số x n( ) bằng và thành phần lẻ là
thì phương trình trên có thể viết lại
xev
xod
Trang 39N nk n
2 1
Bây giờ, chúng ta có hai biểu thức có dạng DFT, do đó chúng ta có thể viết
X k( )= Xev( )k +W N k/2Xod( )k
Chỉ số phải chạy đến k N − 1 nhưng do sử dụng tính chu kỳ của hàm chẳn và hàm lẻ, nên
chỉ cần tính DFT N / 2 điểm để có được các giá trị của X k( )
=λ( )0 +λ( )
=λ( )0 −λ( )
Đối với 2 điểm DFT này chỉ cần phép cộng và trừ mà không cần phép nhân Để tính toàn
bộ DFT, chúng ta nhân 2 điểm DFT với các thừa số W thích hợp từ W0 tới W N /2 1− Hình
2.21 là đồ thị tính 8 điểm FFT Chúng ta có thể so sánh tính trực tiếp DFT với FFT như sau:
Hình 2.19 FFT của 8 điểm, cơ số 2, phân chia theo tần số (theo Proakis và Manolakis)
Khi tính trực tiếp DFT, mỗi giá trị của k cần N phép nhân phức và N-1 phép cộng phức
Đối với DFT, mỗi hàm có dạng
λ( )0 ± W pλ( )1(gọi là bướm do đồ thị có hình cánh bướm) yêu cầu một phép nhân và hai phép cộng Từ đồ
thị ở Hình 2.21 chúng ta có thể tổng quát hóa số bướm là
Trang 40Số bướm = N N
2 log2
Điều này là do có N / 2 hàng bướm (bởi vì mỗi bướm có hai ngõ vào) và log2 N cột bướm
Bảng 2.1 là danh sách các phép cộng và nhân ứng với N khác nhau của DFT và FFT
Chúng ta nhận thấy rằng FFT nhanh hơn rất nhiều lần khi tính trực tiếp DFT
Bảng 2.1 So sánh số lượng phép toán bướm của DFT và FFT
2.5 ĐẠI SỐ TUYẾN TÍNH: MA TRẬN VÀ VECTOR
Phần này giới thiệu những tính chất của ma trận và vector ứng dụng cho xử lý tín hiệu số
Nếu định nghĩa chuỗi số x n( ) trong khoảng n = 1 tới n N= , thì chuỗi số này được viết như
sau:
{ ( )}x n = x( ), ( ), ( ), , (1 x 2 x 3 x N−2), (x N −1), (x N)Một ký hiệu nữa khi dùng chuỗi số làm vector
(2.83)
{ ( )}
( )( )( ) ( )
x n
x x x
Chuyển vị của vector là x
xT = [ ( ), ( ), ( ), , ( )]x 1 x 2 x 3 x N
Tính toán lọc hay cửa sổ thường dùng phương trình sau: