GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 2 Hình 2: Sơ đồ khối của hệ thống nhận dạng tiếng nói Quá trình nhận dạng gồm các bước sau: - Số hoá tiếng nói cần nhận dạng với tốc
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN THANH PHƯƠNG
Trang 2GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 1
GIỚI THIỆU
Đã từ lâu, con người luôn mơ ước đến một hệ thống điều khiển tự động “thông minh” mà có thể giao tiếp được với con người một cách thân thiện và gần gũi Một trong những phương tiện giao tiếp “thân thiện và gần gũi” nhất đối với con người là tiếng nói vì thông qua tiếng nói, người và máy có thể hiểu nhau Khi đó các máy tính sẽ không cần bàn phím, các hệ thống điều khiển không cần bảng điều khiển, các máy điện thoại không cần đến bàn phím để quay số, người ta có thể điều khiển hệ thống từ xa bằng cách gọi điện thoại như để nói chuyện với một người bạn Để thực hiện được điều này, người ta phải xây dựng được cho máy một hệ thống mà có thể hiểu được tiếng nói của con người, đó là hệ thống nhận dạng tiếng nói
Ngày nay, cùng với sự phát triển của điện tử và tin học, các máy tính với tóc độ tính toán rất cao, các Chip xử lý tốc độ cao ra đời là một thuận lợi rất lớn cho việc thực hiện các hệ thống nhận dạng tiếng nói Hiện nay trên thế giới đã có rất nhiều nghiên cứu và thử nghiệm về hệ thống nhận dạng tiếng nói và cũng đã đạt được một số kết quả khả quan như : Via Voice Millennium (IBM), Via Voice Standard (IBM), Naturally Speaking 5.0 (Dragon), CSLU (Center of Spoken Language Understanding), những hệ thống này được xây dựng để nhận dạng tiếng Anh Ngoài ra còn một số hệ thống nhận dạng của các ngôn ngữ khác như : tiếng Trung Quốc, Tây ban nha, Ý, Đức, cũng đã được thực hiện Tuy nhiên, đối với tiếng Việt thì chưa có một hệ thống nhận dạng nào hoàn chỉnh
Mục đích của luận án này là xây dựng một hệ thống nhận dạng tiếng nói tiếng Việt dùng mô hình chuỗi Markov ẩn (Hidden Markov Models) HMM
Hệ thống nhận dạng tiếng nói tổng quát gồm 2 giai đoạn: Giai đoạn huấn luyện và giai đoạn nhận dạng, được minh họa như hình vẽ 1
Giai đoạn huấn luyện: Huấn luyện cho hệ thống những mẫu chuẩn tương ứng với
những âm giọng khác nhau
Giai đoạn nhận dạng : Hệ thống nhận dạng những mẫu tiếng nói ngẫu nhiên dựa vào
mô hình mẫu
Hình 1: Sơ đồ tổng quát của hệ thống nhận dạng tiếng nói Để thực hiện được mục tiêu như trên thì tôi đề nghị sơ đồ khối của quá trình nhận dạng như sau:
Giai đoạn huấn luyện
Mô hình tiếng nói
Giai đoạn nhận dạng
tiếng nói mẫu
tiếng nói cần nhận dạng Xuất ra từ tương ứng
Trang 3GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 2
Hình 2: Sơ đồ khối của hệ thống nhận dạng tiếng nói Quá trình nhận dạng gồm các bước sau:
- Số hoá tiếng nói cần nhận dạng với tốc độ lấy mẫu thích hợp (Dùng Sound Card)
- Tín hiệu tiếng nói sau khi rời rạc hóa được đưa vào khối tiền xử lý để thực hiện việc lọc nhiễu, chia tín hiệu tiếng nói thành từng Frame dùng cửa sổ Hamming, preemphasis, tách tín hiệu tiếng nói của từng từ và
- Khối LPC Ceptral và lượng tử hóa vector để tính ma trận quan sát O
- Khối tính xác suất thực hiện việc tính xác suất của quan sát O với mô hình λ
1
*
υ ν
<
<
- Mô hình chuỗi Markov ẩn được dùng là mô hình Bakis 4 trạng thái với bước nhảy là 2
Số hoá
tiếng
nói
Chọn giá trị lớn nhất
LPC Ceptral, lượng tử hoá vector
HMM của từ mẫu
Tính toán xác suất
Tín hiệu tiếng nói đã được rời rạc hóa
Tiền xử lý tín hiệu tiếng nói
Tín hiệu tiếng nói đã được xử lý
Chuỗi quan sát
ν*
Trang 4GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 3
CHƯƠNG I
TIẾNG NÓI TỰ NHIÊN
Nội dung của chương này trình bày tóm tắt lịch sử nhận dạng tiếng nói, trình bày cơ chế tạo lập và nhận thức tiếng nói của con người để làm cơ sở cho việc trích đặc trưng tiếng nói Ngoài ra chúng ta cũng phân loại các âm thanh khác nhau như âm hữu thanh, âm vô thanh, nguyên âm, phụ âm Hiểu biết rõ ngữ âm tiếng Việt là điều thuận lợi giúp cho quá trình nhận dạng Từ đó đưa ra sơ đồ tổng quát của hệ thống nhận dạng tiếng nói
I.1 TÓM TẮT LỊCH SỬ NHẬN DẠNG TIẾNG NÓI:
Nhận dạng tiếng nói đã được nghiên cứu suốt hơn bốn mươi năm qua Nỗ lực đầu tiên sáng chế ra những máy có khả năng tự động nhận dạng tiếng nói được thực hiện từ những năm 1950, khi các nhà nghiên cứu cố gắng trích ra các dấu hiệu cơ bản của ngữ âm học Vào năm 1952, ở Bell Laboratories, Davis, Biddulph, và Balashek đã xây dựng nên hệ nhận dạng chữ số rời cho một người nói Hệ này chủ yếu dựa vào việc đo phổ cộng hưởng trong miền nguyên âm của mỗi số Một nỗ lực độc lập khác ở RCA Laboratories, Olson và Belar cố gắng nhận dạng 10 âm tiết có mặt trong 10 từ đơn âm Hệ này cũng dựa vào việc đo phổ (do dãy bộ lọc tương tự tạo ra) trong miền nguyên âm Vào năm 1959, tại University College nước Anh, Fry và Denes cố gắng xây dựng một hệ nhận dạng có thể nhận dạng được bốn nguyên âm và chín phụ âm Họ đã dùng bộ phân tích phổ và đối sánh mẫu để quyết định nhận dạng Khía cạnh mới của nghiên cứu này là sử dụng thông tin thống kê về các chuỗi âm
vị hợp lệ trong tiếng Anh (dạng sơ bộ của cú pháp ngôn ngữ) để cải thiện độ chính xác toàn bộ âm vị của những từ gồm hai hay nhiều âm tiết Một cố gắng nữa trong thời kỳ này là hệ nhận dạng nguyên âm của Forgie và Forgie ở MIT Lincoln Laboratories vào năm 1959, dùng để nhận dạng độc lập người nói 10 nguyên âm có mặt trong những từ dạng /b/ - nguyên âm - /t/ Một lần nữa, dãy bộ lọc được dùng để tạo ra thông tin phổ và ước lượng biến thiên theo thời gian của bộ phận phát âm để xác định nguyên âm nào đã nói
Những năm 1960, nổi lên một vài ý tưởng cơ bản cho nhận dạng tiếng nói Thập niên này bắt đầu với sự tham gia của các phòng thí nghiệm Nhật Bản vào lãnh vực nhận dạng và họ đã cài đặt những phần cứng chuyên dụng vào hệ nhận dạng của họ Hệ sớm nhất ở Nhật Bản được mô tả theo Suzuki và Nakata của Radio Research Lab là hệ nhận dạng nguyên âm bằng phần cứng Dãy bộ lọc phân tích phổ công phu cùng với ngõ ra có trọng số của mỗi kênh được đưa tới mạch quyết định nguyên âm, và một mạch logic làm nhiệm vụ chọn nguyên âm nào đã nói Một cố gắng khác về phần cứng của Nhật Bản là thông báo của Sakai và Doshita ở Kyoto University vào năm 1962 là xây dựng hệ nhận dạng âm vị, sử dụng bộ phân đoạn tiếng nói bằng phần cứng cùng với việc phân tích chéo zero của những miền khác nhau của âm vị đã nói ở ngõ vào để nhận dạng âm vị ở ngõ ra Nỗ lực thứ ba của Nhật Bản là hệ nhận dạng chữ số cũng bằng phần cứng của Nagata và các cộng sự ở NEC Laboratories vào năm 1963 Cố gắng ban đầu trong lãnh vực nhận dạng tiếng nói của NEC đã dẫn tới chương trình nghiên cứu sâu rộng sau này của họ
Những năm 1960, là thời điểm bắt đầu của ba dự án lớn kéo dài suốt hơn hai mươi năm nghiên cứu và phát triển nhận dạng tiếng nói Dự án đầu tiên là nỗ lực của Martin và các cộng sự ở RCA Laboratories bắt đầu cuối những năm 1960 để giải quyết vấn đề thời gian
Trang 5GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 4
chuẩn hóa thời gian, dựa vào mức độ phát hiện chính xác điểm bắt đầu và kết thúc tiếng nói, kết quả là giảm đáng kể sự biến dạng khi so sánh tiếng nói Cuối cùng Martin đã phát triển các phương pháp này và sáng lập công ty Threshold Technology, một trong những công ty đầu tiên đã đưa sản phẩm nhận dạng tiếng nói ra thị trường Cùng thời gian này ở Liên Xô, Vintsyuk đã sử dụng lập trình động để nắn thời gian của hai từ Mặc dầu bản chất của lập trình động cũng như các thuật toán nhận dạng từ nối đã được Vintsyuk công bố, nhưng phần lớn chưa được biết đến ở phương Tây cho mãi đến đầu những năm 1980 Trong khoảng thời gian dài này các phương pháp hình thức hơn cũng được các nhà khoa học khác công bố Thành tựu cuối cùng của những năm 1960 là nghiên cứu tiên phong của Reddy về nhận dạng tiếng nói liên tục bằng chuỗi âm vị động Những nghiên cứu của Reddy cuối cùng đã nảy sinh chương trình nghiên cứu toàn diện ở Carnegie Mellon University (CMU) (Reddy đã đến đây vào cuối những năm 1960), và cho đến ngày nay vẫn là người dẫn đầu trên thế giới về các hệ nhận dạng tiếng nói liên tục
Những năm 1970, các nghiên cứu về nhận dạng tiếng nói đã đạt được những tiến bộ vượt bậc Đầu tiên là lãnh vực nhận dạng từ rời, các kỹ thuật cơ bản đã được nghiên cứu bởi Velichko và Zagoruyko ở Nga, Sakoe và Chiba ở Nhật Bản, Itakura ở Mỹ Nghiên cứu của Nga giúp nâng cao thuật toán nhận dạng mẫu, của Nhật Bản là lập trình động, của Itakura là mã hóa dự báo tuyến tính và độ đo dựa trên phổ dự báo tuyến tính để nhận dạng tiếng nói Tiến bộ vượt bậc nữa của những năm 1970, là khởi đầu chương trình nghiên cứu rộng lớn của IBM trong lãnh vực nhận dạng bộ từ vựng lớn kéo dài suốt hơn hai mươi năm với ba nhiệm vụ phân biệt là ngôn ngữ New Raleigh cho các câu hỏi cơ sở dữ liệu đơn giản, ngôn ngữ văn bản sáng chế laser để ghi nhận những sáng chế laser, và hệ văn phòng Tangora để đọc chính tả những ghi nhớ đơn giản
Sau cùng, các nhà nghiên cứu ở AT&T Bell Labs đã công bố hàng loạt những kinh nghiệm phong phú trong các hệ nhận dạng tiếng nói độc lập với người nói Các thuật toán phân nhóm tinh vi đã được sử dụng để xác định số lượng các mẫu phân biệt cần thiết cho việc biểu diễn tất cả những biến thiên của các từ khác nhau thông qua một số lượng lớn người nói khác nhau Nghiên cứu này đã được cải tiến liên tục suốt hơn một thập niên sao cho việc nhận dạng độc lập với người nói ngày càng tốt hơn
Trong lúc nhận dạng từ rời được tập trung nghiên cứu trong những năm 1970, thì những năm 1980 lại tập trung nghiên cứu nhận dạng từ nối Mục tiêu ở đây là tạo ra những hệ thống mạnh có khả năng nhận dạng lời nói trôi chảy căn cứ trên việc đối sánh mẫu tập trung của các từ riêng biệt Hàng loạt các thuật toán nhận dạng từ nối đã được tổ chức, bao gồm lập trình động hai mức của Sakoe ở Nippon Electric Corporation (NEC), thuật toán một lần duyệt của Bridle và Brown ở Joint Speech Research Unit (JSRU) nước Anh, thuật toán tạo mức của Myers và Rabiner ở Bell Labs, và thuật toán tạo mức đồng bộ frame (giống thuật toán một lần duyệt) của Lee và Rabiner ở Bell Labs Mỗi thuật toán đối sánh này đều có các ưu điểm riêng và đã được áp dụng rộng rãi
Nghiên cứu về tiếng nói những năm 1980 đã bước sang một thời kỳ mới, phương pháp đối sánh mẫu được thay thế bằng mô hình thống kê - đặc biệt là mô hình Markov ẩn Mặc dù phương pháp luận về mô hình Markov đã được biết khá sớm, đầu tiên là IBM, Institute for Defense Analyses, và Dragon Systems, nhưng nó không được công bố rộng rãi cho mãi đến
Trang 6GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 5
nghiên cứu nhận dạng tiếng nói trên thế giới
Một kỹ thuật ‘mới’ nữa đã được giới thiệu lại vào cuối những năm 1980 dựa trên ý tưởng áp dụng mạng neural trong lãnh vực nhận dạng tiếng nói Mạng neural đã được giới thiệu đầu tiên vào những năm 1950 nhưng lúc đó có quá nhiều vấn đề thực tế Tuy nhiên vào những năm gần đây, người ta đã hiểu sâu hơn về sức mạnh và giới hạn của mạng neural cũng như các kỹ thuật phân lớp tín hiệu Một vài hệ đi theo hướng này đã được công bố như CSLU, Natural Speech 5.0, Via Voice
Cuối cùng, những năm 1980 là thập niên của hệ nhận dạng từ liên tục có bộ từ vựng lớn Defense Advanced Research Projects Agency (DARPA) - Mỹ (tạm dịch là Ủy ban Các dự án nghiên cứu phòng thủ cao cấp) đã đỡ đầu chương trình nghiên cứu rộng lớn tập trung vào hệ nhận dạng từ có độ chính xác cao khoảng 1000 từ, nhận dạng từ liên tục dùng cho quản trị cơ sở dữ liệu Các nỗ lực từ nhiều bên như CMU (với hệ SPHINX nổi tiếng), BBN với hệ BYBLOS, Lincoln Labs, SRI, MIT, và AT&T Bell Labs Chương trình DARPA tiếp tục bước sang những năm 1990, với xử lý ngôn ngữ tự nhiên được hợp nhất vào hệ nhận dạng Cùng thời gian này, các kỹ thuật nhận dạng đã tiến bộ không ngừng, và được ứng dụng trong lãnh vực mạng điện thoại để tự động hóa cũng như nâng cao các thao tác dịch vụ Có thể kể ra đây các hệ nhận dạng tiếng nói ngày nay như Naturally Speaking Deluxe của Dragon Systems, Via Voice của IBM, Kurzweil VoicePro của Lernout & Hauspie
I.2 NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI :
I.2.1 Tiếng nói ( Speech Sounds):
Ở mức độ ngôn ngữ học, tiếng nói có thể được xem là một chuỗi các âm thanh cơ bản gọi là âm vị (Phoneme) Như vậy, âm vị là đơn vị cơ bản để tạo ra âm thanh nhưng đô khi chúng ta không nhận được những âm vị đó từ tín hiệu tiếng nói Cùng một âm vị có thể biểu diễn nhiều tiếng nói khác nhau Hơn nữa, các người nói khác nhau phát âm cùng một chuỗi tiếng nói thì sẽ chuyển đi cùng một lượng thông tin như nhau, nhưng âm thanh lại không giống nhau hoàn toàn Nguyên nhân chính là khác nhau về hình dạng của bộ máy phát âm của mỗi người và do sự ảnh hưởng của thổ ngữ (Dialect)
Âm thanh phát ra được điều khiển bởi các cơ quan phát âm (Speech Articulatorys), các âm vị tương ứng trực tiếp với vị trí cũng như sự dịch chuyển của các khớp (Articulatory) trong bộ máy phát âm còn gọi là động tác khi phát âm (Articulatory gestures) Động tác phát âm có thể là tĩnh hoặc động tuỳ thuộc vào sự chuyển động hoặc không chuyển động của các khớp khi phát âm
Tiếng nói có các đặc trưng (Các thuộc tính vật lý của nó) như sau:
- Độ dài:
Trang 7GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 6
khí
- Âm sắc:
Là sắc thái riêng của một âm do các cá thể khác nhau tạo ra Âm sắc là nguyên nhân gây ra sự khác biệt giữa giọng nói của người này với người khác
- Tiếng ồn và tiếng thanh;
Tiếng ồn là do sự chuyển động không nhịp nhàng (không có chu kỳ ổn định) của các phần tử không khí gây ra, còn tiếng thanh là do sự chuyển động nhịp nhàng (có chu kỳ ổn định) của các phần tử không khí gây ra
giống như âm khi chúng ta nói ‘a’ hay ‘e’, được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua Những dây thanh âm rung tạo ra dạng sóng của luồng không khí có dạng xấp xỉ tam giác như minh họa trên Hình 1.2, có chu kỳ hay tựa chu kỳ với phổ tần số có nhiều hài với tốc độ suy giảm xấp xỉ 12dB/octave Bộ phận phát âm hoạt động giống như hốc cộng hưởng, khuếch đại những thành phần hài này và suy giảm những thành phần hài khác để tạo
ra âm hữu thanh Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điều khiển hai yếu tố trên để thay đổi chu kỳ bước sóng (pitch) âm thanh Chu kỳ bước sóng âm thanh của đàn ông trưởng thành thường từ 50Hz đến 250Hz, giá trị trung bình chừng 120Hz Đối với phụ nữ trưởng thành, giới hạn trên cao hơn nhiều, có thể lên đến 500Hz
Trong ngôn ngữ các nguyên âm về bản chất âm học là những âm hữu thanh
được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản - âm xát và âm hơi Đối với âm xát, ví dụ như khi nói ‘s’ , một số điểm trên bộ phận phát âm bị co lại khi luồng không khí ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Bởi vì những điểm
co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát Đối với âm bật hơi, giống như khi chúng ta nói ‘h’ trong ‘hùng’, hỗn loạn xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh
Trang 8GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 7
nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví dụ âm ‘i’ và ‘u’ trong tiếng Việt trong những từ như ‘ai’, ‘âu’
ví dụ như âm ‘p’, ‘t’, ‘k’ hay ‘đ’, ‘b’, ‘g’ trong tiếng Việt được tạo ra do loại kích thích khác Đối với lớp âm thanh này, bộ phận phát âm đóng lại ở một vài điểm, áp suất không khí tăng lên và thình lình giảm xuống Áp suất thình lình giảm xuống tạo ra kích thích ngắn của bộ phận phát âm Lúc này dây thanh âm có thể rung để tạo ra âm hữu thanh nổ (‘đ’, ‘b’, ‘g’) hay không rung để tạo ra âm vô thanh nổ (‘p’, ‘t’, ‘k’) Ngoài ra còn có loại phụ âm thứ ba có tỷ lệ âm hữu thanh lớn hơn gọi là âm vang như ‘m’, ‘n’, ‘ng’, ‘l’
I.2.2 Bộ máy phát âm của con người:
Hình 1.1 minh họa cơ quan phát âm của người Chủ yếu gồm phổi, khí quản, thanh quản, bộ phận mũi và miệng Thanh quản có hai nếp gấp gọi là dây thanh âm, dây thanh âm sẽ rung khi luồng không khí đi qua khe thanh môn là khe giữa hai dây thanh âm Bộ phận miệng là một ống âm học không đều, dài xấp xỉ 17cm đối với đàn ông trưởng thành tính từ môi đến dây thanh âm hay thanh quản Tiết diện cắt ngang của bộ phận miệng thay đổi từ zero đến 20cm2 do phần cơ của bộ phận cấu âm - articulator (môi, lưỡi, hàm và vòm miệng mềm) điều khiển Bộ phận mũi cũng là một ống âm học không đều có diện tích và chiều dài cố định (dài chừng 12cm đối với đàn ông trưởng thành), bắt đầu từ lỗ mũi đến vòm miệng mềm Vòm miệng mềm làm nhiệm vụ liên kết âm thanh giữa bộ phận mũi và miệng Quá trình tạo ra âm phi mũi như sau: vòm miệng mềm ngăn chặn bộ phận mũi và âm thanh phát
ra thông qua môi Đối với quá trình tạo ra âm mũi, vòm miệng mềm hạ thấp xuống và bộ phận mũi liên kết với bộ phận miệng, lúc này phía trước của bộ phận miệng khép lại hoàn toàn và âm thanh phát ra thông qua mũi Đối với âm thanh nói giọng mũi, âm thanh phát ra cả mũi và môi
Trang 9GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 8
lồng xương sườn co lại, không khí bị đẩy ra và đi dọc theo khí quản, xuyên qua thanh môn Luồng không khí này là nguồn năng lượng tạo ra tiếng nói Có thể điều khiển luồng không khí theo nhiều cách khác nhau để tạo ra các âm thanh khác nhau
I.2.3 Mô hình lọc nguồn tạo tiếng nói:
Hình 1.3 minh họa mô hình rất đơn giản của bộ phận phát ra nguyên âm ‘eh’ hay
nguyên âm trung tính là một ống đều có chiều dài L, một đầu là nguồn âm thanh (dây thanh âm) và đầu kia được mở ra (môi) Ống này cộng hưởng ở các tần số lẻ f0, 3f0, 5f0, , ở đó
f0 = /c 4L với c là vận tốc âm thanh trong không khí Bộ phận phát âm điển hình có chiều
dài L= 17cm , c= 300 /m s, cộng hưởng ở các tần số 500Hz, 1500Hz, 2500Hz, , những đỉnh cộng hưởng này được gọi là các formant Dĩ nhiên, bộ phận phát âm có thể có nhiều dạng khác nhau và tạo ra những đỉnh cộng hưởng khác nhau hay các giá trị formant khác nhau nên âm thanh phát ra khác nhau Trong tiếng nói, các tần số formant luôn luôn thay đổi từ âm này sang âm khác
Hình 1.3 Mô hình ống đều của bộ phận phát âm
Những trình bày ở trên dẫn đến ý tưởng cho rằng có thể xem quá trình tạo ra tiếng nói là bộ lọc nguồn, trong đó tín hiệu từ nguồn âm thanh (cũng có thể là có chu kỳ hay nhiễu) được lọc bằng bộ lọc biến thiên theo thời gian có tính chất cộng hưởng tương tự với bộ phận phát âm Như vậy có thể thu được phổ tần số của tín hiệu tiếng nói bằng cách nhân phổ của nguồn âm thanh với đặc tính tần số của bộ lọc Hình 1.4 minh họa tiếng nói hữu thanh và vô thanh Các độ lợi AV và AN xác định cường độ của nguồn tạo âm hữu thanh và vô thanh
Hình 1.4 Tạo tiếng nói theo mô hình lọc nguồn
Trang 10GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 9
Mặc dầu bộ phận phát âm có một số hữu hạn các đỉnh cộng hưởng hay formant nhưng chỉ cần khảo sát ba hay bốn đỉnh cộng hưởng đầu tiên phủ trên băng tần từ 100Hz đến 3.5kHz, bởi vì biên độ của các formant cao hơn của tiếng nói hữu thanh bị suy giảm hầu như hoàn toàn với độ suy giảm -12dB/octave Trường hợp tiếng nói vô thanh, phổ tương đối rộng và bằng phẳng, số lượng các formant như vậy vẫn đủ mặc dầu mô hình đúng cho tiếng nói vô thanh thường phải mở rộng băng tần lên đến 7-8kHz Một điểm đáng lưu ý là bộ lọc của mô hình lọc nguồn trên Hình 1.4 không những đặc tả tính chất phát xạ của bộ phận phát âm mà còn nêu ra ảnh hưởng bức xạ của miệng Ảnh hưởng tổng trở bức xạ có thể mô hình hóa bằng đặc tính của bộ lọc thông cao bậc nhất có độ tăng lên chừng 6dB/octave trong băng tần từ 0-3kHz
Mô hình lọc nguồn cho quá trình tạo tiếng nói khá đơn giản Như đã đề cập ở trên, không thể lọc được âm xát bằng các đỉnh cộng hưởng của bộ phận phát âm như âm hữu thanh hay âm bật hơi, vì vậy mô hình lọc nguồn không hoàn toàn chính xác cho âm xát Ngoài ra, mô hình lọc nguồn còn giả thiết nguồn phát âm bị tách tuyến tính ra khỏi bộ lọc và
do đó không có sự tương tác nào giữa chúng Điều giả thiết này không hoàn toàn đúng bởi vì độ rung của dây thanh âm là do áp suất âm thanh bên trong của bộ phận phát âm, liên kết với bộ phận phát âm và phổi trong suốt chu kỳ thanh quản mở, vì vậy cần phải biến đổi đặc tính của bộ lọc ở mỗi chu kỳ kích âm Tuy nhiên những điều thứ yếu này thường được bỏ qua và mô hình lọc nguồn là chấp nhận được
I.2.4 Ngữ âm học:
Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm
vị Điều quan trọng cần nhận thức rõ âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị kết hợp với nhau theo một cách nào đó để tạo ra các âm thanh khác nhau Những người nói khác nhau có thể phát ra cùng một chuỗi âm vị chứa đựng thông tin như nhau, còn giọng nói khác nhau là do phương ngữ , hình dáng, độ dài của bộ phận phát âm
Để mô tả nguyên âm người ta tìm cách xác định hốc cộng hưởng khoang miệng và hốc
cộng hưởng khoang yết hầu - nguồn gốc của các formant nói trên
Khoang miệng và khoang yết hầu tách biệt nhau do sự nâng cao của lưỡi Chính vì vậy sự thay đổi của khoang này đều kéo theo sự thay đổi của khoang kia Mỗi lần môi, lưỡi thay đổi tư thế là một lần chúng ta có một hốc cộng hưởng miệng và một hốc cộng hưởng yết hầu khác nhau Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức khả năng dao động riêng hay khả năng cộng hưởng của chúng chính là mô tả độ mở của miệng, vị trí của lưỡi và hình dáng của môi
Độ mở của miệng hay độ nâng của lưỡi cho biết thể tích của hốc cộng hưởng Căn cứ vào độ mở (hay độ nâng) khác nhau mà chúng ta có các nguyên âm khác nhau: nguyên âm rộng (hay cao) như ‘a’, ‘e’, nguyên âm hẹp (hay thấp) như ‘i’, ‘u’
Vị trí của lưỡi nhích ra phía trước hay lui về phía sau cho biết hình dáng của hốc cộng hưởng như thế nào Tùy theo phần trước lưỡi được đưa lên - tức đưa ra phía trước - hay phần sau lưỡi được nâng cao - tức lui về phía sau - mà chúng ta có các nguyên âm khác nhau: nguyên âm trước như ‘i’, ‘ê’, ‘e’, nguyên âm sau như ‘u’, ‘ô’, ‘o’, nguyên âm giữa như từ
‘bird’ trong tiếng Anh
Trang 11GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 10
miệng Hai môi có thể chúm tròn và nhô ra phía trước cho chúng ta những nguyên âm với âm sắc trầm hơn bình thường, đó là những nguyên âm như ‘u’, ‘ô’, ‘o’ Trái lại, nếu hai môi ở tư thế bình thường hay dẹt ra khi phát âm, chúng ta có những nguyên âm không tròn hay dẹt như ‘a’, ‘i’, ‘e’
Trong việc mô tả phụ âm một loạt đặc trưng ngữ âm khác lại được nêu lên Đặc điểm
cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở , song sự cản trở ấy diễn ra với những mức độ khác nhau, đúng hơn là những cách khác nhau và ở những bộ phận khác nhau của bộ phận phát âm
Về phương pháp cấu âm, người ta phân biệt phụ âm tắc (như ‘p’, ‘t’, ‘đ’, ‘b’) với phụ âm xát (như ‘v’, ‘s’, ‘g’ trong tiếng Việt) Đặc trưng của loại phụ âm thứ nhất là một tiếng nổ, phát sinh do luồng không khí từ phổi đi ra bị cản trở hoàn toàn, phải phá vỡ sự cản trở ấy để thoát ra ngoài Trái lại, đặc trưng của loại phụ âm thứ hai là tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra cọ xát vào thành của bộ phận phát âm
Người ta còn chia phụ âm tắc ra làm hai loại là phụ âm bật hơi và phụ âm mũi Cấu âm của các phụ âm bật hơi như ‘th’ trong tiếng Việt, không khí không những phá vỡ sự cản trở gây nên một tiếng nổ nhẹ mà đồng thời khi thoát ra cũng gây ra một tiếng cọ xát ở khe hở của hai mép dây thanh âm Phụ âm mũi trong tiếng Việt như ‘m’, ‘n’, ‘ng’, ‘nh’ có sắc thái mũi, phát sinh do luồng không khí từ phổi đi lên qua mũi mà thoát ra chứ không qua đường miệng, và ở đây âm do dây thanh âm tạo ra nhận được sự cộng hưởng ở khoang mũi Trong cấu tạo của phụ âm mũi, lối thoát của không khí bị đóng hoàn toàn ở đằng miệng nên được coi là phụ âm tắc, nhưng không khí lại thoát ra hoàn toàn tự do ở đằng mũi Chính do chỗ phụ âm mũi được cấu tạo do sự rung động của dây thanh âm và không khí ra ngoài không bị cản trở - nghĩa là chúng có những đặc điểm cơ bản của việc cấu tạo nguyên âm - nên phụ âm mũi còn được gọi là phụ âm vang
Đối với các phụ âm xát cần chú ý đến một số phụ âm kiểu như ‘l’ trong tiếng Việt Trong cấu âm của phụ âm này, đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí từ phổi lên buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má để thoát ra ngoài gây
ra một tiếng xát nhẹ Cách cấu âm này khiến cho người ta gọi những phụ âm kiểu ‘l’ như vậy là phụ âm bên
Việc mô tả phụ âm còn một điều quan trọng nữa là xác định vị trí cấu âm của chúng Hai âm ‘b’ và ‘đ’ trong tiếng Việt đều được cấu tạo theo phương pháp tắc nhưng phân biệt nhau ở chỗ một đằng sự cản trở không khí xảy ra giữa hai môi, một đằng do sự tiếp xúc của đầu lưỡi và lợi
Trong tiếng Việt, chữ viết có các dấu ‘huyền, sắc, hỏi, ngã, nặng’ được gọi là thanh điệu Thanh điệu là sự nâng cao hay hạ thấp ‘giọng nói’ trong một âm tiết Âm tiết là đơn vị phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ Ví dụ phát âm câu thơ sau đây của Nguyễn Du ‘Rằng tài nên trọng, mà tình nên thương’ có 8 âm tiết
So sánh cách phát âm hai từ ‘bình’ và chữ ‘bính’ trong tiếng Việt, âm tiết thứ nhất được phát ra với ‘giọng’ thấp hay có cao độ thấp hơn, còn âm tiết thứ hai có ‘giọng’ cao hơn hay cao độ cao hơn, do đó người nghe có thể phân biệt được hai từ có nghĩa khác hẳn nhau Như vậy thanh điệu là sự thay đổi cao độ của ‘giọng nói’, điều đó có nghĩa là có sự thay đổi biên độ của tần số cơ bản trong âm hữu thanh Dây thanh âm rung tạo ra âm thanh Biên độ
Trang 12GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 11
hiện tượng cộng hưởng toàn bộ âm thanh sẽ thay đổi âm sắc và chúng ta có các nguyên âm khác nhau với cùng một thanh điệu, chẳng hạn ‘à, ù, ì’ Ngược lại nếu biên độ của thành phần tần số cơ bản thay đổi trong khi biên độ các thành phần hài không đổi, do đó không có sự biến đổi gì về cộng hưởng và chúng ta có được một nguyên âm với âm sắc không đổi nhưng với nhiều thanh điệu khác nhau, chẳng hạn như ‘à, á, ả’ Như vậy thanh điệu được xác định bằng tần số cơ bản
Điều nhận xét trên đây gợi ý cho chúng ta trong quá trình nhận dạng là nếu đã phân lớp được từ cần nhận dạng thuộc về lớp ‘a, á, à, ả, ã, ạ’, chúng ta chỉ cần xét thành phần tần số cơ bản là xác định được cụ thể từ cần nhận dạng là từ nào
Qua phân tích ngữ âm học ở phần trên, chúng ta nhận thấy rằng khi phát âm một từ (tổng quát gồm phụ âm, nguyên âm, và thanh điệu), dây thanh âm rung tạo ra dạng sóng của luồng không khí như trên Hình 1.2, đến lượt bộ phận cấu âm và mũi biến đổi chậm làm thay đổi dạng sóng phát ra bên ngoài để tạo ra những từ khác nhau Như vậy tín hiệu tiếng nói là
do xung bước sóng chập với tín hiệu biến thiên chậm của bộ phận cấu âm Điều này dẫn tới việc trích tham số tiếng nói rất hiệu quả là phân tích ceptral, trong phương pháp này người ta muốn lấy phần tín hiệu có tần số thấp do bộ phận cấu âm tạo ra Trình bày chi tiết về cepstral được trình bày ở Chương 3
I.2.5 Hệ thống tai nghe của người:
Quá trình nghe của người như sau: sóng áp suất âm thanh tác động đến tai người, sóng này được chuyển thành một chuỗi xung điện, chuỗi này được truyền tới não bộ thông qua hệ thần kinh, ở não, chuỗi được xử lý và giải mã
Hình 1.5 là hệ thống nghe của người Tai được chia thành ba phần: tai ngoài, tai giữa và tai trong Tai ngoài gồm vành tai và ống tai dẫn tới màng nhĩ Sóng âm di chuyển dọc theo ống tai và tác động đến màng nhĩ, làm cho màng nhĩ rung Biên độ rung của màng nhĩ thường từ vài nanometre (10− 9m) và tiếng nói thì thầm làm cho biên độ rung lớn nhất bằng
1 10/ đường kính của phân tử hydrogen
Ở tai giữa, một khúc xương nhỏ gọi là xương búa được gắn với màng nhĩ Khi màng nhĩ rung, xương búa tiếp xúc với một khúc xương khác gọi là xương đe, làm cho xương đe quay Xương
đe lại được nối với một khúc xương nữa gọi là xương bàn đạp, xương bàn đạp nối với cửa sổ oval của tai trong Ba khúc xương búa, đe, và bàn đạp là ba khúc xương nhỏ nhất của tai
Trang 13GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 12
oval của tai trong
Cửa sổ oval là một lỗ mở ở thành xương ốc tai được bao phủ bằng màng Chia phần ốc tai chứa đầy dịch theo chiều dọc thành hai màng gọi là màng Reissner và màng đáy Cửa sổ oval rung làm sóng áp suất lan truyền qua dịch ốc tai, sóng áp suất này làm màng đáy bị lệch ở một vài điểm khác nhau Gắn với màng đáy là cơ quan Corti Cơ quan dạng nhầy này chứa 30000 tế bào lông được sắp thành ba hàng ngoài và một hàng trong Mỗi tế bào lông có chứa nhiều sợi lông nhỏ nhô ra Những sợi lông nhỏ này sẽ rung động khi màng đáy chuyển động, và điều này tạo ra thế năng cho tế bào lông Tế bào lông tiếp xúc với dây thần kinh tận của neuron thần kinh thính giác và thế năng này tạo ra chuỗi xung điện truyền tới não thông qua dây thần kinh thính giác
Từ những điều đã mô tả ở trên, chúng ta nhận thấy rằng chuyển động của màng đáy đóng vai trò quan trọng của quá trình nghe Nhiều đặc tính của cơ chế nghe đã được khám phá khi nghiên cứu vật lý-thần kinh học Màng đáy là ống không đều dài chừng 35mm, có mặt đáy gần cửa sổ oval, hẹp và cứng dần về phía đỉnh, kết quả tạo ra những điểm khác nhau tương ứng với các tần số âm thanh khác nhau Khi chúng ta nghe một sóng âm thuần túy tức âm đơn (sóng sine), những điểm khác nhau trên màng đáy sẽ rung động theo tần số của âm đơn đi vào tai Điểm lệch lớn nhất trên màng đáy phụ thuộc vào tần số của âm đơn Tần số cao tạo ra điểm lệch lớn nhất ở phía đáy và tần số thấp tạo ra điểm lệch lớn nhất phía đỉnh Như vậy màng đáy đóng vai trò là bộ phận phân tích tần số tín hiệu vào phức tạp, bằng cách tách những thành phần tần số khác nhau ở những điểm khác nhau dọc theo chiều dài của nó Mỗi điểm như vậy có thể xem là bộ lọc thông dải có tần số trung tâm và băng thông xác định Những đáp ứng tần số của những điểm khác nhau đã được đo bằng thực nghiệm
cho thấy rằng những đáp ứng này đều có hệ số phẩm chất Q gần như không đổi (Q là ‘hệ số
chất lượng’ và đặc trưng cho tính chất nhọn của đáp ứng băng thông; nó là tỉ số của tần số
trung tâm và độ rộng băng tần còn ‘không đổi’ nghĩa là mỗi bộ lọc đều có cùng giá trị Q)
Những đáp ứng này không đối xứng quanh tần số trung tâm, vùng tần số cao có tốc độ suy giảm dốc hơn nhiều so với vùng tần số thấp Vị trí của độ lệch cực đại dọc theo màng nhày biến đổi theo quan hệ phi tuyến với tần số Người ta đã chứng minh rằng mối liên hệ này gần như theo hàm logarithm, sự gia tăng tuyến tính của độ lệch sẽ tương ứng với sự gia tăng logarithm của tần số
Những nghiên cứu chỉ ra rằng ngưỡng nghe của một âm đơn tăng lên khi có sự hiện diện của những âm đơn lân cận khác (âm mặt nạ) và chỉ có băng tần hẹp xung quanh âm đơn mới tham gia vào hiệu ứng mặt nạ, băng tần này thường gọi là băng tần tới hạn Giá trị của băng tần tới hạn phụ thuộc vào tần số của của âm đơn cần thử Ví dụ âm đơn 100Hz có băng tần tới hạn xấp xỉ 90Hz; âm đơn 5kHz có băng tần tới hạn xấp xỉ 1000Hz Hình 1.6 là những băng tần tới hạn của một dải rộng tần số được xác định theo các thử nghiệm thần kinh-âm học Giá trị của những băng tần tới hạn này hẹp hơn nhiều so với những giá trị quan sát được khi màng đáy rung
Trang 14GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 13
Hình 1.6 Băng tần tới hạn
Cuối cùng có thể xem quá trình nghe của hệ thính giác là một dãy các bộ lọc băng thông, có đáp ứng phủ lấp lên nhau và ‘băng thông hiệu quả’ của chúng xấp xỉ với các giá trị của băng tần tới hạn Đây là cơ sở để thiết kế dãy bộ lọc cho xử lý tiếng nói
I.3 TÓM TẮT:
Phần này trình bày về quá trình tạo lập tiếng nói của con người Cấu âm của âm hữu thanh, vô thanh, nguyên âm, phụ âm cùng các biến dạng của nó được khảo sát tỉ mỉ Đặc biệt tính chất thanh điệu trong ngữ âm tiếng Việt cũng được gợi ý làm cho độ thành công của các hệ nhận dạng tốt hơn Quá trình nhận thức tiếng nói của con người rất phức tạp, ngày nay hãy còn chưa hiểu được hết, vì vậy mô hình dãy bộ lọc trích đặc tính của tiếng nói dựa theo mô phỏng cơ chế nghe của tai người chỉ là một giả thiết có thể chấp nhận được
Mục đích của toàn bộ chương này là lý giải hai cách trích đặc tính của tiếng nói Một cách là căn cứ vào bộ phận phát âm dẫn tới các hệ số ceptral, cách kia lại căn cứ vào bộ phận nghe dẫn tới các hệ số bộ lọc Qua thử nghiệm cả hai cách trích đặc tính này, chúng ta nhận thấy trích bằng ceptral cho kết quả nhận dạng tốt hơn Điều này cũng trùng với nhận xét của [1]
Trang 15
GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 14
CHƯƠNG II
CƠ SỞ XỬ LÝ TÍN HIỆU SỐ
Xử lý tín hiệu số - digital signal processing (DSP) bắt đầu bằng tín hiệu lượng tử hóa rời rạc, và xuất hiện trong máy tính dưới dạng một chuỗi các giá trị số Hình 2.1 là ví dụ về phép toán xử lý tín hiệu số Có chuỗi số vào x n( ), phép toán ϑ{ } và chuỗi số ra y n( )
Hình 2.1 Phép toán DSP
Phép toán được phân thành hai loại là tuyến tính và phi tuyến Hình 2.2 là cấu trúc cây của các phép toán
Hình 2.2 Cấu trúc cây của các phép toán
Các phép toán biến đổi chuỗi số theo các hướng sau đây:
1 Trích tham số hay đặc điểm của chuỗi số
2 Tạo lập chuỗi số ra tương tự như chuỗi số vào nhưng đẹp hơn
3 Khôi phục chuỗi số từ các trạng thái trước đó
4 Mã hóa hay nén chuỗi số
Một hệ xử lý tín hiệu số đầy đủ có thể gồm nhiều phép toán trên cùng chuỗi số hay là phép toán trên kết quả của phép toán trước đó Hình 2.3 là một ví dụ như vậy
Trang 16GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 15
Hình 2.3 Một hệ DSP
Chương này được chia thành nhiều phần Phần II.1 thảo luận về chuỗi số: cách tạo lập, phổ, liên hệ với tín hiệu liên tục Phần II.2 thảo luận về đặc tính chung của các phép toán bất biến theo thời gian thường sử dụng nhất trong DSP Phần II.3 thảo luận về lớp các phép toán được gọi là lọc số Phần II.4 giới thiệu phép biến đổi Fourier rời rạc - discrete Fourier transform (DFT) Phần II.5 giới thiệu biến đổi STFT Phần II.6 giới thiệu về biến đổi wavelets Phần II.7 bàn về đại số tuyến tính và cuối cùng Phần II.8 thảo luận về lý thuyết xác suất ứng dụng trong xử lý tín hiệu
II.1 CHUỖI SỐ :
Muốn cho máy tính xử lý được tín hiệu, phải lấy mẫu tín hiệu tại nhiều thời điểm Hình
2.4 là lấy mẫu hàm liên tục theo thời gian t, mỗi mẫu cách nhau T giây Kết quả chúng ta được tập các số gọi là chuỗi số Nếu hàm liên tục theo thời gian là x t() , thì hàm lấy mẫu là
x nT( ) theo n Thông thường, chúng ta chuẩn hóa thời gian giữa hai lần lấy mẫu là 1 nên
x nT( ) trở thành x n( )
Hình 2.4 Lấy mẫu tín hiệu.
II.1.1 Hàm lấy mẫu :
Hàm lấy mẫu là cầu nối giữa hàm thời gian liên tục và hàm thời gian rời rạc Hàm lấy mẫu còn có tên khác là hàm delta Dirac Hàm lấy mẫu có những tính chất sau đây:
Trang 17GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 16
τ ở hai phương trình trên có thể là giá trị thực
Để hiểu tại sao hàm này là hàm lấy mẫu lý tưởng, đầu tiên chúng ta khảo sát hàm lấy
mẫu thực tế ∆( )t như minh họa trên Hình 2.5 Hàm này có độ rộng xung là một đơn vị theo
thời gian và biên độ là một đơn vị theo biên độ Rõ ràng Tính chất 2 thỏa mãn Tuy nhiên khi
nhân ∆( )t với f t() thì hàm lấy mẫu ∆( ) t không lấy tại một thời điểm mà lấy trong phạm vi
(2.3)
Điều này có thể hiểu là quá trình lấy mẫu bị nhòe trong phạm vi một dãy liên quan
đến độ rộng xung của ∆( )t Muốn xấp xỉ hàm lấy mẫu tốt hơn thì hàm ∆( )t có độ rộng xung
hẹp hơn Tuy nhiên, khi độ rộng xung hẹp lại thì biên độ phải tăng lên Về mặt giới hạn,
chúng ta thấy rằng hàm lấy mẫu lý tưởng có độ rộng xung hẹp vô hạn sao cho mẫu được lấy
tại một thời điểm, còn biên độ lớn vô hạn sao cho tín hiệu lấy mẫu có cùng năng lượng hữu
hạn như nhau
Hình 2.5 Hàm lấy mẫu thực tế
II.1.2 Sử dụng hàm lấy mẫu:
Hình 2.6 minh họa quá trình lấy mẫu dùng hàm lấy mẫu lý tưởng tại các thời điểm
cách nhau T giây Kết quả, chúng ta có được dạng sóng theo thời gian
Dạng sóng kết quả của quá trình này là không hiện thực do biên độ vô hạn và độ
rộng zero của hàm lấy mẫu lý tưởng
Chú ý rằng x t s( ) là tín hiệu liên tục theo thời gian được tạo ra từ một tập vô hạn của
các tín hiệu liên tục theo thời gian x t( ) (δ −t nT) Do hàm lấy mẫu tạo ra hệ số nhân khác
zero tại những giá trị t =nT, nên có thể viết lại x t s( )như sau:
Trang 18GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 17
Trong phương trình sau cùng này, chúng ta thấy xuất hiện chuỗi số x nT( ) Đây là tập
hợp số và sẽ được thảo luận trong các phần kế
II.1.3 Phổ của tín hiệu lấy mẫu:
Theo lý thuyết biến đổi Fourier, phổ tần số của dạng sóng liên tục theo thời gian x t()
được viết như sau:
Trang 19GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 18
Phương trình này biểu diễn chính xác chuỗi Fourier của X f s( ) là hàm có chu kỳ T
Các hệ số của chuỗi Fourier là x nT( ) được tính từ tích phân sau:
1 2
Hai phương trình sau cùng là cặp chuỗi Fourier cho phép tính tín hiệu theo thời gian
hay phổ tần số tùy theo đối số của cặp chuỗi Fourier Chú ý rằng tín hiệu x t s( ) đã bị loại bỏ
và thay vào đó là x nT( )
II.1.4 Liên hệ giữa phổ của tín hiệu liên tục và tín hiệu rời rạc:
Xét Phương trình (2.7) tại thời điểm t nT= và cho kết quả này bằng vế phải của
Phương trình 2.11, chúng ta thu được mối liên hệ giữa hai phổ như sau:
x nT X f e j fnT df T X f e df
s j fnT T
1 2
Vế phải của Phương trình (2.7) có thể biễu diễn là tổng vô hạn của một tập các tích phân có
giới hạn hữu hạn
x nT X f e j fnT df
m T
m T m
T m
1 2
Di chuyển phép tổng vào trong tích phân, chú ý e j2πmn =1 với mọi m, n nguyên, và thành
phần bên trong tích phân tương tự với thành phần bên trong tích phân của Phương trình
(2.11), nên chúng ta có mối liên hệ sau:
X f
T X f
m T
Phương trình (2.15) nói lên rằng phổ tần số của tín hiệu lấy mẫu là tổng vô hạn phổ tần số
của tín hiệu liên tục, ở đó khoảng cách giữa hai phổ tần số của tín hiệu liên tục là 1
T Chúng
ta hãy khảo sát trường hợp phổ tần số của tín hiệu liên tục bằng với phổ tần số của tín hiệu
lấy mẫu, ít nhất là trong một phạm vi tần số nào đó Nếu không có thành phần phổ nào của
tín hiệu liên tục lớn hơn 1
2T thì hai phổ sẽ bằng nhau trong phạm vi tần số từ f
T
Trang 20GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 19
f
T
2 Dĩ nhiên là phổ của tín hiệu lấy mẫu sẽ lặp lại trên suốt thang tần số, còn phổ của
tín hiệu liên tục sẽ bằng zero trên suốt thang tần số ngoại trừ phạm vi tần số đã nói ở trên
Tiêu chuẩn lấy mẫu Nyquist căn cứ trên những điều vừa thảo luận và khẳng định rằng nếu
tần số lấy mẫu lớn hơn hai lần tần số lớn nhất của tín hiệu liên tục thì có thể khôi phục hoàn
toàn tín hiệu liên tục từ tín hiệu lấy mẫu Ngược lại, nếu tần số lấy mẫu nhỏ hơn hai lần tần
số lớn nhất của tín hiệu liên tục thì xảy ra hiện tượng trùm phổ Tín hiệu liên tục được khôi
phục lại sẽ bị méo và độ méo phụ thuộc vào độ trùm phổ
II.1.5 Chuỗi xung đơn vị:
Có một chuỗi số quan trọng là chuỗi xung đơn vị và ký hiệu là u n0( ) Chuỗi xung đơn
vị gồm vô hạn mẫu có giá trị zero với mọi n ≠ 0 và bằng 1 tại n = 0 Hình 2.9 minh họa
Hình 2.9 Dời chuỗi xung đơn vị.
II.2 CÁC PHÉP TOÁN TUYẾN TÍNH BẤT BIẾN:
Các phép toán được sử dụng rộng rãi nhất trong DSP là tuyến tính và bất biến theo
thời gian - linear time invariant (LTI)
Tính chất tuyến tính được phát biểu như sau:
Cho x n( ) là chuỗi hữu hạn vàO{ }là phép toán trong không gian n-chiều, đặt
)}
({O)(n x n
({O)
Trang 21GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 20
Tính chất bất biến theo thời gian nghĩa là nếu
)}
({O)
y =thì khi dời sẽ cho đáp ứng giống nhau
)}
({O)
Cách khác để phát biểu tính chất này là nếu x n( ) có chu kỳ là N
x n N( + )= x n( )thì phép toán O{} bất biến theo thời gian trong không gian n-chiều là
)}
({O)}
({
Chúng ta gọi
)}
({O)
Phương trình (2.28) phát biểu rằng y n( ) là tổng chập x n( ) với đáp ứng xung h n( ) Thay
m n p= − vào Phương trình (2.28), chúng ta có dạng tương đương
Nhớ rằng m và p chỉ là biến giả sử dụng cho tổng chập mà thôi
II.2.1 Tính nhân quả:
Cho đến bây giờ các mô tả toán học của chuỗi số và phép toán đều giả thiết là đáp
ứng xung của phép toán vẫn có giá trị ngay cả trước thời điểm tác động của chuỗi số vào
Đây là dạng tổng quát của phương trình và phù hợp cho phát triển lý thuyết Tuy nhiên,
không có một hệ vật lý nào có thể tạo ra chuỗi số ra khi chưa có chuỗi số vào tác động Bởi
Trang 22GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 21
vì các phép toán và chuỗi số DSP có tính vật lý nên chúng ta chỉ thảo luận các phép toán và
chuỗi số có thể tồn tại trong thực tế
Bước đầu tiên khi biểu diễn chuỗi số thực tế là chuỗi số phải bắt đầu tại một thời điểm cụ
thể nào đó Như vậy có thể giả thiết rằng các thành phần của chuỗi số sẽ có giá trị zero tại
những chỉ số thời gian nhỏ hơn zero, đồng thời sau thời điểm zero giá trị của chuỗi có thể là
zero hay khác zero Thuộc tính này của chuỗi số và phép toán được gọi là nhân quả hay nói
cách khác chuỗi số ra của hệ DSP tại thời điểm n (tức là y n( )) chỉ phụ thuộc vào chuỗi số
vào tại thời điểm hiện tại và quá khứ (tức là x n x n( ), ( −1), (x n−2) ) chứ không phụ thuộc
vào chuỗi số tương lai (tức là x n( +1), (x n+2) )
Bây giờ tổng chập của phép toán nhân quả có thể viết
nghĩa là đáp ứng không có giá trị với mọi m nhỏ hơn zero
II.2.2 Phương trình sai phân:
Về mặt lý thuyết các phép toán bất biến theo thời gian, nhân quả, tuyến tính, rời rạc
theo thời gian có thể mô tả bằng phương trình sai phân bậc N
a y n m m b x n p
m
N
p p
Trong Phương trình (2.32) và (2.33) thành phần y n m( − ) và x n p( − ) cũng là hàm y n( ) và
x n( ) nhưng đã được dời đi hay làm trễ tương ứng Chẳng hạn, trên Hình 2.10 minh họa chuỗi
x n( ) và x n( − 3) là x n( ) nhưng dời đi ba mẫu
Sử dụng tính chất trễ và Phương trình (2.34), chúng ta có thể xây dựng cấu trúc tổng quát của
phép toán LTI Trên Hình 2.11, mỗi hộp là một phần tử trễ có độ lợi là một Các hệ số được
ghi trên chân của đồ thị Vòng tròn là phép tổng các phần tử
Trang 23GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 22
Hình 2.10 Dời chuỗi số.
Hình 2.11 Đồ thị của phép toán tuyến tính.
II.2.3 Biến đổi z của phép toán LTI:
Có phép biến đổi tuyến tính rất hiệu quả để phân tích tín hiệu rời rạc theo thời gian,
giống như phép biến đổi Laplace để phân tích tín hiệu liên tục theo thời gian Phép biến đổi
này là biến đổi z và được định nghĩa như sau:
∑∞
=
−
=0)()}
({L
n
n
z n x n
ở đó ký hiệu L{ } gọi là ‘biến đổi z của’ và z trong phương trình trên là số phức Một trong
những tính chất quan trọng của biến đổi z là mối liên hệ với chuỗi số trễ theo thời gian Để
chứng minh điều này, chúng ta hãy lấy biến đổi z của chuỗi x n( )
()}
({L
n
n
z n x z
X n
({L
n
n
z p n x p
n
Trang 24GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 23
Bởi vì p luôn luôn dương và x n( ) = 0 với mọi n < 0 , nên
({L
p n
n
z p n x p
({L
m
p m
z m x p
( )0
So sánh phép tổng trong phương trình cuối cùng này và Phương trình (2.35) là phép biến đổi
z của x n( ), chúng ta có
)()}
({L)}
({
Áp dụng tính chất này của biến đổi z vào phương trình tổng quát của phép toán tuyến tính bất
biến theo thời gian như sau:
)()
(L
q q p
p
p y n p z b x n q a
n
Bởi vì biến đổi z là phép biến đổi tuyến tính có tính phân phối và tính kết hợp nên chúng ta
viết lại phương trình trên như sau:
0 1
)}
({L)}
({L)}
({L
q
q p
p y n p b x n q a
Hình 2.12 là vẽ lại Hình 2.11 trong miền biến đổi z nhưng dựa trên Phương trình (2.44) Đồ
thị là như nhau nếu chúng ta coi hệ số nhân z−1 trong miền biến đổi z tương đương với trễ
một đơn vị thời gian trong miền thời gian
Trang 25GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 24
Hình 2.12 Đồ thị biến đổi z của phép toán LTI.
II.2.4 Hàm truyền trong miền tần số của phép toán LTI:
Lấy biến đổi Fourier hai vế của Phương trình (2.30), chúng ta có
∑∞
=
−
=0
)}
({F)()}
({F
m
m n x m h n
Dùng một trong những tính chất của phép biến đổi Fourier là
)}
({T)}
({
)
f X
f
Hình 2.13 là sơ đồ khối của Phương trình (2.51) theo miền thời gian và Hình 2.14 là sơ đồ
khối của Phương trình (2.51) theo miền tần số (biến đổi Fourier) Phép toán H f( ) gồm biên
độ và góc pha của hàm theo biến f (thường được gọi là tần số lấy mẫu 1
T )
Hình 2.13 Miền thời gian của phép toán LTI
Trang 26GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 25
II.2.5 Liên hệ giữa biến đổi z với đáp ứng tần số:
Nhắc lại cặp biến đổi Fourier
Để đơn giản khi ký hiệu, chúng ta chuẩn hóa chu kỳ lấy mẫu T = 1
Bây giờ hãy so sánh Phương trình (2.52) với biến đổi z của x n( )
Phương trình (2.52) và (2.54) là bằng nhau với chuỗi x n( ) là nhân quả (tức là x n( )= 0 với
mọi n < 0 ) nếu chúng ta đặt z như sau:
Hình 2.15 là quỹ tích các giá trị của z trong mặt phẳng phức theo Phương trình (2.55) Quỹ
tích này là vòng tròn có bán kính là một Như vậy, khi đánh giá biến đổi z của chuỗi nhân
quả x n( ) trên vòng tròn đơn vị của mặt phẳng phức sẽ tương đương với biểu diễn trong miền
tần số của x n( ) Đây là một trong những tính chất rất hiệu quả của phép biến đổi z khi phân
tích tín hiệu rời rạc
Hình 2.15 Vòng tròn đơn vị trên mặt phẳng phức.
Chúng ta cũng nhận thấy rằng đáp ứng xung của một phép toán nào đó chỉ đơn thuần là
chuỗi h m( ), và biến đổi Fourier của chuỗi này là đáp ứng tần số của phép toán đó Biến đổi
Trang 27GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 26
z của chuỗi h m( ) là H z( ) cũng được đánh giá trên vòng tròn đơn vị để tạo ra biểu diễn trên
miền tần số của chuỗi này Điều này được viết như sau:
II.2.6 Tóm tắt phép toán tuyến tính:
Ở Phần 2.2 này chúng ta đã biểu diễn các lớp phép toán được ứng dụng rộng rãi trong
xử lý tín hiệu rời rạc: tuyến tính, nhân quả, bất biến theo thời gian Các biểu diễn này được
tóm tắt sau đây:
1 Đáp ứng xung - h m( ) (Phần 2.2.1)
Các biểu diễn trên là công cụ hữu ích để nghiên cứu tín hiệu rời rạc theo thời gian Hiểu các
liên hệ này là một trong những chìa khóa để thiết kế hiệu quả các hệ DSP
II.3 LỌC SỐ:
Các phép toán tuyến tính vừa giới thiệu và phân tích ở phần trên có thể coi như là các
bộ lọc số Bộ lọc số cho phép các thành phần tần số này được truyền không đổi tới ngõ ra,
còn các thành phần tần số khác bị chặn lại Có hai lớp lọc phổ biến Nhắc lại phương trình
sai phân của phép toán tổng quát:
y n b x n q q a y n p
q
Q
p p
Chú ý rằng tổng vô hạn đã được thay bằng tổng hữu hạn Điều này là cần thiết để bộ
lọc có thể tổ chức được Lớp đầu tiên của bộ lọc số có a p = 0 với mọi p Tên chung của bộ
lọc loại này là đáp ứng xung hữu hạn - finite impulse response (FIR) bởi vì đáp ứng xung có
chiều dài là hữu hạn (không lớn hơn Q) Bộ lọc này còn có tên gọi lọc trung bình di chuyển -
moving average (MA) bởi vì ngõ ra đơn thuần là trung bình có trọng của những giá trị vào
(IIR) Lớp này bao gồm bộ lọc tự hồi quy - autoregressive (AR) và dạng tổng quát nhất, bộ
lọc ARMA Ở trường hợp AR, b q = 0 với mọi q∈[ 1 Q−1]
Trang 28GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 27
Với bộ lọc ARMA, phương trình tổng quát được áp dụng (Phương trình 2.57) Trong bộ lọc
IIR, đáp ứng của một xung ở ngõ vào có thể tạo ra vô hạn xung ở ngõ ra với tập hệ số cho
trước Độ ổn định là vấn đề đối với bộ lọc IIR bởi vì nếu chọn các hệ số không khéo, ngõ ra
sẽ tăng ra vô cực ứng với một vài giá trị của ngõ vào
II.3.1 Lọc FIR:
Nhắc lại dạng tổng quát của lọc FIR
nếu đáp ứng xung này có chiều dài hữu hạn
b q = ( )h q với q=0 1 2, , , Q−1Điều này có nghĩa là nếu ngõ vào là chuỗi đáp ứng xung, phép toán là đáp ứng xung
hữu hạn thì chúng ta xác định được ngay các hệ số của bộ lọc FIR Tuy nhiên, như đã đề cập
khi bắt đầu phần này, bộ lọc được xét theo quan điểm tần số Do đó, cách thông dụng nhất là
cho đáp ứng trong miền tần số và yêu cầu xác định các hệ số của bộ lọc
Có nhiều phương pháp xác định các hệ số của bộ lọc FIR khi cho đáp ứng trong miền tần số
Dưới đây là tóm tắt hai phương pháp phổ biến nhất để thiết kế bộ lọc FIR
1 Sử dụng DFT trên đáp ứng tần số lấy mẫu Phương pháp này đòi hỏi đáp ứng tần số
của bộ lọc được lấy mẫu với chu kỳ T là thời gian giữa hai mẫu trong hệ DSP Phép
biến đổi Fourier ngược - inverse discrete Fourier transform (IDFT) áp dụng cho đáp
ứng đã lấy mẫu này để tạo ra đáp ứng xung của bộ lọc Kết quả tốt nhất sẽ đạt được
nếu tác động một cửa sổ làm trơn lên đáp ứng tần số trước khi hình thành IDFT
2 Tối ưu xấp xỉ mini-max dùng kỹ thuật thảo chương tuyến tính McClellan và Parks đã
dùng thuật toán trao đổi Remez để tạo ra các hệ số FIR tối ưu nếu cho trước đáp ứng
tần số của bộ lọc Rabiner và Gold đã giới thiệu đầy đủ chương trình này
Chúng ta có thể nghiên cứu đáp ứng tần số của bộ lọc thông qua hàm truyền của phép toán
tuyến tính tổng quát:
p p p
1
11
Chú ý rằng phép tổng là hữu hạn để tổ chức được bộ lọc trong thực tế Đối với lọc FIR, các
hệ số a p = 0 nên phương trình trên trở thành:
Trang 29GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 28
H z Y z
X z b z q
q q
2
1 1
II.3.2 Lọc FIR có pha tuyến tính:
Nhiều ứng dụng trong viễn thông và xử lý ảnh quan tâm đến bộ lọc FIR có pha thay
đổi tuyến tính khi tần số thay đổi Điều này là quan trọng bởi vì hàm truyền pha liên quan
đến độ méo nhỏ nhất khi truyền tín hiệu qua bộ lọc Trong lọc FIR, các hệ số b q quan hệ với
nhau một cách đơn giản là có thể tạo ra được bộ lọc FIR có pha tuyến tính
Pha tuyến tính khi tần số thay đổi có nghĩa là
H f( ) | ( )|= H f e j f[ α β + ]
ở đó α và β là hằng số Nếu hàm truyền có thể tách thành hàm thực theo f nhân với thừa số
pha e j f[ α β + ] thì hàm truyền này sẽ có pha tuyến tính
Xét hàm truyền của bộ lọc FIR
H z( ) =b +b z− +b z− + + b z Q Q
1 2
2
1 1
Thay z e= j2πf vào phương trình trên để tạo ra đáp ứng tần số
2
1 2
thì số hạng bên trong dấu [ ] trở thành hàm cosine và chúng ta đạt được pha tuyến tính Đây
là đặc tính chung của các hệ số bộ lọc FIR
Trang 30GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 29
II.3.3 Đáp ứng của một bộ lọc FIR cụ thể:
Hình 2.16 Đáp ứng của bộ lọc thông thấp FIR (theo Paul M Embree và Bruce Kimble)
Xét đáp ứng của một bộ lọc FIR cụ thể với các hệ số rất đơn giản, lấy theo phương trình MA như sau:
y n( )=011 ∗x n( )+0 22 ∗x n( − +1) 0 34 ∗x n( −2) + 0 22 ∗x n( − +3) 011 ∗x n( −4)
Khi quan sát các hệ số của bộ lọc, chúng ta có thể nhận ra bộ lọc này là lọc thông thấp, bởi vì một giá trị hằng (thành phần một chiều) ở ngõ vào sẽ tạo ra một giá trị như vậy ở ngõ ra Ngoài ra, tất cả hệ số đều dương nên bộ lọc có khuynh hướng lấy trung bình các giá trị liền nhau
Hình 2.16 minh họa đáp ứng của bộ lọc FIR này Bộ lọc này thực sự là bộ lọc thông thấp và giá trị null ở băng dừng là đặc tính của bộ lọc rời rạc theo thời gian
II.3.4 Lọc IIR:
Nhắc lại phương trình tổng quát của lọc IIR là:
q
Q
p p
Biến đổi z của hàm truyền của bộ lọc IIR là
p p p
1
11Không có liên hệ đơn giản giữa các hệ số của lọc IIR và chuỗi đáp ứng xung như trường hợp lọc FIR Cũng vậy, tuyến tính pha cũng không đơn giản là các hệ số đối xứng nhau như lọc FIR Tuy nhiên, lọc IIR có đặc tính quan trọng hơn FIR là: tổng quát, với đáp ứng tần số đã cho, IIR cần ít hệ số hơn FIR Điều này có nghĩa là tính toán nhanh hơn hay tốn kém phần cứng ít hơn
Trang 31GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 30
II.3.5 Đáp ứng của một bộ lọc IIR cụ thể:
Hình 2.17 Đáp ứng của bộ lọc thông thấp IIR (theo Paul M Embree và Bruce Kimble)
Xét bộ lọc IIR đơn giản nhất, lấy theo phương trình AR như sau:
y n( )= x n( )+ y n( − 1)
Quan sát đáp ứng của bộ lọc này khi ngõ vào là các giá trị đơn giản, chúng ta nhận thấy rằng: ngõ vào là zero, ngõ ra là giá trị hằng; ngõ vào là giá trị dương, ngõ ra tăng tuyến tính theo thời gian; ngõ vào là giá trị âm, ngõ ra giảm tuyến tính theo thời gian Hình 2.17 là đáp ứng tần số của bộ lọc này
II.3.6 Đặc tả bộ lọc:
Như đã đề cập ở phần trước, biên độ và pha của bộ lọc thường được đặc tả trong miền tần số Hình 2.18 là đáp ứng biên độ của bộ lọc thông thấp Độ lợi của bộ lọc được chuẩn hóa xấp xỉ một ở tần số thấp Hình vẽ này minh họa một số thuật ngữ quan trọng liên quan đến đặc tả bộ lọc
Hình 2.18 Đáp ứng biên độ của bộ lọc thông thấp đã chuẩn hóa (theo Stearns)
Trang 32GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 31
Băng thông - passband - là miền cho phép tín hiệu ngõ vào truyền tới ngõ ra nhưng suy hao
rất ít hay không suy hao Trong bộ lọc thông thấp, băng thông bắt đầu từ tần số w= 0 đến
điểm bắt đầu của băng chuyển tiếp là w p trên Hình 2.18 Băng chuyển tiếp - transition band -
là miền mà tín hiệu ra bị suy hao cho tới khi dừng hẳn Băng chuyển tiếp kết thúc ở tần số
băng dừng w s Băng dừng là dải tần số mà tín hiệu bị suy hao với hệ số suy hao cho trước
Bộ lọc điển hình được đặc tả bằng các tham số sau đây:
1 Độ nhấp nhô băng thông - 2δ
2 Độ suy hao băng dừng - 1/ λ
3 Tần số bắt đầu chuyển tiếp và dừng chuyển tiếp - w p và w s
4 Độ rộng của băng chuyển tiếp - w s −w p
5 Tần số cắt - là tần số mà ở đó độ lợi bị suy hao so với độ lợi qui định của băng thông
Thường là suy hao từ -1 dB đến -3 dB
II.3.7 Cấu trúc bộ lọc:
Có nhiều cách để tổ chức bộ lọc khi cho phương trình của bộ lọc FIR hay IIR Mỗi cấu
trúc, về mặt toán học là tương đương, nhưng có thể tạo ra các kết quả khác nhau do độ chính
xác của con số trong máy tính hay phần cứng được dùng
Hình 2.19 là ba cấu trúc để tổ chức bộ lọc Đầu tiên là dạng tổ chức trực tiếp theo hàm
truyền (Hình 2.19a) Cấu trúc này sử dụng biến đổi z phương trình hàm truyền của bộ lọc, tổ
chức một phần tử trễ và nhân trực tiếp hệ số
Dạng trực tiếp của bộ lọc có thể chuyển thành dạng nối tiếp bằng cách tách hàm truyền
thành tích các hàm truyền (Hình 2.19b) Tương tự, có thể tách hàm truyền thành tổng các
hàm truyền, cách này tạo ra dạng song song của bộ lọc (Hình 2.19c)
Trang 33GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 32
II.4 BIẾN ĐỔI FOURIER RỜI RẠC (Discrete Fourier Transform):
Cho tới bây giờ, chúng ta đã vài lần sử dụng biến đổi Fourier khi đề cập đến đặc tính
của chuỗi số và phép toán tuyến tính Biến đổi Fourier của chuỗi số nhân quả như sau:
ở đó chu kỳ lấy mẫu đã chuẩn hóa là một ( T = 1) Nếu chuỗi số có độ dài giới hạn (để có thể
tổ chức được cho máy tính) thì
Bởi vì X f( ) là hàm tuần hoàn với chu kỳ 1/ T =1, nên tích phân trên có thể lấy trên chu kỳ
nào cũng được
Biểu diễn trên của biến đổi Fourier là chính xác nhưng có trở ngại chính trong xử lý
số - biến tần số là liên tục chứ không phải rời rạc Để khắc phục điều này, chúng ta phải
biểu diễn lại tín hiệu theo thời gian và tần số
Biến đổi Fourier rời rạc thuận DFT
II.4.2 Tính chất của DFT:
Phần này sẽ giới thiệu các tính chất quan trọng của DFT Sử dụng các tính chất này
chúng ta sẽ tổ chức hiệu quả khi tính toán DFT
Tính tuần hoàn Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì
Trang 34GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 33
Tính chất này cũng được suy ra từ định nghĩa ở Phương trình (2.69)
Tính dời theo thời gian Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì
x n p e j kn N x m e
n p
N
j k m p N m
II.4.3 Phổ công suất:
DFT thường được dùng làm công cụ để phân tích phổ của chuỗi số vào Biên độ của
một thành phần tần số cụ thể thường được quan tâm Có thể chia DFT thành biên độ và pha
hợp phức của nó
X k X k( ) ∗( ) | ( )|= X k 2= X + X2
real
2
Tuy nhiên, nảy sinh một vài vấn đề khi dùng DFT làm công cụ phân tích phổ Vấn đề nảy
sinh liên quan đến giả thiết là chúng ta đã tạo ra DFT của chuỗi số trong một chu kỳ của
dạng sóng có chu kỳ lặp lại Hình 2.20 minh họa điều này Trên hình vẽ thể hiện, mọi chuỗi
số đều bị gián đọan theo thời gian tại các biên của chu kỳ giả Điều gián đoạn này sẽ gây ra
thành phần tần số rất cao ở chuỗi số ra Những thành phần này có thể sẽ lớn hơn nhiều tần số
lấy mẫu, và bị dời vào giữa phổ
Trang 35GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 34
Hình 2.20 Tạo chu kỳ từ một đoạn
Kỹ thuật dùng để khắc phục khó khăn này là cửa sổ hóa Vấn đề phải khắc phục là
phần gián đoạn ở cạnh của mỗi chu kỳ của dạng sóng Bởi vì thuật toán DFT tổng quát
không biết được độ gián đoạn ở hai biên, nên kỹ thuật cửa sổ chỉ đơn thuần giảm bớt biên độ
của chuỗi số ở hai biên Điều này được làm từng bước và làm trơn sao cho không tạo ra
thành phần gián đoạn mới và kết quả là giảm bớt thành phần tần số bị dời đi Không có cải
tiến nào mà không trả giá Bởi vì áp dụng cửa sổ vào chuỗi số trước khi DFT, nên độ trung
thực của biểu diễn phổ bị suy giảm Kết quả là độ phân giải của các thành phần tần số bằng
nhau hơi bị suy giảm Cửa số tốt nhất đòi hỏi phải làm cho tín hiệu giả (bị dời đi) suy giảm
nhiều nhất đồng thời suy hao của độ phân giải phổ là nhỏ nhất
Có nhiều loại cửa sổ khác nhau nhưng đều có đặc tính chung là: giảm các phần tử gần
biên (gần n = 0 và n N= − 1) và bù bằng cách tăng giá trị các thành phần ở xa biên Các
cửa sổ thông dụng là cửa sổ Hamming, Hanning
II.4.4 Phổ trung bình:
Bởi vì tín hiệu luôn luôn có nhiễu, nhiễu gây ra do tính chất của thiết bị tạo tín hiệu
hay nhiễu bên ngoài tác động đến nguồn tín hiệu Nếu chỉ lấy DFT một lần thì thường biểu
diễn không trung thực phổ tín hiệu Để khắc phục điều này, chúng ta lấy DFT nhiều lần từ
nhiều nguồn tín hiệu giống nhau và lấy trung bình theo thời gian của phổ công suất Nếu mỗi
DFT được lấy trong mỗi NT giây thì
=
∑[(X real i ) (X ) ]
imag i i
Max
0
Rõ ràng, phổ tín hiệu không thể thay đổi nhiều trong khoảng từ t = 0 tới t = (Max NT)( )
II.4.5 Biến đổi Fourier nhanh:
Biến đổi Fourier nhanh - fast Fourier transform (FFT) là thuật toán rất hiệu quả để
tính DFT của một chuỗi số Ưu điểm là ở chỗ nhiều tính toán được lặp lại do tính tuần hoàn
của số hạng Fourier e− 2π /j kn N Dạng của DFT là
Trang 36GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 35
Chúng ta tách DFT thành hai phần
ở đó chỉ số dưới N của số hạng Fourier biểu diễn kích thước của chuỗi
Nếu chúng ta biểu diễn thành phần chẳn của chuỗi số x n( ) bằng xev và thành phần lẻ là xod
thì phương trình trên có thể viết lại
Chỉ số k phải chạy đến N − 1 nhưng do sử dụng tính chu kỳ của hàm chẳn và hàm lẻ, nên
chỉ cần tính DFT N / 2 điểm để có được các giá trị của X k( )
Đối với 2 điểm DFT này chỉ cần phép cộng và trừ mà không cần phép nhân Để tính toàn bộ
DFT, chúng ta nhân 2 điểm DFT với các thừa số W thích hợp từ W0 tới W N /2 1− Hình 2.21 là
đồ thị tính 8 điểm FFT Chúng ta có thể so sánh tính trực tiếp DFT với FFT như sau:
Khi tính trực tiếp DFT, mỗi giá trị của k cần N phép nhân phức và N-1 phép cộng phức
Đối với DFT, mỗi hàm có dạng
Trang 37GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 36
Điều này là do có N / 2 hàng bướm (bởi vì mỗi bướm có hai ngõ vào) và log2 N cột bướm
Bảng 2.1 là danh sách các phép cộng và nhân ứng với N khác nhau của DFT và FFT Chúng
ta nhận thấy rằng FFT nhanh hơn rất nhiều lần khi tính trực tiếp DFT
II.5 BIẾN ĐỔI FOURIER THỜI GIAN NGẮN STFT:
Phép biến đổi Fourier không thể áp dụng đối với tín hiệu không dừng, vì các thành phần tần số không ổn định Tuy nhiên nếu chúng ta chia tín hiệu không dừng thành những đoạn đủ nhỏ theo thời gian thì tín hiệu trong mỗi đoạn có thể xem là tín hiệu dừng và do đó có thể lấy biến đổi Fourier trên từng đoạn tín hiệu này Như vậy, phép biến đổi STFT vừa có tính định vị theo tần số do tính chất của biến đổi Fourier, vùa có tính định vị theo thời gian do được tính trong từng khoảng thời gian ngắn Đây là nguyên lý của STFT hay còn gọi là biến đổi Fourier cửa sổ hóa
II.5.1 Công thừc biến đổi:
trong STFT, tín hiệu f(t) đầu tiên được nhân với một hàm cửa sổ w(t-τ) để lấy được tín hiệu trong khoảng thời gian ngắn xung quanh thời điểm τ Sau đó phép biến đổi Fourier bình thường được tính trên đoạn tín hiệu này Kết quả ta được một hàm hai biến STFTf(ω,t) xác định bởi:
Để thấy rõ hơn về tính định vị theo tần số, ta áp dụng định lý parserval để viết lại (2.83) như sau:
(()
'[]
))
'([2
πωωω
ωπ
τ ω
ωτ τ
ω
e
Với W*(ω’-ω) và F(ω’) lần luợt là phổ của cửa sổ w(t-τ) và tín hiệu f(t)
Trong (2.84), W*(ω’-ω) có tác dụng như một bộ lọc dải thông tập trung quanh tần số ω và có băng thông bằng bang thông w(t) làm giới hạn phổ của tín hiệu F(ω’) xung quanh tần số đang phân tích ω Như vậy STFT có tính định vị theo tần số Tính định vị này càng tốt khi băng thông của cửa sổ phân tích càng hẹp
Ta thấy rằng, STFT chính là số đo độ giống nhau giữa tín hiệu phiên bản dịch và biến điệu của cửa sổ cơ bản vì (2.83) có thể viết lại như sau:
Trang 38GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 37
Với gω (t) = w(t-τ)ejωt là phiên bản địch và biến điệu của w(t)
Do việc dịch thời gian một khoảng τ làm cho cửa sổ tịnh tiến một khoảng τ theo trục thời gian và biến điệu cửa sổ với ejωt là cửa sổ tịnh tiến một khoảng ω theo trục tần số, nên kích thước của cửa sổ không thay đổi mà chỉ dời đến vị trí mới xung quanh (τ,ω) Như vậy mỗi hàm cửa sổ cơ sở sử dụng trong phép biến đổi này đều có một độ phân giải thời gian - tần số , chỉ khác vị trí trên mặt phẳng thời gian - tần số Do đó, có thể rời rạc hoá dễ dàng STFT trên một lưới chữ nhật (mωo , nτo )
Nếu hàm cửa sổ là một lọc hạ thông có tần số cắt ωb , hoặc băng thông 2ωb thì ωo
được chọn nhỏ hơn 2ωb và τo nhỏ hơn π/ωo để việc lấy mẫu không mất thông tin Các hàm cửa sổ tại tất cả các điểm lấy mẫu sẽ phủ kín mắt phẳng thời gian – tần số của phép biến đổi
Độ phân giải thời gian - tần số của STFT phụ thuộc vào hàm cửa sổ Để có độ phân giải thời gian tốt thì cửa sổ phân tích phải hẹp (về mặt thời gian) Trong khi đó, để đạt được độ phân giải tần số tốt thì băng thông của cửa sổ phải hẹp Tuy nhiên, theo nguyên lý bất định thì không thể tồn tại một cửa sổ với khoảng thời gian và băng thông hẹp tùy ý mà có một sự hoán đổi giữa hai thông số này (do tích của chúng bị chặn dưới) Nếu ta chọn cửa sổ có băng thông hẹp để được độ phân giải tần số tốt thí khoảng thời gian lại rộng làm cho độ phân giải thời gian kém đi và ngược lại Đây chính là nhược điểm của STFT
II.5.2 Một số hàm cửa sổ dùng trong STFT:
Trong xử lý tín hiệu, để giới hạn thời gian hoặc tần số (lọc) một tín hiệu, người ta thường dùng các hàm cửa sổ Trong STFT, hàm cửa sổ được dùng để giới hạn tín hiệu ở cả miền thời gian và miền tần số Một số cửa sổ thường hay được sử dụng được định nghĩa như sau:
+ Cửa sổ Boxcar (Rectangular)
01][
M n
M n n
w
Độ rông của cửa sổ là M+1 mẫu
+ Cửa sổ Bartlett (Triangular)
22
20
2]
[
M n
M n
M M
n
M n M
n
n w
+ Cửa sổ Hanning
0)/2cos(
5,05,0][
M n
M n M
n n
Trang 39GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 38
+ Cửa sổ Hamming
0)/2cos(
46,054,0][
M n
M n M
n n
−
=
],0[0
0)/4cos(
8,0)/2cos(
5,042,0][
M n
M n M
n M
n n
+ Cửa sổ Kaiser (Được định nghĩa từ hàm Bessel bậc 0)
],0[
00
)(
]/)[(
1[][
0
2 0
M n
M n I
n I
n w
Với α = M/2 là I0(β) là hàm cải biên của Bessel bậc 0, được định nghĩa là:
II.6 BIẾN ĐỔI WAVELETS - Wavelets Transform:
Phép biến đổi Wavelets là một bước cải tiến tiếp theo của STFT Như đã trình bày ở phần trước, STFT không thể hiện được tính linh hoạt khi định vị các thành phần trong tín hiệu
do kích thước của cửa sổ cố định Như vậy tính hiệu chỉ được phân tích ở một độ phân giải thời gian – tần số cố định Điều này có thể được cải thiện bằng biến đổi Wavelets, cửa sổ sử dụng để phân tích tín hiệu có thể được phóng to hay thu nhỏ một cách đơn giản bằng cách thay đổi hệ số co giãn (Scale Factor), đồng thời cửa sổ có thể được dịch chuyển thông qua hệ số dịch chuyển (Shift Factor) trong hàm cơ sở Wavelets
Khi phân tích tín hiệu hỗn hợp nhiều thành phần, một cách trực quan ta thấy rằng các thành phần tần số cao tồn tại trong một khoảng thời gian ngắn nên có thể phân tích bằng một cửa sổ hẹp để có độ phân giải thời gian tốt Trong khi đó các thành phần tần số thấp ổn định trong một thời gian dài nên có thể phân tích bằng của sổ rộng để đạt độ phân giải tần số tốt Điều này có nghĩa là∆ω hẹp ở tần số thấp và ∆t phải hẹp ở tần số cao hay tỷ số ∆ω/ω là hằng số với mọi tần số phân tích ω
II.6.1 Công thừc biến đổi Wavelet:
Để đạt được tỷ số ∆ω/ω là hằng số với mọi tần số phân tích ω, thay vì dịch và biến điệu cửa sổ, ta dịch và thay đổi thang độ của hàm cơ sở ψ(t) ∈ L2(R):
t
b ψ
ψ , ( ) 1 (2.86)
Trang 40GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 39
b a
ω
C
2)(
Với ψ(ω) là phổ của ψ(t) (2.88)
Trong thực tế tính toán, để thỏa điều kiện Admissibility chỉ cần ψ(0) = 0 do ψ(ω) luôn
suy giảm ở tần số cao ∫∞
∞
−
=Ψ
)
( dt t
tần số và suy giảm ở tần số cao nên hàm có tính chất như một mắt lọc hạ thông
Nếu hàm Morther Wavelet thỏa điều kiện Admissibility thì có thể khôi phục f(t) từ
CWTf(a,b) theo biểu thức sau:
a
dadb b a b a CWT C
(2.87) có thể được viết lại:
a
b t a
b a
Áp dụng định lý Parserval vào (2.87) ta được:
e F a
a dt t f F a
b t F a b
a
2)]
([2
1),
Với F(ω), ψ(ω) lần lượt là biến đổi Fourier của f(t) và ψ(t)
(2.87) là biểu thức tính CWT của tín hiệu f(t) ở miền thời gian, (2.91) là biểu thức tính CWT của tín hiệu f(t) ở miền tần số Hai biểu thức này cho thấy khi tính CWT tại một điểm (a,b) trong mặt phẳng thời gian – tần số, tín hiệu f(t) đã bị giới hạn thời gian trong khoảng ∆t xung quanh b và giới hạn tần số trong khoảng ∆ω xung quanh ωc (do a quy định) có kích thước (∆ω,∆t) của hàm Wavelet ψa,b(t)