Nhận dạng tiếng nói dùng mô hình markov ẩn

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 2 Hình 2: Sơ đồ khối của hệ thống nhận dạng tiếng nói Quá trình nhận dạng gồm các bước sau: - Số hoá tiếng nói cần nhận dạng với tốc

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN THANH PHƯƠNG

Trang 2

GVHD: TS Nguyễn Đức Thành, HVTH: Nguyễn Thanh Phương 1

GIỚI THIỆU

Đã từ lâu, con người luôn mơ ước đến một hệ thống điều khiển tự động “thông minh” mà có thể giao tiếp được với con người một cách thân thiện và gần gũi Một trong những phương tiện giao tiếp “thân thiện và gần gũi” nhất đối với con người là tiếng nói vì thông qua tiếng nói, người và máy có thể hiểu nhau Khi đó các máy tính sẽ không cần bàn phím, các hệ thống điều khiển không cần bảng điều khiển, các máy điện thoại không cần đến bàn phím để quay số, người ta có thể điều khiển hệ thống từ xa bằng cách gọi điện thoại như để nói chuyện với một người bạn Để thực hiện được điều này, người ta phải xây dựng được cho máy một hệ thống mà có thể hiểu được tiếng nói của con người, đó là hệ thống nhận dạng tiếng nói

Ngày nay, cùng với sự phát triển của điện tử và tin học, các máy tính với tóc độ tính toán rất cao, các Chip xử lý tốc độ cao ra đời là một thuận lợi rất lớn cho việc thực hiện các hệ thống nhận dạng tiếng nói Hiện nay trên thế giới đã có rất nhiều nghiên cứu và thử nghiệm về hệ thống nhận dạng tiếng nói và cũng đã đạt được một số kết quả khả quan như : Via Voice Millennium (IBM), Via Voice Standard (IBM), Naturally Speaking 5.0 (Dragon), CSLU (Center of Spoken Language Understanding), những hệ thống này được xây dựng để nhận dạng tiếng Anh Ngoài ra còn một số hệ thống nhận dạng của các ngôn ngữ khác như : tiếng Trung Quốc, Tây ban nha, Ý, Đức, cũng đã được thực hiện Tuy nhiên, đối với tiếng Việt thì chưa có một hệ thống nhận dạng nào hoàn chỉnh

Mục đích của luận án này là xây dựng một hệ thống nhận dạng tiếng nói tiếng Việt dùng mô hình chuỗi Markov ẩn (Hidden Markov Models) HMM

Hệ thống nhận dạng tiếng nói tổng quát gồm 2 giai đoạn: Giai đoạn huấn luyện và giai đoạn nhận dạng, được minh họa như hình vẽ 1

Giai đoạn huấn luyện: Huấn luyện cho hệ thống những mẫu chuẩn tương ứng với

những âm giọng khác nhau

Giai đoạn nhận dạng : Hệ thống nhận dạng những mẫu tiếng nói ngẫu nhiên dựa vào

mô hình mẫu

Hình 1: Sơ đồ tổng quát của hệ thống nhận dạng tiếng nói Để thực hiện được mục tiêu như trên thì tôi đề nghị sơ đồ khối của quá trình nhận dạng như sau:

Giai đoạn huấn luyện

Mô hình tiếng nói

Giai đoạn nhận dạng

tiếng nói mẫu

tiếng nói cần nhận dạng Xuất ra từ tương ứng

Trang 3

Hình 2: Sơ đồ khối của hệ thống nhận dạng tiếng nói Quá trình nhận dạng gồm các bước sau:

- Số hoá tiếng nói cần nhận dạng với tốc độ lấy mẫu thích hợp (Dùng Sound Card)

- Tín hiệu tiếng nói sau khi rời rạc hóa được đưa vào khối tiền xử lý để thực hiện việc lọc nhiễu, chia tín hiệu tiếng nói thành từng Frame dùng cửa sổ Hamming, preemphasis, tách tín hiệu tiếng nói của từng từ và

- Khối LPC Ceptral và lượng tử hóa vector để tính ma trận quan sát O

- Khối tính xác suất thực hiện việc tính xác suất của quan sát O với mô hình λ

1

*

υ ν

<

- Mô hình chuỗi Markov ẩn được dùng là mô hình Bakis 4 trạng thái với bước nhảy là 2

Số hoá

tiếng

nói

Chọn giá trị lớn nhất

LPC Ceptral, lượng tử hoá vector

HMM của từ mẫu

Tính toán xác suất

Tín hiệu tiếng nói đã được rời rạc hóa

Tiền xử lý tín hiệu tiếng nói

Tín hiệu tiếng nói đã được xử lý

Chuỗi quan sát

ν*

Trang 4

CHƯƠNG I

TIẾNG NÓI TỰ NHIÊN

Nội dung của chương này trình bày tóm tắt lịch sử nhận dạng tiếng nói, trình bày cơ chế tạo lập và nhận thức tiếng nói của con người để làm cơ sở cho việc trích đặc trưng tiếng nói Ngoài ra chúng ta cũng phân loại các âm thanh khác nhau như âm hữu thanh, âm vô thanh, nguyên âm, phụ âm Hiểu biết rõ ngữ âm tiếng Việt là điều thuận lợi giúp cho quá trình nhận dạng Từ đó đưa ra sơ đồ tổng quát của hệ thống nhận dạng tiếng nói

I.1 TÓM TẮT LỊCH SỬ NHẬN DẠNG TIẾNG NÓI:

Nhận dạng tiếng nói đã được nghiên cứu suốt hơn bốn mươi năm qua Nỗ lực đầu tiên sáng chế ra những máy có khả năng tự động nhận dạng tiếng nói được thực hiện từ những năm 1950, khi các nhà nghiên cứu cố gắng trích ra các dấu hiệu cơ bản của ngữ âm học Vào năm 1952, ở Bell Laboratories, Davis, Biddulph, và Balashek đã xây dựng nên hệ nhận dạng chữ số rời cho một người nói Hệ này chủ yếu dựa vào việc đo phổ cộng hưởng trong miền nguyên âm của mỗi số Một nỗ lực độc lập khác ở RCA Laboratories, Olson và Belar cố gắng nhận dạng 10 âm tiết có mặt trong 10 từ đơn âm Hệ này cũng dựa vào việc đo phổ (do dãy bộ lọc tương tự tạo ra) trong miền nguyên âm Vào năm 1959, tại University College nước Anh, Fry và Denes cố gắng xây dựng một hệ nhận dạng có thể nhận dạng được bốn nguyên âm và chín phụ âm Họ đã dùng bộ phân tích phổ và đối sánh mẫu để quyết định nhận dạng Khía cạnh mới của nghiên cứu này là sử dụng thông tin thống kê về các chuỗi âm

vị hợp lệ trong tiếng Anh (dạng sơ bộ của cú pháp ngôn ngữ) để cải thiện độ chính xác toàn bộ âm vị của những từ gồm hai hay nhiều âm tiết Một cố gắng nữa trong thời kỳ này là hệ nhận dạng nguyên âm của Forgie và Forgie ở MIT Lincoln Laboratories vào năm 1959, dùng để nhận dạng độc lập người nói 10 nguyên âm có mặt trong những từ dạng /b/ - nguyên âm - /t/ Một lần nữa, dãy bộ lọc được dùng để tạo ra thông tin phổ và ước lượng biến thiên theo thời gian của bộ phận phát âm để xác định nguyên âm nào đã nói

Những năm 1960, nổi lên một vài ý tưởng cơ bản cho nhận dạng tiếng nói Thập niên này bắt đầu với sự tham gia của các phòng thí nghiệm Nhật Bản vào lãnh vực nhận dạng và họ đã cài đặt những phần cứng chuyên dụng vào hệ nhận dạng của họ Hệ sớm nhất ở Nhật Bản được mô tả theo Suzuki và Nakata của Radio Research Lab là hệ nhận dạng nguyên âm bằng phần cứng Dãy bộ lọc phân tích phổ công phu cùng với ngõ ra có trọng số của mỗi kênh được đưa tới mạch quyết định nguyên âm, và một mạch logic làm nhiệm vụ chọn nguyên âm nào đã nói Một cố gắng khác về phần cứng của Nhật Bản là thông báo của Sakai và Doshita ở Kyoto University vào năm 1962 là xây dựng hệ nhận dạng âm vị, sử dụng bộ phân đoạn tiếng nói bằng phần cứng cùng với việc phân tích chéo zero của những miền khác nhau của âm vị đã nói ở ngõ vào để nhận dạng âm vị ở ngõ ra Nỗ lực thứ ba của Nhật Bản là hệ nhận dạng chữ số cũng bằng phần cứng của Nagata và các cộng sự ở NEC Laboratories vào năm 1963 Cố gắng ban đầu trong lãnh vực nhận dạng tiếng nói của NEC đã dẫn tới chương trình nghiên cứu sâu rộng sau này của họ

Những năm 1960, là thời điểm bắt đầu của ba dự án lớn kéo dài suốt hơn hai mươi năm nghiên cứu và phát triển nhận dạng tiếng nói Dự án đầu tiên là nỗ lực của Martin và các cộng sự ở RCA Laboratories bắt đầu cuối những năm 1960 để giải quyết vấn đề thời gian

Trang 5

chuẩn hóa thời gian, dựa vào mức độ phát hiện chính xác điểm bắt đầu và kết thúc tiếng nói, kết quả là giảm đáng kể sự biến dạng khi so sánh tiếng nói Cuối cùng Martin đã phát triển các phương pháp này và sáng lập công ty Threshold Technology, một trong những công ty đầu tiên đã đưa sản phẩm nhận dạng tiếng nói ra thị trường Cùng thời gian này ở Liên Xô, Vintsyuk đã sử dụng lập trình động để nắn thời gian của hai từ Mặc dầu bản chất của lập trình động cũng như các thuật toán nhận dạng từ nối đã được Vintsyuk công bố, nhưng phần lớn chưa được biết đến ở phương Tây cho mãi đến đầu những năm 1980 Trong khoảng thời gian dài này các phương pháp hình thức hơn cũng được các nhà khoa học khác công bố Thành tựu cuối cùng của những năm 1960 là nghiên cứu tiên phong của Reddy về nhận dạng tiếng nói liên tục bằng chuỗi âm vị động Những nghiên cứu của Reddy cuối cùng đã nảy sinh chương trình nghiên cứu toàn diện ở Carnegie Mellon University (CMU) (Reddy đã đến đây vào cuối những năm 1960), và cho đến ngày nay vẫn là người dẫn đầu trên thế giới về các hệ nhận dạng tiếng nói liên tục

Những năm 1970, các nghiên cứu về nhận dạng tiếng nói đã đạt được những tiến bộ vượt bậc Đầu tiên là lãnh vực nhận dạng từ rời, các kỹ thuật cơ bản đã được nghiên cứu bởi Velichko và Zagoruyko ở Nga, Sakoe và Chiba ở Nhật Bản, Itakura ở Mỹ Nghiên cứu của Nga giúp nâng cao thuật toán nhận dạng mẫu, của Nhật Bản là lập trình động, của Itakura là mã hóa dự báo tuyến tính và độ đo dựa trên phổ dự báo tuyến tính để nhận dạng tiếng nói Tiến bộ vượt bậc nữa của những năm 1970, là khởi đầu chương trình nghiên cứu rộng lớn của IBM trong lãnh vực nhận dạng bộ từ vựng lớn kéo dài suốt hơn hai mươi năm với ba nhiệm vụ phân biệt là ngôn ngữ New Raleigh cho các câu hỏi cơ sở dữ liệu đơn giản, ngôn ngữ văn bản sáng chế laser để ghi nhận những sáng chế laser, và hệ văn phòng Tangora để đọc chính tả những ghi nhớ đơn giản

Sau cùng, các nhà nghiên cứu ở AT&T Bell Labs đã công bố hàng loạt những kinh nghiệm phong phú trong các hệ nhận dạng tiếng nói độc lập với người nói Các thuật toán phân nhóm tinh vi đã được sử dụng để xác định số lượng các mẫu phân biệt cần thiết cho việc biểu diễn tất cả những biến thiên của các từ khác nhau thông qua một số lượng lớn người nói khác nhau Nghiên cứu này đã được cải tiến liên tục suốt hơn một thập niên sao cho việc nhận dạng độc lập với người nói ngày càng tốt hơn

Trong lúc nhận dạng từ rời được tập trung nghiên cứu trong những năm 1970, thì những năm 1980 lại tập trung nghiên cứu nhận dạng từ nối Mục tiêu ở đây là tạo ra những hệ thống mạnh có khả năng nhận dạng lời nói trôi chảy căn cứ trên việc đối sánh mẫu tập trung của các từ riêng biệt Hàng loạt các thuật toán nhận dạng từ nối đã được tổ chức, bao gồm lập trình động hai mức của Sakoe ở Nippon Electric Corporation (NEC), thuật toán một lần duyệt của Bridle và Brown ở Joint Speech Research Unit (JSRU) nước Anh, thuật toán tạo mức của Myers và Rabiner ở Bell Labs, và thuật toán tạo mức đồng bộ frame (giống thuật toán một lần duyệt) của Lee và Rabiner ở Bell Labs Mỗi thuật toán đối sánh này đều có các ưu điểm riêng và đã được áp dụng rộng rãi

Nghiên cứu về tiếng nói những năm 1980 đã bước sang một thời kỳ mới, phương pháp đối sánh mẫu được thay thế bằng mô hình thống kê - đặc biệt là mô hình Markov ẩn Mặc dù phương pháp luận về mô hình Markov đã được biết khá sớm, đầu tiên là IBM, Institute for Defense Analyses, và Dragon Systems, nhưng nó không được công bố rộng rãi cho mãi đến

Trang 6

nghiên cứu nhận dạng tiếng nói trên thế giới

Một kỹ thuật ‘mới’ nữa đã được giới thiệu lại vào cuối những năm 1980 dựa trên ý tưởng áp dụng mạng neural trong lãnh vực nhận dạng tiếng nói Mạng neural đã được giới thiệu đầu tiên vào những năm 1950 nhưng lúc đó có quá nhiều vấn đề thực tế Tuy nhiên vào những năm gần đây, người ta đã hiểu sâu hơn về sức mạnh và giới hạn của mạng neural cũng như các kỹ thuật phân lớp tín hiệu Một vài hệ đi theo hướng này đã được công bố như CSLU, Natural Speech 5.0, Via Voice

Cuối cùng, những năm 1980 là thập niên của hệ nhận dạng từ liên tục có bộ từ vựng lớn Defense Advanced Research Projects Agency (DARPA) - Mỹ (tạm dịch là Ủy ban Các dự án nghiên cứu phòng thủ cao cấp) đã đỡ đầu chương trình nghiên cứu rộng lớn tập trung vào hệ nhận dạng từ có độ chính xác cao khoảng 1000 từ, nhận dạng từ liên tục dùng cho quản trị cơ sở dữ liệu Các nỗ lực từ nhiều bên như CMU (với hệ SPHINX nổi tiếng), BBN với hệ BYBLOS, Lincoln Labs, SRI, MIT, và AT&T Bell Labs Chương trình DARPA tiếp tục bước sang những năm 1990, với xử lý ngôn ngữ tự nhiên được hợp nhất vào hệ nhận dạng Cùng thời gian này, các kỹ thuật nhận dạng đã tiến bộ không ngừng, và được ứng dụng trong lãnh vực mạng điện thoại để tự động hóa cũng như nâng cao các thao tác dịch vụ Có thể kể ra đây các hệ nhận dạng tiếng nói ngày nay như Naturally Speaking Deluxe của Dragon Systems, Via Voice của IBM, Kurzweil VoicePro của Lernout & Hauspie

I.2 NHỮNG VẤN ĐỀ CƠ BẢN CỦA TIẾNG NÓI :

I.2.1 Tiếng nói ( Speech Sounds):

Ở mức độ ngôn ngữ học, tiếng nói có thể được xem là một chuỗi các âm thanh cơ bản gọi là âm vị (Phoneme) Như vậy, âm vị là đơn vị cơ bản để tạo ra âm thanh nhưng đô khi chúng ta không nhận được những âm vị đó từ tín hiệu tiếng nói Cùng một âm vị có thể biểu diễn nhiều tiếng nói khác nhau Hơn nữa, các người nói khác nhau phát âm cùng một chuỗi tiếng nói thì sẽ chuyển đi cùng một lượng thông tin như nhau, nhưng âm thanh lại không giống nhau hoàn toàn Nguyên nhân chính là khác nhau về hình dạng của bộ máy phát âm của mỗi người và do sự ảnh hưởng của thổ ngữ (Dialect)

Âm thanh phát ra được điều khiển bởi các cơ quan phát âm (Speech Articulatorys), các âm vị tương ứng trực tiếp với vị trí cũng như sự dịch chuyển của các khớp (Articulatory) trong bộ máy phát âm còn gọi là động tác khi phát âm (Articulatory gestures) Động tác phát âm có thể là tĩnh hoặc động tuỳ thuộc vào sự chuyển động hoặc không chuyển động của các khớp khi phát âm

Tiếng nói có các đặc trưng (Các thuộc tính vật lý của nó) như sau:

- Độ dài:

Trang 7

khí

- Âm sắc:

Là sắc thái riêng của một âm do các cá thể khác nhau tạo ra Âm sắc là nguyên nhân gây ra sự khác biệt giữa giọng nói của người này với người khác

- Tiếng ồn và tiếng thanh;

Tiếng ồn là do sự chuyển động không nhịp nhàng (không có chu kỳ ổn định) của các phần tử không khí gây ra, còn tiếng thanh là do sự chuyển động nhịp nhàng (có chu kỳ ổn định) của các phần tử không khí gây ra

giống như âm khi chúng ta nói ‘a’ hay ‘e’, được tạo ra khi dây thanh âm căng lên và rung khi áp suất không khí tăng lên, làm cho thanh môn mở ra rồi đóng lại khi luồng không khí đi qua Những dây thanh âm rung tạo ra dạng sóng của luồng không khí có dạng xấp xỉ tam giác như minh họa trên Hình 1.2, có chu kỳ hay tựa chu kỳ với phổ tần số có nhiều hài với tốc độ suy giảm xấp xỉ 12dB/octave Bộ phận phát âm hoạt động giống như hốc cộng hưởng, khuếch đại những thành phần hài này và suy giảm những thành phần hài khác để tạo

ra âm hữu thanh Mức độ rung của dây thanh âm tùy thuộc vào áp suất không khí ở phổi và sức căng của dây thanh âm Người nói có thể điều khiển hai yếu tố trên để thay đổi chu kỳ bước sóng (pitch) âm thanh Chu kỳ bước sóng âm thanh của đàn ông trưởng thành thường từ 50Hz đến 250Hz, giá trị trung bình chừng 120Hz Đối với phụ nữ trưởng thành, giới hạn trên cao hơn nhiều, có thể lên đến 500Hz

Trong ngôn ngữ các nguyên âm về bản chất âm học là những âm hữu thanh

được tạo ra khi dây thanh âm không rung Có hai loại âm vô thanh cơ bản - âm xát và âm hơi Đối với âm xát, ví dụ như khi nói ‘s’ , một số điểm trên bộ phận phát âm bị co lại khi luồng không khí ngang qua nó, hỗn loạn xảy ra tạo nên nhiễu ngẫu nhiên Bởi vì những điểm

co thường ở phía trước miệng, cộng hưởng của bộ phận phát âm có ảnh hưởng nhỏ đến đặc tính của âm xát Đối với âm bật hơi, giống như khi chúng ta nói ‘h’ trong ‘hùng’, hỗn loạn xảy ra ở gần thanh môn khi dây thanh âm bị giữ nhẹ một phần Trường hợp này, cộng hưởng của bộ phận phát âm sẽ biến điệu phổ của nhiễu ngẫu nhiên Hiệu ứng này có thể nghe rõ khi nói thì thầm Cấu tạo cơ bản của phụ âm trong mọi ngôn ngữ là âm vô thanh

Trang 8

nguyên âm, vừa mang tính chất phụ âm, được gọi là bán nguyên âm hay bán phụ âm Ví dụ âm ‘i’ và ‘u’ trong tiếng Việt trong những từ như ‘ai’, ‘âu’

ví dụ như âm ‘p’, ‘t’, ‘k’ hay ‘đ’, ‘b’, ‘g’ trong tiếng Việt được tạo ra do loại kích thích khác Đối với lớp âm thanh này, bộ phận phát âm đóng lại ở một vài điểm, áp suất không khí tăng lên và thình lình giảm xuống Áp suất thình lình giảm xuống tạo ra kích thích ngắn của bộ phận phát âm Lúc này dây thanh âm có thể rung để tạo ra âm hữu thanh nổ (‘đ’, ‘b’, ‘g’) hay không rung để tạo ra âm vô thanh nổ (‘p’, ‘t’, ‘k’) Ngoài ra còn có loại phụ âm thứ ba có tỷ lệ âm hữu thanh lớn hơn gọi là âm vang như ‘m’, ‘n’, ‘ng’, ‘l’

I.2.2 Bộ máy phát âm của con người:

Hình 1.1 minh họa cơ quan phát âm của người Chủ yếu gồm phổi, khí quản, thanh quản, bộ phận mũi và miệng Thanh quản có hai nếp gấp gọi là dây thanh âm, dây thanh âm sẽ rung khi luồng không khí đi qua khe thanh môn là khe giữa hai dây thanh âm Bộ phận miệng là một ống âm học không đều, dài xấp xỉ 17cm đối với đàn ông trưởng thành tính từ môi đến dây thanh âm hay thanh quản Tiết diện cắt ngang của bộ phận miệng thay đổi từ zero đến 20cm2 do phần cơ của bộ phận cấu âm - articulator (môi, lưỡi, hàm và vòm miệng mềm) điều khiển Bộ phận mũi cũng là một ống âm học không đều có diện tích và chiều dài cố định (dài chừng 12cm đối với đàn ông trưởng thành), bắt đầu từ lỗ mũi đến vòm miệng mềm Vòm miệng mềm làm nhiệm vụ liên kết âm thanh giữa bộ phận mũi và miệng Quá trình tạo ra âm phi mũi như sau: vòm miệng mềm ngăn chặn bộ phận mũi và âm thanh phát

ra thông qua môi Đối với quá trình tạo ra âm mũi, vòm miệng mềm hạ thấp xuống và bộ phận mũi liên kết với bộ phận miệng, lúc này phía trước của bộ phận miệng khép lại hoàn toàn và âm thanh phát ra thông qua mũi Đối với âm thanh nói giọng mũi, âm thanh phát ra cả mũi và môi

Trang 9

lồng xương sườn co lại, không khí bị đẩy ra và đi dọc theo khí quản, xuyên qua thanh môn Luồng không khí này là nguồn năng lượng tạo ra tiếng nói Có thể điều khiển luồng không khí theo nhiều cách khác nhau để tạo ra các âm thanh khác nhau

I.2.3 Mô hình lọc nguồn tạo tiếng nói:

Hình 1.3 minh họa mô hình rất đơn giản của bộ phận phát ra nguyên âm ‘eh’ hay

nguyên âm trung tính là một ống đều có chiều dài L, một đầu là nguồn âm thanh (dây thanh âm) và đầu kia được mở ra (môi) Ống này cộng hưởng ở các tần số lẻ f0, 3f0, 5f0, , ở đó

f0 = /c 4L với c là vận tốc âm thanh trong không khí Bộ phận phát âm điển hình có chiều

dài L= 17cm , c= 300 /m s, cộng hưởng ở các tần số 500Hz, 1500Hz, 2500Hz, , những đỉnh cộng hưởng này được gọi là các formant Dĩ nhiên, bộ phận phát âm có thể có nhiều dạng khác nhau và tạo ra những đỉnh cộng hưởng khác nhau hay các giá trị formant khác nhau nên âm thanh phát ra khác nhau Trong tiếng nói, các tần số formant luôn luôn thay đổi từ âm này sang âm khác

Hình 1.3 Mô hình ống đều của bộ phận phát âm

Những trình bày ở trên dẫn đến ý tưởng cho rằng có thể xem quá trình tạo ra tiếng nói là bộ lọc nguồn, trong đó tín hiệu từ nguồn âm thanh (cũng có thể là có chu kỳ hay nhiễu) được lọc bằng bộ lọc biến thiên theo thời gian có tính chất cộng hưởng tương tự với bộ phận phát âm Như vậy có thể thu được phổ tần số của tín hiệu tiếng nói bằng cách nhân phổ của nguồn âm thanh với đặc tính tần số của bộ lọc Hình 1.4 minh họa tiếng nói hữu thanh và vô thanh Các độ lợi AV và AN xác định cường độ của nguồn tạo âm hữu thanh và vô thanh

Hình 1.4 Tạo tiếng nói theo mô hình lọc nguồn

Trang 10

Mặc dầu bộ phận phát âm có một số hữu hạn các đỉnh cộng hưởng hay formant nhưng chỉ cần khảo sát ba hay bốn đỉnh cộng hưởng đầu tiên phủ trên băng tần từ 100Hz đến 3.5kHz, bởi vì biên độ của các formant cao hơn của tiếng nói hữu thanh bị suy giảm hầu như hoàn toàn với độ suy giảm -12dB/octave Trường hợp tiếng nói vô thanh, phổ tương đối rộng và bằng phẳng, số lượng các formant như vậy vẫn đủ mặc dầu mô hình đúng cho tiếng nói vô thanh thường phải mở rộng băng tần lên đến 7-8kHz Một điểm đáng lưu ý là bộ lọc của mô hình lọc nguồn trên Hình 1.4 không những đặc tả tính chất phát xạ của bộ phận phát âm mà còn nêu ra ảnh hưởng bức xạ của miệng Ảnh hưởng tổng trở bức xạ có thể mô hình hóa bằng đặc tính của bộ lọc thông cao bậc nhất có độ tăng lên chừng 6dB/octave trong băng tần từ 0-3kHz

Mô hình lọc nguồn cho quá trình tạo tiếng nói khá đơn giản Như đã đề cập ở trên, không thể lọc được âm xát bằng các đỉnh cộng hưởng của bộ phận phát âm như âm hữu thanh hay âm bật hơi, vì vậy mô hình lọc nguồn không hoàn toàn chính xác cho âm xát Ngoài ra, mô hình lọc nguồn còn giả thiết nguồn phát âm bị tách tuyến tính ra khỏi bộ lọc và

do đó không có sự tương tác nào giữa chúng Điều giả thiết này không hoàn toàn đúng bởi vì độ rung của dây thanh âm là do áp suất âm thanh bên trong của bộ phận phát âm, liên kết với bộ phận phát âm và phổi trong suốt chu kỳ thanh quản mở, vì vậy cần phải biến đổi đặc tính của bộ lọc ở mỗi chu kỳ kích âm Tuy nhiên những điều thứ yếu này thường được bỏ qua và mô hình lọc nguồn là chấp nhận được

I.2.4 Ngữ âm học:

Về mặt ngôn ngữ học, có thể xem tiếng nói là một chuỗi các âm cơ bản được gọi là âm

vị Điều quan trọng cần nhận thức rõ âm vị là đơn vị ngôn ngữ trừu tượng và không thể quan sát trực tiếp trong tín hiệu tiếng nói Nhiều âm vị kết hợp với nhau theo một cách nào đó để tạo ra các âm thanh khác nhau Những người nói khác nhau có thể phát ra cùng một chuỗi âm vị chứa đựng thông tin như nhau, còn giọng nói khác nhau là do phương ngữ , hình dáng, độ dài của bộ phận phát âm

Để mô tả nguyên âm người ta tìm cách xác định hốc cộng hưởng khoang miệng và hốc

cộng hưởng khoang yết hầu - nguồn gốc của các formant nói trên

Khoang miệng và khoang yết hầu tách biệt nhau do sự nâng cao của lưỡi Chính vì vậy sự thay đổi của khoang này đều kéo theo sự thay đổi của khoang kia Mỗi lần môi, lưỡi thay đổi tư thế là một lần chúng ta có một hốc cộng hưởng miệng và một hốc cộng hưởng yết hầu khác nhau Việc xác định thể tích, hình dáng, lối thoát không khí của những hốc cộng hưởng này, tức khả năng dao động riêng hay khả năng cộng hưởng của chúng chính là mô tả độ mở của miệng, vị trí của lưỡi và hình dáng của môi

Độ mở của miệng hay độ nâng của lưỡi cho biết thể tích của hốc cộng hưởng Căn cứ vào độ mở (hay độ nâng) khác nhau mà chúng ta có các nguyên âm khác nhau: nguyên âm rộng (hay cao) như ‘a’, ‘e’, nguyên âm hẹp (hay thấp) như ‘i’, ‘u’

Vị trí của lưỡi nhích ra phía trước hay lui về phía sau cho biết hình dáng của hốc cộng hưởng như thế nào Tùy theo phần trước lưỡi được đưa lên - tức đưa ra phía trước - hay phần sau lưỡi được nâng cao - tức lui về phía sau - mà chúng ta có các nguyên âm khác nhau: nguyên âm trước như ‘i’, ‘ê’, ‘e’, nguyên âm sau như ‘u’, ‘ô’, ‘o’, nguyên âm giữa như từ

‘bird’ trong tiếng Anh

Trang 11

miệng Hai môi có thể chúm tròn và nhô ra phía trước cho chúng ta những nguyên âm với âm sắc trầm hơn bình thường, đó là những nguyên âm như ‘u’, ‘ô’, ‘o’ Trái lại, nếu hai môi ở tư thế bình thường hay dẹt ra khi phát âm, chúng ta có những nguyên âm không tròn hay dẹt như ‘a’, ‘i’, ‘e’

Trong việc mô tả phụ âm một loạt đặc trưng ngữ âm khác lại được nêu lên Đặc điểm

cơ bản của phụ âm là sự cấu tạo bằng luồng không khí bị cản trở , song sự cản trở ấy diễn ra với những mức độ khác nhau, đúng hơn là những cách khác nhau và ở những bộ phận khác nhau của bộ phận phát âm

Về phương pháp cấu âm, người ta phân biệt phụ âm tắc (như ‘p’, ‘t’, ‘đ’, ‘b’) với phụ âm xát (như ‘v’, ‘s’, ‘g’ trong tiếng Việt) Đặc trưng của loại phụ âm thứ nhất là một tiếng nổ, phát sinh do luồng không khí từ phổi đi ra bị cản trở hoàn toàn, phải phá vỡ sự cản trở ấy để thoát ra ngoài Trái lại, đặc trưng của loại phụ âm thứ hai là tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn) phải lách qua một khe hở nhỏ và trong khi thoát ra cọ xát vào thành của bộ phận phát âm

Người ta còn chia phụ âm tắc ra làm hai loại là phụ âm bật hơi và phụ âm mũi Cấu âm của các phụ âm bật hơi như ‘th’ trong tiếng Việt, không khí không những phá vỡ sự cản trở gây nên một tiếng nổ nhẹ mà đồng thời khi thoát ra cũng gây ra một tiếng cọ xát ở khe hở của hai mép dây thanh âm Phụ âm mũi trong tiếng Việt như ‘m’, ‘n’, ‘ng’, ‘nh’ có sắc thái mũi, phát sinh do luồng không khí từ phổi đi lên qua mũi mà thoát ra chứ không qua đường miệng, và ở đây âm do dây thanh âm tạo ra nhận được sự cộng hưởng ở khoang mũi Trong cấu tạo của phụ âm mũi, lối thoát của không khí bị đóng hoàn toàn ở đằng miệng nên được coi là phụ âm tắc, nhưng không khí lại thoát ra hoàn toàn tự do ở đằng mũi Chính do chỗ phụ âm mũi được cấu tạo do sự rung động của dây thanh âm và không khí ra ngoài không bị cản trở - nghĩa là chúng có những đặc điểm cơ bản của việc cấu tạo nguyên âm - nên phụ âm mũi còn được gọi là phụ âm vang

Đối với các phụ âm xát cần chú ý đến một số phụ âm kiểu như ‘l’ trong tiếng Việt Trong cấu âm của phụ âm này, đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí từ phổi lên buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má để thoát ra ngoài gây

ra một tiếng xát nhẹ Cách cấu âm này khiến cho người ta gọi những phụ âm kiểu ‘l’ như vậy là phụ âm bên

Việc mô tả phụ âm còn một điều quan trọng nữa là xác định vị trí cấu âm của chúng Hai âm ‘b’ và ‘đ’ trong tiếng Việt đều được cấu tạo theo phương pháp tắc nhưng phân biệt nhau ở chỗ một đằng sự cản trở không khí xảy ra giữa hai môi, một đằng do sự tiếp xúc của đầu lưỡi và lợi

Trong tiếng Việt, chữ viết có các dấu ‘huyền, sắc, hỏi, ngã, nặng’ được gọi là thanh điệu Thanh điệu là sự nâng cao hay hạ thấp ‘giọng nói’ trong một âm tiết Âm tiết là đơn vị phát âm nhỏ nhất, trong tiếng Việt âm tiết là một từ Ví dụ phát âm câu thơ sau đây của Nguyễn Du ‘Rằng tài nên trọng, mà tình nên thương’ có 8 âm tiết

So sánh cách phát âm hai từ ‘bình’ và chữ ‘bính’ trong tiếng Việt, âm tiết thứ nhất được phát ra với ‘giọng’ thấp hay có cao độ thấp hơn, còn âm tiết thứ hai có ‘giọng’ cao hơn hay cao độ cao hơn, do đó người nghe có thể phân biệt được hai từ có nghĩa khác hẳn nhau Như vậy thanh điệu là sự thay đổi cao độ của ‘giọng nói’, điều đó có nghĩa là có sự thay đổi biên độ của tần số cơ bản trong âm hữu thanh Dây thanh âm rung tạo ra âm thanh Biên độ

Trang 12

hiện tượng cộng hưởng toàn bộ âm thanh sẽ thay đổi âm sắc và chúng ta có các nguyên âm khác nhau với cùng một thanh điệu, chẳng hạn ‘à, ù, ì’ Ngược lại nếu biên độ của thành phần tần số cơ bản thay đổi trong khi biên độ các thành phần hài không đổi, do đó không có sự biến đổi gì về cộng hưởng và chúng ta có được một nguyên âm với âm sắc không đổi nhưng với nhiều thanh điệu khác nhau, chẳng hạn như ‘à, á, ả’ Như vậy thanh điệu được xác định bằng tần số cơ bản

Điều nhận xét trên đây gợi ý cho chúng ta trong quá trình nhận dạng là nếu đã phân lớp được từ cần nhận dạng thuộc về lớp ‘a, á, à, ả, ã, ạ’, chúng ta chỉ cần xét thành phần tần số cơ bản là xác định được cụ thể từ cần nhận dạng là từ nào

Qua phân tích ngữ âm học ở phần trên, chúng ta nhận thấy rằng khi phát âm một từ (tổng quát gồm phụ âm, nguyên âm, và thanh điệu), dây thanh âm rung tạo ra dạng sóng của luồng không khí như trên Hình 1.2, đến lượt bộ phận cấu âm và mũi biến đổi chậm làm thay đổi dạng sóng phát ra bên ngoài để tạo ra những từ khác nhau Như vậy tín hiệu tiếng nói là

do xung bước sóng chập với tín hiệu biến thiên chậm của bộ phận cấu âm Điều này dẫn tới việc trích tham số tiếng nói rất hiệu quả là phân tích ceptral, trong phương pháp này người ta muốn lấy phần tín hiệu có tần số thấp do bộ phận cấu âm tạo ra Trình bày chi tiết về cepstral được trình bày ở Chương 3

I.2.5 Hệ thống tai nghe của người:

Quá trình nghe của người như sau: sóng áp suất âm thanh tác động đến tai người, sóng này được chuyển thành một chuỗi xung điện, chuỗi này được truyền tới não bộ thông qua hệ thần kinh, ở não, chuỗi được xử lý và giải mã

Hình 1.5 là hệ thống nghe của người Tai được chia thành ba phần: tai ngoài, tai giữa và tai trong Tai ngoài gồm vành tai và ống tai dẫn tới màng nhĩ Sóng âm di chuyển dọc theo ống tai và tác động đến màng nhĩ, làm cho màng nhĩ rung Biên độ rung của màng nhĩ thường từ vài nanometre (10− 9m) và tiếng nói thì thầm làm cho biên độ rung lớn nhất bằng

1 10/ đường kính của phân tử hydrogen

Ở tai giữa, một khúc xương nhỏ gọi là xương búa được gắn với màng nhĩ Khi màng nhĩ rung, xương búa tiếp xúc với một khúc xương khác gọi là xương đe, làm cho xương đe quay Xương

đe lại được nối với một khúc xương nữa gọi là xương bàn đạp, xương bàn đạp nối với cửa sổ oval của tai trong Ba khúc xương búa, đe, và bàn đạp là ba khúc xương nhỏ nhất của tai

Trang 13

oval của tai trong

Cửa sổ oval là một lỗ mở ở thành xương ốc tai được bao phủ bằng màng Chia phần ốc tai chứa đầy dịch theo chiều dọc thành hai màng gọi là màng Reissner và màng đáy Cửa sổ oval rung làm sóng áp suất lan truyền qua dịch ốc tai, sóng áp suất này làm màng đáy bị lệch ở một vài điểm khác nhau Gắn với màng đáy là cơ quan Corti Cơ quan dạng nhầy này chứa 30000 tế bào lông được sắp thành ba hàng ngoài và một hàng trong Mỗi tế bào lông có chứa nhiều sợi lông nhỏ nhô ra Những sợi lông nhỏ này sẽ rung động khi màng đáy chuyển động, và điều này tạo ra thế năng cho tế bào lông Tế bào lông tiếp xúc với dây thần kinh tận của neuron thần kinh thính giác và thế năng này tạo ra chuỗi xung điện truyền tới não thông qua dây thần kinh thính giác

Từ những điều đã mô tả ở trên, chúng ta nhận thấy rằng chuyển động của màng đáy đóng vai trò quan trọng của quá trình nghe Nhiều đặc tính của cơ chế nghe đã được khám phá khi nghiên cứu vật lý-thần kinh học Màng đáy là ống không đều dài chừng 35mm, có mặt đáy gần cửa sổ oval, hẹp và cứng dần về phía đỉnh, kết quả tạo ra những điểm khác nhau tương ứng với các tần số âm thanh khác nhau Khi chúng ta nghe một sóng âm thuần túy tức âm đơn (sóng sine), những điểm khác nhau trên màng đáy sẽ rung động theo tần số của âm đơn đi vào tai Điểm lệch lớn nhất trên màng đáy phụ thuộc vào tần số của âm đơn Tần số cao tạo ra điểm lệch lớn nhất ở phía đáy và tần số thấp tạo ra điểm lệch lớn nhất phía đỉnh Như vậy màng đáy đóng vai trò là bộ phận phân tích tần số tín hiệu vào phức tạp, bằng cách tách những thành phần tần số khác nhau ở những điểm khác nhau dọc theo chiều dài của nó Mỗi điểm như vậy có thể xem là bộ lọc thông dải có tần số trung tâm và băng thông xác định Những đáp ứng tần số của những điểm khác nhau đã được đo bằng thực nghiệm

cho thấy rằng những đáp ứng này đều có hệ số phẩm chất Q gần như không đổi (Q là ‘hệ số

chất lượng’ và đặc trưng cho tính chất nhọn của đáp ứng băng thông; nó là tỉ số của tần số

trung tâm và độ rộng băng tần còn ‘không đổi’ nghĩa là mỗi bộ lọc đều có cùng giá trị Q)

Những đáp ứng này không đối xứng quanh tần số trung tâm, vùng tần số cao có tốc độ suy giảm dốc hơn nhiều so với vùng tần số thấp Vị trí của độ lệch cực đại dọc theo màng nhày biến đổi theo quan hệ phi tuyến với tần số Người ta đã chứng minh rằng mối liên hệ này gần như theo hàm logarithm, sự gia tăng tuyến tính của độ lệch sẽ tương ứng với sự gia tăng logarithm của tần số

Những nghiên cứu chỉ ra rằng ngưỡng nghe của một âm đơn tăng lên khi có sự hiện diện của những âm đơn lân cận khác (âm mặt nạ) và chỉ có băng tần hẹp xung quanh âm đơn mới tham gia vào hiệu ứng mặt nạ, băng tần này thường gọi là băng tần tới hạn Giá trị của băng tần tới hạn phụ thuộc vào tần số của của âm đơn cần thử Ví dụ âm đơn 100Hz có băng tần tới hạn xấp xỉ 90Hz; âm đơn 5kHz có băng tần tới hạn xấp xỉ 1000Hz Hình 1.6 là những băng tần tới hạn của một dải rộng tần số được xác định theo các thử nghiệm thần kinh-âm học Giá trị của những băng tần tới hạn này hẹp hơn nhiều so với những giá trị quan sát được khi màng đáy rung

Trang 14

Hình 1.6 Băng tần tới hạn

Cuối cùng có thể xem quá trình nghe của hệ thính giác là một dãy các bộ lọc băng thông, có đáp ứng phủ lấp lên nhau và ‘băng thông hiệu quả’ của chúng xấp xỉ với các giá trị của băng tần tới hạn Đây là cơ sở để thiết kế dãy bộ lọc cho xử lý tiếng nói

I.3 TÓM TẮT:

Phần này trình bày về quá trình tạo lập tiếng nói của con người Cấu âm của âm hữu thanh, vô thanh, nguyên âm, phụ âm cùng các biến dạng của nó được khảo sát tỉ mỉ Đặc biệt tính chất thanh điệu trong ngữ âm tiếng Việt cũng được gợi ý làm cho độ thành công của các hệ nhận dạng tốt hơn Quá trình nhận thức tiếng nói của con người rất phức tạp, ngày nay hãy còn chưa hiểu được hết, vì vậy mô hình dãy bộ lọc trích đặc tính của tiếng nói dựa theo mô phỏng cơ chế nghe của tai người chỉ là một giả thiết có thể chấp nhận được

Mục đích của toàn bộ chương này là lý giải hai cách trích đặc tính của tiếng nói Một cách là căn cứ vào bộ phận phát âm dẫn tới các hệ số ceptral, cách kia lại căn cứ vào bộ phận nghe dẫn tới các hệ số bộ lọc Qua thử nghiệm cả hai cách trích đặc tính này, chúng ta nhận thấy trích bằng ceptral cho kết quả nhận dạng tốt hơn Điều này cũng trùng với nhận xét của [1]

Trang 15

CHƯƠNG II

CƠ SỞ XỬ LÝ TÍN HIỆU SỐ

Xử lý tín hiệu số - digital signal processing (DSP) bắt đầu bằng tín hiệu lượng tử hóa rời rạc, và xuất hiện trong máy tính dưới dạng một chuỗi các giá trị số Hình 2.1 là ví dụ về phép toán xử lý tín hiệu số Có chuỗi số vào x n( ), phép toán ϑ{ } và chuỗi số ra y n( )

Hình 2.1 Phép toán DSP

Phép toán được phân thành hai loại là tuyến tính và phi tuyến Hình 2.2 là cấu trúc cây của các phép toán

Hình 2.2 Cấu trúc cây của các phép toán

Các phép toán biến đổi chuỗi số theo các hướng sau đây:

1 Trích tham số hay đặc điểm của chuỗi số

2 Tạo lập chuỗi số ra tương tự như chuỗi số vào nhưng đẹp hơn

3 Khôi phục chuỗi số từ các trạng thái trước đó

4 Mã hóa hay nén chuỗi số

Một hệ xử lý tín hiệu số đầy đủ có thể gồm nhiều phép toán trên cùng chuỗi số hay là phép toán trên kết quả của phép toán trước đó Hình 2.3 là một ví dụ như vậy

Trang 16

Hình 2.3 Một hệ DSP

Chương này được chia thành nhiều phần Phần II.1 thảo luận về chuỗi số: cách tạo lập, phổ, liên hệ với tín hiệu liên tục Phần II.2 thảo luận về đặc tính chung của các phép toán bất biến theo thời gian thường sử dụng nhất trong DSP Phần II.3 thảo luận về lớp các phép toán được gọi là lọc số Phần II.4 giới thiệu phép biến đổi Fourier rời rạc - discrete Fourier transform (DFT) Phần II.5 giới thiệu biến đổi STFT Phần II.6 giới thiệu về biến đổi wavelets Phần II.7 bàn về đại số tuyến tính và cuối cùng Phần II.8 thảo luận về lý thuyết xác suất ứng dụng trong xử lý tín hiệu

II.1 CHUỖI SỐ :

Muốn cho máy tính xử lý được tín hiệu, phải lấy mẫu tín hiệu tại nhiều thời điểm Hình

2.4 là lấy mẫu hàm liên tục theo thời gian t, mỗi mẫu cách nhau T giây Kết quả chúng ta được tập các số gọi là chuỗi số Nếu hàm liên tục theo thời gian là x t() , thì hàm lấy mẫu là

x nT( ) theo n Thông thường, chúng ta chuẩn hóa thời gian giữa hai lần lấy mẫu là 1 nên

x nT( ) trở thành x n( )

Hình 2.4 Lấy mẫu tín hiệu.

II.1.1 Hàm lấy mẫu :

Hàm lấy mẫu là cầu nối giữa hàm thời gian liên tục và hàm thời gian rời rạc Hàm lấy mẫu còn có tên khác là hàm delta Dirac Hàm lấy mẫu có những tính chất sau đây:

Trang 17

τ ở hai phương trình trên có thể là giá trị thực

Để hiểu tại sao hàm này là hàm lấy mẫu lý tưởng, đầu tiên chúng ta khảo sát hàm lấy

mẫu thực tế ∆( )t như minh họa trên Hình 2.5 Hàm này có độ rộng xung là một đơn vị theo

thời gian và biên độ là một đơn vị theo biên độ Rõ ràng Tính chất 2 thỏa mãn Tuy nhiên khi

nhân ∆( )t với f t() thì hàm lấy mẫu ∆( ) t không lấy tại một thời điểm mà lấy trong phạm vi

(2.3)

Điều này có thể hiểu là quá trình lấy mẫu bị nhòe trong phạm vi một dãy liên quan

đến độ rộng xung của ∆( )t Muốn xấp xỉ hàm lấy mẫu tốt hơn thì hàm ∆( )t có độ rộng xung

hẹp hơn Tuy nhiên, khi độ rộng xung hẹp lại thì biên độ phải tăng lên Về mặt giới hạn,

chúng ta thấy rằng hàm lấy mẫu lý tưởng có độ rộng xung hẹp vô hạn sao cho mẫu được lấy

tại một thời điểm, còn biên độ lớn vô hạn sao cho tín hiệu lấy mẫu có cùng năng lượng hữu

hạn như nhau

Hình 2.5 Hàm lấy mẫu thực tế

II.1.2 Sử dụng hàm lấy mẫu:

Hình 2.6 minh họa quá trình lấy mẫu dùng hàm lấy mẫu lý tưởng tại các thời điểm

cách nhau T giây Kết quả, chúng ta có được dạng sóng theo thời gian

Dạng sóng kết quả của quá trình này là không hiện thực do biên độ vô hạn và độ

rộng zero của hàm lấy mẫu lý tưởng

Chú ý rằng x t s( ) là tín hiệu liên tục theo thời gian được tạo ra từ một tập vô hạn của

các tín hiệu liên tục theo thời gian x t( ) (δ −t nT) Do hàm lấy mẫu tạo ra hệ số nhân khác

zero tại những giá trị t =nT, nên có thể viết lại x t s( )như sau:

Trang 18

Trong phương trình sau cùng này, chúng ta thấy xuất hiện chuỗi số x nT( ) Đây là tập

hợp số và sẽ được thảo luận trong các phần kế

II.1.3 Phổ của tín hiệu lấy mẫu:

Theo lý thuyết biến đổi Fourier, phổ tần số của dạng sóng liên tục theo thời gian x t()

được viết như sau:

Trang 19

Phương trình này biểu diễn chính xác chuỗi Fourier của X f s( ) là hàm có chu kỳ T

Các hệ số của chuỗi Fourier là x nT( ) được tính từ tích phân sau:

1 2

Hai phương trình sau cùng là cặp chuỗi Fourier cho phép tính tín hiệu theo thời gian

hay phổ tần số tùy theo đối số của cặp chuỗi Fourier Chú ý rằng tín hiệu x t s( ) đã bị loại bỏ

và thay vào đó là x nT( )

II.1.4 Liên hệ giữa phổ của tín hiệu liên tục và tín hiệu rời rạc:

Xét Phương trình (2.7) tại thời điểm t nT= và cho kết quả này bằng vế phải của

Phương trình 2.11, chúng ta thu được mối liên hệ giữa hai phổ như sau:

x nT X f e j fnT df T X f e df

s j fnT T

1 2

Vế phải của Phương trình (2.7) có thể biễu diễn là tổng vô hạn của một tập các tích phân có

giới hạn hữu hạn

x nT X f e j fnT df

m T

m T m

T m

1 2

Di chuyển phép tổng vào trong tích phân, chú ý e j2πmn =1 với mọi m, n nguyên, và thành

phần bên trong tích phân tương tự với thành phần bên trong tích phân của Phương trình

(2.11), nên chúng ta có mối liên hệ sau:

X f

T X f

m T

Phương trình (2.15) nói lên rằng phổ tần số của tín hiệu lấy mẫu là tổng vô hạn phổ tần số

của tín hiệu liên tục, ở đó khoảng cách giữa hai phổ tần số của tín hiệu liên tục là 1

T Chúng

ta hãy khảo sát trường hợp phổ tần số của tín hiệu liên tục bằng với phổ tần số của tín hiệu

lấy mẫu, ít nhất là trong một phạm vi tần số nào đó Nếu không có thành phần phổ nào của

tín hiệu liên tục lớn hơn 1

2T thì hai phổ sẽ bằng nhau trong phạm vi tần số từ f

T

Trang 20

f

T

2 Dĩ nhiên là phổ của tín hiệu lấy mẫu sẽ lặp lại trên suốt thang tần số, còn phổ của

tín hiệu liên tục sẽ bằng zero trên suốt thang tần số ngoại trừ phạm vi tần số đã nói ở trên

Tiêu chuẩn lấy mẫu Nyquist căn cứ trên những điều vừa thảo luận và khẳng định rằng nếu

tần số lấy mẫu lớn hơn hai lần tần số lớn nhất của tín hiệu liên tục thì có thể khôi phục hoàn

toàn tín hiệu liên tục từ tín hiệu lấy mẫu Ngược lại, nếu tần số lấy mẫu nhỏ hơn hai lần tần

số lớn nhất của tín hiệu liên tục thì xảy ra hiện tượng trùm phổ Tín hiệu liên tục được khôi

phục lại sẽ bị méo và độ méo phụ thuộc vào độ trùm phổ

II.1.5 Chuỗi xung đơn vị:

Có một chuỗi số quan trọng là chuỗi xung đơn vị và ký hiệu là u n0( ) Chuỗi xung đơn

vị gồm vô hạn mẫu có giá trị zero với mọi n ≠ 0 và bằng 1 tại n = 0 Hình 2.9 minh họa

Hình 2.9 Dời chuỗi xung đơn vị.

II.2 CÁC PHÉP TOÁN TUYẾN TÍNH BẤT BIẾN:

Các phép toán được sử dụng rộng rãi nhất trong DSP là tuyến tính và bất biến theo

thời gian - linear time invariant (LTI)

Tính chất tuyến tính được phát biểu như sau:

Cho x n( ) là chuỗi hữu hạn vàO{ }là phép toán trong không gian n-chiều, đặt

)}

({O)(n x n

({O)

Trang 21

Tính chất bất biến theo thời gian nghĩa là nếu

)}

({O)

y =thì khi dời sẽ cho đáp ứng giống nhau

)}

({O)

Cách khác để phát biểu tính chất này là nếu x n( ) có chu kỳ là N

x n N( + )= x n( )thì phép toán O{} bất biến theo thời gian trong không gian n-chiều là

)}

({O)}

({

Chúng ta gọi

)}

({O)

Phương trình (2.28) phát biểu rằng y n( ) là tổng chập x n( ) với đáp ứng xung h n( ) Thay

m n p= − vào Phương trình (2.28), chúng ta có dạng tương đương

Nhớ rằng m và p chỉ là biến giả sử dụng cho tổng chập mà thôi

II.2.1 Tính nhân quả:

Cho đến bây giờ các mô tả toán học của chuỗi số và phép toán đều giả thiết là đáp

ứng xung của phép toán vẫn có giá trị ngay cả trước thời điểm tác động của chuỗi số vào

Đây là dạng tổng quát của phương trình và phù hợp cho phát triển lý thuyết Tuy nhiên,

không có một hệ vật lý nào có thể tạo ra chuỗi số ra khi chưa có chuỗi số vào tác động Bởi

Trang 22

vì các phép toán và chuỗi số DSP có tính vật lý nên chúng ta chỉ thảo luận các phép toán và

chuỗi số có thể tồn tại trong thực tế

Bước đầu tiên khi biểu diễn chuỗi số thực tế là chuỗi số phải bắt đầu tại một thời điểm cụ

thể nào đó Như vậy có thể giả thiết rằng các thành phần của chuỗi số sẽ có giá trị zero tại

những chỉ số thời gian nhỏ hơn zero, đồng thời sau thời điểm zero giá trị của chuỗi có thể là

zero hay khác zero Thuộc tính này của chuỗi số và phép toán được gọi là nhân quả hay nói

cách khác chuỗi số ra của hệ DSP tại thời điểm n (tức là y n( )) chỉ phụ thuộc vào chuỗi số

vào tại thời điểm hiện tại và quá khứ (tức là x n x n( ), ( −1), (x n−2) ) chứ không phụ thuộc

vào chuỗi số tương lai (tức là x n( +1), (x n+2) )

Bây giờ tổng chập của phép toán nhân quả có thể viết

nghĩa là đáp ứng không có giá trị với mọi m nhỏ hơn zero

II.2.2 Phương trình sai phân:

Về mặt lý thuyết các phép toán bất biến theo thời gian, nhân quả, tuyến tính, rời rạc

theo thời gian có thể mô tả bằng phương trình sai phân bậc N

a y n m m b x n p

m

N

p p

Trong Phương trình (2.32) và (2.33) thành phần y n m( − ) và x n p( − ) cũng là hàm y n( ) và

x n( ) nhưng đã được dời đi hay làm trễ tương ứng Chẳng hạn, trên Hình 2.10 minh họa chuỗi

x n( ) và x n( − 3) là x n( ) nhưng dời đi ba mẫu

Sử dụng tính chất trễ và Phương trình (2.34), chúng ta có thể xây dựng cấu trúc tổng quát của

phép toán LTI Trên Hình 2.11, mỗi hộp là một phần tử trễ có độ lợi là một Các hệ số được

ghi trên chân của đồ thị Vòng tròn là phép tổng các phần tử

Trang 23

Hình 2.10 Dời chuỗi số.

Hình 2.11 Đồ thị của phép toán tuyến tính.

II.2.3 Biến đổi z của phép toán LTI:

Có phép biến đổi tuyến tính rất hiệu quả để phân tích tín hiệu rời rạc theo thời gian,

giống như phép biến đổi Laplace để phân tích tín hiệu liên tục theo thời gian Phép biến đổi

này là biến đổi z và được định nghĩa như sau:

∑∞

=

−

=0)()}

({L

n

z n x n

ở đó ký hiệu L{ } gọi là ‘biến đổi z của’ và z trong phương trình trên là số phức Một trong

những tính chất quan trọng của biến đổi z là mối liên hệ với chuỗi số trễ theo thời gian Để

chứng minh điều này, chúng ta hãy lấy biến đổi z của chuỗi x n( )

()}

({L

n

z n x z

X n

({L

n

z p n x p

n

Trang 24

Bởi vì p luôn luôn dương và x n( ) = 0 với mọi n < 0 , nên

({L

p n

n

z p n x p

({L

m

p m

z m x p

( )0

So sánh phép tổng trong phương trình cuối cùng này và Phương trình (2.35) là phép biến đổi

z của x n( ), chúng ta có

)()}

({L)}

({

Áp dụng tính chất này của biến đổi z vào phương trình tổng quát của phép toán tuyến tính bất

biến theo thời gian như sau:

)()

(L

q q p

p

p y n p z b x n q a

n

Bởi vì biến đổi z là phép biến đổi tuyến tính có tính phân phối và tính kết hợp nên chúng ta

viết lại phương trình trên như sau:

0 1

)}

({L)}

({L

q

q p

p y n p b x n q a

Hình 2.12 là vẽ lại Hình 2.11 trong miền biến đổi z nhưng dựa trên Phương trình (2.44) Đồ

thị là như nhau nếu chúng ta coi hệ số nhân z−1 trong miền biến đổi z tương đương với trễ

một đơn vị thời gian trong miền thời gian

Trang 25

Hình 2.12 Đồ thị biến đổi z của phép toán LTI.

II.2.4 Hàm truyền trong miền tần số của phép toán LTI:

Lấy biến đổi Fourier hai vế của Phương trình (2.30), chúng ta có

∑∞

=

−

=0

)}

({F)()}

({F

m

m n x m h n

Dùng một trong những tính chất của phép biến đổi Fourier là

)}

({T)}

({

)

f X

f

Hình 2.13 là sơ đồ khối của Phương trình (2.51) theo miền thời gian và Hình 2.14 là sơ đồ

khối của Phương trình (2.51) theo miền tần số (biến đổi Fourier) Phép toán H f( ) gồm biên

độ và góc pha của hàm theo biến f (thường được gọi là tần số lấy mẫu 1

T )

Hình 2.13 Miền thời gian của phép toán LTI

Trang 26

II.2.5 Liên hệ giữa biến đổi z với đáp ứng tần số:

Nhắc lại cặp biến đổi Fourier

Để đơn giản khi ký hiệu, chúng ta chuẩn hóa chu kỳ lấy mẫu T = 1

Bây giờ hãy so sánh Phương trình (2.52) với biến đổi z của x n( )

Phương trình (2.52) và (2.54) là bằng nhau với chuỗi x n( ) là nhân quả (tức là x n( )= 0 với

mọi n < 0 ) nếu chúng ta đặt z như sau:

Hình 2.15 là quỹ tích các giá trị của z trong mặt phẳng phức theo Phương trình (2.55) Quỹ

tích này là vòng tròn có bán kính là một Như vậy, khi đánh giá biến đổi z của chuỗi nhân

quả x n( ) trên vòng tròn đơn vị của mặt phẳng phức sẽ tương đương với biểu diễn trong miền

tần số của x n( ) Đây là một trong những tính chất rất hiệu quả của phép biến đổi z khi phân

tích tín hiệu rời rạc

Hình 2.15 Vòng tròn đơn vị trên mặt phẳng phức.

Chúng ta cũng nhận thấy rằng đáp ứng xung của một phép toán nào đó chỉ đơn thuần là

chuỗi h m( ), và biến đổi Fourier của chuỗi này là đáp ứng tần số của phép toán đó Biến đổi

Trang 27

z của chuỗi h m( ) là H z( ) cũng được đánh giá trên vòng tròn đơn vị để tạo ra biểu diễn trên

miền tần số của chuỗi này Điều này được viết như sau:

II.2.6 Tóm tắt phép toán tuyến tính:

Ở Phần 2.2 này chúng ta đã biểu diễn các lớp phép toán được ứng dụng rộng rãi trong

xử lý tín hiệu rời rạc: tuyến tính, nhân quả, bất biến theo thời gian Các biểu diễn này được

tóm tắt sau đây:

1 Đáp ứng xung - h m( ) (Phần 2.2.1)

Các biểu diễn trên là công cụ hữu ích để nghiên cứu tín hiệu rời rạc theo thời gian Hiểu các

liên hệ này là một trong những chìa khóa để thiết kế hiệu quả các hệ DSP

II.3 LỌC SỐ:

Các phép toán tuyến tính vừa giới thiệu và phân tích ở phần trên có thể coi như là các

bộ lọc số Bộ lọc số cho phép các thành phần tần số này được truyền không đổi tới ngõ ra,

còn các thành phần tần số khác bị chặn lại Có hai lớp lọc phổ biến Nhắc lại phương trình

sai phân của phép toán tổng quát:

y n b x n q q a y n p

q

Q

p p

Chú ý rằng tổng vô hạn đã được thay bằng tổng hữu hạn Điều này là cần thiết để bộ

lọc có thể tổ chức được Lớp đầu tiên của bộ lọc số có a p = 0 với mọi p Tên chung của bộ

lọc loại này là đáp ứng xung hữu hạn - finite impulse response (FIR) bởi vì đáp ứng xung có

chiều dài là hữu hạn (không lớn hơn Q) Bộ lọc này còn có tên gọi lọc trung bình di chuyển -

moving average (MA) bởi vì ngõ ra đơn thuần là trung bình có trọng của những giá trị vào

(IIR) Lớp này bao gồm bộ lọc tự hồi quy - autoregressive (AR) và dạng tổng quát nhất, bộ

lọc ARMA Ở trường hợp AR, b q = 0 với mọi q∈[ 1 Q−1]

Trang 28

Với bộ lọc ARMA, phương trình tổng quát được áp dụng (Phương trình 2.57) Trong bộ lọc

IIR, đáp ứng của một xung ở ngõ vào có thể tạo ra vô hạn xung ở ngõ ra với tập hệ số cho

trước Độ ổn định là vấn đề đối với bộ lọc IIR bởi vì nếu chọn các hệ số không khéo, ngõ ra

sẽ tăng ra vô cực ứng với một vài giá trị của ngõ vào

II.3.1 Lọc FIR:

Nhắc lại dạng tổng quát của lọc FIR

nếu đáp ứng xung này có chiều dài hữu hạn

b q = ( )h q với q=0 1 2, , , Q−1Điều này có nghĩa là nếu ngõ vào là chuỗi đáp ứng xung, phép toán là đáp ứng xung

hữu hạn thì chúng ta xác định được ngay các hệ số của bộ lọc FIR Tuy nhiên, như đã đề cập

khi bắt đầu phần này, bộ lọc được xét theo quan điểm tần số Do đó, cách thông dụng nhất là

cho đáp ứng trong miền tần số và yêu cầu xác định các hệ số của bộ lọc

Có nhiều phương pháp xác định các hệ số của bộ lọc FIR khi cho đáp ứng trong miền tần số

Dưới đây là tóm tắt hai phương pháp phổ biến nhất để thiết kế bộ lọc FIR

1 Sử dụng DFT trên đáp ứng tần số lấy mẫu Phương pháp này đòi hỏi đáp ứng tần số

của bộ lọc được lấy mẫu với chu kỳ T là thời gian giữa hai mẫu trong hệ DSP Phép

biến đổi Fourier ngược - inverse discrete Fourier transform (IDFT) áp dụng cho đáp

ứng đã lấy mẫu này để tạo ra đáp ứng xung của bộ lọc Kết quả tốt nhất sẽ đạt được

nếu tác động một cửa sổ làm trơn lên đáp ứng tần số trước khi hình thành IDFT

2 Tối ưu xấp xỉ mini-max dùng kỹ thuật thảo chương tuyến tính McClellan và Parks đã

dùng thuật toán trao đổi Remez để tạo ra các hệ số FIR tối ưu nếu cho trước đáp ứng

tần số của bộ lọc Rabiner và Gold đã giới thiệu đầy đủ chương trình này

Chúng ta có thể nghiên cứu đáp ứng tần số của bộ lọc thông qua hàm truyền của phép toán

tuyến tính tổng quát:

p p p

1

11

Chú ý rằng phép tổng là hữu hạn để tổ chức được bộ lọc trong thực tế Đối với lọc FIR, các

hệ số a p = 0 nên phương trình trên trở thành:

Trang 29

H z Y z

X z b z q

q q

2

1 1

II.3.2 Lọc FIR có pha tuyến tính:

Nhiều ứng dụng trong viễn thông và xử lý ảnh quan tâm đến bộ lọc FIR có pha thay

đổi tuyến tính khi tần số thay đổi Điều này là quan trọng bởi vì hàm truyền pha liên quan

đến độ méo nhỏ nhất khi truyền tín hiệu qua bộ lọc Trong lọc FIR, các hệ số b q quan hệ với

nhau một cách đơn giản là có thể tạo ra được bộ lọc FIR có pha tuyến tính

Pha tuyến tính khi tần số thay đổi có nghĩa là

H f( ) | ( )|= H f e j f[ α β + ]

ở đó α và β là hằng số Nếu hàm truyền có thể tách thành hàm thực theo f nhân với thừa số

pha e j f[ α β + ] thì hàm truyền này sẽ có pha tuyến tính

Xét hàm truyền của bộ lọc FIR

H z( ) =b +b z− +b z− + + b z Q Q

1 2

2

1 1

Thay z e= j2πf vào phương trình trên để tạo ra đáp ứng tần số

2

1 2

thì số hạng bên trong dấu [ ] trở thành hàm cosine và chúng ta đạt được pha tuyến tính Đây

là đặc tính chung của các hệ số bộ lọc FIR

Trang 30

II.3.3 Đáp ứng của một bộ lọc FIR cụ thể:

Hình 2.16 Đáp ứng của bộ lọc thông thấp FIR (theo Paul M Embree và Bruce Kimble)

Xét đáp ứng của một bộ lọc FIR cụ thể với các hệ số rất đơn giản, lấy theo phương trình MA như sau:

y n( )=011 ∗x n( )+0 22 ∗x n( − +1) 0 34 ∗x n( −2) + 0 22 ∗x n( − +3) 011 ∗x n( −4)

Khi quan sát các hệ số của bộ lọc, chúng ta có thể nhận ra bộ lọc này là lọc thông thấp, bởi vì một giá trị hằng (thành phần một chiều) ở ngõ vào sẽ tạo ra một giá trị như vậy ở ngõ ra Ngoài ra, tất cả hệ số đều dương nên bộ lọc có khuynh hướng lấy trung bình các giá trị liền nhau

Hình 2.16 minh họa đáp ứng của bộ lọc FIR này Bộ lọc này thực sự là bộ lọc thông thấp và giá trị null ở băng dừng là đặc tính của bộ lọc rời rạc theo thời gian

II.3.4 Lọc IIR:

Nhắc lại phương trình tổng quát của lọc IIR là:

q

Q

p p

Biến đổi z của hàm truyền của bộ lọc IIR là

p p p

1

11Không có liên hệ đơn giản giữa các hệ số của lọc IIR và chuỗi đáp ứng xung như trường hợp lọc FIR Cũng vậy, tuyến tính pha cũng không đơn giản là các hệ số đối xứng nhau như lọc FIR Tuy nhiên, lọc IIR có đặc tính quan trọng hơn FIR là: tổng quát, với đáp ứng tần số đã cho, IIR cần ít hệ số hơn FIR Điều này có nghĩa là tính toán nhanh hơn hay tốn kém phần cứng ít hơn

Trang 31

II.3.5 Đáp ứng của một bộ lọc IIR cụ thể:

Hình 2.17 Đáp ứng của bộ lọc thông thấp IIR (theo Paul M Embree và Bruce Kimble)

Xét bộ lọc IIR đơn giản nhất, lấy theo phương trình AR như sau:

y n( )= x n( )+ y n( − 1)

Quan sát đáp ứng của bộ lọc này khi ngõ vào là các giá trị đơn giản, chúng ta nhận thấy rằng: ngõ vào là zero, ngõ ra là giá trị hằng; ngõ vào là giá trị dương, ngõ ra tăng tuyến tính theo thời gian; ngõ vào là giá trị âm, ngõ ra giảm tuyến tính theo thời gian Hình 2.17 là đáp ứng tần số của bộ lọc này

II.3.6 Đặc tả bộ lọc:

Như đã đề cập ở phần trước, biên độ và pha của bộ lọc thường được đặc tả trong miền tần số Hình 2.18 là đáp ứng biên độ của bộ lọc thông thấp Độ lợi của bộ lọc được chuẩn hóa xấp xỉ một ở tần số thấp Hình vẽ này minh họa một số thuật ngữ quan trọng liên quan đến đặc tả bộ lọc

Hình 2.18 Đáp ứng biên độ của bộ lọc thông thấp đã chuẩn hóa (theo Stearns)

Trang 32

Băng thông - passband - là miền cho phép tín hiệu ngõ vào truyền tới ngõ ra nhưng suy hao

rất ít hay không suy hao Trong bộ lọc thông thấp, băng thông bắt đầu từ tần số w= 0 đến

điểm bắt đầu của băng chuyển tiếp là w p trên Hình 2.18 Băng chuyển tiếp - transition band -

là miền mà tín hiệu ra bị suy hao cho tới khi dừng hẳn Băng chuyển tiếp kết thúc ở tần số

băng dừng w s Băng dừng là dải tần số mà tín hiệu bị suy hao với hệ số suy hao cho trước

Bộ lọc điển hình được đặc tả bằng các tham số sau đây:

1 Độ nhấp nhô băng thông - 2δ

2 Độ suy hao băng dừng - 1/ λ

3 Tần số bắt đầu chuyển tiếp và dừng chuyển tiếp - w p và w s

4 Độ rộng của băng chuyển tiếp - w s −w p

5 Tần số cắt - là tần số mà ở đó độ lợi bị suy hao so với độ lợi qui định của băng thông

Thường là suy hao từ -1 dB đến -3 dB

II.3.7 Cấu trúc bộ lọc:

Có nhiều cách để tổ chức bộ lọc khi cho phương trình của bộ lọc FIR hay IIR Mỗi cấu

trúc, về mặt toán học là tương đương, nhưng có thể tạo ra các kết quả khác nhau do độ chính

xác của con số trong máy tính hay phần cứng được dùng

Hình 2.19 là ba cấu trúc để tổ chức bộ lọc Đầu tiên là dạng tổ chức trực tiếp theo hàm

truyền (Hình 2.19a) Cấu trúc này sử dụng biến đổi z phương trình hàm truyền của bộ lọc, tổ

chức một phần tử trễ và nhân trực tiếp hệ số

Dạng trực tiếp của bộ lọc có thể chuyển thành dạng nối tiếp bằng cách tách hàm truyền

thành tích các hàm truyền (Hình 2.19b) Tương tự, có thể tách hàm truyền thành tổng các

hàm truyền, cách này tạo ra dạng song song của bộ lọc (Hình 2.19c)

Trang 33

II.4 BIẾN ĐỔI FOURIER RỜI RẠC (Discrete Fourier Transform):

Cho tới bây giờ, chúng ta đã vài lần sử dụng biến đổi Fourier khi đề cập đến đặc tính

của chuỗi số và phép toán tuyến tính Biến đổi Fourier của chuỗi số nhân quả như sau:

ở đó chu kỳ lấy mẫu đã chuẩn hóa là một ( T = 1) Nếu chuỗi số có độ dài giới hạn (để có thể

tổ chức được cho máy tính) thì

Bởi vì X f( ) là hàm tuần hoàn với chu kỳ 1/ T =1, nên tích phân trên có thể lấy trên chu kỳ

nào cũng được

Biểu diễn trên của biến đổi Fourier là chính xác nhưng có trở ngại chính trong xử lý

số - biến tần số là liên tục chứ không phải rời rạc Để khắc phục điều này, chúng ta phải

biểu diễn lại tín hiệu theo thời gian và tần số

Biến đổi Fourier rời rạc thuận DFT

II.4.2 Tính chất của DFT:

Phần này sẽ giới thiệu các tính chất quan trọng của DFT Sử dụng các tính chất này

chúng ta sẽ tổ chức hiệu quả khi tính toán DFT

Tính tuần hoàn Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì

Trang 34

Tính chất này cũng được suy ra từ định nghĩa ở Phương trình (2.69)

Tính dời theo thời gian Nếu x n( ) và X k( ) là cặp DFT N-điểm, thì

x n p e j kn N x m e

n p

N

j k m p N m

II.4.3 Phổ công suất:

DFT thường được dùng làm công cụ để phân tích phổ của chuỗi số vào Biên độ của

một thành phần tần số cụ thể thường được quan tâm Có thể chia DFT thành biên độ và pha

hợp phức của nó

X k X k( ) ∗( ) | ( )|= X k 2= X + X2

real

2

Tuy nhiên, nảy sinh một vài vấn đề khi dùng DFT làm công cụ phân tích phổ Vấn đề nảy

sinh liên quan đến giả thiết là chúng ta đã tạo ra DFT của chuỗi số trong một chu kỳ của

dạng sóng có chu kỳ lặp lại Hình 2.20 minh họa điều này Trên hình vẽ thể hiện, mọi chuỗi

số đều bị gián đọan theo thời gian tại các biên của chu kỳ giả Điều gián đoạn này sẽ gây ra

thành phần tần số rất cao ở chuỗi số ra Những thành phần này có thể sẽ lớn hơn nhiều tần số

lấy mẫu, và bị dời vào giữa phổ

Trang 35

Hình 2.20 Tạo chu kỳ từ một đoạn

Kỹ thuật dùng để khắc phục khó khăn này là cửa sổ hóa Vấn đề phải khắc phục là

phần gián đoạn ở cạnh của mỗi chu kỳ của dạng sóng Bởi vì thuật toán DFT tổng quát

không biết được độ gián đoạn ở hai biên, nên kỹ thuật cửa sổ chỉ đơn thuần giảm bớt biên độ

của chuỗi số ở hai biên Điều này được làm từng bước và làm trơn sao cho không tạo ra

thành phần gián đoạn mới và kết quả là giảm bớt thành phần tần số bị dời đi Không có cải

tiến nào mà không trả giá Bởi vì áp dụng cửa sổ vào chuỗi số trước khi DFT, nên độ trung

thực của biểu diễn phổ bị suy giảm Kết quả là độ phân giải của các thành phần tần số bằng

nhau hơi bị suy giảm Cửa số tốt nhất đòi hỏi phải làm cho tín hiệu giả (bị dời đi) suy giảm

nhiều nhất đồng thời suy hao của độ phân giải phổ là nhỏ nhất

Có nhiều loại cửa sổ khác nhau nhưng đều có đặc tính chung là: giảm các phần tử gần

biên (gần n = 0 và n N= − 1) và bù bằng cách tăng giá trị các thành phần ở xa biên Các

cửa sổ thông dụng là cửa sổ Hamming, Hanning

II.4.4 Phổ trung bình:

Bởi vì tín hiệu luôn luôn có nhiễu, nhiễu gây ra do tính chất của thiết bị tạo tín hiệu

hay nhiễu bên ngoài tác động đến nguồn tín hiệu Nếu chỉ lấy DFT một lần thì thường biểu

diễn không trung thực phổ tín hiệu Để khắc phục điều này, chúng ta lấy DFT nhiều lần từ

nhiều nguồn tín hiệu giống nhau và lấy trung bình theo thời gian của phổ công suất Nếu mỗi

DFT được lấy trong mỗi NT giây thì

=

∑[(X real i ) (X ) ]

imag i i

Max

0

Rõ ràng, phổ tín hiệu không thể thay đổi nhiều trong khoảng từ t = 0 tới t = (Max NT)( )

II.4.5 Biến đổi Fourier nhanh:

Biến đổi Fourier nhanh - fast Fourier transform (FFT) là thuật toán rất hiệu quả để

tính DFT của một chuỗi số Ưu điểm là ở chỗ nhiều tính toán được lặp lại do tính tuần hoàn

của số hạng Fourier e− 2π /j kn N Dạng của DFT là

Trang 36

Chúng ta tách DFT thành hai phần

ở đó chỉ số dưới N của số hạng Fourier biểu diễn kích thước của chuỗi

Nếu chúng ta biểu diễn thành phần chẳn của chuỗi số x n( ) bằng xev và thành phần lẻ là xod

thì phương trình trên có thể viết lại

Chỉ số k phải chạy đến N − 1 nhưng do sử dụng tính chu kỳ của hàm chẳn và hàm lẻ, nên

chỉ cần tính DFT N / 2 điểm để có được các giá trị của X k( )

Đối với 2 điểm DFT này chỉ cần phép cộng và trừ mà không cần phép nhân Để tính toàn bộ

DFT, chúng ta nhân 2 điểm DFT với các thừa số W thích hợp từ W0 tới W N /2 1− Hình 2.21 là

đồ thị tính 8 điểm FFT Chúng ta có thể so sánh tính trực tiếp DFT với FFT như sau:

Khi tính trực tiếp DFT, mỗi giá trị của k cần N phép nhân phức và N-1 phép cộng phức

Đối với DFT, mỗi hàm có dạng

Trang 37

Điều này là do có N / 2 hàng bướm (bởi vì mỗi bướm có hai ngõ vào) và log2 N cột bướm

Bảng 2.1 là danh sách các phép cộng và nhân ứng với N khác nhau của DFT và FFT Chúng

ta nhận thấy rằng FFT nhanh hơn rất nhiều lần khi tính trực tiếp DFT

II.5 BIẾN ĐỔI FOURIER THỜI GIAN NGẮN STFT:

Phép biến đổi Fourier không thể áp dụng đối với tín hiệu không dừng, vì các thành phần tần số không ổn định Tuy nhiên nếu chúng ta chia tín hiệu không dừng thành những đoạn đủ nhỏ theo thời gian thì tín hiệu trong mỗi đoạn có thể xem là tín hiệu dừng và do đó có thể lấy biến đổi Fourier trên từng đoạn tín hiệu này Như vậy, phép biến đổi STFT vừa có tính định vị theo tần số do tính chất của biến đổi Fourier, vùa có tính định vị theo thời gian do được tính trong từng khoảng thời gian ngắn Đây là nguyên lý của STFT hay còn gọi là biến đổi Fourier cửa sổ hóa

II.5.1 Công thừc biến đổi:

trong STFT, tín hiệu f(t) đầu tiên được nhân với một hàm cửa sổ w(t-τ) để lấy được tín hiệu trong khoảng thời gian ngắn xung quanh thời điểm τ Sau đó phép biến đổi Fourier bình thường được tính trên đoạn tín hiệu này Kết quả ta được một hàm hai biến STFTf(ω,t) xác định bởi:

Để thấy rõ hơn về tính định vị theo tần số, ta áp dụng định lý parserval để viết lại (2.83) như sau:

(()

'[]

))

'([2

πωωω

ωπ

τ ω

ωτ τ

ω

e

Với W*(ω’-ω) và F(ω’) lần luợt là phổ của cửa sổ w(t-τ) và tín hiệu f(t)

Trong (2.84), W*(ω’-ω) có tác dụng như một bộ lọc dải thông tập trung quanh tần số ω và có băng thông bằng bang thông w(t) làm giới hạn phổ của tín hiệu F(ω’) xung quanh tần số đang phân tích ω Như vậy STFT có tính định vị theo tần số Tính định vị này càng tốt khi băng thông của cửa sổ phân tích càng hẹp

Ta thấy rằng, STFT chính là số đo độ giống nhau giữa tín hiệu phiên bản dịch và biến điệu của cửa sổ cơ bản vì (2.83) có thể viết lại như sau:

Trang 38

Với gω (t) = w(t-τ)ejωt là phiên bản địch và biến điệu của w(t)

Do việc dịch thời gian một khoảng τ làm cho cửa sổ tịnh tiến một khoảng τ theo trục thời gian và biến điệu cửa sổ với ejωt là cửa sổ tịnh tiến một khoảng ω theo trục tần số, nên kích thước của cửa sổ không thay đổi mà chỉ dời đến vị trí mới xung quanh (τ,ω) Như vậy mỗi hàm cửa sổ cơ sở sử dụng trong phép biến đổi này đều có một độ phân giải thời gian - tần số , chỉ khác vị trí trên mặt phẳng thời gian - tần số Do đó, có thể rời rạc hoá dễ dàng STFT trên một lưới chữ nhật (mωo , nτo )

Nếu hàm cửa sổ là một lọc hạ thông có tần số cắt ωb , hoặc băng thông 2ωb thì ωo

được chọn nhỏ hơn 2ωb và τo nhỏ hơn π/ωo để việc lấy mẫu không mất thông tin Các hàm cửa sổ tại tất cả các điểm lấy mẫu sẽ phủ kín mắt phẳng thời gian – tần số của phép biến đổi

Độ phân giải thời gian - tần số của STFT phụ thuộc vào hàm cửa sổ Để có độ phân giải thời gian tốt thì cửa sổ phân tích phải hẹp (về mặt thời gian) Trong khi đó, để đạt được độ phân giải tần số tốt thì băng thông của cửa sổ phải hẹp Tuy nhiên, theo nguyên lý bất định thì không thể tồn tại một cửa sổ với khoảng thời gian và băng thông hẹp tùy ý mà có một sự hoán đổi giữa hai thông số này (do tích của chúng bị chặn dưới) Nếu ta chọn cửa sổ có băng thông hẹp để được độ phân giải tần số tốt thí khoảng thời gian lại rộng làm cho độ phân giải thời gian kém đi và ngược lại Đây chính là nhược điểm của STFT

II.5.2 Một số hàm cửa sổ dùng trong STFT:

Trong xử lý tín hiệu, để giới hạn thời gian hoặc tần số (lọc) một tín hiệu, người ta thường dùng các hàm cửa sổ Trong STFT, hàm cửa sổ được dùng để giới hạn tín hiệu ở cả miền thời gian và miền tần số Một số cửa sổ thường hay được sử dụng được định nghĩa như sau:

+ Cửa sổ Boxcar (Rectangular)

01][

M n

M n n

w

Độ rông của cửa sổ là M+1 mẫu

+ Cửa sổ Bartlett (Triangular)

22

20

2]

[

M n

M M

n

M n M

n

n w

+ Cửa sổ Hanning

0)/2cos(

5,05,0][

M n

M n M

n n

Trang 39

+ Cửa sổ Hamming

0)/2cos(

46,054,0][

M n

M n M

n n

−

=

],0[0

0)/4cos(

8,0)/2cos(

5,042,0][

M n

M n M

n M

n n

+ Cửa sổ Kaiser (Được định nghĩa từ hàm Bessel bậc 0)

],0[

00

)(

]/)[(

1[][

0

2 0

M n

M n I

n I

n w

Với α = M/2 là I0(β) là hàm cải biên của Bessel bậc 0, được định nghĩa là:

II.6 BIẾN ĐỔI WAVELETS - Wavelets Transform:

Phép biến đổi Wavelets là một bước cải tiến tiếp theo của STFT Như đã trình bày ở phần trước, STFT không thể hiện được tính linh hoạt khi định vị các thành phần trong tín hiệu

do kích thước của cửa sổ cố định Như vậy tính hiệu chỉ được phân tích ở một độ phân giải thời gian – tần số cố định Điều này có thể được cải thiện bằng biến đổi Wavelets, cửa sổ sử dụng để phân tích tín hiệu có thể được phóng to hay thu nhỏ một cách đơn giản bằng cách thay đổi hệ số co giãn (Scale Factor), đồng thời cửa sổ có thể được dịch chuyển thông qua hệ số dịch chuyển (Shift Factor) trong hàm cơ sở Wavelets

Khi phân tích tín hiệu hỗn hợp nhiều thành phần, một cách trực quan ta thấy rằng các thành phần tần số cao tồn tại trong một khoảng thời gian ngắn nên có thể phân tích bằng một cửa sổ hẹp để có độ phân giải thời gian tốt Trong khi đó các thành phần tần số thấp ổn định trong một thời gian dài nên có thể phân tích bằng của sổ rộng để đạt độ phân giải tần số tốt Điều này có nghĩa là∆ω hẹp ở tần số thấp và ∆t phải hẹp ở tần số cao hay tỷ số ∆ω/ω là hằng số với mọi tần số phân tích ω

II.6.1 Công thừc biến đổi Wavelet:

Để đạt được tỷ số ∆ω/ω là hằng số với mọi tần số phân tích ω, thay vì dịch và biến điệu cửa sổ, ta dịch và thay đổi thang độ của hàm cơ sở ψ(t) ∈ L2(R):

t

b ψ

ψ , ( ) 1 (2.86)

Trang 40

b a

ω

C

2)(

Với ψ(ω) là phổ của ψ(t) (2.88)

Trong thực tế tính toán, để thỏa điều kiện Admissibility chỉ cần ψ(0) = 0 do ψ(ω) luôn

suy giảm ở tần số cao ∫∞

∞

−

=Ψ

)

( dt t

tần số và suy giảm ở tần số cao nên hàm có tính chất như một mắt lọc hạ thông

Nếu hàm Morther Wavelet thỏa điều kiện Admissibility thì có thể khôi phục f(t) từ

CWTf(a,b) theo biểu thức sau:

a

dadb b a b a CWT C

(2.87) có thể được viết lại:

a

b t a

b a

Áp dụng định lý Parserval vào (2.87) ta được:

e F a

a dt t f F a

b t F a b

a

2)]

([2

1),

Với F(ω), ψ(ω) lần lượt là biến đổi Fourier của f(t) và ψ(t)

(2.87) là biểu thức tính CWT của tín hiệu f(t) ở miền thời gian, (2.91) là biểu thức tính CWT của tín hiệu f(t) ở miền tần số Hai biểu thức này cho thấy khi tính CWT tại một điểm (a,b) trong mặt phẳng thời gian – tần số, tín hiệu f(t) đã bị giới hạn thời gian trong khoảng ∆t xung quanh b và giới hạn tần số trong khoảng ∆ω xung quanh ωc (do a quy định) có kích thước (∆ω,∆t) của hàm Wavelet ψa,b(t)

Tiêu đề	Nhận dạng tiếng nói dùng mô hình markov ẩn
Tác giả	Nguyễn Thanh Phương
Người hướng dẫn	TS. Nguyễn Đức Thành
Trường học	Đại Học Bách Khoa, Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành	Tự động hóa
Thể loại	Luận văn
Năm xuất bản	2003
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	121
Dung lượng	1,11 MB