1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Bài giảng môn học : xử lý tiếng nói P1

25 974 11
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài giảng môn học: xử lý tiếng nói P1
Tác giả Cnt45dh Group
Người hướng dẫn Cao Quyết Thắng
Trường học Trường Đại Học Hàng Hải Việt Nam
Chuyên ngành Xử lý tiếng nói
Thể loại Bài giảng
Thành phố Hải Phòng
Định dạng
Số trang 25
Dung lượng 622,67 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, như: điện thoại di động, PC,… Để cho máy tính có thể nghe được nhiều người đã vật lộn

Trang 1

CAO QUYẾT THẮNG Trang 1

TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN

BÀI GIẢNG MÔN HỌC

XỬ LÝ TIẾNG NÓI

Trang 2

CAO QUYẾT THẮNG Trang 2

MỤC LỤC

MỞ ĐẦU 2

CHƯƠNG I: NHẬP MÔN §1 TÍN HIỆU TIẾNG NÓI 3

§2 XỬ LÝ TÍN HIỆU 4

§3 XỬ LÝ TÍN HIỆU SỐ 5

§4 XỬ LÝ TIẾNG NÓI BẰNG SỐ 6

CHƯƠNG II: CƠ SỞ XỬ LÝ TÍN HIỆU SỐ §1 CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU THỜI GIAN RỜI RẠC 9

§2 BIỂU DIỄN BIẾN ĐỔI CỦA CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU 11

§3 CƠ BẢN VỀ CÁC LỌC SỐ 15

§4 LẤY MẪU 19

CHƯƠNG III: CÁC MÔ HÌNH SỐ CHO TÍN HIỆU TIẾNG NÓI §1 NHẬP MÔN 22

§2 QUÁ TRÌNH TẠO TIẾNG NÓI 23

§ 3 LÝ THUYẾT ÂM HỌC CỦA VIỆC TẠO TIẾNG NÓI 29

§4 CÁC MÔ HÌNH ỐNG MẤT ÍT 40

§5 CÁC MÔ HÌNH SỐ CHO CÁC TÍN HIỆU TIẾNG NÓI 48

TÀI LIỆU THAM KHẢO 52

Trang 3

CAO QUYẾT THẮNG Trang 3

MỞ ĐẦU

Tiếng nói là phương tiện giao tiếp cơ bản nhất của loài người, nó hình thành và phát triển song song với quá trình tiến hóa của loài người Đối với con người, sử dụng lời nói là một cách diễn đạt đơn giản và hiệu quả nhất Ưu điểm của việc giao tiếp bằng tiếng nói trước tiên là ở tốc độ giao tiếp, tiếng nói từ người nói được người nghe hiểu ngay lập tức sau khi được phát ra Bên cạnh đó, tiếng nói là cách giao tiếp được sử dụng rộng rãi nhất – bất cứ ai (dĩ nhiên là trừ những người khuyết tật) cũng có thể nói được Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy móc dần dần thay thế các lao động tay chân Tuy nhiên để điều khiển máy móc, con người phải làm khá nhiều thao tác tốn nhiều thời gian và cần phải được đào tạo Điều này gây trở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật Trong khi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn Nhu cầu điều khiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay, như: điện thoại di động, PC,…

Để cho máy tính có thể nghe được nhiều người đã vật lộn với tín hiệu âm thanh trong hơn nửa thế kỷ qua trong lĩnh vực nhận dạng tiếng nói Quá trình này được đánh dấu bằng các kết quả nghiên cứu đặc sắc trong lĩnh vực phân tích và xử lý tiếng nói, các ứng dụng thực tế khá hữu ích Nhưng dù sao, khả năng của máy vẫn vẫn còn trong khoảng giới hạn, còn cần phát triển hơn nữa để có thể thật sự đáp ứng nhu cầu thực sự của cuộc sống

Trang 4

CAO QUYẾT THẮNG Trang 4

CHƯƠNG 1 NHẬP MÔN

Trong bài giảng này ta sẽ xét cách các kỹ thuật xử lý tín hiệu số có thể áp dụng vào các bài toán liên quan đến việc truyền tiếng nói Do vậy, ở phần nhập môn này ta sẽ nói đến các vấn đề như bản chất của tín hiệu tiếng nói, các kỹ thuật xử lý tín hiệu số đóng vai trò thế nào trong việc học xử lý tín hiệu tiếng nói và một vài lĩnh vực áp dụng quan trọng của việc truyền tiếng nói mà kỹ thuật xử lý tín hiệu số được sử dụng trong đó

§1 TÍN HIỆU TIẾNG NÓI

Mục đích của tiếng nói là truyền thông tin Có một số cách đặc trưng cho việc truyền tiếng nói Một cách tiếp cận có chất lượng cao là dùng các quan điểm của lý thuyết thông tin đưa ra bởi Shannon năm 1968 Theo lý thuyết thông tin, tiếng nói có thể biểu

diễn dưới dạng nội dung thông báo hoặc thông tin Một cách đặc trưng khác là tiếng nói

biểu diễn dưới dạng tín hiệu mang thông tin thông báo Mặc dù các quan điểm lý thuyết của thông tin đóng vai trò chủ đạo trong các hệ thống truyền tin phức tạp, ta sẽ thấy là biểu diễn tiếng nói dựa trên dạng sóng hoặc mô hình tham số được sử dụng chính trong các ứng dụng thực tế

Để xét quá trình thông tin tiếng nói, đầu tiên nên coi thông báo như một dạng trừu tượng nào đó trong óc người nói Qua quá trình phức tạp tạo âm, thông tin trong thông báo này được chuyển trực tiếp thành tín hiệu âm học Thông tin thông báo có thể được biểu diễn dưới một số dạng khác nhau trong quá trình tạo tiếng nói Chẳng hạn, thông tin thông báo lúc ban đầu được chuyển thành tập hợp các tín hiệu thần kinh điều khiển cơ

chế phát âm (đó là chuyển động của lưỡi, môi, dây thanh âm, v v ) Bộ máy phát âm

chuyển động tương ứng với các tín hiệu thần kinh này để tạo ra dãy các điệu bộ, mà kết quả cuối cùng là dạng sóng âm chứa thông tin trong thông báo gốc

Thông tin được thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn bởi việc dán các phần tử ở một tập hợp hữu hạn các ký hiệu Các ký hiệu mà mỗi âm có

thể được phân loại ra gọi là các âm vị (phoneme) Mỗi ngôn ngữ có tập hợp các âm vị

riêng của nó, con số mẫu mực là khoảng từ 30 đến 50 Ví dụ, tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị (chương 3); tiếng Việt khoảng 33 âm vị (a, ă, â, b, c, d, đ, e, ê, f, g,

h, i, j, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ư, v, w, x, y, z; 12 nguyên âm, 21 phụ âm)

Trong lý thuyết thông tin người ta còn xét tốc độ truyền thông tin Với tiếng nói, lưu

ý đến các giới hạn vật lý của tốc độ chuyển động của bộ máy phát âm, đánh giá thô của tốc độ thông tin là con người tạo ra tiếng nói với tốc độ trung bình khoảng 10 âm vị trong

1 giây Nếu mỗi âm vị biểu diễn bằng một số nhị phân thì mã số 6 bit là quá đủ để biểu diễn tất cả các âm vị tiếng Anh Với tốc độ trung bình 10 âm vị trên giây và bỏ qua tương tác giữa các cặp âm vị liền kề, ta có ước lượng 60 bit/giây cho tốc độ thông tin trung bình của tiếng nói Nói cách khác là lượng viết ra của tiếng nói chứa thông tin tương đương với 60 bit/gy ở tốc độ nói chuẩn Dĩ nhiên, cận dưới của nội dung thông tin xác thực trong tiếng nói được coi là cao hơn tốc độ này Ước lượng trên không tính đến các nhân tố như trạng thái của người nói, tốc độ nói, âm hưởng của tiếng nói, v v

Trang 5

CAO QUYẾT THẮNG Trang 5

Trong hệ thống truyền tiếng nói, tín hiệu tiếng nói được truyền đi, lưu giữ và xử lý bằng nhiều cách Các giải pháp kỹ thuật cho ta nhiều cách biểu diễn tín hiệu tiếng nói Có

2 cách chính:

- Lưu giữ nội dung thông báo trong tín hiệu tiếng nói

- Biểu diễn tín hiệu tiếng nói dưới dạng thuận tiện để truyền đi hoặc lưu giữ, hoặc dưới dạng linh động để có thể sửa chữa mà không ảnh hưởng đến nội dung thông báo

Biểu diễn tín hiệu tiếng nói phải làm sao cho nội dung thông tin có thể dễ dàng lĩnh hội được bởi người nghe hoặc bằng máy tự động Trong bài giảng này ta sẽ thấy các biểu diễn của tín hiệu tiếng nói (chứ không phải là nội dung thông báo) có thể yêu cầu từ

500 đến trên 1 triệu bit/gy Trong việc thiết kế và xử lý các biểu diễn này, các phương pháp xư lý tín hiệu đóng vai trò cơ bản

§2 XỬ LÝ TÍN HIỆU

Các bài toán chung của thao tác và xử lý thông tin được vẽ ở hình 1.1 Trong trường hợp các tín hiệu tiếng nói, người ta coi nguồn thông tin, đo đạc hoặc quan sát, nói chung, là có dạng sóng âm Xử lý tín hiệu bao gồm trước hết là nhận được biểu diễn tín hiệu dựa trên mô hình đã cho và sau đó là dùng biến đổi ở mức cao hơn để đặt tín hiệu vào dạng tiện dụng hơn Bước cuối cùng của xử lý là trích ra và sử dụng thông tin thông báo Bước này có thể thực hiện hoặc bởi người nghe hoặc tự động bằng máy Lấy ví dụ

là hệ thống có chức năng nhận biết tự động người nói từ một tập hợp người đã cho, có thể sử dụng biểu diễn phổ phụ thuộc thời gian của tín hiệu tiếng nói Một biến đổi tín hiệu

có thể dùng là phổ trung bình ở một câu đầy đủ, so sánh phổ trung bình với phổ trung bình đã lưu trữ của mỗi người nói, rồi sau đó dựa trên số đo tương tự của phổ mà nhận biết người nói Ở ví dụ này, thông tin trong tín hiệu dùng để nhận dạng người nói

Hình 1.1 Các bài toán thao tác và xử lý thông tin

Như vậy, xử lý các tín hiệu tiếng nói, nói chung, gồm 2 việc Thứ nhất là phương tiện để nhận được biểu diễn tín hiệu tiếng nói nói chung, hoặc dưới dạng sóng âm hoặc dưới dạng tham số Thứ hai là xử lý tín hiệu, thực hiện việc chuyển tín hiệu thành các dạng khác ít tổng quan hơn nhưng thích hợp hơn cho các ứng dụng

Nguồn Thông tin

Trích ra và Sử dụng Thông tin

Đo đạc hoặc Quan sát

Biểu diễn tín hiệu

Biến đổi tín hiệu TÝn hiÖu

lýXö

Trang 6

CAO QUYẾT THẮNG Trang 6

§3 XỬ LÝ TÍN HIỆU SỐ

Mục đích của môn học là khám phá vai trò của kỹ thuật số trong xử lý các tín hiệu tiếng nói Xử lý tín hiệu số tập trung vào 2 việc là nhận được các biểu diễn rời rạc của tín hiệu và lý thuyết, thiết kế, thực hiện các thủ tục số để xử lý các biểu diễn rời rạc này Đối tượng của xử lý tín hiệu số là nhận biết các đối tượng trong xử lý tín hiệu tương tự Vì vậy, một câu hỏi có lý là vì sao các kỹ thuật xử lý tín hiệu số lại được dùng để nghiên cứu thông tin tiếng nói? Có thể nêu ra nhiều lý do để trả lời Đầu tiên và quan trọng nhất là các hàm xử lý tín hiệu phức tạp có thể thực hiện bằng cách dùng kỹ thuật số Các thuật toán

sẽ xét trong bài giảng là các thuật toán cho các hệ thống thời gian rời rạc Ở nhiều trường hợp, không thể coi các hệ thống này là hệ thống xấp xỉ của các hệ thống tương tự

Các kỹ thuật xử lý tín hiệu số lúc đầu được dùng trong xử lý tiếng nói như mô phỏng các hệ thống tương tự phức tạp Quan điểm lúc ban đầu là phải mô phỏng các hệ thống tương tự trên máy tính để tránh việc xây dựng các hệ thống để thực nghiệm Khi các mô phỏng số của các hệ tương tự được sử dụng, các tính toán đòi hỏi nhiều thời gian, chẳng hạn, cần khoảng 1 giờ để xử lý vài phút nói! Đến khoảng giữa những năm

1960 nổ ra cách mạng trong xử lý tín hiệu số Các xúc tác chính là sự phát triển của máy tính nhanh hơn và các tiến bộ nhanh trong lý thuyết kỹ thuật xử lý tín hiệu số Như vậy, rõ ràng là các hệ thống xử lý tín hiệu số đã có hiệu lực hơn ở khả năng mô phỏng các hệ thống tương tự Cộng thêm với các phát triển lý thuyết, các phát triển đồng thời trong phạm vi phần cứng số cũng làm mạnh lên ưu thế của các kỹ thuật xử lý tín hiệu số so với các hệ thống tương tự Các hệ thống số đáng tin cậy và rất chặt chẽ Công nghệ mạng tổng thể đã phát triển đến trạng thái mà các hệ thống cực kỳ phức tạp có thể hoạt động trên một chip đơn Các thành công của lôgic là đủ nhanh để số lớn các tính toán thực tế trong nhiều hàm xử lý tín hiệu có thể thực hiện trong thời gian thực và ở tốc độ mẫu tiếng nói

Có nhiều lý do khác để dùng kỹ thuật số trong các hệ thống thông tin tiếng nói Chẳng hạn, nếu mã hoá được dùng, tiếng nói dưới dạng số hoá có thể truyền đi một cách tin cậy trên các kênh rất ồn Cũng vậy, nếu tín hiệu tiếng nói ở dạng số thì nó đồng nhất với dữ liệu của các dạng khác Do vậy, một lưới thông tin có thể dùng để truyền cả tiếng nói và các dữ liệu khác mà không cần phân biệt chúng trừ việc giải mã Ngoài ra, về yêu cầu bảo mật việc truyền các tín hiệu giọng nói, biểu diễn số có ưu thế khác biệt so với các

hệ thống tương tự Để bảo mật, các bit thông tin có thể đổi đi để cuối cùng có thể tái hiện lại ở người nhận Với các lý do nêu trên và nhiều lý do khác nữa mà các kỹ thuật số được

sử dụng ngày càng nhiều trong các bài toán truyền tiếng nói

Trang 7

CAO QUYẾT THẮNG Trang 7

Dĩ nhiên, việc biểu diễn các tín hiệu tiếng nói dưới dạng số là chủ đề cơ bản Về

việc này, chúng ta được hướng dẫn bằng định lý lấy mẫu (Sampling Theorem, H Nyquist, 1928) phát biểu là: tín hiệu giới hạn dải (bandlimited) có thể được biểu diễn bởi các mẫu lấy tuần hoàn theo thời gian, miễn là các mẫu được lấy ở tỷ lệ đủ cao Như vậy, việc xử

lý mẫu nằm trọn trong lý thuyết và ứng dụng của xử lý tiếng nói bằng số Có nhiều cách biểu diễn rời rạc các tín hiệu tiếng nói Như biểu diễn ở hình vẽ, các biểu diến này có thể

phân thành 2 nhóm lớn gọi là biểu diễn dạng sóng (waveform representation) và biểu diễn tham số (parametric representation) Biểu diễn dạng sóng, như tên gọi chỉ ra,

quan tâm đến việc bảo toàn đơn giản "dạng sóng" của tín hiệu tiếng nói tương tự qua mẫu và xử lý về lượng Các biểu diễn tham số, mặt khác, biểu diễn tín hiệu tiếng nói như đầu ra của mô hình tạo tiếng nói Bước thứ nhất để nhận được biểu diễn tham số thường là biểu diễn dạng sóng bằng số, tín hiệu tiếng nói được lấy mẫu và lượng hoá, rồi sau đó được xử lý tiếp tục để nhận được các tham số của mô hình tạo tiếng nói Các

tham số của mô hình này được phân loại thích hợp thành các tham số kích thích

(excitation parameter, liên quan đến nguồn của các âm tiếng nói) hoặc các tham số đáp ứng vết thanh âm (vocal tract response parameter, liên quan đến các âm tiếng nói đơn

lẻ)

Biểu diễn Tín hiệu tiếng nói

Các biểu diễn

Dạng Sóng

Các biểu diễn Tham số

Tham số

Tổng hợp từ Văn bản in (Không mã hoá nguồn)

Biểu diễn Dạng Sóng

(Mã hoá nguồn) Các biểu diễn Tham số

Hình 1 3 Thứ hạng các tốc độ bits cho một số kiểu biểu diễn tiếng nói

Trang 8

CAO QUYẾT THẮNG Trang 8

Hình 1 3 so sánh bằng số các biểu diễn khác nhau của tín hiệu tiếng nói theo tốc

độ dữ liệu Đường ngăn cách là ở tốc độ dữ liệu khoảng 15000 tách biểu diễn dạng sóng tốc độ cao với các dạng tham số tốc độ thấp

Các ứng dụng của Thông tin tiếng nói

Truyền và

Lưu giữ bằng số

Tổng hợp tiếng nói

Kiểm tra và Nhận biết người nói

Thừa nhận tiếng nói

Giúp đỡ người Tàn tật

Tăng cường chất lượng tín hiệu số

Hình 1 4 Vài ứng dụng của việc truyền tiếng nói

Hình 1 4 cho một vài trong nhiều lĩnh vực ứng dụng của việc truyền tiếng nói Sau đây là một trình bày ngắn gọn về mỗi phạm vi này

4.1 Truyền và lưu giữ tiếng nói bằng số (Digital transmission and storage of speech):

Một trong những ứng dụng sớm nhất và quan trọng nhất của xử lý tiếng nói là VOCODER

hay mã hoá tiếng nói (voice coder) đưa ra bởi Homer Dudlay vào năm 1930 Mục đích

của VOCODER là thu gọn độ rộng băng cần thiết để truyền tín hiệu tiếng nói Sự cần thiết phải thu hẹp độ rộng dải ở nhiều tình huống là do độ rộng dải được cung cấp bởi vệ tinh, bởi sóng âm và các hệ thống thông tin quang học bị tăng lên

4.2 Hệ thống Tổng hợp tiếng nói (Speech synthesis system): Người ta dành nhiều chú ý cho các hệ thống tổng hợp tiếng nói là vì cần lưu giữ tiếng nói bằng số cho các hệ thống

đáp ứng tiếng nói của máy tính (computer voice response) một cách tiết kiệm Hệ thống

đáp ứng này do R L Rabiner và R W Schafer đề nghị năm 1976 Một hệ thống đáp ứng tiếng nói cơ bản là một dịch vụ thông tin tự động, số hoá hoàn toàn, có thể bị kích thích bởi người dùng bàn phím hoặc dữ liệu và đáp ứng với thông tin đòi hỏi bằng tiếng nói

4.3 Các hệ thống kiểm tra và nhận biết người nói (Speaker verification and indentification

systems): được B S Atal dề nghị năm 1976 Các kỹ thuật kiểm tra và nhận biết người nói dùng để nhận dạng tiếng nói hoặc nhận ra người nói trong một tập hợp lớn những người nói có thể có Khi có một tiếng nói phát ra, người ta dựa vào các dữ liệu đã có để kiểm tra

và nhận biết nguồn hoặc người phát ra tiếng nói

4.4 Các hệ thống đoán nhận (recognition) tiếng nói: được D R Reddy đề nghị năm

1976 Việc đoán nhận tiếng nói, dưới dạng chung nhất của nó, là chuyển đổi từ dạng sóng âm thành bản viết của thông tin thông báo Bài toán đoán nhận tiếng nói phụ thuộc rất nhiều vào các ràng buộc đặt cho người nói, tình trạng nói và nội dung thông báo Các ứng dụng lớn của các hệ thống đoán nhận tiếng nói rất nhiều và đa dạng, chẳng hạn như máy chữ điều khiển bằng tiếng nói, thông tin nói với các máy tính, v v Một hệ thống đoán nhận tiếng nói kết hợp với một hệ thống tổng hợp tiếng nói tạo ra một hệ thống

truyền thông có tỉ lệ bit thấp tối đa (the ultimate low bit rate communica- tion system) 4.5 Các hệ thống giúp đỡ người tàn tật (Aids-to-the handicapped): Ứng dụng này tập

trung vào quá trình xử lý tín hiệu tiếng nói làm thông tin có dạng thích hợp với các người

Trang 9

CAO QUYẾT THẮNG Trang 9

tàn tật, như ghi âm cho người mù; hiển thị hình ảnh của TTin tiếng nói để dạy cho người điếc do H Levitt đề nghị năm 1973

4.6 Tăng cường chất lượng tín hiệu (Enhancement of signal quality): Ở nhiều tình huống, tín hiệu tiếng nói bị suy giảm theo hướng hạn chế hiệu quả việc truyền đi, hoặc phải loại

bỏ tiếng vang, tiếng ồn khi nói Ở các tình huống này các kỹ thuật xử lý tín hiệu số được

sử dụng để cải thiện chất lượng tiếng nói Các ví dụ là khử bỏ nhiễu (hay tiếng ồn, tạp âm) trong tiếng nói hoặc khôi phục các âm

Trang 10

CAO QUYẾT THẮNG Trang 10

CHƯƠNG 2

CƠ SỞ XỬ LÝ TÍN HIỆU SỐ

§1 CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU THỜI GIAN RỜI RẠC

Trong hầu như mỗi tình huống xử lý hoặc truyền thông tin, người ta phải bắt đầu bằng việc biểu diễn tín hiệu như mẫu biến đổi liên tục Sóng âm phát ra cũng có bản chất như vậy Về mặt toán học, có thể biểu diễn các mẫu biến đổi liên tục như vậy là hàm của

biến liên tục t biểu diễn thời gian Trong bài giảng này, ta sẽ dùng ký hiệu xa(t) cho dạng sóng thời gian biến đổi liên tục (hoặc tương tự) Cũng có thể biểu diễn tín hiệu tiếng nói như dãy các số Nói chung, ta dùng ký hiệu x(n) để biểu diễn dãy số Nếu dãy có thể coi

là dãy các mẫu tín hiệu tương tự xảy ra tuần hoàn với chu kỳ mẫu T thì ta sẽ dùng ký hiệu xa(nT) Hình 2.1 cho ví dụ tín hiệu tiếng nói biểu diễn ở cả 2 dạng tín hiệu tương tự (analog) và dạng dãy các mẫu (samples) có tỉ lệ mẫu 8 kHz

Hình 2.1 Các biểu diễn của tín hiệu tiếng nói

Khi nghiên cứu các hệ thống xử lý tín hiệu tiếng nói ta sẽ sử dụng một số dãy số

được vẽ ở hình 2.2 Mẫu đơn vị (unit sample) hay dãy xung đơn vị (unit impulse

sequence) được định nghĩa (định nghĩa) là: (n) =

0 0

0 1

n n

Dãy bước đơn vị (unit step sequence) là: u(n) =

0 0

0 1

<

n n

Dãy luỹ thừa (exponential sequence) có dạng: x(n) = an

Nếu a là số phức, t l a = r j 0

e thì x(n) = rn.ej 0n = rn(cos 0n + j.sin 0n) Nếu r = 1 và 0 0 thì x(n) là sinusoid phức; nếu 0 = 0, x(n) là số thực; còn nếu r < 1 và

0 0 thì x(n) là dãy dao động phân rã (exponentially decaying oscillatory sequence) Dãy kiểu này xuất hiện khi biểu diễn các hệ thống tuyến tính và khi mô hình dạng sóng tiếng nói

Trang 11

CAO QUYẾT THẮNG Trang 11

Xử lý tín hiệu đòi hỏi biến đổi tín hiệu thành dạng mong muốn theo một nghĩa nào

đó Ta sẽ tập trung xét các hệ thống rời rạc, hay nói tương đương là các biến đổi dãy vào thành dãy ra Ta sẽ mô tả các phép biến đổi ấy bằng lược đồ như ở hình 2.3a

x(n) y(n)*T[x(n)] x(n)

y(n)*T[x(n)]

Hình 2.3 Lược đồ biểu diễn: (a) Hệ thống vào/ra đơn; (b) Hệ thống vào/nhiều ra

Lớp các hệ thống bất biến-dịch chuyển tuyến tính (LSI - Linear Shift Invariant)

thường được dùng trong xử lý tiếng nói Các hệ thống này được đặc trưng hoàn toàn bởi đáp ứng của chúng cho cái vào mẫu đơn vị Với các hệ thống này, cái ra, y(n), có thể tính được từ cái vào, x(n), và đáp ứng của mẫu đơn vị, h(n), theo tích chập:

y(n) =

k

k n h k

h( ) ( ) = h(n)*x(n), Các hệ thống LSI thường dùng để lập các phép lọc trên các tín hiệu tiếng nói và,

có lẽ quan trọng hơn là, chúng rất có ích cho các mô hình tạo ta tiếng nói

Trang 12

CAO QUYẾT THẮNG Trang 12

§2 BIỂU DIỄN BIẾN ĐỔI CỦA CÁC HỆ THỐNG VÀ CÁC TÍN HIỆU

Phân tích và thiết kế các hệ thống tuyến tính được thực hiện dễ dàng nhờ các biểu diễn miền tần số (frequency-domain representation) của cả các tín hiệu và hệ thống

Do vậy, cần xét các biểu diễn của biến đổi Fourier (Fourier Transform, FT) và của biến đổi

Z (Z - Transform, ZT) của các tín hiệu và hệ thống rời rạc

1 Biến đổi Z (ZT) : Biểu diễn ZT của dãy được xác định bởi 2 phương trình:

X(z) =

n

n

z n

1

)(2

1

(2b)

"Biến đổi Z" (ZT) hay "biến đổi trực tiếp" của x(n) được xác định bởi (2a) Tổng quan, có thể thấy X(z) là chuỗi luỹ thừa vô hạn theo biến z-1, trong đó dãy các giá trị, x(n), đóng vai trò các hệ số trong chuỗi luỹ thừa Nói chung, các chuỗi luỹ thừa này sẽ hội tụ đến giá trị

hữu hạn chỉ với các giá trị xác định của z Điều kiện đủ của hội tụ là:

n

n

z n

Tập hợp các giá trị mà chuỗi hội tụ xác định một miền trên mặt phẳng phức Z gọi là miền hội tụ Nói chung, miền này có dạng:

R1 < z < R2 (4)

Để thấy quan hệ của miền hội tụ với bản chất của dãy, ta xét vài ví dụ

Ví dụ 1: Cho x(n) = (n-n0) (xung đơn vị tại n0 ) Thế vào (1a) ta được: X(z) = n0

z

Ví dụ 2 : Cho x(n) = u(n) - u(n-N) (bước đơn vị trên đoạn [0, N-1]) Khi đó

X(z) =

1 0

)1(

Đây là dãy độ dài vô hạn mẫu khác 0 với n < 0, có miền hội tụ nói chung là z < R2

Trường hợp tổng quát nhất, trong đó x(n) 0 với - < n < , có thể xem như tổng hợp

của các trường hợp nêu ở ví dụ 3 và ví dụ 4 Như vậy, trong trường hợp tổng quát, miền hội tụ có dạng R1 < z < R2

Phép "biến đổi Z ngược" (Inverse Z- Transform, IZT) được định nghĩa bởi tích phân đường kín (2b), trong đó C là chu tuyến kín bao quanh gốc của mặt phẳng Z và nằm trong miền hội tụ của X(Z)

Ngày đăng: 17/10/2013, 18:15

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Các bài toán thao tác và xử lý thông tin - Bài giảng môn học : xử lý tiếng nói P1
Hình 1.1. Các bài toán thao tác và xử lý thông tin (Trang 5)
Hình 1. 2. Các cách biểu diễn Tín hiệu tiếng nói - Bài giảng môn học : xử lý tiếng nói P1
Hình 1. 2. Các cách biểu diễn Tín hiệu tiếng nói (Trang 7)
Hình 1. 3 so sánh bằng số các biểu diễn khác nhau của tín hiệu tiếng nói theo tốc - Bài giảng môn học : xử lý tiếng nói P1
Hình 1. 3 so sánh bằng số các biểu diễn khác nhau của tín hiệu tiếng nói theo tốc (Trang 8)
Hình 2.1. Các biểu diễn của tín hiệu tiếng nói. - Bài giảng môn học : xử lý tiếng nói P1
Hình 2.1. Các biểu diễn của tín hiệu tiếng nói (Trang 10)
Hình 2.3. Lược đồ biểu diễn: (a) Hệ thống vào/ra đơn; (b) Hệ thống vào/nhiều ra. - Bài giảng môn học : xử lý tiếng nói P1
Hình 2.3. Lược đồ biểu diễn: (a) Hệ thống vào/ra đơn; (b) Hệ thống vào/nhiều ra (Trang 11)
Bảng 1. Các dãy và các ZT tương ứng - Bài giảng môn học : xử lý tiếng nói P1
Bảng 1. Các dãy và các ZT tương ứng (Trang 13)
Hình 2.4. Sơ đồ khối biểu diễn việc thêm vào. - Bài giảng môn học : xử lý tiếng nói P1
Hình 2.4. Sơ đồ khối biểu diễn việc thêm vào (Trang 22)
Hình 3. 1. ảnh X quang bộ máy phát âm - Bài giảng môn học : xử lý tiếng nói P1
Hình 3. 1. ảnh X quang bộ máy phát âm (Trang 24)

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w