1. Trang chủ
  2. » Luận Văn - Báo Cáo

nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm

70 635 5
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Trường học Học viện Kỹ thuật Quân sự
Chuyên ngành Xử lý tiếng nói và nhận dạng người nói
Thể loại Luận văn
Năm xuất bản 2014
Thành phố Hà Nội
Định dạng
Số trang 70
Dung lượng 1,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa...12 Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI...14 2.1.. Luận văn này tập trung nghiên cứu bài toán xác

Trang 1

Nhiệm vụ luận văn………

Mục lục………

Danh mục các ký hiệu, các ký tự viết tắt………

Danh mục các bảng………

Danh mục các hình vẽ, đồ thị………

Mở đầu……… 1

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI 4

1.1 Các lĩnh vực của xử lý tiếng nói 4

1.2 Nhận dạng người nói 5

1.2.1 Cơ sở lý thuyết của nhận dạng người nói 5

1.2.2 Phân loại bài toán nhận dạng người nói 6

1.2.3 Các ứng dụng của bài toán nhận dạng người nói 9

1.3 Xác thực người nói không phụ thuộc vào từ khóa 11

1.3.1 Giới thiệu chung 11

1.3.2 Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa 11

1.3.3 Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12

Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI 14

2.1 Đặc điểm vật lý, âm học của tiếng nói 14

2.1.1 Đặc điểm vật lý của tiếng nói 14

2.1.2 Đặc điểm âm học của tiếng nói 17

2.2 Tiền xử lý tín hiệu tiếng nói 22

2.2.1 Chuyển từ tín hiệu tương tự sang tín hiệu số 22

2.2.2 Chuẩn hóa biên độ 25

2.2.3 Biến đổi Fourier 26

2.2.4 Lọc nhiễu 27

2.2.5 Làm rõ tín hiệu 27

2.3 Trích chọn đặc trưng người nói 28

2.3.1 Mục đích của trích chọn đặc trưng 28

Trang 2

PHỤ THUỘC VÀO TỪ KHÓA 38

3.1 Phân loại các mô hình 39

3.1.1 Mô hình mẫu (Template Modeling) 39

3.1.2 Mô hình thống kê (Statistical Modeling) 39

3.2 Mô hình lượng tử hóa vector (Vector Quantization- VQ) 40

3.2.1 Khái niệm phép lượng tử hóa 40

3.2.2 Độ biến dạng 42

3.2.3 Tính chất 42

3.2.4 Thiết kế codebook theo phương pháp LBG (Linde, Buzo, and Gray) 43

3.3 Mô hình hỗn hợp Gauss 46

3.3.1 Bài toán ước lượng mật độ 46

3.3.2 Thuật toán EM (Expectation Maximization) 47

3.4 Xây dựng mô hình người nói 48

3.4.1 Giới thiệu chung 48

3.4.2 Sử dụng mô hình VQ 49

3.4.3 Sử dụng GMM 51

3.5 So khớp 51

3.5.1 Giới thiệu chung 51

3.5.2 Phương pháp VQ 52

3.5.3 Phương pháp GMM 53

3.6 Tạo quyết định 53

Chương 4 CẤU HÌNH HỆ THỐNG VÀ KẾT QUẢ THỬ NGHỆM 56

4.1 Cấu trúc tổng quát của hệ thống 56

4.1.1 Module trích chọn đặc trưng MFCC 56

4.1.2 Module huấn luyện 57

4.1.3 Module xác thực 57

4.2 Dữ liệu tiếng nói 57

4.3 Tỷ lệ lỗi (Error rate) 58

4.4 Kết quả thực nghiệm 58

4.4.1 Số các hệ số MFCC 58

4.4.2 Mô hình VQ và GMM 59

4.4.3 Thời gian huấn luyện 59

Trang 3

Tài liệu tham khảo……… 63

Trang 4

DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform)

EM Thuật toán ước lượng hợp lý cực đại (Expectation Maximization)FFT Biến đổi Fourier nhanh (Fast Fourier Transform)

GMM Mô hình hỗn hợp Gauss (Gaussian Mixture Model)

LBG Thuật toán gom cụm của Linde, Buzo và Gray

VQ Lượng tử hóa vector (Vector Quantization)

Trang 5

Bảng 4.1.Tỷ lệ lỗi với số các hệ số MFCC khác nhau 58

Bảng 4.2.Tỷ lệ lỗi với hai mô hình VQ và GMM 59

Bảng 4.3.Tỷ lệ lỗi với thời gian huấn luyện khác nhau 59

Bảng 4.4.Tỷ lệ lỗi với số cụm khác nhau trong mô hình VQ 60

Bảng 4.5.Tỷ lệ lỗi với số cụm khác nhau trong GMM 60

Trang 6

Hình 1.3.Chứng thực giao dịch 10

Hình 1.4.Điều khiển truy nhập hệ thống 10

Hình 1.5.Nhận dạng tội phạm 10

Hình 1.6.Tư vấn bán hàng 11

Hình 1.7.Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 11

Hình 1.8.Các giai đoạn của một hệ thống xác thực người nói không phụ thuộc vào từ khóa 12 Hình 2.1.Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người 15

Hình 2.2.Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau 19

Hình 2.3.Ví dụ về lấy mẫu tín hiệu trên miền thời gian 23

Hình 2.4.Các giai đoạn của bài toán xác thực người nói 28

Hình 2.5.Đồ thị biểu diễn mối quan hệ giữa Mel và Hz 30

Hình 2.6.Sơ đồ khối của xử lý MFCC’s 31

Hình 2.7.Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu 32

Hình 2.8.Độn 0 vào khung tiếng nói 34

Hình 2.9.Biến đổi FFT cơ số 4 của khung tiếng nói đã được độn 0 34

Hình 2.10.Các bộ lọc mel-scale tam giác 35

Hình 3.1.Các thành phần trong một hệ thống xác thực người nói 39

Hình 3.2.Ví dụ VQ một chiều 40

Hình 3.3.Ví dụ VQ 2 chiều 41

Hình 3.4.Các thành phần của một hệ thống xác thực người nói 49

Hình 3.5.Các ví dụ xây dựng codebook dựa trên đặc trưng MFCC 50

Hình 3.6.Ví dụ xây dựng mô hình người nói sử dụng GMM 51

Hình 3.7.Giai đoạn so khớp mẫu 51

Hình 3.8.Minh họa hình ảnh so khớp mẫu của mô hình VQ 52

Hình 3.9.Giai đoạn tạo quyết định 53

Hình 3.10.Vấn đề xảy ra khi không dùng score chuẩn hóa 54

Hình 4.1.Các thành phần của một hệ thống xác thực người nói 56

Trang 7

MỞ ĐẦU

Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tínhiệu, và các phương pháp xử lý những tín hiệu này Xử lý tiếng nói có nhiềulĩnh vực nghiên cứu: nhận dạng tiếng nói, nhận dạng người nói, mã hóa tiếngnói, tổng hợp tiếng nói, phân tích giọng nói,

Nhận dạng người nói là một lĩnh vực nghiên cứu của xử lý tiếng nói.Mục đích của nhận dạng người nói là để nhận ra người nói là ai hoặc là xácminh liệu người đang nói có đúng là người mà máy tính đã được biết trướchay không (tính xác thật của giọng nói) Nhận dạng người nói có nhiều ứngdụng: thanh toán thẻ tín dụng qua điện thoại; đăng nhập vào các hệ thống anninh, máy tính bằng tiếng nói; giám định tư pháp tiếng nói… Chính vì vậyhiện nay trên thế giới lĩnh vực nhận dạng người nói nhận được rất nhiều sựquan tâm, nghiên cứu Tuy nhiên hiện nay ở Việt Nam mới có rất ít công trìnhnghiên cứu về vấn đề này

Luận văn này tập trung nghiên cứu bài toán xác thực người nói khôngphụ thuộc vào từ khóa – một bài toán trong lĩnh vực nhận dạng người nói.Mục đích của bài toán xác thực người nói không phụ thuộc vào từ khóa là xácminh liệu người đang nói có đúng là người mà máy tính đã được biết trướchay không (tính xác thật của giọng nói) nhưng không phụ thuộc vào nội dungngười nói

Cấu trúc của luận văn gồm: phần mở đầu; chương 1, 2, 3, 4; phần kếtluận và kiến nghị; tài liệu tham khảo; phụ lục

Nội dung chính của luận văn:

- Chương 1 nghiên cứu tổng quan về bài toán nhận dạng người nói:

 Cơ sở khoa học của nhận dạng người nói, phân loại bài toán nhậndạng người nói, các ứng dụng của nhận dạng người nói

 Giới thiệu tổng quan bài toán xác thực người nói không phụ

Trang 8

thuộc vào từ khóa, các thành phần của một hệ thống xác thựcngười nói, các giai đoạn hoạt động của một hệ thống xác thựcngười nói không phụ thuộc vào từ khóa

- Chương 2 nghiên cứu phương pháp trích chọn đặc trưng người nói:

cả trong giai đoạn huấn luyện và giai đoạn kiểm thử của một hệthống xác thực người nói không phụ thuộc vào từ khóa đều phải trảiqua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiêncứu chính của chương 2:

 Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tínhnày sẽ là cơ sở cho việc xác định các đặc trưng người nói

 Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếng nói sau khi được thu

và trước khi trích chọn đặc trưng, phải được tiến hành tiền xử lý.Mục đích của việc tiền xử lý tín hiệu tiếng nói là để loại bỏnhiễu, chuẩn hóa biên độ, làm rõ tín hiệu…

 Trích chọn đặc trưng người nói: mục đích của việc trích chọnđặc trưng người nói, phân loại các đặc trưng người nói, trình bàychi tiết các bước trích chọn đặc trưng MFCC- đặc trưng được lựachọn sử dụng chủ yếu cho các hệ thống nhận dạng người nói

- Chương 3 nghiên cứu về các mô hình ứng dụng xác thực người nóikhông phụ thuộc vào từ khóa: sau bước trích chọn đặc trưng đãđược trình bày ở chương hai, bước tiếp theo của các hệ thống xácthực người nói không phụ thuộc vào từ khóa đối với giai đoạn huấnluyện là bước xây dựng mô hình người nói, trong giai đoạn xác thực

là bước so khớp và đưa ra quyết định:

 Phân loại các mô hình: phân loại các mô hình thường được sửdụng trong nhận dạng người nói và chọn mô hình sử dụng chobài toán xác thực người nói không phụ thuộc vào từ khóa

Trang 9

 Mô hình lượng tử hóa vector (Vector Quantization): khái niệm

VQ, tính chất VQ, thiết kế codebook theo thuật toán LBG Đây

là cơ sở lý thuyết quan trọng cho việc ứng dụng mô hình VQtrong xác thực người nói không phụ thuộc vào từ khóa

 Mô hình hỗn hợp Gauss (Gaussian Mixture Model): khái niệmGMM, thuật toán EM Đây là cơ sở lý thuyết quan trọng cho việcứng dụng GMM xác thực người nói không phụ thuộc vào từkhóa

 Mô hình hóa người nói: cách sử dụng phương pháp VQ và GMM

để mô hình hóa người nói

 So khớp mẫu: đưa ra phương pháp so khớp mẫu trong giai đoạnkiểm thử ứng với từng mô hình hóa người nói VQ hay GMM

- Chương 4 trình bày về cấu hình hệ thống và kết quả thử nghiệm:

 Cấu trúc tổng quát của một hệ thống xác thực người nói

 Dữ liệu tiếng nói: trình bày cách thu thập dữ liệu tiếng nói đểphục vụ cho hệ thống

 Tần số lỗi: trình bày cách đánh giá mức độ gây lỗi của một hệthống xác thực người nói

 Kết quả thực nghiệm: trình bày kết quả thực nghiệm được tiếnhành với nhiều tiêu chí khác nhau

Trang 10

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG NGƯỜI NÓI

Chương một trình bày các nội dung chính:

- Các lĩnh vực nghiên cứu của xử lý tiếng nói

- Trình bày tổng quan về bài toán nhận dạng người nói, đây là mộtlĩnh vực nghiên cứu của xử lý tiếng nói: cơ sở lý thuyết của nhậndạng người nói, phân loại các bài toán nhận dạng người nói, cũngnhư các ứng dụng điển hình của nhận dạng người nói

- Trình bày tổng quan về bài toán xác thực người nói không phụthuộc vào từ khóa - vấn đề chính được nghiên cứu trong luận vănnày: các thành phần của một hệ thống xác thực người nói không phụthuộc vào từ khóa, các giai đoạn của một hệ thống xác thực ngườinói không phụ thuộc vào từ khóa

1.1 Các lĩnh vực của xử lý tiếng nói

Xử lý tiếng nói là sự nghiên cứu tiếng nói của con người dưới dạng tínhiệu, và các phương pháp xử lý những tín hiệu này

Xử lý tiếng nói có thể được chia thành các lĩnh vực sau:

- Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngôn ngữcủa tín hiệu tiếng nói Mục đích là để chuyển nội dung nói thành tínhiệu đầu vào của máy tính, giúp cho máy tính có thể xử lý và tươngtác được với người nói

- Nhận dạng người nói: mục đích là để nhận ra người nói là ai hoặc làxác minh liệu người đang nói có đúng là người mà máy tính đã đượcbiết trước hay không (tính xác thật của giọng nói)

- Tăng chất lượng tiếng nói: nhằm tăng sự cảm nhận của người nghe

Trang 11

về chất lượng tiếng nói Nó bao gồm: giảm nhiễu ồn của tín hiệutiếng nói, giảm/khử tiếng vọng (trong kỹ thuật điện thoại)

- Mã hóa tiếng nói: là một dạng của nén dữ liệu, có vai trò quan trọngtrong lĩnh vực viễn thông Ví dụ như trong thể thức truyền tiếng nóiqua internet (voIP), việc nén dữ liệu tiếng nói là điều bắt buộc đểgiảm băng thông đường truyền

- Tổng hợp tiếng nói: là tạo ra tiếng nói một cách nhân tạo nhờ máytính

- Phân tích giọng nói: được ứng dụng chủ yếu trong y học, nhằm pháthiện ra khuyết tật hay vấn đề của dây thanh âm, thanh quản,

- Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trícủa nguồn phát ra âm thanh (có thể là loa, người nói, ) Nó đượcứng dụng trong hội nghị hình thoại (videoconference) là hội nghị màngười tham gia ở các nơi khác nhau, hình ảnh và âm thanh ở hai haynhiều đầu cầu của hội nghị được truyền tải cho nhau qua hệ thốngđiện thoại số, internet hoặc sóng vệ tinh Khi vị trí người nói tronghội nghị được xác định, máy ghi hình được lập trình sẽ tự động quayđến vị trí đó và gửi hình ảnh đi Ngoài ra định vị nguồn âm thanhcòn có ứng dụng trong các kỹ thuật tăng chất lượng tiếng nói, trongtheo dõi an ninh,

1.2 Nhận dạng người nói

1.2.1 Cơ sở lý thuyết của nhận dạng người nói

Tiếng nói tự nhiên ngoài thông tin ngữ nghĩa mà người nói muốn truyềnđạt (thông tin có thể ghi lại dưới dạng chữ viết) còn chứa các thông tin nhưtrạng thái tình cảm khi nói, hay những thông tin riêng của giọng người nói…Các thông tin riêng biệt này được chia làm hai loại: mức cao và mức thấp

Trang 12

Mức cao gồm các thông tin như phương ngữ, ngữ cảnh, phong cách nói…vàmức thấp là các thông tin như các formant, bề rộng formant, cao độ (pitch),trường độ…Các thông tin này không phải bất biến từ lúc người biết nói đếnlúc già, nhưng nó có tính khá ổn định trong giai đoạn dài của cuộc đời Khicon người đã trưởng thành, những thói tật khi nói, những đặc trưng khu biệttrong cấu âm sẽ hình thành và mang tính ổn định cao Đây chính là cơ sởkhoa học cho việc xây dựng các hệ thống nhận dạng người nói.

1.2.2 Phân loại bài toán nhận dạng người nói

1.2.2.1 Phân loại dựa vào chức năng của bài toán

Phân loại dựa vào chức năng của bài toán người ta chia bài toán nhậndạng người nói thành hai bài toán: bài toán định danh người nói (speakeridentification) và bài toán xác thực người nói (speaker verification)

- Định danh người nói (speaker identification): kiểm tra xem ngườicần kiểm tra là ai, hay là không có trong hệ thống

Hình 1.1 Bài toán định danh người nói

- Xác thực người nói (speaker verification): xác minh liệu người đang

Trang 13

nói có đúng là người mà máy tính đã được biết trước hay không(tính xác thật của giọng nói)? Đây là dạng bài toán được nghiên cứutrong luận văn này.

Hình 1.2 Bài toán xác thực người nói

1.2.2.2 Phân loại dựa theo phương pháp

Phân loại dựa theo phương pháp thì người ta chia bài toán nhận dạngngười nói thành hai bài toán: bài toán nhận dạng người nói phụ thuộc vào từkhóa (text dependent speaker recognition) và bài toán nhận dạng người nóikhông phụ thuộc vào từ khóa (text independent speaker recognition):

- Nhận dạng người nói phụ thuộc vào từ khoá (text dependent speakerrecognition): nhận dạng người nói dựa trên sự kết hợp giữa đặctrưng người nói với nội dung nói

 Là kỹ thuật nhận dạng người nói có khả năng ứng dụng rất lớn,

ví dụ như đăng nhập vào các hệ thống an ninh bằng mật khẩutiếng nói hay truy cập bằng tiếng nói vào hệ thống giao dịchngân hàng trên mạng điện thoại thông qua mã số cá nhân (sốPIN), …

 Do tận dụng được các thông tin biết trước là nội dung tiếng nóikhi huấn luyện cũng như khi nhận dạng nên độ chính xác nhậndạng tăng lên trong khi thời gian huấn luyện và nhận dạng lạigiảm nhiều so với nhận dạng người nói không phụ thuộc từ khoá(text independent speaker recognition)

Trang 14

 Tuy nhiên hạn chế của kỹ thuật này là không có sự thay đổi trongmật khẩu nên hệ thống dễ bị tấn công bởi những kẻ giả mạo bằngcách ghi âm lại mật khẩu và tấn công hệ thống Để chống lại điềunày, nhiều hệ thống đã thay đổi cụm từ mật khẩu Chẳng hạntrong trường hợp cụm từ là các số, hệ thống sẽ sinh một cụm từmật khẩu là một dãy số ngẫu nhiên nào đó và thông báo nó mỗikhi có người đăng nhập hệ thống, các nghiên cứu chỉ ra rằng việc

sử dụng các dãy số và một số các từ cố định trong cụm từ mậtkhẩu khá hiệu quả khi chống lại sự giả mạo theo kiểu ghi âm từkhoá Trong pha huấn luyện, những người đăng ký sẽ nói các số

và một số các từ cố định Khi nhận dạng hệ thống sẽ thay đổicụm từ mỗi lần đăng nhập trong tập các từ được huấn luyện Mặc

dù nhận dạng này vẫn phụ thuộc từ khoá song nó làm cho sự giảmạo trở nên khó khăn hơn rất nhiều vì không biết được chính xáccụm từ mật khẩu tự sinh của hệ thống Các hệ thống như vậyđược gọi là các hệ nhận dạng người nói phụ thuộc từ khoá thayđổi

- Nhận dạng người nói không phụ thuộc vào từ khoá(text independentspeaker recognition): nhận dạng người nói chỉ dựa vào đặc trưngcủa người nói

 Hệ thống này lý tưởng hơn hệ thống nhận dạng người nói phụthuộc vào từ khoá, ứng dụng rộng rãi hơn, đáp ứng được hầu hếtcác yêu cầu đề ra Nhưng không may là hệ thống lý tưởng nhưvậy gặp một số vấn đề, nhất là độ chính xác của hệ thống

 Trong thực tế cùng một người cũng có giọng nói khác nhau ởnhững thời điểm khác nhau Điều này ảnh hưởng rất lớn đến việcnhận dạng, nó làm cho độ chính xác của hệ thống nhận dạng

Trang 15

giảm xuống nhiều lần Do đó để khắc phục nhược điểm này, hệthống nhận dạng không phụ thuộc từ khóa cần được thiết kếphức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện lớn hơn nhiềulần Nhưng điều này cũng không cải thiện được bao nhiêu chấtlượng nhận dạng Do đó trong thực tế có một cách giải quyết làbán độc lập người nói Phương pháp này thực hiện bằng cách thumẫu một số lượng lớn các giọng nói khác biệt nhau Khi sử dụng,

hệ thống sẽ được điều chỉnh cho phù hợp với giọng nói củangười dùng, bằng cách nó học thêm một vài câu có chứa các từcần thiết (người dùng trước khi sử dụng hệ thống cần phải quamột quá trình huấn luyện hệ thống)

 Cùng với dạng bài toán xác thực người nói, đây cũng là dạng bàitoán được nghiên cứu trong luận văn này Luận văn sẽ tập trungnghiên cứu bài toán xác thực người nói không phụ thuộc vào từkhóa

1.2.3 Các ứng dụng của bài toán nhận dạng người nói

Các ứng dụng thực tế của nhận dạng người nói:

- Chứng thực giao dịch:

 Ngăn cản sự gian lận trong thu thuế

 Mua thẻ điện thoại

 Môi giới điện thoại

Trang 16

- Hệ thống bán hàng gián tiếp (lấy lại thông tin khách hàng):

 Lấy được thông tin khách hàng gọi tới trung tâm

 Lấy mẫu giọng nói của khách hàng qua điện thoại

Trang 17

Hình 1.6 Tư vấn bán hàng

1.3 Xác thực người nói không phụ thuộc vào từ khóa

1.3.1 Giới thiệu chung

Bài toán xác thực người nói không phụ thuộc vào từ khóa là sự kết hợpcủa hai bài toán: xác thực người nói và bài toán nhận dạng người nói khôngphụ thuộc vào từ khóa Mục đích của bài toán xác thực người nói không phụthuộc vào từ khóa là xác minh liệu người đang nói có đúng là người mà máytính đã được biết trước hay không (tính xác thật của giọng nói) nhưng khôngphụ thuộc vào nội dung người nói

Bài toán xác thực người nói không phụ thuộc vào từ khóa có nhiều ứngdụng: chứng thực giao dịch bằng giọng nói, điều khiển đăng nhập bằng giọngnói Đây là nội dung nghiên cứu chính của luận văn này

1.3.2 Các thành phần của một hệ thống xác thực người nói không phụ vào từ khóa

Hình 1.7 Các thành phần của một hệ thống xác thực người nói

không phụ thuộc vào từ khóa

Trang 18

Hình 1.7 cho ta thấy các hệ thống xác thực người nói không phụ thuộcvào từ khóa gồm các thành phần sau:

- Trích chọn đặc trưng: biến đổi từ giọng nói thô thành những đặctrưng của người nói

- Xây dựng mô hình người nói: huấn luyện người nói dựa vào mộtphương pháp cụ thể

- So khớp mẫu: tính toán độ hợp giữa đặc trưng của tiếng nói đưa vàovới mô hình đã huấn luyện

- Tạo quyết định: xác định ngưỡng và đưa ra quyết định dựa vào việc

so khớp ở trên

1.3.3 Các giai đoạn xử lý của một hệ thống xác thực người nói không phụ thuộc vào từ khóa

Hình 1.8 Các giai đoạn của một hệ thống xác thực người nói không

phụ thuộc vào từ khóa

Hình 1.8 cho ta thấy quá trình xử lý của các hệ thống xác thực người nóikhông phụ thuộc vào từ khóa gồm hai giai đoạn:

- Giai đoạn huấn luyện:

 Ghi âm giọng nói những người mà hệ thống cần huấn luyện

Trang 19

 Trích chọn đặc trưng giọng nói của mỗi người nói.

 Huấn luyện mẫu

 Lưu lại các đặc trưng của mỗi người nói sau khi đã được huấnluyện với một ID kèm theo

- Giai đoạn kiểm thử:

 Người cần kiểm tra cung cấp một ID

 Ghi giọng nói người cần kiểm tra

 Trích chọn đặc trưng giọng nói của người vừa cung cấp

 Yêu cầu các đặc trưng tương ứng với ID đã được lưu trữ tronggiai đoạn huấn luyện

 Đưa ra quyết định xác thực: Trong bước này thì hệ thống sẽ sokhớp các đặc trưng người nói với các mẫu có trong hệ thống vàđưa ra quyết định chấp nhận hay từ chối cho truy cập vào hệthống

Trang 20

Chương 2 TRÍCH CHỌN ĐẶC TRƯNG NGƯỜI NÓI

Hình 1.8 cho ta thấy cả trong giai đoạn huấn luyện và giai đoạn kiểm thửcủa một hệ thống xác thực người nói không phụ thuộc vào từ khóa đều phảitrải qua bước trích chọn đặc trưng người nói, đây sẽ là nội dung nghiên củachương hai

Các nội dung chính nghiên cứu trong chương hai:

- Đặc tính vật lý, âm học của tiếng nói: nghiên cứu các đặc tính này

sẽ là cơ sở cho việc xác định các đặc trưng người nói

- Tiền xử lý tín hiệu tiếng nói: tín hiệu tiếng nói sau khi được thu vàtrước khi trích chọn đặc trưng, phải tiến hành tiền xử lý tín hiệutiếng nói Mục đích của việc tiền xử lý tín hiệu tiếng nói để loại bỏnhiễu, chuẩn hóa biên độ, làm rõ tín hiệu…

- Trích chọn đặc trưng người nói: mục đích của việc trích chọn đặctrưng người nói, phân loại các đặc trưng người nói, trình bày chi tiếtcác bước trích chọn đặc trưng MFCC- đặc trưng được lựa chọn sửdụng chủ yếu cho các hệ thống nhận dạng người nói

2.1 Đặc điểm vật lý, âm học của tiếng nói

2.1.1 Đặc điểm vật lý của tiếng nói

Bản chất âm thanh tiếng nói là sóng cơ học nên nó có các tính chất

cơ bản của sóng cơ học

Trang 21

Hình 2.1 Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người

Hình 2.1 đưa ra một sơ đồ khối của quá trình sản xuất tiếng nói và nhậnthức tiếng nói của con người Quá trình sản xuất tiếng nói bắt đầu khi ngườinói tạo ra một thông điệp (trong ý nghĩ của anh ta) và muốn chuyển tải nócho người nghe thông qua tiếng nói Tổ chức thần kinh tương ứng chịutrách nhiệm tạo ra thông điệp dưới dạng văn bản biểu diễn các từ của thôngđiệp Bước tiếp theo của quá trình là chuyển đổi thông điệp sang dạng một

mã ngôn ngữ Điều này gần như tương đương với việc chuyển đổi cácbiểu diễn văn bản của thông điệp thành một chuỗi các âm vị tương ứngvới những âm thanh tạo nên các từ; đồng thời với việc ghi nhận âm điệunhằm xác định sự kéo dài, sự nhấn mạnh, và trọng âm cao thấp của âm

thanh Khi một mã ngôn ngữ đã được lựa chọn, người nói phải thực hiện

một loạt các lệnh thần kinh vận động để làm cho các dây thanh dao động,đồng thời cấu trúc hình dạng ống dẫn âm nhằm phát ra một chuỗi các âmthanh Như vậy, đầu ra cuối cùng của quá trình là một tín hiệu âm học Cáclệnh thần kinh vận động phải điều khiển một cách đồng bộ tất cả các khâuvận động như sự hoạt động của môi, hàm, lưỡi

Khi tín hiệu tiếng nói đã được sinh ra và được truyền cho người nghe,quá trình thu nhận tiếng nói bắt đầu Đầu tiên, người nghe xử lý tín hiệu âm

Trang 22

thanh thông qua màng nền của tai trong; nó có khả năng cung cấp một phântích phổ cho tín hiệu tới Một quá trình xử lý thần kinh chuyển đổi tín hiệuphổ tại đầu ra của màng nền thành các tín hiệu hoạt động đối với thần kinhthính giác; có thể coi đây như một quá trình lấy ra các đặc trưng Bằng mộtphương pháp đặc biệt (chưa được hiểu một cách thấu đáo), các tín hiệu hoạtđộng đi qua hệ thần kinh thính giác được chuyển đổi thành một mã ngôn ngữcho những trung tâm xử lý cao cấp hơn bên trong bộ não; và cuối cùng là việchiểu được nội dung thông điệp.

Qua đó ta thấy tín hiệu âm thanh tiếng nói là tín hiệu ngẫu nhiênkhông dừng, tuy nhiên những đặc tính của nó là tương đối ổn định khi xéttrong một khoảng thời gian ngắn (vài chục mili giây) Trong khoảng thờigian đó tín hiệu gần như tuần hoàn Âm thanh tiếng nói con người có các đặctính vật lý sau đây:

2.1.1.1 Độ cao (Pitch)

Độ cao hay độ trầm bổng của âm thanh chính là tần số của sóng cơhọc của âm thanh Âm thanh nào cũng phát ra ở một độ cao nhất định Độcao của âm thanh phụ thuộc vào tần số dao động Đối với tiếng nói, tần sốdao động của dây thanh quy định độ cao giọng nói của con người Mỗingười có một độ cao giọng nói khác nhau, độ cao của nữ giới thường caohơn nam giới và độ cao của trẻ em thường cao hơn của người lớn

2.1.1.2 Cường độ

Cường độ chính là độ to nhỏ của âm thanh Cường độ càng lớnthì âm thanh có thể truyền đi được càng xa Xét trên phương diện sóng cơhọc thì cường độ chính là biên độ của dao động sóng âm, nó quyết địnhnăng lượng của sóng âm

Trong tiếng nói cường độ của nguyên âm phát ra thường lớn hơn củaphụ âm Do vậy chúng ta thường dễ phát hiện ra nguyên âm hơn là phụ âm

Trang 23

Đối với tai người, giá trị tuyệt đối của cường độ âm I thường khôngquan trọng mà người ta quan tâm giá trị tỷ số của I so với một giá trị chuẩnI0 nào đó, đó chính là mức cường độ âm và được tính như sau:

2.1.1.3 Trường độ

Trường độ hay độ dài của âm phụ thuộc vào sự chấn động lâu haynhanh của các phần tử không khí Cùng một âm nhưng trong các từ khácnhau thì độ dài khác nhau

2.1.1.4 Âm sắc

Âm sắc là bản sắc, sắc thái riêng của âm Cùng một nội dung,

độ cao nhưng khi nói mỗi người có một âm vị khác nhau

2.1.2 Đặc điểm âm học của tiếng nói

Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin

về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau Số lượngcác âm vị tuỳ thuộc vào từng ngôn ngữ, vào khoảng 20 đến 30 và khôngvượt quá 50 Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.Các âm vị được chia thành

Tổ hợp các âm vị tạo nên âm tiết Âm tiết đóng vai trò một từ chọnvẹn mang ngữ nghĩa

2.1.2.1 Nguyên âm

Các nguyên âm có thể được coi là lớp thú vị nhất trong các lớp âmthanh tiếng nói, đặc biệt đối với Tiếng Anh Tầm quan trọng của chúngtrong lĩnh vực nhận dạng tiếng nói là rất lớn; hầu hết các hệ thống nhậndạng dựa trên cơ sở nhận dạng nguyên âm đều có tính năng tốt

Trong khi nói, nguyên âm được tạo ra bằng cách kích thích một ốngdẫn âm thanh có hình dạng cố định bằng các xung áp lực khí giả tuầnhoàn do sự rung động của dây thanh sinh ra Hình dạng của từng vùng cục

Trang 24

bộ dọc theo ống dẫn âm xác định các tần số cộng hưởng (các formants) và

âm thanh sẽ được tạo ra Việc tạo ra nguyên âm cụ thể nào là được quyếtđịnh bởi vị trí của lưỡi, hàm, môi Các nguyên âm nói chung là có thờigian tồn tại dài (so với các phụ âm) và dễ xác định phổ Chính vì thế mà sẽ

dễ dàng cho việc nhận dạng, cả đối với con người và máy móc

Có một số cách biểu diễn đặc trưng nguyên âm, bao gồm cấu hìnhkhoang miệng, các đồ thị dạng sóng tín hiệu và các đồ thị phổ, ở đây chúng

ta chỉ quan tâm tới dạng biểu diễn đồ thị phổ Về mặt lý thuyết, các cựcđại của biểu diễn phổ của tín hiệu nguyên âm chính là các tần số cộnghưởng (formants) tạo nên nguyên âm Giá trị của các các formant đầu tiên(2 hoặc 3 formants đầu tiên) là yếu tố quyết định cho phép chúng ta nhậndạng được nguyên âm Do nhiều yếu tố biến thiên như sự khác nhau vềgiới tính, về độ tuổi, tình trạng tinh thần của người nói và nhiều yếu tốngoại cảnh khác, đối với một nguyên âm xác định các giá trị formant cũng

có một sự biến thiên nhất định Tuy nhiên sự khác biệt về giá trị cácformants giữa các nguyên âm khác nhau lớn hơn nhiều; và trong không gianformant chúng ta có thể xác định một cách tương đối các vùng riêng biệtcho từng nguyên âm Hình 2.2 minh họa một đồ thị kinh điển củacác giá trị formant đầu tiên và thứ hai của 10 nguyên âm cùng với sựphân vùng cho các nguyên âm ở đây chúng ta cũng thấy có những sự nhậpnhằng trong phát âm thể hiện ở một số chỗ chồng chéo lên nhau giữa cácvùng

Trang 25

Hình 2.2 Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực

hiện với nhiều đối tượng người nói khác nhau

2.1.2.2 Phụ âm

Phụ âm được tạo ra bởi các dòng khí hỗn loạn được phát ra gầnnhững điểm co thắt của đường dẫn âm thanh do cách phát âm tạo thành.Dòng không khí tại chỗ đóng của vòm miệng tạo ra phụ âm bật Những phụ

ân xát được tạo ra từ chỗ co thắt lớn nhất và các âm tắc xát được tạo ra từkhoảng giữa Phụ âm có đặc tính hữu thanh và vô thanh tuỳ thuộc vào dâythanh có dao động để trở thành cộng hưởng hay không Đặc tính của phụ

âm tuỳ thuộc vào tính chu kỳ của dạng sóng, phổ tần số, thời gian tồn tại và

sự chuyển dẫn âm

2.1.2.3 Tỷ suất thời gian

Trong khi nói chuyện, các khoảng nói chuyện và khoảng nghỉ xen

kẽ nhau Phần trăm thời gian nói trên tổng thời gian nói và nghỉ được gọi là

tỷ suất thời gian Giá trị này biến đổi tuỳ thuộc vào tốc độ nói và từ đó ta

có thể phân loại thành nói nhanh, nói chậm hay trung bình

2.1.2.4 Hàm năng lượng thời gian ngắn

Hàm năng lượng thời gian ngắn được tính bằng cách chia tín hiệutiếng nói thành nhiều khung có chứa N mẫu và tính diện tích trung bình của

Trang 26

tổng các mẫu tín hiệu trong mỗi khung Các khung này được đưa qua mộtcửa sổ có dạng như sau:

W n W

0

0 ) ( )

* ) (

N n

Hàm năng lượng thời gian ngắn cho âm hữu thanh thường lớn hơn âm

vô thanh

2.1.2.5 Tần số vượt điểm không

Tần xuất vượt qua điểm không là số lần biên độ tín hiệu tiếng nóivượt qua giá trị không trong một khoảng thời gian cho trước Thôngthường giá trị này đối với âm vô thanh lớn hơn âm hữu thanh do đặc tínhngẫu nhiên của âm vô thanh Do đó tần suất vượt qua điểm không là tham

số quan trọng để phân loại âm vô thanh và âm hữu thanh

2.1.2.6 Phát hiện điểm cuối

Trong xử lý tín hiệu tiếng nói, việc xác định khi nào bắt đầu và kếtthúc quá trình nói là một công việc hết sức quan trọng Trong mộtmôi trường có nhiều tiếng ồn và môi trường có nhiều người nói thì việcphát hiện điểm cuối là hết sức khó khăn Đã có một số phương pháp đểphát hiện điểm cuối của tiếng nói

2.1.2.7 Tần số cơ bản

Dạng sóng của tiếng nói gồm hai phần: phần gần giống nhiễu (trong đóbiên độ biến đổi ngẫu nhiên) và phần có tính chu kỳ (trong đó tín hiệu lặp lạigần như tuần hoàn) Phần tín hiệu có tính chu kỳ chứa các thành phần tần số

Trang 27

có dạng điều hoà Tần số thấp nhất chính là tần số cơ bản và chính là tần sốdao động của dây thanh.

Đối với những người nói khác nhau thì tần số cơ bản cũng khác nhau

và tần số cơ bản của trẻ em thường cao hơn của người lớn và của nữ giới thìcao hơn của nam giới

Bảng 2.1 Một số giá trị của tần số cơ bản ứng với giới tính và tuổi

Giá trị tần số cơ bản Người nói

80 - 200 Hz Nam giới

150 – 450 Hz Phụ nữ

200 – 600 Hz Trẻ emĐối với hai âm có cùng cường độ, cùng độ cao sẽ được phân biệt bởitính tuần hoàn Một âm hữu thanh có tín hiệu gần như tuần hoàn, khi đượcphân tích phổ sẽ xuất hiện một vạch tại vùng tần số rất thấp Vạch này đặctrưng cho tính tuần hoàn cơ bản hay đó chính là tần số cơ bản của âm trongkhi giao tiếp bình thường tần số cơ bản thay đổi liên tục tạo nên ngữ điệucho tiếng nói

2.1.2.8 Formant

Trong phổ tần số của tín hiệu tiếng nói, mỗi đỉnh có biên dộ cao nhấtxét trong một khoảng nào đó (còn được gọi là cực trị địa phương) xácđịnh một formant Ngoài tần số, formant còn được xác định bởi biên độ vàdải thông của chúng Về mặt vật lý, các tần số formant tương ứng với cáctần số cộng hưởng của tuyến âm trong xử lý tiếng nói, để mô phỏng lạituyến âm người ta phải xác định được tham số formant đối với từng loại âm

vị Do đó việc đánh giá và ước tính formant là rất quan trọng

Tần số formant biến đổi trong một khoảng rộng phụ thuộc vào giớitính của người nói và phụ thuộc vào âm vị tương ứng với formant đó.Đồng thời formant còn phụ thuộc vào âm vị trước và sau đó Về cấu trúc

tự nhiên, tần số formant có liên hệ chặt chẽ với hình dạng và kích thướccủa tuyến âm , thông thường trong phổ tần số của tín hiệu có khoảng 6

Trang 28

formant, nhưng chỉ có 3 formant đầu tiên là ảnh hưởng quan trọng đến đặctính âm vị Các formant có giá trị trong khoảng từ vài trăm đến vài nghìn Hz.Tần số formant đặc trưng cho các nguyên âm biến đổi tuỳ thuộc vàongười nói trong điều kiện phát âm nhất định Mặc dù phạm vi của các tần

số formant tương ứng với mỗi nguyên âm có thể trùng lên nhau, nhưng vị trígiữa formant là không đổi và sự xê dịch các formant là song song

Ngoài formant, các âm mũi còn có các tần số bị suy giảm gọi làphản formant (anti-formant) Phản formant được tạo nên khi luồng khí điqua khoang mũi Các formant tương ứng với các điểm cực của hàm truyềnđạt vì tại lân cận các điểm cực trị giá trị của hàm truyền đạt là rất lớn, tương

tự các phản formant tương ứng với các điểm không của hàm truyền đạt

2.2 Tiền xử lý tín hiệu tiếng nói.

2.2.1 Chuyển từ tín hiệu tương tự sang tín hiệu số

Tín hiệu tiếng nói là tín hiệu tương tự, do đó để lưu trữ và xử lý tín hiệutiếng nói trong máy tính thì tín hiệu tiếng nói phải được chuyển từ tín hiệutương tự sang tín hiệu số Quá trình số hoá tín hiệu tiếng nói bao 3 quá trình:

- Quá trình lấy mẫu

- Quá trình lượng tử hóa

- Mã hóa

2.2.1.1 Lấy mẫu tín hiệu

Lấy mẫu là quá trình chuyển từ một tín hiệu tương tự liên tục theo thờigian sang tín hiệu rời rạc theo thời gian bằng cách "lấy mẫu" tức là lấy giá trịcủa tín hiệu tại những thời điểm cho trước

Trong nhiều phương pháp được sử dụng để lấy mẫu tín hiệu tương tự,kiểu lấy mẫu hay được sử dụng nhất trong thực tế là lấy mẫu tuần hoàn Việclấy mẫu này được biểu diễn bởi quan hệ:

Trang 29

Trong đó x(n) là tín hiệu rời rạc theo thời gian nhận được bằng cách lấymẫu tín hiệu tương tự xa(t) sau mỗi khoảng thời gian T giây Khoảng thời gian

T giữa hai lần lấy mẫu liên tiếp gọi là chu kỳ lấy mẫu và đại lượng nghịch đảocủa nó gọi là số lấy mẫu Fs=1/T

Khi lấy mẫu tín hiệu tương tự với tần số Fs cần đảm bảo việc khôi phụctín hiệu đó từ tín hiệu rời rạc tương ứng phải thực hiện được Shanon đã đưa

ra một định lý mà theo đó ta có thể xác định tần số lấy mẫu đảm bảo khả năngphục hồi tín hiệu với tần số Fs ≥ 2Fmax với Fmax là tần số lớn nhất của tín hiệutương tự

Hình 2.3 Ví dụ về lấy mẫu tín hiệu trên miền thời gian

Phổ tín hiệu tiếng nói trải rộng trong 12kHz, do đó theo định lý củaShanon thì tần số lấy mẫu tối thiểu là 24kHz

2.2.1.2 Lượng tử hoá tín hiệu

Lượng tử hóa là quá trình chuyển từ một tín hiệu rời rạc về thời giannhưng liên tục về biên độ sang tín hiệu rời rạc về biên độ Mỗi giá trị củamẫu được biểu diễn lại bằng một giá trị được lựa chọn từ một tập hữu hạn cácgiá trị thích hợp

Mục tiêu của lượng tử hóa hoặc là để truyền tải hoặc là để xử lý hiệuquả Trong trường hợp thứ nhất mỗi mẫu tín hiệu được lượng tử hoá, mã hoá

Trang 30

rồi truyền đi Bên thu nhận tín hiệu giải mã tín hiệu thu được tín hiệu tương

tự Tính thống kê của tín hiệu được bảo toàn sẽ ảnh hưởng quan trọng đếnthuật toán lượng tử hoá Trong trường hợp xử lý tín hiệu, luật lượng tử hoáđược quy định bởi hệ thống xử lý, nó có thể được biểu diễn bằng dấu phẩytĩnh hoặc dấu phẩy động Việc xử lý bằng dấu phẩy động cho phép thao tácvới tín hiệu khá mềm dẻo mặc dù chi phí tính toán cao Việc xử lý bằng dấuphẩy tĩnh đơn giản hơn nhiều nhưng đòi hỏi các điều kiện chặt chẽ đối với cácthuật toán xử lý

2.2.1.3 Mã hóa tín hiệu

Có hai phương pháp mã hóa:

- Mã hoá trực tiếp tín hiệu

Phương pháp mã hoá trực tiếp tín hiệu hay phổ tín hiệu cho phép biểudiễn một cách trung thực nhất tín hiệu Mã hoá trực tiếp thực chất là biểu diễnmỗi mẫu tín hiệu hay phổ tín hiệu độc lập với các mẫu khác Một hệ thống mãhoá trực tiếp tín hiệu khá phổ biến hiện nay là phương pháp mã hoá xungPCM (Pulse Code Mudulation )

Biểu diễn số của tín hiệu có thể thực hiện trong cả miền tần số bằng cách

mã hoá biến đổi Fourier của tín hiệu Trong miền tần số, phép mã hoá trựctiếp ít áp dụng Các kỹ thuật giảm bớt thông lượng được thực hiện bằng cáchgiảm độ dư thừa tự nhiên của tín hiệu tiếng nói trên phổ tín hiệu Theophương pháp này người ta dùng cách mã hoá băng thấp hay mã hoá thích nghitheo biến đổi ATC

- Mã hoá tham số tín hiệu

Có nhiều phương pháp cho phép đánh giá các tham số của mô hình tạotiếng nói bao gồm hàm đặc trưng của tuyến âm và các đặc trưng của nguồn

âm Tín hiệu tiếng nói được coi gần như dừng trong khoảng thời gian 20ms,như vậy các tham số được tính toán lại sau 20ms và được thực hiện trong thời

Trang 31

gian thực Người ta thấy rằng việc truyền tham số này cho phép thông lượnggiảm xuống khoảng 2500 b/s Phương pháp mã hoá này gọi là phương pháp

mã hoá nguồn tham số tín hiệu

Một tập hợp tham số khi truyền hay lưu trữ đặc trưng cho phổ thời gianngắn, có nghĩa là nó chỉ được chấp nhận trong một thời gian hạn chế Taingười rất nhạy cảm với phổ thời gian này, do đó có thể nói rằng tai người cóthể phân biệt được một số hữu hạn các phổ thời gian ngắn Giả sử M=2B.Như vậy với mỗi phổ thời gian ngắn, ta gán cho nó một giá trị biểu diễn bằngmột từ B bit và từ này sẽ được truyền đi hay lưu trữ Bằng cách này thônglượng có thể giảm xuống còn 1000b/s

Tín hiệu tổng hợp bằng mã hoá theo tham số các tín hiệu tiếng nóithường không bảo đảm chất lượng trong hệ thống điện thoại thông thường.Giọng nói sẽ rất khó nhận ra trong trường hợp dùng phương pháp này Do đó

kỹ thuật mã hóa này chỉ ứng dụng trong diện thoại di động và quân sự…

2.2.2 Chuẩn hóa biên độ

Dữ liệu tiếng nói khi thu được có biên độ rất biến động Ngay cả khingười sử dụng nói với một âm lượng rất chuẩn không hề thay đổi thì biên độcủa dữ liệu thu được cũng vẫn có thể không ổn định Điều này dễ xảy ra khingười nói hơi xoay người đi, nhích micro đến gần miệng hơn hoặc kéo ra xahơn chỉ vài cm Sự biến động này ảnh hưởng đến kết quả nhận dạng

Việc chuẩn hóa là cần nhưng không nhất thiết phải thật tốt, chỉ cần biên

độ đừng quá nhỏ làm mất mát đặc trưng Như vậy, ta có thể thực hiện đơngiản bằng cách nhân mỗi điểm với một hệ số k thích hợp Ví dụ:

|) ) ( max(|

10 ) 2 / 32767 (

n s

(2.5)Khi xử lý tín hiệu tiếng nói ta phải rời rạc hóa nó theo thời gian, sử dụngbiến đổi FFT để ước lượng các thành phần tần số của tín hiệu rời rạc, tách lọccác thành phần cần thiết trước khi nhận dạng

Trang 32

2.2.3 Biến đổi Fourier

2.2.3.1 Biến đổi Fourier của tín hiệu liên tục

Cho f(x) là một hàm liên tục trong không gian một chiều Cặp biến đổiFourier của f(x) được định nghĩa:

- Biến đổi thuận:

dx e

x f u

2.2.3.2 Biến đổi Fourier rời rạc - DFT

Cho x(n) là một dãy gồm N phần tử (n = 0 N-1) Cặp biến đổi Fourierrời rạc - DFT của x(n) được định nghĩa:

- Biến đổi thuận:

N kn j N

n

e n x k

X

π

2 1

0

) ( )

kn j e k X n

(2.9)

2.2.3.3 Biến đổi nhanh Fourier – FFT

Tính toán biến đổi Fourier (DFT) rời rạc yêu cầu N2 phép nhân phức chomột tập dữ liệu có N giá trị

Năm 1942 người ta nhận thấy rằng DFT với kích thước N có thể biểudiễn dưới dạng tổng của hai DFT kích thước N/2, ý tưởng này có thể áp dụng

đệ qui với tập dữ liệu đến khi biến đổi với hai điểm Kỹ thuật này được gọi làbiến đổi nhanh Fourier (FFT) Bảng 2.2 mô tả ước lượng tính toán và thờigian yêu cầu để thực hiện trực tiếp DFT và FFT một chiều với giả thiết rằngmột phép nhân phức cần một microsecond

Trang 33

Bảng 2.2 Bảng ước lượng tính DFT và FFT một chiều

Kích thước dữ liệu Số phép nhân

phức-DFT

Thời gian tính DFT

Số phép nhân phức- FFT

Thời gian tính FFT

- Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao dođặc điểm sinh lý của hệ thống phát âm của con người Bước này sẽ

Trang 34

tăng cường tín hiệu lên một giá trị gần 20dB/decade để khắc phục sựsuy giảm này.

- Hệ thống thính giác của con người nhạy hơn với vùng tần số cao,bước xử lý này nhằm nhấn mạnh vùng tần số cao

2.3 Trích chọn đặc trưng người nói.

2.3.1 Mục đích của trích chọn đặc trưng

Hình 2.4 Các giai đoạn của bài toán xác thực người nói

Hình 2.4 cho thấy trong cả pha huấn luyện và pha nhận dạng của một hệthống xác thực người nói đều trải qua bước là trích chọn đặc trưng (featureextraction) Mục đích của bước này là biến đổi từ tín hiệu tiếng nói thực sangmột các tham số gọi là các đặc trưng- phục vụ tốt hơn cho quá trình nhậndạng

Với các hệ thống nhận dạng người nói người ta mong muốn trích chọnđược các đặc trưng thoả mãn những vấn đề sau:

- Dễ dàng tính toán

- Xuất hiện một cách tự nhiên và liên tục trong khi nói

- Ổn định đối với mỗi người nhưng phải khác nhau từ người này sang

Trang 35

người khác.

- Không thay đổi theo thời gian hay sức khỏe, trạng thái của ngườinói

- Ít bị ảnh hưởng bởi môi trường xung quanh (độc lập môi trường)

- Không ảnh hưởng bởi sự biến dạng bóp méo

- Không ảnh hưởng bởi độ ồn nền và băng tần giới hạn

2.3.2 Phân loại đặc trưng

Việc trích chọn đặc trưng người nói có một ý nghĩa hết sức quan trọng,tác dộng trực tiếp tới độ chính xác nhận dạng của các hệ nhận dạng ngườinói Với các hệ nhận dạng người nói nói chung, các đặc trưng về người nóiđược trích chọn có thể chia ra 2 nhóm:

- Nhóm một bao gồm các loại đặc trưng mang thông tin về tiếng nóinhư các tần số formant, tần số âm cơ bản, hay năng lượng…

- Nhóm hai gồm các loại đặc trưng mang thông tin về đường bao phổnhư các hệ số dự đoán tuyến tính (LPC), các hệ số cepstrum, các

hệ số cepstrum dự đoán tuyến tính (LPCC) hay các hệ số ceptrumtần số Mel (MFCC)…

Các nghiên cứu về nhận dạng người nói đều chỉ ra rằng, các đặc trưngthuộc nhóm hai hiệu quả hơn so với nhóm một Trong số các loại đặc trưngmang thông tin về đường bao phổ, họ các hệ số ceptrum có khả năngphân biệt người nói tốt hơn so với các đặc trưng khác do các hệ số nàykhai thác khá tốt các đặc tính của tuyến âm, một trong các đặc tính quantrọng nhất phân biệt giọng nói người này với người khác

2.3.3 Trích chọn đặc trưng MFCC

Để xây dựng hệ nhận dạng người nói không phụ thuộc từ khóa cho tiếngViệt tôi chọn các hệ số MFCC làm đặc trưng trích chọn vì so với các đặctrưng khác việc tính toán MFCC không quá phức tạp Và một thực tế là

Ngày đăng: 21/06/2014, 21:21

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Ngô Minh Dũng, Đặng Văn Chuyết (2004), “Khảo sát tính ổn định của một số đặc trưng ngữ âm trong nhận dạng người nói”, Tạp chí BCVT &CNTT, (kỳ 3 10/2004), tr. 12-18 Sách, tạp chí
Tiêu đề: Khảo sát tính ổn định của mộtsố đặc trưng ngữ âm trong nhận dạng người nói”, "Tạp chí BCVT &"CNTT
Tác giả: Ngô Minh Dũng, Đặng Văn Chuyết
Năm: 2004
3. Ngô Minh Dũng, Đặng Văn Chuyết (2007), “Xây dựng và khảo sát độ dài từ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theo mô hình Markov ẩn”, Tạp chí BCVT & CNTT, (kỳ 3 10/2007), tr. 93-99 Sách, tạp chí
Tiêu đề: Xây dựng và khảo sát độ dàitừ khóa trong nhận dạng người nói phụ thuộc vào từ khóa tiếng Việt theomô hình Markov ẩn”," Tạp chí BCVT & CNTT
Tác giả: Ngô Minh Dũng, Đặng Văn Chuyết
Năm: 2007
4. Viện công nghệ thông tin Việt Nam (2004), Tổng hợp và nhận dạng tiếng Việt, Đề tài nghiên cứu cấp nhà nước KC01- 03D, Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Tổng hợp và nhận dạng tiếngViệt
Tác giả: Viện công nghệ thông tin Việt Nam
Năm: 2004
5. Atal, B.S (1976), “Automatic recognition of speakers from their voices”, Proc. IEEE, (Vol. 64, No. 4), pp. 460-475 Sách, tạp chí
Tiêu đề: Automatic recognition of speakers from their voices”,"Proc. IEEE
Tác giả: Atal, B.S
Năm: 1976
6. A. V. Oppenheim and R.W. Schafer (1968), “Homomorphic analysis of speech”, IEEE Transactions on Audio and Electroacoustics, (vol. 16, no. 2), pp. 221–226 Sách, tạp chí
Tiêu đề: Homomorphic analysis ofspeech”, "IEEE Transactions on Audio and Electroacoustics
Tác giả: A. V. Oppenheim and R.W. Schafer
Năm: 1968
7. A. F. Martin and M. A. Przybocki (2001), “The NIST speaker recognition evaluations: 1996–2001”, A Speaker Odyssey—The Speaker Recognition Workshop, pp. 39–43 Sách, tạp chí
Tiêu đề: The NIST speaker recognitionevaluations: 1996–2001”, "A Speaker Odyssey—The Speaker RecognitionWorkshop
Tác giả: A. F. Martin and M. A. Przybocki
Năm: 2001
8. B. Robertson and G. A. Vignaux, Interpreting Evidence(1995), Evaluating Forensic Science in the Courtroom, John Wiley & Sons, Chichester, UK Sách, tạp chí
Tiêu đề: EvaluatingForensic Science in the Courtroom
Tác giả: B. Robertson and G. A. Vignaux, Interpreting Evidence
Năm: 1995
9. CAMPBELL, Joseph(1997), ”Speaker Recognition: A Tutorial”, Proceedings of IEEE, (vol. 85,no. 9), pp. 1437-1462 Sách, tạp chí
Tiêu đề: Proceedings of IEEE
Tác giả: CAMPBELL, Joseph
Năm: 1997
10. D.Meuwly (2001),Speaker recognition in forensic sciences the contribution of an automatic approach, Ph.D. thesis, Institut de Po-lice Scientifique et de Criminologie, Universit´ edeLausanne, Lausanne, Switzerland Sách, tạp chí
Tiêu đề: Speaker recognition in forensic sciences thecontribution of an automatic approach
Tác giả: D.Meuwly
Năm: 2001
12. D.A. Reynolds and R.C. Rose(1995), “Robust Text-Independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Trans.Speech & Audio Processing, pp. 72-83 Sách, tạp chí
Tiêu đề: Robust Text-Independent SpeakerIdentification Using Gaussian Mixture Speaker Models,” "IEEE Trans."Speech & Audio Processing
Tác giả: D.A. Reynolds and R.C. Rose
Năm: 1995
13. F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner (1987), “A Vector Quantization Approach to Speaker Recognition,” AT& T Technical Journal, (vol. 66), pp. 14-26 Sách, tạp chí
Tiêu đề: A Vector Quantization Approach to Speaker Recognition,” "AT"& T Technical Journal
Tác giả: F.K. Soong and A.E. Rosenberg A.E. and B.-H. Juang and L.R. Rabiner
Năm: 1987
14. REYNOLDS, Douglas (1995),”A. Robust Text-IndependentSpeaker Identification Using Gaussian Mixture Speaker Model”, IEEE Transactions on Speech and Audio Processing, (vol. 3, n. 1), pp72-83 Sách, tạp chí
Tiêu đề: IEEETransactions on Speech and Audio Processing
Tác giả: REYNOLDS, Douglas
Năm: 1995
15. T. Kinnunen and P. Frọnti (2001), “Speaker Discriminative Weighting Method for VQ-Based Speaker Identification,” Proc. Audio- and Video- Based Biometric Person Authentication, (AVBPA 2001), pp. 150-156 Sách, tạp chí
Tiêu đề: Speaker Discriminative WeightingMethod for VQ-Based Speaker Identification,” "Proc. Audio- and Video-Based Biometric Person Authentication, (AVBPA 2001)
Tác giả: T. Kinnunen and P. Frọnti
Năm: 2001
16. T. Kinnunen and I. Kọrkkọinen (2002), “Class-Discriminative Weighted Distortion Measure for VQ-Based Speaker Identification,” Proc. Joint IAPR Int.Workshop on Stat. Pattern Recognition,(S+SPR2002), pp.681- 688 Sách, tạp chí
Tiêu đề: Class-Discriminative WeightedDistortion Measure for VQ-Based Speaker Identification,” "Proc. JointIAPR Int.Workshop on Stat. Pattern Recognition
Tác giả: T. Kinnunen and I. Kọrkkọinen
Năm: 2002

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Bài toán định danh người nói - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.1. Bài toán định danh người nói (Trang 12)
Hình 1.3. Chứng thực giao dịch - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.3. Chứng thực giao dịch (Trang 16)
Hình 1.7. Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.7. Các thành phần của một hệ thống xác thực người nói không phụ thuộc vào từ khóa (Trang 17)
Hình 1.6. Tư vấn bán hàng - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.6. Tư vấn bán hàng (Trang 17)
Hình 1.7 cho ta thấy các hệ thống xác thực người nói không phụ thuộc vào từ khóa gồm các thành phần sau: - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 1.7 cho ta thấy các hệ thống xác thực người nói không phụ thuộc vào từ khóa gồm các thành phần sau: (Trang 18)
Hình 2.1. Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.1. Sơ đồ quá trình sản xuất và thu nhận tiếng nói của con người (Trang 21)
Hình 2.2. Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.2. Đồ thị theo các formant F1, F2 cho mười nguyên âm được thực hiện với nhiều đối tượng người nói khác nhau (Trang 25)
Hình 2.3. Ví dụ về lấy mẫu tín hiệu trên miền thời gian - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.3. Ví dụ về lấy mẫu tín hiệu trên miền thời gian (Trang 29)
Bảng 2.2. Bảng ước lượng tính DFT và FFT một chiều - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Bảng 2.2. Bảng ước lượng tính DFT và FFT một chiều (Trang 33)
Hình 2.4. Các giai đoạn của bài toán xác thực người nói - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.4. Các giai đoạn của bài toán xác thực người nói (Trang 34)
Hình 2.5. Đồ thị biểu diễn mối quan hệ giữa Mel và Hz - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.5. Đồ thị biểu diễn mối quan hệ giữa Mel và Hz (Trang 36)
Hình 2.6. Sơ đồ khối của xử lý MFCC’s - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.6. Sơ đồ khối của xử lý MFCC’s (Trang 37)
Hình 2.7. Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.7. Khung 30ms với tần số lấy mẫu FS = 8000Hz cho 240 mẫu (Trang 38)
Hình 2.8. Độn 0 vào khung tiếng nói - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.8. Độn 0 vào khung tiếng nói (Trang 40)
Hình 2.10. Các bộ lọc mel-scale tam giác - nhận dạng tiếng nói không liên quan đến từ khóa và thực nghiệm
Hình 2.10. Các bộ lọc mel-scale tam giác (Trang 41)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w