1. Trang chủ
  2. » Luận Văn - Báo Cáo

ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ

84 717 4

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Định Danh Người Nói Độc Lập Văn Bản Bằng Mô Hình Thống Kê
Tác giả Phạm Minh Nhựt
Người hướng dẫn TS. Vũ Hải Quân
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2009
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 84
Dung lượng 2,43 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MỤC LỤC Trang MỤC LỤC ................................................................................................................. i DANH MỤC CÁC TỪVIẾT TẮT VÀ THUẬT NGỮ........................................ v DANH MỤC BẢNG ............................................................................................. viii DANH MỤC HÌNH ẢNH ...................................................................................... ix TÓM TẮT LUẬN VĂN ......................................................................................... xi Chương 1 – GIỚI THIỆU ....................................................................................... 1 1.1. Dẫn nhập ................................................................................................. 1 1.2. Sinh trắc học ............................................................................................ 2 1.2.1. Khái quát ...................................................................................... 2 1.2.2. Kiến trúc cơbản của một hệthống sinh trắc ............................... 3 1.3. Bài toán nhận dạng người nói ................................................................. 4 1.4. Các hướng tiếp cận .................................................................................. 7 1.4.1. Nhóm phụthuộc văn bản ............................................................. 7 1.4.2. Nhóm độc lập văn bản ................................................................. 8 1.5. Tiếp cận của đềtài .................................................................................. 8 Chương 2 – HỆTHỐNG ĐỊNH DANH NGƯỜI NÓI ...................................... 11 2.1. Mô hình tổng quát ................................................................................. 11 ii 2.2. Lấy mẫu tiếng nói ................................................................................. 12 2.3. Rút trích đặc trưng ................................................................................ 12 2.3.1. Chia frame ................................................................................. 14 2.3.2. Biến đổi Fourier rời rạc ............................................................. 16 2.3.3. Mel filter bank ........................................................................... 18 2.3.4. Biến đổi Cosine rời rạc .............................................................. 20 2.4. Dò tìm năng lượng ................................................................................ 21 2.5. Chuẩn hóa đặc trưng ............................................................................. 21 2.6. Xây dựng mô hình người nói ................................................................ 21 2.7. Nhận dạng ............................................................................................. 22 2.7.1. Identification .............................................................................. 23 2.7.2. Verification ................................................................................ 24 2.8. Score normalization .............................................................................. 25 2.8.1. World Model Normalization ..................................................... 25 2.8.2. Cohort Normalization ................................................................ 26 2.8.3. Unconstraint Cohort Normalization .......................................... 26 2.9. Một sốhệthống định danh người nói ................................................... 27 2.9.1. Hệthống Vector Quantization ................................................... 27 2.9.2. Hệthống GMM .......................................................................... 28 2.9.3. Các hệthống khác ...................................................................... 29 Chương 3 – MÔ HÌNH MARKOV ẨN HỢP GAUSS ....................................... 30 3.1. Gaussian Mixture Model ....................................................................... 30 3.1.1. Đặc tảmô hình ........................................................................... 30 3.1.2. Ước lượng tham số.................................................................... 33 iii 3.2. Hidden Markov Model .......................................................................... 34 3.2.1. Mô hình Markov ........................................................................ 34 3.2.2. Mô hình Markov ẩn ................................................................... 36 3.2.3. Ba bài toán cơbản của HMM .................................................... 39 3.2.3.1. Bài toán 1 – evaluation problem .................................. 40 3.2.3.2. Bài toán 2 – decoding problem .................................... 42 3.2.3.3. Bài toán 3 – learning problem ..................................... 44 3.3. Mixture of Gaussians Hidden Markov Model ...................................... 46 3.3.1. Đặc tảmô hình ........................................................................... 46 3.3.2. Huấn luyện tham số................................................................... 48 3.3.3. Khởi tạo tham số........................................................................ 51 3.3.3.1. Thuật toán k-means ..................................................... 51 3.3.3.2. Khởi tạo mô hình MGHMM ....................................... 52 3.4. MGHMM và bài toán định danh người nói .......................................... 53 3.4.1. Xây dựng mô hình ..................................................................... 53 3.4.2. Identification .............................................................................. 54 3.4.3. Verification ................................................................................ 55 Chương 4 – THỰC NGHIỆM .............................................................................. 57 4.1. Dữliệu thực nghiệm .............................................................................. 57 4.2. Các độ đo đánh giá ................................................................................ 59 4.3. Tham sốmô hình ................................................................................... 61 4.3.1. Sốvòng lặp huấn luyện .............................................................. 62 4.3.2. Kích thước nhóm K của phương pháp UCN ............................. 63 4.3.3. Cấu hình MGHMM ................................................................... 64 4.4. Hiệu suất hệthống ................................................................................. 65

Trang 1

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM MINH NHỰT

ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN

BẰNG MÔ HÌNH THỐNG KÊ

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh – 2009

Trang 3

Xin chân thành cám ơn khoa Công nghệ Thông tin trường Đại học Khoa học

Tự nhiên đã tạo điều kiện thuận lợi và giúp đỡ em hoàn thành tốt khóa luận tốt nghiệp này

Xin chân thành cám ơn Thầy Vũ Hải Quân đã tận tình chỉ dạy và giúp đỡ em trong quá trình làm khóa luận, nếu không có sự hướng dẫn tận tình của thầy, khóa luận này không thể nào hoàn thành tốt được

Xin chân thành cám ơn các thầy cô khoa Công nghệ Thông tin đã tận tình chỉ dạy, trang bị kiến thức cho em trong suốt khóa học

Xin chân thành cám ơn gia đình, ông bà, cha mẹ đã chăm sóc, nuôi dưỡng và tạo điều kiện cho con hoàn thành tốt khóa luận này

Xin cảm ơn những anh chị đi trước đã để lại những kiến thức rất bổ ích Cảm

ơn các anh chị và các bạn trong nhóm nghiên cứu xử lý tiếng nói đã giúp đỡ trong quá trình làm luận văn

Xin cám ơn những người bạn đã giúp đỡ cho việc thu âm cũng như xây dựng

bộ dữ liệu tiếng nói

Mặc dù đã cố gắng hết sức để hoàn thành khóa luận, song không thể tránh khỏi

sai sót Kính mong nhận được nhận xét và sự đóng góp của qu ý Thầy Cô và bạn bè

Học viên thực hiện

Phạm Minh Nhựt

Trang 4

MỤC LỤC

Trang

MỤC LỤC i

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ v

DANH MỤC BẢNG viii

DANH MỤC HÌNH ẢNH ix

TÓM TẮT LUẬN VĂN xi

Chương 1 – GIỚI THIỆU 1

1.1 Dẫn nhập 1

1.2 Sinh trắc học 2

1.2.1 Khái quát 2

1.2.2 Kiến trúc cơ bản của một hệ thống sinh trắc 3

1.3 Bài toán nhận dạng người nói 4

1.4 Các hướng tiếp cận 7

1.4.1 Nhóm phụ thuộc văn bản 7

1.4.2 Nhóm độc lập văn bản 8

1.5 Tiếp cận của đề tài 8

Chương 2 – HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI 11

2.1 Mô hình tổng quát 11

Trang 5

2.2 Lấy mẫu tiếng nói 12

2.3 Rút trích đặc trưng 12

2.3.1 Chia frame 14

2.3.2 Biến đổi Fourier rời rạc 16

2.3.3 Mel filter bank 18

2.3.4 Biến đổi Cosine rời rạc 20

2.4 Dò tìm năng lượng 21

2.5 Chuẩn hóa đặc trưng 21

2.6 Xây dựng mô hình người nói 21

2.7 Nhận dạng 22

2.7.1 Identification 23

2.7.2 Verification 24

2.8 Score normalization 25

2.8.1 World Model Normalization 25

2.8.2 Cohort Normalization 26

2.8.3 Unconstraint Cohort Normalization 26

2.9 Một số hệ thống định danh người nói 27

2.9.1 Hệ thống Vector Quantization 27

2.9.2 Hệ thống GMM 28

2.9.3 Các hệ thống khác 29

Chương 3 – MÔ HÌNH MARKOV ẨN HỢP GAUSS 30

3.1 Gaussian Mixture Model 30

3.1.1 Đặc tả mô hình 30

3.1.2 Ước lượng tham số 33

Trang 6

3.2 Hidden Markov Model 34

3.2.1 Mô hình Markov 34

3.2.2 Mô hình Markov ẩn 36

3.2.3 Ba bài toán cơ bản của HMM 39

3.2.3.1 Bài toán 1 – evaluation problem 40

3.2.3.2 Bài toán 2 – decoding problem 42

3.2.3.3 Bài toán 3 – learning problem 44

3.3 Mixture of Gaussians Hidden Markov Model 46

3.3.1 Đặc tả mô hình 46

3.3.2 Huấn luyện tham số 48

3.3.3 Khởi tạo tham số 51

3.3.3.1 Thuật toán k-means 51

3.3.3.2 Khởi tạo mô hình MGHMM 52

3.4 MGHMM và bài toán định danh người nói 53

3.4.1 Xây dựng mô hình 53

3.4.2 Identification 54

3.4.3 Verification 55

Chương 4 – THỰC NGHIỆM 57

4.1 Dữ liệu thực nghiệm 57

4.2 Các độ đo đánh giá 59

4.3 Tham số mô hình 61

4.3.1 Số vòng lặp huấn luyện 62

4.3.2 Kích thước nhóm K của phương pháp UCN 63

4.3.3 Cấu hình MGHMM 64

4.4 Hiệu suất hệ thống 65

Trang 7

Chương 5 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66

5.1 Kết luận 66

5.2 Hướng phát triển 66

TÀI LIỆU THAM KHẢO 67

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ

- - - ANN Artificial Neural Network Mạng neuron nhân tạo

ASI Automatic Speaker Identification Định danh người nói tự động

ASR Automatic Speaker Recognition Nhận dạng người nói tự động

ASV Automatic Speaker Verification Xác minh người nói tự động

- Closed-set Speaker Identification Định danh người nói trên tập dữ

liệu đóng

DCT Discrete Cosine Transform Biến đổi Cosine rời rạc

DET Detection Error Trade-off Đường tương quan lỗi

DFT Discrete Fourier Transform Biến đổi Fourier rời rạc

FAR False Acceptance Rate Tỉ lệ nhận sai mẫu giả

FFT Fast Fourier Transform Biến đổi Fourier (nhanh)

Trang 9

Ký hiệu Thuật ngữ Tạm dịch

- - - FRR False Rejection Rate Tỉ lệ bỏ sai mẫu thật

GHMM Gaussian Hidden Markov Model Mô hình Markov ẩn đơn Gauss

GMM Gaussian Mixture Model Mô hình hợp Gauss

IER Identification Error Rate Tỉ lệ định danh/phân lớp sai

Fundamental Frequency Contour

Trang 10

Ký hiệu Thuật ngữ Tạm dịch

- - -

Trang 11

DANH MỤC BẢNG

Bảng 2.1 So sánh các hệ thống định danh người nói trên cùng tập dữ liệu 29

Bảng 2.2 Hiệu suất của một số hệ thống trên các tập dữ liệu khác nhau 29

Bảng 4.1 Tổ chức dữ liệu thực nghiệm 57

Bảng 4.2 Hai chuỗi cấu hình MGHMM 64

Bảng 4.3 Tỉ lệ IER và EER của các cấu hình MGHMM 64

Trang 12

DANH MỤC HÌNH ẢNH

Hình 1.1 Phân loại sinh trắc học 3

Hình 1.2 Các thành phần chính của một hệ thống sinh trắc 4

Hình 1.3 Các lĩnh vực về nhận dạng tiếng nói 5

Hình 1.4 Phân biệt ASV và ASI 6

Hình 1.5 Phân biệt open-set ASI và closed-set ASI 6

Hình 1.6 Phân loại mô hình Markov ẩn 9

Hình 2.1 Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở 11

Hinh 2.2 Ví dụ về tính tách biệt của 2 đặc trưng khác nhau 13

Hình 2.3 Các bước rút trích đặc trưng MFCC 14

Hình 2.4 Tín hiệu wave trước và sau khi lọc thông cao 14

Hình 2.5 Cơ chế chia frame 15

Hình 2.6 Tín hiệu trước và sau khi nhân với cửa sổ Hamming 16

Hình 2.7 Tương quan giữa tọa độ Descartes và tọa độ cực 17

Hình 2.8 Tương quan giữa tần số mel và tần số tuyến tính 18

Hình 2.9 Mel filter banks trên miền mel và miền tần số 19

Hình 2.10 Mel filter banks trên miền tần số tuyến tính 19

Hình 2.11 Các mô hình người nói 22

Trang 13

Hình 2.12 Các bước nhận dạng 24

Hình 2.13 Vector Quantization với codebook có M = 3 27

Hình 3.1 Hàm mật độ Gauss 30

Hình 3.2 Mô hình GMM 31

Hình 3.3 Hàm mật độ của GMM có 3 phân phối Gauss 32

Hình 3.4 Mô hình Markov 3 trạng thái 35

Hình 3.5 Mô hình Markov ẩn 3 trạng thái 37

Hình 3.6 Hệ thống Urn-Ball 38

Hình 3.7 Chuỗi Q tối ưu cục bộ 43

Hình 3.8 Mô hình MGHMM 3 trạng thái 47

Hình 3.9 Các bước xây dựng một MGHMM từ dữ liệu huấn luyện 54

Hình 4.1 Các đường pitch của tiếng nói ba miền 58

Hình 4.2 Spectrogram của từ “tâm” phát âm theo tiếng ba miền khác nhau 59

Hình 4.3 Một ví dụ về đường DET và điểm EER 61

Hình 4.4 Độ tăng log-likelihood qua các vòng lặp huấn luyện 62

Hình 4.5 Tương quan giữa K và EER 63

Hình 4.6 Hiệu suất xác minh của hệ thống 65

Trang 14

TÓM TẮT LUẬN VĂN

Luận văn áp dụng mô hình Markov ẩn hợp Gauss giải quyết bài toán định danh người nói độc lập văn bản trên tập dữ liệu mở Mỗi người nói sẽ được mô hình hóa bằng một mô hình Markov ẩn với hàm mật độ xác suất là hợp các hàm Gauss, được huấn luyện theo thuật toán expectation maximization trên dữ liệu huấn luyện của người nói tương ứng Tiến trình nhận dạng một mẫu tiếng nói gồm hai bước chính

là định danh (identification) và xác minh (verification) Bước định danh thực hiện phân lớp mẫu tiếng nói theo luật quyết định Bayes Bước xác minh áp dụng phương pháp chuẩn hóa nhóm tự do (unconstraint cohort normalization) để tăng hiệu suất xác minh Hiệu suất phân lớp và hiệu suất xác minh thật-giả trên tập dữ liệu tiếng nói tiếng Việt của 60 người, lần lượt là 100% và 96%

Luận văn trình bày gồm 5 chương:

ƒ Chương 1 giới thiệu tổng quan về sinh trắc học và bài toán định danh người nói, cùng các lĩnh vực liên quan Phần cuối chương giới thiệu sơ lược một số phương pháp truyền thống và hướng tiếp cận của đề tài

ƒ Chương 2 trình bày về các thành phần và cơ chế hoạt động của một hệ thống định danh người nói trên tập mở, đồng thời tóm tắt nội dung và kết quả đạt được của một số phương pháp trong các công trình nghiên cứu trước đây

ƒ Chương 3 trình bày chi tiết về mô hình Markov ẩn hợp Gauss – đặc tả mô hình, các bước xây dựng mô hình, và áp dụng của nó trong đề tài

ƒ Chương 4 mô tả dữ liệu thực nghiệm, chi tiết thực nghiệm và các kết quả đạt được

ƒ Chương 5 đưa ra kết luận và hướng phát triển

Trang 15

Chương 1: GIỚI THIỆU

1.1 Dẫn nhập

Đề tài nghiên cứu của luận văn này xoay quanh bài toán định danh người nói – một bài toán con trong lĩnh vực nhận dạng người nói, vốn là một nhánh của sinh trắc học (biometrics)

Nhận dạng người nói tự động (Automatic Speaker Recognition – ASR) là tiến trình nhận dạng tự động một người dựa trên tiếng nói của người đó Một hệ thống ASR gồm hai giai đoạn chính là đăng ký (enrollment) và nhận dạng (test):

- Trong giai đoạn đăng ký, dữ liệu tiếng nói của mỗi người sẽ được thu nhận

và rút trích đặc trưng trước khi đưa vào huấn luyện/xây dựng mô hình Bước rút trích đặc trưng thực hiện thu gọn và biến đổi dữ liệu tiếng nói thành các vector đặc trưng mang thông tin phân biệt giữa những người nói khác nhau Sau đó, các vector đặc trưng sẽ được đưa vào xây dựng mô hình tùy theo phương pháp cụ thể của hướng tiếp cận giải quyết bài toán

- Trong giai đoạn nhận dạng, vector đặc trưng của mẫu test sẽ được đánh giá qua các mô hình đã xây dựng ở bước đăng ký và rút ra kết luận

Về mặt ý nghĩa khoa học và thực tiễn, các hệ thống ASR có nhiều ứng dụng trong các tác vụ liên quan đến bảo mật Ví dụ như nó có thể giúp cho việc xác thực các giao dịch từ xa thông qua điện thoại, hay kiểm soát truy cập các hệ thống mạng và máy tính Ngoài ra, hệ thống ASR còn giúp hỗ trợ công tác điều tra tội phạm, hay phối hợp với các lĩnh vực khác như: truy tìm thông tin (information retrieval), nhận dạng lời thoại (speech recognition)

Các mục còn lại của chương này sẽ trình bày chi tiết hơn về bài toán nhận dạng người nói mà cụ thể là định danh người nói – đối tượng nghiên cứu của đề tài – cùng với các lĩnh vực liên quan

Trang 16

1.2 Sinh trắc học

1.2.1 Khái quát

Sinh trắc học (biometrics) là lĩnh vực nghiên cứu các phương pháp toán học và thống kê áp dụng trên các bài toán phân tích dữ liệu sinh học Cụm từ “biometrics” xuất phát từ chữ “bio” (life) và “metrics” (measure) trong tiếng Hy Lạp

Sinh trắc học gồm các phương pháp nhận diện một người dựa trên các đặc điểm sinh lý học (physiological) hay các đặc điểm hành vi (behavioral) của người đó Các

hệ thống sinh trắc đã và đang được phát triển trong các ứng dụng thực tế như hệ thống bảo mật giao tác, quản lý truy xuất, các hệ thống điều phối

Sinh trắc học đem lại một số ưu điểm so với các phương pháp bảo mật truyền thống (card, password…) như: không thể hoặc rất khó giả mạo, không bị đánh cắp hay bị mất Tuy nhiên, kết quả của các công trình nghiên cứu trên lĩnh vực này vẫn chưa

đủ hoàn thiện để có thể thay thế hẳn các phương pháp truyền thống Hiện nay, kỹ thuật sinh trắc thường được sử dụng kết hợp với password hay card để tăng cường khả năng bảo mật cũng như tính an toàn của dữ liệu

Về phân loại, sinh trắc học có thể được chia thành hai nhóm chính là sinh trắc thể (physiological) và sinh trắc hành vi (behavioral):

- Physiological: bao gồm các đặc điểm sinh học trên cơ thể như khuôn mặt

(face), DNA, vân tay (fingerprint), tròng mắt (iris), giọng nói (voice)… Trong đó, vân tay là đặc điểm được nghiên cứu và sử dụng từ khá lâu

- Behavioral: các đặc điểm về hành vi của con người như thói quen gõ phím

(keystroke), chữ ký (signature), giọng nói (voice)…

Nếu xét theo độ cao thấp (pitch), giọng nói có thể được phân loại vào nhóm đặc điểm sinh trắc thể Tuy nhiên, giọng nói còn được xem là một đặc điểm hành vi nếu

ta xét về cách nói

Trang 17

Hình 1.1: Phân loại sinh trắc học

Sinh trắc học được sử dụng theo hai thể thức chính là định danh (identification) và xác minh (verification):

- Identification: xác định cụ thể mẫu sinh trắc thuộc về ai Cơ chế định danh

thông qua việc tìm một bộ khớp nhất trong database so với mẫu test Phương pháp này đòi hỏi rất nhiều chi phí tính toán nếu kích thước database lớn

- Verification: xác định xem mẫu sinh trắc có phải thuộc về một chủ thể cho

trước hay không Cơ chế xác minh thông qua việc so khớp giữa mẫu test với các mẫu thuộc chủ thể đó trong database Do vậy, phương pháp này đòi hỏi

ít năng lực xử lý và thời gian tính toán hơn phương pháp định danh

1.2.2 Kiến trúc cơ bản của một hệ thống sinh trắc

Các thành phần chính của một hệ thống sinh trắc (biometric system):

- Bộ cảm biến (sensor): thường là các đầu đọc hay thiết bị scan Bộ phận này đảm nhận vai trò thu nhận các thông tin sinh trắc từ người trong thế giới thực

- Bộ số hóa (digitalizing module): thực hiện việc chuyển đổi thông tin thu được từ bộ cảm biến sang tín hiệu số và phân tích, rút trích đặc trưng từ tín hiệu đó Đầu ra của bộ phận này sẽ được truyền sang bộ so khớp (matcher) ở bước nhận dạng (test) hoặc lưu vào database ở bước đăng ký (enrollment)

Vân tay

Giọng nói Chữ ký

Thói quen

Gõ phím

Trang 18

Hình 1.2: Các thành phần chính của một hệ thống sinh trắc

- Bộ lưu trữ (database): lưu trữ các thông tin sinh trắc của người dùng

- Bộ so khớp (matcher): thực hiện đối sánh giữa mẫu test với các mẫu đã được đăng ký (enrolled) trong database Kết quả đối sánh sẽ được truyền đến bộ ứng dụng

- Bộ ứng dụng (application device): bộ phận ứng dụng của hệ thống sinh trắc Tùy từng ứng dụng cụ thể mà thành phần này sẽ thực hiện các chức năng tương ứng với quyết định của bộ so khớp

1.3 Bài toán nhận dạng người nói

Trong các đặc tính sinh học trên cơ thể người, tiếng nói là một đặc điểm mang tính phổ thông, dễ phát sinh và không cần đến các thiết bị thu phức tạp Nhiều công trình

đã được nghiên cứu trên tiếng nói nhằm khai thác các thông tin từ tiếng nói Hình 1.3 minh họa các lĩnh vực nghiên cứu trên tiếng nói, tập trung vào bài toán nhận dạng tiếng nói

Nhận dạng tiếng nói (voice recognition) bao gồm: nhận dạng lời thoại (speech recognition), nhận dạng người nói (speaker recognition), nhận dạng ngôn ngữ nói (language recognition), nhận dạng phương ngữ nói (dialect recognition)… Trong đó, bài toán nhận dạng người nói lại bao gồm 2 loại là nhận dạng độc lập văn bản (text-

đăng ký

testtest

Bộ cảm biến Bộ số hóa

Database

Bộ so khớp

Bộ ứng dụng

Trang 19

independent) và nhận dạng phụ thuộc văn bản (text-dependent) Theo thể thức nhận dạng thì nhận dạng người nói gồm dạng xác minh (verification) và dạng định danh (identification)

Hình 1.3: Các lĩnh vực về nhận dạng tiếng nói

Trong bài toán xác minh người nói tự động (Automatic Speaker Verification – ASV), máy tính chỉ việc xác định xem một mẫu tiếng nói có phải thuộc về một người nói cho trước hay không mà thôi (so sánh 1:1) Còn đối với bài toán định danh người nói tự động (Automatic Speaker Identification – ASI), máy tính sẽ phải

Tiếng nói

Nhận dạng Lời thoại

Nhận dạng Người nói

Nhận dạng Ngôn ngữ

N.N Phụ thuộc Văn bản (theo thể thức lời thoại)

N.N Độc lập Văn bản (theo thể thức lời thoại)

Xác minh Người nói

Nhận dạng Tiếng nói

Miền

Thời gian

Miền Tần số

Nhận dạng Phương ngữ

Trang 20

chỉ ra cụ thể mẫu tiếng nói đó thuộc về ai trong số n người nói đã biết (so sánh 1:n) Định danh người nói còn được chia thành 2 loại:

- Định danh người nói trên tập đóng (Closed-set speaker identification): tập dữ

liệu test là tập đóng, tất cả các mẫu đều thuộc về những người nói đã biết

- Định danh người nói trên tập mở (Open-set speaker identification): tập dữ

liệu test là tập mở, mẫu test có thể thuộc về một trong những người nói đã biết hoặc một người nói bất kỳ chưa biết

Hình 1.4: Phân biệt ASV và ASI

Hình 1.5: Phân biệt open-set ASI và closed-set ASI

Trong nhận dạng người nói phụ thuộc văn bản (text-dependent speaker recognition)

hệ thống sẽ quy định trước một câu hay một cụm từ mà người nói cần phải phát âm

Trang 21

Ngược lại, nhận dạng người nói độc lập văn bản (text-independent speaker recognition) không cần quy ước trước câu hay cụm từ cần phát âm; người nói có thể phát âm bất kỳ

Đề tài này tập trung vào bài toán định danh người nói độc lập văn bản trên tập dữ liệu mở (open-set text-independent speaker identification)

1.4 Các hướng tiếp cận

Tùy thuộc vào từng bài toán nhận dạng người nói, các phương pháp thích hợp sẽ được áp dụng Ở đây, các hướng tiếp cận sẽ được phân loại theo 2 nhóm: nhóm phụ thuộc văn bản và nhóm độc lập văn bản

1.4.1 Nhóm phụ thuộc văn bản

Đối với bài toán nhận dạng người nói phụ thuộc văn bản, các phương pháp thường được áp dụng là Dynamic Time Warping (DTW) và mô hình Markov ẩn (Hidden Markov Model – HMM):

- Dynamic Time Warping (DTW): các training vectors sẽ được lưu trực tiếp

trong database cùng với định danh (identity) của người nói tương ứng Trong giai đoạn test, độ tương tự khoảng cách giữa test vector với các training vectors sẽ được tính, và mẫu test sẽ được phân vào lớp của training vector có

độ tương tự khoảng cách nhỏ nhất

- Hidden Markov Model (HMM): là một mô hình thống kê được ứng dụng khá

phổ biến trong nhiều lĩnh vực, trong đó có lĩnh vực nhận dạng lời thoại (speech recognition) Đối với bài toán nhận dạng người nói phụ thuộc văn bản, HMM được dùng để mô hình hóa cả thông tin về người nói lẫn lời thoại được nói

HMM được xem là phương pháp tốt hơn so với DTW cho bài toán nhận dạng người nói phụ thuộc văn bản Tuy nhiên, trong các ứng dụng thực tế, DTW sẽ là một lựa

Trang 22

chọn tốt hơn trong trường hợp tập dữ liệu huấn luyện không đủ lớn để ước lượng các tham số của HMM

1.4.2 Nhóm độc lập văn bản

Đối với bài toán nhận dạng người nói độc lập văn bản, các phương pháp thường được áp dụng là Vector Quantization (VQ) và Gaussian Mixture Model (GMM):

- Vector Quantization (VQ): là một kỹ thuật được lấy từ lĩnh vực xử lý tiếng

nói (speech processing) Trong phương pháp này, dữ liệu học sẽ được đưa vào huấn luyện codebook cho từng người nói Ở bước test, kết quả nhận dạng sẽ dựa trên sai số quantization error giữa mẫu test với codevector gần nhất trong codebook của từng người nói

- Gaussian Mixture Model (GMM): đây cũng là phương pháp gom cụm giống

Vector Quantization Tuy nhiên trong GMM, mỗi cụm được dại diện bởi một hàm Gauss qua 2 tham số là vector trung bình và ma trận hiệp phương sai Mỗi GMM sẽ mô hình hóa cho một người nói

GMM có khả năng mô hình hóa tốt hơn VQ, tuy nhiên cũng đòi hỏi số lượng dữ liệu huấn luyện phải đủ lớn

1.5 Tiếp cận của đề tài

Mục tiêu (giả thiết) chính của đề tài là áp dụng mô hình Markov ẩn hợp Gauss (Mixture of Gaussians Hidden Markov Model – MGHMM) cho bài toán định danh người nói độc lập văn bản trên tập dữ liệu mở

Phân loại theo hàm mật độ xác suất của các tín hiệu quan sát, mô hình Markov ẩn (HMM) gồm 2 loại: HMM rời rạc và HMM liên tục Trong trường hợp hàm mật độ xác suất là hàm Gauss, ta có mô hình Markov ẩn đơn Gauss (Gaussian HMM)

Mô hình Markov ẩn hợp Gauss (MGHMM) là một dạng của HMM liên tục, trong

đó hàm mật độ xác suất của các vector quan sát là hợp các hàm Gauss (GMM)

Trang 23

Hình 1.6: Phân loại mô hình Markov ẩn

Trong phương pháp tiếp cận của đề tài này, mỗi người nói sẽ được mô hình hóa bằng một MGHMM từ dữ liệu huấn luyện của người nói tương ứng Sau đó, tiến trình nhận dạng một mẫu tiếng nói sẽ gồm 2 bước chính là phân lớp và tái xác định kết quả phân lớp Chi tiết của phương pháp này sẽ được trình bày cụ thể hơn trong chương 2 và chương 3

Hệ thống xây dựng theo phương pháp này được thực nghiệm trên tập dữ liệu tiếng nói tiếng Việt bao gồm giọng nói của cả ba miền: Bắc, Trung và Nam Kết quả thực nghiệm đạt được là 100% hiệu suất phân lớp và 96% hiệu suất xác minh

Nội dung các phần tiếp theo của luận vặn:

- Chương 2 sẽ trình bày tổng quan về các thành phần và cơ chế hoạt động của một hệ thống định danh người nói trên tập mở, cùng với tóm tắt nội dung và kết quả đạt được của một số phương pháp trong các công trình nghiên cứu trước đây

Gaussian HMM

Mixture of Gaussians HMM

- HMM: Hidden Markov Model

Trang 24

- Chương 3 trình bày chi tiết về mô hình MGHMM – đặc tả mô hình, các bước xây dựng mô hình, và áp dụng của nó trong đề tài

- Chương 4 mô tả dữ liệu thực nghiệm, chi tiết thực nghiệm và các kết quả đạt được

- Chương 5 đưa ra kết luận và hướng phát triển

Trang 25

Chương 2: HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI

2.1 Mô hình tổng quát

Tùy theo phương pháp tiếp cận giải quyết bài toàn, hệ thống định danh người nói có thể gồm các thành phần và cơ chế hoạt động khác nhau, tuy nhiên vẫn có một số điểm chung nhất định Hình 2.1 minh họa cơ chế hoạt động tổng quát của một hệ thống định danh người nói trên tập mở Trong phạm vi đề tài này, hệ thống định danh người nói sẽ được trình bày theo hướng tiếp cận của mô hình Markov ẩn hợp Gauss (MGHMM)

Hình 2.1: Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở

Trained Models

Score

K-means

Reject Confirmed ID

Initialized Models

Normalized Features

Score Score

Score Score

EM

non-speech segments are ignored

MFCC

Feature Vectors

Digital Speech Audio

Sampling

Feature Extraction

Energy Detecting

Feature Normalization

Model 2

Speaker Model n

Score Normalization

Input Transformation

Modelization

Decision Classification

Trang 26

2.2 Lấy mẫu tiếng nói (audio sampling)

Tiếng nói trong thế giới thực thu được từ các thiết bị thu âm như microphone, mobile device… sẽ được số hóa thành các tín hiệu rời rạc Tín hiệu thu được sau đó

là dữ liệu tiếng nói ở mức thô (raw)

Dữ liệu biểu diễn ở giai đoạn này chưa thể hiện được các thông tin ngữ nghĩa/đặc trưng và thường chứa nhiễu từ môi trường Do vậy, trước khi có thể được đưa vào huấn luyện mô hình hay nhận dạng, dữ liệu tiếng nói thô cần phải trải qua các bước tiền xử lý nhằm loại bỏ nhiễu cũng như rút trích ra các đặc trưng cần thiết cho quá trình huấn luyện và nhận dạng

2.3 Rút trích đặc trưng (feature extraction)

Rút trích đặc trưng được hiểu như là một quá trình biến đổi từ vector có kích thước lớn sang vector có kích thước nhỏ hơn Như vậy, về mặt hình thức, rút trích đặc trưng có thể được định nghĩa như một ánh xạ f:

f : RN → Rd, trong đó d << N

Thông thường, để các mô hình người nói có khả năng mô hình hóa tốt, số lượng các vector huấn luyện phải đủ lớn Như vậy, việc giảm kích thước của từng vector huấn luyện thông qua bước rút trích đặc trưng sẽ giúp làm giảm độ phức tạp tính toán của bước huấn luyện và nhận dạng

Đối với bài toán nhận dạng người nói, một đặc trưng được cho là tốt cần phải có các tính chất sau:

- Sai biệt giữa các vectors đặc trưng của những người nói khác nhau phải lớn

- Sai biệt giữa các vectors đặc trưng của cùng một người nói phải nhỏ

- Kháng nhiễu tốt

- Phân biệt được giả mạo tốt

- Độc lập với các đặc trưng khác

Trang 27

Hai tính chất đầu đòi hỏi đặc trưng phải mang tính tách biệt càng nhiều càng tốt Một ví dụ minh họa thể hiện trong hình 2.2 cho thấy tính tách biệt của 2 đặc trưng khác nhau Dễ dàng thấy được đặc trưng 2 tốt hơn hẳn đặc trưng 1 trong việc phân biệt giữa những người nói

Hinh 2.2: Ví dụ về tính tách biệt của 2 đặc trưng khác nhau

Một đặc trưng được gọi là tốt cũng cần phải có tính kháng nhiễu và phân biệt giả mạo tốt (đặc tính thứ 3 và thứ 4) Cuối cùng, nếu một hệ thống sử dụng nhiều hơn 1 đặc trưng, thì các đặc trưng này phải độc lập với nhau (tính chất 5); việc sử dụng các đặc trưng phụ thuộc lẫn nhau thường không đem lại kết quả tốt

Một đặc trưng lý tưởng (có tất cả 5 tính chất tốt nêu trên) thường không tồn tại trong thực tế Trong lĩnh vực nhận dạng người nói, các đặc trưng thường được sử dụng là MFCC (Mel-Frequency Cepstral Coefficients), LSP (Line Spectral Pairs)…

Đề tài này chỉ tập trung vào đặc trưng MFCC cho bài toàn định danh người nói

Hình 2.3 thể hiện các bước rút trích đặc trưng MFCC Tín hiệu thô sẽ trải qua các bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-banks, lấy log

và biến đổi cosin rời rạc

Trang 28

Hình 2.3: Các bước rút trích đặc trưng MFCC

2.3.1 Chia frame (enframing)

Hình 2.4: Tín hiệu wave trước và sau khi lọc thông cao

Trước khi tiến hành quá trình rút trích đặc trưng, dữ liệu liệu tiếng nói được đưa qua bước xử lý pre-emphasis bằng bộ lọc thông cao (high-pass filter):

Voice

Signal

Voice Frames

Power Spectrum

FFTChia Frames

Hamming Window

Apply Mel Filter Banks

Lấy log DCT

MFCC Vectors

Trang 29

s2(n) = s(n) – a * s(n - 1)

Trong đó s(n) là tín hiệu input, s2(n) tín hiệu kết quả, hằng số a ∈ [0.9, 1] Mục tiêu của bước pre-emphasis củng cố các tần số cao bị mất trong quá trình thu nhận tín hiệu Hình 2.4 minh họa kết quả lọc pre-emphasis

Dữ liệu tiếng nói thường không ổn định, nên thông thường phép biến đổi Fourier được thực hiện trên từng đoạn tín hiệu ngắn Mục tiêu của bước chia frame là chia

dữ liệu tiếng nói thành từng frame nhỏ có kích thước khoảng từ 20ms đến 30ms Các frame liền kề được xếp chồng lên nhau khoảng từ 10ms đến 15ms để tránh mất mát thông tin Cơ chế chia frame này được minh họa trong hình 2.5

Hình 2.5: Cơ chế chia frame

Sau đó, mỗi frame sẽ được nhân với một hàm cửa sổ (window function):

s(n) = s(n) * w(n) , n ∈ [0, N-1]

Trong đó, s(n) là tín hiệu trong frame, N là kích thước của frame, w(n) là hàm cửa

sổ Một số window functions thường được dùng là:

Trang 30

n n

N

n n

1cos)(

N

n N

n n

Việc nhân mỗi frame với hàm cửa sổ sẽ giúp củng cố tính liên tục ở 2 biên của frame và tạo tính chu kỳ cho toàn bộ tín hiệu trong frame Hình 2.6 minh họa kết quả nhân một frame với Hamming window

Hình 2.6: Tín hiệu trước và sau khi nhân với cửa sổ Hamming

2.3.2 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT)

Phép biến đổi Fourier rời rạc (DFT) chuyển tín hiệu âm thanh từ miền thời gian sang miền tần số Một tín hiệu X có chiều dài N khi qua biến đổi DFT sẽ thu được tín hiệu phức có chiều dài N/2+1 ở miền tần số gồm 2 phần: ReX (kết quả phần thực) và ImX (kết quả phần ảo) Phương trình của phép biến đổi DFT:

] [ ]

[

ki i

x k

] [ ]

[

ki i

x k

Trang 31

trong đó, i ∈ [0, N-1], k ∈ [0, N/2]

Trong không gian số phức (tọa độ Descartes), ReX và ImX còn có thể được biểu diễn dưới dạng độ lớn r của vector phức và góc quay φ (tọa độ cực) như trong hình 2.7

Hình 2.7: Tương quan giữa tọa độ Descartes và tọa độ cực

Như vậy, với phần thực ReX và phần ảo ImX, ta có thể tính độ lớn MagX (magnitude spectrum) và pha PhaseX theo công thức:

Re

Imarctanϕ

Công thức biến đổi nghịch:

PowX thể hiện mức tập trung năng lượng của tín hiệu âm thanh vào các vùng tần số

Trang 32

2.3.3 Mel filter bank

Mel là viết tắt của từ melody Tần số mel (mel-frequency) tương ứng với logaric của tần số thông thường/tuyến tính (linear-frequency) Tần số mel phản ánh cách thức tiếp nhận âm thanh của tai người Phương trình tương quan giữa mel-frequency

và linear-frequency:

mel = 1127.01048 * ln(1 + f/700) (2.1)

f = 700(em/1127.01048 - 1) (2.2)

Hình 2.8: Tương quan giữa tần số mel và tần số tuyến tính

Mel filter banks là các bộ lọc band-pass hình tam giác Lọc band-pass là lọc thông các tần số trong khoảng mong muốn Mục tiêu của bước áp dụng các bộ lọc Mel filter bank là để lọc lấy các tần số mà tai người có thể nghe được, đồng thời rút ngắn kích thước của vector đặc trưng

Các bộ lọc này được đặt sao cho các tần số trung tâm tăng đều trên miền mel, và logaric trên miền tần số (linear frequency), đồng thời hai cạnh của một bộ lọc phải được đặt trùng vào tần số trung tâm của hai bộ lọc lân cận Hình 2.9 minh họa các

bộ lọc trên miền mel và miền tẩn số

Trang 33

Hình 2.9: Mel filter banks trên miền mel và miền tần số

Xét các mel filter banks trên miền tần số trong hình 2.10 Trong đó, fc(m) là tần số trung tâm của bộ lọc thứ m, Fs là sampling rate của tín hiệu âm thanh

Hình 2.10: Mel filter banks trên miền tần số tuyến tính

Các bộ lọc được cho bởi công thức:

)1()()()

1()(

)1()(

)()()1()

1()(

)1()(

)1()(0

)(

m f k f for

m f k f m f for m

f m f

m f k f

m f k f m

f for m

f m f

m f k f

m f k f for

k H

c

c c

c c

c

c c

c c

Trang 34

trong đó, M là số bộ lọc, m ∈ [1, M], φmax và φmin có thể được tính từ fmax và fmin

theo công thức (2.1) với fmin = 0 và fmax = Fs/2

Power spectrum từ bước biến đổi Fourier khi đưa qua các Mel filter banks sẽ được kết quả:

) (

1

0

k H k PowX m

e

N k

m

Bước cuối cùng là áp dụng phép biến đổi cosine rời rạc lên e

2.3.4 Biến đổi Cosine rời rạc (Discrete Cosine Transform - DCT)

Biến đổi cosine rời rạc được cho bởi công thức:

e l

c

1 cos

) ( )

trong đó, c(l) là hệ số MFCC thứ l, l ∈ [1, L], L là số hệ số MFCC mong muốn, M

là số bộ lọc Thông thường M được chọn giá trị 24 và L là 12

Như vậy, vector c là kết quả của toàn bộ quá trình rút trích đặc trưng MFCC cho một frame Từ các vector c, các đạo hàm bậc một (delta-cepstrum) và bậc hai (delta-delta cepstrum) có thể được tính như sau:

( 1 1) 2

1

− + −

=

Δ cn cn cn

( 1 1) 2

1

− + − Δ Δ

=

ΔΔ cn cn cn

Các đạo hàm này được xem là đặc trưng động (dynamic features) thể hiện thay đổi giữa các frame Ngoài ra, một đặc trưng khác cũng thường được quan tâm là mức năng lượng của frame:

t x Energy

Trang 35

Trong các hệ thống nhận dạng lời thoại, thông thường vector đặc trưng được chọn gồm 39 thành phần: 12 MFCC, 1 MFCC-energy, 12 delta-cepstrum, 1 delta-energy,

12 delta-delta cepstrum, 1 delta-delta-energy Tuy nhiên, hệ thống định danh người nói trong đề tài này chỉ sử dụng vector đặc trưng gồm 12 hệ số MFCC

2.4 Dò tìm năng lượng (energy detection)

Mục tiêu của bước dò tìm năng lượng là nhằm loại bỏ những đoạn âm thanh không

có lời thoại Công việc này được thực hiện thông qua việc so sánh năng lượng của mỗi vector đặc trưng với một ngưỡng T, nếu mức năng lượng nhỏ hơn T, vector đặc trưng đó sẽ bị loại ra

Sau bước dò tìm năng lượng, các vector đặc trưng có lời thoại sẽ được chuẩn hóa ở bước tiếp theo

2.5 Chuẩn hóa đặc trưng (feature normalization)

Thông thường, để giảm các ảnh hưởng phụ từ môi trường thu âm, các vector đặc trưng sẽ được chuẩn hóa thông qua 2 tham số là vector trung bình (mean) và phương sai (covariance) tính từ toàn bộ các vector đặc trưng Khi đó, mỗi vector đặc trưng sẽ được chuẩn hóa như sau:

2

2.6 Xây dựng mô hình người nói

Hạt nhân của một hệ thống nhận dạng/định danh người nói chính là các speaker models (mô hình người nói) đại diện cho từng người nói riêng biệt Các speaker

Trang 36

models này được xây dựng bằng cách tổng quát hóa dữ liệu mẫu của speaker tương ứng Điều này có nghĩa là ta phải huấn luyện sao cho mỗi speaker model thích nghi nhất với dữ liệu mẫu của nó Mục tiêu của việc xây dựng các speaker models là tạo nền tảng cho bước nhận dạng các mẫu tiếng nói về sau

Hình 2.11: Các mô hình người nói

Tùy theo từng phương pháp tiếp cận mà speaker models sẽ được đại diện bằng các

mô hình cụ thể Chẳng hạn như trong phương pháp Vector Quantization, mỗi speaker model sẽ được đại diện bởi một codebook; đối với phương pháp GMM, mỗi speaker model tương ứng với một mô hình GMM; còn trong phương pháp Dynamic Time Warping, speaker model chỉ đơn thuần là tập các vector đặc trưng của người nói tương ứng mà không cần đến một cơ chế mô hình hóa nào cả

Như đã đề cập trong chương 1, hệ thống định danh người nói trong đề tài này được xây dựng theo hướng tiếp cận MGHMM Mỗi speaker sẽ được mô hình hóa bằng một speaker model đại diện bởi một MGHMM riêng biệt Định nghĩa và chi tiết các bước xây dựng MGHMM sẽ được trình bày cụ thể trong chương 3

Training Data

of Speaker 2

Speaker Model 2

Modelization Method

Modelization Method

Training Data

of Speaker n

Speaker Model n

Trang 37

- Bước 1: chỉ ra identity (định danh người nói) của mẫu test Nghĩa là cho biết

ai trong số các thành viên hệ thống đã phát âm mẫu test đó Bước này được gọi là identification

- Bước 2: xác minh lại xem mẫu test đó có thật sự thuộc về người nói đã xác định ở bước 1 hay thuộc về một người nói nào đó chưa biết Bước này được gọi là verification

2.7.1 Identification

Sau khi các speaker model (MGHMM) đã được huấn luyện, mỗi speaker model λi

sẽ thích nghi nhất với dữ liệu huấn luyện Xi của nó (λi được huấn luyện theo hướng cực đại hóa likelihood p(Xi | λi))

Khi cho một vector đặc trưng X vào speaker model bất kỳ λ, kết xuất nhận được sẽ

là độ tương tự (likelihood) của X đối với λ: p(X | λ) Tuy nhiên, theo luật quyết định Bayes phân lớp theo tỉ lệ lỗi nhỏ nhất, mẫu X sẽ được phân vào lớp λi có p(λi | X) lớn nhất

)

|(max

)()

|()

|(

X p

p X p X

i

λλ

trong đó, p(X) là xác suất xuất hiện vector X trong toàn không gian dữ liệu Tuy nhiên p(X) độc lập và giống nhau với mọi λi nên sẽ không được xét Xác suất p(λi) chính là tần xuất xuất hiện của người nói thứ i; thông thường những người nói này được xem là có tần suất xuất hiện như nhau nên

n

p i 1)(λ = với n là số lượng người nói trong hệ thống Như vậy, công thức (2.3) có thể được quy về:

)

|(max

i

X p Identity = λ với i ∈ [1, n]

Likelihood p(X | λi) đóng vai trò như điểm (score) của mô hình λi cho vector đặc trưng X, và X sẽ được phân vào lớp của người nói có mô hình cho điểm cao nhất

Trang 38

2.7.2 Verification

Kết thúc bước identification, định danh (identity) của mẫu test đã được xác định là người nói có score cao nhất Mục tiêu của bước verification là xác minh trở lại xem mẫu test có đúng thật là của người nói đó hay thuộc về một người nói chưa biết (unknown speaker/impostor)

- Ngưỡng toàn cục: một ngưỡng duy nhất được áp dụng cho tất cả các speaker

- Ngưỡng cục bộ: mỗi speaker sẽ có một ngưỡng riêng

Thông thường, ngưỡng tốt nhất được chọn tại điểm cân bằng lỗi trên đường DET (Detection Error Trade-off) Ngoài ra, chuẩn hóa score (score normalization) sẽ giúp cho việc chọn ngưỡng có hiệu quả hơn và giảm đáng kể tỉ lệ lỗi

Trang 39

2.8 Score normalization

Mục đích chính của việc chuẩn hóa score là tạo sự tách biệt giữa phân bố score của những speaker trong hệ thống và những speaker chưa biết, nghĩa là tăng cường score cho speaker trong hệ thống và giảm thiểu score của speaker chưa biết

Có 2 nhóm giải pháp chính cho vấn đề này:

- Chuẩn hóa phân phối score (standardization of score distributions): bao gồm các kỹ thuật được sử dụng phổ biến của lĩnh vực xác minh người nói (speaker verification) như T-norm (test normalization), Z-norm (zero normalization) và H-norm (handset normalization)

- Giải pháp Bayes: là một kỹ thuật trong Bayesian framework, áp dụng chuẩn hóa score cho hệ thống định danh người nói

Đề tài này sử dụng giải pháp Bayes cho bước chuẩn hóa score theo biểu thức:

L(O) = log p(O | λML) – log p(O | λU)

trong đó, λML = λi, argmax ( | i)

i

O p

i = λ (λML là mô hình có điểm cao nhất ở bước identification), λU là mô hình đại diện cho một số unknown speaker có khả năng bị nhận nhầm vào speaker của mô hình λML Trong thực tế, ta không thể xác định được

λU, một lựa chọn tốt là tìm một đại lượng xấp xỉ gần đúng cho p(O | λU) Có 3 phương pháp giải quyết cho vấn đề này: World Model Normalisation (WMN), Cohort Normalisation (CN) và Unconstraint Cohort Normalisation (UCN)

2.8.1 World Model Normalization (WMN)

Phương pháp này xấp xỉ p(O | λU) bởi p(O | λWM) với λWM là mô hình được tổng quát hóa từ một số lượng lớn các speaker λWM thường được gọi là world model hay universal background model

Trang 40

Để huấn luyện mô hình λWM, cần phải có một lượng lớn dữ liệu của rất nhiều speaker

2.8.2 Cohort Normalization (CN)

Trong phương pháp này, mỗi speaker model sẽ được liên hệ với một nhóm các speaker model gần nó nhất trong không gian speaker (thể hiện bởi bộ tham số λ) Khi đó, p(O | λU) sẽ được xấp xỉ bởi pCN(O, λML, K):

ML

K K

O p

)

| ( log

1 ) , ,

trong đó, f (λML, i) ≠ f (λML, j) với i ≠j

) , ( )

2 , ( )

2.8.3 Unconstraint Cohort Normalization (UCN)

Phương pháp này giống với phương pháp Cohort Normalization, tuy nhiên nhóm

“competitive speaker models” sẽ được chọn ra ngay trong giai đoạn test để xấp xỉ p(O | λU) bởi pUCN(O, λML, K) theo biểu thức:

O p

1

) ( )

| ( log

1 ) , ,

trong đó, Ф(i) ≠ Ф(j) với i ≠ j, và λФ(1), λФ(2), …, λФ(K) là các speaker models có score cao nhất sau λML Các speaker models này có thể được chọn trực tiếp ngay sau bước identification mà không cần phải tốn chi phí phát sinh thêm mô hình (phương pháp World Model Normalization) hay tốn chi phí lựa chọn mô hình trong không gian speaker (phương pháp Cohort Normalization)

Ngày đăng: 08/12/2013, 10:04

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Ariyaeeinia A., Fortuna J., Sivakumaran P. and Malegaonkar A. (2006), “Verification effectiveness in open-set speaker identification,” Vision, Image and Signal Processing, IEE Proceedings, vol. 153, issue 5, pp. 618-624 Sách, tạp chí
Tiêu đề: Verification effectiveness in open-set speaker identification,” "Vision, Image and Signal Processing, IEE Proceedings
Tác giả: Ariyaeeinia A., Fortuna J., Sivakumaran P. and Malegaonkar A
Năm: 2006
[2] Bilmes J.A. ( 1998 ), “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models,” Technical Report ICSI-TR-97-021, University of Berkeley , California Sách, tạp chí
Tiêu đề: A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models,” "Technical Report ICSI-TR-97-021
[3] Bonastre J.F., Scheffer N., Matrouf D., Fredouille C., Larcher A., Preti A., Pouchoulin G., Evans N., Fauve B., and Mason J.S. (2008), “Alize/spkdet: a state-of-the-art open source software for speaker recognition,” Proc. Speaker Odyssey Sách, tạp chí
Tiêu đề: Alize/spkdet: a state-of-the-art open source software for speaker recognition,”
Tác giả: Bonastre J.F., Scheffer N., Matrouf D., Fredouille C., Larcher A., Preti A., Pouchoulin G., Evans N., Fauve B., and Mason J.S
Năm: 2008
[4] Campbell J.P. (1997) "Speaker Recognition: A Tutorial", Proceedings of The IEEE, Vol. 85, No. 9, pp. 1437 - 1462 Sách, tạp chí
Tiêu đề: Speaker Recognition: A Tutorial
[5] Doddington G. (1985), “Speaker recognition - Identifying people by their voices,” Proceedings of the IEEE 73, 11, pp. 1651–1164 Sách, tạp chí
Tiêu đề: Speaker recognition - Identifying people by their voices,” "Proceedings of the IEEE
Tác giả: Doddington G
Năm: 1985
[6] Duda R.O., Hart P.E., Stork D.G. (2001), Pattern Classification, A Wiley- Interscience Publication, Wiley-Interscience, New York Sách, tạp chí
Tiêu đề: Pattern Classification
Tác giả: Duda R.O., Hart P.E., Stork D.G
Năm: 2001
[7] Farrell K., Mammone R., Assaleh K. (1994), “Speaker recognition using neural networks and conventional classifiers,” IEEE Trans. on Speech and Audio Processing 2, 1, pp. 194–205 Sách, tạp chí
Tiêu đề: Speaker recognition using neural networks and conventional classifiers,” "IEEE Trans. on Speech and Audio Processing
Tác giả: Farrell K., Mammone R., Assaleh K
Năm: 1994
[8] Furui S. (1981), “Cepstral analysis technique for automatic speaker verification,” IEEE Transactions on Acoustics, Speech and Signal Processing 29, 2, pp. 254–272 Sách, tạp chí
Tiêu đề: Cepstral analysis technique for automatic speaker verification,” "IEEE Transactions on Acoustics, Speech and Signal Processing
Tác giả: Furui S
Năm: 1981
[9] Gannert T. (2007), A Speaker Verification System under the Scope: Alize, Master’s Thesis, KTH Computer Science and Communication, Sweden Sách, tạp chí
Tiêu đề: A Speaker Verification System under the Scope: Alize
Tác giả: Gannert T
Năm: 2007
[10] Gersho A., Gray R. (1991), Vector Quantization and Signal Compression, Kluwer Academic Publishers, Boston Sách, tạp chí
Tiêu đề: Vector Quantization and Signal Compression
Tác giả: Gersho A., Gray R
Năm: 1991
[11] Gish H. and Schmidt M. (1994) “Text-independent Speaker Identification,” IEEE Signal Processing Magazine 11, pp. 18–32 Sách, tạp chí
Tiêu đề: Text-independent Speaker Identification,” "IEEE Signal Processing Magazine
[12] Kinnunen T. (2003), Spectral Features for Automatic Text-independent Speaker Recognition, Licentiate’s Thesis, University of Joensuu, Finland Sách, tạp chí
Tiêu đề: Spectral Features for Automatic Text-independent Speaker Recognition
Tác giả: Kinnunen T
Năm: 2003
[13] Lapidot I., Guterman H. and Cohen A. (2002), “Unsupervised speaker recognition based on competition between self-organizing maps,” IEEE Transactions on Neural Networks 13, pp. 877–887 Sách, tạp chí
Tiêu đề: Unsupervised speaker recognition based on competition between self-organizing maps,” "IEEE Transactions on Neural Networks
Tác giả: Lapidot I., Guterman H. and Cohen A
Năm: 2002
[14] Mammone R., Zhang X., Ramachandran R. (1996), “Robust speaker recognition: a feature based approach,” IEEE Signal Processing Magazine 13, 5, pp. 58–71 Sách, tạp chí
Tiêu đề: Robust speaker recognition: a feature based approach,” "IEEE Signal Processing Magazine
Tác giả: Mammone R., Zhang X., Ramachandran R
Năm: 1996
[15] Price R.C., Willmore J.P., Roberts W.J.J., Zyga K.J. (2000), “Genetically optimised Feedforward Neural Networks for Speaker Identification,”Proceedings of Fourth International Conference on Knowledge-Based Intelligent Engineering Systems and Allied Technologies, vol. 2, pp. 479-482 Sách, tạp chí
Tiêu đề: Genetically optimised Feedforward Neural Networks for Speaker Identification,”"Proceedings of Fourth International Conference on Knowledge-Based Intelligent Engineering Systems and Allied Technologies
Tác giả: Price R.C., Willmore J.P., Roberts W.J.J., Zyga K.J
Năm: 2000
[16] Rabiner L.R. (1989), “A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,” Proceeding of the IEEE, vol. 77, no. 2, pp. 257-286 Sách, tạp chí
Tiêu đề: A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition,” "Proceeding of the IEEE
Tác giả: Rabiner L.R
Năm: 1989
[17] Reynolds D.A., Heck L.P. (2000), “Automatic Speaker Recognition - Recent Progress, Current Applications, and Future Trends,” AAAS 2000 Meeting - Humans, Computers and Speech Symposium Sách, tạp chí
Tiêu đề: Automatic Speaker Recognition - Recent Progress, Current Applications, and Future Trends,”
Tác giả: Reynolds D.A., Heck L.P
Năm: 2000
[18] Reynolds D.A., Quatieri T.F., Dunn R.B. (2000), “Speaker Verification Using Adapted Gaussian Mixture Models,” Digital Signal Processing 10, pp. 19–41 Sách, tạp chí
Tiêu đề: Speaker Verification Using Adapted Gaussian Mixture Models,” "Digital Signal Processing
Tác giả: Reynolds D.A., Quatieri T.F., Dunn R.B
Năm: 2000
[19] Reynolds D.A., Rose R.C. (1995), “Robust Text-independent Speaker Identification Using Gaussian Mixture Speaker Models,” IEEE Transactions on Speech and Audio Processing, vol. 3, no. 1, pp. 72-83 Sách, tạp chí
Tiêu đề: Robust Text-independent Speaker Identification Using Gaussian Mixture Speaker Models,” "IEEE Transactions on Speech and Audio Processing
Tác giả: Reynolds D.A., Rose R.C
Năm: 1995
[20] Sanchez J.B. (2005), Speaker Identification based on an Integrated System Combining Cepstral Feature Extraction and Vector Quantization, Master’s Thesis, The Florida State University College of Engineering, USA Sách, tạp chí
Tiêu đề: Speaker Identification based on an Integrated System Combining Cepstral Feature Extraction and Vector Quantization
Tác giả: Sanchez J.B
Năm: 2005

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Phân loại sinh trắc học. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.1 Phân loại sinh trắc học (Trang 17)
Hình 1.2: Các thành phần chính của một hệ thống sinh trắc. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.2 Các thành phần chính của một hệ thống sinh trắc (Trang 18)
Hình 1.3: Các lĩnh vực về nhận dạng tiếng nói. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.3 Các lĩnh vực về nhận dạng tiếng nói (Trang 19)
Hình 1.4: Phân biệt ASV và ASI. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.4 Phân biệt ASV và ASI (Trang 20)
Hình 1.6: Phân loại mô hình Markov ẩn. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 1.6 Phân loại mô hình Markov ẩn (Trang 23)
Hình 2.1: Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.1 Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở (Trang 25)
Hình 2.3 thể hiện các bước rút trích đặc trưng MFCC. Tín hiệu thô sẽ trải qua các  bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-banks, lấy log  và biến đổi cosin rời rạc - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.3 thể hiện các bước rút trích đặc trưng MFCC. Tín hiệu thô sẽ trải qua các bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-banks, lấy log và biến đổi cosin rời rạc (Trang 27)
Hình 2.4: Tín hiệu wave trước và sau khi lọc thông cao. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.4 Tín hiệu wave trước và sau khi lọc thông cao (Trang 28)
Hình 2.3: Các bước rút trích đặc trưng MFCC. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.3 Các bước rút trích đặc trưng MFCC (Trang 28)
Hình 2.5: Cơ chế chia frame. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.5 Cơ chế chia frame (Trang 29)
Hình 2.8: Tương quan giữa tần số mel và tần số tuyến tính. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.8 Tương quan giữa tần số mel và tần số tuyến tính (Trang 32)
Hình 2.10: Mel filter banks trên miền tần số tuyến tính. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.10 Mel filter banks trên miền tần số tuyến tính (Trang 33)
Hình 2.11: Các mô hình người nói. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.11 Các mô hình người nói (Trang 36)
Hình 2.12: Các bước nhận dạng. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 2.12 Các bước nhận dạng (Trang 38)
Hình 3.1: Hàm mật độ Gauss. - ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN BẰNG MÔ HÌNH THỐNG KÊ
Hình 3.1 Hàm mật độ Gauss (Trang 44)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w