MỤC LỤC Trang MỤC LỤC ................................................................................................................. i DANH MỤC CÁC TỪVIẾT TẮT VÀ THUẬT NGỮ........................................ v DANH MỤC BẢNG ............................................................................................. viii DANH MỤC HÌNH ẢNH ...................................................................................... ix TÓM TẮT LUẬN VĂN ......................................................................................... xi Chương 1 – GIỚI THIỆU ....................................................................................... 1 1.1. Dẫn nhập ................................................................................................. 1 1.2. Sinh trắc học ............................................................................................ 2 1.2.1. Khái quát ...................................................................................... 2 1.2.2. Kiến trúc cơbản của một hệthống sinh trắc ............................... 3 1.3. Bài toán nhận dạng người nói ................................................................. 4 1.4. Các hướng tiếp cận .................................................................................. 7 1.4.1. Nhóm phụthuộc văn bản ............................................................. 7 1.4.2. Nhóm độc lập văn bản ................................................................. 8 1.5. Tiếp cận của đềtài .................................................................................. 8 Chương 2 – HỆTHỐNG ĐỊNH DANH NGƯỜI NÓI ...................................... 11 2.1. Mô hình tổng quát ................................................................................. 11 ii 2.2. Lấy mẫu tiếng nói ................................................................................. 12 2.3. Rút trích đặc trưng ................................................................................ 12 2.3.1. Chia frame ................................................................................. 14 2.3.2. Biến đổi Fourier rời rạc ............................................................. 16 2.3.3. Mel filter bank ........................................................................... 18 2.3.4. Biến đổi Cosine rời rạc .............................................................. 20 2.4. Dò tìm năng lượng ................................................................................ 21 2.5. Chuẩn hóa đặc trưng ............................................................................. 21 2.6. Xây dựng mô hình người nói ................................................................ 21 2.7. Nhận dạng ............................................................................................. 22 2.7.1. Identification .............................................................................. 23 2.7.2. Verification ................................................................................ 24 2.8. Score normalization .............................................................................. 25 2.8.1. World Model Normalization ..................................................... 25 2.8.2. Cohort Normalization ................................................................ 26 2.8.3. Unconstraint Cohort Normalization .......................................... 26 2.9. Một sốhệthống định danh người nói ................................................... 27 2.9.1. Hệthống Vector Quantization ................................................... 27 2.9.2. Hệthống GMM .......................................................................... 28 2.9.3. Các hệthống khác ...................................................................... 29 Chương 3 – MÔ HÌNH MARKOV ẨN HỢP GAUSS ....................................... 30 3.1. Gaussian Mixture Model ....................................................................... 30 3.1.1. Đặc tảmô hình ........................................................................... 30 3.1.2. Ước lượng tham số.................................................................... 33 iii 3.2. Hidden Markov Model .......................................................................... 34 3.2.1. Mô hình Markov ........................................................................ 34 3.2.2. Mô hình Markov ẩn ................................................................... 36 3.2.3. Ba bài toán cơbản của HMM .................................................... 39 3.2.3.1. Bài toán 1 – evaluation problem .................................. 40 3.2.3.2. Bài toán 2 – decoding problem .................................... 42 3.2.3.3. Bài toán 3 – learning problem ..................................... 44 3.3. Mixture of Gaussians Hidden Markov Model ...................................... 46 3.3.1. Đặc tảmô hình ........................................................................... 46 3.3.2. Huấn luyện tham số................................................................... 48 3.3.3. Khởi tạo tham số........................................................................ 51 3.3.3.1. Thuật toán k-means ..................................................... 51 3.3.3.2. Khởi tạo mô hình MGHMM ....................................... 52 3.4. MGHMM và bài toán định danh người nói .......................................... 53 3.4.1. Xây dựng mô hình ..................................................................... 53 3.4.2. Identification .............................................................................. 54 3.4.3. Verification ................................................................................ 55 Chương 4 – THỰC NGHIỆM .............................................................................. 57 4.1. Dữliệu thực nghiệm .............................................................................. 57 4.2. Các độ đo đánh giá ................................................................................ 59 4.3. Tham sốmô hình ................................................................................... 61 4.3.1. Sốvòng lặp huấn luyện .............................................................. 62 4.3.2. Kích thước nhóm K của phương pháp UCN ............................. 63 4.3.3. Cấu hình MGHMM ................................................................... 64 4.4. Hiệu suất hệthống ................................................................................. 65
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
PHẠM MINH NHỰT
ĐỊNH DANH NGƯỜI NÓI ĐỘC LẬP VĂN BẢN
BẰNG MÔ HÌNH THỐNG KÊ
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thành phố Hồ Chí Minh – 2009
Trang 3Xin chân thành cám ơn khoa Công nghệ Thông tin trường Đại học Khoa học
Tự nhiên đã tạo điều kiện thuận lợi và giúp đỡ em hoàn thành tốt khóa luận tốt nghiệp này
Xin chân thành cám ơn Thầy Vũ Hải Quân đã tận tình chỉ dạy và giúp đỡ em trong quá trình làm khóa luận, nếu không có sự hướng dẫn tận tình của thầy, khóa luận này không thể nào hoàn thành tốt được
Xin chân thành cám ơn các thầy cô khoa Công nghệ Thông tin đã tận tình chỉ dạy, trang bị kiến thức cho em trong suốt khóa học
Xin chân thành cám ơn gia đình, ông bà, cha mẹ đã chăm sóc, nuôi dưỡng và tạo điều kiện cho con hoàn thành tốt khóa luận này
Xin cảm ơn những anh chị đi trước đã để lại những kiến thức rất bổ ích Cảm
ơn các anh chị và các bạn trong nhóm nghiên cứu xử lý tiếng nói đã giúp đỡ trong quá trình làm luận văn
Xin cám ơn những người bạn đã giúp đỡ cho việc thu âm cũng như xây dựng
bộ dữ liệu tiếng nói
Mặc dù đã cố gắng hết sức để hoàn thành khóa luận, song không thể tránh khỏi
sai sót Kính mong nhận được nhận xét và sự đóng góp của qu ý Thầy Cô và bạn bè
Học viên thực hiện
Phạm Minh Nhựt
Trang 4MỤC LỤC
Trang
MỤC LỤC i
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ v
DANH MỤC BẢNG viii
DANH MỤC HÌNH ẢNH ix
TÓM TẮT LUẬN VĂN xi
Chương 1 – GIỚI THIỆU 1
1.1 Dẫn nhập 1
1.2 Sinh trắc học 2
1.2.1 Khái quát 2
1.2.2 Kiến trúc cơ bản của một hệ thống sinh trắc 3
1.3 Bài toán nhận dạng người nói 4
1.4 Các hướng tiếp cận 7
1.4.1 Nhóm phụ thuộc văn bản 7
1.4.2 Nhóm độc lập văn bản 8
1.5 Tiếp cận của đề tài 8
Chương 2 – HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI 11
2.1 Mô hình tổng quát 11
Trang 52.2 Lấy mẫu tiếng nói 12
2.3 Rút trích đặc trưng 12
2.3.1 Chia frame 14
2.3.2 Biến đổi Fourier rời rạc 16
2.3.3 Mel filter bank 18
2.3.4 Biến đổi Cosine rời rạc 20
2.4 Dò tìm năng lượng 21
2.5 Chuẩn hóa đặc trưng 21
2.6 Xây dựng mô hình người nói 21
2.7 Nhận dạng 22
2.7.1 Identification 23
2.7.2 Verification 24
2.8 Score normalization 25
2.8.1 World Model Normalization 25
2.8.2 Cohort Normalization 26
2.8.3 Unconstraint Cohort Normalization 26
2.9 Một số hệ thống định danh người nói 27
2.9.1 Hệ thống Vector Quantization 27
2.9.2 Hệ thống GMM 28
2.9.3 Các hệ thống khác 29
Chương 3 – MÔ HÌNH MARKOV ẨN HỢP GAUSS 30
3.1 Gaussian Mixture Model 30
3.1.1 Đặc tả mô hình 30
3.1.2 Ước lượng tham số 33
Trang 63.2 Hidden Markov Model 34
3.2.1 Mô hình Markov 34
3.2.2 Mô hình Markov ẩn 36
3.2.3 Ba bài toán cơ bản của HMM 39
3.2.3.1 Bài toán 1 – evaluation problem 40
3.2.3.2 Bài toán 2 – decoding problem 42
3.2.3.3 Bài toán 3 – learning problem 44
3.3 Mixture of Gaussians Hidden Markov Model 46
3.3.1 Đặc tả mô hình 46
3.3.2 Huấn luyện tham số 48
3.3.3 Khởi tạo tham số 51
3.3.3.1 Thuật toán k-means 51
3.3.3.2 Khởi tạo mô hình MGHMM 52
3.4 MGHMM và bài toán định danh người nói 53
3.4.1 Xây dựng mô hình 53
3.4.2 Identification 54
3.4.3 Verification 55
Chương 4 – THỰC NGHIỆM 57
4.1 Dữ liệu thực nghiệm 57
4.2 Các độ đo đánh giá 59
4.3 Tham số mô hình 61
4.3.1 Số vòng lặp huấn luyện 62
4.3.2 Kích thước nhóm K của phương pháp UCN 63
4.3.3 Cấu hình MGHMM 64
4.4 Hiệu suất hệ thống 65
Trang 7Chương 5 – KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 66
5.1 Kết luận 66
5.2 Hướng phát triển 66
TÀI LIỆU THAM KHẢO 67
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
- - - ANN Artificial Neural Network Mạng neuron nhân tạo
ASI Automatic Speaker Identification Định danh người nói tự động
ASR Automatic Speaker Recognition Nhận dạng người nói tự động
ASV Automatic Speaker Verification Xác minh người nói tự động
- Closed-set Speaker Identification Định danh người nói trên tập dữ
liệu đóng
DCT Discrete Cosine Transform Biến đổi Cosine rời rạc
DET Detection Error Trade-off Đường tương quan lỗi
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
FAR False Acceptance Rate Tỉ lệ nhận sai mẫu giả
FFT Fast Fourier Transform Biến đổi Fourier (nhanh)
Trang 9Ký hiệu Thuật ngữ Tạm dịch
- - - FRR False Rejection Rate Tỉ lệ bỏ sai mẫu thật
GHMM Gaussian Hidden Markov Model Mô hình Markov ẩn đơn Gauss
GMM Gaussian Mixture Model Mô hình hợp Gauss
IER Identification Error Rate Tỉ lệ định danh/phân lớp sai
Fundamental Frequency Contour
Trang 10Ký hiệu Thuật ngữ Tạm dịch
- - -
Trang 11DANH MỤC BẢNG
Bảng 2.1 So sánh các hệ thống định danh người nói trên cùng tập dữ liệu 29
Bảng 2.2 Hiệu suất của một số hệ thống trên các tập dữ liệu khác nhau 29
Bảng 4.1 Tổ chức dữ liệu thực nghiệm 57
Bảng 4.2 Hai chuỗi cấu hình MGHMM 64
Bảng 4.3 Tỉ lệ IER và EER của các cấu hình MGHMM 64
Trang 12DANH MỤC HÌNH ẢNH
Hình 1.1 Phân loại sinh trắc học 3
Hình 1.2 Các thành phần chính của một hệ thống sinh trắc 4
Hình 1.3 Các lĩnh vực về nhận dạng tiếng nói 5
Hình 1.4 Phân biệt ASV và ASI 6
Hình 1.5 Phân biệt open-set ASI và closed-set ASI 6
Hình 1.6 Phân loại mô hình Markov ẩn 9
Hình 2.1 Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở 11
Hinh 2.2 Ví dụ về tính tách biệt của 2 đặc trưng khác nhau 13
Hình 2.3 Các bước rút trích đặc trưng MFCC 14
Hình 2.4 Tín hiệu wave trước và sau khi lọc thông cao 14
Hình 2.5 Cơ chế chia frame 15
Hình 2.6 Tín hiệu trước và sau khi nhân với cửa sổ Hamming 16
Hình 2.7 Tương quan giữa tọa độ Descartes và tọa độ cực 17
Hình 2.8 Tương quan giữa tần số mel và tần số tuyến tính 18
Hình 2.9 Mel filter banks trên miền mel và miền tần số 19
Hình 2.10 Mel filter banks trên miền tần số tuyến tính 19
Hình 2.11 Các mô hình người nói 22
Trang 13Hình 2.12 Các bước nhận dạng 24
Hình 2.13 Vector Quantization với codebook có M = 3 27
Hình 3.1 Hàm mật độ Gauss 30
Hình 3.2 Mô hình GMM 31
Hình 3.3 Hàm mật độ của GMM có 3 phân phối Gauss 32
Hình 3.4 Mô hình Markov 3 trạng thái 35
Hình 3.5 Mô hình Markov ẩn 3 trạng thái 37
Hình 3.6 Hệ thống Urn-Ball 38
Hình 3.7 Chuỗi Q tối ưu cục bộ 43
Hình 3.8 Mô hình MGHMM 3 trạng thái 47
Hình 3.9 Các bước xây dựng một MGHMM từ dữ liệu huấn luyện 54
Hình 4.1 Các đường pitch của tiếng nói ba miền 58
Hình 4.2 Spectrogram của từ “tâm” phát âm theo tiếng ba miền khác nhau 59
Hình 4.3 Một ví dụ về đường DET và điểm EER 61
Hình 4.4 Độ tăng log-likelihood qua các vòng lặp huấn luyện 62
Hình 4.5 Tương quan giữa K và EER 63
Hình 4.6 Hiệu suất xác minh của hệ thống 65
Trang 14TÓM TẮT LUẬN VĂN
Luận văn áp dụng mô hình Markov ẩn hợp Gauss giải quyết bài toán định danh người nói độc lập văn bản trên tập dữ liệu mở Mỗi người nói sẽ được mô hình hóa bằng một mô hình Markov ẩn với hàm mật độ xác suất là hợp các hàm Gauss, được huấn luyện theo thuật toán expectation maximization trên dữ liệu huấn luyện của người nói tương ứng Tiến trình nhận dạng một mẫu tiếng nói gồm hai bước chính
là định danh (identification) và xác minh (verification) Bước định danh thực hiện phân lớp mẫu tiếng nói theo luật quyết định Bayes Bước xác minh áp dụng phương pháp chuẩn hóa nhóm tự do (unconstraint cohort normalization) để tăng hiệu suất xác minh Hiệu suất phân lớp và hiệu suất xác minh thật-giả trên tập dữ liệu tiếng nói tiếng Việt của 60 người, lần lượt là 100% và 96%
Luận văn trình bày gồm 5 chương:
Chương 1 giới thiệu tổng quan về sinh trắc học và bài toán định danh người nói, cùng các lĩnh vực liên quan Phần cuối chương giới thiệu sơ lược một số phương pháp truyền thống và hướng tiếp cận của đề tài
Chương 2 trình bày về các thành phần và cơ chế hoạt động của một hệ thống định danh người nói trên tập mở, đồng thời tóm tắt nội dung và kết quả đạt được của một số phương pháp trong các công trình nghiên cứu trước đây
Chương 3 trình bày chi tiết về mô hình Markov ẩn hợp Gauss – đặc tả mô hình, các bước xây dựng mô hình, và áp dụng của nó trong đề tài
Chương 4 mô tả dữ liệu thực nghiệm, chi tiết thực nghiệm và các kết quả đạt được
Chương 5 đưa ra kết luận và hướng phát triển
Trang 15Chương 1: GIỚI THIỆU
1.1 Dẫn nhập
Đề tài nghiên cứu của luận văn này xoay quanh bài toán định danh người nói – một bài toán con trong lĩnh vực nhận dạng người nói, vốn là một nhánh của sinh trắc học (biometrics)
Nhận dạng người nói tự động (Automatic Speaker Recognition – ASR) là tiến trình nhận dạng tự động một người dựa trên tiếng nói của người đó Một hệ thống ASR gồm hai giai đoạn chính là đăng ký (enrollment) và nhận dạng (test):
- Trong giai đoạn đăng ký, dữ liệu tiếng nói của mỗi người sẽ được thu nhận
và rút trích đặc trưng trước khi đưa vào huấn luyện/xây dựng mô hình Bước rút trích đặc trưng thực hiện thu gọn và biến đổi dữ liệu tiếng nói thành các vector đặc trưng mang thông tin phân biệt giữa những người nói khác nhau Sau đó, các vector đặc trưng sẽ được đưa vào xây dựng mô hình tùy theo phương pháp cụ thể của hướng tiếp cận giải quyết bài toán
- Trong giai đoạn nhận dạng, vector đặc trưng của mẫu test sẽ được đánh giá qua các mô hình đã xây dựng ở bước đăng ký và rút ra kết luận
Về mặt ý nghĩa khoa học và thực tiễn, các hệ thống ASR có nhiều ứng dụng trong các tác vụ liên quan đến bảo mật Ví dụ như nó có thể giúp cho việc xác thực các giao dịch từ xa thông qua điện thoại, hay kiểm soát truy cập các hệ thống mạng và máy tính Ngoài ra, hệ thống ASR còn giúp hỗ trợ công tác điều tra tội phạm, hay phối hợp với các lĩnh vực khác như: truy tìm thông tin (information retrieval), nhận dạng lời thoại (speech recognition)
Các mục còn lại của chương này sẽ trình bày chi tiết hơn về bài toán nhận dạng người nói mà cụ thể là định danh người nói – đối tượng nghiên cứu của đề tài – cùng với các lĩnh vực liên quan
Trang 161.2 Sinh trắc học
1.2.1 Khái quát
Sinh trắc học (biometrics) là lĩnh vực nghiên cứu các phương pháp toán học và thống kê áp dụng trên các bài toán phân tích dữ liệu sinh học Cụm từ “biometrics” xuất phát từ chữ “bio” (life) và “metrics” (measure) trong tiếng Hy Lạp
Sinh trắc học gồm các phương pháp nhận diện một người dựa trên các đặc điểm sinh lý học (physiological) hay các đặc điểm hành vi (behavioral) của người đó Các
hệ thống sinh trắc đã và đang được phát triển trong các ứng dụng thực tế như hệ thống bảo mật giao tác, quản lý truy xuất, các hệ thống điều phối
Sinh trắc học đem lại một số ưu điểm so với các phương pháp bảo mật truyền thống (card, password…) như: không thể hoặc rất khó giả mạo, không bị đánh cắp hay bị mất Tuy nhiên, kết quả của các công trình nghiên cứu trên lĩnh vực này vẫn chưa
đủ hoàn thiện để có thể thay thế hẳn các phương pháp truyền thống Hiện nay, kỹ thuật sinh trắc thường được sử dụng kết hợp với password hay card để tăng cường khả năng bảo mật cũng như tính an toàn của dữ liệu
Về phân loại, sinh trắc học có thể được chia thành hai nhóm chính là sinh trắc thể (physiological) và sinh trắc hành vi (behavioral):
- Physiological: bao gồm các đặc điểm sinh học trên cơ thể như khuôn mặt
(face), DNA, vân tay (fingerprint), tròng mắt (iris), giọng nói (voice)… Trong đó, vân tay là đặc điểm được nghiên cứu và sử dụng từ khá lâu
- Behavioral: các đặc điểm về hành vi của con người như thói quen gõ phím
(keystroke), chữ ký (signature), giọng nói (voice)…
Nếu xét theo độ cao thấp (pitch), giọng nói có thể được phân loại vào nhóm đặc điểm sinh trắc thể Tuy nhiên, giọng nói còn được xem là một đặc điểm hành vi nếu
ta xét về cách nói
Trang 17Hình 1.1: Phân loại sinh trắc học
Sinh trắc học được sử dụng theo hai thể thức chính là định danh (identification) và xác minh (verification):
- Identification: xác định cụ thể mẫu sinh trắc thuộc về ai Cơ chế định danh
thông qua việc tìm một bộ khớp nhất trong database so với mẫu test Phương pháp này đòi hỏi rất nhiều chi phí tính toán nếu kích thước database lớn
- Verification: xác định xem mẫu sinh trắc có phải thuộc về một chủ thể cho
trước hay không Cơ chế xác minh thông qua việc so khớp giữa mẫu test với các mẫu thuộc chủ thể đó trong database Do vậy, phương pháp này đòi hỏi
ít năng lực xử lý và thời gian tính toán hơn phương pháp định danh
1.2.2 Kiến trúc cơ bản của một hệ thống sinh trắc
Các thành phần chính của một hệ thống sinh trắc (biometric system):
- Bộ cảm biến (sensor): thường là các đầu đọc hay thiết bị scan Bộ phận này đảm nhận vai trò thu nhận các thông tin sinh trắc từ người trong thế giới thực
- Bộ số hóa (digitalizing module): thực hiện việc chuyển đổi thông tin thu được từ bộ cảm biến sang tín hiệu số và phân tích, rút trích đặc trưng từ tín hiệu đó Đầu ra của bộ phận này sẽ được truyền sang bộ so khớp (matcher) ở bước nhận dạng (test) hoặc lưu vào database ở bước đăng ký (enrollment)
Vân tay
Giọng nói Chữ ký
Thói quen
Gõ phím
Trang 18Hình 1.2: Các thành phần chính của một hệ thống sinh trắc
- Bộ lưu trữ (database): lưu trữ các thông tin sinh trắc của người dùng
- Bộ so khớp (matcher): thực hiện đối sánh giữa mẫu test với các mẫu đã được đăng ký (enrolled) trong database Kết quả đối sánh sẽ được truyền đến bộ ứng dụng
- Bộ ứng dụng (application device): bộ phận ứng dụng của hệ thống sinh trắc Tùy từng ứng dụng cụ thể mà thành phần này sẽ thực hiện các chức năng tương ứng với quyết định của bộ so khớp
1.3 Bài toán nhận dạng người nói
Trong các đặc tính sinh học trên cơ thể người, tiếng nói là một đặc điểm mang tính phổ thông, dễ phát sinh và không cần đến các thiết bị thu phức tạp Nhiều công trình
đã được nghiên cứu trên tiếng nói nhằm khai thác các thông tin từ tiếng nói Hình 1.3 minh họa các lĩnh vực nghiên cứu trên tiếng nói, tập trung vào bài toán nhận dạng tiếng nói
Nhận dạng tiếng nói (voice recognition) bao gồm: nhận dạng lời thoại (speech recognition), nhận dạng người nói (speaker recognition), nhận dạng ngôn ngữ nói (language recognition), nhận dạng phương ngữ nói (dialect recognition)… Trong đó, bài toán nhận dạng người nói lại bao gồm 2 loại là nhận dạng độc lập văn bản (text-
đăng ký
testtest
Bộ cảm biến Bộ số hóa
Database
Bộ so khớp
Bộ ứng dụng
Trang 19independent) và nhận dạng phụ thuộc văn bản (text-dependent) Theo thể thức nhận dạng thì nhận dạng người nói gồm dạng xác minh (verification) và dạng định danh (identification)
Hình 1.3: Các lĩnh vực về nhận dạng tiếng nói
Trong bài toán xác minh người nói tự động (Automatic Speaker Verification – ASV), máy tính chỉ việc xác định xem một mẫu tiếng nói có phải thuộc về một người nói cho trước hay không mà thôi (so sánh 1:1) Còn đối với bài toán định danh người nói tự động (Automatic Speaker Identification – ASI), máy tính sẽ phải
Tiếng nói
Nhận dạng Lời thoại
Nhận dạng Người nói
Nhận dạng Ngôn ngữ
N.N Phụ thuộc Văn bản (theo thể thức lời thoại)
N.N Độc lập Văn bản (theo thể thức lời thoại)
Xác minh Người nói
Nhận dạng Tiếng nói
Miền
Thời gian
Miền Tần số
…
…
Nhận dạng Phương ngữ
Trang 20chỉ ra cụ thể mẫu tiếng nói đó thuộc về ai trong số n người nói đã biết (so sánh 1:n) Định danh người nói còn được chia thành 2 loại:
- Định danh người nói trên tập đóng (Closed-set speaker identification): tập dữ
liệu test là tập đóng, tất cả các mẫu đều thuộc về những người nói đã biết
- Định danh người nói trên tập mở (Open-set speaker identification): tập dữ
liệu test là tập mở, mẫu test có thể thuộc về một trong những người nói đã biết hoặc một người nói bất kỳ chưa biết
Hình 1.4: Phân biệt ASV và ASI
Hình 1.5: Phân biệt open-set ASI và closed-set ASI
Trong nhận dạng người nói phụ thuộc văn bản (text-dependent speaker recognition)
hệ thống sẽ quy định trước một câu hay một cụm từ mà người nói cần phải phát âm
Trang 21Ngược lại, nhận dạng người nói độc lập văn bản (text-independent speaker recognition) không cần quy ước trước câu hay cụm từ cần phát âm; người nói có thể phát âm bất kỳ
Đề tài này tập trung vào bài toán định danh người nói độc lập văn bản trên tập dữ liệu mở (open-set text-independent speaker identification)
1.4 Các hướng tiếp cận
Tùy thuộc vào từng bài toán nhận dạng người nói, các phương pháp thích hợp sẽ được áp dụng Ở đây, các hướng tiếp cận sẽ được phân loại theo 2 nhóm: nhóm phụ thuộc văn bản và nhóm độc lập văn bản
1.4.1 Nhóm phụ thuộc văn bản
Đối với bài toán nhận dạng người nói phụ thuộc văn bản, các phương pháp thường được áp dụng là Dynamic Time Warping (DTW) và mô hình Markov ẩn (Hidden Markov Model – HMM):
- Dynamic Time Warping (DTW): các training vectors sẽ được lưu trực tiếp
trong database cùng với định danh (identity) của người nói tương ứng Trong giai đoạn test, độ tương tự khoảng cách giữa test vector với các training vectors sẽ được tính, và mẫu test sẽ được phân vào lớp của training vector có
độ tương tự khoảng cách nhỏ nhất
- Hidden Markov Model (HMM): là một mô hình thống kê được ứng dụng khá
phổ biến trong nhiều lĩnh vực, trong đó có lĩnh vực nhận dạng lời thoại (speech recognition) Đối với bài toán nhận dạng người nói phụ thuộc văn bản, HMM được dùng để mô hình hóa cả thông tin về người nói lẫn lời thoại được nói
HMM được xem là phương pháp tốt hơn so với DTW cho bài toán nhận dạng người nói phụ thuộc văn bản Tuy nhiên, trong các ứng dụng thực tế, DTW sẽ là một lựa
Trang 22chọn tốt hơn trong trường hợp tập dữ liệu huấn luyện không đủ lớn để ước lượng các tham số của HMM
1.4.2 Nhóm độc lập văn bản
Đối với bài toán nhận dạng người nói độc lập văn bản, các phương pháp thường được áp dụng là Vector Quantization (VQ) và Gaussian Mixture Model (GMM):
- Vector Quantization (VQ): là một kỹ thuật được lấy từ lĩnh vực xử lý tiếng
nói (speech processing) Trong phương pháp này, dữ liệu học sẽ được đưa vào huấn luyện codebook cho từng người nói Ở bước test, kết quả nhận dạng sẽ dựa trên sai số quantization error giữa mẫu test với codevector gần nhất trong codebook của từng người nói
- Gaussian Mixture Model (GMM): đây cũng là phương pháp gom cụm giống
Vector Quantization Tuy nhiên trong GMM, mỗi cụm được dại diện bởi một hàm Gauss qua 2 tham số là vector trung bình và ma trận hiệp phương sai Mỗi GMM sẽ mô hình hóa cho một người nói
GMM có khả năng mô hình hóa tốt hơn VQ, tuy nhiên cũng đòi hỏi số lượng dữ liệu huấn luyện phải đủ lớn
1.5 Tiếp cận của đề tài
Mục tiêu (giả thiết) chính của đề tài là áp dụng mô hình Markov ẩn hợp Gauss (Mixture of Gaussians Hidden Markov Model – MGHMM) cho bài toán định danh người nói độc lập văn bản trên tập dữ liệu mở
Phân loại theo hàm mật độ xác suất của các tín hiệu quan sát, mô hình Markov ẩn (HMM) gồm 2 loại: HMM rời rạc và HMM liên tục Trong trường hợp hàm mật độ xác suất là hàm Gauss, ta có mô hình Markov ẩn đơn Gauss (Gaussian HMM)
Mô hình Markov ẩn hợp Gauss (MGHMM) là một dạng của HMM liên tục, trong
đó hàm mật độ xác suất của các vector quan sát là hợp các hàm Gauss (GMM)
Trang 23Hình 1.6: Phân loại mô hình Markov ẩn
Trong phương pháp tiếp cận của đề tài này, mỗi người nói sẽ được mô hình hóa bằng một MGHMM từ dữ liệu huấn luyện của người nói tương ứng Sau đó, tiến trình nhận dạng một mẫu tiếng nói sẽ gồm 2 bước chính là phân lớp và tái xác định kết quả phân lớp Chi tiết của phương pháp này sẽ được trình bày cụ thể hơn trong chương 2 và chương 3
Hệ thống xây dựng theo phương pháp này được thực nghiệm trên tập dữ liệu tiếng nói tiếng Việt bao gồm giọng nói của cả ba miền: Bắc, Trung và Nam Kết quả thực nghiệm đạt được là 100% hiệu suất phân lớp và 96% hiệu suất xác minh
Nội dung các phần tiếp theo của luận vặn:
- Chương 2 sẽ trình bày tổng quan về các thành phần và cơ chế hoạt động của một hệ thống định danh người nói trên tập mở, cùng với tóm tắt nội dung và kết quả đạt được của một số phương pháp trong các công trình nghiên cứu trước đây
Gaussian HMM
Mixture of Gaussians HMM
- HMM: Hidden Markov Model
Trang 24- Chương 3 trình bày chi tiết về mô hình MGHMM – đặc tả mô hình, các bước xây dựng mô hình, và áp dụng của nó trong đề tài
- Chương 4 mô tả dữ liệu thực nghiệm, chi tiết thực nghiệm và các kết quả đạt được
- Chương 5 đưa ra kết luận và hướng phát triển
Trang 25Chương 2: HỆ THỐNG ĐỊNH DANH NGƯỜI NÓI
2.1 Mô hình tổng quát
Tùy theo phương pháp tiếp cận giải quyết bài toàn, hệ thống định danh người nói có thể gồm các thành phần và cơ chế hoạt động khác nhau, tuy nhiên vẫn có một số điểm chung nhất định Hình 2.1 minh họa cơ chế hoạt động tổng quát của một hệ thống định danh người nói trên tập mở Trong phạm vi đề tài này, hệ thống định danh người nói sẽ được trình bày theo hướng tiếp cận của mô hình Markov ẩn hợp Gauss (MGHMM)
Hình 2.1: Cơ chế hoạt động của một hệ thống định danh người nói trên tập mở
Trained Models
Score
K-means
Reject Confirmed ID
Initialized Models
Normalized Features
Score Score
Score Score
EM
non-speech segments are ignored
MFCC
Feature Vectors
Digital Speech Audio
Sampling
Feature Extraction
Energy Detecting
Feature Normalization
Model 2
Speaker Model n
Score Normalization
Input Transformation
Modelization
Decision Classification
Trang 262.2 Lấy mẫu tiếng nói (audio sampling)
Tiếng nói trong thế giới thực thu được từ các thiết bị thu âm như microphone, mobile device… sẽ được số hóa thành các tín hiệu rời rạc Tín hiệu thu được sau đó
là dữ liệu tiếng nói ở mức thô (raw)
Dữ liệu biểu diễn ở giai đoạn này chưa thể hiện được các thông tin ngữ nghĩa/đặc trưng và thường chứa nhiễu từ môi trường Do vậy, trước khi có thể được đưa vào huấn luyện mô hình hay nhận dạng, dữ liệu tiếng nói thô cần phải trải qua các bước tiền xử lý nhằm loại bỏ nhiễu cũng như rút trích ra các đặc trưng cần thiết cho quá trình huấn luyện và nhận dạng
2.3 Rút trích đặc trưng (feature extraction)
Rút trích đặc trưng được hiểu như là một quá trình biến đổi từ vector có kích thước lớn sang vector có kích thước nhỏ hơn Như vậy, về mặt hình thức, rút trích đặc trưng có thể được định nghĩa như một ánh xạ f:
f : RN → Rd, trong đó d << N
Thông thường, để các mô hình người nói có khả năng mô hình hóa tốt, số lượng các vector huấn luyện phải đủ lớn Như vậy, việc giảm kích thước của từng vector huấn luyện thông qua bước rút trích đặc trưng sẽ giúp làm giảm độ phức tạp tính toán của bước huấn luyện và nhận dạng
Đối với bài toán nhận dạng người nói, một đặc trưng được cho là tốt cần phải có các tính chất sau:
- Sai biệt giữa các vectors đặc trưng của những người nói khác nhau phải lớn
- Sai biệt giữa các vectors đặc trưng của cùng một người nói phải nhỏ
- Kháng nhiễu tốt
- Phân biệt được giả mạo tốt
- Độc lập với các đặc trưng khác
Trang 27Hai tính chất đầu đòi hỏi đặc trưng phải mang tính tách biệt càng nhiều càng tốt Một ví dụ minh họa thể hiện trong hình 2.2 cho thấy tính tách biệt của 2 đặc trưng khác nhau Dễ dàng thấy được đặc trưng 2 tốt hơn hẳn đặc trưng 1 trong việc phân biệt giữa những người nói
Hinh 2.2: Ví dụ về tính tách biệt của 2 đặc trưng khác nhau
Một đặc trưng được gọi là tốt cũng cần phải có tính kháng nhiễu và phân biệt giả mạo tốt (đặc tính thứ 3 và thứ 4) Cuối cùng, nếu một hệ thống sử dụng nhiều hơn 1 đặc trưng, thì các đặc trưng này phải độc lập với nhau (tính chất 5); việc sử dụng các đặc trưng phụ thuộc lẫn nhau thường không đem lại kết quả tốt
Một đặc trưng lý tưởng (có tất cả 5 tính chất tốt nêu trên) thường không tồn tại trong thực tế Trong lĩnh vực nhận dạng người nói, các đặc trưng thường được sử dụng là MFCC (Mel-Frequency Cepstral Coefficients), LSP (Line Spectral Pairs)…
Đề tài này chỉ tập trung vào đặc trưng MFCC cho bài toàn định danh người nói
Hình 2.3 thể hiện các bước rút trích đặc trưng MFCC Tín hiệu thô sẽ trải qua các bước xử lý chính: chia frame, biến đổi Fourier, áp dụng các Mel filter-banks, lấy log
và biến đổi cosin rời rạc
Trang 28Hình 2.3: Các bước rút trích đặc trưng MFCC
2.3.1 Chia frame (enframing)
Hình 2.4: Tín hiệu wave trước và sau khi lọc thông cao
Trước khi tiến hành quá trình rút trích đặc trưng, dữ liệu liệu tiếng nói được đưa qua bước xử lý pre-emphasis bằng bộ lọc thông cao (high-pass filter):
Voice
Signal
Voice Frames
Power Spectrum
FFTChia Frames
Hamming Window
Apply Mel Filter Banks
Lấy log DCT
MFCC Vectors
Trang 29s2(n) = s(n) – a * s(n - 1)
Trong đó s(n) là tín hiệu input, s2(n) tín hiệu kết quả, hằng số a ∈ [0.9, 1] Mục tiêu của bước pre-emphasis củng cố các tần số cao bị mất trong quá trình thu nhận tín hiệu Hình 2.4 minh họa kết quả lọc pre-emphasis
Dữ liệu tiếng nói thường không ổn định, nên thông thường phép biến đổi Fourier được thực hiện trên từng đoạn tín hiệu ngắn Mục tiêu của bước chia frame là chia
dữ liệu tiếng nói thành từng frame nhỏ có kích thước khoảng từ 20ms đến 30ms Các frame liền kề được xếp chồng lên nhau khoảng từ 10ms đến 15ms để tránh mất mát thông tin Cơ chế chia frame này được minh họa trong hình 2.5
Hình 2.5: Cơ chế chia frame
Sau đó, mỗi frame sẽ được nhân với một hàm cửa sổ (window function):
s(n) = s(n) * w(n) , n ∈ [0, N-1]
Trong đó, s(n) là tín hiệu trong frame, N là kích thước của frame, w(n) là hàm cửa
sổ Một số window functions thường được dùng là:
Trang 30n n
N
n n
1cos)(
N
n N
n n
Việc nhân mỗi frame với hàm cửa sổ sẽ giúp củng cố tính liên tục ở 2 biên của frame và tạo tính chu kỳ cho toàn bộ tín hiệu trong frame Hình 2.6 minh họa kết quả nhân một frame với Hamming window
Hình 2.6: Tín hiệu trước và sau khi nhân với cửa sổ Hamming
2.3.2 Biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT)
Phép biến đổi Fourier rời rạc (DFT) chuyển tín hiệu âm thanh từ miền thời gian sang miền tần số Một tín hiệu X có chiều dài N khi qua biến đổi DFT sẽ thu được tín hiệu phức có chiều dài N/2+1 ở miền tần số gồm 2 phần: ReX (kết quả phần thực) và ImX (kết quả phần ảo) Phương trình của phép biến đổi DFT:
] [ ]
[
ki i
x k
] [ ]
[
ki i
x k
Trang 31trong đó, i ∈ [0, N-1], k ∈ [0, N/2]
Trong không gian số phức (tọa độ Descartes), ReX và ImX còn có thể được biểu diễn dưới dạng độ lớn r của vector phức và góc quay φ (tọa độ cực) như trong hình 2.7
Hình 2.7: Tương quan giữa tọa độ Descartes và tọa độ cực
Như vậy, với phần thực ReX và phần ảo ImX, ta có thể tính độ lớn MagX (magnitude spectrum) và pha PhaseX theo công thức:
Re
Imarctanϕ
Công thức biến đổi nghịch:
PowX thể hiện mức tập trung năng lượng của tín hiệu âm thanh vào các vùng tần số
Trang 322.3.3 Mel filter bank
Mel là viết tắt của từ melody Tần số mel (mel-frequency) tương ứng với logaric của tần số thông thường/tuyến tính (linear-frequency) Tần số mel phản ánh cách thức tiếp nhận âm thanh của tai người Phương trình tương quan giữa mel-frequency
và linear-frequency:
mel = 1127.01048 * ln(1 + f/700) (2.1)
f = 700(em/1127.01048 - 1) (2.2)
Hình 2.8: Tương quan giữa tần số mel và tần số tuyến tính
Mel filter banks là các bộ lọc band-pass hình tam giác Lọc band-pass là lọc thông các tần số trong khoảng mong muốn Mục tiêu của bước áp dụng các bộ lọc Mel filter bank là để lọc lấy các tần số mà tai người có thể nghe được, đồng thời rút ngắn kích thước của vector đặc trưng
Các bộ lọc này được đặt sao cho các tần số trung tâm tăng đều trên miền mel, và logaric trên miền tần số (linear frequency), đồng thời hai cạnh của một bộ lọc phải được đặt trùng vào tần số trung tâm của hai bộ lọc lân cận Hình 2.9 minh họa các
bộ lọc trên miền mel và miền tẩn số
Trang 33Hình 2.9: Mel filter banks trên miền mel và miền tần số
Xét các mel filter banks trên miền tần số trong hình 2.10 Trong đó, fc(m) là tần số trung tâm của bộ lọc thứ m, Fs là sampling rate của tín hiệu âm thanh
Hình 2.10: Mel filter banks trên miền tần số tuyến tính
Các bộ lọc được cho bởi công thức:
)1()()()
1()(
)1()(
)()()1()
1()(
)1()(
)1()(0
)(
m f k f for
m f k f m f for m
f m f
m f k f
m f k f m
f for m
f m f
m f k f
m f k f for
k H
c
c c
c c
c
c c
c c
Trang 34trong đó, M là số bộ lọc, m ∈ [1, M], φmax và φmin có thể được tính từ fmax và fmin
theo công thức (2.1) với fmin = 0 và fmax = Fs/2
Power spectrum từ bước biến đổi Fourier khi đưa qua các Mel filter banks sẽ được kết quả:
) (
1
0
k H k PowX m
e
N k
m
Bước cuối cùng là áp dụng phép biến đổi cosine rời rạc lên e
2.3.4 Biến đổi Cosine rời rạc (Discrete Cosine Transform - DCT)
Biến đổi cosine rời rạc được cho bởi công thức:
e l
c
1 cos
) ( )
trong đó, c(l) là hệ số MFCC thứ l, l ∈ [1, L], L là số hệ số MFCC mong muốn, M
là số bộ lọc Thông thường M được chọn giá trị 24 và L là 12
Như vậy, vector c là kết quả của toàn bộ quá trình rút trích đặc trưng MFCC cho một frame Từ các vector c, các đạo hàm bậc một (delta-cepstrum) và bậc hai (delta-delta cepstrum) có thể được tính như sau:
( 1 1) 2
1
− + −
=
Δ cn cn cn
( 1 1) 2
1
− + − Δ Δ
=
ΔΔ cn cn cn
Các đạo hàm này được xem là đặc trưng động (dynamic features) thể hiện thay đổi giữa các frame Ngoài ra, một đặc trưng khác cũng thường được quan tâm là mức năng lượng của frame:
t x Energy
Trang 35Trong các hệ thống nhận dạng lời thoại, thông thường vector đặc trưng được chọn gồm 39 thành phần: 12 MFCC, 1 MFCC-energy, 12 delta-cepstrum, 1 delta-energy,
12 delta-delta cepstrum, 1 delta-delta-energy Tuy nhiên, hệ thống định danh người nói trong đề tài này chỉ sử dụng vector đặc trưng gồm 12 hệ số MFCC
2.4 Dò tìm năng lượng (energy detection)
Mục tiêu của bước dò tìm năng lượng là nhằm loại bỏ những đoạn âm thanh không
có lời thoại Công việc này được thực hiện thông qua việc so sánh năng lượng của mỗi vector đặc trưng với một ngưỡng T, nếu mức năng lượng nhỏ hơn T, vector đặc trưng đó sẽ bị loại ra
Sau bước dò tìm năng lượng, các vector đặc trưng có lời thoại sẽ được chuẩn hóa ở bước tiếp theo
2.5 Chuẩn hóa đặc trưng (feature normalization)
Thông thường, để giảm các ảnh hưởng phụ từ môi trường thu âm, các vector đặc trưng sẽ được chuẩn hóa thông qua 2 tham số là vector trung bình (mean) và phương sai (covariance) tính từ toàn bộ các vector đặc trưng Khi đó, mỗi vector đặc trưng sẽ được chuẩn hóa như sau:
2
'σ
2.6 Xây dựng mô hình người nói
Hạt nhân của một hệ thống nhận dạng/định danh người nói chính là các speaker models (mô hình người nói) đại diện cho từng người nói riêng biệt Các speaker
Trang 36models này được xây dựng bằng cách tổng quát hóa dữ liệu mẫu của speaker tương ứng Điều này có nghĩa là ta phải huấn luyện sao cho mỗi speaker model thích nghi nhất với dữ liệu mẫu của nó Mục tiêu của việc xây dựng các speaker models là tạo nền tảng cho bước nhận dạng các mẫu tiếng nói về sau
Hình 2.11: Các mô hình người nói
Tùy theo từng phương pháp tiếp cận mà speaker models sẽ được đại diện bằng các
mô hình cụ thể Chẳng hạn như trong phương pháp Vector Quantization, mỗi speaker model sẽ được đại diện bởi một codebook; đối với phương pháp GMM, mỗi speaker model tương ứng với một mô hình GMM; còn trong phương pháp Dynamic Time Warping, speaker model chỉ đơn thuần là tập các vector đặc trưng của người nói tương ứng mà không cần đến một cơ chế mô hình hóa nào cả
Như đã đề cập trong chương 1, hệ thống định danh người nói trong đề tài này được xây dựng theo hướng tiếp cận MGHMM Mỗi speaker sẽ được mô hình hóa bằng một speaker model đại diện bởi một MGHMM riêng biệt Định nghĩa và chi tiết các bước xây dựng MGHMM sẽ được trình bày cụ thể trong chương 3
Training Data
of Speaker 2
Speaker Model 2
Modelization Method
Modelization Method
Training Data
of Speaker n
Speaker Model n
Trang 37
- Bước 1: chỉ ra identity (định danh người nói) của mẫu test Nghĩa là cho biết
ai trong số các thành viên hệ thống đã phát âm mẫu test đó Bước này được gọi là identification
- Bước 2: xác minh lại xem mẫu test đó có thật sự thuộc về người nói đã xác định ở bước 1 hay thuộc về một người nói nào đó chưa biết Bước này được gọi là verification
2.7.1 Identification
Sau khi các speaker model (MGHMM) đã được huấn luyện, mỗi speaker model λi
sẽ thích nghi nhất với dữ liệu huấn luyện Xi của nó (λi được huấn luyện theo hướng cực đại hóa likelihood p(Xi | λi))
Khi cho một vector đặc trưng X vào speaker model bất kỳ λ, kết xuất nhận được sẽ
là độ tương tự (likelihood) của X đối với λ: p(X | λ) Tuy nhiên, theo luật quyết định Bayes phân lớp theo tỉ lệ lỗi nhỏ nhất, mẫu X sẽ được phân vào lớp λi có p(λi | X) lớn nhất
)
|(max
)()
|()
|(
X p
p X p X
i
λλ
trong đó, p(X) là xác suất xuất hiện vector X trong toàn không gian dữ liệu Tuy nhiên p(X) độc lập và giống nhau với mọi λi nên sẽ không được xét Xác suất p(λi) chính là tần xuất xuất hiện của người nói thứ i; thông thường những người nói này được xem là có tần suất xuất hiện như nhau nên
n
p i 1)(λ = với n là số lượng người nói trong hệ thống Như vậy, công thức (2.3) có thể được quy về:
)
|(max
i
X p Identity = λ với i ∈ [1, n]
Likelihood p(X | λi) đóng vai trò như điểm (score) của mô hình λi cho vector đặc trưng X, và X sẽ được phân vào lớp của người nói có mô hình cho điểm cao nhất
Trang 382.7.2 Verification
Kết thúc bước identification, định danh (identity) của mẫu test đã được xác định là người nói có score cao nhất Mục tiêu của bước verification là xác minh trở lại xem mẫu test có đúng thật là của người nói đó hay thuộc về một người nói chưa biết (unknown speaker/impostor)
- Ngưỡng toàn cục: một ngưỡng duy nhất được áp dụng cho tất cả các speaker
- Ngưỡng cục bộ: mỗi speaker sẽ có một ngưỡng riêng
Thông thường, ngưỡng tốt nhất được chọn tại điểm cân bằng lỗi trên đường DET (Detection Error Trade-off) Ngoài ra, chuẩn hóa score (score normalization) sẽ giúp cho việc chọn ngưỡng có hiệu quả hơn và giảm đáng kể tỉ lệ lỗi
Trang 392.8 Score normalization
Mục đích chính của việc chuẩn hóa score là tạo sự tách biệt giữa phân bố score của những speaker trong hệ thống và những speaker chưa biết, nghĩa là tăng cường score cho speaker trong hệ thống và giảm thiểu score của speaker chưa biết
Có 2 nhóm giải pháp chính cho vấn đề này:
- Chuẩn hóa phân phối score (standardization of score distributions): bao gồm các kỹ thuật được sử dụng phổ biến của lĩnh vực xác minh người nói (speaker verification) như T-norm (test normalization), Z-norm (zero normalization) và H-norm (handset normalization)
- Giải pháp Bayes: là một kỹ thuật trong Bayesian framework, áp dụng chuẩn hóa score cho hệ thống định danh người nói
Đề tài này sử dụng giải pháp Bayes cho bước chuẩn hóa score theo biểu thức:
L(O) = log p(O | λML) – log p(O | λU)
trong đó, λML = λi, argmax ( | i)
i
O p
i = λ (λML là mô hình có điểm cao nhất ở bước identification), λU là mô hình đại diện cho một số unknown speaker có khả năng bị nhận nhầm vào speaker của mô hình λML Trong thực tế, ta không thể xác định được
λU, một lựa chọn tốt là tìm một đại lượng xấp xỉ gần đúng cho p(O | λU) Có 3 phương pháp giải quyết cho vấn đề này: World Model Normalisation (WMN), Cohort Normalisation (CN) và Unconstraint Cohort Normalisation (UCN)
2.8.1 World Model Normalization (WMN)
Phương pháp này xấp xỉ p(O | λU) bởi p(O | λWM) với λWM là mô hình được tổng quát hóa từ một số lượng lớn các speaker λWM thường được gọi là world model hay universal background model
Trang 40Để huấn luyện mô hình λWM, cần phải có một lượng lớn dữ liệu của rất nhiều speaker
2.8.2 Cohort Normalization (CN)
Trong phương pháp này, mỗi speaker model sẽ được liên hệ với một nhóm các speaker model gần nó nhất trong không gian speaker (thể hiện bởi bộ tham số λ) Khi đó, p(O | λU) sẽ được xấp xỉ bởi pCN(O, λML, K):
ML
K K
O p
)
| ( log
1 ) , ,
trong đó, f (λML, i) ≠ f (λML, j) với i ≠j
) , ( )
2 , ( )
2.8.3 Unconstraint Cohort Normalization (UCN)
Phương pháp này giống với phương pháp Cohort Normalization, tuy nhiên nhóm
“competitive speaker models” sẽ được chọn ra ngay trong giai đoạn test để xấp xỉ p(O | λU) bởi pUCN(O, λML, K) theo biểu thức:
O p
1
) ( )
| ( log
1 ) , ,
trong đó, Ф(i) ≠ Ф(j) với i ≠ j, và λФ(1), λФ(2), …, λФ(K) là các speaker models có score cao nhất sau λML Các speaker models này có thể được chọn trực tiếp ngay sau bước identification mà không cần phải tốn chi phí phát sinh thêm mô hình (phương pháp World Model Normalization) hay tốn chi phí lựa chọn mô hình trong không gian speaker (phương pháp Cohort Normalization)