Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói Hình 1.4: Các thành phần hệ thống nhận dạng cảm xúc của người nói Hình 2.6 Mô tả các bước và công cụ liên kết tại các
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
Phạm Thị Nhung
NHẬN DẠNG GIỚI TÍNH, CẢM XÚC CỦA NGƯỜI NÓI
VÀ ỨNG DỤNG CHO TIẾNG VIỆT
Chuyên ngành: Công nghệ Thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Nguyễn Hồng Quang
Hà Nội – Năm 2014
Trang 2LỜI CAM ĐOAN
Tôi – Phạm Thị Nhung, học viên lớp cao học 12BCNTT2 Trường Đại học Bách khoa Hà Nội cam kết: Luận văn tốt nghiệp là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS Nguyễn Hồng Quang – Viện công nghệ Thông tin và Truyền thông- Đại học Bách khoa Hà Nội Các kết quả trong luận văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác
Hà Nội, ngày 19 tháng 09 năm 2014 Học viên: Phạm Thị Nhung Lớp: 12BCNTT2
Trang 3LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Hồng Quang –
Bộ môn Kỹ thuật Máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học Bách Khoa Hà Nội, người thầy đã hết lòng giúp đỡ, dạy bảo, động viên và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành luận văn tốt nghiệp
Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trường Đại học Bách khoa
Hà Nội nói chung và Viện Công nghệ Thông tin và Truyền thông nói riêng đã tận tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong suốt thời gian học tập tại trường
Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn ủng hộ và động viên tôi trong những lúc khó khăn nhất
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ vi
DANH MỤC CÁC BẢNG viii
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ x
PHẦN MỞ ĐẦU 1
Lý do chọn đề tài 1
Mục đích, phạm vi nghiên cứu 2
Đối tượng nghiên cứu 3
Phương pháp nghiên cứu 3
Nhiệm vụ nghiên cứu 3
Đóng góp mới của luận văn 4
CHƯƠNG 1: TỔNG QUAN 5
1.1 Tổng quan về nhận dạng giới tính, cảm xúc người nói 5
1.1.1 Giới thiệu chung 5
1.1.2 Ứng dụng nhận dạng cảm xúc của người nói 6
1.1.3 Phương pháp nhận dạng giới tính, cảm xúc của người nói 7
1.1.4 Cơ sở dữ liệu cho nhận dạng cảm xúc 10
1.2 Các giai đoạn xử lý của một hệ thống nhận dạng giới tính, cảm xúc người nói 10
1.3 Các thành phần của hệ thống nhận dạng giới tính, cảm xúc người nói 12
1.4 Tìm hiểu về các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên thế giới 13
1.4.1 Phát hiện các cảm xúc theo thời gian thực tại tổng đài điện thoại [5] 13
1.4.2 Hệ thống nhận dạng cảm xúc phụ thuộc và độc lập giới tính với tiếng Telugu sử dụng mô hình hỗn hợp Gaussian [4] 15
1.4.3 Cải thiện tự động nhận dạng cảm xúc từ tín hiệu tiếng nói [1] 17
Trang 51.5.1 Robot biết an ủi con người [16] 18
1.5.2 Nhận dạng cảm xúc qua điện não (EEG) theo thời gian thực sử dụng mô hình máy vector hỗ trợ (SVM- Support Vector Machine) [9] 18
1.6 Mục tiêu cần phải thực hiện của đề tài 19
CHƯƠNG 2: PHƯƠNG PHÁP THỰC HIỆN VÀ CÔNG CỤ SỬ DỤNG 20
2.1 Phương pháp thực hiện đề tài 20
2.2 Trích chọn đặc trưng MFCC 21
2.3 Mô hình GMM sử dụng trong nhận dạng giới tính, cảm xúc của người nói 23
2.4 Bộ công cụ ALIZE và LIA-RAL 25
2.5 Bộ công cụ SPro 26
2.6 Ngôn ngữ lập trình Python 26
2.7 Sử dụng các bộ công cụ và ngôn ngữ lập trình cho các bước của bài toán nhận dạng giới tính, cảm xúc của người nói 27
2.7.1.1 Trích chọn và chuẩn hóa đặc trưng 28
2.7.1.2 Huấn luyện mô hình 33
2.7.1.3 Nhận dạng 38
CHƯƠNG 3: XÂY DỰNG HỆ THỐNG THỬ NGHIỆM NHẬN DẠNG GIỚI TÍNH, CẢM XÚC NGƯỜI NÓI VÀ ỨNG DỤNG CHO TIẾNG VIỆT 41
3.1 Tổng quan quá trình xây dựng hệ thống thử nghiệm nhận dạng giới tính, cảm xúc người nói 41
3.2 Cơ sở dữ liệu cảm xúc cho thử nghiệm hệ thống nhận dạng 43
3.2.1 CSDL tiếng Đức - EMO-DB 43
3.2.2 CSDL tiếng Việt VEMO-DB 44
3.3 Các thử nghiệm nhận dạng giới tính, cảm xúc của người nói 45
3.3.1 Thử nghiệm với CSDL EMO-DB 46
3.3.1.1 Thử nghiệm nhận dạng giới tính 46
3.3.1.2 Thử nghiệm nhận dạng cảm xúc 47
3.3.2 Thử nghiệm với CSDL VEMO-DB 50
3.3.2.1 Thử nghiệm nhận dạng giới tính 50
3.3.2.2 Thử nghiệm nhận dạng cảm xúc 51
CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54
4.1 Phân tích, đánh giá các kết quả thử nghiệm 54
Trang 64.1.1 Kết quả thử nghiệm trên CSDL EMO-DB 54
4.1.1.1 Kết quả thử nghiệm nhận dạng giới tính 54
4.1.1.2 Thử nghiệm nhận dạng cảm xúc 56
4.1.2 Kết quả thử nghiệm trên CSDL VEMO-DB 63
4.1.2.1 Thử nghiệm nhận dạng giới tính 63
4.1.2.2 Thử nghiệm nhận dạng cảm xúc 64
4.2 Kết luận 71
4.3 Hướng phát triển của đề tài 72
TÀI LIỆU THAM KHẢO 73
PHỤ LỤC 75
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ
Danh mục các chữ viết tắt tiếng anh
MFCC Mel- Frequency Cepstral
Coeficients
Hệ số Cepstral theo thang đo tần số Mel
vọng
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
nhất DCT Discrete Cousine Transform Biến đổi Cousine rời rạc
Trang 8EFM Emotion Female Male
VEMO-DB Vietnamese Emotion Data Base Cơ sở dữ lệu tiếng Việt
Danh mục các chữ viết tắt tiếng Việt
Trang 9DANH MỤC CÁC BẢNG
Bảng 1.1: Đặc điểm của cơ sở dữ liệu
Bảng 1.2: Kết quả nhận dạng (%) theo số đặc trưng được lựa chọn
có sự nhầm lẫn
Bảng 3.7: Bảng tổng hợp các thử nghiệm nhận dạng giới tính
Bảng 3.8: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc
Bảng 3.9: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính Bảng 3.10: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và
có sự nhầm lẫn
Bảng 4.1: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính
Bảng 4.2: Ma trận nhầm lẫn của thử nghiệm E01_DI theo tiêu chí 1
Bảng 4.7: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính
Bảng 4.8: Ma trận nhầm lẫn của thử nghiệm E01_DI theo tiêu chí 1
Trang 11Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói
Hình 1.4: Các thành phần hệ thống nhận dạng cảm xúc của người nói
Hình 2.6 Mô tả các bước và công cụ liên kết tại các bước thực hiện trích chọn và
chuẩn hóa đặc trưng
Hình 2.7: Sơ đồ trích chọn đặc trưng MFCC
Hình 2.8: Sơ đồ bước dò năng lượng
Hình 2.9: Sơ đồ bước loại bỏ khoảng lặng
Hình 2.10: Sơ đồ bước chuẩn hóa đặc trưng
Hình 2.11: Sơ đồ các bước và công cụ liên kết để thực hiện huấn luyện mô hình Hình 2.12: Sơ đồ bước huấn luyện mô hình nền - TrainWorldInit
Hình 2.13: Sơ đồ bước huấn luyện mô hình nền - TrainWorldFinal
Hình 2.14: Sơ đồ bước huấn luyện mô hình đích
Hình 2 15: Sơ đồ các bước và công cụ liên kết để thực hiện nhận dạng
Hình 2.16: Sơ đồ bước nhận dạng
Trang 12Hình 3.1: Sơ đồ các bước thực hiện xây dựng hệ thống dạng giới tính, nhận dạng
cảm xúc của người nói
Hình 3.2: Sơ đồ kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm
xúc
Hình 3.3: Sơ đồ mô hình giới tính sau bước huấn luyện
Hình 3.4: Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện
Hình 3.5: Sơ đồ mô hình 4 cảm xúc sau bước huấn luyện
Hình 4.1: Biểu đồ tỷ lệ nhận dạng giới tính của thử nghiệm G01_EJ với số thành
phần Gauss thay đổi
Hình 4.2: Biểu đồ tỷ lệ nhận dạng giới tính của các thử nghiệm
Hình 4.3: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên trên tập dự liệu huấn luyện cảm xúc cả giọng nam và giọng nữ
Hình 4.4: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên trên tập dự liệu huấn luyện cảm xúc cả giọng nam và giọng nữ
Hình 4.5: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm cảm xúc trên CSDL
cảm xúc huấn luyện của giọng nam
Hình 4 6: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL cảm xúc huấn luyện của giọng nam
Hình 4.7: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên CSDL cảm xúc huấn luyện của giọng nữ
Hình 4.8: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL cảm xúc huấn luyện của giọng nữ
Hình 4.9: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của 3 thử nghiệm Hình 4.10: Biểu đồ tỷ lệ nhận dạng trung bình của 3 thử nghiệm
Hình 4.11: Biểu đồ tỷ lệ (%) của các thử nghiệm nhận dạng giới tính
Hình 4.12: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xú
trên CSDL huấn luyện của gọng nam và giọng nữ
Trang 13Hình 4.13: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm
nhận dạng cảm xú trên CSDL huấn luyện của gọng nam và giọng nữ Hình 4.14: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên CSDL huấn luyện của gọng nam
Hình 4.15: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL huấn luyện của gọng nam
Hình 4 16: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc
trên CSDL huấn luyện của gọng nữ
Hình 4.17: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm
nhận dạng cảm xúc trên CSDL huấn luyện của gọng nữ
Hình 4.18: Biểu đồ tỷ lệ nhận dạng trung bình 4 cảm xúc của 3 thử nghiệm
Hình 4.19 : Biểu đồ tỷ lệ nhận dạng cảm xúc trung bình của 3 thử nghiệm
Hình 4 20: Biểu đồ so sánh kết quả các thử nghiệm trên 2 bộ CSDL cảm xúc tiếng
Đức và tiếng Việt
Trang 15PHẦN MỞ ĐẦU
Lý do chọn đề tài
Ngày nay, với sự phát triển vượt bậc của khoa học kỹ thuật, con người đã đạt được rất nhiều thành tựu to lớn trong mọi lĩnh vực: sản xuất, kinh doanh, khoa học, nghiên cứu …Khi khoa học, công nghệ và cuộc sống ngày càng phát triển con người có nhu cầu sử dụng các dịch vụ tốt hơn, các thiết bị thông minh hơn và con người mong muốn giao tiếp với các thiết bị đó theo cách tự nhiên và gần gũi hơn Đáp ứng các nhu cầu đó của con người cùng với sự phát triển của khoa học kỹ thuật, các nhà khoa học, các Công ty lớn như: Microsoft, SGI (Nhật Bản), PSA Peugeot Citroen (Pháp)… đã nghiên cứu để đưa ra các phần mềm ứng dụng, các thiết bị trong đó tiêu biểu là phần mềm, thiết bị nhận dạng cảm xúc như: phần mềm giúp điện thoại nhận biết cảm xúc của người sử dụng, tai nghe nhận biết cảm xúc người dùng, căn phòng thông minh với máy tỏa mùi theo cảm xúc của người trong phòng, robot biết an ủi con người hay hệ thống nhận dạng cảm xúc của lái xe…
Để nhận dạng cảm xúc của con người chúng ta có thể nhận dạng qua tiếng nói,
cử động trên khuôn mặt, cử động của môi, nhịp tim, điện não … Tuy nhiên, nhận dạng qua tiếng nói vẫn được chú trọng phát triển, vì tiếng nói là phương tiện tự nhiên nhất trong giao tiếp Tiếng nói của con người mang các thông tin: tần số, cường độ, nhịp điệu, giai điệu, phổ v.v Các thông tin này không phải bất biến từ lúc người biết nói đến lúc già, nhưng có tính ổn định trong giai đoạn dài của cuộc đời Khi con người đã trưởng thành, những đặc trưng khác biệt trong cấu âm sẽ hình thành và mang tính ổn định cao Đây chính là cơ sở khoa học cho việc xây dựng hệ thống nhận dạng cảm xúc người nói
Nhận dạng cảm xúc của người nói là một trong những lĩnh vực của xử lý tiếng nói Mục đích của nhận dạng cảm xúc là để nhận ra người nói đang ở trạng thái cảm xúc nào: vui, buồn, Vui, tức giận, sợ hãi, bình thường…Tuy nhiên, cảm xúc của con người rất phức tạp, mỗi người có một cách thể hiện khác nhau nên việc nhận dạng cảm xúc gặp rất nhiều khó khăn
Trang 16Trong nhận dạng cảm xúc của người nói thì cảm xúc của nam và nữ thể hiện qua tiếng nói có sự khác nhau do các thông tin trong tiếng nói của nam và nữ có sự khác nhau như: tần số cơ bản của giọng nam là 80 Hz -200 Hz, tần số cơ bản của giọng nữ là 150 Hz-450 Hz [10] Do đó, khi xây dựng hệ thống nhận dạng cảm xúc của người nói ta xem xét và kết hợp với phần nhận dạng giới tính của người nói [3],[4]
Nhận dạng cảm xúc của người nói có nhiều nghiên cứu, ứng dụng được công
bố và được phát triển trên thế giới với các ngôn ngữ khác nhau: tiếng Anh, tiếng Đức, Đan Mạch… Ở Việt Nam, hướng nghiên cứu và phát triển các hệ thống nhận dạng cảm xúc đang được phát triển mạnh, đã có một số công trình được công bố và ứng dụng đang được thử nghiệm như: robot biết an ủi con người của TS Nguyễn Đức Thành, khoa Điện- Điện tử, ĐH Bách Khoa TP.HCM Tuy nhiên, các công trình, ứng dụng được công bố sử dụng phương pháp nhận dạng cảm xúc qua cử động trên khuôn mặt hoặc qua điện não (EEG) mà chưa có nhiều công trình nghiên nghiên cứu về nhận dạng cảm xúc của người nói tiếng Việt
Với những ứng dụng thiết thực và quan trọng của nhận dạng cảm xúc của
người nói, đề tài: “Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho
tiếng Việt” được lựa chọn với mục đích tìm hiểu, xây dựng và thử nghiệm hệ thống
nhận dạng giới tính, cảm xúc của người nói ứng dụng cho tiếng Việt để có thể ứng dụng vào thực tế
Mục đích, phạm vi nghiên cứu
- Tìm hiểu tổng quan về nhận dạng giới tính, cảm xúc người nói
- Tìm hiểu phương pháp trích chọn đặc trưng cần thiết cho bài toán nhận dạng giới tính, cảm xúc người nói
- Nghiên cứu mô hình GMM và bộ công cụ ALIZE, gói thư viện LIA-RAL để nhận dạng giới tính, cảm xúc
- Xây dựng chương trình nhận dạng giới tính, cảm xúc người nói để thử nghiệm với bộ dữ liệu tiếng Đức và bộ dữ liệu tiếng Việt
Trang 17Đối tượng nghiên cứu
- Nghiên cứu tổng quan về nhận dạng giới tính, cảm xúc người nói
- Nghiên cứu về mô hình hỗn hợp GMM ứng dụng để nhận dạng giới tính và cảm xúc người nói
- Nghiên cứu bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ lập trình Python
- Sử dụng bộ cơ sở dữ liệu tiếng Đức và bộ cơ sở dữ liệu tiếng Việt
Phương pháp nghiên cứu
- Nghiên cứu lý thuyết về nhận dạng giới tính, cảm xúc người nói
- Nghiên cứu sử dụng bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ lập trình Python trên môi trường Linux trong nhận dạng giới tính, cảm xúc người nói
- Thử nghiệm nhận dạng giới tính, cảm xúc người nói với bộ cơ sở dữ liệu tiếng Đức với số lượng người nói ít (10 người), số lượng câu nói ít (10 câu) có độ dài ngắn khác nhau
- Thử nghiệm nhận dạng giới tính, cảm xúc người nói với bộ cơ sở dữ liệu tiếng Việt với số lượng người nói nhiều (50 người), số lượng các câu nói (55 câu)
có độ dài ngắn khác nhau
Nhiệm vụ nghiên cứu
- Tìm hiểu về nhận dạng giới tính, cảm xúc của người nói
- Tìm hiểu phương pháp trích chọn các tham số đặc trưng cần thiết cho bài toán nhận dạng giới tính, cảm xúc của người nói
- Tìm hiểu về mô hình GMM và hoạt động của bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ lập trình Python
- Xây dựng hệ thống thử nhận dạng giới tính, hệ thống thử nghiệm nhận dạng cảm xúc, kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm xúc
- Thử nghiệm hệ thống với 2 cơ sở dữ liệu khác nhau về ngôn ngữ: cơ sở dữ liệu tiếng Đức, cơ sở dữ liệu tiếng Việt Trên cơ sở kết quả thử nghiệm phân tích đánh giá hệ thống
Trang 18Đóng góp mới của luận văn
Trên cơ sở nghiên cứu lý thuyết và thử nghiệm luận văn đã có những đóng góp mới về phương pháp kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm xúc và đã thực hiện thử nghiệm trên 2 bộ cơ sở dữ liệu cảm xúc khác nhau về ngôn ngữ
Trang 19CHƯƠNG 1: TỔNG QUAN
1.1 Tổng quan về nhận dạng giới tính, cảm xúc người nói
1.1.1 Giới thiệu chung
Tiếng nói là một chuỗi âm thanh phát ra từ bộ máy phát âm của con người, dùng để trao đổi thông tin, tư tưởng, tình cảm giữa con người với nhau, cụ thể giữa những thành viên trong xã hội với nhau Tiếng nói là một trong những phương tiện trao đổi thông tin cơ bản nhất và quan trọng nhất của con người
Giống như âm thanh, tiếng nói cũng có những đặc trưng, những đặc điểm chung của âm thanh như tần số, biên độ, cường độ, năng lượng, phổ v.v Ngoài ra, còn có những đặc điểm riêng biệt thuộc về âm thanh của con người như: formant,
âm sắc, cao độ …Dựa vào những đặc trưng, đặc điểm đó con người có thể xử lý tiếng nói và ứng dụng vào những lĩnh vực khác nhau Hiện nay, các nghiên cứu và ứng dụng liên quan đến lĩnh vực xử lý tiếng nói vẫn đang được chú trọng phát triển
và cải thiện như: tổng hợp tiếng nói, nhận dạng tiếng nói, lưu trữ, xử lý tín hiệu tiếng nói… Một trong những lĩnh vực đó là nhận dạng giới tính, cảm xúc của người nói
Nhận dạng giới tính của người nói là gì?
Nhận dạng giới tính của người nói là một hệ thống thực hiện tính toán xác thực người nói là nam hay nữ bằng cách sử dụng đặc điểm, đặc trưng riêng lấy từ tiếng nói của họ
Nhận dạng cảm xúc người nói là gì?
Nội dung của chương này sẽ trình bày các vấn đề sau:
- Lý thuyết về nhận dạng giới tính, cảm xúc người nói và các ứng dụng
- Phương pháp nhận dạng giới tính, cảm xúc của người nói
- Các giai đoạn xử lý và các thành phần của hệ thống nhận dạng giới tính, cảm xúc
- Các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên thế giới và tại Việt Nam
Trang 20Nhận dạng cảm xúc người nói là một hệ thống thực hiện nhiệm vụ tính toán xác thực người nói đang ở trạng thái cảm xúc nào: buồn, vui, tức giận, sợ hãi hay là bình thường … bằng cách sử dụng đặc điểm, đặc trưng riêng lấy từ tiếng nói của họ Một hệ thống nhận dạng lý tưởng phải có khả năng nhận dạng đúng trong mọi môi trường Tuy nhiên, một số yếu tố ảnh hưởng trong quá trình nhận dạng gây nên kết quả lỗi như sau:
- Âm thanh được ghi ở môi trường không phù hợp, phòng nhiều tiếng ồn, ảnh hưởng bởi nhiễu
- Vị trí đặt của thiết bị thu âm ở mỗi thời điểm ghi âm khác nhau
- Sử dụng kênh ghi âm, xác thực không phù hợp
- Trạng thái của người nói như căng thẳng hay bị ép buộc…
- Tốc độ phát âm khi thử nghiệm khác so với dữ liệu huấn luyện
Các nguồn nêu trên gây ra các lỗi xác minh dẫn đến kết quả việc nhận dạng giới tính, cảm xúc người nói có sự sai lệch
1.1.2 Ứng dụng nhận dạng cảm xúc của người nói
Nhận dạng cảm xúc người nói có nhiều ứng dụng thực tiễn:
- Tương tác người máy được cải thiện: Robot biết an ủi con người, máy tính nhận biết cảm xúc người sử dụng đang tức giận thì máy tính sẽ giảm tông màu màn hình, vặn nhỏ nhạc hoặc đơn giản là xin lỗi [16]
- Điều khiển: căn phòng thông minh (RoomRender) nhận dạng cảm xúc của những người ở trong phòng nhờ phân tích giọng nói Căn phòng bao gồm một bức tường có thể thay đổi màu khác nhau dựa theo tính khí của những người ở trong phòng RoomRender còn có một máy tỏa mùi thích nghi với cảm xúc của người ở trong phòng [16]
- Các trung tâm dịch vụ khách hàng (Call center) có thể sử dụng ứng dụng trong phân tích hành vi của khách hàng để phục vụ khách hàng tốt hơn hoặc để tạo
ra các chiến lược cải thiện kinh doanh [4]
- Ứng dụng trong du lịch (E-touring), đối thoại với tội phạm [4]
Trang 21- Nhận dạng giới tính, cảm xúc của người nói có thể được sử dụng để tăng cường hệ thống tự động phân tích dữ liệu y tế hoặc pháp y
1.1.3 Phương pháp nhận dạng giới tính, cảm xúc của người nói
Nhận dạng giới tính, cảm xúc của người nói là một lĩnh vực trong nhận dạng tiếng nói Nhận dạng tiếng nói có 3 phương pháp phổ biến được sử dụng [10]:
- Phương pháp âm học – ngữ âm học
- Phương pháp nhận dạng mẫu
- Phương pháp ứng dụng trí tuệ nhân tạo
Mỗi phương pháp có nguyên lý hoạt động và ưu, nhược điểm riêng Tuy nhiên, trong nhận dạng giới tính, cảm xúc của người nói thì phương pháp nhận dạng mẫu thường được sử dụng
Phương pháp nhận dạng mẫu là phương pháp không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng
Trong phương pháp này, cơ sở dữ liệu dùng cho huấn luyện phải có đủ các phiên bản của mẫu cần nhận dạng thì quá trình huấn luyện mẫu có thể xác định chính xác các đặc tính của mẫu
Các hệ thống phát triển theo phương pháp nhận dạng mẫu có 2 bước:
- Bước 1 - Huấn luyện: Hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu giới tính, cảm xúc của người nói) để huấn luyện tạo ra các mẫu về giới tính, cảm xúc đặc trưng (mẫu tham chiếu)
- Bước 2 – Nhận dạng: Hệ thống nhận các mẫu tiếng nói từ bên ngoài, so sánh với các mẫu đặc trưng để nhận dạng
Các kỹ thuật nhận dạng mẫu được áp dụng khá thành công trong lĩnh vực nhận dạng giới tính, cảm xúc của người nói hiện nay là mô hình Markov ẩn (HMM), mô hình GMM, mạng Neuron nhân tạo (ANN)
Sơ đồ khối hệ thống nhận dạng giới tính của người nói theo phương pháp nhận dạng mẫu được mô tả ở hình 1.1
Trang 22Hình 1.1: Sơ đồ khối hệ thống nhận dạng giới tính của người nói
theo phương pháp mẫu Hình 1.1 mô tả hoạt động của hệ thống nhận dạng giới tính của người nói theo phương pháp mẫu có thể tóm tắt như sau:
- Trích chọn đặc trưng: tín hiệu tiếng nói được phân tích thành chuỗi các số đo
để xác định mẫu nhận dạng Các số đo đặc tính thường là kết quả của một số kỹ thuật phân tích phổ: các bộ lọc thông dải, phân tích mã hóa dự toán tuyến tính (PLC), phép biến đổi Fourier rời rạc (DFT)…
- Huấn luyện mẫu: sẽ tạo ra mô hình từng giới tính riêng biệt và được lưu trữ
- Nhận dạng: dữ liệu tiếng nói sau khi được trích chọn đặc trưng sẽ đem so khớp với đặc trưng của mô hình giới tính đã được huấn luyện Kết quả nào có độ tương đồng cao nhất hoặc điểm số lớn nhất sẽ được đưa ra và tương ứng là giới tính được nhận dạng
Sơ đồ khối hệ thống nhận dạng cảm xúc của người nói theo phương pháp nhận
Huấn luyện giới tính
Tính độ tương đồng của
mô hình giới tính
Trích chọn đặc trưng
Huấn luyện
Giới tính đƣợc nhận dạng
Trang 23Hình 1.2: Sơ đồ khối hệ thống nhận dạng cảm xúc của người nói theo phương
pháp mẫu Hình 1.2 mô tả hoạt động của hệ thống nhận dạng cảm xúc của người nói theo phương pháp mẫu có thể tóm tắt như sau:
- Trích chọn đặc trưng: tín hiệu tiếng nói được phân tích thành chuỗi các số đo
để xác định mẫu nhận dạng Các số đo đặc tính thường là kết quả của một số kỹ thuật phân tích phổ: các bộ lọc thông dải, phân tích mã hóa dự toán tuyến tính (PLC), phép biến đổi Fourier rời rạc (DFT)…
- Huấn luyện mẫu: sẽ tạo ra mô hình cảm xúc riêng biệt và được lưu trữ
- Nhận dạng: dữ liệu tiếng nói sau khi được trích chọn đặc trưng sẽ đem so khớp với đặc trưng của mô hình cảm xúc đã được huấn luyện Kết quả nào có độ tương đồng cao nhất hoặc điểm số lớn nhất sẽ được đưa ra và tương ứng là cảm xúc được nhận dạng
Huấn luyện cảm xúc
Tính độ tương đồng của
mô hình cảm xúc
Trích chọn đặc trưng
Huấn luyện
Cảm xúc đƣợc nhận dạng
Trang 241.1.4 Cơ sở dữ liệu cho nhận dạng cảm xúc
Để nhận dạng cảm xúc của người nói theo phương pháp mẫu thì cần phải có một cơ sở dữ liệu để sử dụng cho bước huấn luyện và nhận dạng Với yêu cầu nhận dạng cảm xúc của người nói, cơ sở dữ liệu cảm xúc thường có 2 loại cơ sở dữ liệu được sử dụng cho việc nghiên cứu nhận dạng cảm xúc của người nói:
+ Loại thứ nhất: là lời nói có cảm xúc chủ động được gán nhãn, cơ sở dữ liệu cảm xúc thu được bằng cách yêu cầu 1 diễn viên nói các câu khác nhau với các cảm xúc định trước như: vui, buồn, túc, bình thường.v.v
+ Loại thứ hai: là lời nói có cảm xúc thực tế được gán nhãn, đây là cơ sở dữ liệu đến từ những hệ thống thời gian thực như tổng đài điện thoại
Mỗi dạng cơ sở dữ liệu phù hợp với những mục đích khác nhau:
- Loại thứ nhất chỉ sử dụng được trong một vài trường hợp nghiên cứu lý thuyết có mục đích
- Việc sử dụng loại thứ hai trở thành dạng chủ đạo, vì nó là dữ liệu thích hợp nhất cho hệ thống nhận dạng cảm xúc mang tính thực tế
Trong luận văn sử dụng cơ sở dữ liệu cảm xúc loại thứ nhất
1.2 Các giai đoạn xử lý của một hệ thống nhận dạng giới tính, cảm xúc người nói
Nhận dạng giới tính, cảm xúc của người nói theo phương pháp mẫu gồm 2 giai đoạn xử lý:
- Giai đoạn huấn luyện (training phase): là quá trình hệ thống học những mẫu chuẩn
Giai đoạn huấn luyện gồm các bước:
+ Ghi âm những cảm xúc cần huấn luyện: Khi ghi âm cảm xúc cần đặt mã cho mỗi người nói (diễn viên), phân biệt giới tính và gán nhãn cảm xúc Mỗi người nói
sẽ được yêu cầu nói một số câu nhất định và cùng một câu nói thể hiện các cảm xúc khác nhau tùy thuộc vào yêu cầu hệ thống cần nhận dạng bao nhiêu cảm xúc thì người nói sẽ thể hiện bấy nhiêu cảm xúc
Trang 25+ Trích chọn đặc trưng: là việc biến đổi tín hiệu tiếng nói thực sang dạng tham
số đặc trưng phục vụ cho quá trình nhận dạng, thử nghiệm Việc trích chọn đặc trưng có ý nghĩa hết sức quan trọng, ảnh hưởng trực tiếp đến kết quả nhận dạng Đặc trưng được sử dụng trong hệ nhận dạng là: hệ số Cepstral theo thang đo tần số Mel (MFCC) Đặc trưng trên có được thông qua kỹ thuật phân tích phổ: các bộ lọc thông dải, phân tích mã hóa dự đoán tuyến tính (PLC), phép biến đổi Fourier rời rạc (DFT)…
+ Huấn luyện mô hình giới tính hay cảm xúc: Giai đoạn này mục đích là để tạo cho mỗi giới tính hay cảm xúc có một mô hình đặc trưng riêng theo các một phương pháp nhất định Có nhiều phương pháp để huấn luyện mô hình giới tính hay cảm xúc như: mô hình hỗn hợp Gauss (GMM), mô hình Markov ẩn (HMM), mô hình lượng tử hóa vector (VQ), mô hình mạng Noron nhân tạo (ANN)…
+ Lưu lại các đặc trưng của mỗi giới tính, cảm xúc sau khi đã được huấn luyện
- Giai đoạn nhận dạng (recognition phase): là quá trình quyết định xem người nói đó là nam hay nữ, đang ở trạng thái cảm xúc nào căn cứ vào mô hình giới tính, mô hình cảm xúc đã được huấn luyện
Giai đoạn nhận dạng gồm các bước sau:
+ Ghi âm giọng nói của người cần kiểm tra giới tính, trạng thái cảm xúc Tuy nhiên với hệ thống thử nghiệm chưa phải là ứng dụng theo thời gian thực thì dữ liệu
để kiểm thử sẽ lấy 1 phần trong dữ liệu ghi âm để huấn luyện
+ Trích chọn đặc trưng: thực hiện tương tự như trích chọn đặc trưng trong giai đoạn huấn luyện
+ Đưa ra quyết định nhận dạng: Hệ thống sẽ so sánh tính toán và tổng hợp các đặc trưng tiếng nói của người đưa vào nhận dạng với đặc trưng của mô hình giới tính, mô hình cảm xúc đã được huấn luyện xem có độ tương đồng cao nhất hay có điểm số lớn nhất thì sẽ đưa ra kết quả là tiếng nói của người đưa vào nhận dạng là nam hay nữ, đang ở trạng thái cảm xúc nào
Trang 261.3 Các thành phần của hệ thống nhận dạng giới tính, cảm xúc người nói
Hệ thống nhận dạng giới tính, nhận dạng cảm xúc của người nói bao gồm các thành phần tổng quát được mô tả trong hình 1.3 và hình 1.4
Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói
Luật quyết định
Kết quả
Huấn luyện cảm xúc
Vector đặc trưng thứ 2
So khớp thứ 1
Mô hình cảm xúc
So khớp thứ 2
So khớp thứ N
Vector đặc trưng thứ N
Nhận dạng
Luật quyết định
Kết quả
Huấn luyện giới tính
Vector đặc trưng thứ 2
So khớp thứ 1
Mô hình giới tính
So khớp thứ 2
So khớp thứ N
Vector đặc trưng thứ N
Nhận
Trang 27Hình 1.3 và hình 1.4 mô tả các thành phần của hệ thống nhận dạng giới tính, cảm xúc của người nói gồm:
- Trích chọn đặc trưng: Tín hiệu tiếng nói đưa vào được biến đổi giọng nói thô thành những vector đặc trưng
- Huấn luyện mô hình giới tính, cảm xúc: huấn luyện giới tính, cảm xúc dựa vào một số phương pháp cụ thể như GMM, HMM… để tạo ra mô hình giới tính, mô hình cảm xúc
- Mô hình giới tính, mô hình cảm xúc:
+ Mô hình giới tính sẽ có 2 mô hình: mô hình giới tính nam, mô hình giới tính nữ + Mô hình cảm xúc: hệ thống đưa vào huấn luyện bao nhiêu cảm xúc thì sẽ có bấy nhiêu mô hình cảm xúc
- Luật quyết định: xác định và đưa ra quyết định dựa vào việc tính toán so khớp các đặc trưng về giới tính, cảm xúc người nói đưa vào kiểm tra với cơ sở dữ liệu giới tính, cảm xúc đã có để đưa ra kết quả nhận dạng người nói là nam hay nữ, đang ở trạng thái cảm xúc nào
1.4 Tìm hiểu về các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên thế giới
1.4.1 Phát hiện các cảm xúc theo thời gian thực tại tổng đài điện thoại [5]
Bảng 1.1: Đặc điểm của cơ sở dữ liệu: 404 hộp thoại agent-callers, trong khoảng 10 giờ, M là nam, F là nữ
Trang 28Các cuộc hội thoại được nghe, loại bỏ các đoạn nhầm lẫn và được gán nhãn với 2 loại cảm xúc: tiêu cực (negative- NEG), tích cực (positive - POS)
Hệ thống phát hiện cảm xúc được xây dựng từ 800 phân đoạn cảm xúc không
có sự nhầm lẫn, 400 phân đoạn cho mỗi cảm xúc (tiêu cực và tích cực)
Bộ dữ liệu được chia thành 5 tập (4 tập cho đào tạo và 1 tập cho thử nghiệm)
b Phương pháp thực hiện
Nhóm tác giả sử dụng chương trình Praat để trích chọn đặc trưng ngữ điệu (F0
và năng lượng), phổ (formants và băng thông) của tín hiệu Sau đó sử dụng phần mềm WEKA (SVM, Oner, CfsSubset, GainRatio) để chọn 20 đặc trưng tốt nhất cho phát hiện cảm xúc tích cực và tiêu cực
Với các đặc trưng được lựa chọn thì hai mô hình khác nhau đã được lựa chọn
Trang 291.4.2 Hệ thống nhận dạng cảm xúc phụ thuộc và độc lập giới tính với tiếng
Telugu sử dụng mô hình hỗn hợp Gaussian [4]
b Phương pháp thực hiện
Sử dụng đặc trưng MFCC trong khâu trích chọn đặc trưng và mô hình GMM trong khâu huấn luyện cảm xúc
Hình 1.5: Sơ đồ khối hệ thống nhận dạng cảm xúc Hình 1.5 mô tả hệ thống sẽ có file âm thanh đã được ghi âm được hiểu là đầu vào của hệ thống và trích chọn các đặc trưng, sau đó các đặc trưng được phân loại,
từ các đặc trưng được phân loại sẽ phân loại ra các mẫu để nhận dạng các cảm xúc
Mô hình GMM được sử dụng để huấn luyện các cảm xúc: với các yếu tố đầu vào, các GMM sẽ sử dụng thuật toán tối đa hóa kỳ vọng để tinh chỉnh năng lượng của mỗi phân phối sau đó sẽ tạo ra một mô hình mẫu Mỗi mô hình GMM chứa các mẫu cảm xúc và được mô tả trong hình 1.6
Phân loại đặc trưng
Phân loại mẫu Công nhận cảm xúc
Trang 30Hình 1.6: Mô hình GMM với 4 cảm xúc Các vector đặc trưng đầu vào sẽ được so sánh với các vector đặc trưng của mô hình cảm xúc và đưa ra cảm xúc được nhận dạng
Các thử nghiệm được thực hiện trong bài báo:
- Thử nghiệm với những câu có sẵn (test utterances)
+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nam
+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nữ
+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc với cả nam và nữ
- Thử nghiệm với câu nói bất kỳ (open test utterances)
+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nam
+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nữ
+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc với cả nam và nữ
Đưa ra cảm xúc được nhận dạng
Trang 31- Phân loại cảm xúc thành 2 lớp: tiêu cực (subsuming angry, tự ái, quở trách,
và nhấn mạnh) và IDLE (tất cả các cảm xúc còn lại)
Các thử nghiệm được thực hiện lần lượt trên phân loại 2 lớp cảm xúc và 5 lớp cảm xúc với các đặc trưng và kết hợp các đặc trưng đã được lựa chọn để nhận dạng cảm xúc
Trang 32Dựa trên phân tích tất cả các kết quả nhận dạng thì đặc trưng MFCC là đặc trưng tốt hơn cho nhận dạng cảm xúc
1.5 Tìm hiểu về các kết quả nhận dạng cảm xúc tại Việt Nam
Hiện nay, đã có một số các công trình, ứng dụng nhận dạng cảm xúc đã được công bố và đang thử nghiệm tại Việt Nam Tuy nhiên, đến thời điểm hiện tại chưa
có nhiều công trình nghiên cứu về nhận dạng cảm xúc của người nói tiếng Việt được công bố Do đó, luận văn sẽ tìm hiểu về các kết quả nhận dạng cảm xúc sử dụng phương pháp phân tích cử động trên khuôn mặt và điện não đã được công bố tại Việt Nam
1.5.1 Robot biết an ủi con người [16]
Cấu tạo của robot: Robot này được cấu tạo gồm 3 phần:
- Phần đầu: điều khiển 2 camera và 1 động cơ điều khiển góc quay cho trục camera
- Phần thân: gồm 3 tầng đặt máy và mạch điều khiển
- Phần chân: gồm 3 động cơ, hộp số giảm xóc
Hoạt động của robot: robot này sẽ nhận diện khuôn mặt người để di chuyển theo cảm xúc: khi bạn buồn robot sẽ tiến đến an ủi; khi bạn vui robot sẽ lùi xa… Việc nhận dạng sẽ được thực hiện do máy tính nhúng gắn trên robot thực hiện và truyền kết quả đến các vi xử lý điều khiển chuyển động camera và robot
Các cảm xúc được nhận dạng: buồn, vui, giận
Kết quả: tỷ lệ nhận dạng đạt 90 %
1.5.2 Nhận dạng cảm xúc qua điện não (EEG) theo thời gian thực sử dụng mô
hình máy vector hỗ trợ (SVM- Support Vector Machine) [9]
Trang 33Mô hình gồm 2 phương pháp chính trong bước học máy:
- Phương pháp 1: hệ thống sẽ học tất cả các tín hiệu điện não của các đối tượng khác nhau
- Phương pháp 2: hệ thống sẽ học tín hiệu điện não của đối tượng cụ thể
1.6 Mục tiêu cần phải thực hiện của đề tài
Trên cơ sở nghiên cứu lý thuyết về hệ thống nhận dạng cảm xúc của người nói mục tiêu mà học viên đề ra trong khi thực hiện luận văn này là:
- Tìm hiểu và đề ra phương pháp để xây dựng được module huấn luyện phục
vụ cho nhận dạng giới tính, nhận dạng cảm xúc của người nói
- Nghiên cứu, thử nghiệm các phương án lựa chọn số thành phần Gaussian trong mô hình GMM để hệ thống nhận dạng đạt kết quả tốt
- Xây dựng mô hình nhận dạng giới tính, nhận dạng cảm xúc của người nói dựa trên 2 tiêu chí: người nói đã được huấn luyện trong hệ thống và người nói chưa được huấn luyện trong hệ thống
Các chương tiếp theo của luận văn sẽ đề cập đến các bước cần phải thực hiện
và công cụ sử dụng để đạt được mục tiêu trên
Trang 34CHƯƠNG 2: PHƯƠNG PHÁP THỰC HIỆN VÀ CÔNG CỤ
SỬ DỤNG
2.1 Phương pháp thực hiện đề tài
Trên cơ sở nghiên cứu lý thuyết, tìm hiểu về nhận dạng giới tính, cảm xúc người nói, phương pháp thực hiện đề tài được lựa chọn cụ thể như sau:
- Đặc trưng được sử dụng để nhận dạng giới tính, cảm xúc là đặc trưng MFCC
- Mô hình sử dụng huấn luyện giới tính, cảm xúc là mô hình GMM
- Công cụ sử dụng: máy ảo Vmware, môi trường Linux, hệ điều hành CentOS,
ALIZE, gói thư viện LIA-RAL, công cụ Spro, ngôn ngữ lập trình Python
- Dữ liệu thử nghiệm: Cơ sở dữ liệu cảm xúc tiếng Đức (EMO-DB), cơ sở dữ liệu cảm xúc tiếng Việt (VEMO-DB)
- Các cảm xúc được nhận dạng
+ Cơ sở dữ liệu cảm xúc tiếng Đức gồm 7 cảm xúc: Tức giận (Anger -W), vui (Happiness/joy - F), buồn (sadness -T), Trung lập (Neutral- N), chán nản (Boredom- L), ghê tởm (Disgust-E) và sợ hãi (Anxiety/fear -A)
+ Cơ sở dữ liệu cảm xúc tiếng Việt gồm 4 cảm xúc: Tức giận (Anger -W), vui (Happiness/joy - F), buồn (Sadness -T), Trung lập (Neutral- N)
- Các thử nghiệm được thực hiện: thử nghiệm nhận dạng giới tính, thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nam, thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nữ, thử nghiệm nhận dạng cảm xúc trên tập dữ liệu của nam và nữ So sánh kết quả và đưa ra kết luận
Trên cơ sở lựa chọn phương pháp thực hiện đề tài, các phần tiếp theo của luận văn sẽ trình bày tóm tắt về phương pháp trích chọn đặc trưng MFCC, mô hình GMM, cách cài đặt cũng như chức năng của công cụ sử dụng trong luận văn
Nội dung của chương này sẽ trình bày các vấn đề sau:
- Phương pháp thực hiện đề tài
- Các công cụ sử dụng trong đề tài
Trang 352.2 Trích chọn đặc trƣng MFCC
Trích chọn đặc trưng MFCC là phần quan trọng nhất trong bước xử lý tín hiệu, đồng thời cũng là một trong những khâu có vai trò quyết định tới độ chính xác đạt được của hệ thống Đầu vào của quá trình trích chọn đặc trưng là một đoạn tín hiệu tiếng nói và đầu ra là một tập gồm 39 giá trị đặc trưng cho mỗi một frame tiếng nói Trích chọn đặc trưng MFCC gồm các bước được mô tả trong hình 2.1
Hình 2.1: Các bước trích chọn đặc trưng MFCC
Để trích chọn đặc trưng MFCC các bước thực hiện cụ thể như sau:
- Bộ lọc hiệu chỉnh (Pre-emphasis): là bộ lọc số bậc thấp để cho phổ đồng đều hơn, như vậy sẽ làm giảm ảnh hưởng gây ra bởi độ chính xác hữu hạn của các phép
xử lý tín hiệu sau này
+ Đầu vào của bộ lọc hiệu chỉnh: tín hiệu tiếng nói, ký hiệu s(n)
+ Đầu ra của bộ lọc hiệu chỉnh: tín hiệu tiếng nói với phổ đồng đều hơn, ký hiệu s2(n)
Tín hiệu ra có quan hệ với tín hiệu vào theo phương trình sai phân sau:
s2 (n) = s(n) – a s(n-1)
Trong đó: a là hằng số và 0.9 <a<1.0
Bộ lọc hiệu chỉnh
Phân khung
Tín hiệu
tiếng nói
Đạo hàm theo thời gian
Trang 36Tín hiệu tiếng nói đầu vào s(n)
Tín hiệu tiếng nói sau khi lọc hiệu chỉnh với a = 0.95 Hình 2.2: Minh họa một đoạn tín hiệu tiếng nói trước và sau khi lọc hiệu chỉnh
- Phân khung (Frame Blocking): chia tín hiệu tiếng nói thành các đoạn nhỏ cỡ 10-30ms Tín hiệu tiếng nói đã được hiệu chỉnh được phân thành các khung mỗi khung có N mẫu, hai khung kề nhau lệch nhau M mẫu Khung đầu tiên chứa N mẫu, khung thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chờm lên khung thứ nhất N-M mẫu
- Lấy cửa sổ: là lấy cửa sổ (windowing) cho mỗi khung hình riêng rẽ, để giảm thiểu tính gián đoạn tại điểm đầu và điểm cuối của mỗi khung
- Biến đổi Fourier rời rạc: là chuyển đổi tín hiệu tiếng nói trong từng frame sang miền tần số thông qua phép biến đổi Fourier rời rạc, phép biến đổi Fourier nhanh (FFT) thường được sử dụng để đảm bảo tốc độ Sau khi tính FFT ta sẽ thu được phổ năng lượng
- Các băng lọc tam giác: sử dụng để biến đổi phổ tín hiệu thu được sau khi tính FFT sang thang Mel trên miền tần số Cho phổ năng lượng đi qua một dãy băng lọc
Trang 37ta sẽ thu được một dãy phổ năng lượng, tính tổng của các phổ năng lượng trong từng băng lọc ta thu được dãy các hệ số mk
- Biến đổi Cosine rời rạc (DCT): sẽ chuyển log các giá trị mk về miền thời gian và kết quả của phép biến đổi này ta thu được các hệ số MFCC Trong các ứng dụng nhận dạng tiếng nói người ta thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng của khung sau khi đã được chuẩn hóa
- Gắn trọng số: Đối với các tham số đặc trưng tiếng nói được tính từ miền tần
số như các hệ số MFCC, do độ nhạy của các hệ số Cepstral bậc thấp làm cho phổ toàn bộ đị đổ dốc và độ nhạy của các hệ số Cepstral bậc cao gây ra nhiễu, nên người
ta thường sử dụng cửa sổ Cepstral để cực tiểu hóa các độ nhạy này
- Đạo hàm theo thời gian: đạo hàm theo thời gian của các hệ số MFCC vào trong vector tham số tiếng nói để nâng cao chất lượng nhận dạng
Kết thúc bước trích chọn đặc trưng MFCC với mỗi frame ta thu được một vector có 39 giá trị biểu diễn tham số đặc trưng của tiếng nói
2.3 Mô hình GMM sử dụng trong nhận dạng giới tính, cảm xúc của người nói
Mô hình hợp Gauss (Gaussian Mixture Model - GMM) là một dạng mô hình thống kê được xây dựng từ việc huấn luyện các tham số thông qua dữ liệu học Về
cơ bản, mô hình GMM xấp xỉ một hàm mật độ xác suất bằng hợp các hàm mật độ Gauss
Hình 2.3: Hàm mật độ Gauss
Trang 38Hình 2.3 minh họa hai hàm mật độ Gauss với các tham số khác nhau
Hàm mật độ xác suất của phân phối Gauss fN(x, μ, σ2) được cho bởi công thức:
Trong đó: μ là giá trị trung bình, σ là độ lệch chuẩn
Trong trường hợp x là vector gồm D thành phần, hàm mật độ xác suất của phân phối Gauss fN(x, μ, Σ) được cho bởi công thức:
' 1 / 2 1/ 2
Trong đó: μ là vector trung bình, Σ là ma trận hiệp phương sai
Nếu chọn μ=0 và σ=1, công thức (1.1) sẽ trở thành hàm mật độ chuẩn Gauss:
2 1
2 (2 )
Trang 39Trong đó:
- wi là trọng số của phân phối Gauss thứ i, thỏa ràng buộc 0≤ wi ≤1 và
Các trọng số này thể hiện mức độ ảnh hưởng của mỗi phân phối Gauss đối với
mô hình GMM Như vậy, phân phối Gauss có phương sai và trọng số lớn bao nhiêu thì có mức độ ảnh hưởng lớn bấy nhiêu đối với kết xuất của mô hình
Trong hướng tiếp cận mô hình GMM để giải quyết bài toán nhận dạng giới tính của người nói mỗi giới tính sẽ được mô hình hóa bằng một mô hình GMM và
bộ tham số λ = { wi, μi, Σi }, i ∈ [1, M] sẽ được xác định thông qua việc huấn luyện trên tập mẫu học
Đối với hướng tiếp cận mô hình GMM để giải quyết bài toán nhận dạng cảm xúc của người nói mỗi cảm xúc sẽ được mô hình hóa bằng một mô hình GMM và
bộ tham số λ = { wi, μi, Σi }, i ∈ [1, M] sẽ được xác định thông qua việc huấn luyện trên tập mẫu học
2.4 Bộ công cụ ALIZE và LIA-RAL
ALIZE là một thư viện hỗ trợ trong lĩnh vực nhận dạng tự động người qua giọng nói sử dụng mô hình GMM ALIZE được phát triển từ một hệ thống có sẵn tại KTH (Kungliga Tekniska högskolan - Royal Institute of Technology), gọi là GIVES (General Identity Verification System)
Gói LIA-RAL được xây dựng trên thư viện ALIZE nên không thể sử dụng chỉ LIA-RAL mà phải sử dụng các gói cùng nhau
Ngôn ngữ được dùng để phát triển ALIZE là C++ theo hướng đối tượng UML ALIZE là phần mềm mã nguồn mở miễn phí, có thể dowload tại địa chỉ:
http://mistral.univ-avignon.fr/download_en.html Với 2 gói: gói ALIZE 2.0 có
kích thước : 1.028MB và gói LIA – RAL2.0 có kích thước: 9.761MB
Yêu cầu về phần mềm khi sử dụng ALIZE và LIA-RAL:
- Môi trường Linux, nếu muốn sử dụng trên Window thì cần cài đặt môi trường chạy lệnh UNIX sử dụng công cụ công cụ CYGWIN CYGWIN là công cụ
miễn phí có thể tải trên mạng ở địa chỉ http://www.cygwin.com/
Trang 40- Đối với các bước biên dịch thì cần sử dụng g++
Luận văn sử dụng bộ công cụ ALIZE và LIA-RAL trên môi trường Linux, cài
máy ảo phiên bản VMware Workstation v9.0.1 (710MB) và hệ điều hành sử dụng
SPro có các lệnh chính sau đây:
- Năng lượng filter – bank
- Hệ số cepstral (filter-bank và dự đoán tuyến tính)
Các thư viện được viết trong ANSI C, cung cấp các chức năng sau:
- Tín hiệu đầu vào dạng sóng
Python là một ngôn ngữ lập trình thông dịch do Guido van Rossum tạo ra năm
1990 Python hoàn toàn tạo kiểu động và dùng cơ chế cấp phát bộ nhớ động; do vậy
nó tương tự như Perl, Ruby, Scheme, Smalltalk, và Tcl Python được phát triển trong một dự án mã mở của tổ chức phi lợi nhuận Python Software Foundation Python là một ngôn ngữ lập trình hướng đối tượng rất thông dụng dùng để viết các tiện ích hệ thống và các đoạn mã trên Internet Nó cũng được sử dụng như ngôn ngữ kết dính đóng vai trò tích hợp C và C++
Python là ngôn ngữ có hình thức rất sáng sủa, cấu trúc rõ ràng, thuận tiện cho người mới học lập trình Cấu trúc của Python còn cho phép người sử dụng viết mã lệnh với số lần gõ phím tối thiểu