1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt

108 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 108
Dung lượng 2,69 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói Hình 1.4: Các thành phần hệ thống nhận dạng cảm xúc của người nói Hình 2.6 Mô tả các bước và công cụ liên kết tại các

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

Phạm Thị Nhung

NHẬN DẠNG GIỚI TÍNH, CẢM XÚC CỦA NGƯỜI NÓI

VÀ ỨNG DỤNG CHO TIẾNG VIỆT

Chuyên ngành: Công nghệ Thông tin

LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Nguyễn Hồng Quang

Hà Nội – Năm 2014

Trang 2

LỜI CAM ĐOAN

Tôi – Phạm Thị Nhung, học viên lớp cao học 12BCNTT2 Trường Đại học Bách khoa Hà Nội cam kết: Luận văn tốt nghiệp là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS Nguyễn Hồng Quang – Viện công nghệ Thông tin và Truyền thông- Đại học Bách khoa Hà Nội Các kết quả trong luận văn tốt nghiệp là trung thực, không sao chép toàn văn của bất kỳ công trình nào khác

Hà Nội, ngày 19 tháng 09 năm 2014 Học viên: Phạm Thị Nhung Lớp: 12BCNTT2

Trang 3

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy giáo, TS Nguyễn Hồng Quang –

Bộ môn Kỹ thuật Máy tính – Viện Công nghệ Thông tin và Truyền thông – Đại học Bách Khoa Hà Nội, người thầy đã hết lòng giúp đỡ, dạy bảo, động viên và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập và hoàn thành luận văn tốt nghiệp

Tôi xin chân thành cảm ơn tập thể các thầy, cô giáo trường Đại học Bách khoa

Hà Nội nói chung và Viện Công nghệ Thông tin và Truyền thông nói riêng đã tận tình giảng dạy truyền đạt cho tôi những kiến thức, kinh nghiệm quý báu trong suốt thời gian học tập tại trường

Cuối cùng tôi xin chân thành cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn ủng hộ và động viên tôi trong những lúc khó khăn nhất

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ vi

DANH MỤC CÁC BẢNG viii

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ x

PHẦN MỞ ĐẦU 1

Lý do chọn đề tài 1

Mục đích, phạm vi nghiên cứu 2

Đối tượng nghiên cứu 3

Phương pháp nghiên cứu 3

Nhiệm vụ nghiên cứu 3

Đóng góp mới của luận văn 4

CHƯƠNG 1: TỔNG QUAN 5

1.1 Tổng quan về nhận dạng giới tính, cảm xúc người nói 5

1.1.1 Giới thiệu chung 5

1.1.2 Ứng dụng nhận dạng cảm xúc của người nói 6

1.1.3 Phương pháp nhận dạng giới tính, cảm xúc của người nói 7

1.1.4 Cơ sở dữ liệu cho nhận dạng cảm xúc 10

1.2 Các giai đoạn xử lý của một hệ thống nhận dạng giới tính, cảm xúc người nói 10

1.3 Các thành phần của hệ thống nhận dạng giới tính, cảm xúc người nói 12

1.4 Tìm hiểu về các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên thế giới 13

1.4.1 Phát hiện các cảm xúc theo thời gian thực tại tổng đài điện thoại [5] 13

1.4.2 Hệ thống nhận dạng cảm xúc phụ thuộc và độc lập giới tính với tiếng Telugu sử dụng mô hình hỗn hợp Gaussian [4] 15

1.4.3 Cải thiện tự động nhận dạng cảm xúc từ tín hiệu tiếng nói [1] 17

Trang 5

1.5.1 Robot biết an ủi con người [16] 18

1.5.2 Nhận dạng cảm xúc qua điện não (EEG) theo thời gian thực sử dụng mô hình máy vector hỗ trợ (SVM- Support Vector Machine) [9] 18

1.6 Mục tiêu cần phải thực hiện của đề tài 19

CHƯƠNG 2: PHƯƠNG PHÁP THỰC HIỆN VÀ CÔNG CỤ SỬ DỤNG 20

2.1 Phương pháp thực hiện đề tài 20

2.2 Trích chọn đặc trưng MFCC 21

2.3 Mô hình GMM sử dụng trong nhận dạng giới tính, cảm xúc của người nói 23

2.4 Bộ công cụ ALIZE và LIA-RAL 25

2.5 Bộ công cụ SPro 26

2.6 Ngôn ngữ lập trình Python 26

2.7 Sử dụng các bộ công cụ và ngôn ngữ lập trình cho các bước của bài toán nhận dạng giới tính, cảm xúc của người nói 27

2.7.1.1 Trích chọn và chuẩn hóa đặc trưng 28

2.7.1.2 Huấn luyện mô hình 33

2.7.1.3 Nhận dạng 38

CHƯƠNG 3: XÂY DỰNG HỆ THỐNG THỬ NGHIỆM NHẬN DẠNG GIỚI TÍNH, CẢM XÚC NGƯỜI NÓI VÀ ỨNG DỤNG CHO TIẾNG VIỆT 41

3.1 Tổng quan quá trình xây dựng hệ thống thử nghiệm nhận dạng giới tính, cảm xúc người nói 41

3.2 Cơ sở dữ liệu cảm xúc cho thử nghiệm hệ thống nhận dạng 43

3.2.1 CSDL tiếng Đức - EMO-DB 43

3.2.2 CSDL tiếng Việt VEMO-DB 44

3.3 Các thử nghiệm nhận dạng giới tính, cảm xúc của người nói 45

3.3.1 Thử nghiệm với CSDL EMO-DB 46

3.3.1.1 Thử nghiệm nhận dạng giới tính 46

3.3.1.2 Thử nghiệm nhận dạng cảm xúc 47

3.3.2 Thử nghiệm với CSDL VEMO-DB 50

3.3.2.1 Thử nghiệm nhận dạng giới tính 50

3.3.2.2 Thử nghiệm nhận dạng cảm xúc 51

CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54

4.1 Phân tích, đánh giá các kết quả thử nghiệm 54

Trang 6

4.1.1 Kết quả thử nghiệm trên CSDL EMO-DB 54

4.1.1.1 Kết quả thử nghiệm nhận dạng giới tính 54

4.1.1.2 Thử nghiệm nhận dạng cảm xúc 56

4.1.2 Kết quả thử nghiệm trên CSDL VEMO-DB 63

4.1.2.1 Thử nghiệm nhận dạng giới tính 63

4.1.2.2 Thử nghiệm nhận dạng cảm xúc 64

4.2 Kết luận 71

4.3 Hướng phát triển của đề tài 72

TÀI LIỆU THAM KHẢO 73

PHỤ LỤC 75

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT VÀ THUẬT NGỮ

Danh mục các chữ viết tắt tiếng anh

MFCC Mel- Frequency Cepstral

Coeficients

Hệ số Cepstral theo thang đo tần số Mel

vọng

DFT Discrete Fourier Transform Biến đổi Fourier rời rạc

nhất DCT Discrete Cousine Transform Biến đổi Cousine rời rạc

Trang 8

EFM Emotion Female Male

VEMO-DB Vietnamese Emotion Data Base Cơ sở dữ lệu tiếng Việt

Danh mục các chữ viết tắt tiếng Việt

Trang 9

DANH MỤC CÁC BẢNG

Bảng 1.1: Đặc điểm của cơ sở dữ liệu

Bảng 1.2: Kết quả nhận dạng (%) theo số đặc trưng được lựa chọn

có sự nhầm lẫn

Bảng 3.7: Bảng tổng hợp các thử nghiệm nhận dạng giới tính

Bảng 3.8: Bảng tổng hợp các thử nghiệm nhận dạng cảm xúc

Bảng 3.9: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính Bảng 3.10: Bảng tổng hợp các thử nhận dạng cảm xúc khi có nhận dạng giới tính và

có sự nhầm lẫn

Bảng 4.1: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính

Bảng 4.2: Ma trận nhầm lẫn của thử nghiệm E01_DI theo tiêu chí 1

Bảng 4.7: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính

Bảng 4.8: Ma trận nhầm lẫn của thử nghiệm E01_DI theo tiêu chí 1

Trang 11

Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói

Hình 1.4: Các thành phần hệ thống nhận dạng cảm xúc của người nói

Hình 2.6 Mô tả các bước và công cụ liên kết tại các bước thực hiện trích chọn và

chuẩn hóa đặc trưng

Hình 2.7: Sơ đồ trích chọn đặc trưng MFCC

Hình 2.8: Sơ đồ bước dò năng lượng

Hình 2.9: Sơ đồ bước loại bỏ khoảng lặng

Hình 2.10: Sơ đồ bước chuẩn hóa đặc trưng

Hình 2.11: Sơ đồ các bước và công cụ liên kết để thực hiện huấn luyện mô hình Hình 2.12: Sơ đồ bước huấn luyện mô hình nền - TrainWorldInit

Hình 2.13: Sơ đồ bước huấn luyện mô hình nền - TrainWorldFinal

Hình 2.14: Sơ đồ bước huấn luyện mô hình đích

Hình 2 15: Sơ đồ các bước và công cụ liên kết để thực hiện nhận dạng

Hình 2.16: Sơ đồ bước nhận dạng

Trang 12

Hình 3.1: Sơ đồ các bước thực hiện xây dựng hệ thống dạng giới tính, nhận dạng

cảm xúc của người nói

Hình 3.2: Sơ đồ kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm

xúc

Hình 3.3: Sơ đồ mô hình giới tính sau bước huấn luyện

Hình 3.4: Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện

Hình 3.5: Sơ đồ mô hình 4 cảm xúc sau bước huấn luyện

Hình 4.1: Biểu đồ tỷ lệ nhận dạng giới tính của thử nghiệm G01_EJ với số thành

phần Gauss thay đổi

Hình 4.2: Biểu đồ tỷ lệ nhận dạng giới tính của các thử nghiệm

Hình 4.3: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc

trên trên tập dự liệu huấn luyện cảm xúc cả giọng nam và giọng nữ

Hình 4.4: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm

nhận dạng cảm xúc trên trên tập dự liệu huấn luyện cảm xúc cả giọng nam và giọng nữ

Hình 4.5: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm cảm xúc trên CSDL

cảm xúc huấn luyện của giọng nam

Hình 4 6: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm

nhận dạng cảm xúc trên CSDL cảm xúc huấn luyện của giọng nam

Hình 4.7: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc

trên CSDL cảm xúc huấn luyện của giọng nữ

Hình 4.8: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm

nhận dạng cảm xúc trên CSDL cảm xúc huấn luyện của giọng nữ

Hình 4.9: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của 3 thử nghiệm Hình 4.10: Biểu đồ tỷ lệ nhận dạng trung bình của 3 thử nghiệm

Hình 4.11: Biểu đồ tỷ lệ (%) của các thử nghiệm nhận dạng giới tính

Hình 4.12: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xú

trên CSDL huấn luyện của gọng nam và giọng nữ

Trang 13

Hình 4.13: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm

nhận dạng cảm xú trên CSDL huấn luyện của gọng nam và giọng nữ Hình 4.14: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc

trên CSDL huấn luyện của gọng nam

Hình 4.15: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm

nhận dạng cảm xúc trên CSDL huấn luyện của gọng nam

Hình 4 16: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm nhận dạng cảm xúc

trên CSDL huấn luyện của gọng nữ

Hình 4.17: Biểu đồ tỷ lệ nhận dạng trung bình đối với 4 cảm xúc của thử nghiệm

nhận dạng cảm xúc trên CSDL huấn luyện của gọng nữ

Hình 4.18: Biểu đồ tỷ lệ nhận dạng trung bình 4 cảm xúc của 3 thử nghiệm

Hình 4.19 : Biểu đồ tỷ lệ nhận dạng cảm xúc trung bình của 3 thử nghiệm

Hình 4 20: Biểu đồ so sánh kết quả các thử nghiệm trên 2 bộ CSDL cảm xúc tiếng

Đức và tiếng Việt

Trang 15

PHẦN MỞ ĐẦU

Lý do chọn đề tài

Ngày nay, với sự phát triển vượt bậc của khoa học kỹ thuật, con người đã đạt được rất nhiều thành tựu to lớn trong mọi lĩnh vực: sản xuất, kinh doanh, khoa học, nghiên cứu …Khi khoa học, công nghệ và cuộc sống ngày càng phát triển con người có nhu cầu sử dụng các dịch vụ tốt hơn, các thiết bị thông minh hơn và con người mong muốn giao tiếp với các thiết bị đó theo cách tự nhiên và gần gũi hơn Đáp ứng các nhu cầu đó của con người cùng với sự phát triển của khoa học kỹ thuật, các nhà khoa học, các Công ty lớn như: Microsoft, SGI (Nhật Bản), PSA Peugeot Citroen (Pháp)… đã nghiên cứu để đưa ra các phần mềm ứng dụng, các thiết bị trong đó tiêu biểu là phần mềm, thiết bị nhận dạng cảm xúc như: phần mềm giúp điện thoại nhận biết cảm xúc của người sử dụng, tai nghe nhận biết cảm xúc người dùng, căn phòng thông minh với máy tỏa mùi theo cảm xúc của người trong phòng, robot biết an ủi con người hay hệ thống nhận dạng cảm xúc của lái xe…

Để nhận dạng cảm xúc của con người chúng ta có thể nhận dạng qua tiếng nói,

cử động trên khuôn mặt, cử động của môi, nhịp tim, điện não … Tuy nhiên, nhận dạng qua tiếng nói vẫn được chú trọng phát triển, vì tiếng nói là phương tiện tự nhiên nhất trong giao tiếp Tiếng nói của con người mang các thông tin: tần số, cường độ, nhịp điệu, giai điệu, phổ v.v Các thông tin này không phải bất biến từ lúc người biết nói đến lúc già, nhưng có tính ổn định trong giai đoạn dài của cuộc đời Khi con người đã trưởng thành, những đặc trưng khác biệt trong cấu âm sẽ hình thành và mang tính ổn định cao Đây chính là cơ sở khoa học cho việc xây dựng hệ thống nhận dạng cảm xúc người nói

Nhận dạng cảm xúc của người nói là một trong những lĩnh vực của xử lý tiếng nói Mục đích của nhận dạng cảm xúc là để nhận ra người nói đang ở trạng thái cảm xúc nào: vui, buồn, Vui, tức giận, sợ hãi, bình thường…Tuy nhiên, cảm xúc của con người rất phức tạp, mỗi người có một cách thể hiện khác nhau nên việc nhận dạng cảm xúc gặp rất nhiều khó khăn

Trang 16

Trong nhận dạng cảm xúc của người nói thì cảm xúc của nam và nữ thể hiện qua tiếng nói có sự khác nhau do các thông tin trong tiếng nói của nam và nữ có sự khác nhau như: tần số cơ bản của giọng nam là 80 Hz -200 Hz, tần số cơ bản của giọng nữ là 150 Hz-450 Hz [10] Do đó, khi xây dựng hệ thống nhận dạng cảm xúc của người nói ta xem xét và kết hợp với phần nhận dạng giới tính của người nói [3],[4]

Nhận dạng cảm xúc của người nói có nhiều nghiên cứu, ứng dụng được công

bố và được phát triển trên thế giới với các ngôn ngữ khác nhau: tiếng Anh, tiếng Đức, Đan Mạch… Ở Việt Nam, hướng nghiên cứu và phát triển các hệ thống nhận dạng cảm xúc đang được phát triển mạnh, đã có một số công trình được công bố và ứng dụng đang được thử nghiệm như: robot biết an ủi con người của TS Nguyễn Đức Thành, khoa Điện- Điện tử, ĐH Bách Khoa TP.HCM Tuy nhiên, các công trình, ứng dụng được công bố sử dụng phương pháp nhận dạng cảm xúc qua cử động trên khuôn mặt hoặc qua điện não (EEG) mà chưa có nhiều công trình nghiên nghiên cứu về nhận dạng cảm xúc của người nói tiếng Việt

Với những ứng dụng thiết thực và quan trọng của nhận dạng cảm xúc của

người nói, đề tài: “Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho

tiếng Việt” được lựa chọn với mục đích tìm hiểu, xây dựng và thử nghiệm hệ thống

nhận dạng giới tính, cảm xúc của người nói ứng dụng cho tiếng Việt để có thể ứng dụng vào thực tế

Mục đích, phạm vi nghiên cứu

- Tìm hiểu tổng quan về nhận dạng giới tính, cảm xúc người nói

- Tìm hiểu phương pháp trích chọn đặc trưng cần thiết cho bài toán nhận dạng giới tính, cảm xúc người nói

- Nghiên cứu mô hình GMM và bộ công cụ ALIZE, gói thư viện LIA-RAL để nhận dạng giới tính, cảm xúc

- Xây dựng chương trình nhận dạng giới tính, cảm xúc người nói để thử nghiệm với bộ dữ liệu tiếng Đức và bộ dữ liệu tiếng Việt

Trang 17

Đối tượng nghiên cứu

- Nghiên cứu tổng quan về nhận dạng giới tính, cảm xúc người nói

- Nghiên cứu về mô hình hỗn hợp GMM ứng dụng để nhận dạng giới tính và cảm xúc người nói

- Nghiên cứu bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ lập trình Python

- Sử dụng bộ cơ sở dữ liệu tiếng Đức và bộ cơ sở dữ liệu tiếng Việt

Phương pháp nghiên cứu

- Nghiên cứu lý thuyết về nhận dạng giới tính, cảm xúc người nói

- Nghiên cứu sử dụng bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ lập trình Python trên môi trường Linux trong nhận dạng giới tính, cảm xúc người nói

- Thử nghiệm nhận dạng giới tính, cảm xúc người nói với bộ cơ sở dữ liệu tiếng Đức với số lượng người nói ít (10 người), số lượng câu nói ít (10 câu) có độ dài ngắn khác nhau

- Thử nghiệm nhận dạng giới tính, cảm xúc người nói với bộ cơ sở dữ liệu tiếng Việt với số lượng người nói nhiều (50 người), số lượng các câu nói (55 câu)

có độ dài ngắn khác nhau

Nhiệm vụ nghiên cứu

- Tìm hiểu về nhận dạng giới tính, cảm xúc của người nói

- Tìm hiểu phương pháp trích chọn các tham số đặc trưng cần thiết cho bài toán nhận dạng giới tính, cảm xúc của người nói

- Tìm hiểu về mô hình GMM và hoạt động của bộ công cụ ALIZE, gói thư viện LIA-RAL, ngôn ngữ lập trình Python

- Xây dựng hệ thống thử nhận dạng giới tính, hệ thống thử nghiệm nhận dạng cảm xúc, kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm xúc

- Thử nghiệm hệ thống với 2 cơ sở dữ liệu khác nhau về ngôn ngữ: cơ sở dữ liệu tiếng Đức, cơ sở dữ liệu tiếng Việt Trên cơ sở kết quả thử nghiệm phân tích đánh giá hệ thống

Trang 18

Đóng góp mới của luận văn

Trên cơ sở nghiên cứu lý thuyết và thử nghiệm luận văn đã có những đóng góp mới về phương pháp kết hợp hệ thống nhận dạng giới tính vào hệ thống nhận dạng cảm xúc và đã thực hiện thử nghiệm trên 2 bộ cơ sở dữ liệu cảm xúc khác nhau về ngôn ngữ

Trang 19

CHƯƠNG 1: TỔNG QUAN

1.1 Tổng quan về nhận dạng giới tính, cảm xúc người nói

1.1.1 Giới thiệu chung

Tiếng nói là một chuỗi âm thanh phát ra từ bộ máy phát âm của con người, dùng để trao đổi thông tin, tư tưởng, tình cảm giữa con người với nhau, cụ thể giữa những thành viên trong xã hội với nhau Tiếng nói là một trong những phương tiện trao đổi thông tin cơ bản nhất và quan trọng nhất của con người

Giống như âm thanh, tiếng nói cũng có những đặc trưng, những đặc điểm chung của âm thanh như tần số, biên độ, cường độ, năng lượng, phổ v.v Ngoài ra, còn có những đặc điểm riêng biệt thuộc về âm thanh của con người như: formant,

âm sắc, cao độ …Dựa vào những đặc trưng, đặc điểm đó con người có thể xử lý tiếng nói và ứng dụng vào những lĩnh vực khác nhau Hiện nay, các nghiên cứu và ứng dụng liên quan đến lĩnh vực xử lý tiếng nói vẫn đang được chú trọng phát triển

và cải thiện như: tổng hợp tiếng nói, nhận dạng tiếng nói, lưu trữ, xử lý tín hiệu tiếng nói… Một trong những lĩnh vực đó là nhận dạng giới tính, cảm xúc của người nói

Nhận dạng giới tính của người nói là gì?

Nhận dạng giới tính của người nói là một hệ thống thực hiện tính toán xác thực người nói là nam hay nữ bằng cách sử dụng đặc điểm, đặc trưng riêng lấy từ tiếng nói của họ

Nhận dạng cảm xúc người nói là gì?

Nội dung của chương này sẽ trình bày các vấn đề sau:

- Lý thuyết về nhận dạng giới tính, cảm xúc người nói và các ứng dụng

- Phương pháp nhận dạng giới tính, cảm xúc của người nói

- Các giai đoạn xử lý và các thành phần của hệ thống nhận dạng giới tính, cảm xúc

- Các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên thế giới và tại Việt Nam

Trang 20

Nhận dạng cảm xúc người nói là một hệ thống thực hiện nhiệm vụ tính toán xác thực người nói đang ở trạng thái cảm xúc nào: buồn, vui, tức giận, sợ hãi hay là bình thường … bằng cách sử dụng đặc điểm, đặc trưng riêng lấy từ tiếng nói của họ Một hệ thống nhận dạng lý tưởng phải có khả năng nhận dạng đúng trong mọi môi trường Tuy nhiên, một số yếu tố ảnh hưởng trong quá trình nhận dạng gây nên kết quả lỗi như sau:

- Âm thanh được ghi ở môi trường không phù hợp, phòng nhiều tiếng ồn, ảnh hưởng bởi nhiễu

- Vị trí đặt của thiết bị thu âm ở mỗi thời điểm ghi âm khác nhau

- Sử dụng kênh ghi âm, xác thực không phù hợp

- Trạng thái của người nói như căng thẳng hay bị ép buộc…

- Tốc độ phát âm khi thử nghiệm khác so với dữ liệu huấn luyện

Các nguồn nêu trên gây ra các lỗi xác minh dẫn đến kết quả việc nhận dạng giới tính, cảm xúc người nói có sự sai lệch

1.1.2 Ứng dụng nhận dạng cảm xúc của người nói

Nhận dạng cảm xúc người nói có nhiều ứng dụng thực tiễn:

- Tương tác người máy được cải thiện: Robot biết an ủi con người, máy tính nhận biết cảm xúc người sử dụng đang tức giận thì máy tính sẽ giảm tông màu màn hình, vặn nhỏ nhạc hoặc đơn giản là xin lỗi [16]

- Điều khiển: căn phòng thông minh (RoomRender) nhận dạng cảm xúc của những người ở trong phòng nhờ phân tích giọng nói Căn phòng bao gồm một bức tường có thể thay đổi màu khác nhau dựa theo tính khí của những người ở trong phòng RoomRender còn có một máy tỏa mùi thích nghi với cảm xúc của người ở trong phòng [16]

- Các trung tâm dịch vụ khách hàng (Call center) có thể sử dụng ứng dụng trong phân tích hành vi của khách hàng để phục vụ khách hàng tốt hơn hoặc để tạo

ra các chiến lược cải thiện kinh doanh [4]

- Ứng dụng trong du lịch (E-touring), đối thoại với tội phạm [4]

Trang 21

- Nhận dạng giới tính, cảm xúc của người nói có thể được sử dụng để tăng cường hệ thống tự động phân tích dữ liệu y tế hoặc pháp y

1.1.3 Phương pháp nhận dạng giới tính, cảm xúc của người nói

Nhận dạng giới tính, cảm xúc của người nói là một lĩnh vực trong nhận dạng tiếng nói Nhận dạng tiếng nói có 3 phương pháp phổ biến được sử dụng [10]:

- Phương pháp âm học – ngữ âm học

- Phương pháp nhận dạng mẫu

- Phương pháp ứng dụng trí tuệ nhân tạo

Mỗi phương pháp có nguyên lý hoạt động và ưu, nhược điểm riêng Tuy nhiên, trong nhận dạng giới tính, cảm xúc của người nói thì phương pháp nhận dạng mẫu thường được sử dụng

Phương pháp nhận dạng mẫu là phương pháp không cần xác định đặc tính âm học hay phân đoạn tiếng nói mà sử dụng trực tiếp các mẫu tín hiệu tiếng nói trong quá trình nhận dạng

Trong phương pháp này, cơ sở dữ liệu dùng cho huấn luyện phải có đủ các phiên bản của mẫu cần nhận dạng thì quá trình huấn luyện mẫu có thể xác định chính xác các đặc tính của mẫu

Các hệ thống phát triển theo phương pháp nhận dạng mẫu có 2 bước:

- Bước 1 - Huấn luyện: Hệ thống sử dụng một tập mẫu tiếng nói (cơ sở dữ liệu giới tính, cảm xúc của người nói) để huấn luyện tạo ra các mẫu về giới tính, cảm xúc đặc trưng (mẫu tham chiếu)

- Bước 2 – Nhận dạng: Hệ thống nhận các mẫu tiếng nói từ bên ngoài, so sánh với các mẫu đặc trưng để nhận dạng

Các kỹ thuật nhận dạng mẫu được áp dụng khá thành công trong lĩnh vực nhận dạng giới tính, cảm xúc của người nói hiện nay là mô hình Markov ẩn (HMM), mô hình GMM, mạng Neuron nhân tạo (ANN)

Sơ đồ khối hệ thống nhận dạng giới tính của người nói theo phương pháp nhận dạng mẫu được mô tả ở hình 1.1

Trang 22

Hình 1.1: Sơ đồ khối hệ thống nhận dạng giới tính của người nói

theo phương pháp mẫu Hình 1.1 mô tả hoạt động của hệ thống nhận dạng giới tính của người nói theo phương pháp mẫu có thể tóm tắt như sau:

- Trích chọn đặc trưng: tín hiệu tiếng nói được phân tích thành chuỗi các số đo

để xác định mẫu nhận dạng Các số đo đặc tính thường là kết quả của một số kỹ thuật phân tích phổ: các bộ lọc thông dải, phân tích mã hóa dự toán tuyến tính (PLC), phép biến đổi Fourier rời rạc (DFT)…

- Huấn luyện mẫu: sẽ tạo ra mô hình từng giới tính riêng biệt và được lưu trữ

- Nhận dạng: dữ liệu tiếng nói sau khi được trích chọn đặc trưng sẽ đem so khớp với đặc trưng của mô hình giới tính đã được huấn luyện Kết quả nào có độ tương đồng cao nhất hoặc điểm số lớn nhất sẽ được đưa ra và tương ứng là giới tính được nhận dạng

Sơ đồ khối hệ thống nhận dạng cảm xúc của người nói theo phương pháp nhận

Huấn luyện giới tính

Tính độ tương đồng của

mô hình giới tính

Trích chọn đặc trưng

Huấn luyện

Giới tính đƣợc nhận dạng

Trang 23

Hình 1.2: Sơ đồ khối hệ thống nhận dạng cảm xúc của người nói theo phương

pháp mẫu Hình 1.2 mô tả hoạt động của hệ thống nhận dạng cảm xúc của người nói theo phương pháp mẫu có thể tóm tắt như sau:

- Trích chọn đặc trưng: tín hiệu tiếng nói được phân tích thành chuỗi các số đo

để xác định mẫu nhận dạng Các số đo đặc tính thường là kết quả của một số kỹ thuật phân tích phổ: các bộ lọc thông dải, phân tích mã hóa dự toán tuyến tính (PLC), phép biến đổi Fourier rời rạc (DFT)…

- Huấn luyện mẫu: sẽ tạo ra mô hình cảm xúc riêng biệt và được lưu trữ

- Nhận dạng: dữ liệu tiếng nói sau khi được trích chọn đặc trưng sẽ đem so khớp với đặc trưng của mô hình cảm xúc đã được huấn luyện Kết quả nào có độ tương đồng cao nhất hoặc điểm số lớn nhất sẽ được đưa ra và tương ứng là cảm xúc được nhận dạng

Huấn luyện cảm xúc

Tính độ tương đồng của

mô hình cảm xúc

Trích chọn đặc trưng

Huấn luyện

Cảm xúc đƣợc nhận dạng

Trang 24

1.1.4 Cơ sở dữ liệu cho nhận dạng cảm xúc

Để nhận dạng cảm xúc của người nói theo phương pháp mẫu thì cần phải có một cơ sở dữ liệu để sử dụng cho bước huấn luyện và nhận dạng Với yêu cầu nhận dạng cảm xúc của người nói, cơ sở dữ liệu cảm xúc thường có 2 loại cơ sở dữ liệu được sử dụng cho việc nghiên cứu nhận dạng cảm xúc của người nói:

+ Loại thứ nhất: là lời nói có cảm xúc chủ động được gán nhãn, cơ sở dữ liệu cảm xúc thu được bằng cách yêu cầu 1 diễn viên nói các câu khác nhau với các cảm xúc định trước như: vui, buồn, túc, bình thường.v.v

+ Loại thứ hai: là lời nói có cảm xúc thực tế được gán nhãn, đây là cơ sở dữ liệu đến từ những hệ thống thời gian thực như tổng đài điện thoại

Mỗi dạng cơ sở dữ liệu phù hợp với những mục đích khác nhau:

- Loại thứ nhất chỉ sử dụng được trong một vài trường hợp nghiên cứu lý thuyết có mục đích

- Việc sử dụng loại thứ hai trở thành dạng chủ đạo, vì nó là dữ liệu thích hợp nhất cho hệ thống nhận dạng cảm xúc mang tính thực tế

Trong luận văn sử dụng cơ sở dữ liệu cảm xúc loại thứ nhất

1.2 Các giai đoạn xử lý của một hệ thống nhận dạng giới tính, cảm xúc người nói

Nhận dạng giới tính, cảm xúc của người nói theo phương pháp mẫu gồm 2 giai đoạn xử lý:

- Giai đoạn huấn luyện (training phase): là quá trình hệ thống học những mẫu chuẩn

Giai đoạn huấn luyện gồm các bước:

+ Ghi âm những cảm xúc cần huấn luyện: Khi ghi âm cảm xúc cần đặt mã cho mỗi người nói (diễn viên), phân biệt giới tính và gán nhãn cảm xúc Mỗi người nói

sẽ được yêu cầu nói một số câu nhất định và cùng một câu nói thể hiện các cảm xúc khác nhau tùy thuộc vào yêu cầu hệ thống cần nhận dạng bao nhiêu cảm xúc thì người nói sẽ thể hiện bấy nhiêu cảm xúc

Trang 25

+ Trích chọn đặc trưng: là việc biến đổi tín hiệu tiếng nói thực sang dạng tham

số đặc trưng phục vụ cho quá trình nhận dạng, thử nghiệm Việc trích chọn đặc trưng có ý nghĩa hết sức quan trọng, ảnh hưởng trực tiếp đến kết quả nhận dạng Đặc trưng được sử dụng trong hệ nhận dạng là: hệ số Cepstral theo thang đo tần số Mel (MFCC) Đặc trưng trên có được thông qua kỹ thuật phân tích phổ: các bộ lọc thông dải, phân tích mã hóa dự đoán tuyến tính (PLC), phép biến đổi Fourier rời rạc (DFT)…

+ Huấn luyện mô hình giới tính hay cảm xúc: Giai đoạn này mục đích là để tạo cho mỗi giới tính hay cảm xúc có một mô hình đặc trưng riêng theo các một phương pháp nhất định Có nhiều phương pháp để huấn luyện mô hình giới tính hay cảm xúc như: mô hình hỗn hợp Gauss (GMM), mô hình Markov ẩn (HMM), mô hình lượng tử hóa vector (VQ), mô hình mạng Noron nhân tạo (ANN)…

+ Lưu lại các đặc trưng của mỗi giới tính, cảm xúc sau khi đã được huấn luyện

- Giai đoạn nhận dạng (recognition phase): là quá trình quyết định xem người nói đó là nam hay nữ, đang ở trạng thái cảm xúc nào căn cứ vào mô hình giới tính, mô hình cảm xúc đã được huấn luyện

Giai đoạn nhận dạng gồm các bước sau:

+ Ghi âm giọng nói của người cần kiểm tra giới tính, trạng thái cảm xúc Tuy nhiên với hệ thống thử nghiệm chưa phải là ứng dụng theo thời gian thực thì dữ liệu

để kiểm thử sẽ lấy 1 phần trong dữ liệu ghi âm để huấn luyện

+ Trích chọn đặc trưng: thực hiện tương tự như trích chọn đặc trưng trong giai đoạn huấn luyện

+ Đưa ra quyết định nhận dạng: Hệ thống sẽ so sánh tính toán và tổng hợp các đặc trưng tiếng nói của người đưa vào nhận dạng với đặc trưng của mô hình giới tính, mô hình cảm xúc đã được huấn luyện xem có độ tương đồng cao nhất hay có điểm số lớn nhất thì sẽ đưa ra kết quả là tiếng nói của người đưa vào nhận dạng là nam hay nữ, đang ở trạng thái cảm xúc nào

Trang 26

1.3 Các thành phần của hệ thống nhận dạng giới tính, cảm xúc người nói

Hệ thống nhận dạng giới tính, nhận dạng cảm xúc của người nói bao gồm các thành phần tổng quát được mô tả trong hình 1.3 và hình 1.4

Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói

Luật quyết định

Kết quả

Huấn luyện cảm xúc

Vector đặc trưng thứ 2

So khớp thứ 1

Mô hình cảm xúc

So khớp thứ 2

So khớp thứ N

Vector đặc trưng thứ N

Nhận dạng

Luật quyết định

Kết quả

Huấn luyện giới tính

Vector đặc trưng thứ 2

So khớp thứ 1

Mô hình giới tính

So khớp thứ 2

So khớp thứ N

Vector đặc trưng thứ N

Nhận

Trang 27

Hình 1.3 và hình 1.4 mô tả các thành phần của hệ thống nhận dạng giới tính, cảm xúc của người nói gồm:

- Trích chọn đặc trưng: Tín hiệu tiếng nói đưa vào được biến đổi giọng nói thô thành những vector đặc trưng

- Huấn luyện mô hình giới tính, cảm xúc: huấn luyện giới tính, cảm xúc dựa vào một số phương pháp cụ thể như GMM, HMM… để tạo ra mô hình giới tính, mô hình cảm xúc

- Mô hình giới tính, mô hình cảm xúc:

+ Mô hình giới tính sẽ có 2 mô hình: mô hình giới tính nam, mô hình giới tính nữ + Mô hình cảm xúc: hệ thống đưa vào huấn luyện bao nhiêu cảm xúc thì sẽ có bấy nhiêu mô hình cảm xúc

- Luật quyết định: xác định và đưa ra quyết định dựa vào việc tính toán so khớp các đặc trưng về giới tính, cảm xúc người nói đưa vào kiểm tra với cơ sở dữ liệu giới tính, cảm xúc đã có để đưa ra kết quả nhận dạng người nói là nam hay nữ, đang ở trạng thái cảm xúc nào

1.4 Tìm hiểu về các kết quả nhận dạng giới tính, cảm xúc người nói đã có trên thế giới

1.4.1 Phát hiện các cảm xúc theo thời gian thực tại tổng đài điện thoại [5]

Bảng 1.1: Đặc điểm của cơ sở dữ liệu: 404 hộp thoại agent-callers, trong khoảng 10 giờ, M là nam, F là nữ

Trang 28

Các cuộc hội thoại được nghe, loại bỏ các đoạn nhầm lẫn và được gán nhãn với 2 loại cảm xúc: tiêu cực (negative- NEG), tích cực (positive - POS)

Hệ thống phát hiện cảm xúc được xây dựng từ 800 phân đoạn cảm xúc không

có sự nhầm lẫn, 400 phân đoạn cho mỗi cảm xúc (tiêu cực và tích cực)

Bộ dữ liệu được chia thành 5 tập (4 tập cho đào tạo và 1 tập cho thử nghiệm)

b Phương pháp thực hiện

Nhóm tác giả sử dụng chương trình Praat để trích chọn đặc trưng ngữ điệu (F0

và năng lượng), phổ (formants và băng thông) của tín hiệu Sau đó sử dụng phần mềm WEKA (SVM, Oner, CfsSubset, GainRatio) để chọn 20 đặc trưng tốt nhất cho phát hiện cảm xúc tích cực và tiêu cực

Với các đặc trưng được lựa chọn thì hai mô hình khác nhau đã được lựa chọn

Trang 29

1.4.2 Hệ thống nhận dạng cảm xúc phụ thuộc và độc lập giới tính với tiếng

Telugu sử dụng mô hình hỗn hợp Gaussian [4]

b Phương pháp thực hiện

Sử dụng đặc trưng MFCC trong khâu trích chọn đặc trưng và mô hình GMM trong khâu huấn luyện cảm xúc

Hình 1.5: Sơ đồ khối hệ thống nhận dạng cảm xúc Hình 1.5 mô tả hệ thống sẽ có file âm thanh đã được ghi âm được hiểu là đầu vào của hệ thống và trích chọn các đặc trưng, sau đó các đặc trưng được phân loại,

từ các đặc trưng được phân loại sẽ phân loại ra các mẫu để nhận dạng các cảm xúc

Mô hình GMM được sử dụng để huấn luyện các cảm xúc: với các yếu tố đầu vào, các GMM sẽ sử dụng thuật toán tối đa hóa kỳ vọng để tinh chỉnh năng lượng của mỗi phân phối sau đó sẽ tạo ra một mô hình mẫu Mỗi mô hình GMM chứa các mẫu cảm xúc và được mô tả trong hình 1.6

Phân loại đặc trưng

Phân loại mẫu Công nhận cảm xúc

Trang 30

Hình 1.6: Mô hình GMM với 4 cảm xúc Các vector đặc trưng đầu vào sẽ được so sánh với các vector đặc trưng của mô hình cảm xúc và đưa ra cảm xúc được nhận dạng

Các thử nghiệm được thực hiện trong bài báo:

- Thử nghiệm với những câu có sẵn (test utterances)

+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nam

+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nữ

+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc với cả nam và nữ

- Thử nghiệm với câu nói bất kỳ (open test utterances)

+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nam

+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nữ

+ Thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc với cả nam và nữ

Đưa ra cảm xúc được nhận dạng

Trang 31

- Phân loại cảm xúc thành 2 lớp: tiêu cực (subsuming angry, tự ái, quở trách,

và nhấn mạnh) và IDLE (tất cả các cảm xúc còn lại)

Các thử nghiệm được thực hiện lần lượt trên phân loại 2 lớp cảm xúc và 5 lớp cảm xúc với các đặc trưng và kết hợp các đặc trưng đã được lựa chọn để nhận dạng cảm xúc

Trang 32

Dựa trên phân tích tất cả các kết quả nhận dạng thì đặc trưng MFCC là đặc trưng tốt hơn cho nhận dạng cảm xúc

1.5 Tìm hiểu về các kết quả nhận dạng cảm xúc tại Việt Nam

Hiện nay, đã có một số các công trình, ứng dụng nhận dạng cảm xúc đã được công bố và đang thử nghiệm tại Việt Nam Tuy nhiên, đến thời điểm hiện tại chưa

có nhiều công trình nghiên cứu về nhận dạng cảm xúc của người nói tiếng Việt được công bố Do đó, luận văn sẽ tìm hiểu về các kết quả nhận dạng cảm xúc sử dụng phương pháp phân tích cử động trên khuôn mặt và điện não đã được công bố tại Việt Nam

1.5.1 Robot biết an ủi con người [16]

Cấu tạo của robot: Robot này được cấu tạo gồm 3 phần:

- Phần đầu: điều khiển 2 camera và 1 động cơ điều khiển góc quay cho trục camera

- Phần thân: gồm 3 tầng đặt máy và mạch điều khiển

- Phần chân: gồm 3 động cơ, hộp số giảm xóc

Hoạt động của robot: robot này sẽ nhận diện khuôn mặt người để di chuyển theo cảm xúc: khi bạn buồn robot sẽ tiến đến an ủi; khi bạn vui robot sẽ lùi xa… Việc nhận dạng sẽ được thực hiện do máy tính nhúng gắn trên robot thực hiện và truyền kết quả đến các vi xử lý điều khiển chuyển động camera và robot

Các cảm xúc được nhận dạng: buồn, vui, giận

Kết quả: tỷ lệ nhận dạng đạt 90 %

1.5.2 Nhận dạng cảm xúc qua điện não (EEG) theo thời gian thực sử dụng mô

hình máy vector hỗ trợ (SVM- Support Vector Machine) [9]

Trang 33

Mô hình gồm 2 phương pháp chính trong bước học máy:

- Phương pháp 1: hệ thống sẽ học tất cả các tín hiệu điện não của các đối tượng khác nhau

- Phương pháp 2: hệ thống sẽ học tín hiệu điện não của đối tượng cụ thể

1.6 Mục tiêu cần phải thực hiện của đề tài

Trên cơ sở nghiên cứu lý thuyết về hệ thống nhận dạng cảm xúc của người nói mục tiêu mà học viên đề ra trong khi thực hiện luận văn này là:

- Tìm hiểu và đề ra phương pháp để xây dựng được module huấn luyện phục

vụ cho nhận dạng giới tính, nhận dạng cảm xúc của người nói

- Nghiên cứu, thử nghiệm các phương án lựa chọn số thành phần Gaussian trong mô hình GMM để hệ thống nhận dạng đạt kết quả tốt

- Xây dựng mô hình nhận dạng giới tính, nhận dạng cảm xúc của người nói dựa trên 2 tiêu chí: người nói đã được huấn luyện trong hệ thống và người nói chưa được huấn luyện trong hệ thống

Các chương tiếp theo của luận văn sẽ đề cập đến các bước cần phải thực hiện

và công cụ sử dụng để đạt được mục tiêu trên

Trang 34

CHƯƠNG 2: PHƯƠNG PHÁP THỰC HIỆN VÀ CÔNG CỤ

SỬ DỤNG

2.1 Phương pháp thực hiện đề tài

Trên cơ sở nghiên cứu lý thuyết, tìm hiểu về nhận dạng giới tính, cảm xúc người nói, phương pháp thực hiện đề tài được lựa chọn cụ thể như sau:

- Đặc trưng được sử dụng để nhận dạng giới tính, cảm xúc là đặc trưng MFCC

- Mô hình sử dụng huấn luyện giới tính, cảm xúc là mô hình GMM

- Công cụ sử dụng: máy ảo Vmware, môi trường Linux, hệ điều hành CentOS,

ALIZE, gói thư viện LIA-RAL, công cụ Spro, ngôn ngữ lập trình Python

- Dữ liệu thử nghiệm: Cơ sở dữ liệu cảm xúc tiếng Đức (EMO-DB), cơ sở dữ liệu cảm xúc tiếng Việt (VEMO-DB)

- Các cảm xúc được nhận dạng

+ Cơ sở dữ liệu cảm xúc tiếng Đức gồm 7 cảm xúc: Tức giận (Anger -W), vui (Happiness/joy - F), buồn (sadness -T), Trung lập (Neutral- N), chán nản (Boredom- L), ghê tởm (Disgust-E) và sợ hãi (Anxiety/fear -A)

+ Cơ sở dữ liệu cảm xúc tiếng Việt gồm 4 cảm xúc: Tức giận (Anger -W), vui (Happiness/joy - F), buồn (Sadness -T), Trung lập (Neutral- N)

- Các thử nghiệm được thực hiện: thử nghiệm nhận dạng giới tính, thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nam, thử nghiệm nhận dạng cảm xúc trên tập dữ liệu cảm xúc của nữ, thử nghiệm nhận dạng cảm xúc trên tập dữ liệu của nam và nữ So sánh kết quả và đưa ra kết luận

Trên cơ sở lựa chọn phương pháp thực hiện đề tài, các phần tiếp theo của luận văn sẽ trình bày tóm tắt về phương pháp trích chọn đặc trưng MFCC, mô hình GMM, cách cài đặt cũng như chức năng của công cụ sử dụng trong luận văn

Nội dung của chương này sẽ trình bày các vấn đề sau:

- Phương pháp thực hiện đề tài

- Các công cụ sử dụng trong đề tài

Trang 35

2.2 Trích chọn đặc trƣng MFCC

Trích chọn đặc trưng MFCC là phần quan trọng nhất trong bước xử lý tín hiệu, đồng thời cũng là một trong những khâu có vai trò quyết định tới độ chính xác đạt được của hệ thống Đầu vào của quá trình trích chọn đặc trưng là một đoạn tín hiệu tiếng nói và đầu ra là một tập gồm 39 giá trị đặc trưng cho mỗi một frame tiếng nói Trích chọn đặc trưng MFCC gồm các bước được mô tả trong hình 2.1

Hình 2.1: Các bước trích chọn đặc trưng MFCC

Để trích chọn đặc trưng MFCC các bước thực hiện cụ thể như sau:

- Bộ lọc hiệu chỉnh (Pre-emphasis): là bộ lọc số bậc thấp để cho phổ đồng đều hơn, như vậy sẽ làm giảm ảnh hưởng gây ra bởi độ chính xác hữu hạn của các phép

xử lý tín hiệu sau này

+ Đầu vào của bộ lọc hiệu chỉnh: tín hiệu tiếng nói, ký hiệu s(n)

+ Đầu ra của bộ lọc hiệu chỉnh: tín hiệu tiếng nói với phổ đồng đều hơn, ký hiệu s2(n)

Tín hiệu ra có quan hệ với tín hiệu vào theo phương trình sai phân sau:

s2 (n) = s(n) – a s(n-1)

Trong đó: a là hằng số và 0.9 <a<1.0

Bộ lọc hiệu chỉnh

Phân khung

Tín hiệu

tiếng nói

Đạo hàm theo thời gian

Trang 36

Tín hiệu tiếng nói đầu vào s(n)

Tín hiệu tiếng nói sau khi lọc hiệu chỉnh với a = 0.95 Hình 2.2: Minh họa một đoạn tín hiệu tiếng nói trước và sau khi lọc hiệu chỉnh

- Phân khung (Frame Blocking): chia tín hiệu tiếng nói thành các đoạn nhỏ cỡ 10-30ms Tín hiệu tiếng nói đã được hiệu chỉnh được phân thành các khung mỗi khung có N mẫu, hai khung kề nhau lệch nhau M mẫu Khung đầu tiên chứa N mẫu, khung thứ hai bắt đầu chậm hơn khung thứ nhất M mẫu và chờm lên khung thứ nhất N-M mẫu

- Lấy cửa sổ: là lấy cửa sổ (windowing) cho mỗi khung hình riêng rẽ, để giảm thiểu tính gián đoạn tại điểm đầu và điểm cuối của mỗi khung

- Biến đổi Fourier rời rạc: là chuyển đổi tín hiệu tiếng nói trong từng frame sang miền tần số thông qua phép biến đổi Fourier rời rạc, phép biến đổi Fourier nhanh (FFT) thường được sử dụng để đảm bảo tốc độ Sau khi tính FFT ta sẽ thu được phổ năng lượng

- Các băng lọc tam giác: sử dụng để biến đổi phổ tín hiệu thu được sau khi tính FFT sang thang Mel trên miền tần số Cho phổ năng lượng đi qua một dãy băng lọc

Trang 37

ta sẽ thu được một dãy phổ năng lượng, tính tổng của các phổ năng lượng trong từng băng lọc ta thu được dãy các hệ số mk

- Biến đổi Cosine rời rạc (DCT): sẽ chuyển log các giá trị mk về miền thời gian và kết quả của phép biến đổi này ta thu được các hệ số MFCC Trong các ứng dụng nhận dạng tiếng nói người ta thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng của khung sau khi đã được chuẩn hóa

- Gắn trọng số: Đối với các tham số đặc trưng tiếng nói được tính từ miền tần

số như các hệ số MFCC, do độ nhạy của các hệ số Cepstral bậc thấp làm cho phổ toàn bộ đị đổ dốc và độ nhạy của các hệ số Cepstral bậc cao gây ra nhiễu, nên người

ta thường sử dụng cửa sổ Cepstral để cực tiểu hóa các độ nhạy này

- Đạo hàm theo thời gian: đạo hàm theo thời gian của các hệ số MFCC vào trong vector tham số tiếng nói để nâng cao chất lượng nhận dạng

Kết thúc bước trích chọn đặc trưng MFCC với mỗi frame ta thu được một vector có 39 giá trị biểu diễn tham số đặc trưng của tiếng nói

2.3 Mô hình GMM sử dụng trong nhận dạng giới tính, cảm xúc của người nói

Mô hình hợp Gauss (Gaussian Mixture Model - GMM) là một dạng mô hình thống kê được xây dựng từ việc huấn luyện các tham số thông qua dữ liệu học Về

cơ bản, mô hình GMM xấp xỉ một hàm mật độ xác suất bằng hợp các hàm mật độ Gauss

Hình 2.3: Hàm mật độ Gauss

Trang 38

Hình 2.3 minh họa hai hàm mật độ Gauss với các tham số khác nhau

Hàm mật độ xác suất của phân phối Gauss fN(x, μ, σ2) được cho bởi công thức:

Trong đó: μ là giá trị trung bình, σ là độ lệch chuẩn

Trong trường hợp x là vector gồm D thành phần, hàm mật độ xác suất của phân phối Gauss fN(x, μ, Σ) được cho bởi công thức:

' 1 / 2 1/ 2

Trong đó: μ là vector trung bình, Σ là ma trận hiệp phương sai

Nếu chọn μ=0 và σ=1, công thức (1.1) sẽ trở thành hàm mật độ chuẩn Gauss:

2 1

2 (2 )

Trang 39

Trong đó:

- wi là trọng số của phân phối Gauss thứ i, thỏa ràng buộc 0≤ wi ≤1 và



Các trọng số này thể hiện mức độ ảnh hưởng của mỗi phân phối Gauss đối với

mô hình GMM Như vậy, phân phối Gauss có phương sai và trọng số lớn bao nhiêu thì có mức độ ảnh hưởng lớn bấy nhiêu đối với kết xuất của mô hình

Trong hướng tiếp cận mô hình GMM để giải quyết bài toán nhận dạng giới tính của người nói mỗi giới tính sẽ được mô hình hóa bằng một mô hình GMM và

bộ tham số λ = { wi, μi, Σi }, i ∈ [1, M] sẽ được xác định thông qua việc huấn luyện trên tập mẫu học

Đối với hướng tiếp cận mô hình GMM để giải quyết bài toán nhận dạng cảm xúc của người nói mỗi cảm xúc sẽ được mô hình hóa bằng một mô hình GMM và

bộ tham số λ = { wi, μi, Σi }, i ∈ [1, M] sẽ được xác định thông qua việc huấn luyện trên tập mẫu học

2.4 Bộ công cụ ALIZE và LIA-RAL

ALIZE là một thư viện hỗ trợ trong lĩnh vực nhận dạng tự động người qua giọng nói sử dụng mô hình GMM ALIZE được phát triển từ một hệ thống có sẵn tại KTH (Kungliga Tekniska högskolan - Royal Institute of Technology), gọi là GIVES (General Identity Verification System)

Gói LIA-RAL được xây dựng trên thư viện ALIZE nên không thể sử dụng chỉ LIA-RAL mà phải sử dụng các gói cùng nhau

Ngôn ngữ được dùng để phát triển ALIZE là C++ theo hướng đối tượng UML ALIZE là phần mềm mã nguồn mở miễn phí, có thể dowload tại địa chỉ:

http://mistral.univ-avignon.fr/download_en.html Với 2 gói: gói ALIZE 2.0 có

kích thước : 1.028MB và gói LIA – RAL2.0 có kích thước: 9.761MB

Yêu cầu về phần mềm khi sử dụng ALIZE và LIA-RAL:

- Môi trường Linux, nếu muốn sử dụng trên Window thì cần cài đặt môi trường chạy lệnh UNIX sử dụng công cụ công cụ CYGWIN CYGWIN là công cụ

miễn phí có thể tải trên mạng ở địa chỉ http://www.cygwin.com/

Trang 40

- Đối với các bước biên dịch thì cần sử dụng g++

Luận văn sử dụng bộ công cụ ALIZE và LIA-RAL trên môi trường Linux, cài

máy ảo phiên bản VMware Workstation v9.0.1 (710MB) và hệ điều hành sử dụng

SPro có các lệnh chính sau đây:

- Năng lượng filter – bank

- Hệ số cepstral (filter-bank và dự đoán tuyến tính)

Các thư viện được viết trong ANSI C, cung cấp các chức năng sau:

- Tín hiệu đầu vào dạng sóng

Python là một ngôn ngữ lập trình thông dịch do Guido van Rossum tạo ra năm

1990 Python hoàn toàn tạo kiểu động và dùng cơ chế cấp phát bộ nhớ động; do vậy

nó tương tự như Perl, Ruby, Scheme, Smalltalk, và Tcl Python được phát triển trong một dự án mã mở của tổ chức phi lợi nhuận Python Software Foundation Python là một ngôn ngữ lập trình hướng đối tượng rất thông dụng dùng để viết các tiện ích hệ thống và các đoạn mã trên Internet Nó cũng được sử dụng như ngôn ngữ kết dính đóng vai trò tích hợp C và C++

Python là ngôn ngữ có hình thức rất sáng sủa, cấu trúc rõ ràng, thuận tiện cho người mới học lập trình Cấu trúc của Python còn cho phép người sử dụng viết mã lệnh với số lần gõ phím tối thiểu

Ngày đăng: 19/02/2022, 17:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Elif Bozkurt, Engin Erzin, Çiǧ dem Eroǧ lu Erdem, A. Tanju Erdem (2009), " Improving Automatic Emotion Recognition from Speech Signals", Proceeding of 10 th Annual Conference of the International Speech Communication Association (INTERSPEECH 2009), pp. 324-327 Sách, tạp chí
Tiêu đề: Improving Automatic Emotion Recognition from Speech Signals
Tác giả: Elif Bozkurt, Engin Erzin, Çiǧ dem Eroǧ lu Erdem, A. Tanju Erdem
Năm: 2009
[2] Felix Burkhardt, Markus van Ballegooy, Klaus-Peter Engelbrecht, Tim Polzehl, Joachim Stegmann (2009), “Emotion Detection in Dialog Systems:Applications, Strategies and Challenges”, ACII 2009: Affective Computing and Intelligent Interaction and Workshops Sách, tạp chí
Tiêu đề: Emotion Detection in Dialog Systems: Applications, Strategies and Challenges”
Tác giả: Felix Burkhardt, Markus van Ballegooy, Klaus-Peter Engelbrecht, Tim Polzehl, Joachim Stegmann
Năm: 2009
[3] Igor Bisio, Alessandro Delfino, Fabio Lavagetto, Mario Marchese, And Andrea Sciarrone (2013), “Gender-Driven Emotion Recognition Through Speech Signals for Ambient Intelligence Applications”, Proceeding IEEE, Vol. 1, No. 2, pp. 244-257 Sách, tạp chí
Tiêu đề: Gender-Driven Emotion Recognition Through Speech Signals for Ambient Intelligence Applications”, "Proceeding IEEE
Tác giả: Igor Bisio, Alessandro Delfino, Fabio Lavagetto, Mario Marchese, And Andrea Sciarrone
Năm: 2013
[4] Kalyana Kumar Inakollu, Sreenath Kocharla (2013), "Gender Dependent and Independent Emotion Recognition System for Telugu Speeches Using Gaussian Mixture Models", International Journal of Advanced Research in Computer and Communication Engineering, Vol. 2, Issue 11, pp. 4172-4175 Sách, tạp chí
Tiêu đề: Gender Dependent and Independent Emotion Recognition System for Telugu Speeches Using Gaussian Mixture Models
Tác giả: Kalyana Kumar Inakollu, Sreenath Kocharla
Năm: 2013
[5] Laurence Vidrascu, Laurence Devillers (2005), "Detection of real-life emotions in call centers", Proceeding of 9 th European Conference on Speech Communication and Technology (INTERSPEECH' 2005), pp. 1841-1844 Sách, tạp chí
Tiêu đề: Detection of real-life emotions in call centers
Tác giả: Laurence Vidrascu, Laurence Devillers
Năm: 2005
[6] Prasad Reddy P.V.G.D, Prasad A, Srinivas, Brahmaiah P (2010), "Gender Based Emotion Recognition System for Telugu Rural Dialects Using Hidden Markov Models", Journal of Computing, Vol 2, Issue 6, pp. 94-98 Sách, tạp chí
Tiêu đề: Gender Based Emotion Recognition System for Telugu Rural Dialects Using Hidden Markov Models
Tác giả: Prasad Reddy P.V.G.D, Prasad A, Srinivas, Brahmaiah P
Năm: 2010
[7] Slobodan T. Jovičić, Zorka Kašić, Miodrag Đorđević, Mirjana Rajković (2004), "Serbian emotional speech database: design, processing and evaluation", SPECOM’2004: 9 th Conference Speech and Computer Sách, tạp chí
Tiêu đề: Serbian emotional speech database: design, processing and evaluation
Tác giả: Slobodan T. Jovičić, Zorka Kašić, Miodrag Đorđević, Mirjana Rajković
Năm: 2004
[8] Thurid Vogt, Elisabeth André (2006), “Improving Automatic Emotion Recognition from Speech via Gender Differentiation”, Proceedings of Language Resources and Evaluation Conference (LREC) Sách, tạp chí
Tiêu đề: Improving Automatic Emotion Recognition from Speech via Gender Differentiation”
Tác giả: Thurid Vogt, Elisabeth André
Năm: 2006
[9] Hoang Anh Viet, Ngo Van Manh, Ban Ha Bang, Huynh Quyet Thang (2012), " A Real-Time Model based Support Vector Machine for Emotion Recognition through EEG", International Conference on Control, Automation and Information Sciences ICCAIS 2012, Ho Chi Minh City 26-28 November 2012, pp.191 – 196, Digital Object Identifier:10.1109/ICCAIS.2012.6466585 Sách, tạp chí
Tiêu đề: A Real-Time Model based Support Vector Machine for Emotion Recognition through EEG
Tác giả: Hoang Anh Viet, Ngo Van Manh, Ban Ha Bang, Huynh Quyet Thang
Năm: 2012
[10] Nguyễn Phú Bình (2004), "Nhận dạng tiếng nói tiếng Việt sử dụng mức dưới", Luận văn Thạc sĩ Xử lý thông tin và Truyền thông, Đại học Bách khoa Hà Nội Sách, tạp chí
Tiêu đề: Nhận dạng tiếng nói tiếng Việt sử dụng mức dưới
Tác giả: Nguyễn Phú Bình
Năm: 2004
[11] Đào Thị Thu Diệp (2013), "Nhận dạng người nói phụ thuộc từ khóa tiếng Việt", Luận văn Thạc sĩ Kỹ thuật Công nghệ Thông tin, Đại học Bách khoa Hà Nội Sách, tạp chí
Tiêu đề: Nhận dạng người nói phụ thuộc từ khóa tiếng Việt
Tác giả: Đào Thị Thu Diệp
Năm: 2013
[12] Đặng Đình Đức (2012), "Nhận dạng cảm xúc trong tiếng nói", Đồ án tốt nghiệp Đại học ngành Công nghệ Thông tin, Đại học Bách khoa Hà Nội Sách, tạp chí
Tiêu đề: Nhận dạng cảm xúc trong tiếng nói
Tác giả: Đặng Đình Đức
Năm: 2012

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Sơ đồ khối hệ thống nhận dạng giới tính của người nói - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 1.1 Sơ đồ khối hệ thống nhận dạng giới tính của người nói (Trang 22)
Hình 1.3: Các thành phần hệ thống nhận dạng giới tính của người nói - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 1.3 Các thành phần hệ thống nhận dạng giới tính của người nói (Trang 26)
Bảng 1.2: Kết quả nhận dạng (%) theo số đặc trưng được lựa chọn: số trong  ngoặc là độ lệch chuẩn - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Bảng 1.2 Kết quả nhận dạng (%) theo số đặc trưng được lựa chọn: số trong ngoặc là độ lệch chuẩn (Trang 28)
Bảng 1.3: Kết quả thử nghiệm (tỷ lệ %) - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Bảng 1.3 Kết quả thử nghiệm (tỷ lệ %) (Trang 31)
Hình 2.2: Sơ đồ các bước và công cụ liên kết tại các bước thực hiện trích chọn, - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 2.2 Sơ đồ các bước và công cụ liên kết tại các bước thực hiện trích chọn, (Trang 42)
Hình 2.11: Sơ đồ các bước và công cụ liên kết để thực hiện huấn luyện mô hình - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 2.11 Sơ đồ các bước và công cụ liên kết để thực hiện huấn luyện mô hình (Trang 47)
Hình 3.1: Sơ đồ các bước thực hiện xây dựng hệ thống dạng giới tính,  nhận dạng - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 3.1 Sơ đồ các bước thực hiện xây dựng hệ thống dạng giới tính, nhận dạng (Trang 55)
Hình 3.1 mô tả các bước xây dựng hệ thống nhận dạng giới tính, cảm xúc của  người nói gồm: - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 3.1 mô tả các bước xây dựng hệ thống nhận dạng giới tính, cảm xúc của người nói gồm: (Trang 56)
Hình 3.3: Sơ đồ mô hình giới tính sau bước huấn luyện - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 3.3 Sơ đồ mô hình giới tính sau bước huấn luyện (Trang 60)
Hình 3.4:  Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 3.4 Sơ đồ mô hình 7 cảm xúc sau bước huấn luyện (Trang 62)
Hình 4.1: Biểu đồ tỷ lệ nhận dạng giới tính của thử nghiệm G01_EJ với số - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 4.1 Biểu đồ tỷ lệ nhận dạng giới tính của thử nghiệm G01_EJ với số (Trang 68)
Bảng 4.1: Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Bảng 4.1 Tổng hợp tỷ lệ (%) của các thử nghiệm nhận dạng giới tính (Trang 69)
Hình 4.5: Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm cảm xúc trên CSDL - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 4.5 Biểu đồ tỷ lệ nhận dạng chung của các thử nghiệm cảm xúc trên CSDL (Trang 73)
Hình 4. 6: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm - Nhận dạng giới tính, cảm xúc của người nói và ứng dụng cho tiếng việt
Hình 4. 6: Biểu đồ tỷ lệ nhận dạng trung bình đối với 7 cảm xúc của thử nghiệm (Trang 74)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm