Thiết kế hệ nhúng nhận dạng người nói trên T-Engine SH7760
Trang 1Luận văn Thạc sỹ
Trường Đại học Bách Khoa Hà Nội
Ngành Xử lý thông tin & truyền thông
Thiết kế hệ nhúng nhận dạng người nói trên
T-Engine SH7760
Giáo viên hướng dẫn : Ts Trịnh Văn Loan
Trang 2Nội dung trình bày
1. Giới thiệu đề tài
2. Nhận dạng người nói
3. Thiết kế hệ nhúng T-Engine
4. Thiết kế phần mềm nhận dạng người nói
5. Kết quả đạt được & hướng phát triển
Trang 31 Giới thiệu đề tài
1.1 Lí do lựa chọn đề tài
1.2 Nhiệm vụ của đề tài
Trang 41.1 Lí do lựa chọn đề tài
Tương tác giữa con người và máy tính ngày càng
đòi hỏi tính trực quan cao.
Tiếng nói là phương tiện giao tiếp thông dụng
nhất được con người sử dụng.
Yêu cầu tương tác người - máy thông qua giọng nói là một nhu cầu tất yếu.
Bên cạnh đó các hệ nhúng chuyên dụng ngày
càng phát triển và được sử dụng rộng rãi cho
phép tạo ra các thiết bị thông minh với kích
thước nhỏ nhưng hiểu được tiếng nói con người
Trang 51.2 Nhiệm vụ của đề tài
Xây dựng chương trình nhận dạng người
nói sử dụng mô hình GMM với từ nhận dạng bất kỳ
Thiết kế hệ nhúng dựa trên chip SH7760
thực hiện chương trình nhận dạng
Trang 62 Tổng quan nhận dạng người nói
Nhận dạng người nói có hai dạng:
Định danh người nói (speaker identification)
Xác thực người nói (speaker verification)
2.1
2.2
Trang 82.1.1 Tiền xử lí
Lọc hiệu chỉnh:
H(z)=1-az -1 với 0.95 ≤ a < 0.97
Loại bỏ khoảng lặng:
Threshold = MinValue + Ratio * (MeanValue – MinValue)
(Ratio ~ 0.3)
Phát hiện tiếng nói (Voice activation detection)
Dựa trên các thông số của tín hiệu:
if ((log10(SP) - log10(NP))>g_dblNoiseThreshold)
bSpeechFlag = TRUE;
Trang 92.1.2 Phân khung
Tín hiệu tiếng nói được chia thành các khung có
kích thước bằng nhau.
Trang 122.1.4 Trích chọn vector đặc trưng
Khung tiếng nói
Tiền xử lý + cửa sổ hoá
Trang 132.2.Mô hình hỗn hợp Gauss - GMM
Trang 14 Mô hình hỗn hợp Gauss là tổ hợp của nhiều
thành phần, mỗi thành phần là một phân bố
chuẩn hay phân bố Gauss.
Mật độ hỗn hợp Gauss
) ( )
|
(
1
x b
p x
i
i i
−
− Σ
2
1 exp
) 2 (
1 )
2 1
i D
là ma trận hiệp biến
là trọng số của thành phần trong hỗn hợp
Trang 152.2.Mô hình hỗn hợp Gauss - GMM
Một mô hình hỗn hợp Gauss được biểu diễn
bằng các tham số
(a) số thành phần Gauss (b) vector trung bình và ma trận hiệp biến của từng thành phần
(c) trọng số của từng thành phần
Bộ tham số cho một mô hình Gauss là
} { p i i Σi
= , µ ,
Trang 17Sơ đồ khối mạch nhúng
Trang 184 Thiết kế phần mềm nhận dạng người nói
Trang 19Huấn luyện mô hình
Người huấn
luyện đọc vào câu huấn luyện
từ 3 đến 5 lần
Trang 20Nhận dạng người nói – từ nói bất kỳ
Việc nhận dạng
được thực hiện ở hai chế độ:
Nhận dạng thời
gian thực
Nhận dạng xác
thực người nói
Trang 21Các giải thuật cải thiện chất lượng nhận dạng
Xác lập ngưỡng điểm số nhận dạng cho
từng người nói
Sinh từ ngẫu nhiên cho huấn luyện
Nhận dạng với nhiều từ khác nhau trong
nhiều lần
Trang 225 Kết quả đạt được
Xây dựng thành công
hệ thống nhúng nhận dạng người nói với từ nói bất kỳ
Độ chính xác nhận
dạng đạt được 97%
Trang 23Một số giao diện chương trình
Nhập thông tin
người huấn luyện
cho từng người huấn luyện
Trang 24Kết quả thử nghiệm
Hệ thống được thử nghiệm cho 30 người,
với tần số ghi âm là 44100Hz, 16bit, mono
Mỗi người đọc câu huấn luyện 2 lần, kiểm
tra nhận dạng 10 lần với 10 từ bất kỳ
Trang 25Name Giới
tín h
Tuổi Địa phương Số lần đọc từ
huấn luyện kiểm tra Số lần (tỷ lệ đúng) Kết quả
Le Hoai Phuong Nam 23 Hà Nội 2 10 100%
Ngo Chi Minh Nam 23 Hà Nội 2 10 90%
Nguyen Canh Diep Nam 17 Vĩnh Phú 2 10 100%
Nguyen Hai Ha Nam 23 Hà Nội 2 10 100%
Nguyen Ngoc Hung Nam 19 Hải Dương 2 10 100%
Nguyen Quang Hiep Nam 23 Hà Nội 2 10 100%
Nguyen Thi Hau Nữ 23 Bắc Giang 2 10 90%
Nguyen Tien Manh Nam 23 Hà Nội 2 10 100%
Nguyen Xuan Giang Nam 31 Hà Nam 2 10 100%
Pham Thi Nhan Nữ 23 Bắc Ninh 2 10 80%
Phan Van Diep Nam 23 Nghệ An 2 10 100%
Tran Manh Linh Nam 23 Hà Nội 2 10 90%
Vuong Quang Hung Nam 18 Hà Nội 2 10 100% Bui Thi Yen Nu 20 Hanoi 2 10 100% Dang Thi May Nu 20 Nam Dinh 2 10 90%
Do Dinh Sy Nam 21 Nam Dinh 2 10 100% Pham Hung Duc Nam 21 Phu Tho 2 10 100% Trinh Xuan Kien Nam 21 Ha noi 2 10 100%
Kết quả trung bình đạt được 97%
Trang 26Hướng phát triển
Hiện tại, module codec thu âm của mạch
còn nhiễu, phần cứng này sẽ được chuẩn hóa lại để giảm nhiễu, tăng độ chính xác nhận dạng
Bổ sung thêm tham số về tần số cơ bản
F0 cho các thanh điệu vào mô hình để nâng cao độ chính xác nhận dạng
Trang 27Câu hỏi của hội đồng
Em xin chân thành cảm ơn!