1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Thiết kế hệ nhúng nhận dạng người nói trên T-Engine SH7760

27 352 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 1,17 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thiết kế hệ nhúng nhận dạng người nói trên T-Engine SH7760

Trang 1

Luận văn Thạc sỹ

Trường Đại học Bách Khoa Hà Nội

Ngành Xử lý thông tin & truyền thông

Thiết kế hệ nhúng nhận dạng người nói trên

T-Engine SH7760

Giáo viên hướng dẫn : Ts Trịnh Văn Loan

Trang 2

Nội dung trình bày

1. Giới thiệu đề tài

2. Nhận dạng người nói

3. Thiết kế hệ nhúng T-Engine

4. Thiết kế phần mềm nhận dạng người nói

5. Kết quả đạt được & hướng phát triển

Trang 3

1 Giới thiệu đề tài

 1.1 Lí do lựa chọn đề tài

 1.2 Nhiệm vụ của đề tài

Trang 4

1.1 Lí do lựa chọn đề tài

 Tương tác giữa con người và máy tính ngày càng

đòi hỏi tính trực quan cao.

 Tiếng nói là phương tiện giao tiếp thông dụng

nhất được con người sử dụng.

Yêu cầu tương tác người - máy thông qua giọng nói là một nhu cầu tất yếu.

 Bên cạnh đó các hệ nhúng chuyên dụng ngày

càng phát triển và được sử dụng rộng rãi cho

phép tạo ra các thiết bị thông minh với kích

thước nhỏ nhưng hiểu được tiếng nói con người

Trang 5

1.2 Nhiệm vụ của đề tài

 Xây dựng chương trình nhận dạng người

nói sử dụng mô hình GMM với từ nhận dạng bất kỳ

 Thiết kế hệ nhúng dựa trên chip SH7760

thực hiện chương trình nhận dạng

Trang 6

2 Tổng quan nhận dạng người nói

 Nhận dạng người nói có hai dạng:

 Định danh người nói (speaker identification)

 Xác thực người nói (speaker verification)

2.1

2.2

Trang 8

2.1.1 Tiền xử lí

 Lọc hiệu chỉnh:

 H(z)=1-az -1 với 0.95 ≤ a < 0.97

 Loại bỏ khoảng lặng:

 Threshold = MinValue + Ratio * (MeanValue – MinValue)

(Ratio ~ 0.3)

 Phát hiện tiếng nói (Voice activation detection)

Dựa trên các thông số của tín hiệu:

 if ((log10(SP) - log10(NP))>g_dblNoiseThreshold)

bSpeechFlag = TRUE;

Trang 9

2.1.2 Phân khung

 Tín hiệu tiếng nói được chia thành các khung có

kích thước bằng nhau.

Trang 12

2.1.4 Trích chọn vector đặc trưng

Khung tiếng nói

Tiền xử lý + cửa sổ hoá

Trang 13

2.2.Mô hình hỗn hợp Gauss - GMM

Trang 14

 Mô hình hỗn hợp Gauss là tổ hợp của nhiều

thành phần, mỗi thành phần là một phân bố

chuẩn hay phân bố Gauss.

Mật độ hỗn hợp Gauss

) ( )

|

(

1

x b

p x

i

i i

− Σ

2

1 exp

) 2 (

1 )

2 1

i D

là ma trận hiệp biến

là trọng số của thành phần trong hỗn hợp

Trang 15

2.2.Mô hình hỗn hợp Gauss - GMM

 Một mô hình hỗn hợp Gauss được biểu diễn

bằng các tham số

(a) số thành phần Gauss (b) vector trung bình và ma trận hiệp biến của từng thành phần

(c) trọng số của từng thành phần

 Bộ tham số cho một mô hình Gauss là

} { p i i Σi

= , µ ,

Trang 17

Sơ đồ khối mạch nhúng

Trang 18

4 Thiết kế phần mềm nhận dạng người nói

Trang 19

Huấn luyện mô hình

 Người huấn

luyện đọc vào câu huấn luyện

từ 3 đến 5 lần

Trang 20

Nhận dạng người nói – từ nói bất kỳ

 Việc nhận dạng

được thực hiện ở hai chế độ:

 Nhận dạng thời

gian thực

 Nhận dạng xác

thực người nói

Trang 21

Các giải thuật cải thiện chất lượng nhận dạng

 Xác lập ngưỡng điểm số nhận dạng cho

từng người nói

 Sinh từ ngẫu nhiên cho huấn luyện

 Nhận dạng với nhiều từ khác nhau trong

nhiều lần

Trang 22

5 Kết quả đạt được

 Xây dựng thành công

hệ thống nhúng nhận dạng người nói với từ nói bất kỳ

 Độ chính xác nhận

dạng đạt được 97%

Trang 23

Một số giao diện chương trình

Nhập thông tin

người huấn luyện

cho từng người huấn luyện

Trang 24

Kết quả thử nghiệm

 Hệ thống được thử nghiệm cho 30 người,

với tần số ghi âm là 44100Hz, 16bit, mono

 Mỗi người đọc câu huấn luyện 2 lần, kiểm

tra nhận dạng 10 lần với 10 từ bất kỳ

Trang 25

Name Giới

tín h

Tuổi Địa phương Số lần đọc từ

huấn luyện kiểm tra Số lần (tỷ lệ đúng) Kết quả

Le Hoai Phuong Nam 23 Hà Nội 2 10 100%

Ngo Chi Minh Nam 23 Hà Nội 2 10 90%

Nguyen Canh Diep Nam 17 Vĩnh Phú 2 10 100%

Nguyen Hai Ha Nam 23 Hà Nội 2 10 100%

Nguyen Ngoc Hung Nam 19 Hải Dương 2 10 100%

Nguyen Quang Hiep Nam 23 Hà Nội 2 10 100%

Nguyen Thi Hau Nữ 23 Bắc Giang 2 10 90%

Nguyen Tien Manh Nam 23 Hà Nội 2 10 100%

Nguyen Xuan Giang Nam 31 Hà Nam 2 10 100%

Pham Thi Nhan Nữ 23 Bắc Ninh 2 10 80%

Phan Van Diep Nam 23 Nghệ An 2 10 100%

Tran Manh Linh Nam 23 Hà Nội 2 10 90%

Vuong Quang Hung Nam 18 Hà Nội 2 10 100% Bui Thi Yen Nu 20 Hanoi 2 10 100% Dang Thi May Nu 20 Nam Dinh 2 10 90%

Do Dinh Sy Nam 21 Nam Dinh 2 10 100% Pham Hung Duc Nam 21 Phu Tho 2 10 100% Trinh Xuan Kien Nam 21 Ha noi 2 10 100%

Kết quả trung bình đạt được 97%

Trang 26

Hướng phát triển

 Hiện tại, module codec thu âm của mạch

còn nhiễu, phần cứng này sẽ được chuẩn hóa lại để giảm nhiễu, tăng độ chính xác nhận dạng

Bổ sung thêm tham số về tần số cơ bản

F0 cho các thanh điệu vào mô hình để nâng cao độ chính xác nhận dạng

Trang 27

Câu hỏi của hội đồng

Em xin chân thành cảm ơn!

Ngày đăng: 08/08/2015, 18:13

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w