1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(Đề tài NCKH) kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp

115 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 115
Dung lượng 3,29 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhận dạng tiếng Việt và ứng dụng đểlàm lệnh điều khiển vẫn còn là một lĩnh vực khá mới mẻ Vì những lí do trên, tôi chọn đề tài “Nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp”

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM

KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG

KỸ THUẬT NHẬN DẠNG TIẾNG NÓI THÀNH LỆNH

ỨNG DỤNG TRONG CÔNG NGHIỆP

NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270

SKC004340

Tp Hồ Chí Minh, tháng 10/2014

Trang 2

THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG

KỸ THUẬT NHẬN DẠNG TIẾNG NÓI THÀNH LỆNH

ỨNG DỤNG TRONG CÔNG NGHIỆP

NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270

Tp Hồ Chí Minh, tháng 10/2014

Trang 3

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG

KỸ THUẬT NHẬN DẠNG TIẾNG NÓI THÀNH LỆNH ỨNG DỤNG TRONG CÔNG NGHIỆP

NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270

Hướng dẫn khoa học:

PGS.TS TRẦN THU HÀ

Tp Hồ Chí Minh, tháng 10/2014

Trang 4

LÝ LỊCH KHOA HỌC

I LÝ LỊCH SƠ LƯỢC:

Họ & tên: NGUYỄN THÀNH CHUNG Giới tính: Nam

Ngày, tháng, năm sinh: 10/12/1984 Nơi sinh: Nghệ An

Chỗ ở riêng hoặc địa chỉ liên lạc: Số nhà 36/25 – đường Số 5 – Kp 5 – Q Thủ Đức – tỉnh TP.Hồ Chí Minh

Điện thoại cơ quan: Điện thoại nhà riêng: 0918444230

II QUÁ TRÌNH ĐÀO TẠO

1 Trung học chuyên nghiệp:

Hệ đào tạo: Nghề bậc 4/7 Thời gian đào tạo từ 10/ 2002 đến 10 /2004Nơi học (trường, thành phố): Trường trung tâm dạy nghể kỹ thuật cao thuộc trườngĐại Học Dân Lập Kỹ Thuật Công Nghệ TP.Hồ Chí Minh

Ngành học: Điện Tử

2 Đại học:

Hệ đào tạo: Chính Quy Thời gian đào tạo từ10/2005đến 7/2009

Nơi học (trường, thành phố): Trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM

Ngành học: Kỹ Thuật Điện – Điện Tử

Tên đồ án, luận án hoặc môn thi tốt nghiệp:

ĐIỀU KHIỂN VÀ GIÁM SÁT DÂY CHUYỀN SẢN XUẤT THỨC ĂN GIA SÚC Ngày & nơi bảo vệ đồ án, luận án hoặc thi tốt nghiệp: 19/07/2009 – Trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM

Người hướng dẫn: ThS NGUYỄN TẤN ĐỜI

III QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC:

10/2009 – 08/2010 Công ty TNHH Xuân Phát Kỹ sư bảo trì

i HVTH: NGUYỄN THÀNH CHUNG

Trang 5

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công

bố trong bất kỳ công trình nào khác

Tp Hồ Chí Minh, ngày 6 tháng 10 năm

2014 (Ký tên và ghi rõ họ tên)

NGUYỄN THÀNH CHUNG

ii HVTH: NGUYỄN THÀNH CHUNG

Trang 6

Tôi xin chân thành cảm ơn gia đình của tôi, đặc biệc là cha mẹ tôi đã tạomọi điều kiện cho tôi ăn học cho đến ngày hôm nay Chính họ là nguồnđộng viên lớn nhất ủng hộ tôi, giúp đỡ tôi trong suốt quá trình học tập cũngnhư việc thực hiện luận văn này.

Tôi xin chân thành cám ơn cô hướng dẫn PGS TS TRẦN THU HÀ

trường Đại học Kỹ Thuật Tp Hồ Chí Minh đã tận tình chỉ dạy, hướng dẫn,đóng góp nhiều ý kiến quý báu trong suốt quá trình thực hiện luận văn

Tôi cũng xin chân thành cám ơn thầy cô trong khoa Điện - Điện Tử nóiriêng và thầy cô trường Đại Học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh đãtạo ra cho tôi một môi trường học tập thật tuyệt vời và đã tạo mọi điều kiệncho tôi hoàn thành luận văn này

Xin cám ơn tất cả các bạn học viên và các anh chị đã đóng góp những ýkiến và giúp đỡ tôi hoàn thành luận văn này

Người thực hiện luận văn

NGUYỄN THÀNH CHUNG

iii HVTH: NGUYỄN THÀNH CHUNG

Trang 7

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

TÓM TẮT

Ngay khi phát minh ra máy tính, con người đã mơ ước máy tính có thể nóichuyện với mình Yêu cầu đơn giản nhất là máy có thể xác định được từ ngữ màchúng ta nói với máy Đó là mục tiêu của ngành nhận dạng tiếng nói

Đối với con người, việc nghe, nhất là nghe tiếng mẹ đẻ là một vấn đề khá đơngiản Còn đối với máy tính, xác định một chuỗi tín hiệu âm thanh là sự phát âm củamột từ nào hoàn toàn không đơn giản, khó khăn cũng như việc học nghe ngoại ngữcủa chúng ta

Lĩnh vực nhận dạng tiếng nói đã được nghiên cứu hơn 4 thập kỉ và hiện naymới chỉ có một số thành công Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ:phần mềm Via Voice của IBM, hệ thống nhận dạng tiếng nói tích hợp củaOfficeXP…) Các hệ thống này hoạt động khá tốt (cho độ chính xác khoảng 90 - 95%)nhưng còn xa mới đạt đến mức mơ ước của chúng ta: có một hệ thống có thể nghechính xác và hiểu hoàn toàn những điều ta nói

Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói còn khá mới mẻ Chưa hề thấyxuất hiện một phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trường Số công trìnhnghiên cứu về nhận dạng tiếng nói tiếng Việt được công bố rất hiếm hoi, và kết quả cònhạn chế về bộ từ vựng, độ chính xác… Tiếng Việt có nhiều đặc tính khác với

các ngôn ngữ đãđược nghiên cứu nhận dạng nhiều như tiếng Anh, tiếng Pháp Do đóviệc nghiên cứu nhận dạng tiếng Việt là rất cần thiết Bên cạnh đó, việc triển khai hệthống nhận dạng tiếng nói trên phần cứng ở Việt Nam cũng còn nhiều hạn chế, và khảnăng nhận dạng còn phụ thuộc vào người nói Nhận dạng tiếng Việt và ứng dụng đểlàm lệnh điều khiển vẫn còn là một lĩnh vực khá mới mẻ

Vì những lí do trên, tôi chọn đề tài “Nhận dạng tiếng nói thành lệnh ứng dụng

trong công nghiệp”, nhằm nghiên cứu các phương pháp nhận dạng tiếng nói đối với tiếng

Việt và thử nghiệm xây dựng một hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng được thựcthi trên máy tính và điều khiển thông qua Board Arduino Mega 2560, với bộ

từ vựng gồm 5 từ đơn (vui, buồn, mệt, giận, hiền) với kết quả nhận dạng có độ chínhxác khoảng hơn 90% trong điều kiện bình thường

Từ khóa:Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC

methods, FFT algorithm, K-meanalgorithm, Board Arduino Mega 2560

iv HVTH: NGUYỄN THÀNH CHUNG

Trang 8

The purpose with this final master degree project was todevelop a speech recognitiontool, to make the technology

accessible The development includes anextensive study of Hidden

Markov Model, which is currently the state of the artin the field of

speech recognition A speech recognizer is a complex machine

developedwith the purpose to understand human speech In real life

this speechrecognition technology might be used to get a gain in

traffic security or facilitatefor people with functional disability The

technology can also be applied to manyother areas However in a

real environment there exist disturbances that mightinfluence the

performance of the speech recognizer The report includes an

performanceevaluation in different noise situations, in a robot

environment The resultshows that the recognition rate varies from

92%, in a noise free environment, to90% in a more noisy

environment

v HVTH: NGUYỄN THÀNH CHUNG

Trang 9

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

MỤC LỤC

LÝ LỊCH KHOA HỌC i

LỜI CAM ĐOAN ii

LỜI CẢM ƠN iii

TÓM TẮT iv

MỤC LỤC vi

DANH SÁCH CÁC HÌNH ix

DANH SÁCH CÁC BẢNG xi

DANH SÁCH CÁC CHỮ VIẾT TẮT xii

Chương 1 TỔNG QUAN 1

1.1.Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước 1

1.1.1.Nhận dạng tiếng nói 1

1.1.2.Tổng quan tình hình nghiên cứu 2

1.2.Mục tiêu và đối tượng nghiên cứu của đề tài 5

1.2.1.Mục tiêu 6

1.2.2.Đối tượng nghiên cứu 5

1.3.Nhiệm vụ và giới hạn của đề tài 6

1.3.1.Nhiệm vụ 6

1.3.2.Giới hạn 6

1.4.Phương pháp nghiên cứu 6

1.5.Nội dung luận văn 7

1.6.Ý nghĩa thực tiễn của đề tài 8

Chương 2 ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT 9

2.1.TỔNG QUAN VỀ TIẾNG NÓI 9

2.2.Các đặc trưng cơ bản của Tiếng Việt 9

2.2.1.Âm tiết 9

2.2.2.Âm vị 11

2.2.3.Nguyên âm và phụ âm 11

2.2.4.Thanh điệu 12

Chương 3 MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 13

3.1 Phân loại các hệ thống nhận dạng tiếng nói 13

3.1.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt 13

3.1.2 Nhận dạng phụ thuộc người nói và độc lập người nói 13

3.2 Các yếu tố ảnh hưởng đến kết quả nhận dạng tiếng nói : 15

3.3 Cấu trúc hệ nhận dạng tiếng nói: 16

3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn: 17

vi HVTH: NGUYỄN THÀNH CHUNG

Trang 10

3.6.Phương pháp phân tích hệ số MFCC 19

3.6.1 Tiền xử lý 19

3.6.2.Tạo khung và cửa sổ hóa tín hiệu 23

3.6.3 Trích đặc trưng 25

3.6.4 Hậu xử lý 31

3.7 Lượng tử vector: 32

3.7.1 Tổng quan về lượng tử vector (VQ): 32

3.7.2 Cấu trúc và tập huấn luyện VQ: 33

3.7.3 Đo độ méo: 34

3.7.4 Phân nhóm các vector huấn luyện: 34

Chương 4: MÔ HÌNH MARKOV ẨN HMM 36

4.1 Quá trình Markov: 36

4.2 Mô hình Markov ẩn: 38

4.3 Giải pháp toán học cho ba bài toán cơ bản của mô hình Markov ẩn: 41

4.3.1 Bài toán 1: 41

4.3.2 Bài toán 2: 44

4.3.3 Bài toán 3: 45

4.4 Các loại mô hình Markov ẩn: 49

Chương 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT 50

5.1 Tổng quan về phần cứng của hệ thống : 50

5.2 Lựa chọn thiết bị: 52

5.2.1 Động cơ: 52

5.2.2 Board Arduino Mega 2560: 54

Chương 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG 66

6.1.Thiết kế hệ thống nhận dạng tiếng nói trên máy tính 66

6.1.1.Trích đặc trưng 67

6.1.2.Lượng tử hóa vector 71

6.1.3.Huấn luyện HMM 75

6.1.4.Nhận dạng bằng mô hình HMM 76

6.2.Thiết kế phần mềm giao diện nhận dạng 78

6.3 Kết quả thử nghiệm trên phần mềm nhận dạng 79

vii HVTH: NGUYỄN THÀNH CHUNG

Trang 11

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Chương 7 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 83

7.1 Kết luận 83

7.2 Nhận xét 84

7.3 Hạn chế của đề tài: 84

7.4 Hướng phát triển của đề tài 84

TÀI LIỆU THAM KHẢO 86

viii HVTH: NGUYỄN THÀNH CHUNG

Trang 12

Hình 3 1 Người nói khác nhau sẽ phát âm khác nhau 14

Hình 3 2 Mô hình nhận dạng tiếng nói bán độc lập người nói 15

Hình 3 3 Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói 16

Hình 3 4 Lưu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn 17

Hình 3 5 Đoạn mẫu âm thanh trước khi VAD 18

Hình 3 6 Đoạn mẫu âm thanh sau khi VAD 18

Hình 3 7 Sơ đồ giải thuật phương pháp phân tích thông tin tiếng nói 19

Hình 3 8 Tiền xử lý tín hiệu 19

Hình 3 9 Phân tích khoảng lặng của tiếng nói 21

Hình 3 10 Tách tiếng nói khỏi khoảng im lặng theo VAD 22

Hình 3 11 Từ tiếng nói có khoảng im lặng tách thành tiếng nói không có khoảng lặng 23 Hình 3 12 Frame blocking và Windowing 23

Hình 3 13 Chia khung chuỗi tín hiệu 24

Hình 3 14 Cửa sổ Hamming với các hệ số α khác nhau 24

Hình 3 15 Tín hiệu tiếng nói sau khi được cửa sổ hóa so với ban đầu 25

Hình 3 16 Các bước thực hiện MFCC 25

Hình 3 17 Phổ Fourier của tín hiệu gốc và tín hiệu đã cửa sổ hóa 26

Hình3 18 Băng lọc tam giác melscale trên miền tần số 27

Hình 3 19 Tính các hệ số delta 29

Hình 3 20 Quá trình rút trích đặc trưng 30

Hình 3 21 Các bước hậu xử lý tín hiệu 31

Hình 3 22 Sơ đồ khối cấu trúc của VQ huấn luyện và phân lớp 33

Hình 3 23 Lưu đồ giải thuật VQ 35

Hình 4 1 Xích Markov 5 trạng thái S 1 ,S 2 , .S 5 và các xác suất chuyển trạng thái 36

Hình 4 2 Ví dụ một mô hình Markov ẩn sáu trạng thái 39

Hình 4 3 Mô tả các dãy phép toán được thực hiện để tính αt(i) 43

Hình 4 4 Mô tả các dãy phép toán được thực hiện để tính biến β t (i) 44

Hình 5 1 Mô hinh̀ nhiǹ trước 50

Hình 5 2 Mô hinh ̀ nhin ̀ nghiêng 50

Hình 5 3 Mô hinh ̀ nhin ̀ từ bên trái 51

Hình 5 4 Mô hinh̀ khuôn mặt thực tế của robot 51

Hình 5 5 Cấu tạo bên trong của RC servo 52

Hình 5 6 Điều khiển vị trí trục ra của động cơ bằng cách điều chế độ rộng xung 53

Hình 5 7.Động cơ RC Servo EMax ES08A 54

Hình 5 8 Giao diện IDE của Arduino 57

Hình 5 9 Board Arduino Mega 2560 (mặt trước và sau) 58

Hình 5 10.Board Arduino Mega 2560 59

Hình 5 11 Sơ đồchân của ATMEGA2560 59

Hình 5 12 Sơ đồnguyên lýcủa Arduino Mega 2560 61

Hình 5 13 Gõ lệnh targetinstaller vào khung Command Window s 61

Hình 5 14 Khung Target Installer xuất hiêṇ, nhấn Next 62

Hình 5 15.Matlab đang nhâṇ thông tin gói hỗtrơ ̣thông qua mang ̣ Internet 62

Hình 5 16 Lưạ choṇ gói hỗtrơ ̣Arduino vàtiếp tuc ̣ nhấn Next 63

Hình 5 17 Nhấn nút Install đểcài đăṭ 63

Hình 5 18 Matlab đang cài gói hỗtrơ ̣Arduino 64

ix HVTH: NGUYỄN THÀNH CHUNG

Trang 13

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Hình 5 19 Hoàn thành tiến trình cài đặt 64

Hình 5 20 Arduino đa ̃xuất hiêṇ trong thư viêṇ Simulink 65

Hình 6 1 Sơ đồ khối mô hình huấn luyện và nhận dạng từ đơn 67

Hình 6 2 Lưu đồ giải thuật thực hiện tách tiếng nói khỏi khoảng lặng 68

Hình 6 3 Lưu đồ giải thuật thực hiện phân tích hệ số đặc trưng 69

Hình 6 4.Minh họa lượng tử hóa vector 75

Hình 6 5 Lưu đồ giải thuật huấn luyện HMM 76

Hình 6 6 Lưu đồ giải thuật nhận dạng từ đơn sử dụng HMM 77

Hình 6 7 Giao diện nhận dạng tiếng nói 78

Hình 6 8.Minh họa phân tích dữ liệu tiếng nói thành các hệ số đặc trưng để sử dụng cho huấn luyện hệ thống và nhận dạng 80

Hình 6 9.Kết quả nhận dạng từ “vui” 82

x HVTH: NGUYỄN THÀNH CHUNG

Trang 14

DANH SÁCH CÁC BẢNG

Bảng 2 1:Cấu trúc tổng quát của một âm tiết tiếng Việt 11Bảng 6 1 Kết quả thử nghiệm cho nhóm hệ thống học mẫu 80Bảng 6 2 Kết quả thử nghiệm cho nhóm mạo danh 81

xi HVTH: NGUYỄN THÀNH CHUNG

Trang 15

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

DANH SÁCH CÁC CHỮ VIẾT TẮT

Artifactial Neural Network ANN Mạng nơron nhân tạo

Fast Fourier Transform FFT Biến đổi Fourier nhanh

Dicrette Cosine Transform DCT Biến đổi cosin rời rạc

Hidden Markov Model HMM Mô hình Markov ẩn

Linear predictive code LPC Hế số dự đoán tuyến tính

Graphical User Interface GUI Giao diện người sử dụng

Trang 17

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của nhữngngười nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác địnhnhững thông tin biến thiên nào của tiếng nói là có ích và

Chương 1.Tổng quan 1

HVTH: NGUYỄN THÀNH CHUNG

Trang 18

Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kêmạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiênquan trọng cần thiết trong nhận dạng tiếng nói Các nghiên cứu về nhận dạng tiếng nóidựa trên ba nguyên tắc cơ bản:

 Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khungthời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểmtiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhậndạng tiếng nói

 Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các kýhiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát

âm thành dãy các ký hiệu ngữ âm

 Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa(semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất

là khi thông tin về âm học là không rõ ràng.[1]

1.1.2 Tổng quan tình hình nghiên cứu

Tiếng nói là phương tiện giao tiếp cơ bản nhất của loài người, nó hình thành và pháttriển song song với quá trình tiến hóa của loài người Đối với con người, sử dụng lời nói

là một cách diễn đạt đơn giản và hiệu quả nhất Ưu điểm của việc giao tiếp bằng tiếng nóitrước tiên là ở tốc độ giao tiếp, tiếng nói từ người nói được người nghe hiểu ngay lậptức sau khi được phát ra Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy mócdần dần thay thế các lao động tay chân Tuy nhiên để điều khiển máy móc, con ngườiphải làm khá nhiều thao tác tốn nhiều thời gian và cần phải được đào tạo Điều này gâytrở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật Trongkhi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn Nhu cầu điềukhiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay,như: điện thoại di động, máy Palm/Pocket PC,… Để máy tính có thể nghe được tiếngnói, âm thanh con người đã xây dựng lĩnh vực nhận dạng tiếng nói Hơn nửa thế kỷ trôiqua con người đã thu được những thành tựu đáng kể, và có những ứng dụng hữu ích thiếtthực vào trong cuộc sống Nhưng dù sao khả năng nghe hiểu của máy tính vẫn còn nhiềuhạn chế và khoảng cách khác xa so với thực tế Mặt

Chương 1.Tổng quan 2

HVTH: NGUYỄN THÀNH CHUNG

Trang 19

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

khác, nhận dạng tiếng nói chỉ đang được phát triển trên các thứ tiếng khác, còn đốivới nước ta nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ

1.1.2.1 Ngoài nước

Hiện nay, trên thế giới có rất nhiều hệ thống nhận dạng tiếng nói đã và đang

(Central of Spoken Laguage Understanding) trong tiếng Anh, mô hình Fujisaki đượctrong hệ thống của tiếng Nhật, mô hình MFGI (Mixdorff – Fujisaki model of GermanIntonation) trong tiếng Đức,…

Sự phát triển vượt bậc của công nghệ vi xử lý và công nghệ xử lý tiếng nói trongnhững năm gần đây đã mở ra rất nhiều những ứng dụng khác nhau mà đáng kể nhất làcác hệ thống giao tiếp, hỏi đáp thông tin qua mạng điện thoại Có thể kể tên một sốứng dụng như:

 Quay số bằng giọng nói

 Truy cập thông tin bằng giọng nói qua đường điện thoại

 Hệ thống hỗ trợ y tế qua điện thoại

 Ứng dụng truy vấn thông tin trong ngân hàng

 Ứng dụng chuẩn đoán, điều trị bệnh từ xa

Theo thống kê và dự báo về thị trường công nghệ thông tin và truyển thông năm

2009, chi tiêu cho nghiên cứu, phần cứng, phần mềm liên quan đến công nghệ xử lýtiếng nói trong năm 2008 trên toàn thế giới đã vượt con số 5 tỷ đô-la Mỹ

Công nghệ xử lý tiếng nói đã thay đổi cách con người tương tác với hệ thống,không còn bó buộc trong cách thức tương tác truyền thống (như bấm phím trên điệnthoại) mà chuyển sang tương tác trực tiếp bằng giọng nói Trong môi trường kinh tếcạnh tranh, các ứng dụng dần dần đã chuyển sang tích hợp tính năng tương tác âmthanh Việc ứng dụng và khách hàng có thể tương tác với nhau thông qua âm thanhkhông có nghĩa là loại bỏ giao diện đồ họa truyền thống mà nó cung cấp thêm mộtcách truy cập thông tin và dịch vụ tiện lợi, tự nhiên hơn

Một số ứng dụng thương mại đòi hỏi sự giao tiếp giữa khách hàng và hệ thốngvới số lượng lớn, có tích hợp tính năng tương tác âm thanh Từ đó, các hệ thống giaotiếp, hỏi đáp thông tin tự động ra đời Thông thường, các hệ thống này hướng dẫn

Chương 1.Tổng quan 3

HVTH: NGUYỄN THÀNH CHUNG

Trang 20

qua các tập tin âm thanh ghi âm trước hoặc qua bộ tổng hợp tiếng nói nếu nội dungkhông cố định Khách hàng dùng lời nói cung cấp thông tin cho hệ thống, hệ thống

xử lý thông tin, truy xuất cơ sở dữ liệu rồi gửi phản hồi thông tin dưới dạng âm thanhtới khách hàng

1.1.2.2 Trong nước

Trong nhiều năm qua, một số các hãng công nghệ lớn trên thế giới đã đầu tưnghiên cứu về lĩnh vực này song kết quả thu được còn khá khiêm tốn, chỉ có một số ítcông ty có chíp nhận dạng tiếng nói tiếng Anh như Công ty Sony, Motorola nhưngvẫn bị giới hạn về số từ vựng và ứng dụng Ở Việt Nam, vấn đề nghiên cứu thiết kếcấu trúc vi mạch nhận dạng tiếng Việt vẫn còn bỏ ngỏ, mặc dù đây là hai hướng côngnghệ cao được ưu tiên phát triển

Phạm vi ứng dụng hệ thống nhận dạng tiếng nói tiếng Việt trong nước đã được

sử dụng ở các công ty, tập đoàn viễn thông lớn như: Mobifone, Vinaphone, Viettel…nhưng còn rất ít và có nhiều hạn chế, tuy nhiên cũng đã có một số mô hình nhận dạngtiếng nói đã được xây dựng như:

 Tổng hợp và nhận dạng tiếng Việt của GS.TSKH Bạch HưngKhang[9]:Nghiên cứu cơ sở lý thuyết của các hệ thống nhận dạng tiếng nói và đặc trưngtiếng Việt

 KỹThuật nhận dạng tiếng nói và ứng dụng trong điều khiển của TS NguyễnVăn Giáp và KS Trần Hồng Việt[10]: Đề tài này thử nghiệm hệ thống nhận dạng tiếngnói tiếng Việt trên máy tính bằng phương pháp MFCC và nhận dạng bằng mô hìnhMarkov ẩn HMM, ứng dụng trong điều khiển khiển xe với bộ từ vựng gồm 4 từ: “trái,phải, tiến, lùi” với kết quả chính xác đạt được trên

90%

 Nhận dạng tiếng Việt dùng mạng neuron kết hợp trích đặc trưng dùng LPC vàAMDF của TS Hoàng Đình Chiến[11]:đề tài xây dựng mô hình nhận dạng tiếng nóitiếng Việt với bộ từ vựng “lên, xuống, trái, phải, tới, lùi, xoay,

dừng”, cho kết quả chính xác nhận dạng trung bình là 99,4%

Đề tài “Thiết kế chíp nhận dạng tiếng nói Việt Nam trên nền công nghệ FPGA” củanhóm nghiên cứu trường đại học Bách khoa thành phố Hồ Chí Minh do TS Hoàng Trangvào năm 2012 làm trưởng nhóm đã góp phần “cứng hóa” thành công các giải

Chương 1.Tổng quan 4

HVTH: NGUYỄN THÀNH CHUNG

Trang 21

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

thuật phức tạp trong nhận dạng tiếng Việt Trên phần cứng, có ba vấn đề rất quan trọngcần quan tâm, bao gồm: độ chính xác nhận dạng, tài nguyên phần cứng và tốc độ tínhtoán Ba yếu tố này thường được cân nhắc chọn lựa kỹ bởi khó có thể đạt được tối ưutrên cùng lúc cả ba yếu tố trên

Vấn đề nhận dạng tiếng nói tiếng Việt đã có nhiều công trình nghiên cứu nhưngchưa được triển khai thực hiện tốt trên phần cứng là do ba yếu tố trên Bên cạnh đó,nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA có ưu điểm là tính toánnhanh nhưng nền công nghệ này chưa được ứng dụng nhiều trên các thiết bị di độngngày nay như: điện thoại di động, máy tính bảng, robot dịch vụ, Smart TV…

Nhiệm vụ chính của luận văn là xây dựng mô hình nhận dạng tiếng nói tiếng Việt

sử dụng thuật toán trích chọn đặc trưng MFCC, lượng tử vector VQ và mô hìnhMarkov ẩn HMM, nhận dạng tiếng nói thông qua thiết kế phần mềm giao diện trênmáy tính và điều khiển mô hình hệ thống thông qua Board Arduino Mega 2560

1.2.1 Mục tiêu

Đề tài có những mục tiêu chính như sau :

 Nghiên cứu hệ thống nhận dạng tiếng nói bằng tiếng Việt

 Nghiên cứu thuật toán trích đặc trưng MFCC ứng dụng vào trích đặc trưng tiếng nói tiếng Việt

 Nghiên cứu phương pháp lượng tử vector để ứng dụng vào mô hình nhận dạng tiếng nói tiếng Việt

 Nghiên cứu mô hình Markov ẩn HMM ứng dụng vào huấn luyện và nhận dạng tiếng nói tiếng Việt

 Thiết kế và thi công robot mặt người thể hiện cảm xúc

 Thiết kế giao diện phần mềm nhận dạng và phần cứng điều khiển robor mặt người thể hiện cảm xúc

1.2.2 Đối tượng nghiên cứu

 Lý thuyết nhận dạng tiếng nói

Trang 22

1.3 Nhiệm vụ và giới hạn của đề tài

1.3.1 Nhiệm vụ

 Nghiên cứu đặc trưng tiếng Việt

 Nghiên cứu công nghệ phân loại tiếng nói – tiếng Việt

 Nghiên cứu các phương pháp xử lý, lọc tín hiệu liên tục, rời rạc; các phươngpháp rút trích đặt trưng (MFCC), phân loại, nhận dạng tín hiệu tiếng nói (Hidden MarkoModels )

 Chọn lựa hàm mô hình Markov ẩn để thiết kế giao diện nhận dạng các tập lệnh của đối tượng điều khiển - Robot thể hiện cảm xúc

 Tìm hiểu các phần mềm lập trình Keil C for ARM, Matlab…

 Viết code mô phỏng trên máy tính, code thực thi điều khiển cho Board

 Vì thời gian có hạn như đã nêu trên nên phần thiết kế và thi công mô hìnhthực nghiệm chỉ dừng lại ở dạng là một robot đơn giản, do đó việc ra lệnh phức tạp đểrobot thực hiện nhiệm vụ phức tạp bị hạn chế

 Trong điều kiện bình thường, kết quả nhận dạng chưa đạt được 100%

Người thực hiện đề tài đã sử dụng các phương pháp sau đây:

 Phương pháp nghiên cứu tài liệu: các tài liệu liên quan đến nhận dạng tiếngnói, phương pháp trích đặc trưng MFCC, lượng tử vector VQ, mô hình Markov ẩnHMM, đặc điểm tiếng Việt Các tài liệu liên quan về lập trình C/C++ và Matlab

Chương 1.Tổng quan 6

HVTH: NGUYỄN THÀNH CHUNG

Trang 23

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

 Phương pháp phân tích: phân tích đặc điểm tiếng Việt, phương pháp tríchchọn đặc trưng MFCC, phương pháp lượng tử vector VQ, mô hình Markov ẩn HMMtrong nhận dạng tiếng Việt

 Phương pháp chuyên gia: tham khảo ý kiến của chuyên gia về trích chọn đặctrưng MFCC, lượng tử vector VQ, mô hình Markov ẩn HMM trong nhận dạng tiếng nóitiếng Việt, và khả năng ứng dụng vào thực tế

 Phương pháp thực nghiệm: thực nghiệm việc nhận dạng tiếng nói tiếng Việt

trên máy tính và xuất ra board điều khiển Robot mặt người thể hiện cảm xúc

1.5 Nội dung luận văn

Nội dung đề tài gồm các phần sau:

Chương 1: Tổng quan

 Tổng quan chung về lĩnh vực nghiên cứu

 Mục tiêu và đối tượng nghiên cứu

 Nhiệm vụ và giới hạn của đề tài

 Phương pháp nghiên cứu

Chương 2: Đặc trưng tiếng nói tiếng Việt

 Phân tích tổng quan về tiếng nói

 Các đặc trưng cơ bản của tiếng Việt

Chương 3:Mô hình nhận dạng tiếng nói tiếng Việt

 Phân loại các hệ thống nhận dạng tiếng nói

 Các yếu tố ảnh hưởng đến kết quả nhận dạng tiếng nói

 Cấu trúc của hệ nhận dạng tiếng nói

 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt

 Phân tích phương pháp trích đặc trưng MFCC

 Phân tích phương pháp lượng tử vector VQ

Chương 4:Mô hình Markov ẩn HMM

 Cơ sở lý thuyết về mô hình Markov ẩn HMM

 Ứng dụng mô hình Marko ẩn HMM vào nhận dạng tiếng nói tiếng Việt

Chương 5: Thiết kế phần cứng và mạch điều khiển Robot

 Tổng quan về phần cứng của hệ thống và cách lựa chọn thiết bị

 Giới thiệu Board Arduino Mega 2560 và các tính năng trong việc điều khiển

Chương 1.Tổng quan 7

HVTH: NGUYỄN THÀNH CHUNG

Trang 24

Chương 6: Thiết kế hệ thống nhận dạng và phần mềm giao diện nhận dạng

 Xây dựng thuật toán tiền xử lý tiếng nói tiếng Việt

 Xây dựng thuật toán trích chọn đặc trưng tiếng nói tiếng việt MFCC

 Xây dựng thuật toán lượng tử vector VQ

 Xây dựng thuật toán mô hình Markov ẩn

 Xây dựng thuật toán huấn luyện và nhận dạng tiếng nói tiếng Việt

1.6 Ý nghĩa thực tiễn của đề tài

 Đề tài thuộc nhóm nghiên cứu lý thuyết và ứng dụng triển khai Sản phẩm đềtài có tính mở, có thể áp dụng cho nhiều nhóm đối tượng khác nhau trong công nghiệpcũng như dân dụng

 Đề tài nghiên cứu có thể được sử dụng làm tài liệu nghiên cứu và giảng dạycho sinh viên đại học và cao học trong đào tạo các chuyên ngành Điện – Điện tử, Điện tửviễn thông,…

 Ứng dụng mô hình nhận dạng tiếng nói tiếng Việt trong các hệ thống nhận dạng, điều khiển thiết bị, robot,…bằng tiếng nói tiếng Việt

Chương 1.Tổng quan 8

HVTH: NGUYỄN THÀNH CHUNG

Trang 25

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Chương 2:

ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT

Tín hiệu tiếng nói được xem là tín hiệu ngẫu nhiên vì chúng ta không thể xác

định chính xác biên độ và tần số của tín hiệu tiếng nói được nói Tuy nhiên, mỗi từ

của tiếng nói lại chứa những thành phần đặc trưng riêng đặc trưng cho từ đó, vì vậy

việc tách đặc trưng tiếng nói là quá trình quan trọng trong hệ thống nhận dạng tiếng

nói Các hệ thống nhận dạng sẽ phân biệt các từ khác nhau trong tiếng nói dựa trên

đặc trưng riêng của mỗi từ Quá trình trích đặc trưng tiếng nói là quá trình cô đọng

tín hiệu tiếng nói của mỗi từ thành các thông số đặc tính đặc trưng cho từ đó, nhằm

giảm nhẹ công việc nhận dạng và tăng độ chính xác cho hệ thống nhận dạng

2.1 TỔNG QUAN VỀ TIẾNG NÓI:

Tiếng nói là một loại sóng âm Khi chúng ta nói, tiếng nói được truyền đi

mang theo thông tin dưới dạng các dao động truyền đến tai người nghe Mức độ

truyền tin của tiếng nói được xem là nhanh nhất trong các khả năng tự nhiên của

con người

Tín hiệu tiếng nói chứa các thông tin có tần số tập trung trong khoảng từ 4kHz

trở xuống Đây cũng chính là khoảng tần số chứa năng lượng chủ yếu của tín hiệu

tiếng nói

Trong khoảng thời gian dài, tín hiệu tiếng nói là tín hiệu không dừng, nhưng

trong khoảng thời gian đủ ngắn tín hiệu tiếng nói được xem như tín hiệu dừng

Đối với quá trình nhận dạng tiếng nói, thì ngoài việc nhận ra các đặc trưng của

tiếng nói thì quá trình học thích nghi với các thay đổi của đặc trưng tiếng nói cũng

rất quan trọng

2.2 Các đặc trưng cơ bản của Tiếng Việt:

2.2.1 Âm tiết:

Tiếng việt có những đặc trưng khác biệt so với các ngôn ngữ khác trong cách

phát âm cũng như ghép các âm thành từ có nghĩa Đơn vị nhỏ nhất của tiếng Việt là

âm tiết (tiếng), âm tiết có những đặc điểm như sau:

Chương 2 Đặc trưng tiếng nói Tiếng

9

HVTH: NGUYỄN THÀNH CHUNG Việt

Trang 26

 Tính độc lập: tức là mỗi âm tiết là một thành phần nhỏ, chúng rõ ràng và

tách biệt với nhau, mỗi từ đại diện cho một âm tiết duy nhất

 Không có hiện tượng nối âm: trong tiếng Việt, dù người nói, nói nhanh haynói chậm thì mỗi từ phát ra đều riêng lẻ, không có sự nối âm hay nuốt âm như trong tiếngAnh Điều này làm cho ranh giới giữa các âm tiết rõ ràng với nhau, không có sự chồng lấpgiữa các từ

 Tiếng việt có hai loại từ là từ đơn và từ ghép Từ đơn là từ được tạo từ một

âm tiết, từ ghép là từ được tạo từ nhiều từ đơn Trong đa số các trường hợp mỗi từ đơnđều mang ý nghĩa đầy đủ, việc ghép các từ đơn có nghĩa thành một từ ghép có nghĩa kháclàm cho vấn đề nhận dạng từ ghép trở nên khó

khăn hơn

Khi phát âm một âm tiết, các cơ thịt của bộ máy phát âm đều trải qua ba giai

đoạn: tăng cường độ căng, đỉnh điểm căng thẳng và giảm độ căng

Dựa vào cách kết thúc, các âm tiết tiếng Việt được chia thành hai loại lớn là

âm tiết mở và âm tiết khép Trong mỗi loại lại có hai loại nhỏ hơn, như vậy có bốn

loại âm tiết trong tiếng Việt như sau:

 Âm tiết nửa khép: là những âm tiết được kết thúc bằng một phụ âm vang

như: m, ng, nh,…

 Âm tiết khép: là những âm tiết được kết thúc bằng một phụ âm không vang

như: p, t, k,…

 Âm tiết nửa mở: là những âm tiết kết thúc bằng một bán nguyên âm như:

tay, cay, cau,…

 Âm tiết mở: là những âm tiết được kết thúc bằng cách giữ nguyên âm sắc

của nguyên âm ở đỉnh âm tiết như: ta, ma, to,…

Âm tiết tiếng Việt có một cấu trúc chặt chẽ, nó không chỉ là một đơn vị ngôn

ngữ đơn thuần mà còn là một đơn vị từ vựng và ngữ pháp chủ yếu Mô hình cấu trúc

tổng quát của một âm tiết tiếng Việt được thể hiện trong bảng 2.1

Chương 2 Đặc trưng tiếng nói Tiếng

10

HVTH: NGUYỄN THÀNH CHUNG Việt

Trang 27

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Bảng 2 1:Cấu trúc tổng quát của một âm tiết tiếng Việt

Thanh điệu

Âm đệm Âm chính Âm cuối

2.2.2 Âm vị:

Một tiếng nói gồm một chuỗi các âm cơ bản gọi là âm vị Xét về mặc ngữ âm,

âm vị là đơn vị nhỏ nhất của tiếng nói, là một đơn vị trừu tượng mà chúng ta không

thể quan sát trực tiếp trong tín hiệu tiếng nói Mỗi âm vị có hai chức năng:

 Cấu tạo nên vỏ âm thanh của các đơn vị có nghĩa

 Phân biệt vỏ âm thanh của các đơn vị có nghĩa

Ví dụ về từ “tôi” có ba âm vị là “t”, “ô” và “i”

2.2.3 Nguyên âm và phụ âm:

Nguyên âm là một âm thanh trong ngôn ngữ nói, được phát âm với thanh quản

mở, do đó không có sự tích lũy áp suất không khí trên bất cứ điểm nào của thanh

môn, của bộ phận cấu âm, vì vậy nguyên âm không có điểm cấu âm

Ngoài các nguyên âm đơn, trong tiếng Việt còn có các nguyên âm đôi, hay còn

gọi là nhị âm Trong tiếng việt có 16 âm vị là nguyên âm, trong đó có 13 nguyên âm

đơn và 3 nguyên âm đôi

Phụ âm được tạo ra do luồng hơi bị chặn ở một điểm nào đó trong bộ phận cấu

âm khi phát âm, vì vậy phụ âm có tiêu điểm cấu âm Khi phát phụ âm thì độ căng

thường tập trung ở tiêu điểm cấu âm Phụ âm được chia làm các loại cơ bản sau:

 Phụ âm bật hơi: âm được phát ra từ sự phá vỡ các cản trở và cọ xát

giữa hai mép dây thanh Ví dụ phụ âm bật hơi như: “th”, “t”, “tr”,…

 Phụ âm mũi: âm được phát ra từ luồng không khí được tạo ra và thoát

ra ngoài nhẹ nhàng qua khoang mũi Khi qua khoang mũi, âm này chịu cộng hưởng củakhoang mũi Phụ âm này còn được gọi là âm vang Ví dụ về phụ âm mũi như: “m”, “n”,

“nh”,…

Chương 2 Đặc trưng tiếng nói Tiếng 11

HVTH: NGUYỄN THÀNH CHUNG Việt

Trang 28

 Phụ âm xát: không khí đi ra bị cản trở không hoàn toàn, phải lách ramột khe hở nhỏ giữa hai cơ quan cấu âm, gây nên tiếng cọ xát nhẹ Ví dụ về phụ âm xácnhư: “v”, “g”,…

2.2.4 Thanh điệu:

Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ngữ tiếng nói

có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, Pháp,… Thanh

điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phânbiệt các từ đồng âm

Người ta phân biệt thanh điệu dựa vào hai yêu tố là âm điệu và âm vực Âm

điệu là sự thay đổi tần số cơ bản của thanh điệu hay đường nét của thanh điệu, còn

âm vực là miền giá trị của tần số cơ bản

Trong tiếng Việt tổng cộng có 6 thanh điệu như sau:

 Thanh ngang: âm phát ra bằng phẳng và không có lên hay xuống từ đầu đến

 Thanh nặng: âm phát ra bắt đầu thấp và từ từ xuống thấp hơn nữa rồi cuối

cùng kết thúc bằng một nét tắt giọng

Chương 2 Đặc trưng tiếng nói Tiếng 12

HVTH: NGUYỄN THÀNH CHUNG Việt

Trang 29

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Chương 3:

MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT

3.1 Phân loại các hệ thống nhận dạng tiếng nói:

3.1.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt:

Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và

nhận dạng từ cách biệt Nhận dạng liên tục tức là nhận dạng tiếng nói được phát

liên tục trong một chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc

một đoạn văn được đọc bởi người dùng Các hệ thống loại này rất phức tạp, chúng

phức tạp ở chỗ các từ được phát liên tục gây khó khăn trong việc xử lý kịp nếu cần

thời gian thực, hoặc khó tách ra nếu như người nói liên tục không có khoảng nghỉ

Kết quả tách từ ảnh hưởng rất lớn đến các bước sau, cần phải xử lý thật tốt trong

quá trình tách từ

Trái lại, với mô mình nhận dạng từ riêng lẻ, mỗi từ cần nhận dạng được phát

âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ Mô hình

này dĩ nhiên đơn giản hơn mô hình nhận dạng liên tục, đồng thời cũng có những

ứng dụng thực tiễn, như trong các hệ thống điều khiển bằng giọng nói, quay số

bằng giọng nói,…với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi so với

mô hình nhận dạng liên tục

3.1.2 Nhận dạng phụ thuộc người nói và độc lập người nói:

Đối với nhận dạng phụ thuộc người nói thì mỗi một mô hình nhận dạng chỉ

phục vụ được cho một người, và mô hình sẽ không hiểu người khác nói gì nếu như

chưa được huấn luyện lại từ đầu Do đó, hệ thống nhận dạng người nói khó được

chấp nhận rộng rãi vì không phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn

để huấn luyện hệ thống Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi

công cộng

Ngược lại, hệ thống nhận dạng độc lập người nói thì lý tưởng hơn, ứng dụng

rộng rãi hơn, đáp ứng được hầu hết các yêu cầu đề ra Nhưng khó khăn là hệ thống

lý tưởng như vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống

Chương 3 Mô hình nhận dạng tiếng

13

HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt

Trang 30

Trong thực tế, mỗi người có một giọng nói khác nhau, thậm chí ngay cùng

một người cũng có giọng nói khác nhau ở những thời điểm khác nhau Điều này

ảnh hưởng rất lớn đến việc nhận dạng, nó làm giảm độ chính xác của hệ thống nhận

dạng xuống nhiều lần Do đó để khắc phục khuyết điểm này, hệ thống nhận dạng

độc lập người nói cần được thiết kế phức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện

lớn hơn nhiều lần Nhưng điều này cũng không cải thiện được bao nhiêu chất

lượng nhận dạng Do đó, trong thực tế có một cách giải quyết là bán độc lập người

nói Phương pháp này thực hiện bằng cách thu mẫu một số lượng lớn các giọng nói

khác biệt nhau Khi sử dụng, hệ thống sẽ được điều chỉnh cho phù hợp với giọng

của người dùng, bằng cách nó học thêm một vài câu có chứa các từ cần thiết

Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc

người nói Cùng một từ, một người, dù có cố gắng phát âm cho thật giống đi nữa

thì cũng có sự khác biệt Đối với bộ não con người, một hệ thống hoàn hảo, thì sự

khác biệt đó có thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của

não Nhưng đối với máy tính thì rất khó xây dựng được một mô hình giải quyết cho

tất cả các trường hợp khác biệt đó

Hình 3 1: Người nói khác nhau sẽ phát âm khác nhau

Chương 3 Mô hình nhận dạng tiếng

14

HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt

Trang 31

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Việc nhập dữ liệu tiếng nói thực hiện dễ dàng hơn các loại dữ liệu khác do tính

đơn giản, nhanh, làm được trong khi vẫn làm được việc khác,…Tuy nhiên, do tính

phức tạp của dữ liệu tiếng nói, nên việc nhận dạng tiếng nói mang độ phức tạp cao

hơn so với các hệ thống nhận dạng khác Vì vậy, hệ thống nhận dạng tiếng nói có

rất nhiều yếu tố ảnh hưởng đến kết quả của quá trình nhận dạng như:

 Số lượng người dùng: số lượng người dùng càng lớn thì hệ thống nhậndạng phải được thiết kế sao cho có thể nhận dạng được nhiều người khác nhau, do đó độchính xác nhận dạng càng cao khi hệ thống được thiết kế cho số lượng người sử dụngcàng ít

 Kích thước của bộ từ vựng: kích thước của bộ từ vựng càng lớn thì hệ thốngnhận dạng cần phân biệt rõ giữa các từ trong bộ từ vựng với nhau, do đó với kích thướccủa bộ từ vựng càng nhỏ thì độ chính xác của hệ thống nhận dạng càng lớn

 Tiếng nói được thu âm một cách rời rạc trong những khoảng thời gian đủlớn thì độ chính xác của hệ thống nhận dạng cao hơn tiếng nói được thu một cách liên tục.Như vậy, việc nhận dạng các từ đơn thường chính xác hơn so với việc nhận dạng một câunói liên tục

 Hệ thống nhận dạng trong môi trường nhiễu, nhiều tạp âm sẽ làm giảm độ

chính xác hơn so với trong môi trường yên tĩnh, ít tạp âm

Chương 3 Mô hình nhận dạng tiếng

15

HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt

Trang 32

 Thiết bị thu âm đầu vào cũng ảnh hưởng đến kết quả của hệ thống nhận dạng,với những thiết bị thu âm kém chất lượng có thể làm mất mát thông tin, sai lệch thông tin,

… làm cho hệ thống nhận dạng sẽ khó nhận dạng chính xác hơn

3.3 Cấu trúc hệ nhận dạng tiếng nói:

Hình 3.3trình bày cấu trúc nguyên lý của một hệ nhận dạng tiếng nói Tín hiệu

tiếng nói trước hết được xử lý bằng cách áp dụng quá trình trích chọn đặc trưng và

quá trình tiền xử lý Kết quả thu được sau quá trình trích chọn đặc trưng là tập các

đặc trưng âm học được tạo dựng thành một vector

So sánh tương đồng

Giải mã

Đầu ra

Hình 3 3:Cấu trúc tổngquát của một hệ thống nhận dạng tiếng nói

Việc so sánh trước hết thực hiện bằng việc huấn luyện xây dựng các đặc

trưng, sau đó sử dụng để so sánh với các tham số đầu vào để thực hiện việc nhận

dạng Trong quá trình huấn luyện hệ thống các vector đặc trưng được đưa vào hệ

thống để ước lượng các tham số của mẫu tham khảo Một mẫu tham khảo có thể

mô phỏng một từ, một âm đơn hoặc một đơn vị tiếng nói nào đó Tùy thuộc vào

nhiệm vụ của hệ thống nhận dạng, quá trình huấn luyện hệ thống sẽ bao gồm một

quá trình xử lý ít phức tạp hoặc nhiều phức tạp

Việc trích chọn các đặc trưng tiêu biểu và xây dựng một mô hình tham khảo là

một quá trình tốn thời gian và là một công việc phức tạp

Trong quá trình nhận dạng, dãy các vector đặc trưng được đem so sánh với các

mẫu tham khảo Sau đó, hệ thống tính toán độ tương đồng của dãy các vector đặc

trưng và mẫu thảm khảo hoặc chuỗi các mẫu tham khảo Việc tính toán độ giống

Chương 3 Mô hình nhận dạng tiếng

16

HVTH: NGUYỄN THÀNH CHUNG

Trang 33

nói Tiếng Việt

Trang 34

nhau thường được tính toán bằng cách áp dụng các thuật toán hiệu quả Mẫu hoặc

dãy mẫu có độ tương đồng cao nhất được cho là kết quả của quá trình nhận dạng

Hiện nay, có nhiều phương pháp trích chọn đặc trưng tiếng nói như: trích đặc

trưng LPC, trích đặc trưng MFCC, Trong luận văn sử dụng phương pháp trích

đặc trưng MFCC để trích đặc trưng tiếng Việt cho mô hình nhận dạng

3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn:

Để xây dựng mô hình nhận dạng tiếng nói tiếng nói tiếng Việt có rất nhiều

công cụ khác nhau Một trong những công cụ được ứng dụng cho việc xây dựng mô

hình nhận dạng tiếng nói tiếng Việt là mô hình Markov ẩn HMM

Bắt đầu

Tín hiệu thu từ thiết bị thu âm

Tiền xử lý Trích đặc trưng MFCC

Hình 3 4:Lưu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn Tín

hiệu tiếng nói sau khi được trích đặc trưng MFCC, thì chuỗi các vector đặc

trưng của tiếng nói được lượng tử hóa để giảm bớt số lượng các quan sát cho chuỗi

vector đặc trưng trước khi được sử dụng để huấn luyện mô hình nhận dạng dùng

Chương 3 Mô hình nhận dạng tiếng 17 HVTH: NGUYỄN THÀNH CHUNG

Trang 35

nói Tiếng Việt

Trang 36

Markov ẩn, hoặc làm thông số đầu vào của mô hình Markov ẩn để phân tích và trả

kết quả nhận dạng

3.5 Voice Acivation Detection (VAD):

Tín hiệu tiếng nói sau khi thu âm qua microphone sẽ thu được một số lượng

mẫu nhất định

Trong đề tài chọn tần số lấy mẫu tín hiệu là 8kHz, mỗi lần thu âm khoảng 2

giây Tuy nhiên, với tần số lấy mẫu là 8kHz thì ta có 8000 mẫu/1 lần đọc thu được

thì không phải toàn bộ đều là âm thanh có ý nghĩa, phần nhiều trong số này là các

khoảng lặng (silences) Do vậy, trước khi mẫu âm thanh được đưa vào trích đặc

trưng thì cần có chương trình để tách lấy đoạn âm thanh có ý nghĩa, đồng thời loại

bỏ các khoảng lặng Do đó, VAD sẽ được sử dụng để xén các khoảng lặng ở trước

và sau của một lần phát âm

Hình 3 5:Đoạn mẫu âm thanh trước khi VAD

Hình 3 6:Đoạn mẫu âm thanh sau khi VAD

Tín hiệu âm thanh được chia thành M đoạn, mỗi đoạn có L mẫu Trong đề tài

này chọn K = 160 mẫu với Fs = 8kHz, nghĩa là 20ms cho mỗi đoạn

Sau đó hàm năng lượng Es sẽ được tính cho mỗi đoạn bởi công thức (3.1):

Chương 3 Mô hình nhận dạng tiếng

18

HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt

Trang 37

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Es ( m)  nK

 *(

VAD sẽ loại bỏ những đoạn m có E s (m)<ngưỡng TH, với TH = 0.0001 Việc

chọn TH là do thực nghiệm kiểm tra, làm đi làm lại nhiều lần mới có thể chọn ra

được giá trị phù hợp giúp cho việc xén tín hiệu chính xác tránh làm mất mát thông

tin có ích hoặc dư thừa nhiều thông tin vô ích

3.6 Phương pháp trích đặc trưng tiếng nói MFCC:

Phần này mô tả phương pháp phân tích thông tin tín hiệu tiếng nói để tạo ra

các vector đặc trưng Ở đây, trong khâu trích đặc trưng chọn phương phápMFCC

(trích đặc trưng theo thang tần số Mel) dotốc độ tính toán cao, độ tin cậy lớn và đã

được sửdụng rất hiệu quả trong các chương trình nhận dạngtiếng nói trên thế giới

Sơ đồ giải thuật phương pháp phân tích thông tin tiếng nói như sau:

Hình 3.7:Sơ đồ giải thuật phương pháp phân tích thông tin tiếng nói

Tín hiệu tiếng nói x(n) sau khi phân tích thông tin sẽ thu được đặc trưng dạng

các vector f x (n;m) Bộ vector f x (n;m)có M vector (m = 0, 1, …, M – 1) và mỗi vector

Tín hiệu tiếng nói bị ảnh hưởng bởi môi trường xung quanh Ví dụ tín hiệu

x(n) thu được bởi các thành phần: x(n) = s(n) + d(n), trong đó s(n) là tín hiệu thuần

Chương 3 Mô hình nhận dạng tiếng

19

HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt

Trang 38

tiếng nói và d(n) là nhiễu Có nhiều phương pháp lọc nhiễu, tuy nhiên có hai giải

thuật chính để thực hiện đó là trừ phổ và lọc nhiễu thích nghi Ở đây thực hiện giải

thuật giảm nhiễu trừ phổ và được thực hiện gắn liền với bước tách tiếng nói khỏi

tăng cường tín hiệu tại tần số cao (trên 1KHz) với hai lý dochính:

 Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao dođặc điểmsinh lý của hệ thống phát âm của con người Bước xử lý nàysẽ tăng cường tín hiệu lênmột giá trị gần 20dB/decade để khắc phục sựsuy giảm này,

 Hệ thống thính giác của con người nhạy cảm hơn với vùng tần số cao,bước

xử lý này nhấn mạnh vùng tần số cao, trợ giúp cho quá trình môhình hoá âm thanh sau nàycủa hệ thống nhận dạng

Trong miền thời gian, bộ lọc có dạng:

Tách tiếng nói khỏi nền nhiễu (voice activation detection) Nhiệm vụ của khối

này là xử lý tín hiệu từ micro, dùng kỹ thuật xử lý đầu và cuối để phát hiện tín hiệu

tiếng nói và phần tín hiệu nhiễu Từ đó ta có thể tách tiếng nói ra khỏi nền nhiễu

(chỉ thu tín hiệu tiếng nói mà không thu tín hiệu nhiễu nền) [5]

Vấn đề tách tiếng nói khỏi khoảng im lặng cũng có nhiều cách thực hiện như:

ước tính năng lượng trong khoảng thời gian ngắn, hoặc ước tính công suất trong

khoảng thời gian ngắn, và dò điểm 0 Nhưng qua quá trình nghiên cứu và thử

nghiệm tác giả nhận thấy rằng sự kết hợp giữa phương pháp ước tính công suất

trong khoảng thời gian ngắn và tỉ lệ qua điểm zero cho kết quả tốt hơn

Chương 3 Mô hình nhận dạng tiếng

20

HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt

Trang 39

Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ

Phương pháp này dựa vào tính chất năng lượng của tín hiệu tiếng nói thường

lớn hơn năng lượng của tín hiệu nhiễu và tỉ lệ qua điểm zero của nhiễu sẽ lớn hơn

tín hiệu tiếng nói Hình 3.9 cho thấy mối quan hệ giữa tín hiệu thu được, giá trị của

hàm năng lượng thời gian ngắn và tỉ lệ qua điểm zero

Hình 3.9:Phân tích khoảng lặng của tiếng nói

Với một cửa sổ kết thúc tại mẫu thứ m, hàm năng lượng thời gian ngắn

Tỷ lệ qua điểm zero (zero crossing rate) là một thông số cho biết số lần mà

biên độ tín hiệu đi qua điểm zero trong một khoảng thời gian cho trước được xác

Mỗi khung có L mẫu Chú ý rằng chỉ sổ trong các hàm này là m, vì việc tính

toán không phải thực hiện tại mỗi mẫu (chỉ tính sau mỗi khung mẫu)

Chương 3 Mô hình nhận dạng tiếng

21

HVTH: NGUYỄN THÀNH CHUNG

Ngày đăng: 28/12/2021, 20:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w