Nhận dạng tiếng Việt và ứng dụng đểlàm lệnh điều khiển vẫn còn là một lĩnh vực khá mới mẻ Vì những lí do trên, tôi chọn đề tài “Nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp”
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM
KỸ THUẬT THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG
KỸ THUẬT NHẬN DẠNG TIẾNG NÓI THÀNH LỆNH
ỨNG DỤNG TRONG CÔNG NGHIỆP
NGÀNH: KỸ THUẬT ĐIỆN TỬ - 605270
SKC004340
Tp Hồ Chí Minh, tháng 10/2014
Trang 2THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG
KỸ THUẬT NHẬN DẠNG TIẾNG NÓI THÀNH LỆNH
ỨNG DỤNG TRONG CÔNG NGHIỆP
NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270
Tp Hồ Chí Minh, tháng 10/2014
Trang 3BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH
LUẬN VĂN THẠC SĨ NGUYỄN THÀNH CHUNG
KỸ THUẬT NHẬN DẠNG TIẾNG NÓI THÀNH LỆNH ỨNG DỤNG TRONG CÔNG NGHIỆP
NGÀNH: KỸ THUẬT ĐIỆN TỬ- 605270
Hướng dẫn khoa học:
PGS.TS TRẦN THU HÀ
Tp Hồ Chí Minh, tháng 10/2014
Trang 4LÝ LỊCH KHOA HỌC
I LÝ LỊCH SƠ LƯỢC:
Họ & tên: NGUYỄN THÀNH CHUNG Giới tính: Nam
Ngày, tháng, năm sinh: 10/12/1984 Nơi sinh: Nghệ An
Chỗ ở riêng hoặc địa chỉ liên lạc: Số nhà 36/25 – đường Số 5 – Kp 5 – Q Thủ Đức – tỉnh TP.Hồ Chí Minh
Điện thoại cơ quan: Điện thoại nhà riêng: 0918444230
II QUÁ TRÌNH ĐÀO TẠO
1 Trung học chuyên nghiệp:
Hệ đào tạo: Nghề bậc 4/7 Thời gian đào tạo từ 10/ 2002 đến 10 /2004Nơi học (trường, thành phố): Trường trung tâm dạy nghể kỹ thuật cao thuộc trườngĐại Học Dân Lập Kỹ Thuật Công Nghệ TP.Hồ Chí Minh
Ngành học: Điện Tử
2 Đại học:
Hệ đào tạo: Chính Quy Thời gian đào tạo từ10/2005đến 7/2009
Nơi học (trường, thành phố): Trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM
Ngành học: Kỹ Thuật Điện – Điện Tử
Tên đồ án, luận án hoặc môn thi tốt nghiệp:
ĐIỀU KHIỂN VÀ GIÁM SÁT DÂY CHUYỀN SẢN XUẤT THỨC ĂN GIA SÚC Ngày & nơi bảo vệ đồ án, luận án hoặc thi tốt nghiệp: 19/07/2009 – Trường Đại Học Sư Phạm Kỹ Thuật Tp.HCM
Người hướng dẫn: ThS NGUYỄN TẤN ĐỜI
III QUÁ TRÌNH CÔNG TÁC CHUYÊN MÔN KỂ TỪ KHI TỐT NGHIỆP ĐẠI HỌC:
10/2009 – 08/2010 Công ty TNHH Xuân Phát Kỹ sư bảo trì
i HVTH: NGUYỄN THÀNH CHUNG
Trang 5Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công
bố trong bất kỳ công trình nào khác
Tp Hồ Chí Minh, ngày 6 tháng 10 năm
2014 (Ký tên và ghi rõ họ tên)
NGUYỄN THÀNH CHUNG
ii HVTH: NGUYỄN THÀNH CHUNG
Trang 6Tôi xin chân thành cảm ơn gia đình của tôi, đặc biệc là cha mẹ tôi đã tạomọi điều kiện cho tôi ăn học cho đến ngày hôm nay Chính họ là nguồnđộng viên lớn nhất ủng hộ tôi, giúp đỡ tôi trong suốt quá trình học tập cũngnhư việc thực hiện luận văn này.
Tôi xin chân thành cám ơn cô hướng dẫn PGS TS TRẦN THU HÀ
trường Đại học Kỹ Thuật Tp Hồ Chí Minh đã tận tình chỉ dạy, hướng dẫn,đóng góp nhiều ý kiến quý báu trong suốt quá trình thực hiện luận văn
Tôi cũng xin chân thành cám ơn thầy cô trong khoa Điện - Điện Tử nóiriêng và thầy cô trường Đại Học Sư Phạm Kỹ Thuật Tp Hồ Chí Minh đãtạo ra cho tôi một môi trường học tập thật tuyệt vời và đã tạo mọi điều kiệncho tôi hoàn thành luận văn này
Xin cám ơn tất cả các bạn học viên và các anh chị đã đóng góp những ýkiến và giúp đỡ tôi hoàn thành luận văn này
Người thực hiện luận văn
NGUYỄN THÀNH CHUNG
iii HVTH: NGUYỄN THÀNH CHUNG
Trang 7Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
TÓM TẮT
Ngay khi phát minh ra máy tính, con người đã mơ ước máy tính có thể nóichuyện với mình Yêu cầu đơn giản nhất là máy có thể xác định được từ ngữ màchúng ta nói với máy Đó là mục tiêu của ngành nhận dạng tiếng nói
Đối với con người, việc nghe, nhất là nghe tiếng mẹ đẻ là một vấn đề khá đơngiản Còn đối với máy tính, xác định một chuỗi tín hiệu âm thanh là sự phát âm củamột từ nào hoàn toàn không đơn giản, khó khăn cũng như việc học nghe ngoại ngữcủa chúng ta
Lĩnh vực nhận dạng tiếng nói đã được nghiên cứu hơn 4 thập kỉ và hiện naymới chỉ có một số thành công Có thể kể đến hệ thống nhận dạng tiếng Anh (ví dụ:phần mềm Via Voice của IBM, hệ thống nhận dạng tiếng nói tích hợp củaOfficeXP…) Các hệ thống này hoạt động khá tốt (cho độ chính xác khoảng 90 - 95%)nhưng còn xa mới đạt đến mức mơ ước của chúng ta: có một hệ thống có thể nghechính xác và hiểu hoàn toàn những điều ta nói
Riêng với tiếng Việt, lĩnh vực nhận dạng tiếng nói còn khá mới mẻ Chưa hề thấyxuất hiện một phần mềm nhận dạng tiếng Việt hoàn chỉnh trên thị trường Số công trìnhnghiên cứu về nhận dạng tiếng nói tiếng Việt được công bố rất hiếm hoi, và kết quả cònhạn chế về bộ từ vựng, độ chính xác… Tiếng Việt có nhiều đặc tính khác với
các ngôn ngữ đãđược nghiên cứu nhận dạng nhiều như tiếng Anh, tiếng Pháp Do đóviệc nghiên cứu nhận dạng tiếng Việt là rất cần thiết Bên cạnh đó, việc triển khai hệthống nhận dạng tiếng nói trên phần cứng ở Việt Nam cũng còn nhiều hạn chế, và khảnăng nhận dạng còn phụ thuộc vào người nói Nhận dạng tiếng Việt và ứng dụng đểlàm lệnh điều khiển vẫn còn là một lĩnh vực khá mới mẻ
Vì những lí do trên, tôi chọn đề tài “Nhận dạng tiếng nói thành lệnh ứng dụng
trong công nghiệp”, nhằm nghiên cứu các phương pháp nhận dạng tiếng nói đối với tiếng
Việt và thử nghiệm xây dựng một hệ thống nhận dạng cỡ nhỏ.Việc nhận dạng được thựcthi trên máy tính và điều khiển thông qua Board Arduino Mega 2560, với bộ
từ vựng gồm 5 từ đơn (vui, buồn, mệt, giận, hiền) với kết quả nhận dạng có độ chínhxác khoảng hơn 90% trong điều kiện bình thường
Từ khóa:Hiden Markov Model, Neural Netwoks, Hydrid ANN/HMM, MFCC
methods, FFT algorithm, K-meanalgorithm, Board Arduino Mega 2560
iv HVTH: NGUYỄN THÀNH CHUNG
Trang 8The purpose with this final master degree project was todevelop a speech recognitiontool, to make the technology
accessible The development includes anextensive study of Hidden
Markov Model, which is currently the state of the artin the field of
speech recognition A speech recognizer is a complex machine
developedwith the purpose to understand human speech In real life
this speechrecognition technology might be used to get a gain in
traffic security or facilitatefor people with functional disability The
technology can also be applied to manyother areas However in a
real environment there exist disturbances that mightinfluence the
performance of the speech recognizer The report includes an
performanceevaluation in different noise situations, in a robot
environment The resultshows that the recognition rate varies from
92%, in a noise free environment, to90% in a more noisy
environment
v HVTH: NGUYỄN THÀNH CHUNG
Trang 9Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
MỤC LỤC
LÝ LỊCH KHOA HỌC i
LỜI CAM ĐOAN ii
LỜI CẢM ƠN iii
TÓM TẮT iv
MỤC LỤC vi
DANH SÁCH CÁC HÌNH ix
DANH SÁCH CÁC BẢNG xi
DANH SÁCH CÁC CHỮ VIẾT TẮT xii
Chương 1 TỔNG QUAN 1
1.1.Tổng quan về nhận dạng tiếng nói, tình hình nghiên cứu trong và ngoài nước 1
1.1.1.Nhận dạng tiếng nói 1
1.1.2.Tổng quan tình hình nghiên cứu 2
1.2.Mục tiêu và đối tượng nghiên cứu của đề tài 5
1.2.1.Mục tiêu 6
1.2.2.Đối tượng nghiên cứu 5
1.3.Nhiệm vụ và giới hạn của đề tài 6
1.3.1.Nhiệm vụ 6
1.3.2.Giới hạn 6
1.4.Phương pháp nghiên cứu 6
1.5.Nội dung luận văn 7
1.6.Ý nghĩa thực tiễn của đề tài 8
Chương 2 ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT 9
2.1.TỔNG QUAN VỀ TIẾNG NÓI 9
2.2.Các đặc trưng cơ bản của Tiếng Việt 9
2.2.1.Âm tiết 9
2.2.2.Âm vị 11
2.2.3.Nguyên âm và phụ âm 11
2.2.4.Thanh điệu 12
Chương 3 MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT 13
3.1 Phân loại các hệ thống nhận dạng tiếng nói 13
3.1.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt 13
3.1.2 Nhận dạng phụ thuộc người nói và độc lập người nói 13
3.2 Các yếu tố ảnh hưởng đến kết quả nhận dạng tiếng nói : 15
3.3 Cấu trúc hệ nhận dạng tiếng nói: 16
3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn: 17
vi HVTH: NGUYỄN THÀNH CHUNG
Trang 103.6.Phương pháp phân tích hệ số MFCC 19
3.6.1 Tiền xử lý 19
3.6.2.Tạo khung và cửa sổ hóa tín hiệu 23
3.6.3 Trích đặc trưng 25
3.6.4 Hậu xử lý 31
3.7 Lượng tử vector: 32
3.7.1 Tổng quan về lượng tử vector (VQ): 32
3.7.2 Cấu trúc và tập huấn luyện VQ: 33
3.7.3 Đo độ méo: 34
3.7.4 Phân nhóm các vector huấn luyện: 34
Chương 4: MÔ HÌNH MARKOV ẨN HMM 36
4.1 Quá trình Markov: 36
4.2 Mô hình Markov ẩn: 38
4.3 Giải pháp toán học cho ba bài toán cơ bản của mô hình Markov ẩn: 41
4.3.1 Bài toán 1: 41
4.3.2 Bài toán 2: 44
4.3.3 Bài toán 3: 45
4.4 Các loại mô hình Markov ẩn: 49
Chương 5: THIẾT KẾ PHẦN CỨNG VÀ MẠCH ĐIỀU KHIỂN ROBOT 50
5.1 Tổng quan về phần cứng của hệ thống : 50
5.2 Lựa chọn thiết bị: 52
5.2.1 Động cơ: 52
5.2.2 Board Arduino Mega 2560: 54
Chương 6: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VÀ PHẦN MỀM GIAO DIỆN NHẬN DẠNG 66
6.1.Thiết kế hệ thống nhận dạng tiếng nói trên máy tính 66
6.1.1.Trích đặc trưng 67
6.1.2.Lượng tử hóa vector 71
6.1.3.Huấn luyện HMM 75
6.1.4.Nhận dạng bằng mô hình HMM 76
6.2.Thiết kế phần mềm giao diện nhận dạng 78
6.3 Kết quả thử nghiệm trên phần mềm nhận dạng 79
vii HVTH: NGUYỄN THÀNH CHUNG
Trang 11Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Chương 7 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 83
7.1 Kết luận 83
7.2 Nhận xét 84
7.3 Hạn chế của đề tài: 84
7.4 Hướng phát triển của đề tài 84
TÀI LIỆU THAM KHẢO 86
viii HVTH: NGUYỄN THÀNH CHUNG
Trang 12Hình 3 1 Người nói khác nhau sẽ phát âm khác nhau 14
Hình 3 2 Mô hình nhận dạng tiếng nói bán độc lập người nói 15
Hình 3 3 Cấu trúc tổng quát của một hệ thống nhận dạng tiếng nói 16
Hình 3 4 Lưu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn 17
Hình 3 5 Đoạn mẫu âm thanh trước khi VAD 18
Hình 3 6 Đoạn mẫu âm thanh sau khi VAD 18
Hình 3 7 Sơ đồ giải thuật phương pháp phân tích thông tin tiếng nói 19
Hình 3 8 Tiền xử lý tín hiệu 19
Hình 3 9 Phân tích khoảng lặng của tiếng nói 21
Hình 3 10 Tách tiếng nói khỏi khoảng im lặng theo VAD 22
Hình 3 11 Từ tiếng nói có khoảng im lặng tách thành tiếng nói không có khoảng lặng 23 Hình 3 12 Frame blocking và Windowing 23
Hình 3 13 Chia khung chuỗi tín hiệu 24
Hình 3 14 Cửa sổ Hamming với các hệ số α khác nhau 24
Hình 3 15 Tín hiệu tiếng nói sau khi được cửa sổ hóa so với ban đầu 25
Hình 3 16 Các bước thực hiện MFCC 25
Hình 3 17 Phổ Fourier của tín hiệu gốc và tín hiệu đã cửa sổ hóa 26
Hình3 18 Băng lọc tam giác melscale trên miền tần số 27
Hình 3 19 Tính các hệ số delta 29
Hình 3 20 Quá trình rút trích đặc trưng 30
Hình 3 21 Các bước hậu xử lý tín hiệu 31
Hình 3 22 Sơ đồ khối cấu trúc của VQ huấn luyện và phân lớp 33
Hình 3 23 Lưu đồ giải thuật VQ 35
Hình 4 1 Xích Markov 5 trạng thái S 1 ,S 2 , .S 5 và các xác suất chuyển trạng thái 36
Hình 4 2 Ví dụ một mô hình Markov ẩn sáu trạng thái 39
Hình 4 3 Mô tả các dãy phép toán được thực hiện để tính αt(i) 43
Hình 4 4 Mô tả các dãy phép toán được thực hiện để tính biến β t (i) 44
Hình 5 1 Mô hinh̀ nhiǹ trước 50
Hình 5 2 Mô hinh ̀ nhin ̀ nghiêng 50
Hình 5 3 Mô hinh ̀ nhin ̀ từ bên trái 51
Hình 5 4 Mô hinh̀ khuôn mặt thực tế của robot 51
Hình 5 5 Cấu tạo bên trong của RC servo 52
Hình 5 6 Điều khiển vị trí trục ra của động cơ bằng cách điều chế độ rộng xung 53
Hình 5 7.Động cơ RC Servo EMax ES08A 54
Hình 5 8 Giao diện IDE của Arduino 57
Hình 5 9 Board Arduino Mega 2560 (mặt trước và sau) 58
Hình 5 10.Board Arduino Mega 2560 59
Hình 5 11 Sơ đồchân của ATMEGA2560 59
Hình 5 12 Sơ đồnguyên lýcủa Arduino Mega 2560 61
Hình 5 13 Gõ lệnh targetinstaller vào khung Command Window s 61
Hình 5 14 Khung Target Installer xuất hiêṇ, nhấn Next 62
Hình 5 15.Matlab đang nhâṇ thông tin gói hỗtrơ ̣thông qua mang ̣ Internet 62
Hình 5 16 Lưạ choṇ gói hỗtrơ ̣Arduino vàtiếp tuc ̣ nhấn Next 63
Hình 5 17 Nhấn nút Install đểcài đăṭ 63
Hình 5 18 Matlab đang cài gói hỗtrơ ̣Arduino 64
ix HVTH: NGUYỄN THÀNH CHUNG
Trang 13Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Hình 5 19 Hoàn thành tiến trình cài đặt 64
Hình 5 20 Arduino đa ̃xuất hiêṇ trong thư viêṇ Simulink 65
Hình 6 1 Sơ đồ khối mô hình huấn luyện và nhận dạng từ đơn 67
Hình 6 2 Lưu đồ giải thuật thực hiện tách tiếng nói khỏi khoảng lặng 68
Hình 6 3 Lưu đồ giải thuật thực hiện phân tích hệ số đặc trưng 69
Hình 6 4.Minh họa lượng tử hóa vector 75
Hình 6 5 Lưu đồ giải thuật huấn luyện HMM 76
Hình 6 6 Lưu đồ giải thuật nhận dạng từ đơn sử dụng HMM 77
Hình 6 7 Giao diện nhận dạng tiếng nói 78
Hình 6 8.Minh họa phân tích dữ liệu tiếng nói thành các hệ số đặc trưng để sử dụng cho huấn luyện hệ thống và nhận dạng 80
Hình 6 9.Kết quả nhận dạng từ “vui” 82
x HVTH: NGUYỄN THÀNH CHUNG
Trang 14DANH SÁCH CÁC BẢNG
Bảng 2 1:Cấu trúc tổng quát của một âm tiết tiếng Việt 11Bảng 6 1 Kết quả thử nghiệm cho nhóm hệ thống học mẫu 80Bảng 6 2 Kết quả thử nghiệm cho nhóm mạo danh 81
xi HVTH: NGUYỄN THÀNH CHUNG
Trang 15Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
DANH SÁCH CÁC CHỮ VIẾT TẮT
Artifactial Neural Network ANN Mạng nơron nhân tạo
Fast Fourier Transform FFT Biến đổi Fourier nhanh
Dicrette Cosine Transform DCT Biến đổi cosin rời rạc
Hidden Markov Model HMM Mô hình Markov ẩn
Linear predictive code LPC Hế số dự đoán tuyến tính
Graphical User Interface GUI Giao diện người sử dụng
Trang 17Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của nhữngngười nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác địnhnhững thông tin biến thiên nào của tiếng nói là có ích và
Chương 1.Tổng quan 1
HVTH: NGUYỄN THÀNH CHUNG
Trang 18Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kêmạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiênquan trọng cần thiết trong nhận dạng tiếng nói Các nghiên cứu về nhận dạng tiếng nóidựa trên ba nguyên tắc cơ bản:
Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khungthời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểmtiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhậndạng tiếng nói
Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các kýhiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát
âm thành dãy các ký hiệu ngữ âm
Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa(semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất
là khi thông tin về âm học là không rõ ràng.[1]
1.1.2 Tổng quan tình hình nghiên cứu
Tiếng nói là phương tiện giao tiếp cơ bản nhất của loài người, nó hình thành và pháttriển song song với quá trình tiến hóa của loài người Đối với con người, sử dụng lời nói
là một cách diễn đạt đơn giản và hiệu quả nhất Ưu điểm của việc giao tiếp bằng tiếng nóitrước tiên là ở tốc độ giao tiếp, tiếng nói từ người nói được người nghe hiểu ngay lậptức sau khi được phát ra Ngày nay, nhờ sự phát triển của khoa học kỹ thuật, máy mócdần dần thay thế các lao động tay chân Tuy nhiên để điều khiển máy móc, con ngườiphải làm khá nhiều thao tác tốn nhiều thời gian và cần phải được đào tạo Điều này gâytrở ngại không ít đối với việc sử dụng các máy móc, thành tựu khoa học kỹ thuật Trongkhi đó, nếu điều khiển máy móc thiết bị bằng tiếng nói sẽ dễ dàng hơn Nhu cầu điềukhiển máy móc thiết bị bằng tiếng nói càng bức thiết hơn đối với các thiết bị cầm tay,như: điện thoại di động, máy Palm/Pocket PC,… Để máy tính có thể nghe được tiếngnói, âm thanh con người đã xây dựng lĩnh vực nhận dạng tiếng nói Hơn nửa thế kỷ trôiqua con người đã thu được những thành tựu đáng kể, và có những ứng dụng hữu ích thiếtthực vào trong cuộc sống Nhưng dù sao khả năng nghe hiểu của máy tính vẫn còn nhiềuhạn chế và khoảng cách khác xa so với thực tế Mặt
Chương 1.Tổng quan 2
HVTH: NGUYỄN THÀNH CHUNG
Trang 19Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
khác, nhận dạng tiếng nói chỉ đang được phát triển trên các thứ tiếng khác, còn đốivới nước ta nhận dạng tiếng nói vẫn còn là một lĩnh vực khá mới mẻ
1.1.2.1 Ngoài nước
Hiện nay, trên thế giới có rất nhiều hệ thống nhận dạng tiếng nói đã và đang
(Central of Spoken Laguage Understanding) trong tiếng Anh, mô hình Fujisaki đượctrong hệ thống của tiếng Nhật, mô hình MFGI (Mixdorff – Fujisaki model of GermanIntonation) trong tiếng Đức,…
Sự phát triển vượt bậc của công nghệ vi xử lý và công nghệ xử lý tiếng nói trongnhững năm gần đây đã mở ra rất nhiều những ứng dụng khác nhau mà đáng kể nhất làcác hệ thống giao tiếp, hỏi đáp thông tin qua mạng điện thoại Có thể kể tên một sốứng dụng như:
Quay số bằng giọng nói
Truy cập thông tin bằng giọng nói qua đường điện thoại
Hệ thống hỗ trợ y tế qua điện thoại
Ứng dụng truy vấn thông tin trong ngân hàng
Ứng dụng chuẩn đoán, điều trị bệnh từ xa
Theo thống kê và dự báo về thị trường công nghệ thông tin và truyển thông năm
2009, chi tiêu cho nghiên cứu, phần cứng, phần mềm liên quan đến công nghệ xử lýtiếng nói trong năm 2008 trên toàn thế giới đã vượt con số 5 tỷ đô-la Mỹ
Công nghệ xử lý tiếng nói đã thay đổi cách con người tương tác với hệ thống,không còn bó buộc trong cách thức tương tác truyền thống (như bấm phím trên điệnthoại) mà chuyển sang tương tác trực tiếp bằng giọng nói Trong môi trường kinh tếcạnh tranh, các ứng dụng dần dần đã chuyển sang tích hợp tính năng tương tác âmthanh Việc ứng dụng và khách hàng có thể tương tác với nhau thông qua âm thanhkhông có nghĩa là loại bỏ giao diện đồ họa truyền thống mà nó cung cấp thêm mộtcách truy cập thông tin và dịch vụ tiện lợi, tự nhiên hơn
Một số ứng dụng thương mại đòi hỏi sự giao tiếp giữa khách hàng và hệ thốngvới số lượng lớn, có tích hợp tính năng tương tác âm thanh Từ đó, các hệ thống giaotiếp, hỏi đáp thông tin tự động ra đời Thông thường, các hệ thống này hướng dẫn
Chương 1.Tổng quan 3
HVTH: NGUYỄN THÀNH CHUNG
Trang 20qua các tập tin âm thanh ghi âm trước hoặc qua bộ tổng hợp tiếng nói nếu nội dungkhông cố định Khách hàng dùng lời nói cung cấp thông tin cho hệ thống, hệ thống
xử lý thông tin, truy xuất cơ sở dữ liệu rồi gửi phản hồi thông tin dưới dạng âm thanhtới khách hàng
1.1.2.2 Trong nước
Trong nhiều năm qua, một số các hãng công nghệ lớn trên thế giới đã đầu tưnghiên cứu về lĩnh vực này song kết quả thu được còn khá khiêm tốn, chỉ có một số ítcông ty có chíp nhận dạng tiếng nói tiếng Anh như Công ty Sony, Motorola nhưngvẫn bị giới hạn về số từ vựng và ứng dụng Ở Việt Nam, vấn đề nghiên cứu thiết kếcấu trúc vi mạch nhận dạng tiếng Việt vẫn còn bỏ ngỏ, mặc dù đây là hai hướng côngnghệ cao được ưu tiên phát triển
Phạm vi ứng dụng hệ thống nhận dạng tiếng nói tiếng Việt trong nước đã được
sử dụng ở các công ty, tập đoàn viễn thông lớn như: Mobifone, Vinaphone, Viettel…nhưng còn rất ít và có nhiều hạn chế, tuy nhiên cũng đã có một số mô hình nhận dạngtiếng nói đã được xây dựng như:
Tổng hợp và nhận dạng tiếng Việt của GS.TSKH Bạch HưngKhang[9]:Nghiên cứu cơ sở lý thuyết của các hệ thống nhận dạng tiếng nói và đặc trưngtiếng Việt
KỹThuật nhận dạng tiếng nói và ứng dụng trong điều khiển của TS NguyễnVăn Giáp và KS Trần Hồng Việt[10]: Đề tài này thử nghiệm hệ thống nhận dạng tiếngnói tiếng Việt trên máy tính bằng phương pháp MFCC và nhận dạng bằng mô hìnhMarkov ẩn HMM, ứng dụng trong điều khiển khiển xe với bộ từ vựng gồm 4 từ: “trái,phải, tiến, lùi” với kết quả chính xác đạt được trên
90%
Nhận dạng tiếng Việt dùng mạng neuron kết hợp trích đặc trưng dùng LPC vàAMDF của TS Hoàng Đình Chiến[11]:đề tài xây dựng mô hình nhận dạng tiếng nóitiếng Việt với bộ từ vựng “lên, xuống, trái, phải, tới, lùi, xoay,
dừng”, cho kết quả chính xác nhận dạng trung bình là 99,4%
Đề tài “Thiết kế chíp nhận dạng tiếng nói Việt Nam trên nền công nghệ FPGA” củanhóm nghiên cứu trường đại học Bách khoa thành phố Hồ Chí Minh do TS Hoàng Trangvào năm 2012 làm trưởng nhóm đã góp phần “cứng hóa” thành công các giải
Chương 1.Tổng quan 4
HVTH: NGUYỄN THÀNH CHUNG
Trang 21Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
thuật phức tạp trong nhận dạng tiếng Việt Trên phần cứng, có ba vấn đề rất quan trọngcần quan tâm, bao gồm: độ chính xác nhận dạng, tài nguyên phần cứng và tốc độ tínhtoán Ba yếu tố này thường được cân nhắc chọn lựa kỹ bởi khó có thể đạt được tối ưutrên cùng lúc cả ba yếu tố trên
Vấn đề nhận dạng tiếng nói tiếng Việt đã có nhiều công trình nghiên cứu nhưngchưa được triển khai thực hiện tốt trên phần cứng là do ba yếu tố trên Bên cạnh đó,nhận dạng tiếng nói tiếng Việt trên nền công nghệ FPGA có ưu điểm là tính toánnhanh nhưng nền công nghệ này chưa được ứng dụng nhiều trên các thiết bị di độngngày nay như: điện thoại di động, máy tính bảng, robot dịch vụ, Smart TV…
Nhiệm vụ chính của luận văn là xây dựng mô hình nhận dạng tiếng nói tiếng Việt
sử dụng thuật toán trích chọn đặc trưng MFCC, lượng tử vector VQ và mô hìnhMarkov ẩn HMM, nhận dạng tiếng nói thông qua thiết kế phần mềm giao diện trênmáy tính và điều khiển mô hình hệ thống thông qua Board Arduino Mega 2560
1.2.1 Mục tiêu
Đề tài có những mục tiêu chính như sau :
Nghiên cứu hệ thống nhận dạng tiếng nói bằng tiếng Việt
Nghiên cứu thuật toán trích đặc trưng MFCC ứng dụng vào trích đặc trưng tiếng nói tiếng Việt
Nghiên cứu phương pháp lượng tử vector để ứng dụng vào mô hình nhận dạng tiếng nói tiếng Việt
Nghiên cứu mô hình Markov ẩn HMM ứng dụng vào huấn luyện và nhận dạng tiếng nói tiếng Việt
Thiết kế và thi công robot mặt người thể hiện cảm xúc
Thiết kế giao diện phần mềm nhận dạng và phần cứng điều khiển robor mặt người thể hiện cảm xúc
1.2.2 Đối tượng nghiên cứu
Lý thuyết nhận dạng tiếng nói
Trang 221.3 Nhiệm vụ và giới hạn của đề tài
1.3.1 Nhiệm vụ
Nghiên cứu đặc trưng tiếng Việt
Nghiên cứu công nghệ phân loại tiếng nói – tiếng Việt
Nghiên cứu các phương pháp xử lý, lọc tín hiệu liên tục, rời rạc; các phươngpháp rút trích đặt trưng (MFCC), phân loại, nhận dạng tín hiệu tiếng nói (Hidden MarkoModels )
Chọn lựa hàm mô hình Markov ẩn để thiết kế giao diện nhận dạng các tập lệnh của đối tượng điều khiển - Robot thể hiện cảm xúc
Tìm hiểu các phần mềm lập trình Keil C for ARM, Matlab…
Viết code mô phỏng trên máy tính, code thực thi điều khiển cho Board
Vì thời gian có hạn như đã nêu trên nên phần thiết kế và thi công mô hìnhthực nghiệm chỉ dừng lại ở dạng là một robot đơn giản, do đó việc ra lệnh phức tạp đểrobot thực hiện nhiệm vụ phức tạp bị hạn chế
Trong điều kiện bình thường, kết quả nhận dạng chưa đạt được 100%
Người thực hiện đề tài đã sử dụng các phương pháp sau đây:
Phương pháp nghiên cứu tài liệu: các tài liệu liên quan đến nhận dạng tiếngnói, phương pháp trích đặc trưng MFCC, lượng tử vector VQ, mô hình Markov ẩnHMM, đặc điểm tiếng Việt Các tài liệu liên quan về lập trình C/C++ và Matlab
Chương 1.Tổng quan 6
HVTH: NGUYỄN THÀNH CHUNG
Trang 23Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Phương pháp phân tích: phân tích đặc điểm tiếng Việt, phương pháp tríchchọn đặc trưng MFCC, phương pháp lượng tử vector VQ, mô hình Markov ẩn HMMtrong nhận dạng tiếng Việt
Phương pháp chuyên gia: tham khảo ý kiến của chuyên gia về trích chọn đặctrưng MFCC, lượng tử vector VQ, mô hình Markov ẩn HMM trong nhận dạng tiếng nóitiếng Việt, và khả năng ứng dụng vào thực tế
Phương pháp thực nghiệm: thực nghiệm việc nhận dạng tiếng nói tiếng Việt
trên máy tính và xuất ra board điều khiển Robot mặt người thể hiện cảm xúc
1.5 Nội dung luận văn
Nội dung đề tài gồm các phần sau:
Chương 1: Tổng quan
Tổng quan chung về lĩnh vực nghiên cứu
Mục tiêu và đối tượng nghiên cứu
Nhiệm vụ và giới hạn của đề tài
Phương pháp nghiên cứu
Chương 2: Đặc trưng tiếng nói tiếng Việt
Phân tích tổng quan về tiếng nói
Các đặc trưng cơ bản của tiếng Việt
Chương 3:Mô hình nhận dạng tiếng nói tiếng Việt
Phân loại các hệ thống nhận dạng tiếng nói
Các yếu tố ảnh hưởng đến kết quả nhận dạng tiếng nói
Cấu trúc của hệ nhận dạng tiếng nói
Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt
Phân tích phương pháp trích đặc trưng MFCC
Phân tích phương pháp lượng tử vector VQ
Chương 4:Mô hình Markov ẩn HMM
Cơ sở lý thuyết về mô hình Markov ẩn HMM
Ứng dụng mô hình Marko ẩn HMM vào nhận dạng tiếng nói tiếng Việt
Chương 5: Thiết kế phần cứng và mạch điều khiển Robot
Tổng quan về phần cứng của hệ thống và cách lựa chọn thiết bị
Giới thiệu Board Arduino Mega 2560 và các tính năng trong việc điều khiển
Chương 1.Tổng quan 7
HVTH: NGUYỄN THÀNH CHUNG
Trang 24Chương 6: Thiết kế hệ thống nhận dạng và phần mềm giao diện nhận dạng
Xây dựng thuật toán tiền xử lý tiếng nói tiếng Việt
Xây dựng thuật toán trích chọn đặc trưng tiếng nói tiếng việt MFCC
Xây dựng thuật toán lượng tử vector VQ
Xây dựng thuật toán mô hình Markov ẩn
Xây dựng thuật toán huấn luyện và nhận dạng tiếng nói tiếng Việt
1.6 Ý nghĩa thực tiễn của đề tài
Đề tài thuộc nhóm nghiên cứu lý thuyết và ứng dụng triển khai Sản phẩm đềtài có tính mở, có thể áp dụng cho nhiều nhóm đối tượng khác nhau trong công nghiệpcũng như dân dụng
Đề tài nghiên cứu có thể được sử dụng làm tài liệu nghiên cứu và giảng dạycho sinh viên đại học và cao học trong đào tạo các chuyên ngành Điện – Điện tử, Điện tửviễn thông,…
Ứng dụng mô hình nhận dạng tiếng nói tiếng Việt trong các hệ thống nhận dạng, điều khiển thiết bị, robot,…bằng tiếng nói tiếng Việt
Chương 1.Tổng quan 8
HVTH: NGUYỄN THÀNH CHUNG
Trang 25Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Chương 2:
ĐẶC TRƯNG TIẾNG NÓI TIẾNG VIỆT
Tín hiệu tiếng nói được xem là tín hiệu ngẫu nhiên vì chúng ta không thể xác
định chính xác biên độ và tần số của tín hiệu tiếng nói được nói Tuy nhiên, mỗi từ
của tiếng nói lại chứa những thành phần đặc trưng riêng đặc trưng cho từ đó, vì vậy
việc tách đặc trưng tiếng nói là quá trình quan trọng trong hệ thống nhận dạng tiếng
nói Các hệ thống nhận dạng sẽ phân biệt các từ khác nhau trong tiếng nói dựa trên
đặc trưng riêng của mỗi từ Quá trình trích đặc trưng tiếng nói là quá trình cô đọng
tín hiệu tiếng nói của mỗi từ thành các thông số đặc tính đặc trưng cho từ đó, nhằm
giảm nhẹ công việc nhận dạng và tăng độ chính xác cho hệ thống nhận dạng
2.1 TỔNG QUAN VỀ TIẾNG NÓI:
Tiếng nói là một loại sóng âm Khi chúng ta nói, tiếng nói được truyền đi
mang theo thông tin dưới dạng các dao động truyền đến tai người nghe Mức độ
truyền tin của tiếng nói được xem là nhanh nhất trong các khả năng tự nhiên của
con người
Tín hiệu tiếng nói chứa các thông tin có tần số tập trung trong khoảng từ 4kHz
trở xuống Đây cũng chính là khoảng tần số chứa năng lượng chủ yếu của tín hiệu
tiếng nói
Trong khoảng thời gian dài, tín hiệu tiếng nói là tín hiệu không dừng, nhưng
trong khoảng thời gian đủ ngắn tín hiệu tiếng nói được xem như tín hiệu dừng
Đối với quá trình nhận dạng tiếng nói, thì ngoài việc nhận ra các đặc trưng của
tiếng nói thì quá trình học thích nghi với các thay đổi của đặc trưng tiếng nói cũng
rất quan trọng
2.2 Các đặc trưng cơ bản của Tiếng Việt:
2.2.1 Âm tiết:
Tiếng việt có những đặc trưng khác biệt so với các ngôn ngữ khác trong cách
phát âm cũng như ghép các âm thành từ có nghĩa Đơn vị nhỏ nhất của tiếng Việt là
âm tiết (tiếng), âm tiết có những đặc điểm như sau:
Chương 2 Đặc trưng tiếng nói Tiếng
9
HVTH: NGUYỄN THÀNH CHUNG Việt
Trang 26 Tính độc lập: tức là mỗi âm tiết là một thành phần nhỏ, chúng rõ ràng và
tách biệt với nhau, mỗi từ đại diện cho một âm tiết duy nhất
Không có hiện tượng nối âm: trong tiếng Việt, dù người nói, nói nhanh haynói chậm thì mỗi từ phát ra đều riêng lẻ, không có sự nối âm hay nuốt âm như trong tiếngAnh Điều này làm cho ranh giới giữa các âm tiết rõ ràng với nhau, không có sự chồng lấpgiữa các từ
Tiếng việt có hai loại từ là từ đơn và từ ghép Từ đơn là từ được tạo từ một
âm tiết, từ ghép là từ được tạo từ nhiều từ đơn Trong đa số các trường hợp mỗi từ đơnđều mang ý nghĩa đầy đủ, việc ghép các từ đơn có nghĩa thành một từ ghép có nghĩa kháclàm cho vấn đề nhận dạng từ ghép trở nên khó
khăn hơn
Khi phát âm một âm tiết, các cơ thịt của bộ máy phát âm đều trải qua ba giai
đoạn: tăng cường độ căng, đỉnh điểm căng thẳng và giảm độ căng
Dựa vào cách kết thúc, các âm tiết tiếng Việt được chia thành hai loại lớn là
âm tiết mở và âm tiết khép Trong mỗi loại lại có hai loại nhỏ hơn, như vậy có bốn
loại âm tiết trong tiếng Việt như sau:
Âm tiết nửa khép: là những âm tiết được kết thúc bằng một phụ âm vang
như: m, ng, nh,…
Âm tiết khép: là những âm tiết được kết thúc bằng một phụ âm không vang
như: p, t, k,…
Âm tiết nửa mở: là những âm tiết kết thúc bằng một bán nguyên âm như:
tay, cay, cau,…
Âm tiết mở: là những âm tiết được kết thúc bằng cách giữ nguyên âm sắc
của nguyên âm ở đỉnh âm tiết như: ta, ma, to,…
Âm tiết tiếng Việt có một cấu trúc chặt chẽ, nó không chỉ là một đơn vị ngôn
ngữ đơn thuần mà còn là một đơn vị từ vựng và ngữ pháp chủ yếu Mô hình cấu trúc
tổng quát của một âm tiết tiếng Việt được thể hiện trong bảng 2.1
Chương 2 Đặc trưng tiếng nói Tiếng
10
HVTH: NGUYỄN THÀNH CHUNG Việt
Trang 27Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Bảng 2 1:Cấu trúc tổng quát của một âm tiết tiếng Việt
Thanh điệu
Âm đệm Âm chính Âm cuối
2.2.2 Âm vị:
Một tiếng nói gồm một chuỗi các âm cơ bản gọi là âm vị Xét về mặc ngữ âm,
âm vị là đơn vị nhỏ nhất của tiếng nói, là một đơn vị trừu tượng mà chúng ta không
thể quan sát trực tiếp trong tín hiệu tiếng nói Mỗi âm vị có hai chức năng:
Cấu tạo nên vỏ âm thanh của các đơn vị có nghĩa
Phân biệt vỏ âm thanh của các đơn vị có nghĩa
Ví dụ về từ “tôi” có ba âm vị là “t”, “ô” và “i”
2.2.3 Nguyên âm và phụ âm:
Nguyên âm là một âm thanh trong ngôn ngữ nói, được phát âm với thanh quản
mở, do đó không có sự tích lũy áp suất không khí trên bất cứ điểm nào của thanh
môn, của bộ phận cấu âm, vì vậy nguyên âm không có điểm cấu âm
Ngoài các nguyên âm đơn, trong tiếng Việt còn có các nguyên âm đôi, hay còn
gọi là nhị âm Trong tiếng việt có 16 âm vị là nguyên âm, trong đó có 13 nguyên âm
đơn và 3 nguyên âm đôi
Phụ âm được tạo ra do luồng hơi bị chặn ở một điểm nào đó trong bộ phận cấu
âm khi phát âm, vì vậy phụ âm có tiêu điểm cấu âm Khi phát phụ âm thì độ căng
thường tập trung ở tiêu điểm cấu âm Phụ âm được chia làm các loại cơ bản sau:
Phụ âm bật hơi: âm được phát ra từ sự phá vỡ các cản trở và cọ xát
giữa hai mép dây thanh Ví dụ phụ âm bật hơi như: “th”, “t”, “tr”,…
Phụ âm mũi: âm được phát ra từ luồng không khí được tạo ra và thoát
ra ngoài nhẹ nhàng qua khoang mũi Khi qua khoang mũi, âm này chịu cộng hưởng củakhoang mũi Phụ âm này còn được gọi là âm vang Ví dụ về phụ âm mũi như: “m”, “n”,
“nh”,…
Chương 2 Đặc trưng tiếng nói Tiếng 11
HVTH: NGUYỄN THÀNH CHUNG Việt
Trang 28 Phụ âm xát: không khí đi ra bị cản trở không hoàn toàn, phải lách ramột khe hở nhỏ giữa hai cơ quan cấu âm, gây nên tiếng cọ xát nhẹ Ví dụ về phụ âm xácnhư: “v”, “g”,…
2.2.4 Thanh điệu:
Thanh điệu là đặc tính đặc trưng của tiếng Việt nói riêng và các ngôn ngữ tiếng nói
có thanh điệu nói chung so với các ngôn ngữ khác như tiếng Anh, Pháp,… Thanh
điệu là một thành phần ngữ âm, không phải là nhấn giọng, giúp phânbiệt các từ đồng âm
Người ta phân biệt thanh điệu dựa vào hai yêu tố là âm điệu và âm vực Âm
điệu là sự thay đổi tần số cơ bản của thanh điệu hay đường nét của thanh điệu, còn
âm vực là miền giá trị của tần số cơ bản
Trong tiếng Việt tổng cộng có 6 thanh điệu như sau:
Thanh ngang: âm phát ra bằng phẳng và không có lên hay xuống từ đầu đến
Thanh nặng: âm phát ra bắt đầu thấp và từ từ xuống thấp hơn nữa rồi cuối
cùng kết thúc bằng một nét tắt giọng
Chương 2 Đặc trưng tiếng nói Tiếng 12
HVTH: NGUYỄN THÀNH CHUNG Việt
Trang 29Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Chương 3:
MÔ HÌNH NHẬN DẠNG TIẾNG NÓI TIẾNG VIỆT
3.1 Phân loại các hệ thống nhận dạng tiếng nói:
3.1.1 Nhận dạng từ liên tục và nhận dạng từ cách biệt:
Một hệ nhận dạng tiếng nói có thể là một trong hai dạng: nhận dạng liên tục và
nhận dạng từ cách biệt Nhận dạng liên tục tức là nhận dạng tiếng nói được phát
liên tục trong một chuỗi tín hiệu, chẳng hạn như một câu nói, một mệnh lệnh hoặc
một đoạn văn được đọc bởi người dùng Các hệ thống loại này rất phức tạp, chúng
phức tạp ở chỗ các từ được phát liên tục gây khó khăn trong việc xử lý kịp nếu cần
thời gian thực, hoặc khó tách ra nếu như người nói liên tục không có khoảng nghỉ
Kết quả tách từ ảnh hưởng rất lớn đến các bước sau, cần phải xử lý thật tốt trong
quá trình tách từ
Trái lại, với mô mình nhận dạng từ riêng lẻ, mỗi từ cần nhận dạng được phát
âm một cách rời rạc, có các khoảng nghỉ trước và sau khi phát âm một từ Mô hình
này dĩ nhiên đơn giản hơn mô hình nhận dạng liên tục, đồng thời cũng có những
ứng dụng thực tiễn, như trong các hệ thống điều khiển bằng giọng nói, quay số
bằng giọng nói,…với độ chính xác khá cao, tuy nhiên khó áp dụng rộng rãi so với
mô hình nhận dạng liên tục
3.1.2 Nhận dạng phụ thuộc người nói và độc lập người nói:
Đối với nhận dạng phụ thuộc người nói thì mỗi một mô hình nhận dạng chỉ
phục vụ được cho một người, và mô hình sẽ không hiểu người khác nói gì nếu như
chưa được huấn luyện lại từ đầu Do đó, hệ thống nhận dạng người nói khó được
chấp nhận rộng rãi vì không phải ai cũng đủ khả năng kiến thức và nhất là kiên nhẫn
để huấn luyện hệ thống Đặc biệt là hệ thống loại này không thể ứng dụng ở nơi
công cộng
Ngược lại, hệ thống nhận dạng độc lập người nói thì lý tưởng hơn, ứng dụng
rộng rãi hơn, đáp ứng được hầu hết các yêu cầu đề ra Nhưng khó khăn là hệ thống
lý tưởng như vậy gặp một số vấn đề, nhất là độ chính xác của hệ thống
Chương 3 Mô hình nhận dạng tiếng
13
HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt
Trang 30Trong thực tế, mỗi người có một giọng nói khác nhau, thậm chí ngay cùng
một người cũng có giọng nói khác nhau ở những thời điểm khác nhau Điều này
ảnh hưởng rất lớn đến việc nhận dạng, nó làm giảm độ chính xác của hệ thống nhận
dạng xuống nhiều lần Do đó để khắc phục khuyết điểm này, hệ thống nhận dạng
độc lập người nói cần được thiết kế phức tạp hơn, đòi hỏi lượng dữ liệu huấn luyện
lớn hơn nhiều lần Nhưng điều này cũng không cải thiện được bao nhiêu chất
lượng nhận dạng Do đó, trong thực tế có một cách giải quyết là bán độc lập người
nói Phương pháp này thực hiện bằng cách thu mẫu một số lượng lớn các giọng nói
khác biệt nhau Khi sử dụng, hệ thống sẽ được điều chỉnh cho phù hợp với giọng
của người dùng, bằng cách nó học thêm một vài câu có chứa các từ cần thiết
Nhận dạng độc lập người nói khó hơn rất nhiều so với nhận dạng phụ thuộc
người nói Cùng một từ, một người, dù có cố gắng phát âm cho thật giống đi nữa
thì cũng có sự khác biệt Đối với bộ não con người, một hệ thống hoàn hảo, thì sự
khác biệt đó có thể được bỏ qua do ngữ cảnh, và do có phần xử lý làm mờ đi của
não Nhưng đối với máy tính thì rất khó xây dựng được một mô hình giải quyết cho
tất cả các trường hợp khác biệt đó
Hình 3 1: Người nói khác nhau sẽ phát âm khác nhau
Chương 3 Mô hình nhận dạng tiếng
14
HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt
Trang 31Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Việc nhập dữ liệu tiếng nói thực hiện dễ dàng hơn các loại dữ liệu khác do tính
đơn giản, nhanh, làm được trong khi vẫn làm được việc khác,…Tuy nhiên, do tính
phức tạp của dữ liệu tiếng nói, nên việc nhận dạng tiếng nói mang độ phức tạp cao
hơn so với các hệ thống nhận dạng khác Vì vậy, hệ thống nhận dạng tiếng nói có
rất nhiều yếu tố ảnh hưởng đến kết quả của quá trình nhận dạng như:
Số lượng người dùng: số lượng người dùng càng lớn thì hệ thống nhậndạng phải được thiết kế sao cho có thể nhận dạng được nhiều người khác nhau, do đó độchính xác nhận dạng càng cao khi hệ thống được thiết kế cho số lượng người sử dụngcàng ít
Kích thước của bộ từ vựng: kích thước của bộ từ vựng càng lớn thì hệ thốngnhận dạng cần phân biệt rõ giữa các từ trong bộ từ vựng với nhau, do đó với kích thướccủa bộ từ vựng càng nhỏ thì độ chính xác của hệ thống nhận dạng càng lớn
Tiếng nói được thu âm một cách rời rạc trong những khoảng thời gian đủlớn thì độ chính xác của hệ thống nhận dạng cao hơn tiếng nói được thu một cách liên tục.Như vậy, việc nhận dạng các từ đơn thường chính xác hơn so với việc nhận dạng một câunói liên tục
Hệ thống nhận dạng trong môi trường nhiễu, nhiều tạp âm sẽ làm giảm độ
chính xác hơn so với trong môi trường yên tĩnh, ít tạp âm
Chương 3 Mô hình nhận dạng tiếng
15
HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt
Trang 32 Thiết bị thu âm đầu vào cũng ảnh hưởng đến kết quả của hệ thống nhận dạng,với những thiết bị thu âm kém chất lượng có thể làm mất mát thông tin, sai lệch thông tin,
… làm cho hệ thống nhận dạng sẽ khó nhận dạng chính xác hơn
3.3 Cấu trúc hệ nhận dạng tiếng nói:
Hình 3.3trình bày cấu trúc nguyên lý của một hệ nhận dạng tiếng nói Tín hiệu
tiếng nói trước hết được xử lý bằng cách áp dụng quá trình trích chọn đặc trưng và
quá trình tiền xử lý Kết quả thu được sau quá trình trích chọn đặc trưng là tập các
đặc trưng âm học được tạo dựng thành một vector
So sánh tương đồng
Giải mã
Đầu ra
Hình 3 3:Cấu trúc tổngquát của một hệ thống nhận dạng tiếng nói
Việc so sánh trước hết thực hiện bằng việc huấn luyện xây dựng các đặc
trưng, sau đó sử dụng để so sánh với các tham số đầu vào để thực hiện việc nhận
dạng Trong quá trình huấn luyện hệ thống các vector đặc trưng được đưa vào hệ
thống để ước lượng các tham số của mẫu tham khảo Một mẫu tham khảo có thể
mô phỏng một từ, một âm đơn hoặc một đơn vị tiếng nói nào đó Tùy thuộc vào
nhiệm vụ của hệ thống nhận dạng, quá trình huấn luyện hệ thống sẽ bao gồm một
quá trình xử lý ít phức tạp hoặc nhiều phức tạp
Việc trích chọn các đặc trưng tiêu biểu và xây dựng một mô hình tham khảo là
một quá trình tốn thời gian và là một công việc phức tạp
Trong quá trình nhận dạng, dãy các vector đặc trưng được đem so sánh với các
mẫu tham khảo Sau đó, hệ thống tính toán độ tương đồng của dãy các vector đặc
trưng và mẫu thảm khảo hoặc chuỗi các mẫu tham khảo Việc tính toán độ giống
Chương 3 Mô hình nhận dạng tiếng
16
HVTH: NGUYỄN THÀNH CHUNG
Trang 33nói Tiếng Việt
Trang 34nhau thường được tính toán bằng cách áp dụng các thuật toán hiệu quả Mẫu hoặc
dãy mẫu có độ tương đồng cao nhất được cho là kết quả của quá trình nhận dạng
Hiện nay, có nhiều phương pháp trích chọn đặc trưng tiếng nói như: trích đặc
trưng LPC, trích đặc trưng MFCC, Trong luận văn sử dụng phương pháp trích
đặc trưng MFCC để trích đặc trưng tiếng Việt cho mô hình nhận dạng
3.4 Giải thuật hệ thống nhận dạng tiếng nói tiếng Việt dùng Markov ẩn:
Để xây dựng mô hình nhận dạng tiếng nói tiếng nói tiếng Việt có rất nhiều
công cụ khác nhau Một trong những công cụ được ứng dụng cho việc xây dựng mô
hình nhận dạng tiếng nói tiếng Việt là mô hình Markov ẩn HMM
Bắt đầu
Tín hiệu thu từ thiết bị thu âm
Tiền xử lý Trích đặc trưng MFCC
Hình 3 4:Lưu đồ giải thuật hệ thống nhận dạng tiếng Việt dùng Markov ẩn Tín
hiệu tiếng nói sau khi được trích đặc trưng MFCC, thì chuỗi các vector đặc
trưng của tiếng nói được lượng tử hóa để giảm bớt số lượng các quan sát cho chuỗi
vector đặc trưng trước khi được sử dụng để huấn luyện mô hình nhận dạng dùng
Chương 3 Mô hình nhận dạng tiếng 17 HVTH: NGUYỄN THÀNH CHUNG
Trang 35nói Tiếng Việt
Trang 36Markov ẩn, hoặc làm thông số đầu vào của mô hình Markov ẩn để phân tích và trả
kết quả nhận dạng
3.5 Voice Acivation Detection (VAD):
Tín hiệu tiếng nói sau khi thu âm qua microphone sẽ thu được một số lượng
mẫu nhất định
Trong đề tài chọn tần số lấy mẫu tín hiệu là 8kHz, mỗi lần thu âm khoảng 2
giây Tuy nhiên, với tần số lấy mẫu là 8kHz thì ta có 8000 mẫu/1 lần đọc thu được
thì không phải toàn bộ đều là âm thanh có ý nghĩa, phần nhiều trong số này là các
khoảng lặng (silences) Do vậy, trước khi mẫu âm thanh được đưa vào trích đặc
trưng thì cần có chương trình để tách lấy đoạn âm thanh có ý nghĩa, đồng thời loại
bỏ các khoảng lặng Do đó, VAD sẽ được sử dụng để xén các khoảng lặng ở trước
và sau của một lần phát âm
Hình 3 5:Đoạn mẫu âm thanh trước khi VAD
Hình 3 6:Đoạn mẫu âm thanh sau khi VAD
Tín hiệu âm thanh được chia thành M đoạn, mỗi đoạn có L mẫu Trong đề tài
này chọn K = 160 mẫu với Fs = 8kHz, nghĩa là 20ms cho mỗi đoạn
Sau đó hàm năng lượng Es sẽ được tính cho mỗi đoạn bởi công thức (3.1):
Chương 3 Mô hình nhận dạng tiếng
18
HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt
Trang 37Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Es ( m) nK
*(
VAD sẽ loại bỏ những đoạn m có E s (m)<ngưỡng TH, với TH = 0.0001 Việc
chọn TH là do thực nghiệm kiểm tra, làm đi làm lại nhiều lần mới có thể chọn ra
được giá trị phù hợp giúp cho việc xén tín hiệu chính xác tránh làm mất mát thông
tin có ích hoặc dư thừa nhiều thông tin vô ích
3.6 Phương pháp trích đặc trưng tiếng nói MFCC:
Phần này mô tả phương pháp phân tích thông tin tín hiệu tiếng nói để tạo ra
các vector đặc trưng Ở đây, trong khâu trích đặc trưng chọn phương phápMFCC
(trích đặc trưng theo thang tần số Mel) dotốc độ tính toán cao, độ tin cậy lớn và đã
được sửdụng rất hiệu quả trong các chương trình nhận dạngtiếng nói trên thế giới
Sơ đồ giải thuật phương pháp phân tích thông tin tiếng nói như sau:
Hình 3.7:Sơ đồ giải thuật phương pháp phân tích thông tin tiếng nói
Tín hiệu tiếng nói x(n) sau khi phân tích thông tin sẽ thu được đặc trưng dạng
các vector f x (n;m) Bộ vector f x (n;m)có M vector (m = 0, 1, …, M – 1) và mỗi vector
Tín hiệu tiếng nói bị ảnh hưởng bởi môi trường xung quanh Ví dụ tín hiệu
x(n) thu được bởi các thành phần: x(n) = s(n) + d(n), trong đó s(n) là tín hiệu thuần
Chương 3 Mô hình nhận dạng tiếng
19
HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt
Trang 38tiếng nói và d(n) là nhiễu Có nhiều phương pháp lọc nhiễu, tuy nhiên có hai giải
thuật chính để thực hiện đó là trừ phổ và lọc nhiễu thích nghi Ở đây thực hiện giải
thuật giảm nhiễu trừ phổ và được thực hiện gắn liền với bước tách tiếng nói khỏi
tăng cường tín hiệu tại tần số cao (trên 1KHz) với hai lý dochính:
Giọng nói có sự suy giảm khoảng 20dB/decade khi lên tần số cao dođặc điểmsinh lý của hệ thống phát âm của con người Bước xử lý nàysẽ tăng cường tín hiệu lênmột giá trị gần 20dB/decade để khắc phục sựsuy giảm này,
Hệ thống thính giác của con người nhạy cảm hơn với vùng tần số cao,bước
xử lý này nhấn mạnh vùng tần số cao, trợ giúp cho quá trình môhình hoá âm thanh sau nàycủa hệ thống nhận dạng
Trong miền thời gian, bộ lọc có dạng:
Tách tiếng nói khỏi nền nhiễu (voice activation detection) Nhiệm vụ của khối
này là xử lý tín hiệu từ micro, dùng kỹ thuật xử lý đầu và cuối để phát hiện tín hiệu
tiếng nói và phần tín hiệu nhiễu Từ đó ta có thể tách tiếng nói ra khỏi nền nhiễu
(chỉ thu tín hiệu tiếng nói mà không thu tín hiệu nhiễu nền) [5]
Vấn đề tách tiếng nói khỏi khoảng im lặng cũng có nhiều cách thực hiện như:
ước tính năng lượng trong khoảng thời gian ngắn, hoặc ước tính công suất trong
khoảng thời gian ngắn, và dò điểm 0 Nhưng qua quá trình nghiên cứu và thử
nghiệm tác giả nhận thấy rằng sự kết hợp giữa phương pháp ước tính công suất
trong khoảng thời gian ngắn và tỉ lệ qua điểm zero cho kết quả tốt hơn
Chương 3 Mô hình nhận dạng tiếng
20
HVTH: NGUYỄN THÀNH CHUNG nói Tiếng Việt
Trang 39Kỹ thuật nhận dạng tiếng nói thành lệnh ứng dụng trong công nghiệp GVHD: PGS.TS TRẦN THU HÀ
Phương pháp này dựa vào tính chất năng lượng của tín hiệu tiếng nói thường
lớn hơn năng lượng của tín hiệu nhiễu và tỉ lệ qua điểm zero của nhiễu sẽ lớn hơn
tín hiệu tiếng nói Hình 3.9 cho thấy mối quan hệ giữa tín hiệu thu được, giá trị của
hàm năng lượng thời gian ngắn và tỉ lệ qua điểm zero
Hình 3.9:Phân tích khoảng lặng của tiếng nói
Với một cửa sổ kết thúc tại mẫu thứ m, hàm năng lượng thời gian ngắn
Tỷ lệ qua điểm zero (zero crossing rate) là một thông số cho biết số lần mà
biên độ tín hiệu đi qua điểm zero trong một khoảng thời gian cho trước được xác
Mỗi khung có L mẫu Chú ý rằng chỉ sổ trong các hàm này là m, vì việc tính
toán không phải thực hiện tại mỗi mẫu (chỉ tính sau mỗi khung mẫu)
Chương 3 Mô hình nhận dạng tiếng
21
HVTH: NGUYỄN THÀNH CHUNG