Kiểm soát không lưu là một hoạt động mang ý nghĩa cực kỳ quan trọng nhằm đảm bảo sự an toàn và duy trì sự thông suốt của các chuyến bay. Một số các nhiệm vụ của kiểm soát viên không lưu là hiệp đồng với phi công để hướng dẫn phi công tuân thủ lộ trình bay và tránh xung đột giữa các máy bay. Nhằm hỗ trợ cho kiểm soát viên không lưu, bài báo đề xuất ứng dụng kỹ thuật nhận dạng tiếng nói tự động trong việc phát hiện lỗi do thông tin sai lệch giữa kiểm soát viên và phi công. Trong giai đoạn nghiên cứu ban đầu, hệ thống hỗ trợ tập trung vào khai thác dịch vụ điện toán đám mây Azure thuộc tập đoàn Microsoft. Hệ thống đề xuất gồm có hai phần: trước tiên, tiếng nói của phi công và kiểm soát viên được chuyển đổi thành văn bản dựa trên nền tảng học sâu LSTM (Long Short Term Memory); sau đó tiếng nói của hai đối tượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó phát hiện ra lỗi lặp lại và lỗi nghe lại. Các thí nghiệm được tiến hành với 10 mực bay trong vùng trời điều hành từ độ cao 15.000 feet đến 25.000 feet, trong môi trường bay giả lập và thực tế. Kết quả thí nghiệm bước đầu đã cho tỷ lệ nhận dạng chấp nhận được và tỷ lệ phát hiện lỗi rất khả quan.
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -
LÊ VĂN VŨ
ỨNG DỤNG KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG
HỖ TRỢ HOẠT ĐỘNG KIỂM SOÁT KHÔNG LƯU
Chuyên ngành : KỸ THUẬT ĐIỆN TỬ
Mã số: 8520203
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS Hoàng Lê Uyên Thục
Đà Nẵng – Năm 2020
DUT.LRCC
Trang 2Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tác giả luận văn ký và ghi rõ họ tên
DUT.LRCC
Trang 3TRANG PHỤ BÌA
LỜI CAM ĐOAN
MỤC LỤC
TÓM TẮT LUẬN VĂN
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC CHỮ
DANH MỤC CÁC HÌNH
MỞ ĐẦU 1
Chương 1 - TỔNG QUAN HOẠT ĐỘNG KIỂM SOÁT KHÔNG LƯU 3
1.1 Giới thiệu chương 3
1.2 Cơ bản về hoạt động kiểm soát không lưu 3
1.3 Yếu tố con người trong hoạt động không lưu 5
1.3.1 Yếu tố con người 5
1.3.2 Ý nghĩa của yếu tố con người 6
1.3.3 Lỗi lặp lại và nghe lại 6
1.4 Tình hình nghiên cứu về ứng dụng nhận dạng tiếng nói trong hoạt động không lưu 7
1.5 Các ứng dụng nhận dạng tiếng nói tự động trong điều khiển không lưu 9
1.6 Giới thiệu hệ thống hỗ trợ hoạt động kiểm soát không lưu 10
Chương 2 - LÝ THUYẾT ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG 12
2.1 Giới thiệu chương 12
2.2 Quá trình hình thành và phát triển của mô hình LSTM 12
2.3 Mô hình LSTM kết hợp phương pháp học sâu 14
2.4 Các ứng dụng nhận dạng tiếng nói tự động sử dụng kỹ thuật học sâu 16
2.5 Kết luận chương 17
Chương 3 - HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG 18
3.1 Giới thiệu chương 18
3.2 Nguyên lý chuyển đổi tiếng nói thành văn bản 18
3.3 Nhận dạng tiếng nói tự động trên nền tảng điện toán đám mây 19
DUT.LRCC
Trang 43.4.1 Nhận thức thị giác 23
3.4.2 Nhận thức tiếng nói 23
3.4.3 Nhận thức ngôn ngữ………… 24
3.4.4 Nhận thức tìm kiếm……… 24
3.4.5 Nhận thức quyết định……… 25
3.5 Kết luận chương 25
Chương 4 - THÍ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG PHÁT HIỆN LỖI TIẾNG NÓI 26
4.1 Giới thiệu chương 26
4.2 Cơ sở dữ liệu tiếng nói 26
4.3 Tiêu chí đánh giá hệ thống 29
4.4 Phương pháp đánh giá hệ thống 27
4.5 Tiến hành thí nghiệm 30
4.5.1 Chuyển đổi tiếng nói thành văn bản 30
4.5.2 So khớp văn bản 31
4.6 Kết quả thí nghiệm 33
4.6.1 Thí nghiệm 1: đánh giá tỉ lệ nhận dạng của mô hình có sẵn 33
4.6.2 Thí nghiệm 2: huấn luyện thêm cho mô hình có sẵn và đánh giá tỉ lệ nhận dạng của mô hình mới 34
4.6.3 Thí nghiệm 3: mô phỏng ứng dụng so khớp mực bay 37
4.7 Kết luận chương 37
KẾT LUẬN VÀ KIẾN NGHỊ 39
DANH MỤC TÀI LIỆU THAM KHẢO 40 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN
PHỤ LỤC 1
PHỤ LỤC 2
PHỤ LỤC 3
DUT.LRCC
Trang 5ỨNG DỤNG KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐỂ
HỖ TRỢ HOẠT ĐỘNG KIỂM SOÁT KHÔNG LƯU
Học viên: Lê Văn Vũ Chuyên ngành: Kỹ thuật điện tử
Mã số: 8520203 Khóa: 37 Trường Đại học Bách khoa - ĐHĐN
Tóm tắt – Kiểm soát không lưu là một hoạt động mang ý nghĩa cực kỳ quan trọng nhằm đảm bảo sự an
toàn và duy trì sự thông suốt của các chuyến bay Một số các nhiệm vụ của kiểm soát viên không lưu là hiệp đồng với phi công để hướng dẫn phi công tuân thủ lộ trình bay và tránh xung đột giữa các máy bay Nhằm hỗ trợ cho kiểm soát viên không lưu, bài báo đề xuất ứng dụng kỹ thuật nhận dạng tiếng nói
tự động trong việc phát hiện lỗi do thông tin sai lệch giữa kiểm soát viên và phi công Trong giai đoạn nghiên cứu ban đầu, hệ thống hỗ trợ tập trung vào khai thác dịch vụ điện toán đám mây Azure thuộc tập đoàn Microsoft Hệ thống đề xuất gồm có hai phần: trước tiên, tiếng nói của phi công và kiểm soát viên được chuyển đổi thành văn bản dựa trên nền tảng học sâu LSTM (Long Short Term Memory); sau đó tiếng nói của hai đối tượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó phát hiện ra lỗi lặp lại và lỗi nghe lại Các thí nghiệm được tiến hành với 10 mực bay trong vùng trời điều hành từ độ cao 15.000 feet đến 25.000 feet, trong môi trường bay giả lập và thực tế Kết quả thí nghiệm bước đầu đã cho tỷ lệ nhận dạng chấp nhận được và tỷ lệ phát hiện lỗi rất khả quan
Từ khóa – Kiểm soát không lưu, nhận dạng tiếng nói tự động, chuyển đổi tiếng nói sang văn bản, mạng
LSTM (Long Short Term Memory), lỗi nghe lại và lỗi lặp lại
APPLICATION OF AUTOMATIC SPEECH RECOGNITION TO SUPPORT
AIR TRAFFIC CONTROL
Abstract – Air traffic control activity plays a critical important role in accomplishing the safety and
maintaining the orderly flow of air flights Among other responsibilities, the controller cooperates with the pilot by instructing the pilot to follow the planned flight route and to resolve aircraft conflicts In order to decrease the workload of air traffic controllers we propose the application of the automatic speech recognition to detect controller-pilot voice miscommunication errors In the very beginning stage, the support system focuses on using Azure, a cloud computing service created by Microsoft group The system consists of two phases: firstly, pieces of speech of the pilot and the controller are converted into texts based on long short term memory (LSTM) network; secondly, these speech pieces are compared to each other based on comparing the two corresponding texts; then read back and hear back errors are detected The conducted experiments are implemented on 10 flight levels in the airspace between 15,000 feet and 24,500 feet, via simulated and realistic air environments Initially experimental results give the acceptable recognition rate and promissing error detection rate
Key words – Air traffic control, automatic speech recognition, speech-to-text, LSTM network (Long
Short Term Memory), hearback error and readback error
DUT.LRCC
Trang 6ADS-B Automatic Dependent Surveillance
AI Artificial Intelligence
ATC Air Traffic Control
ASR Automatic Speech Recognition
ASRS Aviation Safety Report System
AWS Amazon Web Service
BLSTM Bidirectional -Long Short Term Memory
CNN Convolution Neural Network
CNN-BLSTM Convolution Neural Network – Bi-Long Short Term Memory CNN-LSTM Convolution Neural Network - Long Short Term Memory DBM Deep Boltzmann Machines
DBN Deep Belief Network
DNN Deep Neural Network
DS2 Deep Speech 2
EPO European Patent Office
ERS Ergonomic Research Society
FAA Federal Aviation Administration
FAIR Facebook AI Research
FL Flight Level
GAN Generative adverarial network
GMM Gausian Makov model
GNSS Global Navigation Satellite System
GPU Graphics Processing Unit
HMM Hidden Makov Model
ICAO International Civil Aviation Organization
IEA International Ergonomi Association
DUT.LRCC
Trang 7LACE Layer-wise Context Expansion with Attention
LAS Listen, Attent and Spell
LSTM Long Short Term Memory
L-LSTM Layer - Long Short Term Memory
CAASD Center for Advanced Aviation System Developement NASA National Aeronautics and Space Administration NLP Natural Language Processing
SAE Stack Auto-Encoder
SSR Secondary Surveillance Radar
T-LSTM Time - Long Short Term Memory
TRACON Terminal Radar Approach Control
WER Word Error Rate
ResNet Residual Network
RNN Recurent Neural Network
PCM Pulse Code Modulation
VAE Variational Autoencoder
VHF Very High Frequency
DUT.LRCC
Trang 8Số hiệu bảng Tên bảng Trang 2.1 Các mô hình nhận dạng tiếng nói hiện nay 13
2.2 Tỷ lệ WER (%) của mô hình LSTM, lt LSTM
với tập kiểm tra là Cortana và Conversation 14
Trang 9DANH MỤC CÁC HÌNH
1.2 Sơ đồ các khối chức năng của hệ thống hỗ trợ hoạt
Trang 10Trên cơ sở đó, đề tài luận văn: “Ứng dụng kỹ thuật nhận dạng tiếng nói tự động để hỗ trợ hoạt động kiểm soát không lưu” được thực hiện với hai mục tiêu chính: Thứ nhất, nghiên cứu ứng dụng nhận dạng tiếng nói tự động vào việc so sánh hai câu nói để phát hiện trùng khớp hay sai khác nội dung Thứ hai, đề xuất hệ thống phần mềm phát hiện và cảnh báo lỗi nghe lại và lặp lại trong hoạt động kiểm soát không lưu với độ chính xác khoảng 80% Đối tượng nghiên cứu của luận văn là nhận dạng tiếng nói, là một nhánh con của trí tuệ nhân tạo, là nền tảng để hướng đến nghiên cứu về xử lý ngôn ngữ tự nhiên NLP (Natural Language Processing) đang rất phát triển hiện nay Cấu trúc luận văn gồm có 4 chương như sau:
Chương 1- Tổng quan về hoạt động kiểm soát không lưu
Chương 2- Lý thuyết ứng dụng trong nhận dạng tiếng nói tự động
Chương 3- Hệ thống nhận dạng tiếng nói tự động
Chương 4- Thí nghiệm và đánh giá hệ thống phát hiện lỗi tiếng nói
DUT.LRCC
Trang 11điện toán đám mây Azure thuộc tập đoàn Microsoft Hệ thống đề xuất gồm có hai phần: trước tiên, tiếng nói của phi công và kiểm soát viên được chuyển đổi thành văn bản dựa trên nền tảng học sâu LSTM (Long Short Term Memory); sau đó tiếng nói của hai đối tượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó phát hiện
ra lỗi lặp lại và lỗi nghe lại Các thí nghiệm được tiến hành với tiếng nói cần nhận dạng là
10 giá trị mực bay trong vùng trời điều hành từ độ cao 15.000 feet đến 25.000 feet, trong môi trường bay giả lập và thực tế Kết quả thí nghiệm bước đầu đã cho tỷ lệ nhận dạng chấp nhận được (81%) và tỷ lệ phát hiện lỗi rất khả quan
Đề tài có thể phát triển thành một thiết bị nhận dạng tức thời mối nguy hiểm dễ xảy ra trong công việc hằng ngày của KSVKL và xuất ra cảnh báo kịp thời với tỉ lệ cảnh báo đúng
là cao nhất, nhờ đó giảm thiểu sai sót, giảm áp lực công việc cho KSVKL, góp phần vào bảo đảm an toàn giao thông hàng không
Qua lời mở đầu của cuốn luận văn này, em xin chân thành cảm ơn các thầy cô trong khoa Điện tử -Viễn Thông đã truyền dạy kiến thức từ khi em là sinh viên khóa 09DT đến học viên cao học khóa K37-38 hiện tại Đặc biệt, em xin cảm ơn cô Hoàng Lê Uyên Thục
đã hướng dẫn, giúp đỡ em từ những ý tưởng làm luận văn ban đầu và động viên em trong quá trình viết bài báo khoa học và hoàn thành luận văn tốt nghiệp hôm nay Một lần nữa,
em chân thành cảm ơn và chúc thầy cô luôn mạnh khỏe!
Xin gửi lời cảm ơn đến anh Vũ Hồng Sơn đã tạo điều kiện để em thu thập dữ liệu ghi
âm tiếng nói điều hành bay tại Đài Kiểm soát không lưu Đà Nẵng!
Xin gửi lời cảm ơn đến các anh em đồng nghiệp tại đội Radar Sơn Trà đã quan tâm, chia sẻ và tạo điều kiện để tôi gấp rút hoàn thành bài báo gửi đến hội nghị FAIR và viết luận văn này trong thời gian đi trực chốt dịch COVID -19 vừa qua!
Con xin gửi lời cảm ơn đến gia đình đã ủng hộ, tin tưởng, luôn động viên con trong thời gian qua và luôn là chỗ dựa tinh thần vững vàng nhất!
Cuối cùng, cảm ơn người đã luôn ủng hộ anh, cho anh ý tưởng thực tiễn để làm đề tài luận văn này và hỗ trợ anh trong suốt thời gian đi học cao học cho đến thời điểm hoàn thành luận văn này, Hoàng Lê Hoài Phương!
Trong quá trình làm luận văn có gì thiếu sót mong thầy cô bỏ qua Một lần nữa, em xin chúc sức khỏe và xin chân thành cảm ơn!
DUT.LRCC
Trang 12Chương 1 - TỔNG QUAN HOẠT ĐỘNG KIỂM SOÁT
KHÔNG LƯU
1.1 Giới thiệu chương
Chương đầu tiên của luận văn này sẽ giới thiệu tổng quan về hoạt động kiểm soát không lưu, các yếu tố từ con người ảnh hưởng đến hoạt động kiểm soát không lưu và tình hình ứng dụng nhận dạng tiếng nói tự động vào hoạt động kiểm soát không lưu trên thế giới
1.2 Cơ bản về hoạt động kiểm soát không lưu
Trong thập niên gần đây, ngành công nghiệp hàng không đã có những bước tăng trưởng vượt bậc Cùng với sự phát triển không ngừng của kinh tế, du lịch, dịch vụ thì nhu cầu vận tải hàng hoá, đi lại của con người bằng đường hàng không ngày càng mang tính phổ thông hơn vì sự an toàn và thuận tiện Các hãng hàng không được mở ra nhiều hơn, số đường bay khai thác mới và số chuyến bay cất hạ cánh trong ngày gia tăng nhanh chóng [1]
Sự phát triển mạnh mẽ của ngành hàng không khiến cho hoạt động điều hành bay càng trở nên khó khăn và đầy thách thức Hoạt động điều hành bay được thực hiện bởi kiểm soát viên không lưu (KSVKL)- là những người chuyên trách đảm nhận việc gửi các hướng dẫn
và cảnh báo đến phi công nhằm giúp tàu bay tuân thủ lộ trình bay và tránh va chạm giữa các tàu bay trong cùng vùng trời điều hành hoặc giữa các vùng trời lân cận, đảm bảo điều phối hiệu quả và thông suốt từ lúc tàu bay cất cánh đến khi hạ cánh [2] Quy trình hoạt động của KSVKL có thể minh hoạ thông qua hai vòng lặp như thể hiện trên Hình 1.1 [2] Vòng lặp bên ngoài có mục đích chính là giám sát, thông báo cho KSVKL về tình trạng hiện tại của tàu bay và toàn hệ thống Vòng lặp ngoài bao gồm: KSVKL gởi hướng dẫn đến phi công (thể hiện ở nhánh A), phi công thực hiện điều khiển máy bay (thể hiện ở nhánh B), lộ trình của máy bay được giám sát bởi đài giám sát (thể hiện ở nhánh C), đài giám sát cung cấp thông tin về máy bay cho hệ thống quản lý không lưu tự động (thể hiện ở nhánh D), hệ thống này cung cấp thông tin cho KSVKL hiển thị trên màn hình radar (thể hiện ở nhánh E) Vòng lặp bên trong là sự trao đổi thông tin bằng tiếng nói giữa KSVKL và phi công (thể hiện ở nhánh A hai chiều)
DUT.LRCC
Trang 13Hình 1.1 Hệ thống kiểm soát không lưu[2]
Hiện nay, Việt Nam có tổng cộng 22 Đài kiểm soát không lưu tại các sân bay quốc
tế và nội địa trong cả nước; 03 Cơ sở kiểm soát tiếp cận ở Sân bay Nội Bài, Đà Nẵng và Tân Sơn Nhất; và 02 Trung tâm Kiểm soát đường dài Hồ Chí Minh và Trung tâm Kiểm soát Không lưu Hà Nội Phân cách an toàn quy định giữa các tàu bay tuân thủ theo quy định quốc tế của tổ chức ICAO, cụ thể là khoảng cách tối thiểu là 1.000 feet (304.8 m) theo độ cao, 5 dặm (9.26 km) theo phương ngang trong vùng trời tiếp cận và 10 dặm (18,52 km) trong vùng trời đường dài Để hỗ trợ việc giám sát tàu bay bảo đảm đúng phân cách của KSVKL, hiện nay tại các trung tâm điều hành bay đang sử dụng thiết bị giám sát như hệ thống dẫn đường toàn cầu sử dụng tín hiệu vệ tinh GNSS, hệ thống giám sát tự động phụ thuộc quảng bá ADS-B, hệ thống radar thứ cấp SSR nhằm giúp KSVKL kiểm tra sự tương quan giữa huấn lệnh được đưa ra và hành động của phi công Ngoài ra, KSVKL phải kiểm soát tốt huấn lệnh được phát ra, đồng thời nghe lại và theo dõi cẩn thận việc lặp lại và hành động của phi công theo huấn lệnh Tuy nhiên, các phương pháp này chỉ giảm thiểu được một phần rủi ro do, trên thực tế vẫn không phát hiện triệt để các nhầm lẫn từ việc nghe
và nói của KSVKL, kể cả nhìn vào các màn hình các thiết bị giám sát bởi vì tất cả các công việc nói, nghe, nhìn đều mang yếu tố chủ quan của một người KSVKL, và con người không phải lúc nào cũng trong trạng thái tốt nhất để thực hiện tốt các chức năng đó Các vấn đề
có thể ảnh hưởng đến trạng thái làm việc của con người như sự tập trung, quá nhiều việc hoặc quá ít việc gây xao nhãng, nghe nhầm, nói nhầm theo thói quen được gọi là các yếu
DUT.LRCC
Trang 14tố con người [4] Nhằm hạn chế thấp nhất sai sót do các yếu tố đó, hiện nay tại các tháp điều hành bay, các phiên điều hành bay đang sử dụng thêm người để giám sát và hỗ trợ cho KSVKL, dẫn đến hiệu quả sử dụng lao động chưa cao [5]
Không nằm ngoài xu thế phát triển chung của hàng không toàn cầu, hàng không Việt Nam cần có kế hoạch tự động hoá dần dần hoạt động giám sát và hỗ trợ cho KSVKL Để chuẩn bị cho bước đi này, trong giai đoạn ban đầu, chúng tôi đặt ra bài toán thử nghiệm ứng dụng kỹ thuật nhận dạng tiếng nói tự động (ASR) vào hỗ trợ cho KSVKL người Việt Trước mắt, nghiên cứu tập trung vào nhiệm vụ hàng đầu của KSVKL là bảo đảm phân cách
an toàn giữa các tàu bay, thông qua phát hiện lỗi lặp lại của KSVKL về các huấn lệnh thay đổi mực bay (FL) Dữ liệu được lựa chọn cho thử nghiệm được thu thập từ các Đài điều hành bay thuộc Công ty Quản lý bay Miền Trung
1.3 Yếu tố con người trong hoạt động không lưu
1.3.1 Yếu tố con người
Hiệu suất của con người được coi là yếu tố nguyên nhân tiềm ẩn trong phần lớn các
vụ tai nạn máy bay Nếu muốn giảm tỷ lệ tai nạn, các vấn đề về yếu tố con người trong hàng không phải được hiểu rõ hơn và áp dụng kiến thức về yếu tố con người một cách rộng rãi và chủ động hơn Như vậy, kiến thức về yếu tố con người phải được áp dụng, được tính toán và tích hợp trong giai đoạn thiết kế và chứng nhận hệ thống, cũng như trong quá trình chứng nhận nhân sự khai thác, điều hành tàu bay, trước khi hệ thống và con người đi vào hoạt động Việc mở rộng nhận thức về yếu tố con người mang đến cho cộng đồng hàng không quốc tế một cơ hội quan trọng nhất để làm cho hàng không an toàn hơn và hiệu quả hơn[4]
Các yếu tố con người được thể chế hóa cùng lúc với sự thành lập của một số tổ chức như Hiệp hội Nghiên cứu mối quan hệ giữa lao động và con người (ERS) vào năm 1949, Hiệp hội Các Yếu tố Con người (HFS) năm 1957 và Hiệp hội Quốc tế Nghiên cứu mối quan hệ giữa lao động và con người (IEA) vào năm 1959 [4]
Sự hiểu biết về các yếu tố con người cơ bản trong toàn ngành hàng không đã dẫn đến nhiều cách tiếp cận khác nhau đối với cách đào tạo chính thức ở các quốc gia khác nhau Qua việc điều tra nguyên nhân một số vụ tai nạn hoàn toàn do yếu tố con người, đã khiến ICAO ban hành các yêu cầu đào tạo về yếu tố con người trong khi đào tạo nhân viên hàng không và trong quá trình điều tra tai nạn [4] Thỏa thuận năm 1976 giữa Cục Hàng không Liên bang Hoa Kỳ (FAA) và Cơ quan Hàng không và Vũ trụ Quốc gia (NASA) để thiết lập
Hệ thống Báo cáo An toàn Hàng không (ASRS) bí mật, không trừng phạt, tự nguyện đã tạo được một nơi báo cáo và chia sẻ các sự vụ sự cố một cách tự nguyện, trung thực của các phi công và KSVKL Theo số liệu thống kê từ trang web của hệ thống ASRS này, số báo
DUT.LRCC
Trang 15cáo liên quan từ khóa tìm kiếm “Human factor” và “Confusion” là 14.152 báo cáo [6] cho thấy sự cố do yếu tố con người góp phần không nhỏ trong các sự cố hàng không Các chương trình tương tự sau đó đã được thiết lập ở Vương quốc Anh (CHIRP), Canada (CASRP) và Úc (CAIR)
1.3.2 Ý nghĩa của yếu tố con người
Yếu tố con người được áp dụng cho bất kỳ yếu tố nào liên quan đến con người Yếu tố con người là bộ phận linh hoạt, dễ thích ứng và có giá trị nhất trong hệ thống hàng không, nhưng cũng là yếu tố dễ bị tác động nhất có thể ảnh hưởng xấu đến hiệu quả hoạt động Trong suốt những năm qua, khoảng ba trong số bốn vụ tai nạn là do hoạt động của con người kém hơn mức tối ưu [4] Điều này thường được phân loại là lỗi của con người Thuật ngữ “yếu tố con người” không giúp ích gì trong việc ngăn ngừa tai nạn bởi vì mặc dù nó có thể chỉ ra sự cố xảy ra ở ĐÂU trong hệ thống, nhưng nó không cung cấp hướng dẫn TẠI SAO nó xảy ra Tuy nhiên, tư duy an toàn đương đại cho rằng lỗi của con người nên là điểm xuất phát để có các biện pháp ngăn chặn hơn là điểm dừng lại trong điều tra sự cố khi nguyên nhân được tìm thấy là do yếu tố con người Lỗi do con người trong hệ thống có thể do thiết kế gây ra hoặc bởi nội dung đào tạo không đầy đủ, các quy trình được thiết kế sai; các hướng dẫn, bố cục không rõ ràng của danh sách kiểm tra hoặc sổ tay hướng dẫn[19] Sự hiểu biết về các khả năng và hạn chế có thể dự đoán được của con người và việc áp dụng hiểu biết này là những mối quan tâm chính của yếu tố con người Yếu tố con người đã được phát triển, hoàn thiện và thể chế hóa từ cuối thế kỷ trước, và hiện được hỗ trợ bởi một kho kiến thức khổng lồ để tất cả nhân viên hàng không có thể áp dụng và cả các kỹ sư ứng dụng công nghệ hiện đại để tạo ra các sản phẩm tăng cường an toàn cho hệ thống hàng không dân dụng ngày nay
1.3.3 Lỗi lặp lại và nghe lại
Tổ chức Hàng không Dân dụng Quốc tế (ICAO) quy định liên lạc bằng tiếng nói giữa KSVKL và phi công được thực hiện trên phương tiện liên lạc vô tuyến cao tần VHF KSVKL theo dõi thông tin từ màn hình radar để đưa ra huấn lệnh, phi công sau khi nghe phải đọc lại nội dung huấn lệnh để xác nhận, gọi là read back, KSVKL phải nghe lại xác nhận read back của phi công, gọi là hear back Nếu nội dung hear back không đúng nội dung huấn lệnh đã gởi đi thì KSVKL phải đọc lại nội dung huấn lệnh một lần nữa Lỗi phi công xác nhận lại huấn lệnh không đúng được gọi là lỗi lặp lại (read back error) Trường hợp KSVKL nghe phi công xác nhận huấn lệnh không đúng nhưng không phát hiện được gọi là lỗi nghe lại (hear back error) Nếu hai lỗi này cùng xảy ra thì nguy cơ cao sẽ gây ra mất an toàn hàng không
DUT.LRCC
Trang 16Về nguyên nhân gây ra lỗi nghe lại và lỗi lặp lại, có thể phân chia làm hai nguyên nhân chính là do yếu tố kỹ thuật và yếu tố con người Lỗi do yếu tố kỹ thuật bao gồm chất lượng của kênh truyền VHF và thiết bị thu phát âm tần như micro và loa Muốn giảm thiểu lỗi kỹ thuật này, ta có thể nâng cao chất lượng kênh truyền VHF bằng cách đặt bộ lọc nhiễu thích nghi tại máy thu Lỗi do yếu tố con người có thể do vô thức, do kỹ năng nghe, do phát
âm giọng địa phương,v v Ngay cả khi môi trường làm việc quá rảnh hoặc quá bận do điều hành nhiều tàu bay môt lúc đều có thể gây ra mất tập trung dẫn đến lỗi do yếu tố con người Trong tình hình lưu lượng chuyến bay tăng nhanh mỗi năm, yêu cầu phải nghe, nói
và hiệp đồng liên tục với nhiều phi công trên nhiều tàu bay đồng thời thông qua môi trường VHF đòi hỏi KSVKL phải chịu đựng được cường độ công việc cực kỳ cao và áp lực công việc cực kỳ lớn Điều này dẫn đến gia tăng nguy cơ xảy ra sai sót trong quá trình nghe, nói
để chỉ dẫn và hiệp đồng với tàu bay, làm gia tăng nguy cơ mất an toàn hàng không
Cụ thể, số liệu thống kê tại TRACON (Terminal Radar Approach Control) của nhóm nghiên cứu MITRE CAASD cho biết một trong những lỗi trong thông tin liên lạc hàng không phổ biến là lỗi nghe lại của KSVKL và lỗi lặp lại của phi công, trong đó lỗi lặp lại chiếm 6% và lỗi nghe lại chiếm 92% [7] Trong báo cáo về các vụ xâm phạm đường cất hạ cánh do lỗi từ phía KSVKL thì có 10,7 % là do lỗi đọc lại Đối chiếu với tổng số chuyến bay điều hành trong vòng 6 năm của 500 đài Điều hành bay trên toàn nước Mỹ, dự đoán sẽ xảy ra 129 vụ xâm phạm đường cất hạ cánh do lỗi đọc lại, cứ 407.000 lần xảy ra lỗi lặp lại hoặc 163.000 lần xảy ra lỗi nghe lại sẽ dẫn đến 1 vụ xâm phạm đường cất hạ cánh[7] Tuy xác suất này rất bé nhưng tiềm ẩn hậu quả cực kỳ nặng nề khi sự cố dẫn đến tai nạn hàng không!
Như vậy, vấn đề cấp bách đặt ra là cần có các biện pháp ứng dụng công nghệ hỗ trợ để giảm bớt áp lực công việc cho KSVKL, giảm rủi ro tai nạn do lỗi trong thông tin liên lạc giữa KSVKL và phi công
1.4 Tình hình nghiên cứu về ứng dụng nhận dạng tiếng nói trong hoạt động không lưu
Năm 2010, một bài báo khoa học “System And Method For Reducing Aviation Voice Communication Confusion” [8] từ công ty Collin Aerospace, là một đơn vị của tập đoàn Raytheon Technology Corp dẫn đầu về công nghệ thông minh và tiên tiến cho ngành công nghiệp quốc phòng và hàng không vũ trụ toàn cầu, đã mô tả các khối chức năng cơ bản của một hệ thống nhận dạng tiếng nói và so sánh để phát hiện các lỗi nhầm lẫn về định danh chuyến bay (Flight ID) hoặc tên đường lăn Nguyên lý của hệ thống cơ bản có 4 khối chức năng theo thứ tự như sau: Nhận dạng tiếng nói thứ nhất, nhận dạng tiếng nói thứ hai, so sánh hai tiếng nói, phát cảnh báo nếu có sai khác Bài báo đã mô tả chức năng từng khối và
đề cập đến việc sử dụng kỹ thuật nhận dạng tiếng nói Speech recognition để thưc hiện nhận
DUT.LRCC
Trang 17dạng ở bước 1 và bước 2 của hệ thống Tuy chưa có kết quả thí nghiệm nhưng bài báo là nền móng đầu tiên để tiếp cận ứng dụng nhận dạng tiếng nói vào hoạt động hàng không
Trong vòng 5 năm trở lại đây, ứng dụng nhận dạng tiếng nói tự động vào lĩnh vực điều khiển không lưu là một hướng đi mới, nhiều thách thức, thu hút được sự quan tâm rất lớn từ các hãng hàng không trên thế giới Nhiều kỹ sư, nhà nghiên cứu đến từ các tập đoàn
về lĩnh vực hàng không hoặc các tổ chức hàng không thế giới, các chuyên gia về trí tuệ nhân tạo của tập đoàn phần mềm Microsoft đã có những bài báo khoa học, dự án về ứng dụng ASR vào hoạt động kiểm soát không lưu:
Năm 2015, một bài báo được Văn phòng Sáng chế Châu Âu (EPO) công bố với tiêu
đề “Aircraft systems and methods for reducing and detecting read-back and hear-back errors” [9] đề xuất một hệ thống phát hiện lỗi nghe và lặp lại của phi công và kiểm soát viên không lưu bằng kỹ thuật Speech-to-text, hiển thị lên màn hình thông tin điều hành bay như định danh tàu bay (aircraft identify, call sign) hướng mũi tàu bay và các thông tin lên xuống duy trì độ cao tàu bay để người KSVKL theo dõi, và hệ thống vẫn phát cảnh báo nếu phát hiện lỗi nghe và lặp lại xảy ra
Một bài báo khác từ các kỹ sư của công ty Honeywell International Inc đã được EPO công bố tháng 12 năm 2016 với tiêu đề : “System and method for Aircraft voice - to- text communication message validation ”[10] cũng đề xuất hệ thống nhận dạng lỗi nghe lại và lặp lại dựa trên chuyển đổi tiếng nói sang văn bản Tuy nhiên, bài báo có đề cập sử dụng thêm một khối có nhiệm vụ phân tích từ khóa (Keyword Analyzer) và thư viện từ khóa (Keyword dataset) để tăng độ chính xác của việc chuyển đổi voice -to- text dựa trên nguyên
lý phân tích, xác định các từ khóa quan trọng và các từ khóa phụ thuộc của nó dựa trên thư viện từ khóa đã được nạp vào chương trình trước đó
Ngoài ra còn có các bài báo của các cá nhân được đăng trên trang tài liệu học thuật của tập đoàn Microsoft [11] như: Civil-Aviation Ground-Air Dialogue Verification System (2016), Voice Recognition Method And Voice Recognition Device In Air Traffic Control Systerm (2010), Pilot Repeat Monitering Method And Device (2017)
Năm 2018 hãng hàng không Airbus đã tổ chức cuộc thi “The Airbus Air Traffic Control speech recognition 2018 challenge: towards ATC automatic transcription and call sign detection”[12] dành cho các công ty, nhà nghiên cứu, các nhóm khởi nghiệp, trường đại học, cao đẳng, viện nghiên cứu và các nhân với mục đích chia sẻ một số những trở ngại trong ngành hàng không vũ trụ và cung cấp các tập dữ liệu để thúc đẩy nghiên cứu và hợp tác trong lĩnh vực này Hai nội dung ra thi là chuyển đổi tự động hội thoại của phi công từ tiếng nói sang văn bản và phát hiện cuộc gọi từ KSVKL đến tàu bay đã nhận được rất nhiều bài dự thi đến từ các công ty và start-up trên toàn thế giới, từ các nhóm nghiên cứu của các trường đại học và cả cá nhân
DUT.LRCC
Trang 18Ngoài ra, hội nghị quốc tế về tiếng nói INTERSPEECH lần thứ 21 sẽ được tổ chức tại Trung tâm Hội nghị Quốc tế Thượng Hải, từ ngày 25 đến ngày 29 tháng 10 năm 2020 INTERSPEECH đã phát triển thành hội nghị kỹ thuật lớn nhất thế giới tập trung vào xử lý
và ứng dụng giọng nói với hơn 1000 người tham dự và hơn 600 bài báo[13] Hội nghị nhấn mạnh các cách tiếp cận liên ngành giải quyết tất cả các khía cạnh của khoa học và công nghệ lời nói, từ các lý thuyết cơ bản đến các ứng dụng nâng cao với mong đợi sẽ có những bài báo về ứng dụng nhận dạng tiếng nói tự động trong ngành hàng không
1.5 Các ứng dụng nhận dạng tiếng nói tự động trong điều khiển không lưu
Nhận dạng tiếng nói tự động ứng dụng trong điều khiển không lưu có những đặc điểm riêng và khác biệt so với các ứng dụng trong các lĩnh vực khác, cụ thể là chất lượng âm thanh rất tệ do môi trường truyền âm là môi trường vô tuyến VHF có nhiễu lớn, ngôn ngữ
sử dụng là tiếng Anh được phát âm từ người nói đến từ khắp nơi trên thế giới gồm cả người bản xứ và không phải bản xứ, tốc độ nói thường nhanh hơn bình thường, đôi khi có thể xảy
ra nhập nhằng ví dụ như nhập nhằng giữa mực bay và tốc độ Bên cạnh những khó khăn kể trên thì nhận dạng tiếng nói trong điều khiển không lưu cũng có một số thuận lợi, chẳng hạn như tính chất của hội thoại là hướng đến nhiệm vụ trong lĩnh vực hẹp nên số lượng từ vựng ít hơn thông thường, ngữ nghĩa ít rối hơn thông thường và định dạng của hội thoại tuân thủ theo các quy định quốc tế
Vì những lý do phân tích ở trên nên nghiên cứu ứng dụng nhận dạng tiếng nói vào điều khiển không lưu là một nhánh mới thuộc lĩnh vực nhận dạng tiếng nói tự động Đây là hướng nghiên cứu mở rất hứa hẹn và thu hút sự quan tâm lớn của ngành hàng không
Có thể phân chia ứng dựng nhận dạng tiếng nói trong điều khiển không lưu thành 04 nhóm sau đây[14]:
- Đào tạo học viên kiểm soát không lưu: hiện nay học viên được đào tạo nhờ vào “phi
công giả”- là người đóng vai phi công, hành xử giống như phi công thật, hội thoại giống như phi công thật trong môi trường liên lạc giả lập Việc sử dụng phi công giả đòi hỏi chi phí cao và kém linh hoạt Vấn đề này được giải quyết bằng cách sử dụng nhận dạng tiếng nói tự động để tạo ra ứng dụng “phi công tự động”- là phần mềm có thể hiểu, xử lý tiếng nói của học viên và đáp ứng lại học viên bằng khối tổng hợp tiếng nói
- Đo lường và cân bằng tải công việc của KSVKL: trong hệ thống kiểm soát không
lưu, tải công việc của KSVKL là yếu tố quyết định làm hạn chế hiệu suất của cả hệ thống, đặc biệt trong điều kiện tăng nhanh lưu lượng bay thì vấn đề đo lường và cân bằng tải công việc cho KSVKL càng trở nên quan trọng Công việc này nếu thực hiện thủ công sẽ rất khó khăn và tốn chi phí rất lớn Với sự trợ giúp của hệ thống nhận dạng tiếng nói, các sự kiện
DUT.LRCC
Trang 19điều khiển do KSVKL nói ra sẽ được tự động phát hiện, từ đó tải công việc sẽ được đo lường trực tiếp để dùng cho cân bằng tải công việc một cách tự động
- Phân tích và phiên dịch hội thoại giữa KSVKL và phi công: với sự hỗ trợ của hệ
thống nhận dạng tiếng nói, ta có thể phân tích tự động một khối lượng dữ liệu hội thoại lớn
để dùng cho điều tra và cải thiện các giao thức và quy định đối với KSVKL Công việc phân tích cũng là một thành phần trong quá trình chuyển đổi đoạn âm thanh tiếng nói sang dạng văn bản, dựa vào văn bản này có thể so khớp câu huấn lệnh của KSVKL và câu lặp lại của phi công để phát hiện lỗi
- KSVKL dự phòng: hệ thống nhận dạng tiếng nói tự động kết hợp với các nguồn thông
tin khác trong ngữ cảnh kiểm soát không lưu (thông tin radar, độ cao an toàn tối thiểu, vùng giới hạn, thông tin thời tiết, v.v) có thể được sử dụng làm đầu vào cho một hệ thống được gọi là KSVKL dự phòng KSVKL dự phòng có thể nắm bắt các tình huống nguy hiểm tiềm
ẩn bị KSVKL thực bỏ sót, đưa ra các đề xuất và thông tin an toàn cho KSVKL xem xét
1.6 Giới thiệu hệ thống hỗ trợ hoạt động kiểm soát không lưu
Để giải quyết vấn đề cấp thiết của đề tài đã nêu ở trên, luận văn đề xuất một hệ thống
hỗ trợ hoạt động kiểm soát không lưu gồm hai khối chức năng chính là hệ thống nhận dạng tiếng nói và khối so khớp (Hình 1.2) Chức năng của hệ thống này chính là ứng dụng thứ
ba Phân tích và phiên dịch hội thoại giữa KSVKL và phi công đã được đề cập ở mục 1.5
Trong hình 1.2, tiếng nói của KSVKL trước khi phát đến phi công qua hệ thống phát
vô tuyến VHF sẽ được trích ra và đưa vào hệ thống nhận dạng tiếng nói tự động Tiếng nói của phi công từ tàu bay, sau khi thu về qua thiết bị thu vô tuyến VHF đã loại bỏ bớt nhiễu được trích ra đưa vào hệ thống nhận dạng tiếng nói tự động Tiếng nói của KSVKL và phi công sau khi ra khỏi hệ thống nhận dạng tiếng nói sẽ cùng được đưa vào phần mềm so khớp Nếu kết quả so khớp không giống nhau thì sẽ xuất ra cảnh báo cho người KSVKL biết xảy ra lỗi nghe và lặp lại
DUT.LRCC
Trang 20Hình 1.2 Sơ đồ các khối chức năng của hệ thống hỗ trợ hoạt động kiểm soát không lưu
Độ chính xác của hệ thống hỗ trợ phụ thuộc rất lớn vào khả năng nhận dạng tiếng nói của hệ thống nhận dạng tiếng nói Tuy nhiên không nhất thiết phải nhận dạng được hoàn toàn 100% nội dung của cuộc đối thoại giữa KSVKl và phi công, tùy vào mục tiêu so khớp
là các thông tin nào của tàu bay như mực bay, hướng mũi tàu bay, định danh tàu bay, số hiệu đường lăn, đường băng, hay các huấn lệnh thay đổi độ cao…thì hệ thống chỉ cần nhận dạng được các thông thông tin đó để đưa vào so khớp và xuất ra cảnh báo nếu có lỗi
DUT.LRCC
Trang 21Chương 2 - LÝ THUYẾT ỨNG DỤNG TRONG NHẬN DẠNG
TIẾNG NÓI TỰ ĐỘNG
2.1 Giới thiệu chương
Nhận dạng tiếng nói tự động là quá trình phân lớp đoạn tiếng nói đầu vào thành một dãy tuần tự các mẫu đã được học Tuỳ theo cấp độ của bài toán nhận dạng mà mẫu học là
âm vị hoặc là từ Trường hợp mẫu là từ thì nhận dạng tiếng nói có thể xem là chuyển câu nói thành văn bản, với câu là chuỗi gồm các từ chứa trong câu nói Nhận dạng tiếng nói là một nhiệm vụ hết sức khó khăn và phức tạp do tiếng nói luôn biến thiên theo thời gian, do
sự khác biệt lớn giữa những người nói khác nhau (phát âm, âm sắc, độ to, độ cao,…), tốc
độ nói khác nhau, ngữ cảnh khác nhau, môi trường âm học khác nhau[15] Nội dung phần này trình bày những nền tảng lý thuyết của bài toán nhận dạng tiếng nói được sử dụng trong luận văn này
2.2 Quá trình hình thành và phát triển của mô hình LSTM
Hiện nay, các mô hình RNN đang dẫn đầu các hệ thống nhận dạng tiếng nói hiện tại, đặc biệt là trong các ứng dụng mới nổi của NLP RNN đã thành công trong việc cải thiện hiệu suất nhận dạng tiếng nói vì khả năng học các mẫu tuần tự trong dữ liệu lời nói, ngôn ngữ hoặc chuỗi thời gian Một kiến trúc RNN bao gồm các lớp ẩn giữ lại bộ nhớ của các phần tử trong quá khứ của một chuỗi đầu vào Mặc dù hiệu quả trong việc mô hình hóa dữ liệu tuần tự, các RNN bị hạn chế về khả năng ghi nhớ các thông tin từ các bước có khoảng cách xa trong quá khứ do đó những phần tử đầu tiên trong chuỗi đầu vào không có nhiều ảnh hưởng đến kết quả tính toán dự đoán phần tử cho chuỗi đầu ra ở các bước sau Mô hình LSTM làm giảm bớt sự thiếu sót này bằng các đơn vị ẩn đặc biệt được gọi là “cổng” có thể kiểm soát hiệu quả quy mô thông tin cần nhớ hoặc quên trong quá trình truyền thông tin Sak và cộng sự lần đầu tiên nghiên cứu kiến trúc LSTM trong nhận dạng tiếng nói trên một
bộ từ vựng lớn, đó là mô hình LSTM sâu hai lớp gọi là Deep-Speech-2 (DS2) , được cho
là vượt trội hơn so với mô hình DBN cơ bản DS2 áp dụng cho hai ngôn ngữ chủ yếu khác nhau là Tiếng Anh và tiếng Trung phổ thông [16]
Các nghiên cứu nhận dạng giọng nói khác sử dụng mạng LSTM đã cho thấy hiệu suất đáng kể cải tiến so với các mô hình dựa trên DBN hiện đại trước đây Cụ thể Chien và cộng sự đã thực hiện một thử nghiệm với các kiến trúc LSTM khác nhau để nhận dạng tiếng nói và so sánh hiệu suất với các mô hình DBN hiện đại[16]
Mô hình LSTM được mở rộng trong nghiên cứu của Xiong sang LSTM hai chiều[17] BLSTM này được xếp chồng lên nhau trên các lớp phức hợp để cải thiện hiệu suất nhận dạng tiếng nói
DUT.LRCC
Trang 22Các mô hình LSTM hoạt động tốt hơn với cơ chế Attention (chú ý) Cơ chế Chú ý bao gồm Nghe, Tham dự và Đánh vần (LAS) lần lượt được sử dụng để mã hóa, tham dự
và giải mã Mô-đun LAS này được sử dụng với LSTM để cải thiện hiệu suất nhận dạng giọng nói [18] Sử dụng kỹ thuật Pre-training kết hợp với Attention và mô hình LSTM đã cải thiện hiệu suất nhận dạng tiếng nói lên một cấp độ mới nhất, hiệu quả nhất [19] Bảng 2.1 tổng hợp các mô hình khác nhau, bộ dữ liệu được sử dụng và hiệu suất tỷ lệ lỗi đạt được bởi các mô hình nhận dạng tiếng nói hiện đại nhất[16]
Bảng 2.1 Các mô hình nhận dạng tiếng nói hiện nay
Autoencoder/DBN –
Collaboration,2012
English Broadcast News Speech Corpora (spoken word recognition)
15.5 %
LSTM-Google,2014 Google Voice Search Task
(spoken word recognition)
10.7 %
Deep LSTM- National Chiao
Tung University
ChiME 3 Challeng (spoken word recognition)
3.54 %
Mô hình dựa trên RNN (bao gồm cả LSTM) đã vượt xa nhận dạng tiếng nói để tiến đến hỗ trợ xử lý ngôn ngữ tự nhiên (NLP) NLP nhằm mục đích diễn giải ngôn ngữ và ngữ nghĩa từ lời nói hoặc văn bản để thực hiện nhiều tác vụ thông minh, chẳng hạn như phản hồi tiếng nói của con người, trợ lý thông minh (Siri,Alexa và Cortana), phân tích cảm xúc
để xác định thái độ tích cực hoặc tiêu cực đối với một tình huống, xử lý các sự kiện hoặc tin tức, và dịch ngôn ngữ trong cả bài phát biểu và văn bản Để áp dụng RNN / LSTM tối
ưu hơn trong phân tích tình cảm, các tác giả trong [20] đã đề xuất một kiến trúc cây LSTM ( Tree- LSTM) để nắm bắt cảm xúc từ các cụm từ tạo thành nên các bậc cảm xúc khác nhau trong ngôn ngữ tự nhiên
Gần đây hơn, Karpathy và cộng sự đã sử dụng một phương pháp kết hợp, kết hợp mô
tả ngôn ngữ tuần tự từ LSTM và thị giác máy tính từ CNN để đạt được hiệu suất tối ưu trong chú thích hình ảnh[16]
DUT.LRCC
Trang 23Nhận dạng giọng nói cũng có một số bộ dữ liệu tiêu chuẩn mới nhất đến thời điểm hiện tại như hợp tác giữa Texas Instruments và MIT để tạo tập dữ liệu phiên âm giọng nói TIMIT thu thập từ 630 người nói tiếng Anh Mỹ VoxCeleb là tập dữ liệu giọng nói mới hơn, với hơn 1000 phiên âm giọng nói của những người nổi tiếng không bị giới hạn và trong bối cảnh tự nhiên[16]
2.3 Mô hình LSTM kết hợp phương pháp học sâu
LSTM tiêu chuẩn là một T-LSTM (Time-LSTM) thực hiện hồi qui thời gian bằng cách lấy đầu ra của T- LSTM tại bước thời gian trước đó làm đầu vào củaT- LSTM tại thời điểm hiện tại Để tăng sức mạnh mô hình hóa, nhiều lớp T- LSTM các đơn vị được xếp chồng lên nhau để tạo thành một LSTM nhiều lớp (Multi- layer LSTM) được hiển thị trong Hình 2.1
Hình 2.1 Mô mình LSTM nhiều lớp ẩn
Từ Hình 2.1, có thể thấy rằng đầu ra của một LSTM được sử dụng làm đầu vào của LSTM tại cùng một bước trong lớp tiếp theo và đầu vào của LSTM của bước tiếp (recurrent input) theo trong cùng một lớp Lớp ẩn cuối cùng của đầu ra được sử dụng để dự đoán kết quả nhận dạng Do đó, cùng một đầu ra được sử dụng cho mục đích ghi nhớ tạm thời của
mô hình dọc theo trục thời gian và mục đích của việc phân biệt đặc điểm tiếng nói dọc theo trục lớp Tuy nhiên, hai mục đích này thực sự là rất khác nhau Do đó, mô hình LSTM thời gian tiêu chuẩn có thể không được tối ưu
DUT.LRCC
Trang 24Trong bài báo [21], nhóm nghiên cứu của Microsoft đã đề xuất một mô hình mới được gọi là ltLSTM (Layer trajectory LSTM) khi thêm vào các đơn vị L-LSTM (Layer LSTM) như hình 2.2 L-LSTM quét các đầu ra của các lớp T-LSTM của cùng một bước để thu thập thông tin tất cả các lớp, sử dụng cho việc phân loại sắc thái của từ Mô hình L-LSTM này
có nhiệm vụ khác với mô hình T-LSTM, nó mang các thông tin về tiếng nói như giọng điệu, giới tính, tuổi tác của người nói giúp mang lại lợi ích của cả độ chính xác và thời gian chạy cho mô hình ltLSTM
Hình 2.2 Mô hình Layer trajectory LSTM nhiều lớp ẩn (ltLSTM) Với thí nghiệm được đào tạo với 30 nghìn giờ dữ liệu giọng nói, ltLSTM 6 lớp cải thiện hơn so với LSTM 6 lớp tiêu chuẩn là 5,8% và 9,0% lần lượt trên các bộ kiểm tra Cortana
và Conversation[21]
DUT.LRCC
Trang 25Bảng 2.2 Tỉ lệ WER (%) của mô hình LSTM, ltLSTM với tập kiểm tra là Cortana và Conversation[10]
2.4 Các ứng dụng nhận dạng tiếng nói tự động sử dụng kỹ thuật học sâu
Trong những năm gần đây, các tập đoàn công nghệ lớn như Google, Facebook, Apple, Microsoft, IBM và một số công ty khác đã áp dụng học sâu như một trong những lĩnh vực nghiên cứu cốt lõi của họ về trí tuệ nhân tạo (AI)
Facebook tiến hành sâu rộng học nghiên cứu trong phòng thí nghiệm Nghiên cứu AI của Facebook (FAIR) [22] để nhận dạng hình ảnh và hiểu ngôn ngữ tự nhiên Nhiều người dùng trên toàn cầu đã tận dụng hệ thống nhận dạng này trong ứng dụng Facebook Cột mốc tiếp theo của họ là tích hợp các phương pháp tiếp cận NLP dựa trên học sâu vào hệ thống Facebook để đạt được hiệu suất gần giống với con người trong hiểu ngôn ngữ tự nhiên Gần đây, Facebook đã ra mắt hệ thống trợ lý AI beta có tên là ‘M’ ‘M’ sử dụng NLP để hỗ trợ các nhiệm vụ phức tạp hơn như mua đồ, sắp xếp việc giao quà, đặt chỗ nhà hàng và đi du lịch sắp xếp, hoặc cuộc hẹn
Microsoft đã nghiên cứu bộ công cụ Nhận thức (Cognitive Toolkit) cho phép người dùng cho thể huấn luyện mô hình bằng phương pháp học sâu trên máy tính cá nhân một cách hiệu quả Họ cũng đã triển khai một hệ thống nhận dạng giọng nói tự động đạt được cấp độ như con người trong nhận dạng giọng nói đàm thoại [23] Gần đây hơn, họ đã giới thiệu một trợ lý giọng nói dựa trên học sâu được gọi là Cortana và tích hợp nó trên hệ điều hành Window 10, iOS, Android, Windows Phone Các đối thủ trợ lý thông minh cạnh tranh chủ yếu của Cortana có thể kể đến như Apple Siri, Google Assistant , Amazon Alexa, Samsung Bixby Các ngôn ngữ phổ biến đều được hỗ trợ trên các trợ lý thông minh này như Tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Nhật, , tiếng Trung
Baidu đã nghiên cứu học sâu để tạo ra Hệ thống nhận dạng tiếng nói có tên Deep Speech
2 (DS2) đã cho thấy hiệu suất được cải thiện đáng kể so với các đối thủ cạnh tranh Baidu cũng là một trong những nhóm nghiên cứu tiên phong giới thiệu xe tự lái dựa trên công nghệ học sâu cùng BMW
IBM có gần đây đã giới thiệu hệ thống điện toán nhận thức (Cognitive computing) của
họ được gọi là Watson Hệ thống này kết hợp thị giác máy tính và nhận dạng giọng nói trong giao diện thân thiện với con người và hiểu được ngôn ngữ tự nhiên của con người Watson dựa trên hệ thống điện toán toán nhận thức đã cung cấp một loạt các ứng dụng hữu
DUT.LRCC
Trang 26ích khác nhau như chăm sóc sức khỏe, tiếp thị, bán hàng, dịch vụ khách hàng, hoạt động, nhân sự và tài chính
2.5 Kết luận chương
Chương 2 đã trình bày tiến trình nghiên cứu và phát triển của kỹ thuật nhận dạng tiếng nói tự động trên nền tảng học sâu và thành quả của nó là đã đạt được hiệu quả nhận dạng gần với con người trong một số tập dữ liệu xác định Các ứng dụng, hệ thống ASR được tích hợp trong các ứng dụng trong cuộc sống như xe tự lái, trợ lý thông minh, nhà thông minh… tất cả các tập đoàn công nghệ lớn đều đang hướng mục tiêu đến việc nghiên cứu
xử lý ngôn ngữ tự nhiên, để có thể phân tích và hiểu được cảm xúc, trạng thái của con người trong những ngữ cảnh khác nhau bằng cách kết hợp ASR và thị giác máy tính Trong chương tiếp theo sẽ trình bày nguyên lý chung ASR và cách thức để ứng dụng ASR và hệ thống phát hiện lỗi tiếng nói trong hoạt động điều hành bay
DUT.LRCC
Trang 27Chương 3 - HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG
3.1 Giới thiệu chương
Như đã trình bày ở chương I, mục tiêu của luận văn nhằm hỗ trợ phát hiện lỗi trong liên lạc bằng tiếng nói giữa KSVKL và phi công Đây là ứng dụng thuộc nhóm ứng thứ ba, được thực hiện dựa trên hai bước chính là:
Bước 1: Chuyển đổi câu huấn lệnh của KSVKL và câu lặp lại của phi công thành văn bản Bước 2: So khớp hai văn bản này để phát hiện lỗi lặp lại và lỗi nghe lại
Như vậy có thể nói nhiệm vụ chính của nghiên cứu là giải quyết vấn đề chuyển đổi tiếng nói thành văn bản Chương này sẽ trình bày về nguyên lý nhận dạng tiếng nói tự động của hệ thống nhận dạng tiếng nói trong thí nghiệm ở chương 4
3.2 Nguyên lý chuyển đổi tiếng nói thành văn bản
Mục đích của nhận dạng tiếng nói chính là chuyển đổi từ câu nói thành ra chuỗi từ tối
ưu, hay nói cách khác, nhận dạng tiếng nói chính là quá trình chuyển đổi tiếng nói thành văn bản Về nguyên lý, quá trình chuyển đổi này có thể được mô tả qua hai bước sau đây[14]:
Bước 1: Xác định một chuỗi vec-tơ đặc trưng 𝑋̂ = 𝑋1, 𝑋2, … , 𝑋𝑛 từ tín hiệu tiếng nói cho trước Bước 2: Từ chuỗi vec-tơ đặc trưng này, tìm chuỗi từ tương ứng 𝑊̂ = 𝑊1, 𝑊2, … , 𝑊𝑛 sao cho chuỗi từ này khớp nhất với chuỗi vec-tơ 𝑋̂, hay nói cách khác là tối đa hoá xác suất hậu nghiệm 𝑃(𝑊 | 𝑋):
- Pha huấn luyện: trong pha huấn luyện, các thông số của các mô hình tiếng nói sẽ được ước lượng Một câu nói được tạo bởi sự kết hợp các đơn vị ngôn ngữ như từ, âm tiết, âm
vị Để tạo thành câu hợp lệ nhất cần kết hợp mô hình âm thanh của các đơn vị ngôn ngữ này với các quy luật ngôn ngữ Vì vậy để đảm bảo độ chính xác của kết quả nhận dạng thì tiếng nói cần được biểu diễn bởi hai mô hình Mô hình thứ nhất là mô hình âm thanh Mô hình âm
DUT.LRCC
Trang 28thanh đóng vai trò thiết yếu trong việc cải thiện hiệu quả nhận dạng của hệ thống bằng cách liên kết các đặc trưng của tiếng nói với các âm vị trong câu Mô hình âm thanh được biểu diễn bởi likelihood 𝑃(𝑋 | 𝑊) – là xác suất quan sát được âm thanh X (thể hiện trong đặc trưng X) khi từ W được nói Mô hình thứ hai là mô hình ngôn ngữ, có vai trò là phát hiện chuỗi từ phù hợp nhất thoả mãn các ràng buộc về ngôn ngữ Nói cách khác, mô hình ngôn ngữ được biểu diễn bằng xác suất tiền nghiệm 𝑃(𝑊), là xác suất nói ra từ 𝑊
- Pha nhận dạng: tương ứng với trong pha huấn luyện có hai mô hình được ước lượng thì trong pha nhận dạng sẽ có hai bước so khớp được thực hiện ở mức âm thanh và mức ngôn ngữ Trước tiên ở mức âm thanh, mỗi vector đặc trưng trích từ một khung tiếng nói cần nhận dạng sẽ được so sánh với mô hình âm thanh của tất cả các từ rồi được ấn định cho từ nào khớp nhất với vector đặc trưng Sau đó chuỗi các từ giả thiết sẽ được kết hợp với mô hình ngôn ngữ để so sánh và chọn ra câu phù hợp nhất Áp dụng luật Bayes ta có:
𝑃(𝑊 | 𝑋) = 𝑃(𝑋 | 𝑊)𝑃(𝑊)𝑃(𝑋) (3.2)
Ở đây 𝑃(𝑋) là xác suất tiên nghiệm của vector đặc trưng và xác suất này độc lập với các mô hình tiếng nói Kết hợp (2) với (1) và bỏ qua xác suất 𝑃(𝑋) khi tối đa hoá, ta được xác suất chuỗi từ 𝑊̂ xấp xỉ với tích của mô hình âm thanh 𝑃(𝑋 | 𝑊) và mô hình ngôn ngữ 𝑃(𝑋)
Huấn luyện Mô hình âm
thanh
Mô hình ngôn ngữ
Nhận dạng (mức ngôn ngữ) Chuỗi từ
Hình 3.1 Sơ đồ nguyên lý nhận dạng tiếng nói
3.3 Nhận dạng tiếng nói tự động trên nền tảng điện toán đám mây
Như đã trình bày ở trên, để đạt được một hệ thống nhận dạng tiếng nói tốt cần phải xây dựng được một bộ mô tả đặc trưng tốt và một mô hình âm thanh tốt Việc chọn lựa một bộ
mô tả đặc trưng tốt và mô hình tốt, nếu thực hiện thủ công dựa trên thử-sai, sẽ thực sự rất khó khăn và đòi hỏi tải công việc rất lớn Các hệ thống nhận dạng tiếng nói hiện đại sử dụng cách tiếp cận học sâu để giải quyết những khó khăn này
DUT.LRCC
Trang 29Theo các cách tiếp cận học sâu như đã trình bày ở chương 2, mô hình dùng cho nhận dạng tiếng nói có thể sử dụng một số loại như mạng nơ-ron sâu DNN (Deep Neural Network), mạng nơ-ron tích chập CNN (Convolutional Neural Network), mạng nơ-ron hồi quy RNN (Recurrent Neural Network), mạng LSTM (Long Short Term Memory) Các mô hình này có một số lượng tham số cực kỳ lớn, do đó để ước lượng các tham số này thì việc huấn luyện mô hình cần phải có công cụ tính toán mạnh mẽ, sử dụng ngôn ngữ linh hoạt,
có thể cung cấp, phân tích và lưu trữ nguồn dữ liệu rất lớn Chính vì thế nên sử dụng “đám mây” là một giải pháp khả thi và phù hợp cho người dùng với nhiều mục đích khác nhau Một trong các dịch vụ điện toán đám mây nổi tiếng là Azure Azure là sản phẩm của tập đoàn phần mềm Microsoft, cung cấp cho người dùng các dịch vụ như máy chủ, lưu trữ,
cơ sở dữ liệu, kết nối mạng, phần mềm, phân tích dữ liệu và trí tuệ nhân tạo thông qua internet Các công nghệ sử dụng trên đám mây thường xuyên được cập nhật, tài nguyên và quy mô linh hoạt phù hợp với khả năng kinh tế của người dùng[25][26]
Liên quan đến nhận dạng tiếng nói, Azure cung cấp các dịch vụ đa dạng trên nền tảng các thuật toán học sâu mới nhất như dịch vụ chuyển đổi tiếng nói sang văn bản và ngược lại, phiên dịch, trợ lý âm thanh, nhận dạng người nói, v.v Đối với bài toán chuyển đổi tiếng nói sang văn bản, hệ thống Azure mới nhất kết hợp các mạng sâu và các phương pháp huấn luyện hiệu quả với các mạng nơ-ron trước đây Nhóm nghiên cứu “Research and AI” của Microsoft đã công bố một số thành tựu mới nhất với cấu trúc của các mô hình nhận dạng như sau [23]:
- Mô hình âm thanh: mô hình âm thanh được thử nghiệm với các cấu trúc khác nhau như CNN với hai biến thể ResNet và LACE, LSTM hai chiều (BLSTM), CNN-BLSTM, kết hợp BLSTM + ResNet + LACE + CNN-BLSTM Ở đây ResNet là mạng CNN được bổ sung các kết nối tắt xuyên qua một hoặc nhiều lớp, LACE là mạng CNN có một số đặc trưng của mạng time-delay và một số kết nối tắt kiểu ResNet, BLSTM sử dụng lõi là mạng LSTM với 512 nút ẩn trên mỗi lớp và 6 lớp ẩn ở mỗi chiều
- Mô hình ngôn ngữ: mô hình ngôn ngữ sử dụng mạng LSTM để tạo thành các mô hình 4-gram, từ đây sinh ra danh sách 500 từ phù hợp nhất, sau đó kết hợp với mô hình âm thanh nhằm chọn ra chuỗi từ phù hợp nhất trong số các chuỗi từ ứng viên Bộ từ điển sử dụng để huấn luyện mô hình ngôn ngữ có 165.000 từ Mô hình ngôn ngữ LSTM ở mức từ gồm có 3 lớp ẩn và ở mức ký tự gồm có 2 lớp ẩn
Để phục vụ cho nghiên cứu ứng dụng nhận dạng tiếng nói vào điều khiển không lưu, ở giai đoạn ban đầu này chúng tôi sử dụng dịch vụ điện toán đám mây Azure
DUT.LRCC
Trang 303.4 Dịch vụ điện toán đám mây Azure
Điện toán đám mây (Cloud Computing) nói một cách đơn giản, là việc cung cấp các dịch vụ điện toán; bao gồm máy chủ, lưu trữ, cơ sở dữ liệu, mạng, phần mềm, phân tích và trí tuệ nhân tạo thông qua Internet (Hình 3.2)[27] để cung cấp đổi mới nhanh hơn, tài nguyên linh hoạt và hiệu quả kinh tế theo quy mô Người dùng thường chỉ trả tiền cho các dịch vụ đám mây mà mình sử dụng, giúp giảm chi phí hoạt động, vận hành cơ sở hạ tầng hiệu quả hơn và mở rộng quy mô khi nhu cầu kinh doanh người dùng thay đổi
Microsoft Azure , thường được gọi là Azure được tạo ra bởi Microsoft để xây dựng, thử nghiệm, triển khai và quản lý các ứng dụng và dịch vụ thông qua trung tâm quản lý dữ liệu Microsoft Nó cung cấp phần mềm như một dịch vụ (SaaS) , nền tảng như một dịch
vụ (PaaS) và cơ sở hạ tầng như một dịch vụ (IaaS) và hỗ trợ nhiều ngôn ngữ lập trình khác nhau Azure được công bố vào tháng 10 năm 2008 và được phát hành vào tháng 2 năm
2010, với tên gọi Windows Azure trước khi được đổi tên thành Microsoft Azure vào năm
2014
Hình 3.2 Các sản phẩm, dịch vụ của Azure Dịch vụ nhận thức (Cognitive Service) của Azure là một nhóm các dịch vụ, mỗi dịch
vụ hỗ trợ các khả năng dự đoán khác nhau tương tự như giác quan, nhận thức, năng lực của con người (xem Bảng 3.1)[26] và người dùng không cần kiến thức về máy học hoặc khoa học dữ liệu đặc biệt để sử dụng các dịch vụ này Azure cung cấp các dịch vụ này cho phép các nhà phát triển ứng ụng làm ứng dụng của họ trở nên thông minh hơn, hấp dẫn và dễ khám phá hơn
DUT.LRCC