1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ ứng dụng kỹ thuật nhận dạng tiếng nói tự động để hỗ trợ hoạt động kiểm soát không lưu

66 69 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 891,98 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhằm hỗ trợ cho kiểm soát viên không lưu, bài báo đề xuất ứng dụng kỹ thuật nhận dạng tiếng nói tự động trong việc phát hiện lỗi do thông tin sai lệch giữa kiểm soát viên và phi công.. N

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA -

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS Hoàng Lê Uyên Thục

Đà Nẵng – Năm 2020

Trang 2

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác.

Tác giả luận văn ký và ghi rõ họ tên

Trang 3

TRANG PHỤ BÌA

LỜI CAM ĐOAN

MỤC LỤC

TÓM TẮT LUẬN VĂN

DANH MỤC CÁC CHỮ VIẾT TẮT

DANH MỤC CÁC CHỮ

DANH MỤC CÁC HÌNH

MỞ ĐẦU 1

Chương 1 - TỔNG QUAN HOẠT ĐỘNG KIỂM SOÁT KHÔNG LƯU 3

1.1 Giới thiệu chương 3

1.2 Cơ bản về hoạt động kiểm soát không lưu 3

1.3 Yếu tố con người trong hoạt động không lưu 5

1.3.1 Yếu tố con người 5

1.3.2 Ý nghĩa của yếu tố con người 6

1.3.3 Lỗi lặp lại và nghe lại 6

1.4 Tình hình nghiên cứu về ứng dụng nhận dạng tiếng nói trong hoạt động không lưu 7

1.5 Các ứng dụng nhận dạng tiếng nói tự động trong điều khiển không lưu 9

1.6 Giới thiệu hệ thống hỗ trợ hoạt động kiểm soát không lưu 10

Chương 2 - LÝ THUYẾT ỨNG DỤNG TRONG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG 12

2.1 Giới thiệu chương 12

2.2 Quá trình hình thành và phát triển của mô hình LSTM 12

2.3 Mô hình LSTM kết hợp phương pháp học sâu 14

2.4 Các ứng dụng nhận dạng tiếng nói tự động sử dụng kỹ thuật học sâu 16

2.5 Kết luận chương 17

Chương 3 - HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG 18

3.1 Giới thiệu chương 18

3.2 Nguyên lý chuyển đổi tiếng nói thành văn bản 18

3.3 Nhận dạng tiếng nói tự động trên nền tảng điện toán đám mây 19

Trang 4

3.4.2 Nhận thức tiếng nói 23

3.4.3 Nhận thức ngôn ngữ………… 24

3.4.4 Nhận thức tìm kiếm……… 24

3.4.5 Nhận thức quyết định……… 25

3.5 Kết luận chương 25

Chương 4 - THÍ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG PHÁT HIỆN LỖI TIẾNG NÓI 26

4.1 Giới thiệu chương 26

4.2 Cơ sở dữ liệu tiếng nói 26

4.3 Tiêu chí đánh giá hệ thống 29

4.4 Phương pháp đánh giá hệ thống 27

4.5 Tiến hành thí nghiệm 30

4.5.1 Chuyển đổi tiếng nói thành văn bản 30

4.5.2 So khớp văn bản 31

4.6 Kết quả thí nghiệm 33

4.6.1 Thí nghiệm 1: đánh giá tỉ lệ nhận dạng của mô hình có sẵn 33

4.6.2 Thí nghiệm 2: huấn luyện thêm cho mô hình có sẵn và đánh giá tỉ lệ nhận dạng của mô hình mới 34

4.6.3 Thí nghiệm 3: mô phỏng ứng dụng so khớp mực bay 37

4.7 Kết luận chương 37

KẾT LUẬN VÀ KIẾN NGHỊ 39

DANH MỤC TÀI LIỆU THAM KHẢO 40 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN

PHỤ LỤC 1

PHỤ LỤC 2

PHỤ LỤC 3

Trang 5

ỨNG DỤNG KỸ THUẬT NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG ĐỂ

HỖ TRỢ HOẠT ĐỘNG KIỂM SOÁT KHÔNG LƯU Học viên: Lê Văn Vũ Chuyên ngành: Kỹ thuật điện tử

Tóm tắt – Kiểm soát không lưu là một hoạt động mang ý nghĩa cực kỳ quan trọng nhằm đảm bảo sự an

toàn và duy trì sự thông suốt của các chuyến bay Một số các nhiệm vụ của kiểm soát viên không lưu là hiệp đồng với phi công để hướng dẫn phi công tuân thủ lộ trình bay và tránh xung đột giữa các máy bay Nhằm hỗ trợ cho kiểm soát viên không lưu, bài báo đề xuất ứng dụng kỹ thuật nhận dạng tiếng nói tự động trong việc phát hiện lỗi do thông tin sai lệch giữa kiểm soát viên và phi công Trong giai đoạn nghiên cứu ban đầu, hệ thống hỗ trợ tập trung vào khai thác dịch vụ điện toán đám mây Azure thuộc tập đoàn Microsoft Hệ thống đề xuất gồm có hai phần: trước tiên, tiếng nói của phi công và kiểm soát viên được chuyển đổi thành văn bản dựa trên nền tảng học sâu LSTM (Long Short Term Memory); sau đó tiếng nói của hai đối tượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó phát hiện ra lỗi lặp lại và lỗi nghe lại Các thí nghiệm được tiến hành với 10 mực bay trong vùng trời điều hành từ độ cao 15.000 feet đến 25.000 feet, trong môi trường bay giả lập và thực tế Kết quả thí nghiệm bước đầu đã cho tỷ

lệ nhận dạng chấp nhận được và tỷ lệ phát hiện lỗi rất khả quan.

Từ khóa – Kiểm soát không lưu, nhận dạng tiếng nói tự động, chuyển đổi tiếng nói sang văn bản,

mạng LSTM (Long Short Term Memory), lỗi nghe lại và lỗi lặp lại

APPLICATION OF AUTOMATIC SPEECH RECOGNITION TO SUPPORT AIR

TRAFFIC CONTROL

Abstract – Air traffic control activity plays a critical important role in accomplishing the safety and

maintaining the orderly flow of air flights Among other responsibilities, the controller cooperates withthe pilot by instructing the pilot to follow the planned flight route and to resolve aircraft conflicts Inorder to decrease the workload of air traffic controllers we propose the application of the automaticspeech recognition to detect controller-pilot voice miscommunication errors In the very beginningstage, the support system focuses on using Azure, a cloud computing service created by Microsoftgroup The system consists of two phases: firstly, pieces of speech of the pilot and the controller areconverted into texts based on long short term memory (LSTM) network; secondly, these speech piecesare compared to each other based on comparing the two corresponding texts; then read back and hearback errors are detected The conducted experiments are implemented on 10 flight levels in theairspace between 15,000 feet and 24,500 feet, via simulated and realistic air environments Initiallyexperimental results give the acceptable recognition rate and promissing error detection rate

Key words – Air traffic control, automatic speech recognition, speech-to-text, LSTM network (Long

Short Term Memory), hearback error and readback error

Trang 6

Bidirectional -Long Short Term MemoryConvolution Neural Network

Convolution Neural Network – Bi-Long Short Term Memory

Convolution Neural Network - Long Short Term MemoryDeep Boltzmann Machines

Deep Belief NetworkDeep Neural NetworkDeep Speech 2

European Patent OfficeErgonomic Research SocietyFederal Aviation AdministrationFacebook AI Research

Flight LevelGenerative adverarial networkGausian Makov model

Global Navigation Satellite SystemGraphics Processing Unit

Hidden Makov ModelInternational Civil Aviation OrganizationInternational Ergonomi Association

Trang 7

Center for Advanced Aviation System Developement

National Aeronautics and Space AdministrationNatural Language Processing

Stack Auto-EncoderSecondary Surveillance RadarTime - Long Short Term MemoryTerminal Radar Approach ControlWord Error Rate

Residual NetworkRecurent Neural NetworkPulse Code ModulationVariational AutoencoderVery High Frequency

Trang 8

Số hiệu bảng Tên bảng Trang

với tập kiểm tra là Cortana và Conversation

Trang 9

Số hiệu hình vẽ Tên hình vẽ Trang

động kiểm soát không lưu

Trang 10

MỞ ĐẦU

Ngày nay cùng với sự phát triển của kinh tế, du lịch, dịch vụ thì nhu cầu vận tải hàng hóa,

đi lại của con người bằng đường hàng không càng mang tính phổ thông vì sự an toàn vànhanh chóng Cùng với sự gia tăng số chuyến bay mỗi năm là áp lực và khối lượng công việctrong việc quản lý và điều khiển luồng không lưu tăng lên, nhưng vẫn bảo đảm tiêu chí “antoàn, điều hòa, hiệu quả” Vì vậy kiểm soát không lưu là một hoạt động mang ý nghĩa cực kỳquan trọng nhằm đảm bảo sự an toàn và duy trì sự thông suốt của các chuyến bay Một trong

số các nhiệm vụ chính của kiểm soát viên không lưu là hiệp đồng với phi công để hướng dẫnphi công tuân thủ lộ trình bay và tránh xung đột giữa các máy bay Tuy nhiên, để một chuyếnbay an toàn thì người hướng dẫn tàu bay là kiểm soát viên không lưu (KSVKL) dưới mặt đấtphải nói và hiệp đồng liên tục với phi công trên tàu bay bằng sóng VHF Cường độ công việccao như vậy có thể dẫn đến việc nghe và lặp lại huấn lệnh của KSVKL và phi công bị nhầmlẫn, đặc biệt khi hiệp đồng với nhiều tàu bay cùng một lúc và với số lượng tàu bay ngày mộttăng Bên cạnh đó, chất lượng của tiếng nói trong hoạt động kiểm soát không lưu phụ thuộcvào nhiều yếu tố khác nữa như tai người nghe, phát âm của người nói, chất lượng kênh truyềnVHF không – địa, thiết bị thu phát sóng Tất cả những yếu tố đã phân tích ở trên là nhữngnguyên nhân chủ quan và khách quan gây ra lỗi nghe lại (hear back error) và lỗi lặp lại (readback error) là một trong những lỗi có thể xảy ra trong hoạt động kiểm soát không lưu, gâynguy hiểm đến an toàn bay Như vậy, với hoạt động kiểm soát không lưu làm việc bằngphương tiện tiếng nói thì việc ứng dụng kỹ thuật nhận dạng tiếng nói tự động là một vấn đềhết sức cấp thiết, nhằm hỗ trợ cho kiểm soát viên không lưu hiện lỗi do thông tin sai lệch giữakiểm soát viên và phi công

Trên cơ sở đó, đề tài luận văn: “Ứng dụng kỹ thuật nhận dạng tiếng nói tự động để hỗ trợhoạt động kiểm soát không lưu” được thực hiện với hai mục tiêu chính: Thứ nhất, nghiên cứuứng dụng nhận dạng tiếng nói tự động vào việc so sánh hai câu nói để phát hiện trùng khớphay sai khác nội dung Thứ hai, đề xuất hệ thống phần mềm phát hiện và cảnh báo lỗi nghe lại

và lặp lại trong hoạt động kiểm soát không lưu với độ chính xác khoảng 80%

Đối tượng nghiên cứu của luận văn là nhận dạng tiếng nói, là một nhánh con của trítuệ nhân tạo, là nền tảng để hướng đến nghiên cứu về xử lý ngôn ngữ tự nhiên NLP(Natural Language Processing) đang rất phát triển hiện nay Cấu trúc luận văn gồm có 4chương như sau:

Chương 1- Tổng quan về hoạt động kiểm soát không lưu

Chương 2- Lý thuyết ứng dụng trong nhận dạng tiếng nói tự động

Chương 3- Hệ thống nhận dạng tiếng nói tự động

Chương 4- Thí nghiệm và đánh giá hệ thống phát hiện lỗi tiếng nói

Trang 11

điện toán đám mây Azure thuộc tập đoàn Microsoft Hệ thống đề xuất gồm có hai phần:trước tiên, tiếng nói của phi công và kiểm soát viên được chuyển đổi thành văn bản dựatrên nền tảng học sâu LSTM (Long Short Term Memory); sau đó tiếng nói của hai đốitượng này được so sánh với nhau dựa vào so sánh hai văn bản tương ứng, từ đó phát hiện

ra lỗi lặp lại và lỗi nghe lại Các thí nghiệm được tiến hành với tiếng nói cần nhận dạng là

10 giá trị mực bay trong vùng trời điều hành từ độ cao 15.000 feet đến 25.000 feet, trongmôi trường bay giả lập và thực tế Kết quả thí nghiệm bước đầu đã cho tỷ lệ nhận dạngchấp nhận được (81%) và tỷ lệ phát hiện lỗi rất khả quan

Đề tài có thể phát triển thành một thiết bị nhận dạng tức thời mối nguy hiểm dễ xảy ratrong công việc hằng ngày của KSVKL và xuất ra cảnh báo kịp thời với tỉ lệ cảnh báođúng là cao nhất, nhờ đó giảm thiểu sai sót, giảm áp lực công việc cho KSVKL, góp phầnvào bảo đảm an toàn giao thông hàng không

Qua lời mở đầu của cuốn luận văn này, em xin chân thành cảm ơn các thầy cô trongkhoa Điện tử -Viễn Thông đã truyền dạy kiến thức từ khi em là sinh viên khóa 09DT đếnhọc viên cao học khóa K37-38 hiện tại Đặc biệt, em xin cảm ơn cô Hoàng Lê Uyên Thục

đã hướng dẫn, giúp đỡ em từ những ý tưởng làm luận văn ban đầu và động viên em trongquá trình viết bài báo khoa học và hoàn thành luận văn tốt nghiệp hôm nay Một lần nữa,

em chân thành cảm ơn và chúc thầy cô luôn mạnh khỏe!

Xin gửi lời cảm ơn đến anh Vũ Hồng Sơn đã tạo điều kiện để em thu thập dữ liệu ghi

âm tiếng nói điều hành bay tại Đài Kiểm soát không lưu Đà Nẵng!

Xin gửi lời cảm ơn đến các anh em đồng nghiệp tại đội Radar Sơn Trà đã quan tâm,chia sẻ và tạo điều kiện để tôi gấp rút hoàn thành bài báo gửi đến hội nghị FAIR và viếtluận văn này trong thời gian đi trực chốt dịch COVID -19 vừa qua!

Con xin gửi lời cảm ơn đến gia đình đã ủng hộ, tin tưởng, luôn động viên con trongthời gian qua và luôn là chỗ dựa tinh thần vững vàng nhất!

Cuối cùng, cảm ơn người đã luôn ủng hộ anh, cho anh ý tưởng thực tiễn để làm đề tàiluận văn này và hỗ trợ anh trong suốt thời gian đi học cao học cho đến thời điểm hoànthành luận văn này, Hoàng Lê Hoài Phương!

Trong quá trình làm luận văn có gì thiếu sót mong thầy cô bỏ qua Một lần nữa, emxin chúc sức khỏe và xin chân thành cảm ơn!

Trang 12

Chương 1 - TỔNG QUAN HOẠT ĐỘNG KIỂM SOÁT

KHÔNG LƯU1.1 Giới thiệu chương

Chương đầu tiên của luận văn này sẽ giới thiệu tổng quan về hoạt động kiểm soát khônglưu, các yếu tố từ con người ảnh hưởng đến hoạt động kiểm soát không lưu và tình hình ứngdụng nhận dạng tiếng nói tự động vào hoạt động kiểm soát không lưu trên thế giới

1.2 Cơ bản về hoạt động kiểm soát không lưu

Trong thập niên gần đây, ngành công nghiệp hàng không đã có những bước tăng trưởngvượt bậc Cùng với sự phát triển không ngừng của kinh tế, du lịch, dịch vụ thì nhu cầu vận tảihàng hoá, đi lại của con người bằng đường hàng không ngày càng mang tính phổ thông hơn vì

sự an toàn và thuận tiện Các hãng hàng không được mở ra nhiều hơn, số đường bay khai thácmới và số chuyến bay cất hạ cánh trong ngày gia tăng nhanh chóng [1]

Sự phát triển mạnh mẽ của ngành hàng không khiến cho hoạt động điều hành bay càngtrở nên khó khăn và đầy thách thức Hoạt động điều hành bay được thực hiện bởi kiểmsoát viên không lưu (KSVKL)- là những người chuyên trách đảm nhận việc gửi các hướngdẫn và cảnh báo đến phi công nhằm giúp tàu bay tuân thủ lộ trình bay và tránh va chạmgiữa các tàu bay trong cùng vùng trời điều hành hoặc giữa các vùng trời lân cận, đảm bảođiều phối hiệu quả và thông suốt từ lúc tàu bay cất cánh đến khi hạ cánh [2] Quy trìnhhoạt động của KSVKL có thể minh hoạ thông qua hai vòng lặp như thể hiện trên Hình 1.1[2] Vòng lặp bên ngoài có mục đích chính là giám sát, thông báo cho KSVKL về tìnhtrạng hiện tại của tàu bay và toàn hệ thống Vòng lặp ngoài bao gồm: KSVKL gởi hướngdẫn đến phi công (thể hiện ở nhánh A), phi công thực hiện điều khiển máy bay (thể hiện ởnhánh B), lộ trình của máy bay được giám sát bởi đài giám sát (thể hiện ở nhánh C), đàigiám sát cung cấp thông tin về máy bay cho hệ thống quản lý không lưu tự động (thể hiện

ở nhánh D), hệ thống này cung cấp thông tin cho KSVKL hiển thị trên màn hình radar (thểhiện ở nhánh E) Vòng lặp bên trong là sự trao đổi thông tin bằng tiếng nói giữa KSVKL

và phi công (thể hiện ở nhánh A hai chiều)

Trang 13

Hình 1.1 Hệ thống kiểm soát không lưu[2]

Hiện nay, Việt Nam có tổng cộng 22 Đài kiểm soát không lưu tại các sân bay quốc tế

và nội địa trong cả nước; 03 Cơ sở kiểm soát tiếp cận ở Sân bay Nội Bài, Đà Nẵng và TânSơn Nhất; và 02 Trung tâm Kiểm soát đường dài Hồ Chí Minh và Trung tâm Kiểm soátKhông lưu Hà Nội Phân cách an toàn quy định giữa các tàu bay tuân thủ theo quy định quốc

tế của tổ chức ICAO, cụ thể là khoảng cách tối thiểu là 1.000 feet (304.8 m) theo độ cao, 5dặm (9.26 km) theo phương ngang trong vùng trời tiếp cận và 10 dặm (18,52 km) trong vùngtrời đường dài Để hỗ trợ việc giám sát tàu bay bảo đảm đúng phân cách của KSVKL, hiệnnay tại các trung tâm điều hành bay đang sử dụng thiết bị giám sát như hệ thống dẫn đườngtoàn cầu sử dụng tín hiệu vệ tinh GNSS, hệ thống giám sát tự động phụ thuộc quảng bá ADS-

B, hệ thống radar thứ cấp SSR nhằm giúp KSVKL kiểm tra sự tương quan giữa huấn lệnhđược đưa ra và hành động của phi công Ngoài ra, KSVKL phải kiểm soát tốt huấn lệnh đượcphát ra, đồng thời nghe lại và theo dõi cẩn thận việc lặp lại và hành động của phi công theohuấn lệnh Tuy nhiên, các phương pháp này chỉ giảm thiểu được một phần rủi ro do, trên thực

tế vẫn không phát hiện triệt để các nhầm lẫn từ việc nghe và nói của KSVKL, kể cả nhìn vàocác màn hình các thiết bị giám sát bởi vì tất cả các công việc nói, nghe, nhìn đều mang yếu tốchủ quan của một người KSVKL, và con người không phải lúc nào cũng trong trạng thái tốtnhất để thực hiện tốt các chức năng đó Các vấn đề có thể ảnh hưởng đến trạng thái làm việccủa con người như sự tập trung, quá nhiều việc hoặc quá ít việc gây xao nhãng, nghe nhầm,nói nhầm theo thói quen được gọi là các yếu

Trang 14

tố con người [4] Nhằm hạn chế thấp nhất sai sót do các yếu tố đó, hiện nay tại các thápđiều hành bay, các phiên điều hành bay đang sử dụng thêm người để giám sát và hỗ trợcho KSVKL, dẫn đến hiệu quả sử dụng lao động chưa cao [5]

Không nằm ngoài xu thế phát triển chung của hàng không toàn cầu, hàng không ViệtNam cần có kế hoạch tự động hoá dần dần hoạt động giám sát và hỗ trợ cho KSVKL Đểchuẩn bị cho bước đi này, trong giai đoạn ban đầu, chúng tôi đặt ra bài toán thử nghiệmứng dụng kỹ thuật nhận dạng tiếng nói tự động (ASR) vào hỗ trợ cho KSVKL người Việt.Trước mắt, nghiên cứu tập trung vào nhiệm vụ hàng đầu của KSVKL là bảo đảm phâncách an toàn giữa các tàu bay, thông qua phát hiện lỗi lặp lại của KSVKL về các huấn lệnhthay đổi mực bay (FL) Dữ liệu được lựa chọn cho thử nghiệm được thu thập từ các Đàiđiều hành bay thuộc Công ty Quản lý bay Miền Trung

1.3 Yếu tố con người trong hoạt động không lưu

1.3.1 Yếu tố con người

Hiệu suất của con người được coi là yếu tố nguyên nhân tiềm ẩn trong phần lớn các

vụ tai nạn máy bay Nếu muốn giảm tỷ lệ tai nạn, các vấn đề về yếu tố con người tronghàng không phải được hiểu rõ hơn và áp dụng kiến thức về yếu tố con người một cáchrộng rãi và chủ động hơn Như vậy, kiến thức về yếu tố con người phải được áp dụng,được tính toán và tích hợp trong giai đoạn thiết kế và chứng nhận hệ thống, cũng nhưtrong quá trình chứng nhận nhân sự khai thác, điều hành tàu bay, trước khi hệ thống vàcon người đi vào hoạt động Việc mở rộng nhận thức về yếu tố con người mang đến chocộng đồng hàng không quốc tế một cơ hội quan trọng nhất để làm cho hàng không an toànhơn và hiệu quả hơn[4]

Các yếu tố con người được thể chế hóa cùng lúc với sự thành lập của một số tổ chứcnhư Hiệp hội Nghiên cứu mối quan hệ giữa lao động và con người (ERS) vào năm 1949,Hiệp hội Các Yếu tố Con người (HFS) năm 1957 và Hiệp hội Quốc tế Nghiên cứu mốiquan hệ giữa lao động và con người (IEA) vào năm 1959 [4]

Sự hiểu biết về các yếu tố con người cơ bản trong toàn ngành hàng không đã dẫn đếnnhiều cách tiếp cận khác nhau đối với cách đào tạo chính thức ở các quốc gia khác nhau Quaviệc điều tra nguyên nhân một số vụ tai nạn hoàn toàn do yếu tố con người, đã khiến ICAOban hành các yêu cầu đào tạo về yếu tố con người trong khi đào tạo nhân viên hàng không vàtrong quá trình điều tra tai nạn [4] Thỏa thuận năm 1976 giữa Cục Hàng không Liên bangHoa Kỳ (FAA) và Cơ quan Hàng không và Vũ trụ Quốc gia (NASA) để thiết lập Hệ thốngBáo cáo An toàn Hàng không (ASRS) bí mật, không trừng phạt, tự nguyện đã tạo được mộtnơi báo cáo và chia sẻ các sự vụ sự cố một cách tự nguyện, trung thực của các phi công vàKSVKL Theo số liệu thống kê từ trang web của hệ thống ASRS này, số báo

Trang 15

cáo liên quan từ khóa tìm kiếm “Human factor” và “Confusion” là 14.152 báo cáo [6] chothấy sự cố do yếu tố con người góp phần không nhỏ trong các sự cố hàng không Cácchương trình tương tự sau đó đã được thiết lập ở Vương quốc Anh (CHIRP), Canada(CASRP) và Úc (CAIR).

1.3.2 Ý nghĩa của yếu tố con người

Yếu tố con người được áp dụng cho bất kỳ yếu tố nào liên quan đến con người Yếu tốcon người là bộ phận linh hoạt, dễ thích ứng và có giá trị nhất trong hệ thống hàng không,nhưng cũng là yếu tố dễ bị tác động nhất có thể ảnh hưởng xấu đến hiệu quả hoạt động.Trong suốt những năm qua, khoảng ba trong số bốn vụ tai nạn là do hoạt động của conngười kém hơn mức tối ưu [4] Điều này thường được phân loại là lỗi của con người.Thuật ngữ “yếu tố con người” không giúp ích gì trong việc ngăn ngừa tai nạn bởi vìmặc dù nó có thể chỉ ra sự cố xảy ra ở ĐÂU trong hệ thống, nhưng nó không cung cấphướng dẫn TẠI SAO nó xảy ra Tuy nhiên, tư duy an toàn đương đại cho rằng lỗi của conngười nên là điểm xuất phát để có các biện pháp ngăn chặn hơn là điểm dừng lại trongđiều tra sự cố khi nguyên nhân được tìm thấy là do yếu tố con người Lỗi do con ngườitrong hệ thống có thể do thiết kế gây ra hoặc bởi nội dung đào tạo không đầy đủ, các quytrình được thiết kế sai; các hướng dẫn, bố cục không rõ ràng của danh sách kiểm tra hoặc

sổ tay hướng dẫn[19] Sự hiểu biết về các khả năng và hạn chế có thể dự đoán được củacon người và việc áp dụng hiểu biết này là những mối quan tâm chính của yếu tố conngười Yếu tố con người đã được phát triển, hoàn thiện và thể chế hóa từ cuối thế kỷtrước, và hiện được hỗ trợ bởi một kho kiến thức khổng lồ để tất cả nhân viên hàng không

có thể áp dụng và cả các kỹ sư ứng dụng công nghệ hiện đại để tạo ra các sản phẩm tăngcường an toàn cho hệ thống hàng không dân dụng ngày nay

1.3.3 Lỗi lặp lại và nghe lại

Tổ chức Hàng không Dân dụng Quốc tế (ICAO) quy định liên lạc bằng tiếng nóigiữa KSVKL và phi công được thực hiện trên phương tiện liên lạc vô tuyến cao tần VHF.KSVKL theo dõi thông tin từ màn hình radar để đưa ra huấn lệnh, phi công sau khi nghephải đọc lại nội dung huấn lệnh để xác nhận, gọi là read back, KSVKL phải nghe lại xácnhận read back của phi công, gọi là hear back Nếu nội dung hear back không đúng nộidung huấn lệnh đã gởi đi thì KSVKL phải đọc lại nội dung huấn lệnh một lần nữa Lỗi phicông xác nhận lại huấn lệnh không đúng được gọi là lỗi lặp lại (read back error) Trườnghợp KSVKL nghe phi công xác nhận huấn lệnh không đúng nhưng không phát hiện đượcgọi là lỗi nghe lại (hear back error) Nếu hai lỗi này cùng xảy ra thì nguy cơ cao sẽ gây ramất an toàn hàng không

Trang 16

Về nguyên nhân gây ra lỗi nghe lại và lỗi lặp lại, có thể phân chia làm hai nguyên nhânchính là do yếu tố kỹ thuật và yếu tố con người Lỗi do yếu tố kỹ thuật bao gồm chất lượngcủa kênh truyền VHF và thiết bị thu phát âm tần như micro và loa Muốn giảm thiểu lỗi kỹthuật này, ta có thể nâng cao chất lượng kênh truyền VHF bằng cách đặt bộ lọc nhiễu thíchnghi tại máy thu Lỗi do yếu tố con người có thể do vô thức, do kỹ năng nghe, do phát âmgiọng địa phương,v v Ngay cả khi môi trường làm việc quá rảnh hoặc quá bận do điều hànhnhiều tàu bay môt lúc đều có thể gây ra mất tập trung dẫn đến lỗi do yếu tố con người.

Trong tình hình lưu lượng chuyến bay tăng nhanh mỗi năm, yêu cầu phải nghe, nói vàhiệp đồng liên tục với nhiều phi công trên nhiều tàu bay đồng thời thông qua môi trường VHFđòi hỏi KSVKL phải chịu đựng được cường độ công việc cực kỳ cao và áp lực công việc cực

kỳ lớn Điều này dẫn đến gia tăng nguy cơ xảy ra sai sót trong quá trình nghe, nói để chỉ dẫn

và hiệp đồng với tàu bay, làm gia tăng nguy cơ mất an toàn hàng không

Cụ thể, số liệu thống kê tại TRACON (Terminal Radar Approach Control) của nhómnghiên cứu MITRE CAASD cho biết một trong những lỗi trong thông tin liên lạc hàngkhông phổ biến là lỗi nghe lại của KSVKL và lỗi lặp lại của phi công, trong đó lỗi lặp lạichiếm 6% và lỗi nghe lại chiếm 92% [7] Trong báo cáo về các vụ xâm phạm đường cất hạcánh do lỗi từ phía KSVKL thì có 10,7 % là do lỗi đọc lại Đối chiếu với tổng số chuyếnbay điều hành trong vòng 6 năm của 500 đài Điều hành bay trên toàn nước Mỹ, dự đoán sẽxảy ra 129 vụ xâm phạm đường cất hạ cánh do lỗi đọc lại, cứ 407.000 lần xảy ra lỗi lặp lạihoặc 163.000 lần xảy ra lỗi nghe lại sẽ dẫn đến 1 vụ xâm phạm đường cất hạ cánh[7] Tuyxác suất này rất bé nhưng tiềm ẩn hậu quả cực kỳ nặng nề khi sự cố dẫn đến tai nạn hàngkhông!

Như vậy, vấn đề cấp bách đặt ra là cần có các biện pháp ứng dụng công nghệ hỗ trợ đểgiảm bớt áp lực công việc cho KSVKL, giảm rủi ro tai nạn do lỗi trong thông tin liên lạcgiữa KSVKL và phi công

1.4 Tình hình nghiên cứu về ứng dụng nhận dạng tiếng nói trong hoạt động không lưu

Năm 2010, một bài báo khoa học “System And Method For Reducing Aviation VoiceCommunication Confusion” [8] từ công ty Collin Aerospace, là một đơn vị của tập đoànRaytheon Technology Corp dẫn đầu về công nghệ thông minh và tiên tiến cho ngành côngnghiệp quốc phòng và hàng không vũ trụ toàn cầu, đã mô tả các khối chức năng cơ bản củamột hệ thống nhận dạng tiếng nói và so sánh để phát hiện các lỗi nhầm lẫn về định danhchuyến bay (Flight ID) hoặc tên đường lăn Nguyên lý của hệ thống cơ bản có 4 khối chứcnăng theo thứ tự như sau: Nhận dạng tiếng nói thứ nhất, nhận dạng tiếng nói thứ hai, so sánhhai tiếng nói, phát cảnh báo nếu có sai khác Bài báo đã mô tả chức năng từng khối và đề cậpđến việc sử dụng kỹ thuật nhận dạng tiếng nói Speech recognition để thưc hiện nhận

Trang 17

dạng ở bước 1 và bước 2 của hệ thống Tuy chưa có kết quả thí nghiệm nhưng bài báo là nền móng đầu tiên để tiếp cận ứng dụng nhận dạng tiếng nói vào hoạt động hàng không.

Trong vòng 5 năm trở lại đây, ứng dụng nhận dạng tiếng nói tự động vào lĩnh vựcđiều khiển không lưu là một hướng đi mới, nhiều thách thức, thu hút được sự quan tâm rấtlớn từ các hãng hàng không trên thế giới Nhiều kỹ sư, nhà nghiên cứu đến từ các tập đoàn

về lĩnh vực hàng không hoặc các tổ chức hàng không thế giới, các chuyên gia về trí tuệnhân tạo của tập đoàn phần mềm Microsoft đã có những bài báo khoa học, dự án về ứngdụng ASR vào hoạt động kiểm soát không lưu:

Năm 2015, một bài báo được Văn phòng Sáng chế Châu Âu (EPO) công bố vớitiêu đề “Aircraft systems and methods for reducing and detecting read-back and hear-backerrors” [9] đề xuất một hệ thống phát hiện lỗi nghe và lặp lại của phi công và kiểm soátviên không lưu bằng kỹ thuật Speech-to-text, hiển thị lên màn hình thông tin điều hànhbay như định danh tàu bay (aircraft identify, call sign) hướng mũi tàu bay và các thông tinlên xuống duy trì độ cao tàu bay để người KSVKL theo dõi, và hệ thống vẫn phát cảnhbáo nếu phát hiện lỗi nghe và lặp lại xảy ra

Một bài báo khác từ các kỹ sư của công ty Honeywell International Inc đã đượcEPO công bố tháng 12 năm 2016 với tiêu đề : “System and method for Aircraft voice - to-text communication message validation ”[10] cũng đề xuất hệ thống nhận dạng lỗi nghelại và lặp lại dựa trên chuyển đổi tiếng nói sang văn bản Tuy nhiên, bài báo có đề cập sửdụng thêm một khối có nhiệm vụ phân tích từ khóa (Keyword Analyzer) và thư viện từkhóa (Keyword dataset) để tăng độ chính xác của việc chuyển đổi voice -to- text dựa trênnguyên lý phân tích, xác định các từ khóa quan trọng và các từ khóa phụ thuộc của nó dựatrên thư viện từ khóa đã được nạp vào chương trình trước đó

Ngoài ra còn có các bài báo của các cá nhân được đăng trên trang tài liệu học thuậtcủa tập đoàn Microsoft [11] như: Civil-Aviation Ground-Air Dialogue VerificationSystem (2016), Voice Recognition Method And Voice Recognition Device In Air TrafficControl Systerm (2010), Pilot Repeat Monitering Method And Device (2017)

Năm 2018 hãng hàng không Airbus đã tổ chức cuộc thi “The Airbus Air TrafficControl speech recognition 2018 challenge: towards ATC automatic transcription and callsign detection”[12] dành cho các công ty, nhà nghiên cứu, các nhóm khởi nghiệp, trườngđại học, cao đẳng, viện nghiên cứu và các nhân với mục đích chia sẻ một số những trởngại trong ngành hàng không vũ trụ và cung cấp các tập dữ liệu để thúc đẩy nghiên cứu vàhợp tác trong lĩnh vực này Hai nội dung ra thi là chuyển đổi tự động hội thoại của phicông từ tiếng nói sang văn bản và phát hiện cuộc gọi từ KSVKL đến tàu bay đã nhận đượcrất nhiều bài dự thi đến từ các công ty và start-up trên toàn thế giới, từ các nhóm nghiêncứu của các trường đại học và cả cá nhân

Trang 18

Ngoài ra, hội nghị quốc tế về tiếng nói INTERSPEECH lần thứ 21 sẽ được tổ chức tạiTrung tâm Hội nghị Quốc tế Thượng Hải, từ ngày 25 đến ngày 29 tháng 10 năm 2020.INTERSPEECH đã phát triển thành hội nghị kỹ thuật lớn nhất thế giới tập trung vào xử lý

và ứng dụng giọng nói với hơn 1000 người tham dự và hơn 600 bài báo[13] Hội nghịnhấn mạnh các cách tiếp cận liên ngành giải quyết tất cả các khía cạnh của khoa học vàcông nghệ lời nói, từ các lý thuyết cơ bản đến các ứng dụng nâng cao với mong đợi sẽ cónhững bài báo về ứng dụng nhận dạng tiếng nói tự động trong ngành hàng không

1.5 Các ứng dụng nhận dạng tiếng nói tự động trong điều khiển không lưu

Nhận dạng tiếng nói tự động ứng dụng trong điều khiển không lưu có những đặc điểmriêng và khác biệt so với các ứng dụng trong các lĩnh vực khác, cụ thể là chất lượng âmthanh rất tệ do môi trường truyền âm là môi trường vô tuyến VHF có nhiễu lớn, ngôn ngữ

sử dụng là tiếng Anh được phát âm từ người nói đến từ khắp nơi trên thế giới gồm cảngười bản xứ và không phải bản xứ, tốc độ nói thường nhanh hơn bình thường, đôi khi cóthể xảy ra nhập nhằng ví dụ như nhập nhằng giữa mực bay và tốc độ Bên cạnh những khókhăn kể trên thì nhận dạng tiếng nói trong điều khiển không lưu cũng có một số thuận lợi,chẳng hạn như tính chất của hội thoại là hướng đến nhiệm vụ trong lĩnh vực hẹp nên sốlượng từ vựng ít hơn thông thường, ngữ nghĩa ít rối hơn thông thường và định dạng củahội thoại tuân thủ theo các quy định quốc tế

Vì những lý do phân tích ở trên nên nghiên cứu ứng dụng nhận dạng tiếng nói vàođiều khiển không lưu là một nhánh mới thuộc lĩnh vực nhận dạng tiếng nói tự động Đây

là hướng nghiên cứu mở rất hứa hẹn và thu hút sự quan tâm lớn của ngành hàng không

Có thể phân chia ứng dựng nhận dạng tiếng nói trong điều khiển không lưu thành 04 nhóm sau đây[14]:

“phi công giả”- là người đóng vai phi công, hành xử giống như phi công thật, hội thoại giốngnhư phi công thật trong môi trường liên lạc giả lập Việc sử dụng phi công giả đòi hỏi chi phícao và kém linh hoạt Vấn đề này được giải quyết bằng cách sử dụng nhận dạng tiếng nói tựđộng để tạo ra ứng dụng “phi công tự động”- là phần mềm có thể hiểu, xử lý tiếng nói củahọc viên và đáp ứng lại học viên bằng khối tổng hợp tiếng nói

- Đo lường và cân bằng tải công việc của KSVKL: trong hệ thống kiểm soát không lưu,

tải công việc của KSVKL là yếu tố quyết định làm hạn chế hiệu suất của cả hệ thống, đặc biệttrong điều kiện tăng nhanh lưu lượng bay thì vấn đề đo lường và cân bằng tải công việc choKSVKL càng trở nên quan trọng Công việc này nếu thực hiện thủ công sẽ rất khó khăn và tốnchi phí rất lớn Với sự trợ giúp của hệ thống nhận dạng tiếng nói, các sự kiện

Trang 19

điều khiển do KSVKL nói ra sẽ được tự động phát hiện, từ đó tải công việc sẽ được đo lường trực tiếp để dùng cho cân bằng tải công việc một cách tự động.

thống nhận dạng tiếng nói, ta có thể phân tích tự động một khối lượng dữ liệu hội thoại lớn

để dùng cho điều tra và cải thiện các giao thức và quy định đối với KSVKL Công việc phântích cũng là một thành phần trong quá trình chuyển đổi đoạn âm thanh tiếng nói sang dạngvăn bản, dựa vào văn bản này có thể so khớp câu huấn lệnh của KSVKL và câu lặp lại củaphi công để phát hiện lỗi

- KSVKL dự phòng: hệ thống nhận dạng tiếng nói tự động kết hợp với các nguồn thông

tin khác trong ngữ cảnh kiểm soát không lưu (thông tin radar, độ cao an toàn tối thiểu, vùng giớihạn, thông tin thời tiết, v.v) có thể được sử dụng làm đầu vào cho một hệ thống được gọi làKSVKL dự phòng KSVKL dự phòng có thể nắm bắt các tình huống nguy hiểm tiềm ẩn bịKSVKL thực bỏ sót, đưa ra các đề xuất và thông tin an toàn cho KSVKL xem xét

1.6 Giới thiệu hệ thống hỗ trợ hoạt động kiểm soát không lưu

Để giải quyết vấn đề cấp thiết của đề tài đã nêu ở trên, luận văn đề xuất một hệ thống hỗtrợ hoạt động kiểm soát không lưu gồm hai khối chức năng chính là hệ thống nhận dạng tiếng

nói và khối so khớp (Hình 1.2) Chức năng của hệ thống này chính là ứng dụng thứ ba Phân tích và phiên dịch hội thoại giữa KSVKL và phi công đã được đề cập ở mục 1.5.

Trong hình 1.2, tiếng nói của KSVKL trước khi phát đến phi công qua hệ thống phát

vô tuyến VHF sẽ được trích ra và đưa vào hệ thống nhận dạng tiếng nói tự động Tiếng nóicủa phi công từ tàu bay, sau khi thu về qua thiết bị thu vô tuyến VHF đã loại bỏ bớt nhiễuđược trích ra đưa vào hệ thống nhận dạng tiếng nói tự động Tiếng nói của KSVKL và phicông sau khi ra khỏi hệ thống nhận dạng tiếng nói sẽ cùng được đưa vào phần mềm sokhớp Nếu kết quả so khớp không giống nhau thì sẽ xuất ra cảnh báo cho người KSVKLbiết xảy ra lỗi nghe và lặp lại

Trang 20

Hình 1.2 Sơ đồ các khối chức năng của hệ thống hỗ trợ hoạt động kiểm soát không lưu

Độ chính xác của hệ thống hỗ trợ phụ thuộc rất lớn vào khả năng nhận dạng tiếng nóicủa hệ thống nhận dạng tiếng nói Tuy nhiên không nhất thiết phải nhận dạng được hoàntoàn 100% nội dung của cuộc đối thoại giữa KSVKl và phi công, tùy vào mục tiêu sokhớp là các thông tin nào của tàu bay như mực bay, hướng mũi tàu bay, định danh tàu bay,

số hiệu đường lăn, đường băng, hay các huấn lệnh thay đổi độ cao…thì hệ thống chỉ cầnnhận dạng được các thông thông tin đó để đưa vào so khớp và xuất ra cảnh báo nếu có lỗi

1.7 Kết luận chương

Kết thúc chương 1, luận văn đã giới thiệu tổng quan về hoạt động kiểm soát khônglưu, qua đó nêu ra lỗi nghe lại và lặp lại của KSVKL và phi công, trình bày tình hình ứngdụng kỹ thuật nhận dạng tiếng nói vào hoạt động kiểm soát không lưu trên thế giới và cáchướng ứng dụng ASR trong tương lai Chương tiếp theo của luận văn là giới thiệu lýthuyết ứng dụng trong kỹ thuật nhận dạng tiếng nói tự động, cụ thể là mô hình LSTM kếthợp với mạng học sâu

Trang 21

Chương 2 - LÝ THUYẾT ỨNG DỤNG TRONG NHẬN DẠNG

TIẾNG NÓI TỰ ĐỘNG2.1 Giới thiệu chương

Nhận dạng tiếng nói tự động là quá trình phân lớp đoạn tiếng nói đầu vào thànhmột dãy tuần tự các mẫu đã được học Tuỳ theo cấp độ của bài toán nhận dạng mà mẫuhọc là âm vị hoặc là từ Trường hợp mẫu là từ thì nhận dạng tiếng nói có thể xem làchuyển câu nói thành văn bản, với câu là chuỗi gồm các từ chứa trong câu nói Nhận dạngtiếng nói là một nhiệm vụ hết sức khó khăn và phức tạp do tiếng nói luôn biến thiên theothời gian, do sự khác biệt lớn giữa những người nói khác nhau (phát âm, âm sắc, độ to, độcao,…), tốc độ nói khác nhau, ngữ cảnh khác nhau, môi trường âm học khác nhau[15].Nội dung phần này trình bày những nền tảng lý thuyết của bài toán nhận dạng tiếng nóiđược sử dụng trong luận văn này

2.2 Quá trình hình thành và phát triển của mô hình LSTM

Hiện nay, các mô hình RNN đang dẫn đầu các hệ thống nhận dạng tiếng nói hiện tại,đặc biệt là trong các ứng dụng mới nổi của N P RNN đã thành công trong việc cải thiệnhiệu suất nhận dạng tiếng nói vì khả năng học các mẫu tuần tự trong dữ liệu lời nói, ngônngữ hoặc chuỗi thời gian Một kiến trúc RNN bao gồm các lớp ẩn giữ lại bộ nhớ của cácphần tử trong quá khứ của một chuỗi đầu vào Mặc dù hiệu quả trong việc mô hình hóa dữliệu tuần tự, các RNN bị hạn chế về khả năng ghi nhớ các thông tin từ các bước có khoảngcách xa trong quá khứ do đó những phần tử đầu tiên trong chuỗi đầu vào không có nhiềuảnh hưởng đến kết quả tính toán dự đoán phần tử cho chuỗi đầu ra ở các bước sau Môhình LSTM làm giảm bớt sự thiếu sót này bằng các đơn vị ẩn đặc biệt được gọi là “cổng”

có thể kiểm soát hiệu quả quy mô thông tin cần nhớ hoặc quên trong quá trình truyềnthông tin Sak và cộng sự lần đầu tiên nghiên cứu kiến trúc LSTM trong nhận dạng tiếngnói trên một bộ từ vựng lớn, đó là mô hình LSTM sâu hai lớp gọi là Deep-Speech-2 (DS2), được cho là vượt trội hơn so với mô hình DBN cơ bản DS2 áp dụng cho hai ngôn ngữchủ yếu khác nhau là Tiếng Anh và tiếng Trung phổ thông [16]

Các nghiên cứu nhận dạng giọng nói khác sử dụng mạng LSTM đã cho thấy hiệusuất đáng kể cải tiến so với các mô hình dựa trên DBN hiện đại trước đây Cụ thể Chien vàcộng sự đã thực hiện một thử nghiệm với các kiến trúc LSTM khác nhau để nhận dạngtiếng nói và so sánh hiệu suất với các mô hình DBN hiện đại[16]

Mô hình LSTM được mở rộng trong nghiên cứu của Xiong sang LSTM haichiều[17] BLSTM này được xếp chồng lên nhau trên các lớp phức hợp để cải thiện hiệusuất nhận dạng tiếng nói

Trang 22

Các mô hình LSTM hoạt động tốt hơn với cơ chế Attention (chú ý) Cơ chế Chú ýbao gồm Nghe, Tham dự và Đánh vần (LAS) lần lượt được sử dụng để mã hóa, tham dự

và giải mã Mô-đun LAS này được sử dụng với LSTM để cải thiện hiệu suất nhận dạnggiọng nói [18] Sử dụng kỹ thuật Pre-training kết hợp với Attention và mô hình LSTM đãcải thiện hiệu suất nhận dạng tiếng nói lên một cấp độ mới nhất, hiệu quả nhất [19] Bảng2.1 tổng hợp các mô hình khác nhau, bộ dữ liệu được sử dụng và hiệu suất tỷ lệ lỗi đạtđược bởi các mô hình nhận dạng tiếng nói hiện đại nhất[16]

Bảng 2.1 Các mô hình nhận dạng tiếng nói hiện nay

(spoken word recognition)

(spoken word recognition)

(spoken word recognition)

Mô hình dựa trên RNN (bao gồm cả LSTM) đã vượt xa nhận dạng tiếng nói để tiếnđến hỗ trợ xử lý ngôn ngữ tự nhiên (NLP) NLP nhằm mục đích diễn giải ngôn ngữ và ngữnghĩa từ lời nói hoặc văn bản để thực hiện nhiều tác vụ thông minh, chẳng hạn như phảnhồi tiếng nói của con người, trợ lý thông minh (Siri,Alexa và Cortana), phân tích cảm xúc

để xác định thái độ tích cực hoặc tiêu cực đối với một tình huống, xử lý các sự kiện hoặctin tức, và dịch ngôn ngữ trong cả bài phát biểu và văn bản Để áp dụng RNN / LSTM tối

ưu hơn trong phân tích tình cảm, các tác giả trong [20] đã đề xuất một kiến trúc cây LSTM( Tree- LSTM) để nắm bắt cảm xúc từ các cụm từ tạo thành nên các bậc cảm xúc khácnhau trong ngôn ngữ tự nhiên

Gần đây hơn, Karpathy và cộng sự đã sử dụng một phương pháp kết hợp, kết hợp mô

tả ngôn ngữ tuần tự từ LSTM và thị giác máy tính từ CNN để đạt được hiệu suất tối ưutrong chú thích hình ảnh[16]

Trang 23

Nhận dạng giọng nói cũng có một số bộ dữ liệu tiêu chuẩn mới nhất đến thời điểmhiện tại như hợp tác giữa Texas Instruments và MIT để tạo tập dữ liệu phiên âm giọng nóiTIMIT thu thập từ 630 người nói tiếng Anh Mỹ VoxCeleb là tập dữ liệu giọng nói mớihơn, với hơn 1000 phiên âm giọng nói của những người nổi tiếng không bị giới hạn vàtrong bối cảnh tự nhiên[16].

2.3 Mô hình LSTM kết hợp phương pháp học sâu

LSTM tiêu chuẩn là một T-LSTM (Time-LSTM) thực hiện hồi qui thời gian bằngcách lấy đầu ra của T- LSTM tại bước thời gian trước đó làm đầu vào củaT- LSTM tạithời điểm hiện tại Để tăng sức mạnh mô hình hóa, nhiều lớp T- LSTM các đơn vị đượcxếp chồng lên nhau để tạo thành một LSTM nhiều lớp (Multi- layer LSTM) được hiển thịtrong Hình 2.1

Hình 2.1 Mô mình LSTM nhiều lớp ẩn

Từ Hình 2.1, có thể thấy rằng đầu ra của một LSTM được sử dụng làm đầu vào củaLSTM tại cùng một bước trong lớp tiếp theo và đầu vào của LSTM của bước tiếp(recurrent input) theo trong cùng một lớp Lớp ẩn cuối cùng của đầu ra được sử dụng để

dự đoán kết quả nhận dạng Do đó, cùng một đầu ra được sử dụng cho mục đích ghi nhớtạm thời của mô hình dọc theo trục thời gian và mục đích của việc phân biệt đặc điểmtiếng nói dọc theo trục lớp Tuy nhiên, hai mục đích này thực sự là rất khác nhau Do đó,

mô hình LSTM thời gian tiêu chuẩn có thể không được tối ưu

Trang 24

Trong bài báo [21], nhóm nghiên cứu của Microsoft đã đề xuất một mô hình mới đượcgọi là ltLSTM (Layer trajectory LSTM) khi thêm vào các đơn vị L-LSTM (Layer LSTM)như hình 2.2 L-LSTM quét các đầu ra của các lớp T-LSTM của cùng một bước để thuthập thông tin tất cả các lớp, sử dụng cho việc phân loại sắc thái của từ Mô hình L-LSTMnày có nhiệm vụ khác với mô hình T-LSTM, nó mang các thông tin về tiếng nói nhưgiọng điệu, giới tính, tuổi tác của người nói giúp mang lại lợi ích của cả độ chính xác vàthời gian chạy cho mô hình ltLSTM

Hình 2.2 Mô hình Layer trajectory LSTM nhiều lớp ẩn (ltLSTM)Với thí nghiệm được đào tạo với 30 nghìn giờ dữ liệu giọng nói, ltLSTM 6 lớp cảithiện hơn so với LSTM 6 lớp tiêu chuẩn là 5,8% và 9,0% lần lượt trên các bộ kiểm traCortana và Conversation[21]

Trang 25

Bảng 2.2 Tỉ lệ WER (%) của mô hình LSTM, ltLSTM với tập kiểm tra là Cortana và Conversation[10]

2.4 Các ứng dụng nhận dạng tiếng nói tự động sử dụng kỹ thuật học sâu

Trong những năm gần đây, các tập đoàn công nghệ lớn như Google, Facebook, Apple,Microsoft, IBM và một số công ty khác đã áp dụng học sâu như một trong những lĩnh vựcnghiên cứu cốt lõi của họ về trí tuệ nhân tạo (AI)

Facebook tiến hành sâu rộng học nghiên cứu trong phòng thí nghiệm Nghiên cứu AIcủa Facebook (FAIR) [22] để nhận dạng hình ảnh và hiểu ngôn ngữ tự nhiên Nhiều ngườidùng trên toàn cầu đã tận dụng hệ thống nhận dạng này trong ứng dụng Facebook Cộtmốc tiếp theo của họ là tích hợp các phương pháp tiếp cận NLP dựa trên học sâu vào hệthống Facebook để đạt được hiệu suất gần giống với con người trong hiểu ngôn ngữ tựnhiên Gần đây, Facebook đã ra mắt hệ thống trợ lý AI beta có tên là ‘M’ ‘M’ sử dụngNLP để hỗ trợ các nhiệm vụ phức tạp hơn như mua đồ, sắp xếp việc giao quà, đặt chỗ nhàhàng và đi du lịch sắp xếp, hoặc cuộc hẹn

Microsoft đã nghiên cứu bộ công cụ Nhận thức (Cognitive Toolkit) cho phép ngườidùng cho thể huấn luyện mô hình bằng phương pháp học sâu trên máy tính cá nhân mộtcách hiệu quả Họ cũng đã triển khai một hệ thống nhận dạng giọng nói tự động đạt đượccấp độ như con người trong nhận dạng giọng nói đàm thoại [23] Gần đây hơn, họ đã giớithiệu một trợ lý giọng nói dựa trên học sâu được gọi là Cortana và tích hợp nó trên hệ điềuhành Window 10, iOS, Android, Windows Phone Các đối thủ trợ lý thông minh cạnhtranh chủ yếu của Cortana có thể kể đến như Apple Siri, Google Assistant , AmazonAlexa, Samsung Bixby Các ngôn ngữ phổ biến đều được hỗ trợ trên các trợ lý thông minhnày như Tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý, tiếng Nhật, , tiếng Trung

Baidu đã nghiên cứu học sâu để tạo ra Hệ thống nhận dạng tiếng nói có tên DeepSpeech 2 (DS2) đã cho thấy hiệu suất được cải thiện đáng kể so với các đối thủ cạnh tranh.Baidu cũng là một trong những nhóm nghiên cứu tiên phong giới thiệu xe tự lái dựa trêncông nghệ học sâu cùng BMW

IBM có gần đây đã giới thiệu hệ thống điện toán nhận thức (Cognitive computing) của họđược gọi là Watson Hệ thống này kết hợp thị giác máy tính và nhận dạng giọng nói tronggiao diện thân thiện với con người và hiểu được ngôn ngữ tự nhiên của con người Watsondựa trên hệ thống điện toán toán nhận thức đã cung cấp một loạt các ứng dụng hữu

Trang 26

ích khác nhau như chăm sóc sức khỏe, tiếp thị, bán hàng, dịch vụ khách hàng, hoạt động, nhân sự và tài chính.

2.5 Kết luận chương

Chương 2 đã trình bày tiến trình nghiên cứu và phát triển của kỹ thuật nhận dạng tiếngnói tự động trên nền tảng học sâu và thành quả của nó là đã đạt được hiệu quả nhận dạnggần với con người trong một số tập dữ liệu xác định Các ứng dụng, hệ thống ASR đượctích hợp trong các ứng dụng trong cuộc sống như xe tự lái, trợ lý thông minh, nhà thôngminh… tất cả các tập đoàn công nghệ lớn đều đang hướng mục tiêu đến việc nghiên cứu

xử lý ngôn ngữ tự nhiên, để có thể phân tích và hiểu được cảm xúc, trạng thái của conngười trong những ngữ cảnh khác nhau bằng cách kết hợp ASR và thị giác máy tính.Trong chương tiếp theo sẽ trình bày nguyên lý chung ASR và cách thức để ứng dụng ASR

và hệ thống phát hiện lỗi tiếng nói trong hoạt động điều hành bay

Trang 27

Chương 3 - HỆ THỐNG NHẬN DẠNG TIẾNG NÓI TỰ ĐỘNG

3.1 Giới thiệu chương

Như đã trình bày ở chương I, mục tiêu của luận văn nhằm hỗ trợ phát hiện lỗi trongliên lạc bằng tiếng nói giữa KSVKL và phi công Đây là ứng dụng thuộc nhóm ứng thứ ba,được thực hiện dựa trên hai bước chính là:

Bước 1: Chuyển đổi câu huấn lệnh của KSVKL và câu lặp lại của phi công thành văn bản.Bước 2: So khớp hai văn bản này để phát hiện lỗi lặp lại và lỗi nghe lại

Như vậy có thể nói nhiệm vụ chính của nghiên cứu là giải quyết vấn đề chuyển đổitiếng nói thành văn bản Chương này sẽ trình bày về nguyên lý nhận dạng tiếng nói tựđộng của hệ thống nhận dạng tiếng nói trong thí nghiệm ở chương 4

3.2 Nguyên lý chuyển đổi tiếng nói thành văn bản

Mục đích của nhận dạng tiếng nói chính là chuyển đổi từ câu nói thành ra chuỗi từ tối

ưu, hay nói cách khác, nhận dạng tiếng nói chính là quá trình chuyển đổi tiếng nói thànhvăn bản Về nguyên lý, quá trình chuyển đổi này có thể được mô tả qua hai bước sauđây[14]:

Bước 1: Xác định một chuỗi vec-tơ đặc trưng ̂ = 1 , 2 , … , từ tín hiệu tiếng nói cho trước

Bước 2: Từ chuỗi vec-tơ đặc trưng này, tìm chuỗi từ tương ứng ̂ = 1 , 2 , … , sao cho chuỗi từ này khớp nhất với chuỗi vec-tơ ̂ , hay nói cách khác là tối đa hoá xác suất hậu nghiệm ( | ):

loại) đều được tiền xử lý nhằm loại bỏ nhiễu, xác định điểm cuối (endpoint), phân đoạn tiếngnói ra thành các khung chồng lên nhau Độ dài khung phổ biến nhất là 25ms và khoảng dịchchuyển giữa các khung cạnh nhau là 10ms

trích các đặc trưng của tiếng nói Các đặc trưng cần thể hiện những đặc điểm riêng biệt giúpphân biệt được các âm thanh tương tự nhau Việc lựa chọn bộ mô tả đặc trưng ảnh hưởngquyết định đến hiệu quả của toàn bộ hệ thống nhận dạng tiếng nói

được ước lượng Một câu nói được tạo bởi sự kết hợp các đơn vị ngôn ngữ như từ, âm tiết, âm

vị Để tạo thành câu hợp lệ nhất cần kết hợp mô hình âm thanh của các đơn vị ngôn ngữ này vớicác quy luật ngôn ngữ Vì vậy để đảm bảo độ chính xác của kết quả nhận dạng thì tiếng nói cầnđược biểu diễn bởi hai mô hình Mô hình thứ nhất là mô hình âm thanh Mô hình âm

Trang 28

thanh đóng vai trò thiết yếu trong việc cải thiện hiệu quả nhận dạng của hệ thống bằng cách liên kết các đặc trưng của tiếng nói với các âm vị trong câu Mô hình âm thanh được biểu diễn bởi likelihood ( | ) – là xác suất quan sát được âm thanh X (thể hiện trong đặc trưng X) khi từ W được nói Mô hình thứ hai là mô hình ngôn ngữ, có vai trò là phát hiện chuỗi từ phù hợp nhất thoả mãn các ràng buộc về ngôn ngữ Nói cách khác, mô hình ngôn ngữ được biểu diễn bằng xác suất tiền nghiệm ( ), là xác suất nói ra từ

thì trong pha nhận dạng sẽ có hai bước so khớp được thực hiện ở mức âm thanh và mức ngônngữ Trước tiên ở mức âm thanh, mỗi vector đặc trưng trích từ một khung tiếng nói cần nhậndạng sẽ được so sánh với mô hình âm thanh của tất cả các từ rồi được ấn định cho từ nàokhớp nhất với vector đặc trưng Sau đó chuỗi các từ giả thiết sẽ được kết hợp với mô hìnhngôn ngữ để so sánh và chọn ra câu phù hợp nhất Áp dụng luật Bayes ta có:

( | )=

( | ) ( )

( )

Ở đây ( ) là xác suất tiên nghiệm của vector đặc trưng và

hình tiếng nói Kết hợp (2) với (1) và bỏ qua xác suất ( ) chuỗi từ ̂ xấp xỉ với tích của mô hình âm thanh ( |

)

xác suất này độc lập với các mô khi tối đa hoá,

ta được xác suất và mô hình ngôn ngữ ( ).

Hình 3.1 Sơ đồ nguyên lý nhận dạng tiếng nói

3.3 Nhận dạng tiếng nói tự động trên nền tảng điện toán đám mây

Như đã trình bày ở trên, để đạt được một hệ thống nhận dạng tiếng nói tốt cần phảixây dựng được một bộ mô tả đặc trưng tốt và một mô hình âm thanh tốt Việc chọn lựamột bộ mô tả đặc trưng tốt và mô hình tốt, nếu thực hiện thủ công dựa trên thử-sai, sẽ thực

sự rất khó khăn và đòi hỏi tải công việc rất lớn Các hệ thống nhận dạng tiếng nói hiện đại

sử dụng cách tiếp cận học sâu để giải quyết những khó khăn này

Trang 29

Theo các cách tiếp cận học sâu như đã trình bày ở chương 2, mô hình dùng cho nhậndạng tiếng nói có thể sử dụng một số loại như mạng nơ-ron sâu DNN (Deep NeuralNetwork), mạng nơ-ron tích chập CNN (Convolutional Neural Network), mạng nơ-ron hồiquy RNN (Recurrent Neural Network), mạng LSTM (Long Short Term Memory) Các môhình này có một số lượng tham số cực kỳ lớn, do đó để ước lượng các tham số này thì việchuấn luyện mô hình cần phải có công cụ tính toán mạnh mẽ, sử dụng ngôn ngữ linh hoạt,

có thể cung cấp, phân tích và lưu trữ nguồn dữ liệu rất lớn Chính vì thế nên sử dụng “đámmây” là một giải pháp khả thi và phù hợp cho người dùng với nhiều mục đích khác nhau.Một trong các dịch vụ điện toán đám mây nổi tiếng là Azure Azure là sản phẩm củatập đoàn phần mềm Microsoft, cung cấp cho người dùng các dịch vụ như máy chủ, lưutrữ, cơ sở dữ liệu, kết nối mạng, phần mềm, phân tích dữ liệu và trí tuệ nhân tạo thông quainternet Các công nghệ sử dụng trên đám mây thường xuyên được cập nhật, tài nguyên vàquy mô linh hoạt phù hợp với khả năng kinh tế của người dùng[25][26]

Liên quan đến nhận dạng tiếng nói, Azure cung cấp các dịch vụ đa dạng trên nền tảngcác thuật toán học sâu mới nhất như dịch vụ chuyển đổi tiếng nói sang văn bản và ngượclại, phiên dịch, trợ lý âm thanh, nhận dạng người nói, v.v Đối với bài toán chuyển đổitiếng nói sang văn bản, hệ thống Azure mới nhất kết hợp các mạng sâu và các phươngpháp huấn luyện hiệu quả với các mạng nơ-ron trước đây Nhóm nghiên cứu “Researchand AI” của Microsoft đã công bố một số thành tựu mới nhất với cấu trúc của các mô hìnhnhận dạng như sau [23]:

như CNN với hai biến thể ResNet và LACE, LSTM hai chiều (BLSTM), CNN-BLSTM, kếthợp BLSTM + ResNet + LACE + CNN-BLSTM Ở đây ResNet là mạng CNN được bổ sungcác kết nối tắt xuyên qua một hoặc nhiều lớp, LACE là mạng CNN có một số đặc trưng củamạng time-delay và một số kết nối tắt kiểu ResNet, BLSTM sử dụng lõi là mạng LSTM với

512 nút ẩn trên mỗi lớp và 6 lớp ẩn ở mỗi chiều

hình 4-gram, từ đây sinh ra danh sách 500 từ phù hợp nhất, sau đó kết hợp với mô hình âmthanh nhằm chọn ra chuỗi từ phù hợp nhất trong số các chuỗi từ ứng viên Bộ từ điển sửdụng để huấn luyện mô hình ngôn ngữ có 165.000 từ Mô hình ngôn ngữ LSTM ở mức từgồm có 3 lớp ẩn và ở mức ký tự gồm có 2 lớp ẩn

Để phục vụ cho nghiên cứu ứng dụng nhận dạng tiếng nói vào điều khiển không lưu, ởgiai đoạn ban đầu này chúng tôi sử dụng dịch vụ điện toán đám mây Azure

Trang 30

3.4 Dịch vụ điện toán đám mây Azure

Điện toán đám mây (Cloud Computing) nói một cách đơn giản, là việc cung cấp cácdịch vụ điện toán; bao gồm máy chủ, lưu trữ, cơ sở dữ liệu, mạng, phần mềm, phân tích vàtrí tuệ nhân tạo thông qua Internet (Hình 3.2)[27] để cung cấp đổi mới nhanh hơn, tàinguyên linh hoạt và hiệu quả kinh tế theo quy mô Người dùng thường chỉ trả tiền cho cácdịch vụ đám mây mà mình sử dụng, giúp giảm chi phí hoạt động, vận hành cơ sở hạ tầnghiệu quả hơn và mở rộng quy mô khi nhu cầu kinh doanh người dùng thay đổi

Microsoft Azure , thường được gọi là Azure được tạo ra bởi Microsoft để xây dựng,thử nghiệm, triển khai và quản lý các ứng dụng và dịch vụ thông qua trung tâm quản lý dữliệu Microsoft Nó cung cấp phần mềm như một dịch vụ (SaaS) , nền tảng như một dịch

vụ (PaaS) và cơ sở hạ tầng như một dịch vụ (IaaS) và hỗ trợ nhiều ngôn ngữ lập trình khácnhau Azure được công bố vào tháng 10 năm 2008 và được phát hành vào tháng 2 năm

2010, với tên gọi Windows Azure trước khi được đổi tên thành Microsoft Azure vào năm2014

Hình 3.2 Các sản phẩm, dịch vụ của AzureDịch vụ nhận thức (Cognitive Service) của Azure là một nhóm các dịch vụ, mỗi dịch

vụ hỗ trợ các khả năng dự đoán khác nhau tương tự như giác quan, nhận thức, năng lựccủa con người (xem Bảng 3.1)[26] và người dùng không cần kiến thức về máy học hoặckhoa học dữ liệu đặc biệt để sử dụng các dịch vụ này Azure cung cấp các dịch vụ này chophép các nhà phát triển ứng ụng làm ứng dụng của họ trở nên thông minh hơn, hấp dẫn và

dễ khám phá hơn

Trang 31

Bảng 3.1 Các loại dịch vụ nhận thức[27]

sáng suốt và hiệu quả

thác khả năng kết hợp hàng tỷ trang web, hình ảnh, video vàtin tức chỉ với một lệnh gọi API

tập lệnh được tạo sẵn, đánh giá tình cảm và học cách nhận ranhững gì người dùng muốn

âm thanh tự nhiên Dịch từ ngôn ngữ này sang ngôn ngữ khác

và cho phép xác minh và nhận dạng người nói

và nội dung kỹ thuật số của người dung

Đối với các nhà phát triển có kinh nghiệm về học máy và khoa học dữ liệu, Azure vẫncho phép người dùng có thể thay đổi các thông số mô hình huấn luyện và sử dụng dữ liệu

cá nhân để huấn luyện cho mô hình Dịch vụ nhận thức Azure dựa trên đám mây với APIREST và thư viện ứng dụng SDK có sẵn để trợ giúp các nhà phát triển xây dựng trí thôngminh nhận thức vào các ứng dụng mà không cần có trí tuệ nhân tạo (AI) hoặc dữ liệu trựctiếp, kỹ năng hoặc kiến thức khoa học Dịch vụ nhận thức Azure cho phép các nhà pháttriển dễ dàng thêm các tính năng nhận thức vào ứng dụng với các giải pháp nhận thức cóthể nhìn, nghe, nói, hiểu và thậm chí bắt đầu suy luận Danh mục các dịch vụ AI, cung cấphiểu biết về nhận thức được phân loại thành năm trụ cột chính: thị giác, tiếng nói, ngônngữ, tìm kiếm, quyết định

Trang 32

Bảng 3.2 Mô tả các dịch vụ nhận thức thị giác[27]

bộ nhất để xử lý hình ảnh và trả về thông tincủa hình ảnh

thể hiện lại dữ liệu dưới các cấu trúc khác baogồm các mối quan hệ của dữ liệu

ra dưới cấu trúc gồm các thực thể nhận dạngđược

(Video Index)

3.4.2 Nhận thức tiếng nói

Bảng 3.3 Mô tả các dịch vụ nhận thức tiếng nói [27]

Trang 33

Chuyển đổi tiếng nói Cung cấp dịch vụ dịch máy cho người dùng

Ngày đăng: 18/07/2021, 06:00

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] E. Mazareanu, “Global air traffic - annual growth of passenger demand”, Statista, 2020, URL:https://www.statista.com/statistics/193533/growth-of-global-air-traffic-passenger-demand/,[truy cập 20/09/2020] Sách, tạp chí
Tiêu đề: Global air traffic - annual growth of passenger demand
[2] Hunter D. Kopald, Ari Chanen, Shuo Chen, Elida C. Smith, and Robert M. Tarakan, "Applying automatic speech recognition technology to Air TrafficManagement," 2013 IEEE/AIAA 32nd Digital Avionics Systems Conference (DASC), East Syracuse, 2013 Sách, tạp chí
Tiêu đề: Applying automatic speech recognition technology to Air Traffic Management
[3] Federal Aviation Administration, “Air traffic control: chapter 5, session 2”, Handbook, 2018 Sách, tạp chí
Tiêu đề: Air traffic control: chapter 5, session 2
[4] Vietnam Air Trafic Management Corporation, “Human Factors in ATC”, Vol 1, 29.Nov, 2013 Sách, tạp chí
Tiêu đề: Human Factors in ATC
[5] Công ty Quản lý bay miền Trung, “Quy định hiệp đồng điều hành bay giữa vị trí kiểm soát tiếp cận tầng cao Đà Nẵng và vị trí kiểm soát tiếp cận Đà Nẵng”, Quy định 2/2018 Sách, tạp chí
Tiêu đề: Quy định hiệp đồng điều hành bay giữa vị trí kiểm soát tiếp cận tầng cao Đà Nẵng và vị trí kiểm soát tiếp cận Đà Nẵng
[6] Aviation Safety Report System, “Human factor”, URL:https://akama.arc.nasa.gov/ASRSDBOnline/QueryWizard Results.aspx , [truy cập 20/09/2020] Sách, tạp chí
Tiêu đề: Human factor
[7] Shuo Chen, Hunter Kopald, Dr. Ronald S. Chong, Dr. Yuan-Jun Wei, and Zachary Levonian, “Read back error detection using automatic speech recognition”, 12th USA/Europe Air Traffic Management Research and Development Seminar, 2017 Sách, tạp chí
Tiêu đề: Read back error detection using automatic speech recognition
[8] Timothy W. Ran , Sethu R. Rathinam, “System And Method For Reducing Aviation Voice Communication Confusion”, U.S Patent 7,809,805 B1, Oct.5, 2010 Sách, tạp chí
Tiêu đề: System And Method For Reducing Aviation Voice Communication Confusion
[9] Mohideen, Mohammed Ibrahim Morristown, “Aircraft systems and methods for reducing and detecting read-back and hear-back errors”, E.P Patent, EP 2,874,133 A1, 20/5/ 2015 Sách, tạp chí
Tiêu đề: Aircraft systems and methodsfor reducing and detecting read-back and hear-back errors
[10] Timothy W.Ran, Sethu R. Rathinam “System and method for Aircraft voice - to-text communication message validation” E.P Patent, EP 3,109,857 A1, 28/12/2016 Sách, tạp chí
Tiêu đề: System and method for Aircraft voice - to-text communication message validation
[11] Microsoft Acedemic, “Air traffic control”, URL: https://academic.microsoft.com , [truy cập 20/09/2020] Sách, tạp chí
Tiêu đề: Air traffic control

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w