Phát triển hệ thống hỗ trợ tự động tạo biên bản cuộc họp sử dụng công nghệ nhận dạng tiếng nói

Tổng quan

Lĩnh vực của đề tài

Đề tài thuộc lĩnh vực xử lý ngôn ngữ nói (Spoken Language Processing – SLP ) Về cơ bản, SLP gồm 3 nhánh chính:

- ASR / Nhận dạng tiếng nói: nghiên cứu về bài toán chuyển tín hiệu tiếng nói sang văn bản

- TTS / Tổng hợp tiếng nói: nghiên cứu về bài toán chuyển văn bản sang tín hiệu tiếng nói mà con người có thể nghe được

- NLP / Xử lý ngôn ngữ tự nhiên: nghiên cứu về bài toán hiểu được ngữ nghĩa hàm chứa trong lời thoại của tín hiệu tiếng nói

Mỗi nhánh con trong lĩnh vực SLP chứa đựng nhiều bài toán lớn chưa có lời giải tối ưu Tuy nhiên, việc kết hợp các kết quả từ các nghiên cứu toàn cầu đã dẫn đến sự ra đời của nhiều ứng dụng SLP nổi bật như Siri, A.L.I.C.E., Mitsuku và Google SLP Engine Đề tài nghiên cứu này tập trung vào nhận dạng tiếng nói (Automatic Speech Recognition - ASR) trong bối cảnh các kỳ họp Quốc hội.

Tình hình nghiên cứu trên thế giới

Dữ liệu âm thanh đóng vai trò quan trọng và phổ biến trong cuộc sống hàng ngày, xuất hiện trong hàng nghìn cuộc họp, hàng trăm chương trình truyền hình và phát thanh, cũng như hàng tỉ video được xem trên Internet.

Với sự giảm chi phí của các thiết bị lưu trữ số và kích thước lưu trữ ngày càng tăng, các tổ chức và công ty có khả năng lưu trữ lượng dữ liệu âm thanh khổng lồ Chẳng hạn, Youtube của Google đang lưu trữ hàng tỉ video, trong khi kênh truyền hình INA của Pháp lưu trữ tới 300,000 giờ chương trình truyền hình.

Máy nói Máy nghe Máy hiểu xin chào ngài

“đem cafe tới đây” cafe ~

– Tổng hợp tiếng nói (TTS) – Nhận dạng tiếng nói (ASR) – Xử lý ngôn ngữ tự nhiên (NLP)

Viện Khoa học và Công nghệ Tính toán TP Hồ Chí Minh Trang 7

Trong hơn 45 năm qua, đã có tới 400,000 giờ chương trình phát thanh được phát sóng Bên cạnh đó, các công ty và tổ chức cũng lưu trữ dữ liệu từ hàng ngàn cuộc họp hàng ngày Việc lưu trữ này tạo ra những kho dữ liệu quý giá, giúp cho việc truy xuất và tìm kiếm thông tin trở nên dễ dàng hơn trong tương lai.

Hình 1 Hệ thống tự động ghi biên bản cuộc họp

Với sự bùng nổ của hệ thống lưu trữ, nhu cầu phát triển công cụ xử lý dữ liệu âm thanh để rút trích nội dung, truy xuất và tìm kiếm ngày càng trở nên cấp thiết Hệ thống ghi nhật ký tiếng nói đang được nghiên cứu để đáp ứng nhu cầu này, nhận chuỗi tín hiệu âm thanh và tạo kịch bản phân đoạn nội dung theo người nói và thời gian, chuyển hóa tiếng nói thành văn bản cho từng người nói Hệ thống này có nhiều ứng dụng thực tiễn rộng rãi.

- Tạo chú thích cho các chương trình truyền hình, các video trên internet, các bài giảng trực tuyến

- Ghi lại nội dung các cuộc hội thoại qua telephone hay các cuộc họp…

Ghi nội dung cuộc họp là một ứng dụng ngày càng được các tổ chức và công ty chú trọng, vì họp là phương thức trao đổi và thảo luận chủ yếu trong các tổ chức này.

Kỹ thuật ghi nhật ký tiếng nói đang được nghiên cứu để tạo ra dữ liệu giàu thông tin hơn, như việc tự động tạo chú thích cho dữ liệu truyền hình và radio trên toàn cầu Những bản chú thích này không chỉ bao gồm nội dung tiếng nói mà còn có các nhãn dữ liệu như thông tin về người nói Kể từ năm 2002, lĩnh vực hội nghị đã thu hút nhiều sự quan tâm từ giới khoa học, dẫn đến sự ra đời của nhiều dự án quan trọng như dự án EU Multimodal Meeting Manager (M4), dự án Swiss Interactive Multimodal Information Management (IM2), và dự án EU Augmented Multi-party Interaction (AMI).

A: Xin chào các bạn A: Chúng ta bắt đầu buổi họp E: Z còn chưa đến

C: Thôi cứ bắt đầu đi

D: Rất cám ơn các ý kiến đề xuất A: Cuộc họp kết thúc

Ghi biên bản cuộc họp : Ai nói? Nói gì?

Dự án AMIDA và CHIL của EU tập trung vào nghiên cứu và phát triển các kỹ thuật đa mô hình nhằm cải thiện khả năng giao tiếp giữa con người Những dự án này tự động rút trích nội dung từ dữ liệu âm thanh, tạo ra các bản lưu trữ thông tin phong phú, giúp người dùng không chỉ nghe mà còn dễ dàng đọc và tìm kiếm dữ liệu âm thanh.

Major global conferences on speech processing, such as ICASSP (IEEE International Conference on Acoustics, Speech and Signal Processing) and Interspeech, have established speech and speaker diarization (SD) as a key challenge in the field, alongside automatic speech recognition (ASR) and speaker recognition The most notable event in this area is the Rich Transcription Evaluation competition, sponsored by the National Institute of Standards and Technology (NIST) in the United States.

Nghiên cứu hệ thống ghi nhật ký tiếng nói mang lại nhiều lợi ích trong xử lý tiếng nói, đặc biệt trong việc tạo bản ghi cuộc họp Cuộc họp là phương thức phổ biến để thảo luận và chuyển giao công việc trong các tổ chức Tuy nhiên, việc ghi nhớ tất cả chi tiết trong các cuộc họp dài là rất khó khăn.

Giải pháp truyền thống ghi chép thông tin bằng người thư ký thường tốn nhân lực và dễ xảy ra sai sót Việc sử dụng camera để ghi âm/ghi hình có độ chính xác cao hơn nhưng lại tốn thời gian để xem lại, đặc biệt cho những người vắng mặt Giải pháp hiệu quả hơn là áp dụng công nghệ nhận dạng tiếng nói kết hợp với microphone array, giúp phân loại âm thanh từ nhiều hướng khác nhau Thiết bị này cho phép xác định người phát âm và cải thiện chất lượng âm thanh, đồng thời phát triển các thuật toán hỗ trợ nhận dạng tiếng nói trong cộng đồng nghiên cứu.

Tình hình nghiên cứu trong nước

Nghiên cứu công nghệ xử lý tiếng nói tại Việt Nam đã đạt được những kết quả khả quan, với hai nhóm nghiên cứu chính Nhóm đầu tiên, do Phó Giáo sư Lương Chi Mai dẫn dắt tại Viện Công nghệ Thông tin, tập trung vào việc thu thập dữ liệu và phát triển công cụ cho bài toán nhận dạng ngôn điệu trong hệ thống nhận dạng tiếng nói.

Viện Khoa học và Công nghệ Tính toán TP Hồ Chí Minh nhận được nguồn tài trợ từ một đề tài trọng điểm cấp nhà nước do chính phủ hỗ trợ kể từ năm 2006.

Nhóm nghiên cứu thứ hai thuộc trường Đại học Khoa học Tự nhiên thành phố Hồ Chí Minh, do PGS.TS Vũ Hải Quân lãnh đạo, đã tập trung vào việc phát triển các giải pháp truy vấn thông tin cho bản tin thời sự tiếng Việt Nhóm đã nhận được tài trợ cho đề tài cấp quốc gia KC01.01/06-10, nhằm khai thác thông tin đa phương tiện theo hướng ngữ nghĩa Bên cạnh đó, nhóm cũng được hỗ trợ từ đại học Quốc Gia thành phố Hồ Chí Minh để nghiên cứu mô hình hóa ngữ âm trong bối cảnh tài nguyên hạn chế Trong suốt hơn 10 năm qua, nhóm đã thành công trong việc xây dựng một số hệ thống nhận diện tiếng nói (ASR).

- Hệ thống nhận dạng tiếng nói tiếng Việt liên tục, bộ từ vựng không hạn chế

- Tổng đài hỏi đáp thông tin tự động bằng giọng nói

- Ứng dụng báo nói iNghe

- Trợ lý thông tin du lịch iSago

- Hệ thống nhận dạng tiếng nói tiếng Việt trong điều kiện tài nguyên hạn chế

- Nhận dạng tiếng nói với công nghệ máy học tiên tiến

Các hệ thống nhận dạng hiện tại đạt hiệu suất cao gần 95%, nhưng vẫn gặp hạn chế khi chỉ hoạt động trên máy tính cá nhân có cấu hình mạnh Điều này cho thấy chưa tận dụng được đầy đủ tiềm năng của xử lý tiếng nói trên các hệ thống truyền thông và chip/mạch tích hợp.

In 2010, a significant milestone was achieved in speech diarization research at AILab, initiated by a collaboration with NTU Singapore on the project “A Fast And Robust Clustering Algorithm For Real-Time Speaker Diarization System.” This project aimed to develop a real-time speaker classification system Between 2010 and 2016, AILab continuously expanded and advanced ASR technology in conjunction with speaker diarization, laying the groundwork for applications in meeting transcription.

Mục tiêu của đề tài

Nhiệm vụ của chúng tôi là nghiên cứu và phát triển hệ thống ghi nhật ký tiếng nói cho các cuộc họp, hay còn gọi là hệ thống ghi biên bản cuộc họp (Meeting Diarization System) Hệ thống này tự động phân đoạn và chuyển đổi dữ liệu âm thanh trong các cuộc họp thành văn bản, giúp rút trích nội dung, tìm kiếm và truy xuất thông tin một cách hiệu quả.

Viện Khoa học và Công nghệ Tính toán TP Hồ Chí Minh cung cấp giải pháp tự động ghi lại thông tin chi tiết trong các cuộc họp, giúp những người không thể tham dự dễ dàng và nhanh chóng xem lại nội dung một cách đầy đủ.

Hình 2 Mục tiêu của đề tài

Hệ thống ứng dụng được mô tả trong hình 2 sử dụng một thiết bị ghi âm đa chiều (microphone array) đặt giữa bàn để thu âm giọng nói của các thành viên trong cuộc họp Thiết bị này có nhiều microphone nhỏ được bố trí hướng ra mọi phía, cho phép xác định lời thoại của từng người dựa trên microphone gần nhất Sự chênh lệch về thời gian nhận tín hiệu giữa các microphone giúp phân loại nguồn phát tiếng nói, và sau khi xác định người nói, lời thoại sẽ được chuyển đổi thành văn bản thông qua công nghệ nhận diện giọng nói tự động (ASR).

Ý nghĩa khoa học thực tiễn

Công nghệ xử lý tiếng nói tiếng Việt đang phát triển mạnh mẽ với nhiều thành công trong nghiên cứu, nhưng vẫn thiếu ứng dụng thực tiễn Nghiên cứu về ghi nhật ký người nói đang gặp khó khăn và cần được khôi phục Đề tài này hướng tới việc kết hợp sức mạnh của ASR và SD để triển khai ứng dụng ghi biên bản cuộc họp, tạo cầu nối giữa lý thuyết và thực tiễn, đồng thời phát huy những thành quả nghiên cứu về xử lý tiếng nói tiếng Việt.

Ứng dụng ghi biên bản cuộc họp không chỉ giảm chi phí nhân lực mà còn tự động hóa các hoạt động hội họp, cung cấp biên bản dưới dạng thông tin hỗ trợ bên cạnh âm thanh và hình ảnh Đặc biệt, ứng dụng này giúp người khiếm thính dễ dàng tiếp cận thông tin và thúc đẩy sự hòa nhập xã hội.

Tính mới, tính sáng tạo thể hiện qua 3 điểm:

A: Cuộc họp hôm nay gồm 6 người A: Về xét duyệt đề tài KHCN E: Có bao nhiêu đề tài đăng ký?

D: Cám ơn các bạn đã tham dự A: Cuộc họp kết thúc

Phương pháp ghi nhật ký lời thoại sử dụng microphone array và công nghệ nhận dạng tiếng nói tiếng Việt là giải pháp tối ưu cho việc ghi chép trong các hội nghị, cuộc họp và sự kiện.

- Sản phẩm của đề tài sẽ là một ứng dụng ghi biên bản cuộc họp tiếng Việt tự động đầu tiên ở Việt Nam

Tính mới của đề tài không chỉ nằm ở phạm vi quốc gia mà còn có giá trị quốc tế, vì nếu đề tài được thực hiện tốt, các nguồn thông tin mà sản phẩm cung cấp sẽ trở thành tài liệu tham khảo quý giá cho người dùng toàn cầu, bao gồm cả lời thoại và biên bản đa ngôn ngữ.

Bố cục báo cáo

Phần còn lại của báo cáo được tổ chức như sau:

- Chương 2 trình bày phương pháp xây dựng hệ thống ghi biên bản cuộc họp

- Chương 3 diễn giải dữ liệu, kịch bản, và kết quả thực nghiệm

- Chương 4 đặc tả ứng dụng triển khai cho các kỳ họp Quốc hội

- Chương 5 tóm tắt các kết quả đạt được và tổng kết đề tài

Hệ thống tạo biên bảo cuộc họp tự động

Frontend

Mục tiêu của Frontend là tách âm thanh hỗn hợp trong cuộc họp thành các kênh giọng nói riêng biệt cho từng người tham gia Quá trình này được thực hiện thông qua ba tác vụ con.

(1) phân đoạn âm thanh, (2) phân cụm người nói, và (3) tăng cường âm thoại

2.1.1 Phân đoạn âm thanh Để giảm thiểu sai số ASR, cần loại bỏ các đoạn không chứa lời thoại (nonspeech) trước khi đưa vào nhận dạng tiếng nói Phân loại được giữa speech và non-speech là mục tiêu cần đạt của tác vụ phân đoạn âm thanh (đảm nhiệm bởi module Segmentator của hệ thống)

Nhận dạng tiếng nói Biên bản

A: {lời thoại của A} C: {lời thoại của C}

Lời thoại theo từng kênh người nói

Hình 4 Phân loại Speech và Non-speech

Có nhiều phương pháp tiếp cận để phân loại speech/nonspeech, trong đó giải pháp phân tầng tín hiệu MFCC được đánh giá cao cho việc phân loại lời thoại trong các cuộc họp và hội nghị Phương pháp này nổi bật với chi phí tính toán thấp và khả năng đáp ứng thời gian thực Các frame tín hiệu âm thanh đầu vào được xử lý liên tục để rút trích thông tin cần thiết.

Hệ số Mel (MFCC) bao gồm 8 dãy phân bố tần số cho cả speech và nonspeech Sau khi được chuẩn hóa và làm mượt, bộ hệ số này sẽ được sử dụng cho quá trình phân loại Kết quả phân loại sẽ phụ thuộc vào số lượng dãy (band) thuộc nhóm nào nhiều hơn.

Phương pháp này yêu cầu xác định trước các dãy tần số mel, hệ số chuẩn hóa và smoothing, và bộ tham số này có thể được ước lượng từ dữ liệu học.

Ngoài việc phân loại speech/nonspeech, Segmentator còn cần thực hiện khử nhiễu để giảm thiểu sai số ASR Theo kinh nghiệm từ đề tài KC01.16/06-10, giải pháp Spectral Substraction là tối ưu cho loại nhiễu nền phổ biến trong âm thanh hội nghị Thuật toán thực hiện qua ba bước đơn giản: (1) trích DFT từ các frame tín hiệu, (2) khấu trừ mẫu phổ nhiễu đã thống kê trước, và (3) biến đổi ngược DFT rồi thực hiện Overlap add lại các frame.

Hình 5 Khử nhiễu bằng phương pháp trừ phổ

2.1.2 Phân cụm người nói Ở tác vụ này, âm thanh hỗn hợp thu từ phòng họp được “cắt” ra thành N kênh tương ứng với N người nói hiện diện Có nhiều tiếp cận khác nhau để giải quyết bài toán này Các tiếp cận mềm sử dụng thuật toán để phân loại/phân cụm người nói dựa trên đặc trưng phát âm của từng người

Các tiếp cận cứng sử dụng thiết bị chuyên dụng để xác định chủ thể phát âm, trong đó đầu thu âm đa chiều (microphone array) đóng vai trò quan trọng trong việc gán nhãn người nói.

Hình 6 Phân cụm người nói bằng microphone array

Trên thiết bị, nhiều microphone nhỏ được gắn xung quanh, với microphone gần nhất với người phát âm thu tín hiệu sớm và rõ nhất Sự chênh lệch thời gian giữa các microphone, chỉ trong micro-giây, cho phép xác định hướng âm thanh và vị trí của người phát âm.

Mặc dù microphone array hỗ trợ trong việc tách kênh âm thanh và gán nhãn người nói, nhưng tín hiệu sóng âm thu được vẫn bị lẫn nhiều âm thanh từ các hướng khác, như âm môi trường, tạp âm, vọng âm và âm phát ra từ các thủ thể khác Những nguồn âm này gây ra hiệu ứng cộng hưởng âm trong từng kênh sau khi tách, ảnh hưởng đáng kể đến kết quả nhận dạng trong các bước tiếp theo.

Để giải quyết vấn đề tăng cường âm thanh, thuật toán beamforming được đề xuất áp dụng trên microphone array, với vị trí của chủ thể phát âm làm cơ sở xác định nguồn âm.

Cung thuận là cụm microphone gần nhất với người phát âm, giúp tiếp nhận tín hiệu âm thanh một cách sớm nhất và rõ ràng nhất.

Cung nghịch là cụm microphone còn lại trên thiết bị, đại diện cho các nguồn âm môi trường như tạp âm, vọng âm và âm phát ra từ các thủ thể khác Nó có thể hiểu đơn giản là phần bù cho âm thanh của chủ thể phát âm.

Kết quả của việc tăng cường âm thoại là sự kết hợp giữa tín hiệu cung thuận và tín hiệu cung nghịch, được điều chỉnh theo tỉ lệ trọng số Quy trình này giúp loại bỏ âm thanh không mong muốn cho từng kênh của người nói, từ đó tách biệt rõ ràng thông tin thoại giữa các người nói khác nhau.

Backend

Cung nghịch B âm môi trường âm từ các chủ thể khác

Sau khi các nguồn âm đã được xử lý qua frontend, backend chỉ cần chuyển đổi tín hiệu âm thanh thành văn bản Mặc dù tác vụ này có vẻ đơn giản, nhưng nó thực sự là một trong những thách thức lớn nhất trong lĩnh vực Trí tuệ Nhân tạo, được gọi là "nhận dạng tiếng nói" (Automatic Speech Recognition - ASR), và vẫn chưa có giải pháp tối ưu Tuy nhiên, nếu chúng ta giới hạn bài toán trong ngữ cảnh hội nghị, cùng với sự hỗ trợ của microphone array, việc phát triển một ứng dụng ASR trở nên khả thi.

Hình 8 Xây dựng bộ nhận dạng theo phương pháp ràng buộc không gian đặc trưng

2.2.1 Mô hình ngữ âm trong điều kiện tài nguyên hạn chế

Đề tài nghiên cứu tập trung vào lĩnh vực các cuộc họp quốc hội, sử dụng dữ liệu công bố trên internet Khối lượng dữ liệu này, mặc dù nhỏ về tổng thời gian âm thoại, lại thuộc trường hợp tài nguyên hạn chế Do đó, bộ nhận dạng tiếng nói được phát triển theo phương pháp ràng buộc không gian đặc trưng, như đã trình bày trong Hình 8, thông qua hai bước thực hiện.

- Huấn luyện mô hình ngữ âm nền (background) trên kho ngữ liệu tổng quát

- Ngoại suy ra mô hình ngữ âm cho bộ nhận dạng trên 40 giờ dữ liệu âm thanh của các kỳ họp quốc hội

Các thực nghiệm đánh giá và tùy chỉnh được thực hiện ngay sau đó để đảm bảo tối ưu cho bộ nhận dạng

(b) Lựa chọn Bottleneck Features Hình 9 Triển khai DNN cho bộ nhận dạng

2.2.2 Mô hình ngữ âm hiện đại

Đề tài nghiên cứu không chỉ dừng lại ở việc áp dụng công nghệ mới nhất của ASR mà còn thử nghiệm Deep Neural Network (DNN) để triển khai bộ nhận diện âm thanh, nhằm nâng cao độ chính xác và đáp ứng nhu cầu thực tế Cụ thể, DNN được áp dụng trong lĩnh vực hội nghị với hai hướng phát triển như thể hiện trong Hình 9.

Mô hình lai HMM-DNN đã thay thế kiến trúc HMM-GMM truyền thống, trong đó DNN được cấu trúc với 11-context windows cho lớp đầu vào, lớp ẩn linh hoạt và lớp đầu ra đại diện cho bộ âm vị Quy trình huấn luyện mạng được thực hiện theo hướng dẫn đã được mô tả trong tài liệu [26].

Bài viết đề cập đến việc sử dụng các đặc trưng Bottleneck Features (BNF) từ mạng nơ-ron sâu (DNN) kết hợp với mô hình Markov ẩn và mô hình Gaussian hỗn hợp (HMM-GMM) truyền thống Thiết kế của DNN bao gồm 11 cửa sổ ngữ cảnh cho lớp đầu vào và bộ âm vị cho lớp đầu ra, trong khi số lượng lớp ẩn được tăng gấp đôi lên từ 7 đến 10 lớp Đặc trưng BNF được chọn từ lớp ẩn thứ 6.

Các số liệu về cấu hình không gian đặc trưng và cấu hình DNN được lấy làm định hướng từ các nghiên cứu trước đây và từ nhóm tác giả Trong quá trình thực hiện đề tài, nhiều cấu hình tham số đã được thử nghiệm để chọn ra kết quả tối ưu nhất.

Thực nghiệm

Thu thập và tổ chức kho dữ liệu

Hệ thống ghi biên bản cuộc họp (HGBC) được phát triển dựa trên máy học thống kê, trong đó việc sử dụng bộ nhận dạng tiếng nói để chuyển đổi lời thoại thành văn bản tự động là rất quan trọng Yếu tố tài nguyên ngữ liệu quyết định hiệu năng của tác vụ nhận dạng, với kho ngữ liệu lớn giúp nâng cao độ chính xác Trong khi các ngôn ngữ phổ biến như tiếng Anh, Đức và Tây Ban Nha có hàng vạn giờ dữ liệu từ nhiều người nói khác nhau, thì các ngôn ngữ có tài nguyên hạn chế như tiếng Việt và tiếng Malay lại gặp khó khăn do thiếu dữ liệu huấn luyện, dẫn đến hiệu năng của hệ thống nhận dạng giọng nói (ASR) chưa đạt được mức tối ưu.

Từ những ngày đầu phát triển công nghệ SLP tại miền Nam Việt Nam vào đầu những năm 2000, nhóm nghiên cứu AILab thuộc trường ĐH.KHTN đã nỗ lực thu thập và bổ sung kho ngữ liệu tiếng Việt phục vụ cho nghiên cứu khoa học Hiện tại, tổng thời lượng dữ liệu đã vượt 600 giờ tiếng nói từ hơn 300 người nói khác nhau, mặc dù vẫn chưa đáp ứng đầy đủ yêu cầu Nhóm nghiên cứu đang thực hiện đề tài nhằm bổ sung thêm 200 giờ dữ liệu tiếng nói theo domain bản tin thời sự, được thu thập từ các kênh truyền thông như đã mô tả trong Bảng 1.

Bảng 1 Kho ngữ liệu âm thanh

STT Kênh thu thập Thời lượng

1 Đài tiếng nói nhân dân VOH 50h

2 Đài tiếng nói nhân dân VOV 50h

3 Bản tin thời sự HTV 40h

4 Bản tin thời sự VTV 40h

Để phục vụ cho việc huấn luyện thích nghi và thử nghiệm biên bản tự động, đề tài cần sử dụng bộ dữ liệu họp Quốc hội Bộ dữ liệu này đóng vai trò quan trọng trong việc đánh giá hiệu năng của hệ thống.

Viện Khoa học và Công nghệ Tính toán TP Hồ Chí Minh đã thu thập dữ liệu trực tiếp từ các kỳ họp Quốc hội hàng năm, với bảng 2 cung cấp số liệu chi tiết cho tổng lượng 60 giờ video.

Bảng 2 Bộ dữ liệu Quốc hội

STT Kênh thu thập Thời lượng

1 Video các kỳ họp Quốc hội 60h

Cả hai bộ dữ liệu video và audio sau đó đều được tiền xử lý thông qua các công đoạn:

- Đánh tag (gán nhãn) thủ công cho các đoạn nhạc nền, nhiễu, dữ liệu hỏng

- Gán nhãn văn bản (transcription) thủ công cho lời thoại trong audio và video

- Video được tách rời 2 kênh hình-tiếng riêng biệt

- Audio được format lại theo định dạng 16Khz, 16bits, mono

- Phân shot (thủ công) theo chủ đề cho các file video

- Phân đoạn (thủ công) theo đơn vị câu cho các file audio

- Vector đặc trưng speech lấy theo MFCC-delta-accel tổng 39 thành phần

Tổng lượng 260 giờ audio-video được phân chia thành 6 tập con để phục vụ cho việc huấn luyện ASR, thích nghi ASR, thực nghiệm phân đoạn và thực nghiệm ASR, như đã nêu trong Bảng 3.

Bảng 3 Phân chia dữ liệu cho thực nghiệm

3 Speech/non-speech train set - 2h

4 Speech/non-speech test set - 4h

Thực nghiệm phân đoạn

3.2.1 Phân loại speech và non-speech

Trong thực nghiệm này, các file âm thanh được chia thành các đoạn ngắn 25ms với khoảng overlapping 10ms, tương ứng với cách phân chia frame của bộ nhận dạng Tổng số frame thu được là 705.600 cho giai đoạn training và 1.411.200 cho giai đoạn testing Bảng 4 thể hiện hiệu năng phân loại speech/non-speech theo từng nhãn tương ứng.

Bảng 4 Hiệu năng phân loại speech/non-speech

Nhản speech Nhản non-speech

Từ số liệu Bảng 4, dễ dàng thấy được độ chính xác phân loại của nhản speech với non-speech lần lượt là 94.5% và 91.9%

Mỗi phân đoạn tiếng nói trong dữ liệu Quốc hội được gán nhãn thủ công theo tên đại biểu Phòng họp cho thí nghiệm được thiết kế với 16 ghế mỗi phiên Microphone array được đặt ở trung tâm phòng họp, đảm bảo khoảng cách đều đến từng ghế Các phân đoạn phát biểu của mỗi đại biểu lần lượt được phát qua loa tại các ghế, với thời gian phát gối đầu nhau 10 giây Hiệu năng phân cụm người nói của microphone array được ghi nhận trong Bảng 5.

Bảng 5 Hiệu năng phân cụm người nói

Thời lượng (phút) Đại biểu

Sai số phân cụm người nói thường xảy ra khi hai ghế gần nhau cùng phát âm và chia sẻ microphone Tuy nhiên, hiệu năng của việc sử dụng microphone array trong phân cụm là rất tối ưu.

Hệ thống không chỉ phân đoạn âm thanh theo từng cụm người nói mà còn xác định danh tính của người phát âm thông qua bộ phân loại GMM với các cấu hình Gauss khác nhau Bảng 6 thể hiện hiệu suất phân loại người nói tương ứng với các cấu hình này.

Bảng 6 Hiệu năng phân loại người nói

Số phân bố Gauss Tỉ lệ Hiệu năng

Với số lượng phân bố Gauss từ 8 trở lên, GMM có xu hướng bảo hòa, và cấu hình tối ưu đạt 16 Gauss mang lại độ chính xác phân loại cao nhất là 95.68%.

Thực nghiệm ASR

Mô hình ngôn ngữ trigram trong bộ nhận dạng được phát triển từ một tập hợp văn bản gồm 273 triệu tokens, thu thập từ các trang báo mạng trong khoảng thời gian từ tháng 4/2010 đến tháng 11/2014 Để cải thiện độ chính xác của mô hình, transcription của bộ training-set đã được trộn vào nhằm định hướng domain tốt hơn Các từ có tần suất xuất hiện dưới 12 lần đã được loại bỏ, và kết quả cuối cùng bao gồm 5281 danh mục từ điển với tỷ lệ OOV chỉ 2.6%.

Không dùng Interpolation Có dùng

Để đánh giá mô hình ngôn ngữ (Language Model - LM), chúng tôi đã chọn ngẫu nhiên 3000 câu từ tập test-set, với tổng cộng 56k tokens Bảng 7 cho thấy hiệu năng perplexity của mô hình trong hai trường hợp: có và không sử dụng interpolation Kết quả cho thấy mô hình LM có sử dụng interpolation (trộn thêm transcription) đạt hiệu suất tốt hơn rõ rệt.

Bộ nhận dạng xây dựng theo kỹ thuật SGMM được huấn luyện theo 3 phases:

- Phase 1: Training mô hình UBM (Universal Background Model) với 800 phân phối Gauss Thực hiện trên 190h dữ liệu audio (bộ training-set)

- Phase 2: Ngoại suy các state-vectors với kích thước 40 chiều, và 12 sub-states cho mỗi state-vector Thực hiện trên 40h dữ liệu video (bộ adaptation-set)

- Phase 3: Bổ sung kỹ thuật fMLLR và MMI cho huấn luyện tăng cường

Sai số WER Audio Video Average

Mô hình SGMM đã được đánh giá hiệu năng nhận dạng qua bảng 8, với kết quả cho 10 giờ audio và 10 giờ video test-set Hiệu năng trung bình tốt nhất đạt 15.9% WER (Tỷ lệ lỗi từ) Đặc biệt, trong video họp Quốc hội, mô hình này đạt được 83.3% độ chính xác nhận dạng, tương đương với 16.7% WER, vượt 3.3% so với dự kiến 80%.

Cùng với SGMM, chúng tôi cũng tiến hành thử nghiệm DNN để tìm ra giải pháp tối ưu cho đề tài Hai dạng thức phổ biến của DNN được thử nghiệm là kiến trúc HMM-DNN và đặc trưng Bottleneck Features.

Với kiến trúc HMM-DNN, mạng DNN thay thế GMM trong việc phân lớp ngữ âm DNN được thiết kế với 11-context windows cho lớp đầu vào, bao gồm các lớp ẩn tùy chọn, và lớp đầu ra đại diện cho bộ triphones Quy trình huấn luyện mạng diễn ra qua 3 bước cơ bản.

B1 Khởi tạo giá trị tham số ban đầu theo phân bố chuẩn quanh tâm O

- Huấn luyện mạng với thủ tục Adam

- Ước lượng lại xác suất Pk(O|HMM-DNN)

B3 Dừng vòng lặp nếu ΔP = |P k – P k-1 | nhỏ hơn 10 -6 liên tục trong 5 chu kỳ lặp, hoặc nếu k > N

Bảng 9 cho thấy hiệu năng của HMM-DNN khi thay đổi số lượng lớp ẩn, với DNN đạt hiệu suất tối ưu khi có 6 lớp ẩn Cụ thể, mô hình này đạt 90.8% độ chính xác cho dữ liệu audio và 88.2% cho dữ liệu video.

Bảng 9 Hiệu năng HMM-DNN

Với phương pháp huấn luyện DNN tương tự như trên, nếu thay thế GMM bằng DNN nhưng vẫn giữ nguyên kiến trúc HMM-GMM và chỉ sử dụng đầu ra của lớp ẩn tốt nhất làm đầu vào cho HMM-GMM, thì phương pháp này được gọi là Bottleneck Features (BNF) DNN được thiết kế với 11-context windows cho lớp nhập, bộ triphones cho lớp xuất, và số lượng lớp ẩn tối thiểu là 6, với BNF được chọn tại vị trí 6 Ngoài ra, HMM-GMM cũng được cải thiện bằng cách bổ sung fMLLR và MMI trong quá trình huấn luyện.

Bảng 10 cho thấy BNF có hiệu năng vượt trội hơn SGMM, nhưng vẫn kém hơn HMM-DNN với 2.2% hiệu năng nhận dạng lời thoại video trong trường hợp tốt nhất Mặc dù BNF có lợi thế trong việc tận dụng các kỹ thuật bổ trợ từ HMM-GMM như fMLLR và MMI, nhưng điều này lại đánh đổi khả năng phân lớp ngữ âm trực tiếp của DNN, dẫn đến kết quả toàn cục chưa được tối ưu.

Hình 10 Chi phí tính toán của các tiếp cận.

Thời gian đáp ứng

Để triển khai các ứng dụng thực tế, ngoài độ chính xác nhận dạng, các phương pháp tiếp cận cũng cần đáp ứng một hạn mức về thời gian phản hồi Trong nghiên cứu này, 50 mẫu test ngẫu nhiên được sử dụng để đo tốc độ xử lý của các phương pháp SGMM, DNN và BNF Hình 10 minh họa chi phí tính toán trung bình trên 1 giây cho từng mẫu test.

DNN đạt thời gian đáp ứng trung bình tốt nhất, gần với mức thời gian thực, trong khi SGMM và BNF chậm hơn lần lượt 0.09 và 0.17 giây do cần thực hiện thêm các bước tái cấu trúc GMM và trích đặc trưng BNF Tuy nhiên, cả ba phương pháp đều đáp ứng được yêu cầu tối thiểu cho việc triển khai ứng dụng.

Triển khai ứng dụng

Thiết kế tính năng

Hệ thống ghi biên bản cuộc họp tự động có thể được áp dụng cho các kỳ họp Quốc hội, với các tính năng chính như: ghi âm tự động, phân tích nội dung cuộc họp, và tạo biên bản nhanh chóng, giúp nâng cao hiệu quả làm việc và tiết kiệm thời gian cho các đại biểu.

Theo đó, danh sách các xử lý cơ bản gồm:

STT Hạng mục Diễn giải

1 HTTPS Protocol cho truyền dẫn thông tin

2 SSL Certificate Theo standard của CA

3 HTTP/GET Truy hồi tài liệu qua giao thức HTTP/HTTPS

4 HTTP/POST Truy vấn tài liệu qua giao thức HTTP/HTTPS

5 Crawling API Interface liên kết với kênh thông tin Quốc hội

6 Database Hệ quản trị CSDL video và biên bản cuộc họp

7 Cron Jobs Định thời liên kết giữa ứng dụng và Hệ thống tạo biên bản

Thiết kế dữ liệu

STT Tên thực thể Diễn giải

1 Video Thông tin mô tả và đường dẫn đến nội dung cuộc họp

2 Transcription Biên bản cuộc họp được tự động phát sinh

3 Queue Hàng đợi chứa các video cần chuyển thể sang văn bản

Hệ thống ghi biên bản cuộc họp tự động

4 Session Các phiên hoạt động và sử dụng

5 Session Detail Chi tiết các phiên hoạt động

6 Security Các lớp bảo mật hệ thống

7 Policy Lưu trữ quy định hoạt động của hệ thống

8 System Hệ thống chính của ứng dụng

Sơ đồ quan hệ Entity Relationships:

Thiết kế giao diện

Căn cứ theo các tính năng cơ bản của ứng dụng, giao diện được thiết kế với 5 màn hình chính:

- M1 – Hình 12: Màn hình trang chủ

- M2 – Hình 13: Màn hình duyệt danh sách các bài phát biểu

- M3 – Hình 14: Màn hình truy vấn

- M4 – Hình 15: Màn hình xem nội dung phát biểu với biên bản tự động được phát sinh

- M5 – Hình 16: Màn hình duyệt danh sách đại biểu

Hình 11 Liên kết màn hình giao diện

Các màn hình này liên kết với nhau theo sơ đồ thể hiện trong Hình 11

Màn hình duyệt bài phát biểu

Màn hình xem nội dung Màn hình đại biểu

Hình 12 Màn hình trang chủ

Hình 13 Màn hình duyệt danh sách các bài phát biểu

Hình 14 Màn hình truy vấn

Hình 15 Màn hình xem nội dung

Hình 16 Màn hình đại biểu

Tổng kết

Kết quả đạt được

5.1.1 Về nội dung đăng ký

STT Nội dung nghiên cứu

(đã đăng ký theo hợp đồng NCKH) Kết quả

1 Xây dựng thuyết minh nhiệm vụ Khoa học và Công nghệ

- Thuyết minh nhiệm vụ Khoa học và Công nghệ

2 Thu thập và tổ chức kho dữ liệu

- 200 giờ ngữ liệu tiếng nói

- 60 giờ ngữ liệu tiếng nói của các kỳ họp quốc hội

3 Xây dựng bộ phân đoạn Segmentator

4 Xây dựng bộ phân cụm người nói

- Module phân cụm người nói

5 Xây dựng bộ tăng cường âm thoại

- Module tăng cường âm thoại áp dụng cho microphone array

6 Xây dựng động cơ nhận dạng tiếng nói

- Bộ nhận dạng tiếng nói cho meeting/hội nghị, với độ chính xác từ (word accuracy rate) 83.3%

- Bộ nhận dạng tiếng nói sử dụng DNN, với độ chính xác (word accuracy rate) 88.2%

7 Giả lập và thực nghiệm

- Các nhóm cấu hình tham số hệ thống tương ứng cho từng điều kiện cơ sở vật chất và bố trí của các dạng phòng họp

8 Thực hiện tính toán, mô phỏng động cơ nhận dạng tiếng nói trên hệ thống tính Hoàn thành

- Báo cáo dữ liệu mô phỏng tính toán

Viện Khoa học và Công nghệ Tính toán TP Hồ Chí Minh Trang 31 toán hiệu năng cao (HPC)

- Hoàn thành triển khai cho các kỳ họp Quốc hội

- Báo cáo thực nghiệm và đánh giá

10 Viết báo cáo tổng hợp Hoàn thành

- Báo cáo tổng kết đề tài

5.1.2 Về sản phẩm đề tài

(đã đăng ký theo hợp đồng NCKH) Nội dung đã thực hiện

1 Hệ thống ghi biên bản cuộc họp tự động Hệ thống đã triển khai tại http://quochoi.vietcap.org/

2 Bộ ngữ liệu (corpus) về các cuộc họp quốc hội Bộ ngữ liệu 60h video các kỳ họp Quốc hội

3 Một (1) bài báo khoa học trên tạp chí trong nước Một (1) bài đăng trên Tạp chí Tin học và Điều khiển học (phụ lục)

5.1.3 Về công tác đào tạo

- Đào tạo được 1 Thạc sĩ

Kết luận

Tự động hóa sản xuất và đời sống là xu thế chủ đạo của Cách mạng Công nghiệp 4 Dự án này hướng đến việc xây dựng cơ chế tự động hóa thông tin và quy trình hội họp, góp phần giảm thiểu nhân lực trong việc ghi nhận, biên tập và hệ thống hóa dữ liệu Giải pháp này không chỉ thúc đẩy phát triển kinh tế nghiệp vụ mà còn nâng cao tiến bộ xã hội.

Tiêu đề	Phát triển hệ thống hỗ trợ tự động tạo biên bản cuộc họp sử dụng công nghệ nhận dạng tiếng nói
Tác giả	PGS. TS. Vũ Hải Quân
Trường học	Viện Khoa Học Và Công Nghệ Tính Toán
Thể loại	báo cáo tổng kết
Năm xuất bản	20..
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	44
Dung lượng	8,21 MB