Vo GD \ Gépasser les frontiéres cranabiaft vì y | Cơ sở dữ liệu audio Le ThiLan MICA International Research Center MICA Multimedia, Information, Communication & Applications U
Trang 1Vo GD
\ Gépasser les frontiéres
cranabiaft vì
y |
Cơ sở dữ liệu audio
Le ThiLan
MICA
International Research Center MICA
Multimedia, Information, Communication & Applications
UMI 2954 Hanoi University of Technology
1 Dai Co Viet - Hanoi - Vietnam
Trang 2Ngữ cảnh
Cơ sở dữ liệu tiếng nói
VEGAS WiCS
qth LOUNGE
PQDCASI:
Broadcast News Podcasts Academic Lectures
Nhận dạng tiêng nói Tìm kiêm văn bản tiêng nói
Trang 3Nhận dang tiéng noi
= Duara cau gan gidng nhất với đâu vào
O
=" O được xem như một dãy quan sat
¢ O=0,,0,,0,, ,0,
= Xác định dãy các từ w=w,w„w,, w,
W = arg max PONE)
W =argmax P(O|W)P(W)
WeL
Trang 4
lên trúc của hệ thông nhận dạng tiêng
wT
A
W =argmax P(O|W)P(W)
a a
[- CC =—— ¬
—— —À— _——
Network Construction
|| Acoustic} | Pronunciation | Language |
| Model BC |! eee |
Trang 5
Trích chọn đặc trưng
=._ Đặc trưng MFCC - The Mel-Frequency Cepstrum Coefficients (MFCC)
MFCC
* Kích thước của cửa sô : 25ms / Tốc độ : 10ms
5 ms
10ms |
Vv Vv
al a2 a3
Trang 6
Tìm kiêm văn bản nói
= Mục tiêu:
* Cho phép tìm kiêm trên văn bản nói như văn bản bình thường
* Tìm kiếm với độ chính xác cao
* Cho phép duyệt kết quả trả về
* Tìm nhanh đoạn mà người dùng muôn nghe hoặc xem
= Tim kiém:
* Đoạn văn bản chứa nội dung nói
® Bản tóm tắt của tài liệu nói
* Các thông tin khác
* Người nói
* Các thông tin siêu dữ liệu
*
Trang 7Đoạn văn bản chứa nội dung nói
= Thủ công:
* Tốn kém
* Có nhiêu lỗi
= Theo nghiên cứu của MIT
* Đoạn văn bản chuẩn bị thủ công có 10% khác so
với nội dung thực sự
Misspelled words Substitution errors
Furui > Frewey Fourier > for your Makhoul > McCool Kullback > callback Tukey > Tuki a priori > old prairie
Gaussian > galsian affricates > aggregates cepstrum > capstrum palatal > powerful
a
Trang 8Gán ngữ nghĩa
= Con người thực hiện gán ngữ nghĩa trong thời gian gâp từ 10 đên 50 lân thời gian thực
* Ghi lại toàn bộ nội dụng đoạn âm thanh
* Xác định người nói, thay đổi người nói
* Xác định các sự kiện không có người nói và nhiêu
nên
* Phân đoạn và tóm tắt nội dung
Trang 9
Gán ngữ nghĩa
= Mục tiêu: Tự động sinh ngữ nghĩa cho các đoạn
âm thanh
® Ghi lại nội dung (Từ đã được nói)
* Xác định người nói và thời gian
*® Phân đoạn (theo chủ đề)
¢ Tom tat
Chi s6 héa
® Tìm kiêm
Trang 10
Tìm kiêm
=_ Tập hợp N tài liệu D=Dj, ,DN
® “lớn” N: 10k-1M tài liệu
® “bé” N: < 1-10k tài liệu
= Cau truy van: O= đ1 đỌ
* lập có trật tự các từ trong từ vựng }
* Hạn chê ở việc tìm theo từ khóa, các hình thức khác
cũng có thê thực hiện:
* Đoạn tiêng nói/âm thanh truy vẫn
Trang 11
Tim kiém van ban tiéng noi voi TREC
= Text Retrieval Conference (TREC)
* Đánh giá nhận dạng tiêng nói từ 1997-2000
(TREC-6 đênTREC-9)
= TREC-8 :
® Bản tin, 22,000 bản tinh với 500 giờ âm thanh
Trang 12
Tìm kiểm văn bản tiếng nói - Bản tin
= Được chuẩn bị kỹ, đọc bởi phát thanh viên
chuyên nghiệp
= Ngôn ngữ sử dụng giống với ngôn ngữ viết
= Từ vựng có thê được học qua các bản tin
hàng
= Nhiều nội dung có sẵn phụ dé
Trang 13
Tim kiém văn bản tiếng nói khác
= Các văn bản khác
* Nội dung cuộc họp (Waibel et al, 2001)
* Doc thu (SCANMail, Bacchiani et al, 20071 ))
* Bài giảng
= Những khó khăn:
* Tiếng nói tự nhiên, không chuẩn bị trước
* Từ vựng và cách sử dụng ngôn ngữ tủy thuộc vào
từng người và từng chủ đê
* Không biết nội dung
* Nhiêu giọng điệu, vùng miền
Trang 14@>s
Tim kiém van ban tiéng noi khac
= Phát hiện các từ (thuật ngữ ) được nói trong một cơ sở dữ liệu không đồng nhất STD (Spoken Term Detection)
Documents Broadcast News BN, Switchboard, Meeting Languages English English, Arabic, Mandarin Query Long Short (few words)
System Output | Ranked Relevant documents | «Location of the query in the audio
** Decision Score indicating how likely the term exists
«*“Actual” decision as to whether the detected term is a hit
= Muc tiéu
* Đánh giá tốc độ và độ chính xác
* Đánh giá khả năng phát hiện từ và âm
*_ Đánh giá kỹ thuật cho 3 ngôn ngữ (Anh, A rập và Trung Quốc)