1. Trang chủ
  2. » Công Nghệ Thông Tin

Tài liệu Cơ sở dữ liệu audio video ảnh docx

14 569 2
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tài liệu Cơ sở dữ liệu audio video ảnh docx
Tác giả Le Thi Lan
Trường học Hanoi University of Technology
Chuyên ngành Computer Science
Thể loại Bài giảng
Thành phố Hanoi
Định dạng
Số trang 14
Dung lượng 1,13 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Vo GD \ Gépasser les frontiéres cranabiaft vì y | Cơ sở dữ liệu audio Le ThiLan MICA International Research Center MICA Multimedia, Information, Communication & Applications U

Trang 1

Vo GD

\ Gépasser les frontiéres

cranabiaft vì

y |

Cơ sở dữ liệu audio

Le ThiLan

MICA

International Research Center MICA

Multimedia, Information, Communication & Applications

UMI 2954 Hanoi University of Technology

1 Dai Co Viet - Hanoi - Vietnam

Trang 2

Ngữ cảnh

Cơ sở dữ liệu tiếng nói

VEGAS WiCS

qth LOUNGE

PQDCASI:

Broadcast News Podcasts Academic Lectures

Nhận dạng tiêng nói Tìm kiêm văn bản tiêng nói

Trang 3

Nhận dang tiéng noi

= Duara cau gan gidng nhất với đâu vào

O

=" O được xem như một dãy quan sat

¢ O=0,,0,,0,, ,0,

= Xác định dãy các từ w=w,w„w,, w,

W = arg max PONE)

W =argmax P(O|W)P(W)

WeL

Trang 4

lên trúc của hệ thông nhận dạng tiêng

wT

A

W =argmax P(O|W)P(W)

a a

[- CC =—— ¬

—— —À— _——

Network Construction

|| Acoustic} | Pronunciation | Language |

| Model BC |! eee |

Trang 5

Trích chọn đặc trưng

=._ Đặc trưng MFCC - The Mel-Frequency Cepstrum Coefficients (MFCC)

MFCC

* Kích thước của cửa sô : 25ms / Tốc độ : 10ms

5 ms

10ms |

Vv Vv

al a2 a3

Trang 6

Tìm kiêm văn bản nói

= Mục tiêu:

* Cho phép tìm kiêm trên văn bản nói như văn bản bình thường

* Tìm kiếm với độ chính xác cao

* Cho phép duyệt kết quả trả về

* Tìm nhanh đoạn mà người dùng muôn nghe hoặc xem

= Tim kiém:

* Đoạn văn bản chứa nội dung nói

® Bản tóm tắt của tài liệu nói

* Các thông tin khác

* Người nói

* Các thông tin siêu dữ liệu

*

Trang 7

Đoạn văn bản chứa nội dung nói

= Thủ công:

* Tốn kém

* Có nhiêu lỗi

= Theo nghiên cứu của MIT

* Đoạn văn bản chuẩn bị thủ công có 10% khác so

với nội dung thực sự

Misspelled words Substitution errors

Furui > Frewey Fourier > for your Makhoul > McCool Kullback > callback Tukey > Tuki a priori > old prairie

Gaussian > galsian affricates > aggregates cepstrum > capstrum palatal > powerful

a

Trang 8

Gán ngữ nghĩa

= Con người thực hiện gán ngữ nghĩa trong thời gian gâp từ 10 đên 50 lân thời gian thực

* Ghi lại toàn bộ nội dụng đoạn âm thanh

* Xác định người nói, thay đổi người nói

* Xác định các sự kiện không có người nói và nhiêu

nên

* Phân đoạn và tóm tắt nội dung

Trang 9

Gán ngữ nghĩa

= Mục tiêu: Tự động sinh ngữ nghĩa cho các đoạn

âm thanh

® Ghi lại nội dung (Từ đã được nói)

* Xác định người nói và thời gian

*® Phân đoạn (theo chủ đề)

¢ Tom tat

Chi s6 héa

® Tìm kiêm

Trang 10

Tìm kiêm

=_ Tập hợp N tài liệu D=Dj, ,DN

® “lớn” N: 10k-1M tài liệu

® “bé” N: < 1-10k tài liệu

= Cau truy van: O= đ1 đỌ

* lập có trật tự các từ trong từ vựng }

* Hạn chê ở việc tìm theo từ khóa, các hình thức khác

cũng có thê thực hiện:

* Đoạn tiêng nói/âm thanh truy vẫn

Trang 11

Tim kiém van ban tiéng noi voi TREC

= Text Retrieval Conference (TREC)

* Đánh giá nhận dạng tiêng nói từ 1997-2000

(TREC-6 đênTREC-9)

= TREC-8 :

® Bản tin, 22,000 bản tinh với 500 giờ âm thanh

Trang 12

Tìm kiểm văn bản tiếng nói - Bản tin

= Được chuẩn bị kỹ, đọc bởi phát thanh viên

chuyên nghiệp

= Ngôn ngữ sử dụng giống với ngôn ngữ viết

= Từ vựng có thê được học qua các bản tin

hàng

= Nhiều nội dung có sẵn phụ dé

Trang 13

Tim kiém văn bản tiếng nói khác

= Các văn bản khác

* Nội dung cuộc họp (Waibel et al, 2001)

* Doc thu (SCANMail, Bacchiani et al, 20071 ))

* Bài giảng

= Những khó khăn:

* Tiếng nói tự nhiên, không chuẩn bị trước

* Từ vựng và cách sử dụng ngôn ngữ tủy thuộc vào

từng người và từng chủ đê

* Không biết nội dung

* Nhiêu giọng điệu, vùng miền

Trang 14

@>s

Tim kiém van ban tiéng noi khac

= Phát hiện các từ (thuật ngữ ) được nói trong một cơ sở dữ liệu không đồng nhất STD (Spoken Term Detection)

Documents Broadcast News BN, Switchboard, Meeting Languages English English, Arabic, Mandarin Query Long Short (few words)

System Output | Ranked Relevant documents | «Location of the query in the audio

** Decision Score indicating how likely the term exists

«*“Actual” decision as to whether the detected term is a hit

= Muc tiéu

* Đánh giá tốc độ và độ chính xác

* Đánh giá khả năng phát hiện từ và âm

*_ Đánh giá kỹ thuật cho 3 ngôn ngữ (Anh, A rập và Trung Quốc)

Ngày đăng: 24/12/2013, 18:15

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w