Mục đích nghiên cứu Nghiên cứu các kỹ thuật phân đoạn và định vị người nói sử dụng mảng microphone.Dựa trên các kỹ thuật đó, phát triển các thuật toán phân đoạn và định vị người nói tron
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG
NGUYÊN THỊ KIM UYÊN
NGHIEN CUU CAC KY THUAT PHAN DOAN VA
DINH VI NGUOI NOI TRONG MOI TRUONG NHIEU
Chuyén nganh : KY THUAT DIEN TU
Mã số : 60.52.70
TOM TAT LUAN VAN THAC Si KY THUAT
Da Nang - 2011
Cong trinh duoc hoan thanh tai DAI HOC DA NANG
Người hướng dẫn khoa học: TS Phạm Văn Tuấn
Phản biện 1: TS Ngô Văn Sỹ
Phản biện 2: PGS.TS Nguyễn Hữu Thanh
Luận văn được bảo vệ tại Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 25 thang 6 nam 2011
Co thé tìm hiệu luận văn tại:
e Trung tam Thong tim - Học liệu, Đại học Đà Nẵng
e Trung tâm Học liệu, Đại học Đà Nẵng
Trang 2MỞ ĐẦU
1 Tính cấp thiết của đề tài
Sử dụng tiếng nói để giao tiếp là một cách tự nhiên và dễ dàng nhất để
trao đối các ý tưởng và suy nghĩ của con người Việc tách và khôi phục
tiếng nói từ các thiết bị giao tiếp giữa con người với con người, giao
tiếp giữa con người với thiết bị đòi hỏi nhiều thuật toán phức tạp bởi vì
chúng ta đang sống trong môi trường âm thanh thực tế có nhiều thách
thức gôm nhiễu, tiêng ôn, phản xạ, echo
Các kỹ thuật phân đoạn, định vị người nói đóng vai trò quan trọng
trong lĩnh vực xử lý tiếng nói và đã được nghiên cứu trong nhiều thập
kỉ qua Các kỹ thuật này giúp theo dõi một cách liên tục hướng và vị
trí của người nói Đông thời nó có thể tách ra tín hiệu đến từ người nói
chính thức và hạn chế các tín hiệu đến từ các hướng khác để thu thập
tín hiệu tiếng nói có chất lượng cao, nhằm đạt đến tối đa tỉ số tín hiệu
thoại từ nguồn phát quan tâm trên tín hiệu nhiễu và phản xạ Việc phân
đoạn, định vị người nói là nhiệm vụ không thể thiếu trong các ung
dụng dựa trên nên âm thanh như truyền hình, điện thoại hội nghị, nhận
dạng tiếng nói, hệ thống hội thoại, các giao tiếp ra lệnh và điều khiển
băng giọng nói, hệ thông an ninh và giám sát
Việc định vị và theo dõi nhiều người nói trong môi trường thực tế có
nhiễu và phản xạ gặp nhiều khó khăn và thách thức Nhiều nghiên cứu
đã đưa ra các thuật toán và công cụ để giải quyết vấn để này và vẫn
đang tìm kiếm các thuật toán thực sự tối ưu Đó là lý do mà tôi chọn
để tài :““ Nghiên cứu các kỹ thuật phân đoạn và định vị người nói trong
môi trường nhiễu”
2 Mục đích nghiên cứu
Nghiên cứu các kỹ thuật phân đoạn và định vị người nói sử dụng mảng
microphone.Dựa trên các kỹ thuật đó, phát triển các thuật toán phân
đoạn và định vị người nói trong các môi trường nhiễu khác nhau.Đánh
giá hiệu quả của mỗi thuật toán thông qua các phương pháp đánh giá
trực tiếp trên kết quả phân đoạn/định vỊ
3 Đối tượng, phạm vi nghiên cứu Đối tượng nghiên cứu của đề tài gồm: Kỹ thuật mảng microphone trong xử lý tín hiệu, các kỹ thuật định vị người nói dùng mảng microphone, các kỹ thuật phân đoạn người nói, Lập trình để thực hiện các thuật toán bằng ngôn ngữ Matlab và C
4 Phương pháp nghiên cứu
- _ Nghiên cứu lý thuyết, tìm hiểu các kỹ thuật phân đoạn và định vị người nói dùng mảng microphone
- Sử dụng cơ sở dữ liệu thực tế theo các kịch bản (ai nói, khi nào, vị
trí người nói thay đổi như thế nào, một người nói, nhiều người nói đồng thời, nói trong khi di chuyên )
- Xây dựng chương trình thực hiện bằng công cụ Matlab và C
- Đánh giá hiệu qua và hiệu chỉnh thuật toán
5 Ý nghĩa khoa học và thực tiễn Cùng với sự phát triển của các kỹ thuật xử lý tín hiệu, việc phân đoạn, định vị người nói sử dụng kỹ thuật mảng microphone ngày càng đóng vai trò quan trọng trong các nghiên cứu gần đây Các kỹ thuật này
được ứng dụng nhiều trong các lĩnh vực truyền hình hội nghị, các hệ
thống giao tiếp người và máy thông minh, các giao tiếp ra lệnh và điều khiên băng giọng nói, hệ thông an ninh và giám sát
Trang 3Bài toán phân đoạn và định vị một người nói, nhiều người nói đồng
thời, có sự chồng lẫn tiếng nói đã và đang được nghiên cứu nhiêu thập
kỷ qua vì đó là một bài toán thực sự khó khi áp dụng vào trong môi
trường âm thanh thực tế có nhiều tiếng ôn, nhiễu, phản xạ cao Kỹ
thuật phân đoạn và định vị người nói sử dụng mảng microphone là
một lĩnh vực nghiên cứu mở, còn đang tìm kiếm các thuật toán thực sự
tôi ưu trong môi trường thực tê
6 Kêt cầu của luận văn
Chương 1 - Phân đoạn người nói: Nghiên cứu các kỹ thuật phân
đoạn người nói dé tim được điểm có sự thay đổi nguoi noi
Chương 2—Định vị người nói: Nghiên cứu các kỹ thuật định vị người
nói dựa trên ước lượng vị trí của nguồn phát tín hiệu âm thanh dùng
mang microphone
Chuong 3 — Phuong phap phân đoạn và định vị nhiều người nói
cùng lúc dựa trên phân tích không gian và thời gian sử dụng mảng
microphone:Nghiên cứu phương pháp phát hiện, định vị và phân
đoạn nhiều người nói đồng thời sử dụng mảng microphone hoàn chỉnh
sân theo thời gian thực
Chương 4 - Các phương pháp thực hiện, kết quả và đánh giá
Nghiên cứu các phương pháp để thực hiện các kỹ thuật định vị và
phân đoạn người nói, sử dụng cơ sở dữ liệu thực té AV16.3, M4
Corpus theo nhiéu kich ban, lap trình bằng ngôn ngữ Matlab và C Xây
dựng các phương pháp đánh giá và đánh giá các kết quả định vị và
phân đoạn người nói
CHUONG 1 PHAN DOAN NGUOI NOI
1.1 Giới thiệu Phân đoạn người nói nhằm mục đích chia file âm thanh đầu vào thành các phiên người nói riêng biệt, nhiệm vụ là tìm được điểm có sự thay đổi người nói Kết quả của kỹ thuật phân đoạn người nói được sử dụng làm nên tảng cho Kỹ thuật Phân nhóm người nói Các phiên người nói được gán nhãn sao cho các phiên nói của cùng một người có cùng một nhãn, và nhãn này không được gán cho phiên nói của bắt kì người nào khác
Segmentation and Clustering
_#&
i
i've been here a long timeokay long time so too long
Hinh 1.1: Phan doan nguoi noi Một cách tông quát, có 3 kỹ thuật chính để phân đoạn người nói: phân đoạn theo tiếng nói/khoảng lặng , phân đoạn đựa trên metric, phân
đoạn theo mô hình
1.2 Trích thuộc tính người nói Việc trích chọn đặc trưng người nói có một ý nghĩa hết sức quan trọng
tác dộng trực tiêp tới độ chính xác của việc phân đoạn người nói Đê
Trang 4phân biệt người nói, ta cần phải tìm cách để chuyển đổi dữ liệu thoại
để đặc trưng của từng người nói trở nên càng rõ ràng càng tốt Các đặc
trưng đó có thé được mô tả như thuộc tính của dữ liệu cụ thể Giá trị
của các thuộc tính đó đại diện cho các mô hình khác nhau, một mô
hình cho mỗi người Để phân đoạn người nói, các hệ số Cepstral
thường hay được sử dụng để phân biệt giọng nói của người này với
người khác
1.2.1 Phương pháp cepstrum
1.2.2 — Hệ số ceptrum tần số Mel
Phương pháp hệ số ceptrum tần số Mel (MECC) được sử dụng để tính
toán các hệ số cepstrum Mel là một đơn vị đo lường dùng để mô tả
chất giọng cảm nhận được hay tần số của một giọng Việc đo lường
này liên quan đến hoạt động của bộ phận nghe của con người Tần số
mel không tuyến tính với tần số thực tế vì việc cảm nhận được tần số
vật lý của tai người là không tuyến tính
1.3 Phân đoạn người nói dia trén metric
Việc phân đoạn dựa trên Metric là kỹ thuật được dùng phổ biến hiện
nay Kỹ thuật này dựa trên việc tính toán khoảng cách giữa hai đoạn
tiếng nói để xác định 2 đoạn đó thuộc về cùng một người nói hay 2
người nói khác nhau và xác định có tỒn tại sự thay đổi nguoi ndi tal
điểm đang phân tích Hai đoạn tiếng nói được xét thông thường ở liền
kể nhau (có thể chồng lẫn hoặc không) và điểm thay đổi người nói
được xem như ở giữa 2 đoạn này Hầu hết các khoảng cách giữa hai
đoạn tín hiệu tiếng nói có thể được áp dụng để phân nhóm người nói
để so sánh xác định 2 nhóm người nói cùng thuộc về cùng một người
1.3.1 Phân đoạn người nói dựa trên GLR
1.3.2 — Phân đoạn người nói dựa trên chênh lệch Kullback-Leibler
1.3.3 Phân đoạn người nói dùng BIC 1.4 Phân đoạn người nói dựa trên mô hình
Các Mô hình ban đầu được tạo ra tương ứng với một tập của các lớp
âm thanh (điện thoại —- băng rộng, nam - nữ, âm nhạc — thoại — 1m
lặng và kết hợp giữa chúng) bằng cách sử dụng dữ liệu được huấn luyện Các ranh giới giữa các mô hình trở thành điểm thay đổi của các
phân đoạn
1.4.1 Mô hình Gaussian hỗn hợp 1.4.2 Huấn luyện GMM
1.5 Phân nhóm người nói 1.6 Phương pháp đánh giá
Đề đánh giá Hiệu quả của việc phát hiện có sự thay đổi người nói, hai tiêu chuẩn được quan tâm: độ chính xác của các điểm có sự thay đổi
người nói được tìm thấyvà số các các điểm có sự thay đổi người nói không tìm thấy
Trang 5CHƯƠNG 2 ĐỊNH VỊ NGƯỜI NÓI
2.1 Giới thiệu
Phần này sẽ trình bày kỹ thuật định vị người nói dựa trên ước lượng vị
trí của nguồn phát tín hiệu âm thanh dùng mảng microphone Dựa trên
khoảng cách giữa nguồn phát và mảng microphone, việc ước lượng có
thể được chia thành hai bài toán: ước lượng hướng (DOA) và vị trí
nguôn phát
Xét 2 microphone đặt cách nhau bởi khoảng cách d, tín hiệu sẽ đến 2
microphone trong các khoảng thời gian khác nhau, gọi + là độ lệch thời
gian tới (TDOA) của các tín hiệu nhận được ở 2 microphone Để định
vị người nói, ta cần ước lượng hướng tớiDOA của sóng âm thanh
press x(t)
hd Microphones
> a
vÁ`
Nguồn phát âm thanh
Sóng âm thanh mil
Hinh 2.1: xác định góc tới DOA dùng 2 microphone trong truong hop
vùng xa
-
je ~
i=
+ -
“
10 2.2 Các vấn đề gặp phải và mô hình tín hiệu 2.2.1 Mô hình một nguồn phát trong môi trường tự do 2.2.2 Mô hình nhiều nguồn phát trong môi trường tự do 2.2.3 Mô hình một nguồn phát trong môi trường phản xạ 2.2.4 Mô hình nhiều nguồn phát trong môi trường phản xạ 2.3 Định vị người nói dùng phương pháp tương quan chéo 2.4 Định vị người nói dùng phương pháp tương quan chéo tổng quát (GCC)
TDOA gitta 2 microphone :7°°° = argmax r255(2.26)
P
r<<€ (p) = fo Fy, eas
HSE) = |] VPs ea J- (2.27 )
Trong đó @ = £ [Y:ŒYš Œ)] là phổ chéo tổng quát và +(7 ; la hàm trọng số trong miễn tần số
Có nhiều phương pháp chọn hàm trọng số trong miễn tần số dẫn đến các phương pháp GCC khác nhau
2.4.1 Phương pháp tương quan chéo cô điển Nếu gán t?Í; ta có phương pháp tương quan chéo cô điền
2.4.2 Phương pháp SCOT
rif) =
Trang 6II 2.4.3 Phương pháp chuyển đối pha GCC-PHAT
ị ứ | #y.y„ if ) )
2.5 Định vị người nói dùng các bộ lọc thích nghỉ
Trong phân này sẽ trình bày hai hệ thống thích nghi để xác định độ trễ
Hệ thông đầu giả sử đường lan truyền sóng âm trực tiếp vượt trội hơn
các đường gián tiếp , mô hình hóa thời gian trễ giữa hai microphone
Phương pháp thứ hai ước lượng các đáp ứng xung bằng một AED
(adaptive eigenvalue decomposition) Phương pháp này mạnh hơn khi
sử dụng trong môi trường có phản xạ cao Cả hai phương pháp trên
được thực hiện một cách có hiệu quả dùng các bộ lọc tần số thích nghi
2.5.1 Định vị người nói dùng Bộ loc thich nghi LMS
2.5.2 — Định vị người nói dàng AED
2.6 Định vị người nói dùng thuật toán SRP-PHAT
2.6.1 Công suất đáp ứng theo hướng
2.6.2 SRP-PHAT
2.6.3 Ước lượng thời gian trễ TDOA dùng SRP-PHAT
‘on
86 Xf ar) Xe (ca) TLE!
re = argmax (SM, 0%,2 ai To 4ø) 2.102)
Thời gian trễ z- là giá trị làm cho công suất ngõ ra của SRP-PHAT đạt
giá trị lớn nhất
12 CHƯƠNG 3 PHƯƠNG PHÁP PHÂN ĐOẠN VÀ ĐỊNH VỊ NHIÊU NGƯỜI NOI CUNG LUC DUA TREN PHAN TICH KHONG GIAN VA
THOI GIAN SU DUNG MANG MICROPHONE
©
(a) Maing & microphome duce dat thanh hinh tron
A ˆ Short-term clusters
b) Phát hiên và định vị nhiều ngwin pluie Am c)ì Phân đoan ngân hạn
(dì) Phân loại Tiêng m0©4/löÐng phải tiếng tôi (eo) [Phân nhan g1 nói
Hình 3.1: Các phần sẽ trình bày trong chương này đề thực hiện định
vị và phân đoạn nhiêu người nói
Trang 713 Chương này sẽ trình bày một phương pháp phát hiện, định vị và phân
đoạn nhiều người nói đồng thời sử dụng máng microphone Phương
pháp này chia không gian xung quanh một mảng microphone thành
các hình quạt (sector) để phát hiện trong vùng sector đó có người nào
đang nói hay không Phương pháp này phát hiện nhiều người nói một
cách có hiệu quả, cùng lúc giảm vùng không gian dùng để định vị
người nói Mặc khác kỹ thuật phân loại ngăn hạn (STC) được sử dụng
để nhóm và loại bỏ nhiễu, và được áp dụng để phân đoạn tiếngnói của
nhiều người,bị chồng lấn, trường hợp thường hay gặp trong các cuộc
hội họp Phần này sẽ giới thiệu phương pháp phát hiện và định vị
nhiều người nói hoàn chỉnh gần theo thời gian thực
3.1 Phát hiện và định vị nhiều người nói
3.1.1 — Giới thiệu
Phan này sẽ tập trung vào việc Phát hiện và định vị tức thời nhiều
nguôn phát âm:
- Phát hiện có bao nhiêu nguồn âm thanh đang phát
- Định vị trong không gian vị trí của nguôn phát
Bước I1: Phát hiện và định vị dựa trên sector Không gian xung quanh
microphone được phân thành các vùng hình quạt gọi là sector Đối với
mỗi khung thời gian và mỗi sector, giá trị hoạt động SAM-SPARSE-
MEAN được tính từ nhiều tín hiệu microphone Dựa trên giá trị hoạt
động tính được, xác định có hay không ít nhất một nguồn phát trong
vùng không gian của sector tương ứng bằng cách so sánh giá trị hoạt
động với một ngưỡng Sector có không gian chứa ít nhất một nguén
phát được gọi là sector tích cực
3.1.2 Độ lớn miên pha trích từ SRP
3.1.3 Hoạt động âm thanh trên sectfor
3.1.4 Định vị theo điểm
14
3.1.5 Ham chi phi va Gradient trong hệ tọa độ Euclidean
3.1.6 Chi phi tinh todn 3.1.7 Phan loai tiéng néi/khéng phai tiéng noi
- Phuong pháp phân loại tiếng nói/không phải tiếng nói với chi phí thấp: SNSLOW
- Phuong pháp phân loại tiếng nói/không phải tiếng nói dựa trên hiệp phương sai GMM: SNSGMM
3.2 Phân đoạn ngắn hạn dựa trên không gian và thời gian 3.2.1 Giới thiệu
Ở phần trước ta đã trình bày việc định vị tức thời nhiều nguoi ndi
trong giới hạn một khung thời gian (hình 3.7b) Phần này ta sẽ trình bày cách phân tích tự động kết quả ước lượng vị trí người nói theo nhiều khung thời gian liên tiếp nhau (hình 3.7c), sẽ đưa ra phương pháp để xác định đường đi của nhiều người nói di chuyển trong khoảng thời gian ngắn, chỉ khi họ phát biểu Các kết quả ước lượng vị trí tức thời (dấu chấm trong hình 3.7b) theo không gian và thời gian được nhóm lại thành các cluster ngắn hạn (các đường kép kín trong hình 3.7c) Thời điểm bắt đầu và kết thúc của mỗi chuỗi âm thanh
được xác định một cách chính xác (dấu ngoặc vuông trong hình 3.7c)
Các kết quả thực nghiệm cho thấy việc dùng phân loại ngắn hạn rất hiệu quả trong việc xử lý các bản ghi âm thực tế trong các hội nghị có nhiều người nói ngôi
3.2.2 Phân đoạn ngắn hạn theo không gian và thời gian 3.3 Phân nhóm người nói
3.3.1 Tiêu chuẩn thông tin Bayesian cho phân đoạn người nói 3.3.2 Kết hợp hai phương thúc: vị trí và âm thanh
Trang 815 CHƯƠNG 4:
CÁC PHƯƠNG PHÁP THỰC HIỆN, KÉT QUÁ VÀ ĐÁNH GIÁ
4.1 Phát hiện - định vị nhiều người nói đồng thời
Phần này mô tả các phương pháp để thực hiện việc phát hiện — định vị
nhiều người nói đồng thời Đề tài đã phát triển hai phương pháp mới
dựa trên các kỹ thuật tương quan chéo tổng quát (GCC) để nâng cao
độ chính xác phát hiện và định vị người nói Trong phần này ta sẽ tiến
hành phân tích và so sánh Hiệu quả của các phương pháp GCC và
SRP-PHAT
4.1.1 Các phương pháp phát hiện — định vị người nói
Bên cạnh ba phương pháp phát hiện và định vị nhiều người nói sử
dụng mảng microphone được mô tả trong [12], để tài đã đưa ra thêm
hai phuong phap FASTTDE CC va FASTTDE SCOT
Nhóm giải pháp dựa trên SRP-PHAT: sử dụng thuật toán SRP-PHAT
để định vị người nói, áp dụng thuật toán suy giảm §CG, sử dụng 8
microphone để tìm vị trí trong không gian có giá trị SRP-PHAT lớn
nhất, sồm 2 phương pháp:
- FULL [12]: SCG dugc ap dung cho tất cả các sector tích cực
- FAST SRP-PHAT [12]: SCG duoc dp dụng với nhiều nhất là 6
sector tich cuc
Nhóm giải pháp dựa trên GCC:Suy giam SCG trong nhóm SRP-
PHAT được thay thế bằng các phương pháp trực tiếp dựa trên ước
lượng thời gian trễ sử dụng các kỹ thuật tương quan chéo tổng quát
(GCC), sử dụng các cặp microphone lấy ra từ hai mảng con hình
vuông của mảng microphone, gém 3 phương pháp:
16
- - FASTTDE CC (phương pháp mới phát triển): sử dụng kỹ thuật tương quan chéo cô điền
- FASTTDE SCOT (moi phát triển): sử dụng kỹ thuật SCOT
- FASTTDE GCC-PHAT [12]: sử dụng kỹ thuật chuyển đổi pha GCC-PHAT
4.12 Phương pháp đánh giá 4.1.3 Cơ sở dữ liệu đề thực hiện các thuật toán phân đoạn và định
Vị người nói Giới thiệu Database AV16.3 Cơ sở dữ liệu “AV 16.3” được xây dựng
bởi viện nghiên cứu IDIAP [9] “AV 16.3” được ghi trong bối cảnh
một phòng họp có 16 microphone và 3 camera Mục đích của việc dùng camera là để cung cấp vị trí người nói trong không gian để làm
cơ sở kiểm tra, đánh giá các thuật toán dùng âm thanh để định vị và
theo dõi người nói
Sử dụng cơ sở dữ liệu “AV16.3” để thực hiện các thuật toán phát hiện - định vị nhiều nguồn phát âm Các phương pháp phát hiện và
định vị người nói được thực hiện trên 8 bản ghi khác nhau của cơ sở
dữ liệu AV16.3, dùng mảng 8 microphone đặt hình tròn
Hình 4.4: Kịch bản của bản ghi seq45: có ba người nói di chuyển
Trang 917 Hai bản ghi được tạo ra bởi người nói không di chuyên trong khi nói:
- seq01: bản ghi của một người nói, đứng tại l6 vị trí khác nhau
- _ seq37: Ba người nói đồng thời, không di chuyên khi đang nói
Có sáu bản ghi được tạo ra bởi các người nói di chuyên:
- _ seql1: một người nói liên tục, di chuyển trong khi nói
- seql5: một người di chuyển, nói không liên tục với thời gian im
lặng kéo dài
seql8: hai người nói, nói và đôi mặt với mảng microphone
seq24: hai người nói di chuyển, đi ngang qua trước mặt nhau, nói
trong suốt thời gian thực hiện bản ghi
seq40-3p-0111: tương tự như Seqg37-3p-0001, ngoại trừ người nói
đứng di chuyên liên tục
seq45: ba người di chuyền, tất cả nói liên tục trong khi di chuyển
4.1.4 Kế quả và đánh giá
Kết quả chung: các phương pháp trên có khả năng: (1) Phát hiện và
định vị nhiều nguồn phát âm Kết quả về số người được phát hiện và
định vị chính xác trong bảng 4.3, 4.4 đã nói lên điều đó (2) Số các vị
trí được ước lượng sai thấp, điều này được chứng minh bởi kết quả tỉ
lệ phần trăm vị trí được định vị đúng trong bảng 4.1, 4.2 thường ở
mức 95% đến 100%
Độ chính xác định vị: Hiệu quả định vị được thê hiện bởi cột độ lệch
chuan (Std dev.) trong bang 4.1 va 4.2
- Trong số nhóm phương pháp GCC, độ chính xác định vị của phương
pháp FASTTDE CC tốt hơn 2 phương pháp GCC còn lại Hiệu quả
định vị của FASTTDE SCOT tương tự như FASTTDE GCC-PHAT
- Hiệu quá định vị của nhóm phương pháp SRP-PHAT cao hơn hắn
nhóm phương pháp GCC Điều này phù hợp với các kết quả nghiên
18
cứu [13] khi tiến hành so sánh các thuật toán SRP-PHATT và các thuật
toán tương quan chéo tổng quát
Độ chính xác phát hiện: Hiệu quả phát hiện được thê hiện bởi các giá
tri trong bang 4.3 và 4.4 Việc phát hiện người nói dùng 3 phương pháp GCC cho kết quả chính xác hơn nhóm SRP-PHATT
Chi phi tính toán: thời gian tính toán được chia với thời gian kéo dài cua ban ghi (thời gian thực = 1)
- - Chi phí tính toán của nhóm GCC nhỏ hơn nhóm SRP-PHAT do nhóm GCC sử dụng các cặp microphone lấy ra từ hai mảng con của mảng microphone trong khi nhóm SRP-PHAT sử dụng tất cả các cặp microphone có thể có của mảng 8 microphone
- - Trong số các phương pháp GCC, chi phí tính toán của phương pháp FASTTDE CC thấp hơn 2 phương pháp GCC còn lại Chi phí tính toán của FASFDE SCOT va FASTTDE GCC-PHAT gan như nhau Điều này có thể được giải thích bằng độ phức tạp của các công thức trong phần 2.4 và 2.6
- Chỉ phí tính toán cho phương pháp FULL cao hơn hắn các phương pháp khác do FULL thực hiện tìm kiếm trong toàn bộ không gian
Do đó EULL không được áp dụng để định vị người nói theo thời gian thực
Trang 1019 20
seq11-1p-0100 (FAST SRP-PHAT)
Bang 4.1 D6 chinh xac cua định vị, tính theo độ, và phần trăm các Vị a
— sol
Seq24 0.16 2.99 90.4 0.22 2.99 96.3 Hình 4.5b Kết quả phát hiện định vị sau khi phân loại Tiếng Seq40 -1.31 5.37 100 -1.94 6.02 99.7 noi/Nhiéu - Ban ghi seq11 Vị trí thực được cung cấp từ camera
TB 0.06 2.95 91.0 |0.10 2.01 94.5
50Ƒ 450F
Š
= -50 350Ƒ
Ề Ñ
ˆ
250Ƒ
time (seconds)
150Ƒ : Hình 4.5c Kêt quả phát hiện định vị - Bán ghi seqlồ: hai người nói,
“ nói va doi mat voi mang microphone, di chuyén chdm vé gan nhau va ee the ee A A ẦÀ _ À `
Hình 4.5a Kết quả phát hiện và định vị (các dâu chám) trước khi phân di chuyén chậm về phía xa nhau
loại Tiếng nói/Nhiễu- Bản ghi seq11: Một người nói di chuyển