Nghiên cứu các kỹ thuật phân đoạn và định vị người nói trong môi trường nhiễu

Mục đích nghiên cứu Nghiên cứu các kỹ thuật phân đoạn và định vị người nói sử dụng mảng microphone.Dựa trên các kỹ thuật đó, phát triển các thuật toán phân đoạn và định vị người nói tron

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

NGUYÊN THỊ KIM UYÊN

NGHIEN CUU CAC KY THUAT PHAN DOAN VA

DINH VI NGUOI NOI TRONG MOI TRUONG NHIEU

Chuyén nganh : KY THUAT DIEN TU

Mã số : 60.52.70

TOM TAT LUAN VAN THAC Si KY THUAT

Da Nang - 2011

Cong trinh duoc hoan thanh tai DAI HOC DA NANG

Người hướng dẫn khoa học: TS Phạm Văn Tuấn

Phản biện 1: TS Ngô Văn Sỹ

Phản biện 2: PGS.TS Nguyễn Hữu Thanh

Luận văn được bảo vệ tại Hội đồng chấm Luận văn tốt

nghiệp thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 25 thang 6 nam 2011

Co thé tìm hiệu luận văn tại:

e Trung tam Thong tim - Học liệu, Đại học Đà Nẵng

e Trung tâm Học liệu, Đại học Đà Nẵng

Trang 2

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Sử dụng tiếng nói để giao tiếp là một cách tự nhiên và dễ dàng nhất để

trao đối các ý tưởng và suy nghĩ của con người Việc tách và khôi phục

tiếng nói từ các thiết bị giao tiếp giữa con người với con người, giao

tiếp giữa con người với thiết bị đòi hỏi nhiều thuật toán phức tạp bởi vì

chúng ta đang sống trong môi trường âm thanh thực tế có nhiều thách

thức gôm nhiễu, tiêng ôn, phản xạ, echo

Các kỹ thuật phân đoạn, định vị người nói đóng vai trò quan trọng

trong lĩnh vực xử lý tiếng nói và đã được nghiên cứu trong nhiều thập

kỉ qua Các kỹ thuật này giúp theo dõi một cách liên tục hướng và vị

trí của người nói Đông thời nó có thể tách ra tín hiệu đến từ người nói

chính thức và hạn chế các tín hiệu đến từ các hướng khác để thu thập

tín hiệu tiếng nói có chất lượng cao, nhằm đạt đến tối đa tỉ số tín hiệu

thoại từ nguồn phát quan tâm trên tín hiệu nhiễu và phản xạ Việc phân

đoạn, định vị người nói là nhiệm vụ không thể thiếu trong các ung

dụng dựa trên nên âm thanh như truyền hình, điện thoại hội nghị, nhận

dạng tiếng nói, hệ thống hội thoại, các giao tiếp ra lệnh và điều khiển

băng giọng nói, hệ thông an ninh và giám sát

Việc định vị và theo dõi nhiều người nói trong môi trường thực tế có

nhiễu và phản xạ gặp nhiều khó khăn và thách thức Nhiều nghiên cứu

đã đưa ra các thuật toán và công cụ để giải quyết vấn để này và vẫn

đang tìm kiếm các thuật toán thực sự tối ưu Đó là lý do mà tôi chọn

để tài :““ Nghiên cứu các kỹ thuật phân đoạn và định vị người nói trong

môi trường nhiễu”

2 Mục đích nghiên cứu

Nghiên cứu các kỹ thuật phân đoạn và định vị người nói sử dụng mảng

microphone.Dựa trên các kỹ thuật đó, phát triển các thuật toán phân

đoạn và định vị người nói trong các môi trường nhiễu khác nhau.Đánh

giá hiệu quả của mỗi thuật toán thông qua các phương pháp đánh giá

trực tiếp trên kết quả phân đoạn/định vỊ

3 Đối tượng, phạm vi nghiên cứu Đối tượng nghiên cứu của đề tài gồm: Kỹ thuật mảng microphone trong xử lý tín hiệu, các kỹ thuật định vị người nói dùng mảng microphone, các kỹ thuật phân đoạn người nói, Lập trình để thực hiện các thuật toán bằng ngôn ngữ Matlab và C

4 Phương pháp nghiên cứu

- _ Nghiên cứu lý thuyết, tìm hiểu các kỹ thuật phân đoạn và định vị người nói dùng mảng microphone

- Sử dụng cơ sở dữ liệu thực tế theo các kịch bản (ai nói, khi nào, vị

trí người nói thay đổi như thế nào, một người nói, nhiều người nói đồng thời, nói trong khi di chuyên )

- Xây dựng chương trình thực hiện bằng công cụ Matlab và C

- Đánh giá hiệu qua và hiệu chỉnh thuật toán

5 Ý nghĩa khoa học và thực tiễn Cùng với sự phát triển của các kỹ thuật xử lý tín hiệu, việc phân đoạn, định vị người nói sử dụng kỹ thuật mảng microphone ngày càng đóng vai trò quan trọng trong các nghiên cứu gần đây Các kỹ thuật này

được ứng dụng nhiều trong các lĩnh vực truyền hình hội nghị, các hệ

thống giao tiếp người và máy thông minh, các giao tiếp ra lệnh và điều khiên băng giọng nói, hệ thông an ninh và giám sát

Trang 3

Bài toán phân đoạn và định vị một người nói, nhiều người nói đồng

thời, có sự chồng lẫn tiếng nói đã và đang được nghiên cứu nhiêu thập

kỷ qua vì đó là một bài toán thực sự khó khi áp dụng vào trong môi

trường âm thanh thực tế có nhiều tiếng ôn, nhiễu, phản xạ cao Kỹ

thuật phân đoạn và định vị người nói sử dụng mảng microphone là

một lĩnh vực nghiên cứu mở, còn đang tìm kiếm các thuật toán thực sự

tôi ưu trong môi trường thực tê

6 Kêt cầu của luận văn

Chương 1 - Phân đoạn người nói: Nghiên cứu các kỹ thuật phân

đoạn người nói dé tim được điểm có sự thay đổi nguoi noi

Chương 2—Định vị người nói: Nghiên cứu các kỹ thuật định vị người

nói dựa trên ước lượng vị trí của nguồn phát tín hiệu âm thanh dùng

mang microphone

Chuong 3 — Phuong phap phân đoạn và định vị nhiều người nói

cùng lúc dựa trên phân tích không gian và thời gian sử dụng mảng

microphone:Nghiên cứu phương pháp phát hiện, định vị và phân

đoạn nhiều người nói đồng thời sử dụng mảng microphone hoàn chỉnh

sân theo thời gian thực

Chương 4 - Các phương pháp thực hiện, kết quả và đánh giá

Nghiên cứu các phương pháp để thực hiện các kỹ thuật định vị và

phân đoạn người nói, sử dụng cơ sở dữ liệu thực té AV16.3, M4

Corpus theo nhiéu kich ban, lap trình bằng ngôn ngữ Matlab và C Xây

dựng các phương pháp đánh giá và đánh giá các kết quả định vị và

phân đoạn người nói

CHUONG 1 PHAN DOAN NGUOI NOI

1.1 Giới thiệu Phân đoạn người nói nhằm mục đích chia file âm thanh đầu vào thành các phiên người nói riêng biệt, nhiệm vụ là tìm được điểm có sự thay đổi người nói Kết quả của kỹ thuật phân đoạn người nói được sử dụng làm nên tảng cho Kỹ thuật Phân nhóm người nói Các phiên người nói được gán nhãn sao cho các phiên nói của cùng một người có cùng một nhãn, và nhãn này không được gán cho phiên nói của bắt kì người nào khác

Segmentation and Clustering

_#&

i

i've been here a long timeokay long time so too long

Hinh 1.1: Phan doan nguoi noi Một cách tông quát, có 3 kỹ thuật chính để phân đoạn người nói: phân đoạn theo tiếng nói/khoảng lặng , phân đoạn đựa trên metric, phân

đoạn theo mô hình

1.2 Trích thuộc tính người nói Việc trích chọn đặc trưng người nói có một ý nghĩa hết sức quan trọng

tác dộng trực tiêp tới độ chính xác của việc phân đoạn người nói Đê

Trang 4

phân biệt người nói, ta cần phải tìm cách để chuyển đổi dữ liệu thoại

để đặc trưng của từng người nói trở nên càng rõ ràng càng tốt Các đặc

trưng đó có thé được mô tả như thuộc tính của dữ liệu cụ thể Giá trị

của các thuộc tính đó đại diện cho các mô hình khác nhau, một mô

hình cho mỗi người Để phân đoạn người nói, các hệ số Cepstral

thường hay được sử dụng để phân biệt giọng nói của người này với

người khác

1.2.1 Phương pháp cepstrum

1.2.2 — Hệ số ceptrum tần số Mel

Phương pháp hệ số ceptrum tần số Mel (MECC) được sử dụng để tính

toán các hệ số cepstrum Mel là một đơn vị đo lường dùng để mô tả

chất giọng cảm nhận được hay tần số của một giọng Việc đo lường

này liên quan đến hoạt động của bộ phận nghe của con người Tần số

mel không tuyến tính với tần số thực tế vì việc cảm nhận được tần số

vật lý của tai người là không tuyến tính

1.3 Phân đoạn người nói dia trén metric

Việc phân đoạn dựa trên Metric là kỹ thuật được dùng phổ biến hiện

nay Kỹ thuật này dựa trên việc tính toán khoảng cách giữa hai đoạn

tiếng nói để xác định 2 đoạn đó thuộc về cùng một người nói hay 2

người nói khác nhau và xác định có tỒn tại sự thay đổi nguoi ndi tal

điểm đang phân tích Hai đoạn tiếng nói được xét thông thường ở liền

kể nhau (có thể chồng lẫn hoặc không) và điểm thay đổi người nói

được xem như ở giữa 2 đoạn này Hầu hết các khoảng cách giữa hai

đoạn tín hiệu tiếng nói có thể được áp dụng để phân nhóm người nói

để so sánh xác định 2 nhóm người nói cùng thuộc về cùng một người

1.3.1 Phân đoạn người nói dựa trên GLR

1.3.2 — Phân đoạn người nói dựa trên chênh lệch Kullback-Leibler

1.3.3 Phân đoạn người nói dùng BIC 1.4 Phân đoạn người nói dựa trên mô hình

Các Mô hình ban đầu được tạo ra tương ứng với một tập của các lớp

âm thanh (điện thoại —- băng rộng, nam - nữ, âm nhạc — thoại — 1m

lặng và kết hợp giữa chúng) bằng cách sử dụng dữ liệu được huấn luyện Các ranh giới giữa các mô hình trở thành điểm thay đổi của các

phân đoạn

1.4.1 Mô hình Gaussian hỗn hợp 1.4.2 Huấn luyện GMM

1.5 Phân nhóm người nói 1.6 Phương pháp đánh giá

Đề đánh giá Hiệu quả của việc phát hiện có sự thay đổi người nói, hai tiêu chuẩn được quan tâm: độ chính xác của các điểm có sự thay đổi

người nói được tìm thấyvà số các các điểm có sự thay đổi người nói không tìm thấy

Trang 5

CHƯƠNG 2 ĐỊNH VỊ NGƯỜI NÓI

2.1 Giới thiệu

Phần này sẽ trình bày kỹ thuật định vị người nói dựa trên ước lượng vị

trí của nguồn phát tín hiệu âm thanh dùng mảng microphone Dựa trên

khoảng cách giữa nguồn phát và mảng microphone, việc ước lượng có

thể được chia thành hai bài toán: ước lượng hướng (DOA) và vị trí

nguôn phát

Xét 2 microphone đặt cách nhau bởi khoảng cách d, tín hiệu sẽ đến 2

microphone trong các khoảng thời gian khác nhau, gọi + là độ lệch thời

gian tới (TDOA) của các tín hiệu nhận được ở 2 microphone Để định

vị người nói, ta cần ước lượng hướng tớiDOA của sóng âm thanh

press x(t)

hd Microphones

> a

vÁ`

Nguồn phát âm thanh

Sóng âm thanh mil

Hinh 2.1: xác định góc tới DOA dùng 2 microphone trong truong hop

vùng xa

-

je ~

i=

+ -

“

10 2.2 Các vấn đề gặp phải và mô hình tín hiệu 2.2.1 Mô hình một nguồn phát trong môi trường tự do 2.2.2 Mô hình nhiều nguồn phát trong môi trường tự do 2.2.3 Mô hình một nguồn phát trong môi trường phản xạ 2.2.4 Mô hình nhiều nguồn phát trong môi trường phản xạ 2.3 Định vị người nói dùng phương pháp tương quan chéo 2.4 Định vị người nói dùng phương pháp tương quan chéo tổng quát (GCC)

TDOA gitta 2 microphone :7°°° = argmax r255(2.26)

P

r<<€ (p) = fo Fy, eas

HSE) = |] VPs ea J- (2.27 )

Trong đó @ = £ [Y:ŒYš Œ)] là phổ chéo tổng quát và +(7 ; la hàm trọng số trong miễn tần số

Có nhiều phương pháp chọn hàm trọng số trong miễn tần số dẫn đến các phương pháp GCC khác nhau

2.4.1 Phương pháp tương quan chéo cô điển Nếu gán t?Í; ta có phương pháp tương quan chéo cô điền

2.4.2 Phương pháp SCOT

rif) =

Trang 6

II 2.4.3 Phương pháp chuyển đối pha GCC-PHAT

ị ứ | #y.y„ if ) )

2.5 Định vị người nói dùng các bộ lọc thích nghỉ

Trong phân này sẽ trình bày hai hệ thống thích nghi để xác định độ trễ

Hệ thông đầu giả sử đường lan truyền sóng âm trực tiếp vượt trội hơn

các đường gián tiếp , mô hình hóa thời gian trễ giữa hai microphone

Phương pháp thứ hai ước lượng các đáp ứng xung bằng một AED

(adaptive eigenvalue decomposition) Phương pháp này mạnh hơn khi

sử dụng trong môi trường có phản xạ cao Cả hai phương pháp trên

được thực hiện một cách có hiệu quả dùng các bộ lọc tần số thích nghi

2.5.1 Định vị người nói dùng Bộ loc thich nghi LMS

2.5.2 — Định vị người nói dàng AED

2.6 Định vị người nói dùng thuật toán SRP-PHAT

2.6.1 Công suất đáp ứng theo hướng

2.6.2 SRP-PHAT

2.6.3 Ước lượng thời gian trễ TDOA dùng SRP-PHAT

‘on

86 Xf ar) Xe (ca) TLE!

re = argmax (SM, 0%,2 ai To 4ø) 2.102)

Thời gian trễ z- là giá trị làm cho công suất ngõ ra của SRP-PHAT đạt

giá trị lớn nhất

12 CHƯƠNG 3 PHƯƠNG PHÁP PHÂN ĐOẠN VÀ ĐỊNH VỊ NHIÊU NGƯỜI NOI CUNG LUC DUA TREN PHAN TICH KHONG GIAN VA

THOI GIAN SU DUNG MANG MICROPHONE

©

(a) Maing & microphome duce dat thanh hinh tron

A ˆ Short-term clusters

b) Phát hiên và định vị nhiều ngwin pluie Am c)ì Phân đoan ngân hạn

(dì) Phân loại Tiêng m0©4/löÐng phải tiếng tôi (eo) [Phân nhan g1 nói

Hình 3.1: Các phần sẽ trình bày trong chương này đề thực hiện định

vị và phân đoạn nhiêu người nói

Trang 7

13 Chương này sẽ trình bày một phương pháp phát hiện, định vị và phân

đoạn nhiều người nói đồng thời sử dụng máng microphone Phương

pháp này chia không gian xung quanh một mảng microphone thành

các hình quạt (sector) để phát hiện trong vùng sector đó có người nào

đang nói hay không Phương pháp này phát hiện nhiều người nói một

cách có hiệu quả, cùng lúc giảm vùng không gian dùng để định vị

người nói Mặc khác kỹ thuật phân loại ngăn hạn (STC) được sử dụng

để nhóm và loại bỏ nhiễu, và được áp dụng để phân đoạn tiếngnói của

nhiều người,bị chồng lấn, trường hợp thường hay gặp trong các cuộc

hội họp Phần này sẽ giới thiệu phương pháp phát hiện và định vị

nhiều người nói hoàn chỉnh gần theo thời gian thực

3.1 Phát hiện và định vị nhiều người nói

3.1.1 — Giới thiệu

Phan này sẽ tập trung vào việc Phát hiện và định vị tức thời nhiều

nguôn phát âm:

- Phát hiện có bao nhiêu nguồn âm thanh đang phát

- Định vị trong không gian vị trí của nguôn phát

Bước I1: Phát hiện và định vị dựa trên sector Không gian xung quanh

microphone được phân thành các vùng hình quạt gọi là sector Đối với

mỗi khung thời gian và mỗi sector, giá trị hoạt động SAM-SPARSE-

MEAN được tính từ nhiều tín hiệu microphone Dựa trên giá trị hoạt

động tính được, xác định có hay không ít nhất một nguồn phát trong

vùng không gian của sector tương ứng bằng cách so sánh giá trị hoạt

động với một ngưỡng Sector có không gian chứa ít nhất một nguén

phát được gọi là sector tích cực

3.1.2 Độ lớn miên pha trích từ SRP

3.1.3 Hoạt động âm thanh trên sectfor

3.1.4 Định vị theo điểm

14

3.1.5 Ham chi phi va Gradient trong hệ tọa độ Euclidean

3.1.6 Chi phi tinh todn 3.1.7 Phan loai tiéng néi/khéng phai tiéng noi

- Phuong pháp phân loại tiếng nói/không phải tiếng nói với chi phí thấp: SNSLOW

- Phuong pháp phân loại tiếng nói/không phải tiếng nói dựa trên hiệp phương sai GMM: SNSGMM

3.2 Phân đoạn ngắn hạn dựa trên không gian và thời gian 3.2.1 Giới thiệu

Ở phần trước ta đã trình bày việc định vị tức thời nhiều nguoi ndi

trong giới hạn một khung thời gian (hình 3.7b) Phần này ta sẽ trình bày cách phân tích tự động kết quả ước lượng vị trí người nói theo nhiều khung thời gian liên tiếp nhau (hình 3.7c), sẽ đưa ra phương pháp để xác định đường đi của nhiều người nói di chuyển trong khoảng thời gian ngắn, chỉ khi họ phát biểu Các kết quả ước lượng vị trí tức thời (dấu chấm trong hình 3.7b) theo không gian và thời gian được nhóm lại thành các cluster ngắn hạn (các đường kép kín trong hình 3.7c) Thời điểm bắt đầu và kết thúc của mỗi chuỗi âm thanh

được xác định một cách chính xác (dấu ngoặc vuông trong hình 3.7c)

Các kết quả thực nghiệm cho thấy việc dùng phân loại ngắn hạn rất hiệu quả trong việc xử lý các bản ghi âm thực tế trong các hội nghị có nhiều người nói ngôi

3.2.2 Phân đoạn ngắn hạn theo không gian và thời gian 3.3 Phân nhóm người nói

3.3.1 Tiêu chuẩn thông tin Bayesian cho phân đoạn người nói 3.3.2 Kết hợp hai phương thúc: vị trí và âm thanh

Trang 8

15 CHƯƠNG 4:

CÁC PHƯƠNG PHÁP THỰC HIỆN, KÉT QUÁ VÀ ĐÁNH GIÁ

4.1 Phát hiện - định vị nhiều người nói đồng thời

Phần này mô tả các phương pháp để thực hiện việc phát hiện — định vị

nhiều người nói đồng thời Đề tài đã phát triển hai phương pháp mới

dựa trên các kỹ thuật tương quan chéo tổng quát (GCC) để nâng cao

độ chính xác phát hiện và định vị người nói Trong phần này ta sẽ tiến

hành phân tích và so sánh Hiệu quả của các phương pháp GCC và

SRP-PHAT

4.1.1 Các phương pháp phát hiện — định vị người nói

Bên cạnh ba phương pháp phát hiện và định vị nhiều người nói sử

dụng mảng microphone được mô tả trong [12], để tài đã đưa ra thêm

hai phuong phap FASTTDE CC va FASTTDE SCOT

Nhóm giải pháp dựa trên SRP-PHAT: sử dụng thuật toán SRP-PHAT

để định vị người nói, áp dụng thuật toán suy giảm §CG, sử dụng 8

microphone để tìm vị trí trong không gian có giá trị SRP-PHAT lớn

nhất, sồm 2 phương pháp:

- FULL [12]: SCG dugc ap dung cho tất cả các sector tích cực

- FAST SRP-PHAT [12]: SCG duoc dp dụng với nhiều nhất là 6

sector tich cuc

Nhóm giải pháp dựa trên GCC:Suy giam SCG trong nhóm SRP-

PHAT được thay thế bằng các phương pháp trực tiếp dựa trên ước

lượng thời gian trễ sử dụng các kỹ thuật tương quan chéo tổng quát

(GCC), sử dụng các cặp microphone lấy ra từ hai mảng con hình

vuông của mảng microphone, gém 3 phương pháp:

16

- - FASTTDE CC (phương pháp mới phát triển): sử dụng kỹ thuật tương quan chéo cô điền

- FASTTDE SCOT (moi phát triển): sử dụng kỹ thuật SCOT

- FASTTDE GCC-PHAT [12]: sử dụng kỹ thuật chuyển đổi pha GCC-PHAT

4.12 Phương pháp đánh giá 4.1.3 Cơ sở dữ liệu đề thực hiện các thuật toán phân đoạn và định

Vị người nói Giới thiệu Database AV16.3 Cơ sở dữ liệu “AV 16.3” được xây dựng

bởi viện nghiên cứu IDIAP [9] “AV 16.3” được ghi trong bối cảnh

một phòng họp có 16 microphone và 3 camera Mục đích của việc dùng camera là để cung cấp vị trí người nói trong không gian để làm

cơ sở kiểm tra, đánh giá các thuật toán dùng âm thanh để định vị và

theo dõi người nói

Sử dụng cơ sở dữ liệu “AV16.3” để thực hiện các thuật toán phát hiện - định vị nhiều nguồn phát âm Các phương pháp phát hiện và

định vị người nói được thực hiện trên 8 bản ghi khác nhau của cơ sở

dữ liệu AV16.3, dùng mảng 8 microphone đặt hình tròn

Hình 4.4: Kịch bản của bản ghi seq45: có ba người nói di chuyển

Trang 9

17 Hai bản ghi được tạo ra bởi người nói không di chuyên trong khi nói:

- seq01: bản ghi của một người nói, đứng tại l6 vị trí khác nhau

- _ seq37: Ba người nói đồng thời, không di chuyên khi đang nói

Có sáu bản ghi được tạo ra bởi các người nói di chuyên:

- _ seql1: một người nói liên tục, di chuyển trong khi nói

- seql5: một người di chuyển, nói không liên tục với thời gian im

lặng kéo dài

seql8: hai người nói, nói và đôi mặt với mảng microphone

seq24: hai người nói di chuyển, đi ngang qua trước mặt nhau, nói

trong suốt thời gian thực hiện bản ghi

seq40-3p-0111: tương tự như Seqg37-3p-0001, ngoại trừ người nói

đứng di chuyên liên tục

seq45: ba người di chuyền, tất cả nói liên tục trong khi di chuyển

4.1.4 Kế quả và đánh giá

Kết quả chung: các phương pháp trên có khả năng: (1) Phát hiện và

định vị nhiều nguồn phát âm Kết quả về số người được phát hiện và

định vị chính xác trong bảng 4.3, 4.4 đã nói lên điều đó (2) Số các vị

trí được ước lượng sai thấp, điều này được chứng minh bởi kết quả tỉ

lệ phần trăm vị trí được định vị đúng trong bảng 4.1, 4.2 thường ở

mức 95% đến 100%

Độ chính xác định vị: Hiệu quả định vị được thê hiện bởi cột độ lệch

chuan (Std dev.) trong bang 4.1 va 4.2

- Trong số nhóm phương pháp GCC, độ chính xác định vị của phương

pháp FASTTDE CC tốt hơn 2 phương pháp GCC còn lại Hiệu quả

định vị của FASTTDE SCOT tương tự như FASTTDE GCC-PHAT

- Hiệu quá định vị của nhóm phương pháp SRP-PHAT cao hơn hắn

nhóm phương pháp GCC Điều này phù hợp với các kết quả nghiên

18

cứu [13] khi tiến hành so sánh các thuật toán SRP-PHATT và các thuật

toán tương quan chéo tổng quát

Độ chính xác phát hiện: Hiệu quả phát hiện được thê hiện bởi các giá

tri trong bang 4.3 và 4.4 Việc phát hiện người nói dùng 3 phương pháp GCC cho kết quả chính xác hơn nhóm SRP-PHATT

Chi phi tính toán: thời gian tính toán được chia với thời gian kéo dài cua ban ghi (thời gian thực = 1)

- - Chi phí tính toán của nhóm GCC nhỏ hơn nhóm SRP-PHAT do nhóm GCC sử dụng các cặp microphone lấy ra từ hai mảng con của mảng microphone trong khi nhóm SRP-PHAT sử dụng tất cả các cặp microphone có thể có của mảng 8 microphone

- - Trong số các phương pháp GCC, chi phí tính toán của phương pháp FASTTDE CC thấp hơn 2 phương pháp GCC còn lại Chi phí tính toán của FASFDE SCOT va FASTTDE GCC-PHAT gan như nhau Điều này có thể được giải thích bằng độ phức tạp của các công thức trong phần 2.4 và 2.6

- Chỉ phí tính toán cho phương pháp FULL cao hơn hắn các phương pháp khác do FULL thực hiện tìm kiếm trong toàn bộ không gian

Do đó EULL không được áp dụng để định vị người nói theo thời gian thực

Trang 10

19 20

seq11-1p-0100 (FAST SRP-PHAT)

Bang 4.1 D6 chinh xac cua định vị, tính theo độ, và phần trăm các Vị a

— sol

Seq24 0.16 2.99 90.4 0.22 2.99 96.3 Hình 4.5b Kết quả phát hiện định vị sau khi phân loại Tiếng Seq40 -1.31 5.37 100 -1.94 6.02 99.7 noi/Nhiéu - Ban ghi seq11 Vị trí thực được cung cấp từ camera

TB 0.06 2.95 91.0 |0.10 2.01 94.5

50Ƒ 450F

Š

= -50 350Ƒ

Ề Ñ

ˆ

250Ƒ

time (seconds)

150Ƒ : Hình 4.5c Kêt quả phát hiện định vị - Bán ghi seqlồ: hai người nói,

“ nói va doi mat voi mang microphone, di chuyén chdm vé gan nhau va ee the ee A A ẦÀ _ À `

Hình 4.5a Kết quả phát hiện và định vị (các dâu chám) trước khi phân di chuyén chậm về phía xa nhau

loại Tiếng nói/Nhiễu- Bản ghi seq11: Một người nói di chuyển

Tiêu đề	Nghiên cứu các kỹ thuật phân đoạn và định vị người nói trong môi trường nhiễu
Tác giả	Nguyễn Thị Kim Uyên
Người hướng dẫn	TS. Phạm Văn Tuấn
Trường học	Đại học Đà Nẵng
Chuyên ngành	Kỹ thuật điện tử
Thể loại	Luận văn thạc sĩ kỹ thuật
Năm xuất bản	2011
Thành phố	Đà Nẵng

Định dạng
Số trang	13
Dung lượng	450,04 KB