1. Trang chủ
  2. » Luận Văn - Báo Cáo

Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện

50 412 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 23,73 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

• Đang hướng dẫn 01 học viên cao học là m ột th àn h viên thực hiện đề tài thực hiện đề tài nghiên cứu liên quan đến chuỗi đặc trư ng âm th a n h và tìm kiếm các bản nhạc trong cơ sở dữ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

CHUỖI ĐẶC TRƯNG VÀ ỨNG DỤNG TRONG TÌM KIẾM DỮ LIỆU ĐA

PHƯƠNG TIỆN

Mã số: QC.08.01 Chủ nhiệm đề tài: Nguyễn Hải Châu

Hà Nội - 2009

Đ Ạ I H Ọ C Q U Õ C G IA HÀ N Ộ I TRUNG TÂM THỔNG TIN THƯ VIỆN

P T /

Trang 2

M ục lục

B ả n g g iả i t h í c h c á c c h ữ v iế t t ắ t 3

D a n h s á c h c á n b ộ t h a m g ia t h ự c h iệ n đ ề t à i 4

1 T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t à i 6

1.1 Tên đề t à i 6

1.2 Chủ trì đề t à i 6

1.3 Những kết quả c h í n h 6

1.3.1 K ết quả về khoa h ọ c 6

1.3.2 K ết quả phục vụ thực t ế 7

1.3.3 K ết quả đào t ạ o 7

1.3.4 K ết quả nâng cao tiềm lực khoa học 7

1.3.5 T ình hình sử dụng kinh p h í 7

2 B á o c á o t ố n g k ế t 8 2.1 Đ ặ t vấn đ ề 8

2.2 Tổng quan tìn h hình nghiên cứu chuỗi đặc t r ư n g 8

2.3 Các phương pháp xác định chuỗi đặc t r ư n g 9

2.3.1 Các loại đặc trư ng của chuỗi tín hiệu âm t h a n h 9

2.3.2 Phương pháp cửa sổ g ố i 10

2.3.3 Phương pháp cửa sổ gối kết hợp học m á y 10

2.3.4 Phương pháp D D A 10

2.3.5 Phương pháp dựa trê n w a v e le t 11

2.4 M ột số ứng dụng của chuỗi đặc t r ư n g 11

2.4.1 G iám sát p h á t t h a n h 11

2.4.2 Các ứng dụng liên thông âm t h a n h 11

2.4.3 Các bộ lọc trong ứng dụng dùng chung f i l e 12

2.4.4 T ự động tố chức th ư viện âm n h ạ c 12

2.4.5 M ột số ứng dụng k h á c 12

2.5 Mục tiêu và nội dung nghiên cứu của đề tà i 12

2.6 Dịa điểm , thời gian và phương tiện nghiên c ứ u 12 2.7 K ết q u ả nghiên c ứ u 1 3

2.7.1 K ết quả khoa h ọ c 1 3

1

Trang 3

B ảng giải thích các chữ v iế t tắ t

Bảng 1: Giải thích các chữ viết tắ t

C h ữ v iế t t ắ t G iả i th íc h

BFCC Bark Frequency C epstrum Coefficients

DDA D istortion D iscrim inant Analysis

FLAC Free Lossless Audio Codec

LDA Linear Discrim inant Analysis

M FCC Mel-Frequency C epstrum Coefficients

M PEG Movie P icture E xperts G roup

MP3 M PEG-1 Audio Layer 3

O PC A Oriented Principal C om ponents Analysis

PC A Principal C om ponents Analysis

WAV Waveform Audio Form at

3

Trang 4

M ục lục

B ả n g g iả i t h í c h c á c c h ữ v iế t t ắ t 3

D a n h s á c h c á n b ộ t h a m g ia t h ự c h iệ n đ ề t à i 4

1 T ó m t ắ t n h ữ n g k ế t q u ả n g h iê n c ứ u c h ín h c ủ a đ ề t à i 6

1.1 Tên đề t à i 6

1.2 Chủ trì đề t à i 6

1.3 Những kết quả c h í n h 6

1.3.1 K ết quả về khoa h ọ c 6

1.3.2 K ết quả phục vụ thực t ế 7

1.3.3 K ết quả đào t ạ o 7

1.3.4 K ết quả nâng cao tiềm lực khoa học 7

1.3.5 T ình hình sử dụng kinh p h í 7

2 B á o c á o t ổ n g k ế t 8 2.1 Đ ặt vấn đ ề - 8

2.2 Tổng quan tìn h hình nghiên cứu chuỗi đặc t r ư n g 8

2.3 Các phương pháp xác định chuỗi đặc t r ư n g 9

2.3.1 Các loại đặc trư ng của chuỗi tín hiệu âm t h a n h 9

2.3.2 Phương pháp cửa sổ g ố i 10

2.3.3 Phương pháp cửa sổ gối kết hợp học m á y 10

2.3.4 Phương pháp D D A 10

2.3.5 Phương pháp dựa trẽ n w a v e le t 11

2.4 M ột số ứng dụng của chuỗi đặc t r ư n g 11

2.4.1 G iám sá t p h á t t h a n h 11

2.4.2 Các ứng dụng liên thông âm t h a n h 11

2.4.3 Các bộ lọc trong ứng dụng dùng chung f i l e 12

2.4.4 T ự động tổ chức th ư viện âm n h ạ c 12

2.4.5 M ột số ứng dụng k h á c 12

2.5 M ục tiêu và nội dung nghiên cứu của đề tà i 12

2.6 D ịa diểm, thời gian và phương tiện nghiên c ứ u 12

2.7 K ết quả nghiên c ứ u 13

2.7.1 K ết quả khoa h ọ c 13

1

Trang 6

B ảng giải thích các chữ v iết tắ t

Bảng 1: Giải thích các chữ viết t ắ t

C h ữ v iế t t ắ t G iả i th íc h

BFCC Bark Frequency C epstrura Coefficients

DDA D istortion D iscrim inant Analysis

FLAC Free Lossless Audio Codec

LDA Linear Discrim inant Analysis

M FCC Mel-Frequency C epstrum Coefficients

M PEG Movie P icture E xperts G roup

M P3 M PEG-1 Audio Layer 3

O PC A O riented Principal C om ponents Analysis

PC A Principal Com ponents Analysis

WAV Waveform Audio Form at

Trang 7

D anh sách cán bộ th a m gia thự c hiện đề tài

Bảng 2: Đ anh sách cán bộ, cộng tá c viên, học viên cao học và sinh viên th a thực hiện dề tài

2 Nguyễn Ngọc Hóa TS K hoa Công nghệ th ô n g 1

trư ờng Dại học Công ng

ĐH Q G H N

3 Đỗ Thị M inh V iệt ThS C entre of Excellence, Nor

gian U niversity of Science t Technology (N TN Ư ), Norwa

4 P hạm Cẩm Ngọc CN K hoa Công nghệ thông 1

trường Dại hoc Công ng DHQGHN

5 Nguyễn T hị T hùy Linh CN K hoa Công nghệ th ô n g 1

trường Dại hoc Công ng

đ h q g h n

4

Trang 8

D anh m ục bảng

1 Giải thích các chữ viết t ắ t 3

2 D anh sách cán bộ, cộng tá c viên, học viên cao học và sinh viên th amgia thực hiện đề t à i 4

Trang 9

Người chủ trì: TS Nguyễn Hải Châu

Cơ quan: Trường Dại học Cóng nghệ Dại học Quốc gia H à Nội

Dịa chỉ: 144 Xuân Thủy, c ầ u Giấy, Hà Nội

Diện thoại: 04-37547813

1.3.1 K ết quả về khoa học

• Chúng tôi đã nghiên cứu về nhận dạng âm th a n h dựa trê n chuỗi đặc tru

đề x u ất các bước đề xây dựn£ m nt hệ thống nhân dạng tro n g thự c tế tôi đã th ử nghiệm xâv dưns m ột cơ sở dữ liệu âm th an h , hu ấn luyện (

để trích rú t các đặc trưng va th ủ nghiệm tìm kiếm dựa trê n tín hiệu âm vào từ micro với đỏ chính xác t.ốt Các két quả nói trê n đ ã được trìn h 1 tiế t trong 01 bài báo khoa học gửi đcing tạ p chí Tạp chí K hoa học, E

Q uor cia Hà Nôi

• UI bân cáo chuyên de (technical report tổng quan ve rhuỗi đ ạ r tr i

th an h và COI ứng dụng

f,

Trang 10

1 T Ó M T Ắ T NHỮNG K E T q u ả n g h i ê n c ứ u c h í n h c ủ a d ề t à i 7

D ã hoàn th à n h bộ chương trìn h th ử nghiệm tìm kiếm âm th a n h dự a trê n chuỗi đặc trư ng với độ chính xác cao Bộ chương trìn h có th ể được tiếp tục p h á t triể n để hoạt động trong môi trường web

• D ã hướng dẫn tố t nghiệp 02 sinh viên bảo vệ th án g 6/2009 về đề tà i tín h to án chuỗi đặc trư ng âm th an h và tìm kiếm dữ liệu đ a phương tiện

• Đang hướng dẫn 01 học viên cao học (là m ột th àn h viên thực hiện đề tài) thực hiện đề tài nghiên cứu liên quan đến chuỗi đặc trư ng âm th a n h và tìm kiếm các bản nhạc trong cơ sở dữ liệu đ a phương tiện

Nghiên cứu về các th u ậ t toán, phương p háp và ứng dụng của chuỗi đặc trư ng, đ ã hướng dẫn sinh viên và thực tậ p sinh của khoa Công nghệ T hông tin của trường Dại học Công nghệ về các vấn đề liên quan đến chuỗi đặc trư ng và tìm kiếm dữ liệu

đa phương tiện

Dã sử dụng hết kinh phí dược cấp của đỏ tài

Trang 11

Chuỗi dặc trưng được sử dụng để tìm kiếm các m ẫu âm th a n h hoặc p h á t hiện cá

m ẫu âm th an h tương tự nhau trong m ột cơ sở dữ liệu âm th an h

Chuỗi đặc trưng có nhiều ứng dụng, trong đó có th ể kể đến: nh ận dạng các bà

h át, các bản thu âm quảng cáo; giám sá t p h á t th an h ; quản lý th ư viện hiệu ứn

âm thanh; nhận dạng video v.v C hính vì vậy chuỗi đặc trư n g đ ã trở th àn h đc tượng nghiên rứu được quan tâm [l]-[27], đồng thời các ứng dụng của chuỗi đặ trư ng ngày càng phong phú [28]-[40]

trư ng

Chuỗi đặc trư ng âm th an h ( audio fin g erprint hoặc acoustic fingerprint) - sau đâ gọi t ắ t là chuỗi đặc trưng - là m ột b ản tóm tắt của m ột chuỗi tín hiệu âm than?

Chuỗi đặc trư ng được sử dụng để tìm kiếm các m ẫu âm th a n h hoặc p h á t hiện cá

m ẫu âm th an h tương tự nhau trong m ột cơ dữ liệu âm th anh

Chuỗi đặc trư ng có nhiều ứng dụng, tro n g đó có th ể kể đến: nhận dạng các bỉ

h át các bản th u âm, quảng cáo: giám sá t p h á t th an h ; quản lý th ư viện hiệu ứn

âm thanh; nh ận dạng video v.v C hính vì vậy chuỗi đặc trư n g đ ã trở th à n h đ( tượng nghiên cứu được quan tâm [l]-[27] đồng thời các ứng dụng của chuỗi dă trư n g ngàv càng phong phú Ị28]-[40]

Trong báo cáo này chúng tôi trìn h bày m ột cách tổng quan các phương phá nghiên cứu về xác định, so sánh và tìm kiếm chuỗi đặc trưng; và m ột số ứng dụn

đ ã đư<ir triển khai

( 'huõi đặc trư n g như đã nói ở trê n , là m ột bản tóm t ắ t của m ột chuỗi tín hiệ

ãm th an h Như vậy đi có dưcic chuỗi đặc trư ng của m ột chuỗi âm th a n h ta cần X£

dựr> - m i't ham / anh xa m ột r-huui bit A vào m ột chuỗi bít A Ị có độ dài nhỏ hơ]

Dt sanh mư« đó tương tự giữa hai chuỏi bit (tín hiệu âm th a n h ' ,4i và A 2 chúr

*

Trang 12

2 B Ả O CÁO TỔNG K Ế T 9

ta so sánh mức độ tương tự của hai chuỗi đặc trư ng tương ứng A ìf và A 2f ■ c ầ n lưu

ý rằng việc so sánh A i t và A 2f không phải là so sánh bằng nh au tu y ệt đối về m ặt

to á n học m à cần có tín h cảm quan Người nghe thường nhận dạng được cùng m ột bản nhạc được p h á t đi với chất lượng tín hiệu âm th a n h khác nhau, chẳng h ạ n từ chất lượng âm th an h từ DVD tố t hơn chất lượng âm th a n h p h á t qua radio

Do đó cần có m ột số tiêu chí để đánh giá hàm / nói trên Sau đây là m ột số tiê u chí thường được sử dụng:

• T í n h b ề n v ữ n g : Chuỗi đặc trư ng phải ít th a y đổi khi tín hiệu âm th a n h bị suy giảm hoặc tín hiệu âm th a n h bị nhiễu, bị méo v.v T ính ch ất này làm tăng độ tin cậy khi nhận dạng âm th a n h trong môi trư ờng thực, có nhiễu và

tạ p âm hoặc biên độ tín hiệu nhỏ

• T í n h t i n cậy: Chuỗi đặc trư ng cho khả năng nh ận dạng đúng tro n g nhiều trường hợp

• Đ ộ lớ n c ủ a c h u ỗ i đ ặ c tr ứ n g : s ố lượng b it của chuỗi đặc trư n g nhỏ giúp cho tốc độ tìm kiếm được cải th iện và giảm dung lượng lưu trữ

• Đ ộ m ịn : Độ dài tối thiểu của chuỗi âm th a n h (theo đơn vị thời gian) để có thể nhận dạng C hẳng hạn m ột số th u ậ t to án chỉ cần chuỗi tín hiệu âm th a n h dài từ 15 đến 30 giây để tín h chuỗi đặc trưng

• T ố c đ ộ t ì m k iế m v à k h ả n ă n g m ở rộ n g : Đây là các yếu tố quan trọ n g khi tìm kiếm âm th a n h trong các cơ sở dữ liệu lớn Tốc độ tìm kiếm (search speed) và khả năng mở rộng được (scalability) là hai yếu tố được quan tâm hàng đầu trong việc triển khai các hệ thống tìm kiếm âm th anh

2.3.1 Các loại đặc trưng của chuỗi tín hiệu âm than h

Nguyên tắc chung cho việc xác định chuỗi đặc trư n g là trích rú t các đăc trư n g từ chuỗi tín hiệu âm th an h Các đặc trư n g của m ột b ả n nhạc thường được chia th à n h hai loại chính: đặc trư n g ngữ nghĩa và đặc trư ng phi ngữ nghĩa

Các đặc trư n g ngữ nghĩa thường có tín h trự c quan C hẳng hạn các đặc trư n g

th ể loại (genre) âm nhạc, số nhịp trong m ột phút ( beats per m inute - bpm), điệu tính (mood) là các đặc trư n g ngữ nghĩa Do các đặc trư ng loại này ít m ang tín h to á n học,

nên thường ít được sử dụng để xác định chuỗi đặc trư n g vì nó không chính xác và ít

nhiều gắn với quan điểm cá nhân (chẳng hạn đặc trư n g th ể loại) Bởi vậy chúng t a

tậ p tru n g vào việc ph ân tích các th u ậ t to án , phương ph áp xác định chuỗi đặc trư n g

dự a trên các đặc trư n g phi ngữ nghĩa Hiện nay có bốn phương p h áp chính để xác định chuỗi đặc trư n g dựa vào đặc trư n g phi ngữ nghĩa Đó là các phương pháp: cửa

sổ gối [15], phương p h áp của Y Ke dự a trê n cửa sổ gối kết hợp với học m áy [19], phương ph áp phân tích biệt số méo của tín hiệu DDA [6] và phương p h áp dự a trê n wavelet kết hợp với các kỹ th u ậ t của lĩnh vực thị giác m áy [3], [4], [16] Sau đây là

ý tưởng chính của từ n g phương pháp

Trang 13

2 DÁO CÁO TỔXG K Ế T

nnat rnư ơ ng pnap nay sư aụng c a t cua su - ; , , ất hiếntrích rú t các đặc trưng [15] Cửa sổ gối được sử dụng dê I 11} n in a ie

hệ số dịch thời gian (tim e-shift) trong các t r ư ờ n g hợp c ũng a long

theo kiểu căn thời gian A - , „1

Biểu diễn phô của tín hiệu âm th an h có thể được xây dựng bằng nhiêu each, cl

hạn đo năng lượng M FCC (Mcl-FYequency C epstrum Coefficients) hoặc V t M ị l

FVequency Cepstrum Coefficients) J H aitsm a và cộng sự [15] (la sư t ụng ^ ,xác định chuỗi đặc trưng TVong bài báo của các tác gia nạy, 33 l>ạng ta n được sử dụng trong dải tần 300-2000 Hz và cứ môi 11,6 mill giay lại có m ọt í đặc trưng con (sub-fingerprint) được tạo ra trong m ột frame 370 mill giâỵ D( frame gối nhau nên các chuỗi đặc trư ng biến đổi chậm theo thời gian Khi đo

so sánh độ tương tự giữa hai bản nhạc sẽ qui về so sánh nhiều chuổi đặc trư ng Việc so sánh các chuỗi này là khá đơn giản dự a vào việc tín h khoang cach Ham] giữa các chuỗi đặc trưng con tương ứng Ưu điểm của phương ph áp này là tính giản và tốc độ tính toán cao

Phương pháp th ứ hai được đưa ra gần đây, được xem là mở rộng củ a cửa sổ

Y Ke và các cộng sự [19] sử dụng nền tả n g tương tự như J H aitsm a [15] nhưi thêm tính năng học máy khi xác định các đặc trư ng M ột đặc điểm quan trọng

là Y Ke đ ã biểu diễn tín hiệu âm th a n h 1-D như m ột ảnh số khi biểu diễn t không gian hai chiều với các trụ c thời g ia n -tầ n số

Kỹ th u ật học m áy Y Ke sử dụng [19] là A daB oost, là m ộ t kỹ th u ậ t khá biến trong các ứng dụng về thị giác máy, chẳng hạn nh ư p h á t hiện m ặt người t ảnh [26] Y Ke và các cộng sự đ ã sử dụng A daB oost cho hệ thống của m ình họ đặc trư ng về năng lượng trê n m ột số tầ n số chọn lọc theo thời gian Dộ dài vi

số được chọn thông qua th u ậ t to á n A daB oost Áp dụng th u ậ t to á n A dB oost, ( đặc trư ng được lựa chọn, từ đó tạo được chuỗi đặc trư n g con tương ứng có 3' Khi có yêu cầu tìm kiếm bản nhạc, hệ th ố n g của Y Ke [20] trư ớ c h ết xử lý di

âm th a n h vào tương tự như [15] để tạ o chuỗi đặc trư n g con Sau đó, tín h kh cách Ham m ing giữa các chuỗi đặc trư n g con để tìm độ tương tự

Phương pháp th ứ ba [6] sử dụng phương p h á p DDA (D istortion D iscrim inant 1

ysis) - m ột phương pháp trích rú t các đặc trư n g được xem như bền vững với 1

- để xác định chuỗi đặc trưng Các đặc trư n g được xác định bởi DDA thường

ta p hơn cac đặc trư ng đượr đưa r a tro n g các bài báo của J H aitsm a [15] và ' 19' nhưng lạ.1 cho phcp tín h được các chuôi đặc trư n g củ a các chuỗi tín hiệu dà

C AC phương pháp khác DDA được dựa trê n m ột biến th ể của phương pháp (Linear Dis< rim inant Analysis) được gọi là O riented P rincipal C om ponpnts An

Trang 14

2 BÁ O CÁO TỔNG K Ế T 11

(O PC A )

O PCA giả th iế t có m ột phiên bản tín hiệu bị méo c ủ a các m âu huân luyện đê

từ đó tìm ra các đặc trư ng ít bị biến đổi khi thực hiện bước tiền xử lý tín hiệu làm giảm nhiễu đến mức tối thiểu và tăn g tối đ a mức tín hiệu Ngược lại, phương ph áp

PC A (Principal C om ponents Analysis) tìm tậ p các vector trự c giao để tă n g tối đ a

sự biến đổi của tín hiệu N hư vậy O P C A tìm được tậ p các vector không trự c giao có thể dùng để tín h to án nhiễu Thực nghiệm của Burges và các cộng sự [6] cho th ấ y chuỗi đặc trư ng xác định bằng phương pháp DDA ít bị biến đổi với vấn đề căn thời

gian và quan trọng hơn là ít bị biến đổi với các loại nhiễu không có trong dữ liệu

huấn luyện.

2.3.5 Phương pháp dựa trên wavelet

Phương pháp này do các tác giả s B aluja và M Covell (Google Inc.) p h á t triể n [3],[4], [9] dựa trê n tiếp cận của Y Ke [19]: áp dụng các kỹ th u ậ t trong lĩnh vực thị giác máy vào việc xây dựng chuỗi đặc trư ng và tiếp cận dự a trê n wavelet của c

Jacob [16] Phương pháp này không sử dụng kỹ th u ậ t học m áy m à dự a trẽ n tiếp cận wavelet để tăn g tốc độ tìm kiếm trong cơ sở dữ liệu đ a phương tiện lớn [16] Chuỗi đặc trư ng do s B aluja và M Covell đề x u ấ t dựa trê n công trìn h của J H aitsm a[14], [15] nhưng có cải tiến nâng cao để có thể đại diện cho m ẫu tín hiệu âm th a n h

có độ dài lớn hơn

G iám sá t p h á t th a n h (broadcast m onitoring) là m ộ t ứng dụng quan trọng của chuỗi

đặc trư ng [1], [14], [23], [12], [39], [40] TYong giám sá t p h á t th a n h truyền thống,

cơ quan giám sá t có các nhân viên theo dõi trê n các kênh p h á t th a n h và so sánh với chương trìn h p h á t để p h á t hiện sai sót Các hệ giám sá t p h á t th a n h dựa trê n chuỗi đặc trư ng thường có hai loại m áy chủ: M áy chủ giám s á t và m áy chủ tru n g tâm Máy chủ giám sá t đóng vai trò như nhân viên giám s á t của p h á t th a n h truyền thống, theo dõi các kênh p h á t th a n h và báo cáo các chuồi đặc trư n g cho m áy chủ trung tâm M áy chủ tru n g tâm sử dụng các chuỗi đặc trư n g này để tìm kiếm trong

cơ sở dữ liệu và sinh ra được báo cáo về chương trìn h p h á t của các kênh bị giám sá t

Các ứng dụng liên thông âm th a n h ( connected audio) là th u ậ t ngữ chung chỉ các

ứng dụng dàn h cho người dùng có liên quan tới âm th a n h /â m nhạc cùng với các thông tin liên quan M ột ví dụ đặc trư n g n h ấ t là ứng dụng tìm kiếm b ản nhạc qua

điện thoại di động Người dùng ư nghe b ản nhạc p h á t qua loa, hoặc đài p h á t th a n h

và muốn biết tê n bản nhạc, ca sĩ th ể hiện Người này sẽ gọi điện th o ại đến m ột số điện thoại dịch vụ để bản nhạc th u qua điện thoại được truyền tới server chứa cơ sở

dữ liệu âm nhạc Server căn cứ vào chuỗi đặc trư n g để tìm tên b ản nhạc, ca sĩ th ể

Trang 15

2 DÁO CÁO TỔXG K Ế T

hiện V.V và gửi kết quả cho người dùng Dây là một ứng dụng r ấ t kho VI tí <

âm thanh sau nhièu lần truyền đã bị suy giảm và có nhiêu n Lieu [ - j , [■ jji [ *)■

Trong các ứng dụng dùng chung file, chuỗi đặc trư ng được sư dụng đe n h ạn ra c file âm nhạc có bản quyen và không cho người dùng download các file này Na

2001 Napster [31] cài đ ặt bộ lọc dựa trê n tên file nhưng bộ lọc này hoạt động khôi hiệu quả Do đó vào tháng 5/2001, N apster đã sử dụng bộ lọc dự a trê n chuỗi đ trưng của Relatable [301

Chuỗi đặc trưng có thể được sử dụng vào việc tự động tô chức th ư viện âm nhí Hiện nay MP3 là khuôn dạng file thường được sử dụng đé lưu trữ tro n g các tl viện âm nhạc Các file MP3 được tạ o ra từ nhiều nguồn khác n h a u do đó siêu I liộu (m eta data) kèm theo như tên tác giả, tác phẩm , người th ể hiện, năm th u ĩ không được đầy đủ và n h ấ t quán Khi đó chuỗi đặc trư ng được sử dụ n g để ho thiộn các thông tin nàv [28], [29], [39]

Chuòi đặc trưng còn có rấ t nhiều ứng dụng khác trong thực tiễn Trong lĩnh V truyền hình, chuỗi đặc trưng đượr sử dụng trong các ứng dụng về truyền hình tương tác [11] m à không cần sử dụng thêm các th iế t bị đặc biệt, hoặc tự độ

p h á t hiện và thay thế các đoạn quảng cáo [5] K hác hiệt so với các công nghệ khi chuỗi đặc trưng hướng tới các ứng dụng đ a phương tiện với các mục tiêu chínhnhận dạng các dối tượng m à không cần đến các thông tin siêu dữ liệu như me

w aterm ark

Mục tiêu của đề tài này là nghiên cứu về chuỗi đặc trư ng âm th an h : T ìm hiểu nghiên cứu cơ sở lý thuyết, các phương ph áp và th u ậ t toán xác định, so sánh và ( kiếm chuỗi đặc trư ng để xác định đư ợ r các chuỗi tín hiệu tương tự nhau Trên

sớ tìm hiểu các phương pháp, th u ậ t to án đ ã có chúng tôi d ã tiến hàn h xây di

th ử nghiệm th àn h công ứng dụng tìm kiếm bản nhạc gốc dựa trê n chuỗi tín h

âm th an h đầu vào th u được từ micro, hoặc từ file âm th a n h với các loại định di phong phú như M P3, WAV, FLAC, V V

r»> tai này đir<K thưc hiện tai Bó món Các hê th ố n g Thòng tin K hoa Cõng n

r h o n t tin, trườnp Dại 111 If Công nghệ Dại học Quốc gia H à Nói từ th á n g 6 /2

Trang 16

án " Tăng cường năng lực nghiên cứu cho Phòng thí nghiệm chuyên đề Các Hệ

thống Thông tin Tích hợp và Công nghệ Phần m ề m " năm 2008-2009.

• 02 m áy tín h xách tay, 02 micro và 01 bộ loa ngoài (do cá n h ân tự tra n g bị)

Chúng tối đ ã đề x u ấ t các bước để xây dựng m ột hệ thống nh ận dạng âm th a n h trong thực tế Chúng tôi đ ã th ử nghiệm xây dựng m ột cơ sở dữ liệu âm th a n h , huấn luyện dữ liệu để trích rú t các đặc trư ng và th ử nghiệm tìm kiếm dự a trẽ n tín hiệu

âm th a n h vào từ micro với độ chính xác tố t Các kết quả nói trê n đ ã được trìn h bày chi tiế t trong 01 bài báo khoa học đang gửi đãng tạ p chí Tạp chí K hoa học (Dại học Quốc gia H à Nội) K ết quả nghiên cứu của chúng tối cho th ấy việc triển khai m ộtứng dụng nhận dạng bản nhạc qua tín hiệu th u được từ micro là hoàn to àn khả thi

D ã có hai sinh viên thực hiện khóa luận tố t nghiệp theo hướng nghiên cứu của đề tài Hai khóa luận này đ ã được bảo vệ th à n h công vào ngày 2 /6 /2 0 0 9 tại K hoa Cõng nghệ T hống tin , trư ờng Đại học Công nghệ, Đại học Q uốc gia H à Nội:

1 Bùi T h a n h X uân, Chuỗi đặc trưng âm thanh và ứng dụng trong tìm kiếm nhạc

số, K hóa lu ận tố t nghiệp Đại học, trường Dại học Cõng nghệ, 2009.

2 Vũ T hị Tư, Tìm kiếm dữ liệu âm thanh bằng phương pháp QbH (Q uery by

H um m ing) và ứng dụng, K hóa luận tố t nghiệp Đ ại học, trường Đại học Công

nghệ, 2009

C húng tối đ ã đ ạ t được các kết quả chính sau đây tro n g đề tà i nghiên cứu QC.08.01:

• C húng tõi đ ã nghiên cứu tổng quan về chuỗi đặc trư n g âm th an h , các phương

p háp xây dựng và tìm kiếm, so sánh các chuỗi đặc trư n g âm th a n h đang được

Trang 17

huấn luyện và phương pháp kiểm th ừ kết quả Ưng dụng đ ã được th ư ng cho kốt quả tố t với việc nhận nhận dạng bản th u âm của các bản nhí mẫu thu qua micro có độ dài 30 giây (Xem chi tiết: bài báo trong phụ lục theo).

• Dựa trên các kết quả đã nêu ở trên, chúng tôi đ ã hoàn th à n h và chuẩn t đăng m ột bài báo (Tạp chí Dại học Quốc gia H à Nội) với nội dung liên đến tìm kiếm bản nhạc trong cơ sỏ dữ liệu dựa trên chuỗi đặc trư n g âm tl Ngoài ra chúng tôi cũng đã hoàn th àn h m ột báo cáo tổ n g quan về chuỗ trưng âm th an h và các ứng dụng trong tìm kiếm âm nhạc (xem phụ lục báo cáo này)

2.9 K ết luận và kiến nghị

Trong xu hướng p h á t triển m ạnh của các ứng dụng In tern et sử dụng nhiều lo liệu khác nhau đặc biệt là dữ liệu đ a phương tiện, chuỗi đặc trư ng âm th a n h 1 tượng nghiên cứu có tính thời sự, ý nghĩa khoa học và k h ả năng ứng dụng thự( cao Chung tôi sẽ tiêp tục triẽn khai th ử nghiệm hệ th ố n g nh ận dạng âm nhạc trên các nghiên cứu trong đề tài này, đặc biệt trong môi trư ờng web Lưu trữ lượng lớn và cải thiện tốc độ tìm kiếm là các vấif đề cần được tiếp tụ c quan nghiên cứu

Trang 18

Tài liệu tham khảo

[1] E Allam anche, J Herre, 0 Hellm uth, B B ernhard Frobach, M C rem er, Au-

dioID: Towards Content-Based, Identification o f A udio M aterial, 100th AES

Convention, A m sterdam , T he N etherlands, 2001

[2] A Andoni and p Indyk, Near-optimal hashing algorithms fo r approxim ate near­

est neighbor in high dimensions, in 47th A nnual IE E E Sym posium on Founda­

tions of C om puter Science ( F 0 c s ’06), 2006, pp 459-468

[3] Baluja, Covell, C ontent fingerprinting using wavelets, Proceedings of th e 3rd

E uropean Conference on Visual M edia P roduction (C V M P), 2006

[4] S B aluja, M Covell, Audio Fingerprinting: C om bining C om puter Vision &

I Data Stream Processing, Proceeding of the IE E E In tern atio n al Conference on

Acoustics, Speech and Signal Processing (IC A SSP), 2007

[5] M Covell, S B aluja, M Fink, Advertisem ent Replacem ent using Acoustic and

Visual Repetition, Proceedings of th e IE E E W orkshop on M ultim edia Signal

Processing, 2006

[6] c Burges, J P la tt, s Ja n a, D istortion D iscrim inant A nalysis fo r A udio F in ­

gerprinting, IE E E T ransactions on P a tte rn Analysis and M achine In te llig e n c e ,

11 (3), 2003

■[7] P Cano, E B atlle, T Kalker, J H aitsm a, A review o f algorithms fo r audio

fingerprinting, In W orkshop on M ultim edia Signal Processing, 2002.

[8] Y Cheng, M usic Database Retrieval Based on Spectral Sim ilarity, In tern atio n al

Sym posium on M usic Inform ation Retrieval (ISM IR) 2001, Bloom ington, USA,

O ctober 2001

[9] M Covell, S B aluja, K now n-A udio D etection Using W aveprint: Spectrogram

Fingerprinting B y Wavelet Hashing, Proceedings of th e IE E E Intern atio n al

Conference on Acoustics Speech and Signal Processing (IC A SSP), 2007

[10] A D uda, A N iirnberger, and s Stober, Towards query by h u m m in g /sin g in g on

audio databases, in Proceedings of th e 7th In te rn atio n a l Conference on Music

Inform ation R etrieval, 2007

Trang 19

TÀI LIỆU T H A M KHẢO I

[111 M Fink, M Covell, s Baluja Social- and Interactive-Television Apphcatioj

Based on Real-Time Am bient-Audio Identification, Proceedings of EuroITN

2006

[12] D Fragoulis D., G Rousopoulos, T Panagopoulos, c Alexiou, c Pi

paodysseus, On the Autom ated Recognition o f Seriously D istorted M usic

Recordings, IEEE Transactions on Signal Processing, 4 9 (4), pp 898-908, 200

'13] A Gionis p Indyk R Motwani, Sim ilarity search in high dim ensions via hasi

mg Proceedings of the International Conference on Very Large D atabases, 199'

[14] J Haitsma, T Kalker, J Oostveen, Robust Audio Hashing f o r C ontent Ideni

fication, C ontent Based M ultim edia Indexing 2001, Brescia, Italy, 2001.

[15] J Haitsm a, T Kalker, A Highly Robust Audio F ingerprinting System , Procee<

ings of the International Conference for Music Inform ation R etrieval, 2002

[16] c Jacobs, A Finkelstein, D Salesin, Fast M ultiresolution Im age Queryin

Proceedings of SIGG RA PH, 1995

[17] J.-S R Jang and M.-Y Gao, A query-by-singing system based on dynam ic pr

gramming, in Proceedings of the International W orkshop on Intelligent Systen

Resolutions, 2000

[18] J.-S R Jang, C.-L Hsu, and H.-R Lee, Continuous H M M and its enhanceme

fo r singing/hum m ing query retrieval, in Proceedings of th e 6 th Internation

Conference on Music Inform ation Retrieval, 2005

[19] Y Ke, D Hoiem, R Sukthankar, C om puter Vision fo r M usic Jdentificatio

Proceedings of the IEEE Com puter Society Conference on C om puter Visit and P a tte rn Recognition (C V PR ), 2005

[20] Y Ke et al., Com puter vision fo r m usic ' identification: server cot

h t t p : //www c s emu e d u / y k e / m u s i c r e t r i e v a l / m u s i c r e t r - 1 0 t a r gz, 2005

[21] K Lem strom, String M atching Techniques fo r M usic R etrieval, Ph.D thes

University of Helsinki, 2000

l 22] c Meek and w Birm ingham , Applications o f binary classification and adapti boosting to the query-by-hum ming problem, in Proceedings of th e 3rd Interr

tional Conference on Music Inform ation Retrieval, 2002

[23] H Neuschmied H Mayer, E B attle Identification o f A udio T itles on the J

tem et, Proceedings of the International Conference on Web Delivering of Mu

2001 Florence: Italv November 2001

Trang 20

T À I LIỆU T H A M KHẢO 17

[24] J Oostveen, T Kalker, J H aitsm a, Feature E xtraction and a Database Strategy

fo r Video Fingerprinting, 5th International Conference on V isual Inform ation

Systems, Taipei, Taiwan, M arch 2002, published in R ecent advances in Visual Inform ation Systems, LNCS 2314, Springer, Berlin, pp 117-128

[25] R Typke, M usic Retrieval based on Melodic Sim ilarity, Ph.D thesis, Univer-

siteit U trecht, 2007

[26] P Viola, M Jones, R obust Real-tim e O bject D etection Proceedings of the International Conference for C om puter Vision, 2001

[27] X Wu, M Li, J Yang, and Y Yan, A top-down approach to melody m atch

in pitch countour fo r query by hum m ing, in Proceedings of th e Intern atio n al

Conference of Chinese Spoken Language Processing, 2006

[28] A uditude website h t t p : //www a u d i t u d e com

[29] ID3M an website h t t p : //www id3m an com

[30] R elatable website h t t p : //www r e l a t a b l e com

[31] N apster website h t t p : //www n a p s t e r com

[32] W ebsite All M edia Guide h t tp ://w w w a llm e d ia g u id e c o m /la s s o /

[33] h t t p : / / b u s i n e s s m u fin c o m /e n /p r o d u c ts /

m u f in - a u d io id - m u s ic - r e c o g n itio n - a n d - m u s ic - m o n ito r in g /

[34] W ebsite G racenote h t t p : //www g r a c e n o t e com/

[35] W ebsite Last.fm h t t p : //www l a s t fm /

[36] W ebsite Music Brainz h t t p : / / m u s i c b r a i n z o r g /

[37] W ebsite Shazam h t t p : / /www shazam com/

[38] W ebsite T unatic h t t p : / / w w w w i l d b i t s c o m / t u n a t i c /

[39] Moodlogic website h t t p : //www m o o d lo g ic com

[40] Y acast website h t t p : //www y a c a s t com

đ ạ i h ọ c q u ố c G ' a H à N ộ '

t r u n g T â m t h ò n g -I in th u v iệ n

Trang 21

Phụ lục

Phụ luc gồm có:

• 01 bài báo của đề tài gửi đăng Tạp chí Khoa học, Đại học Quốc gia H à Nội

• 01 báo cáo tổng quan về chuỗi đặc trư ng âm th an h do các cán bộ th a m gia đề tài thực hiện

• 02 bìa luận văn tốt nghiệp đại hoc năm 2009 thực hiện theo hướng nghiên cứu của đề tài

• Bản sao Dề cương và Hợp đồng thực hiện đề tài nghiên cứu đ ã được phê duyệt

Bán cáo tóm tắ t kfit quả nghiên cứu của đề tài bằng Tiếng Anh

• Phiếu dăng ký kết quả nghiên cứu KHCN để ở tra n g cuối trong báo cáo tổng két

IX

Trang 22

Xây dụ ng ứng dụng tìm kiếm âm nhạc dựa trên chuỗi đặc

trung âm thanh

Phạm Cẩm Ngọc, Nguyễn Hải Châu Khoa Công nghệ Thông tin,Trường Đại học Công nghệ

Đại học quốc gia Hà Nội Email: phamcamngoc@gmail.com, chaunh@vnu.edu.vn

Tóm tắt

Trong bài báo này chúng tôi nghiên cứu, đề xuất và xây dựng một ứng dụng thừ nghiệm để tìm kiếm các bản nhạc dựa ừên dữ liệu là tín hiệu âm thanh thu được từ micro Hiện nay cỏ nhiều phương pháp tìm kiếm âm nhạc dựa trên tín hiệu âm thanh, chúng tôi sử dụng chuỗi đặc trumg âm thanh kết hợp với kỹ thuật học máy thống kê để xây dựng ứng dụng này Trên cơ sở những nghiên cứu của Yan Ke trong việc áp dụng các kỹ thuật về thị giác máy để giải quyết vấn đề tìm kiếm âm nhạc, chúng tôi đã tập trung xây dựng dữ liệu huấn luyện cho hệ thống, đạt được những kết quả khả quan so với bộ dữ liệu trước

đó của Yan Ke, với độ chính xác trong tìm kiếm lên tới 98%

1 Giói thiệu

Hiện nay, có rất nhiều phương pháp tiếp cận khác nhau để giải quyết bài toán tìm kiếm âm nhạc Hai phương pháp điển hình và được ứng dụng rộng rãi nhất trong thực tế đó là tìm kiếm dựa trên chuỗi đặc trưng âm thanh (fingerprint) cùa các bản nhạc và tìm kiểm dựa trên giai điệu của bài hát Một

hệ thống tìm kiếm âm nhạc dựa trên fingerprint xem xét cơ sở dữ liệu các bài hát như một tập các fingerprint, việc tìm kiếm thông tin về một bài hát sẽ tuơng ứng với việc tìm kiếm một fingerprint phù hợp nhất trong tập các fingerprint Khi sử dụng một hệ thống tìm kiểm âm nhạc kiểu này, chẳng hạn Tunatic [10] hay Shazam [9], người sử dụng có thể gửi các bản nhạc đã thu âm qua micro từ máy tính cá nhân của mình cho server và nhận kết quả trả về là thông tin liên quan đến bài hát gốc

Hệ thống tìm kiếm dựa trên giai điệu hay còn gọi là Query by humming (Qbh) là một hệ thống phân loại bản nhạc theo tên bài hát, nghệ sỹ biểu diễn,

1

Trang 23

lác giả bài hát và thể loại Hệ thống nhận đâu vào là giai điẹu cua cac ban nhạc

và so sánh với giai điệu của các bản nhạc khác trong cơ sơ liẹu roi đưa ra

một danh sách sẳp thứ tự các bài hát có giai điệu giong VƠI ban nhạc đo nhat

Một hệ Query by humming kiểu như Musipedia [11] hay Midomi [12] cho phép người dùng nhập vào giai điệu bài hát theo nhiêu cach khac nhau như huýt sáo, sử dụng bàn phím piano ảo, vẽ nôt nhạc hay theo kiêu contour search

Từ thực tế đó kết hợp với việc nghiên cứu các phương pháp tìm kiêm âm nhạc đang được nghiên cứu phổ biến hiện nay, đặc biệt là phương phap chuoi đặc trưng âm thanh kết hợp với học máy thông kê cùa Yan Ke [6], [7], chung tôi tiến hành xây dựng một hệ thống tìm kiêm âm nhạc dựa trên các fingerprint Mỗi khi một bài hát được thêm mới vảo cơ sở dữ liệu, hệ thống sẽ lưu lại các trường thông tin của bài hát như tên tác giả, ca sỹ thể hiện, thể loại nhạc đồng thời thực hiện các biến đổi Fourier và tính toán càn thiết để trích ra được các fingerprint tương ứng với bài hát đó và lun trữ nó như một trường đặc biệt, trường fingerprint Khi người sử dụng gửi một truy vấn là một bản nhạc đã thu

âm tới hệ thống, trước tiên hệ thống thực hiện các phương pháp tiền xử lý như lọc nhiễu để khử tiếng ồn, tăng âm lượng thu âm của bài hát, sau đó tiến hành tính toán ra fingerprint của bàn nhạc đó, tim kiếm trong cơ sở dữ liệu những fingerprint gần giống với nó nhất và đưa ra kết quả là danh sách sắp thứ tự các bài hát gốc với các thông tin hữu ích kèm theo

2 Xây dựng và th ử nghiệm hệ thống

Khi nhận được một bản nhạc thu âm mà vì nhiều lý do khác nhau đã bị nhiễu như thu âm trong môi trường có nhiều tiếng ồn, thu âm với một micro chât lượng thâp, người sử dụng muốn hệ thống có thể đưa ra được một cách nhanh nhất bản nhạc đó thuộc về bài hát gốc nào

Đẽ xây đựng một hệ thống fingerprint đáp ứng được yêu cầu trên, Yan Ke[7] chuyên đôi bài toán cân giải quyêt sang bài toán trong lĩnh vực khác và đã

có lời giải, đó là thị giác máy Mới nghe qua, các vấn đề trong phạm vi âm thanh có vẻ như không có môi liên hệ gì với lĩnh vực computer vision Trong lĩnh vực âm thanh, người ta cân phải xử lý các tín hiệu 1-D theo thời gian, còn trong computer vision, mục đích của các nhà phát triển là đưa ra được các hình anh 2-D la) ra từ một khung cảnh 3-D Tuy nhiên, động lực chính thúc đẩy hướng tiẽp cận này, đó là gần đây, các nhà nghiên cứu thường sử dụng các hình

2

Trang 24

ảnh 2-D liên tục theo thời gian (spectrograms) khi phân tích âm thanh và giọng nói nhằm mục đích trực quan hóa bằng hình ảnh.

Khi cài đật hệ thống, việc biên dịch mã nguồn server cũng như xây dựng

cơ sở dữ liệu, thu âm bài hát, chia bài hát thành các snippet để tạo dữ liệu huấn luyện được chúng tôi thực hiện trên hệ điều hành Linux, đồng thời chúng tôi

sử dụng thêm một sổ thư viện sẵn có như fftw3 (fftw.org), ffmpeg (ffmpeg.org)

và m pgl23

Hệ thống chúng tôi xây dựng gồm hai thành phần: chương trình giao diện người sử dùng (UI) viết trên Java 1.4 và chương trình server nhận dạng bài hát (MIS) viết bằng C++ Phía UI sẽ thực hiện gửi các truy vấn tới MIS qua các TCP/IP socket, do đó cả hai có thể dịch trên cùng một máy hay các máy khác nhau Nếu không được chỉ định, cổng mặc định ờ đây là 2000 Để kiểm nghiệm

hệ thống, chúng tôi cho UI tự động gửi liên tục các truy vấn là các bản nhạc thu

âm tới server, sau đỏ nhận kết quả trả về là tên bài hát gốc, tiến hành kiểm tra tính đúng đắn và ghi lại kết quả cho các mục đích thống kê sau này

2.1 Xây dụng cơ sở dữ liệu các fingerprint

Hai chương trình chính sử dụng để xây dựng cơ sờ dữ liệu khóa là makekeys và builddb Chương trình đầu tiên nhận đầu vào là các một danh sách các file nhạc định dạng WAV, thực hiện tính toán khỏa (các fingerprint) cho mỗi bài hát, sau đó ghi khóa đó vào một thư mục chung chứa các khỏa Để

chạy được, chương trình cần các thư viện là cod ew av.cc - chuyển đổi các file

WAV thành dạng bit và sigproc.cc - chứa hầu hểt mã nguồn cho xử lý tín hiệu Chương trình thứ hai sừ dụng các thư viện keypointdb.cc - quản lý cơ sở dữ liệu khóa và directhash.cc - xây dựng các bảng băm trực tiếp của tất cả các khóa trong cơ sờ dữ liệu khóa Chương trình sẽ đọc một danh sách các khóa và xây dựng cơ sở dữ liệu từ tập hợp khóa đó

Tuy nhiên, trong thực tế, việc lưu trữ các file nhạc định dạng WAV gặp nhiều khỏ khăn do kích thước các file nhạc là rất lớn, chúng tôi đã kết hợp sử dụng thư viện ffmpeg trong cải tiến chương ưình sinh khóa để hệ thống có thể tính khóa từ tập các bài hát định dạng MP3

2.2 Xây dụng dữ liệu huấn luyện cho việc tìm kiếm

Để xây dựng cơ sở dữ liệu cho việc tìm kiểm, trước hết cần phải cỏ một tập các bài hát đã được thu âm trong môi trường có nhiều nhiễu Tập các bài

3

Trang 25

hát đã thu âm này và các bải hát gốc cùa nỏ sau đó được chia thanh cac snippet ngắn (30 giây cho mỗi snippet) Các snippet tương ứng sau khi thực hiện trích rút đặc trưng sẽ được so sánh với nhau đê tạo thành tạp dư liẹu học Chung tôi

đã xây dựng các chương trình giúp cho việc xây dựng dữ liẹu huan luyẹn được thuận tiện

• Chương trình balchrec: sử dụng thư viện ffmpeg và mpg 123 thực hiện

tự dộng mở và thu âm lại các bài hát từ đâu đên khi ket thuc, ghi chúng vào thư mục các bài hát đã thu âm

• Chương trinh batchsplit: sử dụng thư viện ffmpeg đế chia nhỏ một bài hát thành các snippet kế tiếp nhau theo một khoảng thời gian nào đó (thường là 30 giây)

• Chương trình emtraining: tự động đọc một đanh sách các snippet gốc

và snippet đã thu âm, tính toán khóa cho các snippet này, sau đó tiến hành xây dựng tập dữ liệu học

Trong quá trình xây dựng dữ liệu huấn luyện, chúng tôi lựa chợn tập dữ liệu học dược phân loại theo một sổ tiêu chí về thể loại nhạc để tạo nên các bộ

dữ liệu huấn luyện khác nhau Các snippet dùng làm dữ liệu học cũng như các snippet truy vấn đều được chúng tôi thu âm qua micro chất lượng không tốt và môi trường có nhiều tiếng ồn gây nhiễu Chúng tôi tiến hành chạy chương trình ứng dụng theo một danh sách các snippet đã thu âm để đưa ra được những đánh giá tổng quan về quá trình học cùa hệ thống

3 Ket quả thực nghiệm

Chúng tôi đã xây dựng một hệ thống nhận đạn^ âm thanh dựa trên chuỗi đặc trưng với cơ sở dữ liệu cỏ 597 bài hát và tiến hành kiểm tra độ chính xác của việc tim kiêm trên hai tập dữ liệu vào T] và T2 gồm các snippet được lựa chọn ngâu nhiên từ cơ sở dữ liệu 597 bài hát nói trên Tập dữ liệu T | bao gồm

956 snippet đã được thu âm trong môi trường nhiều nhiễu (tiếng ồn ban ngày ở khu tập thê, tiêng rè của loa và micro do chất lượng kém và tiếng gió tạo ra từ quạt máy); T? bao gôm toàn bộ các snippet trong T| đã được tiền xừ lý bằng cách tăng biên độ tín hiệu nhưng không khử nhiễu

Chúng tôi tiên hành kiêm tra kêt quả thực nghiệm trên ba bộ dữ liệu huấnluyện: bộ dữ liệu huấn luyện cùa Yan Ke (gọi tắt là YanKe) và hai bộ dữ liệuhuân luyện do chúng tôi tạo ra (gọi tẳt là H L|, HL2) Bộ dữ liệu huấn luyện HL|

4

Ngày đăng: 19/03/2015, 09:11

HÌNH ẢNH LIÊN QUAN

Bảng  1:  Giải  thích  các  chữ viết  t ắ t - Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện
ng 1: Giải thích các chữ viết t ắ t (Trang 6)
Bảng  2:  Đ anh  sách  cán  bộ,  cộng  tá c   viên,  học  viên  cao  học  và  sinh  viên  th a   thực  hiện  dề  tài__________________________________________________________ - Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện
ng 2: Đ anh sách cán bộ, cộng tá c viên, học viên cao học và sinh viên th a thực hiện dề tài__________________________________________________________ (Trang 7)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w