DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Conversion Chuyển đổi tương tự số hóa Hệ quản trị cơ sở dữ liệu Ratio Tỷ lệ tốc độ vượt qua 0 cao Transform Biến đổi Fourier liên tục Retrieval Sy
Trang 1NGUYỄN THÙY DƯƠNG
TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ
Trang 2MỤC LỤC
Trang
MỤC LỤC i
LỜI CẢM ƠN ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii
MỞ ĐẦU 1
CHƯƠNG I 4
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH 4
1.1 Cơ sở dữ liệu đa phương tiện 4
1.1.1 Một số khái niệm cơ bản 4
1.1.2 Hệ thống quản trị cơ sở dữ liệu đa phương tiện (MMDBMS) 5
1.1.3 Truy tìm thông tin 7
1.2 Quá trình chung thiết kế cơ sở dữ liệu âm thanh 7
1.2.1 Giới thiệu chung về cơ sở dữ liệu âm thanh 7
1.2.2 Mô hình tổng quát của dữ liệu âm thanh 8
1.2.3 Quá trình chung để phát triển một cơ sở dữ liệu âm thanh 14
CHƯƠNG 2 15
KỸ THUẬT TÌM KIẾM TRONG CƠ SỞ DỮ LIỆU ÂM NHẠC 15
2.1 Kỹ thuật phân loại âm thanh thành âm nhạc, tiếng nói, tiếng động 16
2.1.1 Âm thanh 16
2.1.2 Đặc trưng chính của âm thanh 22
2.1.3 Phân lớp âm thanh 39
2.2 Một số thuật toán trích chọn đặc trưng âm nhạc 45
2.2.1 Đặc trưng của âm nhạc 45
2.2.2 Một số lớp âm nhạc 45
2.2.3 Chỉ số hóa và truy tìm âm nhạc 49
CHƯƠNG 3 53
ỨNG DỤNG KỸ THUẬT TÌM KIẾM ÂM NHẠC TRONG GIẢNG DẠY 53
3.1 Cài đặt thử nghiệm hệ thống tìm kiếm âm nhạc 53
3.2 Mô hình hệ thống 54
3.3 Các tham số thực nghiệm 54
3.4 Một số chức năng của chương trình 55
3.5 Kết quả thực nghiệm 56
KẾT LUẬN 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 3LỜI CẢM ƠN
Để hoàn thành chương trình cao học và viết luận văn này, tôi đã nhận được
sự hướng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trường Đại học Công nghệ thông tin - Truyền thông, Đại học Thái Nguyên
Trước hết, tôi xin chân thành cảm ơn đến quí thầy cô trường Đại học Công nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo cho tôi suốt thời gian học tập tại trường
Tôi xin gửi lời biết ơn sâu sắc đến thầy giáo PGS.TS Đặng Văn Đức người
đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hướng dẫn cho tôi trong suốt quá trình nghiên cứu và giúp tôi hoàn thành luận văn này
Nhân đây, tôi xin chân thành cảm ơn Ban Giám hiệu trường Cao đẳng Văn hóa nghệ thuật Việt Bắc cùng đồng nghiệp trong Phòng Đào tạo & nghiên cứu khoa học đã tạo rất nhiều điều kiện để tôi học tập và hoàn thành tốt khóa học
Đồng thời, tôi cũng xin cảm ơn quí anh, chị và ban lãnh đạo khoa Âm nhạc, phòng thu thanh của trường cao đẳng Văn hóa nghệ thuật Việt Bắc… đã tạo điều kiện cho tôi điều tra khảo sát để có dữ liệu viết luận văn
Mặc dù tôi đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình
và năng lực của mình, tuy nhiên không thể tránh khỏi những thiếu sót, rất mong nhận được những đóng góp quí báu của quí thầy cô và các bạn
Thái Nguyên, ngày tháng năm 2012
Học viên Nguyễn Thùy Dương
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 4DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Conversion
Chuyển đổi tương tự số hóa
Hệ quản trị cơ sở dữ liệu
Ratio
Tỷ lệ tốc độ vượt qua 0 cao
Transform
Biến đổi Fourier liên tục
Retrieval System
Hệ thống chỉ mục và phân tích
đa phương tiện
Interface
Giao diện số cho nhạc cụ
Retrieval System
Hệ thống chỉ mục và truy tìm thông tin đa phương tiện
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 5Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 6MỞ ĐẦU
Nghị quyết Trung ương II khoá VIII đã đặt ra phương châm chiến lược cho ngành giáo dục là phải: "Đổi mới phương pháp giáo dục đào tạo, khắc phục lối truyền thụ một chiều, rèn luyện nếp tư duy sáng tạo của người học, từng bước áp dụng phương pháp tiên tiến và phương tiện hiện đại vào quá trình dạy học" Ứng dụng công nghệ thông tin vào dạy học đang dần dần được thực hiện ngày càng nhiều trên bục giảng Việc thiết kế giáo án và giảng dạy trên máy tính bằng những đoạn phim minh hoạ với hình ảnh, âm thanh sống động, bài giảng sẽ thực sự gây sự chú ý và tạo hứng thú học tập cho học sinh-sinh viên Trong điều kiện hiện nay tài liệu dạy âm nhạc bằng sự hỗ trợ của CNTT ở nước ta còn nhiều hạn chế, việc tìm ra các giải pháp ứng dụng phần mềm CNTT vào dạy học âm nhạc là yêu cầu cần thiết nhằm góp phần đổi mới phương pháp dạy học cho bộ môn này
Ứng dụng CNTT trong dạy học Âm nhạc ở các trường Đại học – cao đẳng và các trường phổ thông là việc làm tất yếu, giúp cho giảng viên, giáo viên âm nhạc chủ động có những bài soạn mang tính hiện đại và tạo ra được những tài liệu học tập, tham khảo phong phú cho sinh viên mang tính trực quan sinh động, tạo được hứng thú học tập cho học sinh
Trên thị trường hiện nay có rất nhiều phần mềm dùng để soạn nhạc, hoà âm, phối khí thu âm, xử lý, biên tập âm thanh, v.v… Các phần mềm đều có lĩnh vực ứng dụng nhất định có tính chuyên biệt khá rõ nét nhưng nhìn chung khi sử dụng đều có đặc điểm tương đối giống nhau nên việc sử dụng cũng khá dễ dàng Việc lựa chọn
sử dụng cần phải đáp ứng yêu cầu sau: - Lựa chọn những phần mềm đáp ứng nội dung bài dạy, tiết dạy - Có kỹ năng sử dụng và khai thác phần mềm - Dễ phổ cập, phù hợp với điều kiện kỹ thuật của địa phương
Ngày nay, việc chia sẻ các bài hát bản nhạc trên internet đã trở nên phổ biến Thực tế đó cũng mở ra một nhu cầu truy cập vào những thư viện âm thanh khổng lồ Nhu cầu đó đòi hỏi một công nghệ tìm kiếm hiệu quả để tổ chức, sắp xếp, truy tìm
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 7các nội dung âm thanh, cũng như có thể xử lý hàng trăm tỷ trang web hỗn độn trên mạng và các thiết bị lưu trữ trên các máy tính cá nhân
Hiện nay, một số hãng tìm kiếm khổng lồ trên mạng như Yahoo, Google hay You Tube đang triển khai các hoạt động nghiên cứu theo cách tìm kiếm theo nội dung thay vì từ khóa Người dùng chỉ cần gõ những từ hoặc cụm từ liên quan đến bài hát và Yahoo sẽ liệt kê một danh sách các file âm thanh, cho phép khách hàng nghe trực tuyến Công cụ tìm kiếm âm nhạc này hoạt động dựa trên khả năng đọc nội dung được nhúng trong tệp âm thanh, còn được gọi là metadata, để phân loại kết quả tìm kiếm
Trong những năm qua ở Việt Nam, các công cụ tìm kiếm dữ liệu đa phương tiện, trong đó các công cụ tìm kiếm và nhận dạng dữ liệu âm thanh đã dần được chú
ý Ví dụ, phòng nhận dạng và công nghệ tri thức- Viện công nghệ thông tin đã giới thiệu một số sản phẩm phần mềm có ý nghĩa thực tế rất cao như: tổng hợp và xử lý ngôn ngữ tiếng Việt, nghiên cứu và tiếp cận các kỹ thuật mới của công nghệ tổng hợp và nhận dạng tiếng nói trên thế giới để áp dụng trong hoàn cảnh Việt nam và
âm thanh tiếng Việt, nghiên cứu các phương pháp xử lý tín hiệu số và tín hiệu tiếng nói, các phương pháp tìm đặc trưng âm thanh Các sản phẩm nêu trên đã đáp ứng được phần nào nhu cầu tìm kiếm và nhận dạng dữ liệu âm thanh Tuy nhiên, các công trình nghiên cứu về tìm kiếm âm thanh theo nội dung vẫn còn hiếm hoặc chưa tương xứng với tầm quan trọng của nó trong hiện tại và tương lai Đặc biệt sử dụng các phần mềm này cho công việc giảng dạy âm nhạc tại các trường còn chưa đáp ứng được nhu cầu thực tế, thay vì phấn trắng bảng đen truyền thống, giáo viên chỉ click chuột, vài giây sau trên màn hình hiện ra ngay nội dung, âm thanh của bản nhạc Ứng dụng công nghệ thông tin trong dạy học âm nhạc đang dần dần được thực hiện ngày càng nhiều trên bục giảng các trường đào tạo nghệ thuật Nhạc sĩ Hoàng Lân nhận xét rằng từ trước đến nay, bộ môn âm nhạc ”dạy chay” nhiều, ít lôi cuốn được học sinh Nếu việc ứng dụng CNTT vào trong dạy học được thực hiện có hiệu quả trong các trường, sẽ dẫn đến sự thay đổi lớn lao về PPDH nhằm cung cấp
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 8những tư liệu âm nhạc một cách khoa học, phong phú, toàn diện mà còn tác động tích cực đến thẫm mỹ, đến tư duy nhận thức của học sinh…
Mặt khác, việc hiểu biết sâu sắc về âm thanh cũng như các khái niệm, thuật toán liên quan sẽ giúp ta ứng dụng và xây dựng các hệ thống tìm kiếm âm thanh phù hợp, hiệu quả hơn Xuất phát từ những vấn đề nêu trên, luận văn đã tập trung
nghiên cứu về vấn đề "Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng"
Cấu trúc của luận văn như sau:
Chương 1: Tổng quan về cơ sở dữ liệu âm thanh
Chương 2: Kỹ thuật tìm kiếm cơ sở dữ liệu âm thanh
Chương 3: Ứng dụng kỹ thuật tìm kiếm âm nhạc trong giảng dạy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 9CHƯƠNG I TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH
Ngày nay, với sự phát triển vượt bậc của khoa học kỹ thuật, sự bùng nổ của
dữ liệu đặc biệt là dữ liệu media, nhu cầu thưởng thức âm nhạc của con người ngày càng phong phú, đa dạng dẫn đến một nhu cầu rất thực tế đó là nhu cầu tìm kiếm thông tin về âm nhạc
Hầu hết các hệ thống tìm kiếm âm nhạc hiện tại đều dựa trên chỉ mục Cơ sở
dữ liệu dựa trên chỉ mục bộc lộ nhiều nhược điểm như: tìm kiếm thông tin không chính xác, không tìm được dữ liệu khi người dùng không nhớ chính xác thông tin đầu vào, hay chỉ nhớ được giai điệu, nội dung bài hát
Tìm kiếm âm nhạc theo nội dung là một lĩnh vực nghiên cứu mới và được nhiều nhà nghiên cứu quan tâm Hiện có một số phương thức đã được áp dụng tìm kiếm âm nhạc theo nội dung Ghias, Logan, Chamberlin và Smith đã đưa ra phương thức tương tự và sử dụng đầu vào như một truy vấn Trong thí nghiệm vào năm
2001, M.Goto đã thu được kết quả tốt khi các nhà nghiên cứu tiến hành một cuộc thử nghiệm tính toán ước lượng MAP sử dụng thuật toán EM Tuy nhiên, theo kết quả nghiên cứu của Beth Logan thì các phương pháp tìm kiếm âm nhạc theo nội dung hiện nay vẫn chưa đảm bảo được cả độ chính xác và thời gian tính toán, đặc biệt khi tìm kiếm giai điệu của các bản nhạc
1.1 Cơ sở dữ liệu đa phương tiện
1.1.1 Một số khái niệm cơ bản
Loại media và Multimedia
Trang 10liệu này phân lớp media dựa trên cơ sở là chúng có chiều thời gian hay không Qui
định này dẫn tới hai lớp media: static và dynamic
Static media: Không có chiều thời gian, nôi dung và ý nghĩa của chúng không phụ thuộc vào thời gian trình diễn Media tĩnh bao gồm dữ liệu văn bản, đồ họa
Dynamic media: Có chiều thời gian, ý nghĩa và độ chính xác của chúng phụ thuộc vào tốc độ trình diễn Dynamic media bao gồm annimation, video, audio Media động phụ thuộc chặt chẽ vào tốc độ trình diễn Thí dụ để cảm nhận chuyển động trơn tru, video phải được trình chiếu với tốc độ 25 frame/sec (hay
30 frame/sec phụ thuộc vào loại hệ thống video) Tương tự, khi ta play tiếng nói, âm nhạc, chúng chỉ được cảm nhận tự nhiên khi đạt được tốc độ nhất định, nếu không chúng làm giảm chất lượng và ý nghĩa âm thanh Vì các media này phải được trình diễn liên tục và ở tốc độ cố định cho nên chúng còn được gọi là
media liên tục Hay còn gọi chúng là media đẳng thời (isochronous media) vì
quan hệ giữa các đơn vị media và thời gian là cố định
Multimedia
Khái niệm multimedia (tiếng Latin: multus- numerous) đề cập đến tập hợp các kiểu media sử dụng chung, trong đó ít nhất có một kiểu media không phải là văn bản (nói cách khác là ít nhất có một media trong đó là ảnh, audio hay video) Trong tài liệu này sử dụng multimedia như tính từ: thông tin đa phương tiện, dữ liệu
đa phương tiện, hệ thống đa phương tiện, truyền thông đa phương tiện, ứng dụng đa phương tiện, Dữ liệu đa phương tiện đề cập đến đại diện các kiểu media khác nhau mà máy tính có thể đọc được Thông tin đa phương tiện đề cập đến thông tin kiểu media truyền đạt Đôi khi khái niệm dữ liệu đa phương tiện và thông tin đa phương tiện sử dụng thay thế cho nhau
Multimedia hay media item (hay còn gọi object) là thực thể tự trị trong hệ thống chỉ
mục và truy tìm thông tin đa phương tiện (MIRS – Multimedia Indexing and
Retrieval System) mà nó có thể được truy vấn, tìm kiếm và trình diễn
1.1.2 Hệ thống quản trị cơ sở dữ liệu đa phương tiện (MMDBMS)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 11Hệ thống quản trị cơ sở dữ liệu đa phương tiện là hệ thống tổ chức và lưu giữ gồm các dữ liệu truyền thống và các loại dữ liệu trừu tượng
Một định nghĩa khác, theo Libor Janek và Goutham Alluri, hệ thống quản trị
cơ sở dữ liệu đa phương tiện là một cơ cấu tổ chức quản lý các kiểu dữ liệu khác nhau, có khả năng thể hiện trong các định dạng trên một phạm vi các nguồn phương tiện đa dạng
Lượng dữ liệu đa phương tiện phát sinh theo nhu cầu hiện nay được lưu trữ
là một con số khổng lồ Chỉ riêng với dữ liệu video, người ta ước tính có khoảng
21264 trạm truyền hình phát 16 giờ hàng ngày, sinh ra khoảng 31 tỉ giờ Tuy nhiên, các hệ quản trị cơ sở dữ liệu đã được sử dụng rộng rãi như cơ sở dữ liệu quan hệ, chủ yếu tập trung vào quản lý các tài liệu văn bản thì không đáp ứng đầy đủ đối với việc quản lý các dữ liệu đa phương tiện, bởi các tính chất cũng như các yêu cầu đặc biệt của chúng như đã nêu ở trên Do đó, hệ thống quản trị cơ sở dữ liệu đa phương tiện là sự cần thiết để quản lý dữ liệu đa phương tiện một cách có hiệu quả
Các đặc trưng chủ yếu của MMDBMS bao gồm:
Quản lý dữ liệu đa phương tiện đã được lưu trữ: các dữ liệu đa phương
tiện được lưu trữ để quản lý gồm cả các thiết bị bên trong và bên ngoài máy tính, ví
dụ dữ liệu lưu trữ trên CD ROM
Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, người dùng có thể đưa
ra một mô tả để tìm kiếm "tiếng chuông điện thoại"
Giao diện người dùng độc lập với thiết bị: người dùng không cần biết cách
thức lưu trữ dữ liệu đa phương tiện như thế nào
Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu đa
phương tiện có thể độc lập với định dạng dữ liệu Nó cho phép có thể sử dụng các
kỹ thuật lưu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu hiện có
Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phương
tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số ứng dụng Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể được thực hiện, và cần
có cơ chế để thỏa mãn việc tránh tạo ra các xung đột
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 12 Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lưu trữ và
quản lý lượng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của dữ liệu
Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều khiển
việc đọc/ghi dữ liệu liên tục phải được thực hiện dựa trên thời gian thực Do lượng
dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền dữ liệu có thể tốn nhiều thời gian và nó còn đòi hỏi phải được thực hiện một cách chính xác
1.1.3 Truy tìm thông tin
Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm thông tin được lưu trữ trên máy tính Đối với dữ liệu đa phương tiện, việc truy tìm thông tin hiệu quả là dựa trên tìm kiếm tương tự Hệ thống lưu trữ một tập các đối tượng đa phương tiện trong cơ sở dữ liệu Người dùng đưa ra các truy vấn, và hệ thống tìm ra các đối tượng tương tự truy vấn trong cơ sở dữ liệu đã lưu trữ thỏa mãn yêu cầu của người dùng Truy tìm thông tin trong MMDBMS có một số đặc điểm sau đây:
- Sự cần thiết phải tích hợp các đặc trưng media phức tạp một cách thường xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trưng như: hình dạng, biểu đồ màu, kết cấu )
1.2 Quá trình chung thiết kế cơ sở dữ liệu âm thanh
1.2.1 Giới thiệu chung về cơ sở dữ liệu âm thanh
Các tín hiệu âm thanh là loại hàm phân tích liên tục Chúng ta sẽ khảo sát việc nén dữ liệu âm thanh thành biểu diễn rời rạc và chỉ số hoá nội dung của chúng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 13Các dữ liệu âm thanh thông thường là dạng sóng liên tục, việc rời rạc hóa chúng
được thực hiện bằng biến đổi (transformations) như biến đổi cosin rời rạc một chiều (DCT) và biến đổi Fourier rời rạc
Mặc dù dữ liệu âm thanh đã được đề cập đến từ lâu trên thiết bị ghi từ Nhưng việc nghiên cứu CSDL âm thanh lại ít được quan tâm trước đây Dù sao, dữ liệu âm thanh đóng vai trò quan trọng trong nhiều lĩnh vực ứng dụng khác nhau Thí dụ: Những điều tra viên có thể theo dõi điện thoại của các tội phạm khác nhau, họ được phép nghe trộm điện thoại của những kẻ tình nghi bán ma tuý và quan tâm đến việc nhận dạng người gọi điện thoại, việc xâm nhập kho âm thanh để nhận ra giọng
nói của ai đó là rất hiệu quả Sau đó họ yêu cầu mọi clip âm thanh mà chứa giọng
nói tương tự với giọng nói đang nghe phải được khai thác từ kho dữ liệu
1.2.2 Mô hình tổng quát của dữ liệu âm thanh
Tương tự dữ liệu ảnh và dữ liệu video, dữ liệu âm thanh được đặc trưng bởi hai
cách cơ bản: sử dụng metadata để diễn giải nội dung tệp âm thanh hay tách đặc
trưng thích hợp của dữ liệu âm thanh nhờ kỹ thuật xử lý tín hiệu Chúng ta sẽ khảo sát tổng quan cả hai kỹ thuật này
Biểu diễn nội dung âm thanh bằng metadata
Hãy xem xét tệp âm thanh đơn giản chứa nhạc kịch Wagnerian Tương tự như dữ
liệu video, trong trường hợp này ta kết hợp tập các đoạn thẳng (mỗi chúng tương ứng với khoảng thời gian) bao trùm toàn bộ nhạc kịch, và ta có thể kết hợp mỗi đoạn thẳng với tập các hoạt động xảy ra trong khoảng thời gian do các đoạn thẳng này biểu thị
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 14Hình 1.1
Thí dụ trong hình 1.1 chỉ ra các đoạn thẳng kết hợp với một phần của opera Tại đây, activity1 là Act 1 của nhạc kịch, activity2 là Act 1, Scene1, của nhạc kịch
Mỗi hoạt động có thể có một tập trường kết hợp Thí dụ như sau:
1 Singers: Nó có thể là tập trường giá trị chứa các bản ghi có các trường Role,
SingerType và SingerName Thí dụ, nếu bộ ba (Lohengrin, Tenor, Rene Kollo) xuất hiện như phần tử của tập trường giá trị Singers kết hợp với đoạn
[5, 9) thì Rene Kollo, có giọng nam cao (tenor), đang hát trong vai của
Lohengrin trong khoảng thời gian [5, 9) của nhạc kịch
2 Score: Nó là trường có kiểu music_doc trỏ tới phần của vết nhạc phù hợp, kết
hợp với đoạn thời gian [5, 9)
3 Transcript: Nó có thể là trường của kiểu document trỏ tới phần phù hợp của
lời nhạc kịch (lời đang hát) trong khoảng thời gian [5, 9)
Tổng quát thì metadata được sử dụng để biểu diễn nội dung âm thanh được
xem như tập các đối tượng trải dài theo đường thời gian, tương tự video Các đối tượng, đặc trưng và hoạt động xảy ra trong âm thanh hoàn toàn tương tự như trong video Sự khác biệt ở chỗ, âm thanh để nghe, còn video để cả nghe và nhìn Như
activit y1
2
1
activit y2
activit y3
200
activit y4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 15vậy, chúng ta có thể chỉ số hóa metadata kết hợp với âm thanh theo cách tương tự
cách chỉ số hoá video, và kỹ thuật xử lý truy vấn video cũng được sử dụng lại ở đây Phần lớn CSDL âm thanh đang tồn tại sử dụng lược đồ chỉ số hoá trên cơ sở
metadata
Nội dung âm thanh trên cơ sở tín hiệu
Sử dụng metadata là tin cậy và được khuyến cáo khi có cách tạo ra metadata
Thí dụ, nếu ta tạo ra CSDL âm thanh của đài phát thanh hay ghi âm nhạc, thì hầu
như không có vấn đề khi tạo ra metadata Tuy nhiên, trong ứng dụng khác, như cảnh sát nghe trộm điện thoại của kẻ tình nghi bán ma tuý, việc tạo metadata sẽ
phức tạp hơn bởi vì nhận danh của người nói có thể không được biết trước, thậm chí nội dung của hội thoại có thể không rõ ràng (nếu có sử dụng thiết bị trộn âm) Trong
trường hợp như vậy, quan niệm về nội dung được mô tả bằng khái niệm của các
phương pháp xử lý tín hiệu Dữ liệu âm thanh được xem như tín hiệu, gọi là (x)
theo thời gian x Các đặc trưng khác của tín hiệu được tách ra, chỉ số hoá và lưu
trữ để có thể khai thác hiệu quả Metadata có thể vẫn được sử dụng cùng với dữ liệu
tín hiệu và có thể bao gồm thông tin như nơi đặt đầu thu âm thanh, loại gì, khi nào ghi âm Hình 1.2 chỉ ra hai tín hiệu âm thanh mẫu
Bước sóng
Bước sóng
b /
(iii) H ì n h
2
Trang 16Một sóng (thí dụ sóng âm thanh trên hình 1.2) bao gồm tập hợp tuần hoàn các đỉnh
(crests) và vùng lõm (trough) Gọi chu kỳ dao động của sóng là T, được xác định bởi thời gian một phần tử sóng cần để trở lại vị trí ban đầu Thí dụ, xem xét điểm A trên hình 1.2a, điểm này chuyển động theo sóng và theo hướng của trục x Sau khoảng thời gian T nó đến điểm B
Tần số f của sóng được xác định bằng tổng dao động trong một giây Do vậy,
Tần số của sóng được biểu diễn bằng Hz (kHz) Khi nói bước sóng có tần số 10
kHz, có nghĩa rằng nó có 10000 dao động/giây, hay tính thời gian T là 1/10000 Nói
tổng quát là tai người có thể nghe âm thanh từ 15 Hz tới 20 kHz
Vận tộc v của sóng là tốc độ chuyển dịch sang phải của đỉnh và thung lũng Khi
nói rằng sóng chuyển dịch với vận tốc v, có nghĩa rằng đỉnh sóng chuyển dịch sang
phải với vận tốc v m/s Dễ dàng thấy rằng, nếu w là bước sóng thì:
Biên độ a của sóng là cường độ cực đại của tín hiệu kết hợp với sóng Đó là giá
trị (theo trục y) của đỉnh tín hiệu như trên hình 1.2
Theo đó, sóng trên hình 1.2a có tần số thấp hơn sóng trong hình 1.2b, chu kỳ dao động cao, biên độ thấp và bước sóng dài hơn
Cách chung nhất của chỉ số hoá dữ liệu âm thanh trên cơ sở nội dung là xem xét tín hiệu theo thời gian và chia nhỏ thành các cửa sổ thời gian Tín hiệu thể hiện biến đổi đáng kể giữa các cửa sổ Tuy nhiên, nếu kích thước cửa sổ nhỏ thì tín hiệu sẽ tương đối đồng nhất trong cửa sổ đó Thí dụ, hình 1.3 chỉ ra tín hiệu âm thanh đồng nhất và nó có thể được chia vào năm cửa sổ Mỗi cửa sổ là đồng nhất theo nghĩa nó
có biên độ, bước sóng và vận tốc sóng cố định Tuy nhiên, hai cửa sổ khác nhau thể
hiện các mẫu (pattern) sóng khác nhau đáng kể
T
f 1
f x w T
w
v
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 17Hình 1.3 CSDL âm thanh có thể có thể được chỉ số hóa bằng tín hiệu âm thanh theo cách sau đây:
1 Phân đoạn (Segmentation): Chia tín hiệu âm thanh thành các cửa sổ đồng nhất
Điều này có thể thực hiện bằng hai cách Một khả năng là người phát triển ứng
dụng có thể xác định kích thước cửa sổ w (đơn vị giây hay ms) và giả sử rằng các
đặc tính sóng trong cửa sổ này có được bằng lấy trung bình Khả năng thứ hai là người sử dụng có thể phân đoạn tín hiệu âm thanh tương tự phân đoạn ảnh nhờ
thuộc tính tính đồng nhất H Sự khác nhau duy nhất ở đây là tính chất đồng nhất
áp dụng cho trường hợp một chiều, thay cho hai chiều của ảnh
2 Tách đặc trưng (Feature extraction): Một khi đã thực hiện phân ảnh tín hiệu
âm thanh được xem như trình tự của n cửa sổ w 1 , ,w n Với từng cửa sổ, chúng ta
tách vài đặc trưng kết hợp với tín hiệu âm thanh Nếu k đặc trưng được tách, thì tín hiệu âm thanh được xem như trình tự của n điểm trong không gian k-chiều Chúng ta có thể chỉ số hóa trình tự của n điểm này Một vài đặc trưng quen thuộc
nhất và sử dụng rộng rãi để chỉ số hoá bao gồm:
a Cường độ (Intensity): Cường độ của sóng được hiểu như năng lượng của
tín hiệu do sóng phát sinh Không đi chi tiết kỹ thuật để tính giá trị này, chúng ta xác định cường độ của tín hiệu âm thanh là:
2 3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 18b Âm lượng (Loudness): Mặc dù các sóng có cường độ cao hơn được người
nghe to hơn các sóng có cường độ thấp hơn nhưng âm lượng không tăng
tuyến tính với cường độ Thí dụ, nếu hai sóng đều dưới dải nghe được của con người thì âm lượng của chúng là 0, dù là một sóng có thể có âm lượng thấp hơn nhiều so với sóng khác Do vậy, giả sử rằng gọi L0 là âm lượng kết hợp với tần số thấp mà tai người có thể phân biệt (khoảng 15 Hz), giả
sử ta quan sát sóng có cường độ I Sau đó âm lượng của I tính bằng decibel như sau:
Chú ý rằng khi I=L 0 thì L = 10 x log(1) = 0
c Độ cao (Pitch): Độ cao p(f, a) của tín hiệu âm thanh được tính từ tần số f
và biên độ a của tín hiệu
d Độ trong (Brightness): Độ trong của tín hiểutong cửa sổ w là thước đo
độ “sạch” của âm thanh Thí dụ, âm thanh ngẹt ít trong hơn âm thanh của kính vỡ
Bổ sung vào các thuộc tính trên đây, một số đặc trưng suy diễn khác như dao động, sự tương quan của các tín hiệu âm thanh tại các điểm khác nhau trong tín hiệu, có thể được biểu diễn về mặt tín hiệu âm thanh cơ sở Chúng ta không trình bày nó ở đây
Tổng quát thì, khi muốn chỉ số hoá nội dung của tín hiệu âm thanh, ta phải thực hiện các bước sau:
3.Tìm tập w1, ,wn của các đoạn cửa sổ
4 Với mỗi cửa sổ w i hãy lưu trữ một véctơ bao gồm K thuộc tính âm thanh như
đã mô tả trên đây
Từ góc nhìn về tín hiệu, CSDL âm thanh có thể được xem như tập của bộ K+3
bao gồm nguồn âm thanh (thí dụ các tệp âm thanh), cửa sổ (trong đó có tệp âm
thanh), thời lượng của cửa sổ và K giá trị đặc điểm kết hợp với cửa sổ đó
L
I x L
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 191.2.3 Quá trình chung để phát triển một cơ sở dữ liệu âm thanh
gồm các bước sau:
Bước 1: Thu thập dữ liệu âm thanh (audio)
Các dữ liệu audio được thu thập từ các nguồn khác nhau như ti vi, CD, www
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 20CHƯƠNG 2
KỸ THUẬT TÌM KIẾM TRONG CƠ SỞ DỮ LIỆU ÂM NHẠC
Audio số được biểu diễn như trình tự các mẫu (trừ MIDI, có trình diễn theo cấu trúc) và thông thường được lưu trữ dưới dạng nén
Con người có khả năng phân biệt các kiểu âm thanh Cho trước một đoạn âm thanh,
ta có thể nói loại âm thanh đó (tiếng nói, âm nhạc hay nhiễu), tốc độ (nhanh hay chậm), tâm trạng (vui, buồn ) và xác định được tính tương đồng với đoạn âm thanh khác Tuy nhiên, máy tính coi đoạn âm thanh như dãy giá trị mẫu Cho đến hiện tại, phương pháp chung nhất để xâm nhập âm thanh dựa trên cơ sở tiêu đề và tên tệp
Do tên tệp và mô tả văn bản là không đầy đủ và chủ quan cho nên việc tìm ra đoạn
âm thanh thỏa mãn người sử dụng là rất khó khăn Thêm nữa, kỹ thuật truy tìm này không hỗ trợ câu truy vấn như “tìm đoạn âm thanh tương tự đoạn đang nghe”
Để giải quyết vấn đề này, các kỹ thuật truy tìm âm thanh trên cơ sở nội dung
là cần thiết Truy tìm âm thanh trên cơ sở nội dung đơn giản nhất sử dụng so sánh mẫu với mẫu giữa câu truy vấn và đoạn âm thanh lưu trữ
Cách tiệm cận tổng quát của truy tìm và chỉ số hóa âm thanh trên cơ sở nội dung:
Âm thanh được phân lớp thành vài loại chung như âm thanh tiếng nói, âm nhạc
và nhiễu
Các loại âm thanh khác nhau được xử lý và chỉ mục theo các cách khác nhau Thí dụ, nếu âm thanh là tiếng nói, nhận dạng tiếng nói được áp dụng và tiếng nói được chỉ mục trên cơ sở từ nhận dạng được
Truy vấn các đoạn âm thanh là phân lớp tương tự, xử lý và chỉ số hóa
Các đoạn âm thanh được truy tìm trên cơ sở tính tương đồng giữa chỉ mục truy vấn và chỉ mục âm thanh trong CSDL
Bước phân lớp âm thanh là quan trọng Trước hết, loại âm thanh khác nhau đòi hỏi
xử lý khác nhau và các kỹ thuật chỉ mục khác nhau Thứ hai, loại âm thanh khác nhau có ý nghĩa khác nhau với các ứng dụng khác nhau Thứ ba, một trong các loại
âm thanh quan trọng nhất là tiếng nói, hiện nay đã có nhiều hệ thống nhận dạng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 21tiếng nói Thứ tư, loại âm thanh hay thông tin phân lớp có ý nghĩa lớn cho các ứng dụng Thứ năm, không gian tìm kiếm sau phân lớp giảm đi thành lớp âm thanh cụ thể trong tiến trình truy tìm
Phân lớp âm thanh dựa trên một số đặc trưng khách quan và chủ quan
2.1 Kỹ thuật phân loại âm thanh thành âm nhạc, tiếng nói, tiếng động
2.1.1 Âm thanh
Tính chất cơ bản của tín hiệu âm thanh
Khi tần số dao động của không khí đạt mức từ 20 đến 20000 Hz thì tai người
có thể nghe thấy âm thanh
Tham số khác được sử dụng để đo âm thanh là biên độ Biên độ biến đổi làm
âm thanh êm nhẹ hay ầm ĩ Dải động mà con người nghe được là rất rộng: giới hạn dưới là ngưỡng nghe được và dưới hạn trên là ngưỡng đau (pain) Ngưỡng nghe được của dạng sóng hình sin 1-kHz là ở 0.000283 dyne/cm2 (1dyn = 10-5
N, 1 dyn/cm2=0.1 Pa = 9.86923 x 10-7 atm)
Biên độ của dạng sóng hình sin có thể tăng từ ngưỡng nghe được theo hệ số
từ 100 000 đến 1 000 000 trước khi đạt tới ngưỡng đau Rất khó khăn làm việc với dải biên độ quá lớn, cho nên biên độ của âm thanh thường được biểu diễn bằng decibel (dB)
Cho trước hai dạng sóng có biên độ đỉnh là X và Y, thước đo sự chênh lệch tính bằng dB của hai biên độ này sẽ là dB=20log10(X/Y)
Nếu ngưỡng nghe được là 0.000283 dyne/cm2 cho tín hiệu 1-kHz được sử dụng làm tham chiếu cho 0 dB thì ngưỡng đau của hầu hết tai người đạt tới mức áp xuất âm thanh khoảng 100 đến 120 dB
Sóng âm thanh là liên tục theo thời gian và cường độ: nó thay đổi theo thời gian và biên độ có giá trị trong khoảng nghe thấy được Hình 2.1 là thí dụ sóng âm thanh
Trang 22 Biểu diễn âm thanh số
Dạng sóng âm thanh liên tục được chuyển sang tín hiệu điện liên tục bằng microphone Thí dụ, dạng sóng âm thanh trên hình 2.1 sẽ chuyển đổi thành tín hiệu điện có cùng hình dạng Tín hiệu điện thường đo bằng vôn Gọi loại tín hiệu với biên độ và thời gian liên tục là tín hiệu tương tự
Để xử lý và truyền tải tín hiệu âm thanh bằng máy tính thì chúng phải được chuyển đổi tín hiệu điện liên tục thành tín hiệu số theo ba bước trong ADC: lấy mẫu, lượng tử hóa và mã hóa (hình 2.2)
Lấy mẫu (Sampling)
Quá trình chuyển đổi thời gian liên tục thành giá trị rời rạc được gọi là lấy mẫu Hình 2.2(b) và (c) chỉ ra tiến trình lấy mẫu Trục thời gian phân chia thành các khoảng cố định Thu nhận giá trị của tín hiệu tương tự tại mỗi đầu khoảng thời gian Khoảng thời gian này được xác định bởi xung đồng hồ Tần số của đồng hồ được gọi là tần số mẫu hay tốc độ lấy mẫu Giá trị mẫu vẫn là giá trị tương tự trong biên độ: có giá trị bất kỳ trong dải liên tục Nhưng ở khoảng thời gian rời rạc: trong mỗi dải, mẫu chỉ có một giá trị
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 23Tiến trình chuyển đổi giá trị mẫu liên tục thành giá trị rời rạc được gọi là lượng tử hóa Tiến trình này chia dãy tín hiệu thành số khoảng cố định Mỗi khoảng có cùng kích thước và được gán một số Thí dụ trên hình 2.2(c) các khoảng được đánh số từ
0 đến 8 Mỗi mẫu sẽ thuộc một khoảng và được gán giá trị khoảng Trong thí dụ này, giá trị mẫu chỉ có thể là số nguyên từ 0 đến 8 Hai mẫu có giá trị khác nhau trước khi lượng tử hóa, nhưng chúng có thể có cùng giá trị sau khi lượng tử hóa Kích thước khoảng lượng tử hóa được gọi là bước lượng tử hóa
Mã hóa (Coding)
Tiến trình biểu diễn giá trị đã lượng tử hóa dưới dạng số gọi là mã hóa như trên hình 2.2 (d) Thí dụ trên sử dụng 7 mức lượng tử hóa, do vậy có thể sử dụng 3 bít để mã hóa Vậy, mỗi mẫu được biểu diễn 3 bit Dãy số nhị phân sau đây biểu diễn tín hiệu tương tự của thí dụ trên hình 2.2
Nhận xét
Khi tỷ lệ lấy mẫu và tổng số mức lượng tử hóa đủ lớn thì tín hiệu số sẽ biểu diễn gần chính xác tín hiệu tương tự gốc
Khi muốn xây dựng lại tín hiệu tương tự, ta phải sử dụng DAC Hình 2.3 chỉ
ra tiến trình của DAC
Các giá trị lượng tử hóa được xác định trên cơ sở biểu diễn số và bước lượng
tử Kết quả ta có dãy các tín hiệu bước như hình 2.3(b) Sau đó cho các tín hiệu bước này qua bộ lọc thông thấp để tái tạo xấp xỉ tín hiệu tương tự gốc như hình 2.3(c) Ta nói rằng xấp xỉ tín hiệu gốc là tái tạo bởi vì tín hiện tái tạo không hoàn toàn giống tín hiệu gốc do sai số của lượng tử hóa của tiến trình ADC
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 24Nguyên lý hoạt động của DAC và ADC mô tả ở đây được áp dụng cả cho tín hiệu video và loại tín hiệu khác
Trong tiến trình ADC, nhiệm vụ xác định tốc độ lấy mẫu và tổng số mức lượng tử hóa cho các tín hiệu tương tự khác nhau và cho các ứng dụng khác nhau là rất quan trọng
Xác định tốc độ lấy mẫu
Tốc độ lấy mẫu phụ thuộc vào tần số cực đại của tín hiệu tương tự sẽ chuyển
đổi Theo định lý Nyquist: Nếu tín hiệu tương tự chứa thành phần tần số đến f Hz
thì tốc độ lấy mẫu phải ít nhất 2f Hz Trong trường hợp nếu tốc độ lấy mẫu đúng
bằng 2f Hz thì gọi là lấy mẫu tới hạn Trong thực tế, tốc độ lấy mẫu được sử dụng lớn hơn 2f Hz chút ít
Thí dụ tốc độ lấy mẫu của âm thanh CD là 44.1 kHz, băng âm thanh số (DAT – Digital Audio Tape) là 48 kHz để đáp ứng dải tần số nghe được 20 KHz Thành phần tần số chính của âm thanh con người khoảng 3.1 kHz Do vậy, các hệ
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 25thống điện thoại tương tự có giới hạn tín hiệu đi qua tới 3.1 kHz Để chuyển đổi tín hiệu âm thanh này thành tín hiệu số thì cần sử dụng tốc độ lấy mẫu là 8 kHz
Nếu băng thông (dải tần) của tín hiệu tương tự lớn hơn ½ tần số lấy mẫu thì băng thông tín hiệu phải giảm bằng cách sử dụng bộ lọc thông thấp sao cho nó nhỏ
hơn hay bằng ½ tốc độ lấy mẫu Nếu không sẽ xuất hiện hiện tượng gọi là aliasing
(hình 2.4)
Hình 2.4(a) chỉ ra đồng hồ lấy mẫu 8 kHz Một thành phần tín hiệu được lấy mẫu là 6 kHz (Hình 2.4b) Hình 2.4(c) mô tả các giá trị mẫu lấy từ tần số 6 kHz Nếu mẫu này được chuyển đổi ngược lại dạng tương tự bằng DAC thì tín hiệu tương tự có hình dạng như trên Hình 2.4(c) với tần số khoảng 2 kHz Do vậy, tín hiệu 2 kHz là alias của tín hiệu 6 kHz Vì 2 kHz còn trong dải nghe thấy, do vậy nó xuất hiện như nhiễu của âm thanh gốc
Alias là vấn đề quan trọng của mọi hệ thống sử dụng cơ chế lấy mẫu khi thành phần tần số của tín hiệu được lấy mẫu lớn hơn ½ tần số lấy mẫu
Xác định tổng số mức lượng tử hóa
Tổng số mức lượng tử hóa được sử dụng để xác định tính chính xác về biên
độ của tín hiệu số so với tín hiệu tương tự gốc Hiệu số lớn nhất giữa các giá trị mẫu
đã lượng tử hóa với các giá trị tín hiệu tương tự tương ứng là bước lượng tử hóa
Trang 26Hiệu số này gọi là lỗi lượng tử hóa hay nhiễu lượng tử hóa Tổng số mức lượng tử hóa càng lớn (bước lượng tử hóa càng nhỏ) thì nhiễu lượng tử hóa càng nhỏ Tổng
số mức lượng tử hóa xác định số lượng bít cần biểu diễn cho mỗi mẫu
Quan hệ của chúng được xác định như sau:
Q
blog2
Trong đó:
b là tổng số bít cần để biểu diễn từng mẫu
Q là tổng số mức lượng tử hóa Thực tế thường phải tìm Q, cho trước tổng số bít biểu diễn từng mẫu
20 10 S N SNR
tử
Âm thanh CD sử dụng 16 bít/mẫu, vậy có SNR=96 dB Tuy giá trị nhỏ hơn ngưỡng từ 100 đến 120 dB, nhưng 16 là số nguyên, máy tính dễ xử lý Do vậy 16 bít được sử dụng thay cho 17 bít
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 27Tóm lại, âm thanh số cần lấy mẫu liên tục bằng tốc độ cố định Mỗi mẫu được biểu diễn bởi tổng số bít cố định Bảng sau chỉ ra tốc độ lấy mẫu và tổng số bít
sử dụng cho mỗi mẫu của một số ứng dụng âm thanh thông dụng
2.1.2 Đặc trưng chính của âm thanh
Như ta đã biết, trích chọn đặc trưng đóng vai trò rất quan trọng trong vấn đề phân lớp âm thanh Chúng cho thấy đặc trưng quan trọng của các loại tín hiệu âm thanh khác nhau Để nâng cao tính chính xác của việc phân lớp âm thanh, ta cần phải lựa chọn các đặc trưng tốt Đa số các phương pháp, giải thuật trích chọn đặc trưng âm thanh hiện nay đều xem các đặc trưng sau đây là hiệu quả để phân lớp và phân đoạn âm thanh
a) Đặc trưng trong miền thời gian (Time-Domain Features)
Biểu diễn trong miền thời gian hay thời gian - biên độ là kỹ thuật trình diễn tín hiệu cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời gian Hình 2.5 là thí dụ tín hiệu âm thanh số trong miền thời gian Im lặng (câm) được biểu diễn bởi giá trị 0 Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn hay thấp hơn áp suất cân bằng khi im lặng Giả sử rằng sử dụng 16 bít để mã hóa mẫu audio, thì ta có giá trị tín hiệu sẽ trong khoảng từ 32767 đến -32767
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 28Từ cách biểu diễn trên đây ta dễ dàng có đƣợc năng lƣợng trung bình, tốc độ vƣợt qua 0 (zero crossing rate) và tỷ lệ câm (silence ratio)
Biên độ thời gian thể hiện một tín hiệu âm thanh Các đặc trƣng trong miền thời gian bao gồm:
Năng lƣợng trung bình (Average Energy)
Năng lƣợng trung bình thể hiện âm lƣợng của tín hiệu âm thanh, và đƣợc xác định bằng công thức sau:
N
n x E
Trang 29ZCR là số lần một tín hiệu thay đổi dấu trong một khung ZCR được dùng để xác định đặc điểm khác nhau của tín hiệu âm thanh ZCR thường được sử dụng trong các giải thuật phân lớp giọng nói và âm nhạc
ZCR cho biết tần số thay đổi của dấu biên độ tín hiệu và được xác định bằng công thức sau:
N
n x n
x ZCR
N n
2
|)1(sgn)(sgn
0 0
0 1 ) (
a a
a a
sng
N: là tổng số mẫu Thông thường, tín hiệu giọng nói bao gồm âm thanh của giọng nói xen với khoảng dừng (đoạn giữa các âm tiết) trong khi âm nhạc không có cấu trúc này Do
đó, sự biến thiên ZCR của tín hiệu giọng nói thường lớn hơn so với tín hiệu âm nhạc, x em hình minh họa dưới đây
Hình 2.6 minh họa ZCR của nhạc và ZCR của giọng nói
ZCR được sử dụng phổ biến trong các giải thuật để phân lớp giọng nói và âm nhạc Một nghiên cứu của LieLu, Hong-Jang Zhang và Hao Jiang [4] mới đây đã
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 30cải tiến nó và đưa ra đặc trưng có tên gọi là HZCRR (High Zero- Crossing Rate Ratio) HZCRR được xác định bằng công thức:
.1)([sgn(
2
1 N n
avZCR n
ZCR N
HZCRR
Trong đó:
n: chỉ số khung ZCR(n): tốc độ vượt 0 của khung thứ n N: tổng số khung
avZCR: trung bình của ZCR trong cửa sổ 1-s sgn(.): dấu tín hiệu tương ứng
Kết quả các thí nghiệm cho thấy rằng đặc trưng HZCRR làm cho các lớp âm thanh được phân tách rõ ràng hơn so với ZCR
Hình dưới đây minh họa xác suất phân bổ các đường cong HZCRR của giọng nói và âm nhạc Có thể thấy rằng trọng tâm HZCRR của giọng nói phân bổ trong khoảng 0,15; trong khi HZCRR của âm nhạc là dưới 0,1
Hình 2.7 minh họa mức biến đổi HZCRR của tín hiệu giọng nói (a) và tín hiệu âm nhạc (b)
Tỷ lệ câm (Silence Ratio- SR)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 31Tỷ lệ câm (SR) cho biết kích thước của đoạn âm thanh câm Khi phát âm thì
ta thấy rằng bao giờ cũng có khoảng dừng giữa các đoạn Năng lượng của các khung chứa khoảng dừng đó thấp hơn các khung không chứa nó
Tỷ lệ câm được tính bằng tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn
âm thanh
Interval Total
contour pitch
smooth with
regions of
Interval
SR
Thông thường, âm nhạc có tỷ lệ câm thấp hơn giọng nói
Hình 2.8 Minh họa đặc trưng tỷ lệ câm
b) Đặc trưng trong miền tần số (Frequency-Domain Features)
Phân bổ tần số được xác định bằng cách tính toán biến đổi Fourier của tín hiệu trong miền thời gian Gồm các đặc trưng sau đây:
Phổ âm thanh (Sound Spectrum)
Biểu diễn miền thời gian không chỉ ra được các thành phần tần số và phân bổ tần số của tín hiệu âm thanh Biểu diễn miền tần số suy diễn từ biểu diễn miền
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 32không gian bằng biến đổi Fourier Biến đổi Fourier đƣợc xem nhƣ tách tín hiệu thành các thành phần tần số Trong miền tấn số, tín hiệu đƣợc biểu diễn bởi biên độ biến đổi theo tần số, chỉ ra tổng năng lƣợng tại các tần số khác nhau Biểu diễn miền tần số của tín hiệu đƣợc gọi là phổ của tín hiệu
Phổ âm thanh biểu diễn miền tần số của âm thanh
Công thức biến đổi Fourier rời rạc DFT (Discrete Fourier Transform):
(
N n
N nk j
e n x k
1)(
N n
N nk j
e k x N k X
Hình 2.9 Minh họa phổ giọng nói và phổ âm nhạc
Băng thông (Bandwidth)
Băng thông là sự chênh lệch giữa các thành phần tần số cao nhất và thấp nhất của một tín hiệu Một sóng đơn hình sin có băng thông là 0 và một nhiễu trắng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 33(white noise) lý tưởng có băng thông vô hạn (ở đây, nhiễu trắng là sự kết hợp tất cả các tần số khác nhau của âm thanh, ví dụ nhiễu trắng sinh ra khi 20000 âm thanh cùng phát ra một lúc, khái niệm này tương tự như khái niệm về ánh sáng trắng, vốn được sinh ra từ sự kết hợp đồng thời tất cả các màu sắc khác nhau)
Công thức tính băng thông xác định như sau:
C C
d F
d F
|)(
|
|)(
|)(
Trong đó, o là tần số của một nửa mẫu và C là độ trong (brightness)
Phân bổ năng lượng (Energy Distribution)
Một đặc trưng quan trọng xuất phát từ đặc trưng phân bổ năng lượng là trọng tâm (centroid) Đó là điểm giữa của phân bổ năng lượng âm thanh Trọng tâm còn được gọi là độ chói (brightness) vàs được xác định như sau:
2
| ) (
| ) (
| )
d S
i C
t i
Điều hòa (Harmonicity)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn
Trang 34Hình 2.10 Minh họa đặc trưng điều hòa
Trong âm thanh điều hòa, hầu hết các thành phần phổ là giá trị tích nx của tần số thấp nhất (còn được gọi là tần số cơ bản- fundamental frequency) và tần số cao nhất Ví dụ: 400Hz, 800Hz ,
Nghiên cứu cho thấy rằng âm nhạc thường có đặc trưng điều hòa hơn so với các âm thanh khác
n e X e P
1
2
| ) (
| )
n e X e P
1
| ) (
| log 2 ) (