Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)

Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)

Trang 1

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Sự phát triển của internet băng thông rộng đang thúc đẩy mạnh mẽ sự phát triển của công nghệ đa truyền thông Multimedia Các nguồn dữ liệu multimedia như âm thanh, hình ảnh, văn bản… có thể được truy cập và được phân phối nhanh hơn và rộng hơn Xu thế này mang lại nhiều lợi ích cho người sở hữu các sản phẩm multimedia, nhưng cũng thách thức quyền sở hữu của chúng ta bởi vì hầu hết các dữ liệu multimedia được phân phối dưới các định dạng không bảo mật Hiện nay, việc sao chép và phân phối lại bất hợp pháp các sản phẩm multimedia đang diễn ra khá phổ biến, do đó các công nghệ bảo vệ bản quyền và xác thực quyền sở hữu trí tuệ đang được quan tâm đặc biệt và cũng là mục tiêu nghiên cứu của nhiều tổ chức khoa học trong thời gian gần đây

Một trong những kỹ thuật tiên tiến cho phép thực hiện nhúng thông tin bản quyền vào các sản phẩm trí tuệ (lưu dưới dạng số) là kỹ thuật watermarking Watermarking (thủy ấn) là quá trình nhúng thông tin watermark (thủy vân) vào luồng dữ liệu đa phương tiện (audio, video ) sao cho watermark không ảnh hưởng tới chất lượng của dữ liệu và khi cần thiết,

có thể nhận biết và tách chúng với độ chính xác cao nhất có thể

Watermark thường được sử dụng với các mục đích sau:

- Xác nhận bản quyền (Copyright protection)

- Kỹ thuật vân tay (Fingerprinting)

- Cấm sao chép (Copy protection)

- Giám sát độ xác thực của dữ liệu (Data authentication)

- Giám sát phát sóng (Broadcast monitoring)

Ngoài ra, watermark còn được sử dụng ngoài mục đích bảo mật:

- Đánh dấu vị trí đoạn video

- Lưu dữ liệu về bệnh nhân trong ảnh y sinh

- Truyền tải các thông tin mật

Trang 2

Mục đích đề tài là tìm hiểu các phương pháp nhúng thủy vân vào tín hiệu âm thanh Qua đó cải tiến và đề xuất phương pháp nhúng có mức độ

“ẩn” cũng như độ “bền vững” cao Kết quả mô phỏng trong đề tài sẽ được sử dụng để đánh giá tính tối ưu của phương pháp dựa trên tính "Ẩn" và "Bền vững" của watermark

2 Tổng quan về vấn đề nghiên cứu

Có nhiều nghiên cứu về các phương pháp nhúng dữ liệu vào tín hiệu âm thanh (Audio Watermarking) Thông tin watermark có thể được nhúng vào miền thời gian [1,2], miền tần số [3,5,6] hoặc miền biến đổi khác [4] Các phương pháp nhúng khác nhau có ưu và nhược điểm riêng, việc so sánh thường được thực hiện dựa trên các thông số khách quan về độ “ẩn”, độ

“bền vững” và mức độ phức tạp của giải thuật Hầu hết các phương pháp nhúng nêu trên đều làm giảm chất lượng âm thanh gốc

Trong luận văn này, để nâng cao tính “ẩn” của phương pháp watermarking, chúng tôi đề xuất nhúng dữ liệu vào các thành phần "hòa âm" (consonance ) trong tín hiệu âm thanh gốc Thông tin Watermark tác động tới các thành phần hòa âm hầu như không ảnh hưởng tới hệ thống thính giác của người nghe [14]

Các thành phần consonances có độ cao cách nhau 1 quãng tám (octave), quãng 4 chuẩn (perfect fourth) hoặc quãng 5 đầy đủ (perfect ﬁfth) Để xác định được thành phần consonances chúng ta phải nhận dạng độ cao của các

âm trong đoạn âm thanh, tức các kỹ thuật phân tích âm nhạc tự động (Automatic Music Transcription - AMT) Các phương pháp thường được sử dụng để tự động chuyển đổi âm thanh thành bản nhạc hay thành âm thanh dạng MIDI Phương pháp xác định độ cao sử dụng DFT, lọc răng lược, lọc notch được mô tả trong [8,9]

Trên hình 1 là sơ đồ khối của hệ thống Watermarking âm thanh sử dụng thông tin từ bộ AMT

Trang 3

Automatic Music Transcription

InverseNotchFilter

Watermarkgenerator

x WatermarkEmbedder

Watermarkingbits

Audio in

Watermarked Audio

Hình 1: Sơ đồ khối hệ thống Watermarking âm thanh sử dụng thông tin từ

4 Đối tượng và phạm vi nghiên cứu

 Nghiên cứu các kỹ thuật watermarking ứng dụng cho âm thanh

số

 Mô phỏng và đánh giá từng giải thuật

5 Phương pháp nghiên cứu

 Tìm hiểu lý thuyết về watermarking, lựa chọn kỹ thuật watermarking cho âm thanh số

 Viết chương trình mô phỏng

 Đề xuất các hướng nghiên cứu tiếp theo

6 Cấu trúc luận văn

Cấu trúc luận văn gồm 4 chương:

Chương 1: Tổng Quan vấn đề nghiên cứu

Chương 2: Phương pháp Watermarking âm thanh dựa trên kỹ thuật tự động phân tích âm nhạc (Automatic Music Transcription)

Chương 3: Kết quả mô phỏng

Chương 4: Kết luận và hướng phát triển

Trang 4

Chương 1 - TỔNG QUAN VỀ WATERMARKING ÂM THANH

1.1 Tổng quan về các phương pháp Watermarking âm thanh

Các kỹ thuật Watermarking âm thanh số chủ yếu khai thác vào khuyết điểm ít nhạy cảm với những thay đổi nhỏ trên miền thời gian và miền tần số của hệ thống thính giác con người (Human Auditory System - HAS) Trong đó, các phương pháp watermarking âm thanh tiêu biểu hiện nay là: phương pháp mã hóa Least Significant Bit (LSB), phương pháp mã hóa pha, trải phổ, hay phương pháp ẩn echo Phương pháp LSB có nhược điểm lớn là

độ “bền vững” rất thấp nên thường không được sử dụng trên thực tế Phương pháp mã hóa pha thì ngược lại, có độ “bền vững” cao trước sự tấn công của nhiễu, nhưng lưu trữ được ít thông tin Đáng chú ý hơn là phương pháp chèn echo có biên độ nhỏ vào miền thời gian, phương pháp này được đánh giá cao

về độ “bền vững” và tỉ lệ nhúng, tuy nhiên chất lượng âm thanh sau khi nhúng không tốt Được đánh giá cao hơn hẳn là các kỹ thuật nhúng trong miền tần

số Ưu điểm của những phương pháp này là không nhúng trực tiếp vào tín hiệu gốc nên thông tin Watermark khó bị phát hiện bằng các phương pháp phân tích thống kê, nghĩa là độ “ẩn” cao Thông thường, watermarking trong miền thời gian làm thay đổi trực tiếp biên độ của tín hiệu thời gian, trong khi

đó, tại miền tần số khi nhúng người ta chỉ làm một vài vạch phổ bị thay đổi nên tín hiệu không bị biến dạng nhiều Do đó, người ta hay sử dụng miền tần

số để khai thác các đặc tính về tần số của tín hiệu để nhúng thông tin ngay cả đối với watermark mật độ cao Tuy nhiên, mỗi miền biến đổi chỉ có thể hoạt động tốt với một số trường hợp nhất định Vì lý do đó, các kỹ thuật chỉ áp dụng trong miền thời gian hoặc miền tần số đều bị ảnh hưởng bởi các nhược điểm đặc thù

Trang 5

Trong luận văn này, tôi nghiên cứu và đề xuất một phương pháp

nhúng dựa trên cảm nhận âm nhạc của hệ thống thính giác Phương pháp này

có thể áp dụng cho tất cả các dạng âm thanh, ngay cả khi tín hiệu âm thanh không được liệt kê vào dạng “âm nhạc” Có một số thách thức đặc biệt khi thực hiện watermarking cho tín hiệu âm nhạc đó là độ ẩn thông tin phải rất cao nhằm giữ được chất lượng âm thanh, đồng thời độ bền vững cũng là yếu

tố rất quan trọng vì tín hiệu âm nhạc thường biến dạng do nén có tổn hao cũng như khi đưa qua các bộ lọc khử nhiễu, bộ equalizer v.v

Điểm chính yếu của phương pháp này là nhúng tín hiệu watermark

vào dải tần số có cùng âm sắc với độ cao nốt nhạc xuất hiện trong âm thanh gốc Trong trường hợp này, theo một số nghiên cứu [13], hệ thống thính giác

sẽ cảm nhận rõ nhất nốt nhạc gốc, thành phần đồng âm (dùng để nhúng) khi biến đổi sẽ bị “che” bởi nốt nhạc gốc ít ảnh hưởng tới chất lượng âm thanh Nói đến âm sắc, phương pháp sẽ áp dụng quy luật hợp âm trong âm nhạc để thực hiện các quy tắc watermarking và sẽ được nói rõ trong phần sau

Về mặt ứng dụng, nhìn chung watermarking audio bao gồm các ứng dụng thực tế sau:

 Bảo vệ quyền sở hữu (copyright protection)

 Kiểm tra tính nguyên bản của sản phẩm

 Theo dõi quá trình sử dụng Tracking

 Việc chống giả mạo

1.2 Các phương pháp Watermarking trong miền thời gian

Phương pháp watermarking trong miền thời gian là phương pháp giấu thông tin bản quyền vào thời gian thực của tín hiệu gốc

Trang 6

Dưới đây là một số phương pháp watermarking tiêu biểu trong miền thời gian:

 Phương pháp giấu thông tin trong bit có trọng số thấp LSB

 Thêm tiếng ồn (noise)

 Thêm tiếng vọng (echo)

 Modifying phase

 Điều chế biên độ

1.3 Các phương pháp Watermarking trong miền biến đổi

Phương pháp watermarking trong miền biến đổi chủ yếu bao gồm: miền biến đổi Fourier FFT (Fast Fourier Transform), miền chuyển đổi sang Cosine DCT (Discrete Cosine) hay miền wavelet DWT (Discrete Wavelet Transform), v.v …

Các thông tin watermarking được nhúng vào hệ số khai triển của các miền chuyển đổi Điều đó đảm bảo hơn về mặt an toàn thông tin của watermarking trước các kỹ thuật xử lý tín hiệu âm thanh (nén, lọc, lấy mẫu, lọc dải tần …)

Trong miền phổ tần số, người ta nhúng tín hiệu chứa thông tin watermark vào các vùng tần số khác nhau Việc lựa chọn vùng tần số nhúng tối ưu sẽ làm tăng độ bền vững cũng như cải thiện độ ẩn thông tin của phương pháp watermarking này

 Một số phương pháp watermarking trong miền tần số:

 Thêm tần số sóng mang

 Thêm tiếng ồn (noise) trong miền biến đổi

 Lọc bỏ bớt các dải tần số phụ

 Hoặc kết hợp giữa lọc dải tần và thêm tiếng ồn

 Thêm các tín hiệu tiếng ồn vào các hệ số mã hóa

Trang 7

Một kỹ thuật khá đặc biệt là mã hóa và giải mã thông tin trên miền nén Hiện nay, sự phổ biến của các dạng tín hiệu âm thanh nén được sử dụng rộng rãi trên khắp thế giới, đặc biệt là thị trường inthernet Bởi vậy, kỹ thuật nhúng thông tin trên miền nén có tính thực tế cao Mã hóa bằng cách tín hiệu được đưa về dạng nén sau khi được lọc dải tần … Hình ảnh tín hiệu được chụp lại và việc mã hóa bắt đầu từ đây Thông thường các hệ số âm thanh có tần số cao sẽ được chọn làm vị trí mã hóa bởi vì tránh các trường hợp lowpass trong miền nén

Tiếp theo, phương pháp watermarking trên miền chuyển đổi cosine rời rạc (DCT) cũng rất được quan tâm trong lĩnh vực nhúng thông tin ẩn vào tín hiệu âm thanh và âm thanh phụ Đầu tiên, âm thanh gốc được chuyển đổi thành miền DCT, các hệ số DCT được xác định và các đỉnh năng lượng cũng được tính toán Tiếp theo, watermark được nhúng vào các vị trí có đỉnh năng lượng đạt mức lớn nhất của tín hiệu trong miền DCT Điểm đáng chú ý của phương pháp này, các tín hiệu nhúng vào miền cosine ít gây ảnh hưởng đến tín hiệu gốc về mặt âm thanh Hơn nữa, nó không bị ảnh hưởng bởi các kỹ thuật thêm tiếng ồn, lấy mẫu lại hay mã hóa lại

Trang 8

Chương 2 - PHƯƠNG PHÁP WATERMARKING ÂM THANH DỰA TRÊN KỸ THUẬT TỰ ĐỘNG PHÂN TÍCH ÂM NHẠC

2.1 Kỹ thuật watermarking âm thanh

2.2 Kỹ thuật watermarking âm nhạc

Âm nhạc là tinh hoa của âm thanh Vậy watermarking âm nhạc

là một dạng của watermarking âm thanh Nhưng điều đặc biệt, watermarking

âm nhạc là dạng nâng cao của watermarking âm thanh và các quá trình nhúng hay giải nhúng watermark đều khác với các dạng âm thanh số khác

Điểm chú ý hơn, đối với âm thanh, hai dạng tiêu chí để đánh giá

watermarking là độ “ẩn” và độ “bền vững” thì với âm nhạc, tiêu chí đánh giá watermarking là độ “ bền vững”, độ “ẩn” và độ “thẩm mỹ của ẩn”

Đối với âm nhạc, ta cũng có thể nói hai tiêu chí chính để đánh giá

giá trị watermarking của các kỹ thuật đó là độ “ẩn” và độ “bền vững” nhưng

độ “ẩn” này không đơn thuần chỉ là độ “ẩn” trong kỹ thuật watermarking của

âm thanh số nói chung, mà nó còn là độ “hòa âm”,và độ “hòa hợp” để đạt

được tính thẩm mỹ đối với cảm nhận người nghe Đó cũng chính là điểm mấu chốt của giải thuật watermarking âm nhạc

Về cơ bản, âm nhạc là sự hòa âm của nhiều loại âm thanh Sự hòa

âm này được tuân theo “quy luật âm nhạc” Quy luật này không phải gọi là

nhạc lý, mà nhạc lý chỉ mô tả một phần của quy luật này Nếu một tín hiệu bất kỳ được cho vào bài hát mà không tuân thủ theo quy luật của bài hát đó

sẽ tạo ra sự bất hòa âm hay sự trái ngược tức thời về mặt cảm nhận, âm nhạc

gọi đó là “tiếng ồn” hay “tạp âm” Ở đây, chúng tôi khái niệm quy luật của

bài hát là gam của bài hát đó, tất nhiên một gam gồm nhiều hợp âm trong nó

Trang 9

Watermarking âm nhạc là nhúng tín hiệu âm thanh vào bài hát mà vẫn giữ nguyên cảm nhận của người nghe về chất lượng bài hát đó Nên độ

“ẩn” của watermarking âm nhạc bao gồm cả độ “hòa âm” và độ “thẩm mỹ hòa âm” trong đó Bởi chỉ cần một âm thanh trái ngược với quy luật hòa âm

của bài hát được nhúng vào bài hát, cho dù biên độ cực nhỏ cũng gây ra sự phát hiện rõ ràng cho tai người nghe

Vậy watermarking âm nhạc là watermarking âm thanh được nâng

cao thêm phần thẩm mỹ hòa âm cho độ “ẩn”

Người kỹ thuật viên thực hiện watermarking âm nhạc giống như một nhạc sĩ thực hiện hòa âm thêm một loại nhạc cụ mới cho bài hát, và nhạc cụ

mới đó chính là tín hiệu watermarking

Và ở đây, đồ án nhận định rõ rằng tính chuyên nghiệp của watermarking âm nhạc phụ thuộc vào tính hợp lý của vị trí nhúng trong cả

mặt thời gian lẫn tần số đối với tín hiệu âm nhạc

Những quy tắc nhúng thỏa quy tắc hòa âm của các nhạc công cũng

như nhạc sỹ sẽ giúp các tín hiệu watermark sau khi được nhúng vào đoạn nhạc sẽ mang tính “ẩn” cao hơn trường hợp nhúng tuần tự thường dùng trong các phương pháp cổ điển

Các vị trí nhúng được ưu tiên là quãng 8 trên của nốt nhạc trong tín hiệu gốc (tần số gấp đôi độ cao nốt nhạc), quãng 8 dưới (tần số chỉ bằng một nửa độ cao nốt nhạc) Ngoài ra còn có các quãng ưu tiên như quãng 4 chuẩn hay quãng 5 chuẩn như đã giới thiệu ở phần đầu luận án [13]

Trang 10

2.3 Các bước thực hiện watermarking âm thanh

 Bước 1: Chuyển tín hiệu trong miền thời gian thực sang miền

tần số với biến đổi Fourier rời rạc; sau đó đưa tín hiệu vừa thu được trong miền tần số kết hợp với tín hiệu trong miền thời gian ban đầu để thể hiện vào biểu đồ Spectrogram – biểu đồ thời gian tần số

 Bước 2: Chia biểu đồ spectrogram thành từng khung âm thanh

(Frame) đều nhau, mỗi khung âm thanh được coi là một đơn vị của biểu đồ Spectrogram trong suốt quá trình nhúng watermarking, thông thường mỗi khung âm thanh sẽ đảm nhận thể hiện cho một giá trị ẩn sau khi được watermarking

 Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để tìm

ra đỉnh cao nhất trong mỗi khung âm thanh, cũng là đỉnh thể hiện mức năng lượng cao nhất trong mỗi đơn vị biểu đồ Spectrogram Đỉnh này cũng được coi là đỉnh đặc trưng cho mỗi đơn vị nhúng watermark vì vị trí nhúng watermarking gốc được định vị tại đỉnh có mức năng lương cao nhất trong mỗi đơn vị

2.4 Cách thực hiện watermarking âm nhạc

Trong phần này, các bước thực hiện watermarking âm nhạc giống như 3 bước đầu của watermarking âm thanh, chỉ thêm một vài giai đoạn

ở các bước còn lại

 Bước 1: Chuyển tín hiệu trong miền thời gian thực sang

miền biểu đồ Spectrogram – biểu đồ thời gian tần số

 Bước 2: Chia biểu đồ Spectrogram thành từng khung âm

thanh (Frame) đều nhau

Trang 11

 Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để

tìm ra đỉnh cao nhất trong mỗi khung âm thanh

 Bước 4: Đưa tấm lược tần số khớp với các đỉnh cao nhất

trong biểu đồ spectrogram vừa tìm thấy để lọc lấy các tần số cơ bản và các

âm điệu chính của bài

 Bước 5: Nhận diện nốt nhạc dựa trên giá trị tần số cơ bản

nhận được từ bước 4

 Bước 6: Nhúng các bit “0” “1” theo quy ước Trong miền

thời gian, nhúng vào tất cả các frames trong khoảng thời gian tồn tại nốt nhạc

đã được nhận dạng Trong miền tần số, nhúng vào vị trí các quãng hòa âm ưu tiên (quãng 8, quãng 5 hoặc quãng 4) của nốt nhạc nói trên

2.5 Phương pháp watermarking dựa trên nguyên lý đồng âm

Hình 2.18: Tín hiệu được chia thành các phân đoạn nhỏ theo miền thời

gian

Đầu tiên, tín hiệu âm thanh được chia thành những đoạn nhỏ đều nhau có chiều dài N mẫu như hình 2.18 Trong mỗi chuỗi N mẫu, chúng ta

sử dụng chuỗi K mẫu để nhúng thông tin watermark, K bé hơn hoặc bằng N

Và chúng được định nghĩa như sau:

 Chuỗi K mẫu: là chuỗi x i (n’) (n’ = 0,1,…, K -1 )

 N – K: được định nghĩa là chuỗi y i (n”) (n” = 1, , N-K )

Khi nhúng tín hiệu watermarking, chúng tôi chỉ tác động vào các

mẫu K hay chuỗi x (n’) bị thay đổi giá trị, và các chuỗi y (n”) được giữ

Định dạng
Số trang	23
Dung lượng	0,95 MB