Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)Nghiên Cứu Phương Pháp Watermarking Âm Thanh Ứng Dụng Kỹ Thuật Phân Tích Âm Nhạc (Music Transciption) (tt)
Trang 1MỞ ĐẦU
1 Tính cấp thiết của đề tài
Sự phát triển của internet băng thông rộng đang thúc đẩy mạnh mẽ sự phát triển của công nghệ đa truyền thông Multimedia Các nguồn dữ liệu multimedia như âm thanh, hình ảnh, văn bản… có thể được truy cập và được phân phối nhanh hơn và rộng hơn Xu thế này mang lại nhiều lợi ích cho người sở hữu các sản phẩm multimedia, nhưng cũng thách thức quyền sở hữu của chúng ta bởi vì hầu hết các dữ liệu multimedia được phân phối dưới các định dạng không bảo mật Hiện nay, việc sao chép và phân phối lại bất hợp pháp các sản phẩm multimedia đang diễn ra khá phổ biến, do đó các công nghệ bảo vệ bản quyền và xác thực quyền sở hữu trí tuệ đang được quan tâm đặc biệt và cũng là mục tiêu nghiên cứu của nhiều tổ chức khoa học trong thời gian gần đây
Một trong những kỹ thuật tiên tiến cho phép thực hiện nhúng thông tin bản quyền vào các sản phẩm trí tuệ (lưu dưới dạng số) là kỹ thuật watermarking Watermarking (thủy ấn) là quá trình nhúng thông tin watermark (thủy vân) vào luồng dữ liệu đa phương tiện (audio, video ) sao cho watermark không ảnh hưởng tới chất lượng của dữ liệu và khi cần thiết,
có thể nhận biết và tách chúng với độ chính xác cao nhất có thể
Watermark thường được sử dụng với các mục đích sau:
- Xác nhận bản quyền (Copyright protection)
- Kỹ thuật vân tay (Fingerprinting)
- Cấm sao chép (Copy protection)
- Giám sát độ xác thực của dữ liệu (Data authentication)
- Giám sát phát sóng (Broadcast monitoring)
Ngoài ra, watermark còn được sử dụng ngoài mục đích bảo mật:
- Đánh dấu vị trí đoạn video
- Lưu dữ liệu về bệnh nhân trong ảnh y sinh
- Truyền tải các thông tin mật
Trang 2Mục đích đề tài là tìm hiểu các phương pháp nhúng thủy vân vào tín hiệu âm thanh Qua đó cải tiến và đề xuất phương pháp nhúng có mức độ
“ẩn” cũng như độ “bền vững” cao Kết quả mô phỏng trong đề tài sẽ được sử dụng để đánh giá tính tối ưu của phương pháp dựa trên tính "Ẩn" và "Bền vững" của watermark
2 Tổng quan về vấn đề nghiên cứu
Có nhiều nghiên cứu về các phương pháp nhúng dữ liệu vào tín hiệu âm thanh (Audio Watermarking) Thông tin watermark có thể được nhúng vào miền thời gian [1,2], miền tần số [3,5,6] hoặc miền biến đổi khác [4] Các phương pháp nhúng khác nhau có ưu và nhược điểm riêng, việc so sánh thường được thực hiện dựa trên các thông số khách quan về độ “ẩn”, độ
“bền vững” và mức độ phức tạp của giải thuật Hầu hết các phương pháp nhúng nêu trên đều làm giảm chất lượng âm thanh gốc
Trong luận văn này, để nâng cao tính “ẩn” của phương pháp watermarking, chúng tôi đề xuất nhúng dữ liệu vào các thành phần "hòa âm" (consonance ) trong tín hiệu âm thanh gốc Thông tin Watermark tác động tới các thành phần hòa âm hầu như không ảnh hưởng tới hệ thống thính giác của người nghe [14]
Các thành phần consonances có độ cao cách nhau 1 quãng tám (octave), quãng 4 chuẩn (perfect fourth) hoặc quãng 5 đầy đủ (perfect fifth) Để xác định được thành phần consonances chúng ta phải nhận dạng độ cao của các
âm trong đoạn âm thanh, tức các kỹ thuật phân tích âm nhạc tự động (Automatic Music Transcription - AMT) Các phương pháp thường được sử dụng để tự động chuyển đổi âm thanh thành bản nhạc hay thành âm thanh dạng MIDI Phương pháp xác định độ cao sử dụng DFT, lọc răng lược, lọc notch được mô tả trong [8,9]
Trên hình 1 là sơ đồ khối của hệ thống Watermarking âm thanh sử dụng thông tin từ bộ AMT
Trang 3Automatic Music Transcription
InverseNotchFilter
Watermarkgenerator
x WatermarkEmbedder
Watermarkingbits
Audio in
Watermarked Audio
Hình 1: Sơ đồ khối hệ thống Watermarking âm thanh sử dụng thông tin từ
4 Đối tượng và phạm vi nghiên cứu
Nghiên cứu các kỹ thuật watermarking ứng dụng cho âm thanh
số
Mô phỏng và đánh giá từng giải thuật
5 Phương pháp nghiên cứu
Tìm hiểu lý thuyết về watermarking, lựa chọn kỹ thuật watermarking cho âm thanh số
Viết chương trình mô phỏng
Đề xuất các hướng nghiên cứu tiếp theo
6 Cấu trúc luận văn
Cấu trúc luận văn gồm 4 chương:
Chương 1: Tổng Quan vấn đề nghiên cứu
Chương 2: Phương pháp Watermarking âm thanh dựa trên kỹ thuật tự động phân tích âm nhạc (Automatic Music Transcription)
Chương 3: Kết quả mô phỏng
Chương 4: Kết luận và hướng phát triển
Trang 4Chương 1 - TỔNG QUAN VỀ WATERMARKING ÂM THANH
1.1 Tổng quan về các phương pháp Watermarking âm thanh
Các kỹ thuật Watermarking âm thanh số chủ yếu khai thác vào khuyết điểm ít nhạy cảm với những thay đổi nhỏ trên miền thời gian và miền tần số của hệ thống thính giác con người (Human Auditory System - HAS) Trong đó, các phương pháp watermarking âm thanh tiêu biểu hiện nay là: phương pháp mã hóa Least Significant Bit (LSB), phương pháp mã hóa pha, trải phổ, hay phương pháp ẩn echo Phương pháp LSB có nhược điểm lớn là
độ “bền vững” rất thấp nên thường không được sử dụng trên thực tế Phương pháp mã hóa pha thì ngược lại, có độ “bền vững” cao trước sự tấn công của nhiễu, nhưng lưu trữ được ít thông tin Đáng chú ý hơn là phương pháp chèn echo có biên độ nhỏ vào miền thời gian, phương pháp này được đánh giá cao
về độ “bền vững” và tỉ lệ nhúng, tuy nhiên chất lượng âm thanh sau khi nhúng không tốt Được đánh giá cao hơn hẳn là các kỹ thuật nhúng trong miền tần
số Ưu điểm của những phương pháp này là không nhúng trực tiếp vào tín hiệu gốc nên thông tin Watermark khó bị phát hiện bằng các phương pháp phân tích thống kê, nghĩa là độ “ẩn” cao Thông thường, watermarking trong miền thời gian làm thay đổi trực tiếp biên độ của tín hiệu thời gian, trong khi
đó, tại miền tần số khi nhúng người ta chỉ làm một vài vạch phổ bị thay đổi nên tín hiệu không bị biến dạng nhiều Do đó, người ta hay sử dụng miền tần
số để khai thác các đặc tính về tần số của tín hiệu để nhúng thông tin ngay cả đối với watermark mật độ cao Tuy nhiên, mỗi miền biến đổi chỉ có thể hoạt động tốt với một số trường hợp nhất định Vì lý do đó, các kỹ thuật chỉ áp dụng trong miền thời gian hoặc miền tần số đều bị ảnh hưởng bởi các nhược điểm đặc thù
Trang 5Trong luận văn này, tôi nghiên cứu và đề xuất một phương pháp
nhúng dựa trên cảm nhận âm nhạc của hệ thống thính giác Phương pháp này
có thể áp dụng cho tất cả các dạng âm thanh, ngay cả khi tín hiệu âm thanh không được liệt kê vào dạng “âm nhạc” Có một số thách thức đặc biệt khi thực hiện watermarking cho tín hiệu âm nhạc đó là độ ẩn thông tin phải rất cao nhằm giữ được chất lượng âm thanh, đồng thời độ bền vững cũng là yếu
tố rất quan trọng vì tín hiệu âm nhạc thường biến dạng do nén có tổn hao cũng như khi đưa qua các bộ lọc khử nhiễu, bộ equalizer v.v
Điểm chính yếu của phương pháp này là nhúng tín hiệu watermark
vào dải tần số có cùng âm sắc với độ cao nốt nhạc xuất hiện trong âm thanh gốc Trong trường hợp này, theo một số nghiên cứu [13], hệ thống thính giác
sẽ cảm nhận rõ nhất nốt nhạc gốc, thành phần đồng âm (dùng để nhúng) khi biến đổi sẽ bị “che” bởi nốt nhạc gốc ít ảnh hưởng tới chất lượng âm thanh Nói đến âm sắc, phương pháp sẽ áp dụng quy luật hợp âm trong âm nhạc để thực hiện các quy tắc watermarking và sẽ được nói rõ trong phần sau
Về mặt ứng dụng, nhìn chung watermarking audio bao gồm các ứng dụng thực tế sau:
Bảo vệ quyền sở hữu (copyright protection)
Kiểm tra tính nguyên bản của sản phẩm
Theo dõi quá trình sử dụng Tracking
Việc chống giả mạo
1.2 Các phương pháp Watermarking trong miền thời gian
Phương pháp watermarking trong miền thời gian là phương pháp giấu thông tin bản quyền vào thời gian thực của tín hiệu gốc
Trang 6Dưới đây là một số phương pháp watermarking tiêu biểu trong miền thời gian:
Phương pháp giấu thông tin trong bit có trọng số thấp LSB
Thêm tiếng ồn (noise)
Thêm tiếng vọng (echo)
Modifying phase
Điều chế biên độ
1.3 Các phương pháp Watermarking trong miền biến đổi
Phương pháp watermarking trong miền biến đổi chủ yếu bao gồm: miền biến đổi Fourier FFT (Fast Fourier Transform), miền chuyển đổi sang Cosine DCT (Discrete Cosine) hay miền wavelet DWT (Discrete Wavelet Transform), v.v …
Các thông tin watermarking được nhúng vào hệ số khai triển của các miền chuyển đổi Điều đó đảm bảo hơn về mặt an toàn thông tin của watermarking trước các kỹ thuật xử lý tín hiệu âm thanh (nén, lọc, lấy mẫu, lọc dải tần …)
Trong miền phổ tần số, người ta nhúng tín hiệu chứa thông tin watermark vào các vùng tần số khác nhau Việc lựa chọn vùng tần số nhúng tối ưu sẽ làm tăng độ bền vững cũng như cải thiện độ ẩn thông tin của phương pháp watermarking này
Một số phương pháp watermarking trong miền tần số:
Thêm tần số sóng mang
Thêm tiếng ồn (noise) trong miền biến đổi
Lọc bỏ bớt các dải tần số phụ
Hoặc kết hợp giữa lọc dải tần và thêm tiếng ồn
Thêm các tín hiệu tiếng ồn vào các hệ số mã hóa
Trang 7Một kỹ thuật khá đặc biệt là mã hóa và giải mã thông tin trên miền nén Hiện nay, sự phổ biến của các dạng tín hiệu âm thanh nén được sử dụng rộng rãi trên khắp thế giới, đặc biệt là thị trường inthernet Bởi vậy, kỹ thuật nhúng thông tin trên miền nén có tính thực tế cao Mã hóa bằng cách tín hiệu được đưa về dạng nén sau khi được lọc dải tần … Hình ảnh tín hiệu được chụp lại và việc mã hóa bắt đầu từ đây Thông thường các hệ số âm thanh có tần số cao sẽ được chọn làm vị trí mã hóa bởi vì tránh các trường hợp lowpass trong miền nén
Tiếp theo, phương pháp watermarking trên miền chuyển đổi cosine rời rạc (DCT) cũng rất được quan tâm trong lĩnh vực nhúng thông tin ẩn vào tín hiệu âm thanh và âm thanh phụ Đầu tiên, âm thanh gốc được chuyển đổi thành miền DCT, các hệ số DCT được xác định và các đỉnh năng lượng cũng được tính toán Tiếp theo, watermark được nhúng vào các vị trí có đỉnh năng lượng đạt mức lớn nhất của tín hiệu trong miền DCT Điểm đáng chú ý của phương pháp này, các tín hiệu nhúng vào miền cosine ít gây ảnh hưởng đến tín hiệu gốc về mặt âm thanh Hơn nữa, nó không bị ảnh hưởng bởi các kỹ thuật thêm tiếng ồn, lấy mẫu lại hay mã hóa lại
Trang 8Chương 2 - PHƯƠNG PHÁP WATERMARKING ÂM THANH DỰA TRÊN KỸ THUẬT TỰ ĐỘNG PHÂN TÍCH ÂM NHẠC
2.1 Kỹ thuật watermarking âm thanh
2.2 Kỹ thuật watermarking âm nhạc
Âm nhạc là tinh hoa của âm thanh Vậy watermarking âm nhạc
là một dạng của watermarking âm thanh Nhưng điều đặc biệt, watermarking
âm nhạc là dạng nâng cao của watermarking âm thanh và các quá trình nhúng hay giải nhúng watermark đều khác với các dạng âm thanh số khác
Điểm chú ý hơn, đối với âm thanh, hai dạng tiêu chí để đánh giá
watermarking là độ “ẩn” và độ “bền vững” thì với âm nhạc, tiêu chí đánh giá watermarking là độ “ bền vững”, độ “ẩn” và độ “thẩm mỹ của ẩn”
Đối với âm nhạc, ta cũng có thể nói hai tiêu chí chính để đánh giá
giá trị watermarking của các kỹ thuật đó là độ “ẩn” và độ “bền vững” nhưng
độ “ẩn” này không đơn thuần chỉ là độ “ẩn” trong kỹ thuật watermarking của
âm thanh số nói chung, mà nó còn là độ “hòa âm”,và độ “hòa hợp” để đạt
được tính thẩm mỹ đối với cảm nhận người nghe Đó cũng chính là điểm mấu chốt của giải thuật watermarking âm nhạc
Về cơ bản, âm nhạc là sự hòa âm của nhiều loại âm thanh Sự hòa
âm này được tuân theo “quy luật âm nhạc” Quy luật này không phải gọi là
nhạc lý, mà nhạc lý chỉ mô tả một phần của quy luật này Nếu một tín hiệu bất kỳ được cho vào bài hát mà không tuân thủ theo quy luật của bài hát đó
sẽ tạo ra sự bất hòa âm hay sự trái ngược tức thời về mặt cảm nhận, âm nhạc
gọi đó là “tiếng ồn” hay “tạp âm” Ở đây, chúng tôi khái niệm quy luật của
bài hát là gam của bài hát đó, tất nhiên một gam gồm nhiều hợp âm trong nó
Trang 9Watermarking âm nhạc là nhúng tín hiệu âm thanh vào bài hát mà vẫn giữ nguyên cảm nhận của người nghe về chất lượng bài hát đó Nên độ
“ẩn” của watermarking âm nhạc bao gồm cả độ “hòa âm” và độ “thẩm mỹ hòa âm” trong đó Bởi chỉ cần một âm thanh trái ngược với quy luật hòa âm
của bài hát được nhúng vào bài hát, cho dù biên độ cực nhỏ cũng gây ra sự phát hiện rõ ràng cho tai người nghe
Vậy watermarking âm nhạc là watermarking âm thanh được nâng
cao thêm phần thẩm mỹ hòa âm cho độ “ẩn”
Người kỹ thuật viên thực hiện watermarking âm nhạc giống như một nhạc sĩ thực hiện hòa âm thêm một loại nhạc cụ mới cho bài hát, và nhạc cụ
mới đó chính là tín hiệu watermarking
Và ở đây, đồ án nhận định rõ rằng tính chuyên nghiệp của watermarking âm nhạc phụ thuộc vào tính hợp lý của vị trí nhúng trong cả
mặt thời gian lẫn tần số đối với tín hiệu âm nhạc
Những quy tắc nhúng thỏa quy tắc hòa âm của các nhạc công cũng
như nhạc sỹ sẽ giúp các tín hiệu watermark sau khi được nhúng vào đoạn nhạc sẽ mang tính “ẩn” cao hơn trường hợp nhúng tuần tự thường dùng trong các phương pháp cổ điển
Các vị trí nhúng được ưu tiên là quãng 8 trên của nốt nhạc trong tín hiệu gốc (tần số gấp đôi độ cao nốt nhạc), quãng 8 dưới (tần số chỉ bằng một nửa độ cao nốt nhạc) Ngoài ra còn có các quãng ưu tiên như quãng 4 chuẩn hay quãng 5 chuẩn như đã giới thiệu ở phần đầu luận án [13]
Trang 102.3 Các bước thực hiện watermarking âm thanh
Bước 1: Chuyển tín hiệu trong miền thời gian thực sang miền
tần số với biến đổi Fourier rời rạc; sau đó đưa tín hiệu vừa thu được trong miền tần số kết hợp với tín hiệu trong miền thời gian ban đầu để thể hiện vào biểu đồ Spectrogram – biểu đồ thời gian tần số
Bước 2: Chia biểu đồ spectrogram thành từng khung âm thanh
(Frame) đều nhau, mỗi khung âm thanh được coi là một đơn vị của biểu đồ Spectrogram trong suốt quá trình nhúng watermarking, thông thường mỗi khung âm thanh sẽ đảm nhận thể hiện cho một giá trị ẩn sau khi được watermarking
Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để tìm
ra đỉnh cao nhất trong mỗi khung âm thanh, cũng là đỉnh thể hiện mức năng lượng cao nhất trong mỗi đơn vị biểu đồ Spectrogram Đỉnh này cũng được coi là đỉnh đặc trưng cho mỗi đơn vị nhúng watermark vì vị trí nhúng watermarking gốc được định vị tại đỉnh có mức năng lương cao nhất trong mỗi đơn vị
2.4 Cách thực hiện watermarking âm nhạc
Trong phần này, các bước thực hiện watermarking âm nhạc giống như 3 bước đầu của watermarking âm thanh, chỉ thêm một vài giai đoạn
ở các bước còn lại
Bước 1: Chuyển tín hiệu trong miền thời gian thực sang
miền biểu đồ Spectrogram – biểu đồ thời gian tần số
Bước 2: Chia biểu đồ Spectrogram thành từng khung âm
thanh (Frame) đều nhau
Trang 11 Bước 3: Nhận diện các đỉnh trong biểu đồ spectrogram để
tìm ra đỉnh cao nhất trong mỗi khung âm thanh
Bước 4: Đưa tấm lược tần số khớp với các đỉnh cao nhất
trong biểu đồ spectrogram vừa tìm thấy để lọc lấy các tần số cơ bản và các
âm điệu chính của bài
Bước 5: Nhận diện nốt nhạc dựa trên giá trị tần số cơ bản
nhận được từ bước 4
Bước 6: Nhúng các bit “0” “1” theo quy ước Trong miền
thời gian, nhúng vào tất cả các frames trong khoảng thời gian tồn tại nốt nhạc
đã được nhận dạng Trong miền tần số, nhúng vào vị trí các quãng hòa âm ưu tiên (quãng 8, quãng 5 hoặc quãng 4) của nốt nhạc nói trên
2.5 Phương pháp watermarking dựa trên nguyên lý đồng âm
Hình 2.18: Tín hiệu được chia thành các phân đoạn nhỏ theo miền thời
gian
Đầu tiên, tín hiệu âm thanh được chia thành những đoạn nhỏ đều nhau có chiều dài N mẫu như hình 2.18 Trong mỗi chuỗi N mẫu, chúng ta
sử dụng chuỗi K mẫu để nhúng thông tin watermark, K bé hơn hoặc bằng N
Và chúng được định nghĩa như sau:
Chuỗi K mẫu: là chuỗi x i (n’) (n’ = 0,1,…, K -1 )
N – K: được định nghĩa là chuỗi y i (n”) (n” = 1, , N-K )
Khi nhúng tín hiệu watermarking, chúng tôi chỉ tác động vào các
mẫu K hay chuỗi x (n’) bị thay đổi giá trị, và các chuỗi y (n”) được giữ