Nội dung đồ án chia thành 3 ch-ơng: • Ch-ơng 1: Tổng quan về lĩnh vực giấu tin - Ch-ơng này trình bày các vấn đề cơ bản của một mô hình giấu tin trong dữ liệu đa ph-ơng tiện; phân tích
Trang 1Học viện kỹ thuật quân sự
LÊ THANH BằNG Khoá 36
Hệ đào tạo dài hạn
đồ án tốt nghiệp đại học
chuyên ngành điện tử- viễn thông
Nghiên cứu ph-ơng pháp che giấu thông tin
trong tín hiệu âm thanh
Năm 2006
Trang 2Học viện kỹ thuật quân sự
Lê thanh bằng Khoá 36
Hệ đào tạo dài hạn
đồ án tốt nghiệp đại học
ngành điện- điện tử mã số: 20.00
nghiên cứu ph-ơng pháp che giấu thông tin
trong tín hiệu âm thanh
Cán bộ h-ớng dẫn khoa học:
th-ợng tá, ts Nguyễn thế hiếu
th-ợng tá, Th.s mai quốc khánh
Năm 2006
Trang 3Bộ quốc phòng cộng hoà xã hội chủ nghĩa việt nam
Nhiệm vụ đồ án tốt nghiệp
Họ và tên: LÊ THANH BằNG Lớp: Thông tin2 Khoá 36 Ngành: Điện- Điện tử Chuyên ngành: Viễn thông
1 Tên đồ án:
Nghiên cứu ph-ơng pháp che giấu thông tin trong tín hiệu âm thanh
2 Các số liệu ban đầu:
3 Nội dung bản thuyết minh:
Ch-ơng 1: Tổng quan về giấu tin
Ch-ơng 2: Các ph-ơng pháp giấu tin trong tín hiệu âm thanh
Ch-ơng 3: Thiết kế mô hình giấu tin bằng kỹ thuật trải phổ kết
hợp với mô hình giả lập thính giác
4 Số l-ợng, nội dung các bản vẽ và các sản phẩm cụ thể (nếu có)
Số l-ợng:…… bản vẽ A0
Nội dung:
Trang 4………
………
………
………
5 Cán bộ h-ớng dẫn: 1/ Th-ợng tá, TS Nguyễn Thế Hiếu, Viện tr-ởng Viện điện tử viễn thông - Trung tâm Khoa học kỹ thuật và công nghệ quân sự (h-ớng dẫn ch-ơng 1 và ch-ơng 3) 2/ Th-ợng tá, Th.S Mai Quốc Khánh, Phó chủ nhiệm Bộ môn Lý thuyết mạch - Đo l-ờng, Khoa Vô tuyến điện tử, Học viện Kỹ thuật quân sự (h-ớng dẫn ch-ơng 2) Ngày giao: 14/ 03/ 2006 Ngày hoàn thành: 19/ 06/ 2006
Hà nội, ngày….tháng….năm 2006 Chủ nhiệm bộ môn Cán bộ h-ớng dẫn
Th.S Mai Quốc Khánh
Đã hoàn thành và nộp đồ án ngày 19 tháng 06 năm 2006
Học viên thực hiện
Lê Thanh Bằng
Trang 5Bảng ký hiệu, các từ viết tắt
Từ viết
tắt Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt A/D Analog to Digital Biến đổi t-ơng tự sang dạng số AAC Advanced Audio Coding Mã hóa âm thanh cải tiến AWGN Additive White Gaussian Noise Tạp âm Gauss trắng cộng tính BEP Bit Error Probability Xác xuất lỗi bit
BER Bit Error Ratio Tỉ lệ lỗi bit
BPSK Binary Phase Shift Keying Khoá dịch pha nhị phân
D/A Digital to Analog Biến đổi số sang t-ơng tự DCT Discrete Cosin Transform Biến đổi Cosin rời rạc
DFT Discrete Fourier Transform Biến đổi Fourier rời rạc
DS Discrete Sequence Chuỗi trực tiếp
DSSS Discrete Sequence Spread
DSP Digital Signal Processing Xử lý tín hiệu số
DWT Discrete Wavelet Transform Biến đổi Wavelet rời rạc
FEC Forward Error Correction Sửa lỗi tr-ớc
FFT Fast Fourier Transform Biến đổi Fourier nhanh
HAS Human Auditory System Hệ thống thính giác con ng-ời HVS Human Visual System Hệ thống thị giác con ng-ời
IID Independent Identically
Distributed Phân bố độc lập nh- nhau
ITU-R International
Telecommunication Union Liên minh viễn thông quốc tế ISS Improved Spread Spectrum Trải phổ cải tiến
Trang 6JND Just Noticeable Distortion Méo còn cảm nhận đ-ợc
LSB Least Significant Bit Bit ít quan trọng nhất
LBM Least Bit Modulation Điều chế bit thấp tổng quát MER Minimum Error Replacement Thay thế lỗi tối thiểu
MPEG Moving Picture Experts Group Nhóm biểu diễn ảnh động Mp3 MPEG 1 Compression, Leyer 3 Nén chuẩn MPEG 1, lớp 3 MSE Mean-Squared Error Lỗi bình ph-ơng trung bình NMR Noise to Mask Ratio (dB) Tỉ lệ tạp âm – ng-ỡng che PDA Personal Digital Assistant Thiết bị trợ giúp cá nhân số PDF Probability Density Function Hàm mật độ xác suất
PDS Power Density Spectrum Phổ mật độ công suất
PRN Pseudo Random Noise Giả tạp âm ngẫu nhiên
QIM Quantization Index Modulation Điều chế l-ợng tử hoá chỉ mục SMR Signal to Mask Ratio (dB) Tỉ lệ tín hiệu – ng-ỡng che SNR Signal to Noise Ratio (dB) Tỉ lệ tín hiệu – tạp âm
SPL Sound Pressure Level Mức nén âm thanh
STDM Spead Transform Dither
Modulation Điều chế Dither trải biến đổi WEP Word Error Probability Xác suất lỗi từ
WER Word Error Ratio Tỉ lệ lỗi từ
WIPO World Intellectual Property
Organization
Hiệp hội bảo vệ sở hữu trí tuệ thế giới
Trang 7Audio TÝn hiÖu ©m thanh
Critical Band B¨ng tÇn chñ chèt
Dither NhiÔu h¹t
Digital watermaking Thñy v©n sè
De-Interleaver Bé gi¶i cµi xen bit Interleaver Bé cµi xen bit
masker TÝn hiÖu che maskee TÝn hiÖu bÞ che
mutlimedia D÷ liÖu ®a ph-¬ng tiÖn Steganography GiÊu tin mËt
Watermark Thñy v©n
Trang 8Mục lục
Mục lục
Lời mở đầu 1
Ch-ơng 1: Tổng quan về giấu tin 3
1.1 Định nghĩa giấu tin và lịch sử phát triển của lĩnh vực giấu tin 3
1.1.1 Định nghĩa giấu tin trong dữ liệu đa ph-ơng tiện 3
1.1.2 Lịch sử phát triển 5
1.2 Mô hình giấu thông tin 5
1.3 Phân loại lĩnh vực giấu tin 13
1.3.1 Giấu tin mật 13
1.3.2 Thủy vân 14
1.4 Các yêu cầu trong một mô hình giấu tin 16
1.4.1 Tính bền vững……….16
1.4.2 Khả năng không bị phát hiện……….17
1.4.3 Tốc độ bit………17
1.4.4 Tính bảo mật ……… 18
1.4.5 Khả năng vô hình… ………18
1.4.6 Tính trong suốt……… 18
1.5 Các ứng dụng của lĩnh vực giấu tin 19
1.5.1 Bảo vệ bản quyền, sở hữu trí tuệ………19
1.5.2 Nhận thực thông tin và chống giả mạo thông tin………… 19
1.5.3 Điều khiển sao chép……… 20
1.5.4 Giấu vân tay và dán nhãn……… 20
1.5.5 Quản lý phát sóng……… 20
1.5.6 Giấu tin mật 21
Kết luận ……… 21
Ch-ơng 2: Các ph-ơng pháp giấu tin trong tín hiệu âm thanh 22
2.1 Đặc điểm của tín hiệu âm thanh 22
Trang 92.1.1 Âm thanh và đặc điểm của tín hiệu âm thanh 23
2.1.2 Biểu diễn âm thanh d-ới dạng số 24
2.1.3 Cấu trúc tệp âm thanh định dạng Wav 25
2.2 Các đặc tính của hệ thống thính giác HAS 26
2.2.1 Ngụy trang (đồng thời) tần số 27
2.2.2 Ngụy trang về thời gian 29
2.2.3 áp dụng HAS trong thiết kế, kiểm tra thuật toán giấu tin 30
2.3 Các ph-ơng pháp giấu tin trong tín hiệu âm thanh 31
2.3.1 Ph-ơng pháp mã hoá pha 33
2.3.2 Ph-ơng pháp điều biến pha 33
2.3.3 Ph-ơng pháp sử dụng bản sao 34
2.3.4 Ph-ơng pháp l-ợng tử hoá chỉ mục 38
2.3.5 Ph-ơng pháp tự đánh dấu 44
2.3.6 Ph-ơng pháp tập đôi 46
2.3.7 Ph-ơng pháp trải phổ 50
2.4 Các yếu tố tác động đến bài toán giấu tin 55
2.5 Đánh giá các yêu cầu của mô hình giấu tin 57
2.5.1 Đánh giá tính bền vững 57
2.5.2 Đánh giá tính trung thực 58
2.5.3 Dung l-ợng kênh giấu tin 58
Kết luận 62
Ch-ơng 3: Thiết kế mô hình giấu tin bằng kỹ thuật trải phổ kết hợp với
mô hình giả lập thính giác 63
3.1 Cơ sở thiết kế 63
3.2 Giải quyết vấn đề 63
3.3 Giải thích mô hình giấu tin đề xuất 66
3.3.1 Phần tạo tín hiệu âm thanh và nhúng tin 66
3.3.2 Phần chiết rút tin 70
Trang 103.4 Ch-ơng trình thực hiện 73
3.4.1 Xây dựng thuật toán 73
3.4.2 Lựa chọn các tham số 74
3.4.3 Kết quả thực hiện 75
3.5 Đánh giá tính bền vững của mô hình 78
3.5.1 Chuyển đổi định dạng 78
3.5.2 Biến đổi A/D và D/A 80
3.5.3 Các thao tác với nhiễu 81
3.5.4 So sánh với các ph-ơng pháp giấu tin khác 82
Kết luận 85
Kết luận 86
Tài liệu tham khảo Phụ lục Phụ lục 1: Ch-ơng trình mô phỏng MATLAB i
Phụ lục 2.1.3: Cấu trúc tệp Audio nén định dạng Wav ii
Phụ lục 3.5.1: Bảng kết quả thực nghiệm chuyển đổi định dạng iii
Phụ lục 3.5.2: Bảng kết quả thực nghiệm biến đổi A/D và D/A iv
Phụ lục 3.5.3: Bảng kết quả thực nghiệm trong các thao tác xử lý với nhiễu v
Trang 11Lời mở đầu
Trong xã hội loài ng-ời, thông tin liên lạc luôn giữ vai trò quan trọng,
là nhu cầu thiết yếu không thể thiếu đ-ợc của đời sống Xã hội càng hiện
đại, nhu cầu thông tin càng tăng cả về số l-ợng lẫn chất l-ợng Những thành tựu của cuộc cách mạng khoa học và kỹ thuật thế kỷ 20 đã làm thay đổi sâu sắc cuộc sống, giúp chúng ta ngày càng gần nhau hơn, mang lại cho nhau nhiều cơ hội phát triển hơn nh-ng đồng thời cũng phát sinh thêm nhiều thách thức mới Mạng Internet toàn cầu đã tạo ra những cơ cấu ảo, là nơi diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực, đã thúc đẩy khả năng sáng tạo, xử lý và th-ởng thức các dữ liệu đa ph-ơng tiện Và chính trong môi tr-ờng mở, tiện nghi nh- thế làm xuất hiện những vấn nạn, những tiêu cực đang rất cần các giải pháp hữu hiệu nhằm bảo đảm an toàn thông tin, chống lại nạn ăn cắp bản quyền, giả mạo thông tin, truy cập thông tin trái phép Việc tìm giải pháp cho những vấn đề này không chỉ giúp ta hiểu thêm về công nghệ phức tạp đang phát triển rất nhanh này mà còn tạo ra những cơ hội phát triển mới
Bên cạnh đó, nhiệm vụ đảm bảo thông tin liên lạc cho quân đội trong thời kỳ mới chiếm một vị trí hết sức quan trọng Tuy hiện nay đã có nhiều biện pháp giải quyết, nh-ng chủ yếu vẫn dựa vào ph-ơng pháp mã mật thông tin Chính vì tính chất đặc thù của mã mật đã khiến bản tin rất dễ bị thám mã, phá hoại Cho nên, để nâng cao tính an toàn và bí mật, bản tin có thể đ-ợc đem giấu vào các đối t-ợng rất bình th-ờng khác mà không gây ra bất kỳ sự chú ý nào Và nh- vậy, sẽ lợi dụng một cách hiệu quả các mạng truyền thông th-ơng mại sẵn có phục vụ cho nhiệm vụ quốc phòng, an ninh với tính tin cậy, an toàn và bí mật cao
Xuất phát từ yêu cầu của thực tế nhằm mục đích h-ớng tới một phần
nhiệm vụ trên, đồ án có tên: “ Nghiên cứu ph-ơng pháp che giấu thông
tin trong tín hiệu âm thanh”
Trang 12Nội dung đồ án chia thành 3 ch-ơng:
• Ch-ơng 1: Tổng quan về lĩnh vực giấu tin - Ch-ơng này trình
bày các vấn đề cơ bản của một mô hình giấu tin trong dữ liệu đa ph-ơng tiện; phân tích quá trình nhúng và khôi phục thông tin, các yêu cầu bắt buộc
đối với mỗi mô hình giấu tin
• Ch-ơng 2: Các ph-ơng pháp giấu tin trong tín hiệu âm thanh –
Ch-ơng này nêu khái quát đặc điểm của tín hiệu âm thanh, cấu trúc tệp âm thanh nén, đặc tính của hệ thống thính giác con ng-ời Từ đó, trình bày cụ thể các ph-ơng pháp giấu thông tin trong tín hiệu âm thanh đang đ-ợc sử dụng phổ biến hiện nay
• Ch-ơng3: Thiết kế mô hình giấu tin trong tín hiệu âm thanh
bằng kỹ thuật trải phổ kết hợp với mô hình giả lập thính giác – Ch-ơng
này đề xuất một ph-ơng pháp giấu tin mới Sau đó, tiến hành thử nghiệm
đánh giá tính bền vững của ph-ơng pháp này đối với các thao tác biến đổi
và xử lý tín hiệu
Trong khuôn khổ thời gian cũng nh- trình độ bản thân có hạn, đồ án
sẽ không tránh khỏi những sai sót Rất mong nhận đ-ợc sự đóng góp từ các thầy giáo và bạn đọc để đồ án hoàn thiện hơn Tôi xin chân thành cảm ơn
sự h-ớng dẫn, và giúp đỡ tận tình của TS Nguyễn Thế Hiếu, Th.S Mai Quốc Khánh, các thầy giáo thuộc Phòng thí nghiệm trọng điểm an toàn thông tin, Viện điện tử viễn thông, Trung tâm KHKT & CN quân sự, cùng các thầy trong khoa Vô tuyến điện tử đã giúp đỡ tôi trong quá trình học tập cũng nh- trong quá trình làm đồ án
Trang 13
Ch-ơng 1
Tổng quan về lĩnh vực giấu tin
Ch-ơng này sẽ trình bày những khái niệm cơ bản về lĩnh vực giấu tin trong dữ liệu đa ph-ơng tiện, giải thích quá trình nhúng, khôi phục thông tin giấu và các yêu cầu cần thiết đối với một mô hình giấu tin
1.1 Định nghĩa giấu tin và lịch sử phát triển của lĩnh vực giấu tin
1.1.1 Định nghĩa giấu tin trong dữ liệu đa ph-ơng tiện
Để xây dựng một định nghĩa khái quát về giấu tin, tr-ớc tiên, phải làm sáng tỏ khái niệm thế nào là dữ liệu đa ph-ơng tiện và tính phổ biến của chúng
• Định nghĩa dữ liệu đa ph-ơng tiện (multimedia):
Media đ-ợc định nghĩa trong từ điển ngôn ngữ là truyền thông, môi tr-ờng hay ph-ơng tiện Trong lĩnh vực công nghệ thông tin, media mang ý nghĩa là ph-ơng tiện nghe – nhìn Ng-ời ta xem media là một thuật ngữ để
chỉ chung cho các dữ liệu liên quan đến hình ảnh, hình chuyển động, nhạc
và phim
Thuật ngữ multimedia dùng để mô tả những công nghệ, công cụ cho
phép các ph-ơng tiện nghe nhìn kết hợp theo những cách mới nhằm mục
đích truyền thông – truyền thông đa ph-ơng tiện Multimedia đ-ợc ứng
dụng rộng rãi trong nhiều lĩnh vực nh- giải trí, giáo dục và quảng cáo Gần
nh- mọi máy tính để bàn hiện nay đều chứa đựng multimedia trong nó, bởi
vì chúng đều có các thiết bị nh-: CD-ROM, DVD và các cấu trúc phần cứng Card âm thanh, Card Video Hiện nay, số l-ợng các thiết bị trình diễn
multimedia rất đa dạng và phong phú, chẳng hạn: máy sao chép phim kĩ
thuật số (DVR), Tivi màn hình t-ơng tác, máy nghe nhạc MP3, các thiết bị không dây, điện thoại di động, PDAs, Bên cạnh đó, sự phát triển nhanh chóng của công nghệ kỹ thuật số đã làm thay đổi sâu sắc cách chúng ta sử
Trang 14dụng media từ việc sản xuất, sao chép, phân phối và tiêu thụ Các công
nghệ mới này giúp giảm đáng kể chi phí và tiết kiệm thời gian khi thực hiện
• Định nghĩa giấu tin trong multimedia:
Giấu tin là kỹ thuật nhúng thông tin vào trong một nguồn đa ph-ơng
tiện nào đó (ảnh số, tín hiệu audio, video) mà không gây ra bất kỳ nhận biết nào về sự tồn tại của thông tin đem giấu Các nguồn đa ph-ơng tiện này
đ-ợc gọi chung là ph-ơng tiện chứa, hoặc đối t-ợng gốc
Ví dụ, gọi đối t-ợng cần bảo mật là A (một văn bản, một tấm bản đồ, hoặc một tệp âm thanh ) Nếu dùng ph-ơng pháp mã hoá để bảo mật A, ta
sẽ thu đ-ợc bản mã A’ chứa toàn các ký tự “ vô nghĩa” Và chính điều này khiến đối ph-ơng nghi ngờ, tìm mọi cách thám mã Nh-ng nếu giấu A vào một đối t-ợng khác, một tệp âm thanh B chẳng hạn, ta sẽ thu đ-ợc tệp B’ hầu nh- không khác gì so với B Sau đó, chỉ cần gửi B’ cho ng-ời nhận Để lấy lại bản tin A từ B’ ng-ời nhận không cần đến tệp gốc B Do đó, dù đối ph-ơng có bắt đ-ợc B’ , và do B’ chỉ là một tệp âm nhạc bình th-ờng sẵn có trên mạng, thì đối ph-ơng cũng khó nảy sinh nghi ngờ về khả năng chứa tin mật trong B’ Mặt khác, ta còn có thể nâng cao tính an toàn của thông tin giấu bằng cách đem nhúng bản mã A’ vào đối t-ợng chứa B
Kỹ thuật giấu thông tin nhằm mục đích bảo mật ở hai khía cạnh Một
là, bảo mật cho dữ liệu đ-ợc đem giấu, và thứ hai, bảo mật cho chính đối t-ợng đ-ợc dùng để giấu tin Hai khía cạnh khác nhau này dẫn đến hai khuynh h-ớng chủ yếu trong giấu tin Khuynh h-ớng thứ nhất là giấu tin mật (Steganography): tập trung vào các kỹ thuật sao cho thông tin đem giấu
đ-ợc nhiều, và quan trọng là đối ph-ơng khó phát hiện ra có thông tin giấu
Trang 15bên trong hay không Khuynh h-ớng thứ hai là thuỷ vân số: yêu cầu thông tin đ-ợc giấu phải có tính bền vững rất cao đối với các biến đổi (mong muốn hay không mong muốn) Các ứng dụng của thuỷ vân số đang đ-ợc triển khai rộng rãi, nhất là trong lĩnh vực bảo vệ bản quyền và xác thực thông tin
1.1.2 Lịch sử phát triển
Từ Steganography (chữ viết đ-ợc che giấu) bắt nguồn từ Hy Lạp, và
đ-ợc dùng đến tận ngày nay Nếu mã mật tập trung vào vấn đề bảo vệ nội
dung thông điệp thì Steganography lại nghiên cứu ở khía cạnh làm thế nào
có thể che giấu đ-ợc sự tồn tại của các thông điệp này Quan niệm trên xuất phát từ tác phẩm Steganographia của tác giả Trithemius (1462 - 1516)
ng-ời Hy Lạp Do vậy, Steganography th-ờng đ-ợc hiểu là một ph-ơng
pháp giấu thông tin này vào một thông tin khác Các nghiên cứu về kỹ thuật giấu tin ra đời từ rất sớm, đ-ợc sử dụng nhiều nhất ở trong quân đội và các cơ quan tình báo Ví dụ nh- giấu một bản tin mật vào trong bài báo thông qua hình thức sử dụng mực in vô hình để gửi cho các điệp viên Cho đến vài
thập niên gần đây, lĩnh vực giấu tin trong multimedia mới nhận đ-ợc sự
quan tâm của các nhà nghiên cứu và các Viện công nghệ thông tin với hàng loạt công trình nghiên cứu giá trị Chính cuộc cách mạng số hoá thông tin
và sự phát triển nhanh chóng của mạng truyền thông là nguyên nhân dẫn
đến sự thay đổi này
Thuật ngữ thủy vân cũng xuất hiện từ rất sớm, khởi nguồn từ nền công nghiệp sản xuất giấy ở châu Âu Thủy vân đ-ợc hiểu giống nh- một
loại hoa văn in chìm trên giấy và chỉ hiển thị khi nhúng tờ giấy đó vào n-ớc Thủy vân đã đem lại những lợi ích thiết thực trong việc xác định nhãn hiệu th-ơng mại, ghi nhận ngày sản xuất, chống làm tiền giả, bảo vệ bản
quyền…Thuật ngữ thuỷ vân số đ-ợc cộng đồng thế giới chấp nhận rộng rãi
Trang 16vào đầu thập niên 1990 Đến năm 1996, Hiệp hội bảo vệ sở hữu trí tuệ thế
giới (WIPO) đã tổ chức hội thảo đầu tiên về giấu tin trong multimedia, chọn
lĩnh vực thủy vân làm nội dung chính Sau hơn 10 năm phát triển, đã có nhiều tác giả nghiên cứu về thủy vân số, và hình thành nên một số l-ợng lớn các tổ chức, công ty chuyên kinh doanh trong lĩnh vực này Tuy vậy, thủy vân thông tin trong tín hiệu âm thanh mới chỉ đ-ợc chú ý vài năm lại đây do gặp rất nhiều khó khăn khi tiếp cận với hệ thống thính giác con ng-ời (HAS) Bởi vì HAS rất nhạy cảm và phức tạp hơn so với hệ thống thị giác (HVS) Nh-ng bù lại, tiềm năng của lĩnh vực này là rất lớn, cả trong th-ơng mại lẫn quân sự [7], [8],[10]
1.2 Mô hình giấu thông tin
Do lĩnh vực giấu thông tin trong multimedia còn khá mới nên hiện
nay đang tồn tại nhiều mô hình giấu tin khác nhau [12] Tùy theo h-ớng nghiên cứu và phạm vi áp dụng mà ta chọn một mô hình thích hợp
Nhỳng tin
Xử lý/
Tấn cụng Khoỏ mật
Tớn hiệu gốc Tớn hiệu đỏnh dấu
Bộ ghi/ Nghe nhạc
Chiết rỳt
Bộ nghe nhạc tuỳ chọn
Khoỏ mật Tin mật
Tin mật
Hình 1.1: Mô hình giấu tin cơ bản Dựa vào mô hình trên, ta thấy có 4 đối t-ợng chính trong một bài toán giấu thông tin:
Trang 17• Thông tin mật : Là thông tin nhúng vào đối t-ợng chứa, và cũng là
thông tin cần đ-ợc bảo vệ Tuỳ theo từng ph-ơng pháp cụ thể, thông tin này
sẽ đ-ợc bảo vệ với các mức độ khác nhau Thông tin mật không giới hạn về kiểu định dạng Còn kích th-ớc của nó phụ thuộc vào yêu cầu bảo mật và lĩnh vực ứng dụng
• Đối t-ợng chứa : Là đối t-ợng dùng để chứa thông điệp mật Còn
đ-ợc gọi là môi tr-ờng, tín hiệu gốc, hoặc tín hiệu chủ Do các ph-ơng pháp giấu tin ngày nay hầu hết đều hỗ trợ định dạng dữ liệu số, nên đối t-ợng chứa có chung đặc điểm là “ số” Kích th-ớc của đối t-ợng chứa th-ờng đòi hỏi lớn hơn nhiều kích th-ớc thông tin mật
• Đối t-ợng đã nhúng : Là đối t-ợng chứa sau khi nhúng thông tin
mật, hay còn gọi là đối t-ợng đã đánh dấu Khi xét đối t-ợng nhúng, ta chỉ quan tâm đến chất l-ợng và kích th-ớc của nó Nhìn chung, chất l-ợng bị thay đổi so với đối t-ợng gốc Tuy nhiên, mức độ thay đổi phụ thuộc vào yêu cầu và ph-ơng pháp tiến hành Kích th-ớc của đối t-ợng đã nhúng bằng kích th-ớc của đối t-ợng chứa
• Khoá mật : Là khoá tham gia vào quá trình nhúng, tuỳ theo từng
thuật toán mà khoá này có tham gia hay không Chiều dài của khoá phụ thuộc vào thuật toán tạo khoá Nh-ng nhìn chung, khoá càng dài thì mức độ
an toàn, bí mật càng cao Khoá mật này hoặc chỉ đ-ợc dùng trong giai đoạn mã hoá, hoặc có thể dùng trong cả hai giai đoạn mã hoá và giải mã
1.2.1 Giải thích mô hình giấu tin:
Trang 18Trong một bài toán giấu tin cơ bản gồm hai quá trình:
• Nhúng thông tin (hay còn gọi là mã hoá)
• Chiết rút thông tin (còn gọi là giải mã)
Quá trình nhúng tin mật phụ thuộc vào khoá K và nhất thiết phải thoả mãn yêu cầu trong suốt, nghĩa là sự khác biệt giữa tín hiệu gốc x và tín hiệu đánh dấu s (méo sinh ra do nhúng dem b) phải nằm d-ới mức ng-ỡng khác biệt còn chấp nhận đ-ợc Ta xem bất cứ các thay đổi nào dành cho s (mong muốn hay không mong muốn) đều là các kiểu tấn công Và yêu cầu méo sinh ra do bị tấn công datt phải ở mức còn cảm thụ đ-ợc Sau khi bị tấn công, bộ chiết rút thu đ-ợc tín hiệu r
Quá trình chiết rút khôi phục lại thông tin đã giấu gồm hai quá trình con: đầu tiên giải mã tín hiệu nhận đ-ợc bằng khóa K để thu bản tin m ,
và b-ớc thứ hai là dò tách tín hiệu đánh dấu, nghĩa là tiến hành kiểm định hai giả thiết:
Giả thiết H0 : tín hiệu r không đ-ợc đánh dấu với khoá K
Giả thiết H1 : tín hiệu r đ-ợc đánh dấu với khoá K
Để phân tích sâu hơn về các quá trình của mô hình giấu tin ở trên, ta
sử dụng các tính chất của xác xuất thống kê [1] với các định nghĩa sau :
Xem đối t-ợng chứa x là một véctơ có độ dài L x, trong mô hình thống kê coi x nh- một quá trình ngẫu nhiên rời rạc của biến x Nh- vậy,
Trang 19mãn tính chất thống kê độc lập Do vậy, dem b và datt đ-ợc tính dựa theo công thức sau:
L (1.2) Trong đó E là hàm kỳ vọng và n R là trọng số gán cho lỗi
sinh ra trong thành phần dữ liệu thứ n Trọng số này dùng để dung hòa giữa
đại l-ợng méo mong muốn và không mong muốn Đối với dữ liệu có tính chất IID, n th-ờng cho bằng 1 để đơn giản trong tính toán
1.2.3 Quá trình nhúng tin:
Giả sử rằng tại phần thu, quá trình chiết rút tin mật không cần đến tín hiệu gốc, nh- vậy bộ mã hoá có thể mô hình hoá thành một kênh truyền sử
dụng thông tin phụ (side information) Nghĩa là, mặc dù phần thu không có
khả năng truy nhập vào tín hiệu gốc x nh-ng bộ mã hoá có thể lợi dụng sự hiểu biết về x nhằm giảm tối đa ảnh h-ởng của x đến các quyết định chiết rút Sơ đồ nhúng tin nh- sau:
Hình 1.3: Mô hình truyền thông với thông tin phụ tại bộ mã hoá
Sơ đồ trên mô tả quá trình nhúng thông tin vào trong tín hiệu gốc x
(có tính chất IID) độ dài Lx và phần chiết rút hoàn toàn không cần đến x
Thông điệp m1, 2,…, M đ-ợc nhúng với độ méo dem b Ta chia quá trình nhúng tin trong tr-ờng hợp này thành hai giai đoạn:
• Chọn w thích hợp biểu diễn cho bản tin m
• Cộng w vào x
Đại l-ợng méo xuất hiện khi nhúng đ-ợc tính theo công thức (1.3):
Trang 20Tiến hành phép ánh xạ từ m vào w thông qua sách mã WLx(K) Với
WLx(K) là bản mã hoá của khoá mật K
Giả sử chuỗi tín hiệu đánh dấu w có trung bình bằng 0 và có tính chất IDD Thì dem b sẽ bằng với ph-ơng sai 2
w của các thành phần w n Nếu nhiễu tạp tác động độc lập với các đặc tính của tín hiệu gốc và tín hiệu đánh dấu thì đại l-ợng méo sinh ra trong truờng hợp này đ-ợc tính nh- sau:
có bản tin giải mã b Tính tin cậy trong giải mã véctơ b đ-ợc mô tả bằng công thức tính xác xuất lỗi từ (WEP):
w
p = Prm m = Prb b (1.5) hoặc xác xuất lỗi bit (BEP):
L 1
1
(1.6) WEP và BEP đ-ợc tính trong một mô hình giấu tin cụ thể bao gồm cả các kiểu tấn công Xác xuất lỗi có thể dự báo tr-ớc thông qua thực nghiệm bằng cách mô phỏng sử dụng nhiều khoá K khác nhau, sử dụng các đối t-ợng chứa x khác nhau, các tham số của các kiểu tấn công và bản tin m khác nhau
Thông qua lý thuyết thông tin, ta có thể tính toán hiệu suất của mô hình giấu tin đề xuất Ví dụ, l-ợng tin đánh dấu lớn nhất mà ta nhận đ-ợc trên lý thuyết khi không có lỗi đ-ợc xác định bằng l-ợng tin t-ơng hỗ
/
I r m giữa bản tin m đã truyền và dữ liệu nhận đ-ợc r
Trang 21 / /
I r m h r h r m (1.7) Với h r là entropy vi phân của r còn h r m / là entropy vi phân của r trong điều kiện phần phát đã truyền m
Ta định nghĩa dung l-ợng C của kênh truyền là l-ợng tin t-ơng hỗ
/
I r m lớn nhất thông qua mô hình truyền dẫn với một công suất truyền xác định cho tr-ớc Dựa trên phân tích C làm cơ sở để đánh giá hiệu quả của các ph-ơng pháp giấu tin đề xuất Tuy vậy, đến nay vẫn ch-a có một quy chuẩn chung để so sánh mức độ hiệu quả của các kỹ thuật trong lĩnh vực giấu tin Với mỗi mô hình giấu tin khác nhau thì dung l-ợng kênh C cũng khác C khác nhau khi sử dụng tham số khác nhau, ví dụ nh- miền nhúng tin (miền thời gian, miền tần số, miền Wavelet, miền Cepstrum), các tham số tấn công (méo hình học, lấy mẫu, lọc thông thấp )
Để phần thu ra quyết định tín hiệu nhận r có đ-ợc đánh dấu (H1) hay không (H0) một cách tin cậy, ta đ-a ra các khái niệm xác suất p fp (bắt nhầm) trong tr-ờng hợp chọn H1 nh-ng H0 lại đúng và xác suất p fn (bỏ sót) khi chọn H0 mà H1 đúng Trong nhiều ứng dụng, xác suất bắt nhầm phải nằm trong một giá trị giới hạn chấp nhận đ-ợc Ví dụ: pfp < 1012 đối với lĩnh vực bảo vệ sao chép đĩa DVD
Gọi f có độ dài L f là véctơ con của bản tin nhị phân b, f đ-ợc mã hoá
cùng với b để thu bản mã bc Tại quá trình chiết rút tin, véctơ f đ-ợc dùng
để so sánh với giá trị f của bản tin giải mã b t-ơng ứng Không mất tính tổng quát, ta kiểm tra tất cả các bản tin, kể cả bản tin toàn giá trị zero, bởi vì độ an toàn của quá trình nhúng đã đ-ợc bảo đảm nhờ khoá mật K Nh- vậy, ta phân ra hai tr-ờng hợp quyết định chọn bản tin giải mã:
• Quyết định cứng
So sánh giá trị của f và f có bằng nhau không Từ đó đ-a ra luật quyết định chọn giả thiết nh- công thức (1.8):
Trang 22thiÕt kÕ sao cho tån t¹i mét ®iÓm dung hoµ tèt nhÊt gi÷a pfp vµ pfn
) / (
0
1
H r P
H r P I r
I r
Trang 23Nh- vậy, quyết định chọn H1 nếu:
Pr =
) / ( ) / (
) / (
0 1
1
H r P H r P
H r P
I r I
r
I r
> 0,5 (1.13) Trong đó Pr [0,1] chỉ ra độ tin cậy mà b nhận đ-ợc có chứa thông tin đem giấu hợp lệ hay không
1.3 Phân loại lĩnh vực giấu tin:
1.3.1 Giấu tin mật : Chia thành hai lĩnh vực nh- sau
a/ Giấu tin bằng ngôn ngữ:
Các ph-ơng pháp thuộc loại ngôn ngữ hữu hình th-ờng sử dụng các thực thể vật lý để thể hiện nội dung của thông điệp mật Ví dụ, sử dụng vị trí của các quân cờ trên bàn cờ hoặc vẽ một con ng-ời trong các t- thế khác nhau và mỗi t- thế ứng với một ý nghĩa nào đó
Giấu dữ liệu
Giấu tin bằng ngụn ngữ
Ngụn ngữ văn bảnHình 1.4: Phân loại giấu tin mật Trong ph-ơng pháp nhóm ngôn ngữ văn bản, nội dung của bản tin mật sẽ đ-ợc ẩn chứa thông qua cách hiển thị của văn bản Một số kỹ thuật loại này có thể áp dụng cho cả văn bản viết tay và văn bản in Ví dụ, thay
đổi khoảng cách giữa các kí tự
Ngoài ra, các ph-ơng pháp thuộc nhóm mã Jargon th-ờng nhúng nội dung bản tin mật vào trong những tín hiệu có công suất lớn, và nh- thế thông tin ẩn sẽ khó bị phát hiện
Trang 24b/ Giấu tin bằng kỹ thuật:
Lên quan đến việc sử dụng các ph-ơng pháp vật lý hay hoá học để che giấu thông tin Ví dụ: ph-ơng pháp mực không màu, ph-ơng pháp microdot Các ph-ơng pháp này đã đ-ợc dùng từ rất lâu và hiện nay hầu nh- không còn đ-ợc sử dụng
1.3.2 Thủy vân
Dựa vào các tính chất khác nhau, lĩnh vực áp dụng, ta có thể phân loại thủy vân thành các nhóm nh- sau:
a/ Phân loại theo khả năng cảm nhận:
Dựa vào khả năng cảm nhận của con ng-ời tr-ớc các thay đổi trên
đối t-ợng chứa sau khi nhúng thông tin Nhóm này phân thành hai loại chính là: Thủy vân hữu hình và Thủy vân vô hình
Đối với loại thủy vân hữu hình, ng-ời dùng cuối có khả năng “ nhìn” thấy thông tin đem giấu Thông th-ờng các ứng dụng loại này sử dụng một logo làm thông tin mật để chống việc giả mạo, ăn cắp thông tin Ví dụ nh- nhúng logo vào giấy, hoặc nhúng vào tiền
Đối với các ứng dụng theo h-ớng thủy vân vô hình, ng-ời dùng cuối không thể biết đ-ợc bất cứ thông tin nào về đối t-ợng nhúng Các ứng dụng loại này th-ờng dùng để bảo vệ quyền sở hữu trí tuệ Thông tin đ-ợc nhúng th-ờng là ảnh hay đoạn văn bản nhận thực tác giả
Cần l-u ý: Đối với đối t-ợng chứa là ảnh số hay video, ta sử dụng thuật ngữ thủy vân hữu hình/ vô hình Còn đối với âm thanh thì sử dụng thuật ngữ thủy vân cảm thụ/ không cảm thụ
b/ Phân loại theo tính chất bền vững:
Dựa vào khả năng chống lại các kiểu tấn công của kỹ thuật thủy vân,
có thể chia hệ thống thủy vân thành ba loại: bền vững, yếu và bán yếu
Trang 25
Thủy võn
Thủy võn bền vững Thủy võn yếu
Thủy võn bỏn yếu Hình 1.5: Phân loại thủy vân theo tính bền vững
Thông th-ờng thủy vân bền vững đ-ợc dùng trong tr-ờng hợp thông tin mật rất quan trọng không thể tiết lộ, chỉ có tác giả mới biết chính xác thông tin gì đang đ-ợc nhúng vào đối t-ợng chứa
Còn thủy vân yếu th-ờng đ-ợc sử dụng trong các ứng dụng bảo vệ nội dung Bất cứ sự thay đổi nào cũng dẫn tới sự phá huỷ hoàn toàn thông tin đem giấu Ngoài mục đích xác thực nội dung thì thủy vân yếu còn dùng
để phát hiện lỗi trong quá trình truyền dẫn nhằm nâng cao hiệu quả truyền tải dữ liệu
Thông tin đ-ợc nhúng trong hệ thống thủy vân bán yếu sẽ không bị
ảnh h-ởng tr-ớc các thao tác thay đổi phù hợp, nh-ng sẽ bị phá huỷ nếu đấy
Thủy võn khụng giao thoa tớn hiệu gốcHình 1.6: Phân loại theo thuộc tính chiết rút
Dựa vào các đặc tính chiết rút thông tin mật của phần thu mà ta có thể phân loại thủy vân nh- sau:
Thủy vân giao thoa tín hiệu gốc: sử dụng thông tin đối t-ợng chứa và thông tin mật trong quá trình chiết rút ứng dụng này đ-ợc dùng trong các tr-ờng hợp nhận thực một đối t-ợng có chứa thông tin mật xác định nào đó hay không
Trang 26Thủy vân bán giao thoa tín hiệu gốc: chỉ sử dụng thông tin về đối t-ợng chứa để chiết rút ứng dụng này dùng trong tr-ờng hợp muốn lấy thông tin về thông điệp mật Tuy nhiên, kỹ thuật thủy vân theo h-ớng này rất ít gặp trong thực tế
Thủy vân không giao thoa tín hiệu gốc: Đây là h-ớng phát triển th-ờng gặp trong thực tế Quá trình chiết rút không cần sử dụng bất cứ thông tin gì về các đối t-ợng chứa hay thông điệp mật
d/ Phân loại theo đặc tính của khoá mật:
Căn cứ vào tính chất các loại khoá mà ta chia thành hai loại nh- sau:
Thủy võn
Hình 1.7 : Phân loại theo đặc tính của khoá mật Khóa công khai: Để mã hoá dữ liệu cả bên gửi lẫn bên nhận đều dùng chung một khóa chia sẻ phổ biến, nh-ng mỗi bên sẽ có một khoá riêng để giải mã bản tin
Khóa bí mật: Quá trình mã hoá và giải mã đều dùng chung một khoá
1.4 Các yêu cầu trong một mô hình giấu tin
Tuỳ thuộc vào từng kỹ thuật, phạm vi áp dụng mà mỗi mô hình giấu tin có những đòi hỏi khác nhau Tuy nhiên, bất cứ mô hình đề xuất nào vẫn phải đáp ứng một số yêu cầu chung sau:
1.4.1 Tính bền vững
Là khả năng lấy lại một cách tin cậy thông tin đã nhúng sau các thao tác xử lý tín hiệu của bộ chiết rút Những thao tác này có thể là: thay đổi tính chất (thay đổi tần số lấy mẫu, thay đổi độ lớn biên độ, biến đổi A/D và
D/A, lọc thông thấp…), các phép biến đổi affine (dịch, quay, tỉ lệ), chuyển
đổi định dạng dữ liệu (Wav, Mp3, Midi,…) Với từng ứng dụng cụ thể, mức
Trang 27độ yêu cầu của tính chất này cũng khác nhau Ví dụ, trong nhận thực thông tin thì chỉ cần một thay đổi nhỏ trên đối t-ợng chứa cũng làm cho thông tin nhúng bị hủy
1.4.2 Khả năng không bị phát hiện
Tính chất này thể hiện ở khả năng khó bị phát hiện ra tin mật đã giấu, nghĩa là khó xác định đ-ợc sự tồn tại của tin mật trong đối t-ợng chứa Để nâng cao khả năng này, hầu hết các ph-ơng pháp giấu tin đều khai thác tính chất của hệ tri giác con ng-ời: HAS và HVS Khả năng khó bị phát hiện phụ thuộc vào hai yếu tố sau:
Kỹ thuật nhúng: dữ liệu nhúng phải phù hợp với đối t-ợng chứa và
thuật toán nhúng Để thực hiện tốt yêu cầu này, ngoài những kiến thức trong lĩnh vực giấu tin, còn phải có kiến thức về các loại định dạng tập tin, vì có thể với cùng một thông tin mật khó bị phát hiện trên đối t-ợng A, nh-ng lại dễ thấy khi nhúng vào đối t-ợng B
Kinh nghiệm của kẻ tấn công: nếu nh- kẻ tấn công có nhiều kinh
nghiệm thì khả năng phát hiện đối t-ợng chứa thông tin mật là không quá khó
1.4.3 Tốc độ bit tin
Là số l-ợng bit tin đ-ợc nhúng trong một đơn vị thời gian, th-ờng là bít/ giây (bps) Trong một vài ứng dụng giấu tin trong audio, nh- điều khiển sao chép, thì yêu cầu chèn dãy số serial sản phẩm, hay ID của tác giả với tốc độ trung bình là 0,5 bps Nh-ng nếu trong quản lý phát thanh thì yêu cầu tốc độ cao hơn, khoảng 15 bps Tùy theo từng đối t-ợng và lĩnh vực áp dụng mà tốc độ bít tin đem nhúng khác nhau Tốc độ bit càng cao thì dung l-ợng tin càng lớn Nh-ng do yêu cầu bảo mật nên khả năng l-u trữ luôn bị hạn chế Bởi vậy, trong tr-ờng hợp cần giấu tin với kích th-ớc lớn, ta th-ờng chia nhỏ chúng ra thành nhiều phần và thực hiện nhúng từng phần vào đối t-ợng chứa
Trang 28Trong thực tế, khi quyết định chọn một ph-ơng pháp nhúng tin nào
đó, ta phải căn cứ vào ba yêu cầu trên Và tùy thuộc vào từng ứng dụng mà -u tiên cho yêu cầu nào cao hơn
Steganography thụ
Steganography Bảo mật Watermarking
Tớnh bền vững
Tốc độ bớt
Khả năng khụng bị
Hình 1.8: Quan hệ giữa ba yêu cầu trong bài toán giấu tin
Hình (1.8) cho ta một cái nhìn tổng quát khi quyết định chọn thuật toán giấu tin Rõ ràng, ba yêu cầu trên không thể đạt đ-ợc đồng thời trong thực tế Ch-a có một thuật toán giấu tin nào vừa đảm bảo dung l-ợng tin lớn, vừa có độ bền vững cao Do vậy, khi quyết định chọn một ph-ơng pháp giấu tin nào đó, ta th-ờng giữ nguyên một trong ba yêu cầu trên tại một giá trị chấp nhận đ-ợc, sau đó dung hoà hai yêu cầu còn lại
1.4.4 Tính bảo mật
Giống nh- trong mã mật, tính hiệu quả của một thuật toán không thể dựa vào giả định là kẻ tấn công không biết cách nhúng và chiết rút tin Trong thực tế, một khi biết cách hoạt động của các quá trình trên thì việc phá hủy hệ thống giấu tin trở lên rất dễ dàng Hiện nay có nhiều cấp độ bảo mật khác nhau, nh-ng nhìn chung có hai cấp độ chính là:
• Ng-ời dùng hoàn toàn không biết sự tồn tại của thông tin mật
• Ng-ời dùng biết có thông tin mật, nh-ng phải có khóa khi truy cập
1.4.5 Khả năng vô hình
Yêu cầu thuật toán giấu tin phải vô hình đối với thống kê.Tuỳ thuộc
ứng dụng mà mức độ yêu cầu về tính chất này khác nhau
Trang 29• Giấu tin mật : thông tin mật đ-ợc giấu càng nhiều càng tốt
• Thủy vân: trong một số ứng dụng, ng-ời dùng có thể đọc thấy thông tin nh-ng không thể chỉnh sửa đ-ợc
1.4.6 Tính trong suốt
Thông tin mật đem giấu không đ-ợc gây ảnh h-ởng đến chất l-ợng cảm thụ của đối t-ợng chứa Tức là đoạn âm thanh sau khi đ-ợc nhúng tin phải nghe hoàn toàn giống đoạn âm thanh gốc Nếu vi phạm tính chất này thì bài toán giấu tin không còn ý nghĩa
1.5 Các ứng dụng của kỹ thuật giấu tin
1.5.1 Bảo vệ bản quyền, sở hữu trí tuệ
Đây là ứng dụng cơ bản nhất của kỹ thuật thủy vân số Một thông tin nào đó mang ý nghĩa quyền sở hữu tác giả sẽ đ-ợc nhúng vào trong các sản phẩm, thông tin này chỉ một mình ng-ời chủ sở hữu hợp pháp các sản phẩm
đó có và đ-ợc dùng làm minh chứng cho bản quyền sản phẩm, đồng thời chống lại các hành vi ăn cắp hoặc cố ý giả mạo Nh- vậy, cần phải có một
kỹ thuật để “ dán tem bản quyền” vào các sản phẩm này Việc dán tem hay thực chất chính là việc nhúng thông tin phải đảm bảo không để lại bất kỳ
ảnh h-ởng nào đến chất l-ợng sản phẩm Yêu cầu đối với ứng dụng này là thông tin nhúng phải tồn tại bền vững cùng với sản phẩm, nếu không đ-ợc phép của ng-ời chủ sở hữu thì chỉ còn cách phá huỷ sản phẩm
1.5.2 Nhận thực thông tin và chống giả mạo thông tin
Thông tin mật sẽ đ-ợc giấu vào đối t-ợng chứa và sau đó dùng để nhận biết xem dữ liệu trên đối t-ợng chứa có bị thay đổi hay không Yêu cầu chung đối với ứng dụng này là khả năng giấu thông tin nhiều và không cần bền vững tr-ớc các phép xử lý trên đối t-ợng chứa
Đặc biệt, hiện nay lĩnh vực giấu tin còn đ-ợc dùng cho điều khiển không l-u và xác định chủ quyền của quốc gia qua kênh VHF: Mỗi máy bay sẽ đ-ợc gán một số xác thực riêng, thông tin này cho biết về máy bay
Trang 30thuộc hãng hàng không của quốc gia nào, h-ớng bay, cảng hàng không đi
và đến,…Trong quá trình liên lạc giữa máy bay và trạm điều khiển không
l-u mặt đất, các thông tin này sẽ đ-ợc giấu vào một đoạn tag (thẻ) Sau khi giải mã, màn hình sẽ hiển thị những thông tin lấy từ tag phục vụ cho quá
trình điều khiển
Hình 1.9: Xác thực thông tin trong điều khiển không l-u
1.5.3 Điều khiển sao chép
Điều mong muốn đối với các hệ thống phân phối dữ liệu đa ph-ơng tiện là tồn tại một kỹ thuật chống sao chép trái phép dữ liệu Có thể dùng tin mật để chỉ trạng thái sao chép của dữ liệu Ví dụ : “ copy never” - không
đ-ợc sao chép hay “ copy one” - chỉ đ-ợc sao chép một lần Sau khi sao chép xong, bộ đọc/ghi sẽ ghi giá trị chỉ trạng thái mới lên đối t-ợng chứa Các ứng dụng này yêu cầu tin nhúng phải đ-ợc bảo đảm an toàn và khi lấy lại thông tin đã giấu không cần đến tính hiệu gốc
1.5.4 Giấu vân tay và dán nhãn
Thông tin mật đem giấu đ-ợc sử dụng để nhận diện ng-ời gửi hay ng-ời nhận trong phân phối sản phẩm Thông tin mật này cũng t-ơng tự nh- số serial của sản phẩm Ví dụ, các tin mật khác nhau sẽ đ-ợc nhúng vào các bản sao chép khác nhau của đối t-ợng gốc tr-ớc khi l-u chuyển Yêu cầu trong ứng dụng này là đảm bảo độ an toàn cao cho các tin mật tránh sự xoá dấu vết trong khi phân phối
Trang 31Trên đây là tổng quan về lĩnh vực giấu thông tin hiện nay Đồ án đã
đề cập đến một mô hình giấu tin cơ bản, phân tích các b-ớc nhúng, chiết rút thông tin, đ-a ra các yêu cầu cần thiết đối với mỗi thuật toán giấu tin Từ đó làm cơ sở cho việc nghiên cứu các ph-ơng pháp giấu thông tin trong tín hiệu âm thanh sẽ đ-ợc trình bày trong ch-ơng 2
Trang 32Ch-ơng 2
Các ph-ơng pháp giấu tin trong tín hiệu âm thanh
Giấu thông tin trong tín hiệu âm thanh mang những đặc điểm riêng khác so với giấu tin trong ảnh số và video Yêu cầu cơ bản là vừa phải đảm bảo tính chất ẩn của thông tin giấu đồng thời không gây ảnh h-ởng đến chất l-ợng của dữ liệu gốc Để thỏa mãn yêu cầu này, các kỹ thuật giấu tin trong audio phụ thuộc nhiều vào hệ thống thính giác (HAS) của con ng-ời Do HAS nghe đ-ợc tín hiệu ở các dải tần rộng và công suất lớn nên rất khó khăn cho việc giấu tin Tuy nhiên, các mô hình phân tích tâm lý đã chứng minh rằng tai ng-ời khá kém trong việc phát hiện ra sự khác biệt giữa các dải tần và công suất, nghĩa là các âm thanh to, cao tần có thể che giấu đ-ợc các âm thanh nhỏ, thấp một cách dễ dàng Thông tin này rất có ích cho việc chọn các đoạn audio thích hợp để giấu tin Vấn đề khó khăn thứ hai là kênh truyền tin Kênh truyền với băng thông chậm sẽ ảnh h-ởng đến chất l-ợng thông tin sau khi giấu Ngoài ra, giấu tin trong audio còn đòi hỏi yêu cầu rất
cao về tính đồng bộ và tính an toàn của thông tin sau khi giấu
Từ những nhận xét trên, tr-ớc khi tập trung nghiên cứu vào các
ph-ơng pháp giấu thông tin, đồ án sẽ trình bày những tính chất cơ bản của tín hiệu âm thanh và các đặc tính cụ thể của HAS, làm cơ sở, căn cứ để đề xuất ra những ph-ơng pháp che giấu thông tin Sau đó đi sâu phân tích một
số ph-ơng pháp đang đ-ợc sử dụng phổ biến hiện nay
2.1 Đặc điểm của tín hiệu âm thanh
2.1.1 Âm thanh và đặc điểm của tín hiệu âm thanh
Âm thanh là những sóng cơ học lan truyền trong không gian Ví dụ, khi ta nói, các dây thanh quản rung động ở những tần số khác nhau và tổng
Trang 33hợp các rung động này tạo ra âm thanh cuối cùng Một âm thanh bất kỳ
đ-ợc đặc tr-ng bởi ba đại l-ợng cơ bản là: cao độ, c-ờng độ, và âm sắc
• Cao độ âm thanh chia làm hai loại:
Cao độ tuyệt đối đ-ợc biểu thị bằng giá trị của tần số f Âm thanh càng cao thì tần số càng lớn
Cao độ t-ơng đối là tỷ số giữa âm thanh cần xác định cao độ và âm thanh gốc Những tần số cao hơn âm thanh gốc đ-ợc gọi là bội âm
• C-ờng độ âm thanh đ-ợc biểu diễn bằng năng l-ợng âm thanh sinh
ra ở một khoảng cách L nào đó so với nguồn âm, trong một đơn vị thời gian (giây), trên một đơn vị diện tích (m2) của mặt phẳng đặt vuông góc với chiều truyền âm C-ờng độ âm thanh phụ thuộc vào biên độ, tần số và môi tr-ờng truyền âm
• Âm sắc biểu diễn sự phong phú về tần số do nguồn âm phát ra Trong
thực tế không có nguồn đơn âm mà tồn tại những nguồn âm phức tạp Chúng đ-ợc biểu diễn theo công thức sau:
) (
k
k
P t
P (2.1) Trong mỗi nguồn âm đều tồn tại một thành phần tần số cơ bản:
) sin(
)
P (2.2) Biên độ của âm cơ bản là lớn nhất Các thành phần còn lại là các hài, hài càng cao thì năng l-ợng càng nhỏ Năng l-ợng của âm thanh tập trung chủ yếu ở âm cơ bản và lân cận của nó Khi đó, nguồn âm có thể biểu diễn gần đúng bằng ph-ơng trình:
P
1
) sin(
) ( (2.3) Tiếng nói là một dạng đặc biệt của âm thanh Con ng-ời dùng tiếng nói để trao đổi thông tin với nhau Cũng nh- âm thanh nói chung, tiếng nói cũng có âm sắc Nhờ âm sắc, ta có thể phân biệt đ-ợc giọng nói của ng-ời
đối thoại Tai ng-ời nhận âm thanh ở dải tần số từ 16 Hz đến 20000 Hz
Trang 34Nh-ng để hiểu nội dung của lời nói, ta chỉ cần dải tần từ 300 Hz đến 2400
Hz Tiếng nói có một số đặc tr-ng cơ bản sau:
• Hàm xác suất phân bố biên độ của tiếng nói không đồng đều Âm
có biên độ nhỏ xuất hiện nhiều, biên độ lớn xuất hiện ít
• Mật độ phổ công suất của tiếng nói không bằng phẳng
• Tồn tại âm hữu thanh, âm vô thanh trong tiếng nói
• T-ơng quan giữa các mẫu tiếng nói liên tiếp khác 0
• Phổ tần tiếng nói là hữu hạn
• Âm hữu thanh có tính chất giả tuần hoàn
Hình d-ới đây mô tả một dạng sóng âm thanh phức tạp:
Âm lượng
Thời gian
Hình 2.1: Biểu diễn dạng sóng âm thanh tần số 10 kHz
2.1.2 Biểu diễn tín hiệu âm thanh d-ới dạng số:
Trong nhiều tr-ờng hợp, việc định dạng và mã hoá nguồn đối với các bản tin liên tục (tiếng nói, âm nhạc, video, ) của các hệ thống thông tin số
đ-ợc thực hiện cùng một quá trình: biến đổi tín hiệu liên tục thành chuỗi tín hiệu số (chuỗi bit) hiệu quả về mặt tốc độ và truyền dẫn Cơ sở của ph-ơng pháp số hoá tín hiệu liên tục là định lý lấy mẫu của Shannon [4]
Nội dung của định lý nh- sau:
Một tín hiệu s t , với biến đổi Fourier của nó là S f , đ-ợc gọi là có băng tần hạn chế nếu S f 0 với f W , trong đó W là tần số lớn nhất chứa trong s t Theo định lý lấy mẫu, tín hiệu có băng tần hạn chế nh- thế
Trang 35đ-ợc biểu diễn duy nhất bởi các giá trị mẫu của s t lấy với tốc độ f s 2W
mẫu trong một giây Tốc độ lấy mẫu tối thiểu f s 2W mẫu/ giây đ-ợc gọi là tốc độ Nyquist Việc lấy mẫu với tốc độ thấp hơn tốc độ Nyquist dẫn đến méo gập phổ
Tín hiệu s t nh- trên biểu diễn đ-ợc theo:
n s
W
là các giá trị mẫu của tại thời điểm lấy mẫu t n W / 2
Thời gian: liờn tục
Biờn độ: liờn tục Thời gian: rời rạcBiờn độ: liờn tục Thời gian: rời rạcBiờn độ: rời rạc
Luồng bit số
Hình 2.2: Các b-ớc số hóa tín hiệu t-ơng tự Việc khôi phục lại tín hiệu s t tại đầu thu từ chuỗi các giá trị mẫu
h t
n
W t W
2.1.3 Cấu trúc tệp âm thanh định dạng Wav
Trong hầu hết các ứng dụng hiện nay, tín hiệu âm thanh đều đ-ợc l-u trữ d-ới định dạng Wav, Mp3, Mid, Đây là các dạng nén âm thanh theo chuẩn MPEG [7] Một cách đơn giản là có thể dùng Microphone hoặc bộ ghi hay máy Cassette đ-ợc nối với Card âm thanh trong máy tính cá nhân (PC) để nén âm thanh Nhìn chung, cấu trúc một tệp âm thanh dạng Wav là
Trang 36một dãy các byte ghi ở dạng hệ 16 Ví dụ: 7E 7D 80 E8 74 81 7D Trong
đó, tệp audio Wav đ-ợc đặc tr-ng bởi ba tham số sau:
• Tần số ghi của tín hiệu âm thanh
• Độ phân giải của quá trình ghi
• Thời gian ghi
Cấu trúc cụ thể của một tệp Wav đ-ợc trình bày ở phần phụ lục 2.1.3
2.2 Các đặc tính của hệ thống thính giác HAS
Để phân tích khả năng cảm thụ của HAS, chúng ta đề xuất khái niệm
Critical band (tạm dịch là băng chủ chốt) [5] dựa trên cơ chế biến đổi tần
số – không gian của màng nhĩ bên trong tai Trong thực tế, HAS cảm thụ
âm thanh bằng cách chia dải phổ công suất tín hiệu nhận đ-ợc thành các
Critical band Mỗi Critical band là một khối các bộ lọc thông dải mà băng
thông của chúng chồng lấn một phần lên nhau Nếu chọn tần số nghe giới
hạn cao nhất khoảng 24 kHz thì ta sử dụng 25 Critical band để mô tả HAS Băng thông của một Critical band đ-ợc tính xấp xỉ theo công thức:
T-ơng tự, ta có khái niệm thang chia tỉ lệ Z của Critical band giống nh-
thang chia tần số thông th-ờng Công thức chuyển đổi giữa tỉ lệ Z [Bark] và tần số f [Hz] cho d-ới đây:
Trang 37yếu này nhằm giảm số l-ợng bit yêu cầu mã hoá tín hiệu Còn trong các thuật toán giấu tin, đặc tính ngụy trang đ-ợc dùng với mục đích che giấu bit thông tin đem nhúng vào chuỗi bit tín hiệu có sẵn mà không gây bất kỳ trở
ngại nào cho việc cảm thụ chất l-ợng âm thanh
2.2.1 Ngụy trang tần số :
Đây là hiện t-ợng xảy ra trên miền tần số trong tr-ờng hợp một tín hiệu mức thấp không thể cảm thụ đ-ợc khi xuất hiện đồng thời các tín hiệu mức cao Ví dụ: nhạc cụ phát âm lớn hơn sẽ át mất các âm yếu hơn Ta gọi
tín hiệu che là masker, còn tín hiệu bị che là maskee Hiệu ứng ngụy trang chỉ xảy ra khi tín hiệu maskee và masker nằm khá gần nhau trên miền tần
số T-ơng ứng tính chất ngụy trang, ta có khái niệm ng-ỡng ngụy trang, để chỉ tr-ờng hợp nếu một tín hiệu nằm d-ới ng-ỡng này thì sẽ không thể nghe thấy hoặc cảm thụ đ-ợc Ng-ỡng ngụy trang phụ thuộc vào tính chất của cả
tín hiệu maskee lẫn masker (là nhiễu băng hẹp hay âm thuần tuý) Ví dụ xét ng-ỡng ngụy trang của tín hiệu masker 1 kHz với mức nén âm thanh (SPL)
Ngưỡng ngụytrang
Hình 2.3: Ngụy trang tần số trong HAS với SPL tại p0 2.10 5Pa
Với tín hiệu masker, tần số khoảng 1 kHz, thì SPL của tín hiệu
maskee có thể đạt giá trị rất lớn nếu nó nằm d-ới ng-ỡng ngụy trang Độ
Trang 38dốc của ng-ỡng ngụy trang càng cao đối với các thành phần tần số càng thấp, nghĩa là tần số cao dễ dàng che tần số thấp hơn Cả nhiễu lẫn thành phần tín hiệu mức thấp cũng dễ dàng bị che bên trong và bên ngoài của
critical band nếu SPL của chúng đều nằm d-ới ng-ỡng ngụy trang Thành
phần nhiễu có thể xuất hiện trong mã hoá, trong quá trình nén, trong chèn
chuỗi thông tin, hoặc do méo giao thoa… Nếu không có tín hiệu masker thì
một tín hiệu nào đó sẽ không cảm thụ đ-ợc chỉ khi SPL của nó nằm d-ới ng-ỡng lặng
Khoảng cách giữa mức của tín hiệu masker và ng-ỡng ngụy trang
đ-ợc gọi là tỉ số tín hiệu – ng-ỡng che (SMR) SMR nhận giá trị lớn nhất tại biên trái của critical band Tạp âm sinh ra trong quá trình nhúng tin
đ-ợc đánh giá thông qua tỉ số tín hiệu – tạp âm (SNR) Trong một critical
band thì SNR th-ờng lớn hơn SMR t-ơng ứng Nh- vậy, méo sinh ra do
chèn tin vào tín hiệu đ-ợc đo bằng tỉ số tạp âm – ng-ỡng che (NMR):
NMR (m) = SMR – SNR (m) (2.7) Trong đó m là thứ tự của critical band nơi diễn ra quá trình nhúng tin NMR biểu diễn sự sai khác giữa tạp âm do chèn tin trong critical band
cho tr-ớc và mức méo còn cảm thụ đ-ợc NMR [dB] mang giá trị âm
Tần số
Mức nộn õm thanh SPL [dB]
n + 1 n
n - 1
Critical band
Critical band bờn cạnh
Tone che dấu
Ngưỡng ngụy trang tối thiểu
Trang 39Những nhận xét trên chỉ dành cho tr-ờng hợp khi có một tín hiệu
masker Trong tr-ờng hợp đồng thời xuất hiện nhiều tín hiệu masker, ta
dùng khái niệm ng-ỡng ngụy trang chung để mô tả ng-ỡng mà tại đó xuất hiện méo nh-ng vẫn còn có thể cảm thụ đ-ợc Thực chất, ng-ỡng này là một hàm của tần số, đ-ợc tính toán dựa trên phổ biên độ của âm thanh nằm
trong một critical band, thông qua phép biến đổi Fourier với 1024 xung
mẫu Cách tính nh- sau: đầu tiên, tính tất cả các ng-ỡng ngụy trang của từng tín hiệu riêng lẻ Ng-ỡng này phụ thuộc vào mức tín hiệu, dạng tín
hiệu masker (âm hay nhiễu tạp) và dải tần số tác động Sau đó, tính ng-ỡng
ngụy trang chung bằng cách cộng tất cả các ng-ỡng riêng cùng với ng-ỡng lặng Cũng cần thiết phải xác định các giới hạn của hiệu ứng ngụy trang
trong critical band khi tính toán Cuối cùng, xác định tỉ số tín hiệu – tạp
âm chung là tỉ số giữa phổ công suất lớn nhất của tín hiệu với ng-ỡng ngụy
trang chung
2.2.2 Ngụy trang về thời gian
Đây là một trong hai đặc tính quan trọng của HAS và đ-ợc khai thác nhiều trong các thuật toán nén âm thanh Hiện t-ợng này xảy ra khi tín hiệu
masker và tín hiệu kiểm tra không xuất hiện đồng thời nh-ng đủ gần nhau
về mặt thời gian Nh- vậy, có thể xuất hiện hai tr-ờng hợp khác nhau :
• Pre-masking : tạm dịch là tiền che lấp, xảy ra khi tín hiệu kiểm tra
xuất hiện tr-ớc tín hiệu masker
• Post-masking : tạm dịch là che lấp ng-ợc, xảy ra trong tr-ờng hợp
bật tín hiệu kiểm tra sau khi tín hiệu masker xuất hiện và không còn tồn tại
Không mất tính tổng quát, ta giả thiết tín hiệu kiểm tra là phiên bản
bị dịch đi l-ợng t của tín hiệu masker Nh- vậy, hiện t-ợng tiền che lấp xảy ra tr-ớc khi tín hiệu masker đ-ợc bật và kéo dài khoảng 20 ms Nghĩa
là ng-ỡng ngụy trang sẽ giữ nguyên không đổi cho đến khi t đạt đến giá
Trang 40trị âm 20 ms nh- hình (2.5) Sau khi t -20 ms, ng-ỡng này sẽ tăng dần
và đạt đến mức giá trị ng-ỡng hiệu ứng che lấp đồng thời ngay tr-ớc khi tín
hiệu masker bật lên Hiệu ứng pre-masking giống nh- khi ta đã nghe thoáng
qua, nh-ng không cảm thụ Bởi vì thính gác cần một khoảng thời gian để xử
lý thông tin chứ không làm việc ngay lập tức Thời gian yêu cầu này phụ thuộc vào độ lớn của âm Do vậy, các âm càng lớn sẽ có thời gian thiết lập ngắn hơn các âm yếu và những âm lớn này đ-ợc cảm thụ tr-ớc tiên
Mức nộn õm thanh SPL [dB]
Thời gian [ms]
Khoảng thứ ba mô tả hiện t-ợng post-masking t-ơng ứng với sự suy
giảm của hiệu ứng ngụy trang tần số sau khi tắt tín hiệu masker Cứ sau độ
trễ khoảng 5 ms thì giá trị ng-ỡng này lại suy giảm, và sau khoảng 200 ms thì nó xấp xỉ bằng giá trị ng-ỡng im lặng Post-masking phụ thuộc nhiều
vào khoảng thời gian tồn tại tín hiệu masker Độ suy giảm của nó càng tăng
đối với các tín hiệu masker tồn tại càng ngắn
2.2.3 áp dụng HAS trong thiết kế , kiểm tra thuật toán giấu tin:
Hình (2.6) miêu tả quá trình kiểm tra có sử dụng các đặc tính của HAS để thiết kế một mô hình nhúng tin thích nghi: giấu những loại thông