1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn ẩn thông tin trên dữ liệu số nghiên cứu một số kỹ thuật steganalysis trên ảnh

12 977 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 77,3 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINLỚP CAO HỌC KHÓA 10 ĐỢT 2 THU HOẠCH MÔN ẨN THÔNG TIN TRÊN DỮ LIỆU SỐ ĐỀ TÀI Nghiên cứu một số kỹ thuật steganalysis trên ảnh Huỳnh Ngô Văn 1 NỘI DUNG Tó

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

LỚP CAO HỌC KHÓA 10 ĐỢT 2

THU HOẠCH MÔN ẨN THÔNG TIN TRÊN DỮ LIỆU SỐ

ĐỀ TÀI

Nghiên cứu một số kỹ thuật steganalysis trên ảnh

Huỳnh Ngô Văn 1

NỘI DUNG

Tóm tắt

Steganography là những kỹ thuật ẩn thông tin nhằm mục đích trao đổi thông tin mật đến một đối tượng và không muốn đối tượng thứ ba (không mong muốn) có thể phát hiện ra hay nghi ngờ Steganalysis là kỹ thuật đối lập với steganography nhằm phát hiện đối tượng đó có ẩn thông tin hay không Bài báo sẽ giới thiệu tổng quan về steganalysis và một số kỹ thuật đã được nghiên cứu Đối tượng nghiên cứu là ảnh có định dạng sau: JPG, GIF, PNG, TIF, BMP

Từ Khóa: Steganography, steganalysis

1 Steganography, steganalsis và các nghiên cứu liên qua

1.1 Steganography

1.1.1 Khái niệm

Ẩn thông tin là kỹ thuật liên lạc mật dựa trên hình thức ẩn thông tin quan trọng vào đối tượng khác Ẩn thông tin có tác dụng: bảo vệ bản quyền số, hay khi giữa các đối tượng liên lạc mật với nhau trên các kênh thông tin công cộng mà ít bị nghi ngờ Lý do

vì bản quyền số đã mã hóa sau khi được giải mã thì khó có thể giữ được bản quyền, hay thông tin mật cần trao đổi giữa các bên, sau khi được mã hóa sẽ làm cho người khác biết

rõ là các bên có trao đổi thông tin mật nào đó với nhau

1.1.2 Kỹ thuật

1 Học viên cao học khóa 10 đợt 2 - 2015, trường UIT, mã học viên: CH1502043

Trang 2

Kỹ thuật ẩn thông tin trên bit có trọng số thấp LSB là kỹ thuật thay thế các bit thông tin vào các bit có trọng số thấp của điểm ảnh Ví dụ trong một điểm ảnh của ản 8-bit màu thì 8 8-bit cuối cùng (8-bit thứ 8) gọi là 8-bit LSB Do vậy khi thay đổi giá trị của 8-bit này không làm ảnh hưởng nhiều đến chất lượng trực quan của ảnh

Ngoài kỹ thuật trên còn có một số kỹ thuật ẩn thông tin khác như kỹ thuật chèn nhiễu SS, kỹ thuật điều chỉnh hệ số lượng tử hóa QIM, kỹ thuật ẩn thuận nghịch…

1.1.3 Phương pháp đánh giá độ an toàn của một lược đồ ẩn thông tin:

Ký hiệu:

C là tập tất cả các ảnh gốc

M là tập các thông tin mật

K là tập các khóa

S là tập các ảnh steganography Một lược đồ ảnh thông tin là một cặp (S E , S X) với S E : C x M x K → S là hàm nhúng thông tin, S X : S x K → M là hàm tách thông tin Hàm nhúng S E tạo ra một đối tượng S từ mỗi C, M, K, hàm tách S X tách tin M từ S bằng khóa K

Giả sử P C là hàm phân bố xác suất của C Nếu khóa K và M được chọn ngẫu nhiên thì lược đồ ẩn thông tin (S E , S X¿ cùng với hàm phân số xác suất P C sẽ đuoợc hàm phân

bố xác suất P Stương ứng với S Khi đó theo khái niệm về ẩn thông tin an toàn của Cachin [1] ta có định nghĩa sau:

Định nghĩa: một lược đồ ẩn thông tin được gọi là an toàn nếu sai phân Kullback –

D KL(P C∨¿P S)=∑

C

P C(C)log P C(C )

P S(C)

Khi D KL(P C∨¿P S)<ε thì lược đồ ẩn thông tin có độ an toàn ε, trong đó ε là một số thực dương đủ nhỏ tùy ý cho trước

1.2 Steganalysis

1.2.1 Khái niệm

Trang 3

Steganalysis là kỹ thuật phát hiện sự tồn tại của thông tin được nhúng trong một đối tượng nào đó

1.2.2 Kỹ thuật

Steganalysis có thể định nghĩa như một bài toán phân loại dựa trên kiểm định giả thuyết thống kê Do đó steganalysis được phát biểu: hoặc như bài toán kiểm định giả thuyết đơn (simple hyphthesis), hoặc như bài toán kiểm định giả thuyết phức hợp (composite hypothesis)

Nếu chúng ta không có thông tin gì về lược đồ ẩn thông tin thì kỹ thuật phát hiện gọi là phát hiện mù (blind steganalysis) Trong trường hợp biết trước thông tin về lược

đồ ẩn thông tin thì gọi là phát hiện có ràng buộc (constraint steganalysis)

1.2.3 Tập dữ liệu ảnh thử nghiệm

Tập ảnh gốc sử dụng cho các thuật toán ẩn và phát hiện gồm 2088 ảnh xám với các kích thước khác nhau

2 Kỹ thuật Blind Steganalysis cho ảnh đã nhúng trên LSB

2.1 Trên miền không gian

2.1.1 Phát hiện bằng phân tích “độ lệch chuẩn”

Để phân loại ảnh nhúng và ảnh gốc trên LSB trong trường hợp này ta sử dụng định

lý sau:

nα ,n σ2¿.

Trong thực tế α và σ2 chưa biết nên ta phải ước lượng α , σ2 Có nhiều phương pháp để ước lượng các đại lượng này nhưng một phuong pháp thông dụng và đơn giản nhất là phương pháp hợp lý cực đại Bằng phương pháp này ta thay α bởi ước lượng ´x=1

i=1

n

x i và σ2 bởi ước lượng ^S2

=1

i=1 n

(x i−´x )2 Ký hiệu:

Trang 4

x max=max ⁡{x1, x2, … , x n} và x min=min ⁡{x1, x2,… , x n} Khi đó các đại lượng ngẫu nhiên:

V1=x max− ´x

^

S , V2=´x−x min

^

S , sẽ phân bố chuẩn Nn(0,1) không phục thuộc α và σ2 mà chỉ phụ thuộc vào n

Đặt V= V1+V2, do đại lượng ngẫu nhiên V1,V2có phân bố chuẩn Nn(0,1) nên V có phân bố chuẩn Nn(0,2) Áp dụng định lý giới hạn trung tâm[2], ta có

T = v

√2 (1)

sẽ có phân bố chuẩn Nn(0,1) đã được lập thành bảng XII trong [2] với n=1,2,3… và mức ý nghĩa α=0,1;0,05…

Đại lượng ngẫu nhiên T từ (1) có phân bố chuẩn Nn(0,1) tức là ta có xác suất P{T

≥ x0}=∫

x0

P n (t ) dt trong đó P n(t) là hàm mật độ xác suất chuẩn Nn(0,1) nếu cho trước n

và giá trị xác suất sai số loại I với α=α0, ta tìm được giá trị ngưỡngx0 bởi phương trình sau đây:

x0

P n (t )dt =1−

x0

P n (t ) dt=1−α0

Sau khi tìm được ngưỡng của bài toán ta áp dụng để phân loại ảnh như sau: kiểm tra V = x maxx min

^

S

- Nếu V ≥ t0, kết luận ảnh không nhúng thông tin

- Nếu V ¿t0, kết luận ảnh có nhúng thông tin

2.1.2 Phát hiện bằng thống kê x2một bậc tư do

Định lý 3: Gọi m là số lần xuất hiện của biến A trong dãy n phép thử Becouli với

np q

có xấp xỉ phân bố chuẩn N(0,1), với q = 1-p.

Trang 5

Bổ đề 1: Giả sử cho trước một dãy nhị phân được lấy từ một nguồn ngẫu nhiên,

2

n

Áp dụng bổ đề 1 vào việc phân loại ảnh có nhúng thông tin trên LSB bằng cách tính tần suất các điểm ảnh của một ảnh cần kiểm tra được vevtor C25x10 Thực hiện tiếp 1 số bước:

i Tìm giá trị lớn nhất của C25x10 ký hiệu là x max=C i0j0 ((i0j0) có giá trị lớn nhất tại hàng i0 của C25x10)

ii Tính ni0[0]=∑

j=0

4

X i0,2 j,ni0[1]=∑

j =0

4

X i0, 2 j+1, n i0=n i0[0]+n i0[1]

Áp dụng bổ đề 1, ta có (n i0[0]−n i0[1])2

n i0 có phân bố x2 1 bậc tự do

iii.Kết luận, nếu (n i0[0]−n i0[1])2

n i0 ≥ x i

2

(α) thì ảnh kiểm tra là ảnh không nhúng, ngược

lại nếu (n i0[0]−n i0[1])2

n i0 <x i

2

(α) thì ảnh kiểm tra là ảnh nhúng với xác suất sai số là

α

2.2 Trên miền tần số

2.2.1 Phân tích

Ẩn thông tin trên miền tần số cosin hay wavelet là hình thức ẩn thông tin trên LSB của các hệ số cosin trên miền tần số hay trên các băng tần cao Theo Provos, kỹ thuật ẩn thông tin trên LSB của các hệ số cosin cũng gây ra cân bằng các cặp PoV của hệ số cosin[2] Do đó Provos áp dụng phương pháp thống kê x2với n bậc tự do cho các cặp PoV của hệ số cosin …, (-8,-7),(-6,-5),(-4,-3),(-2,-1),(2,3),(4,5),(6,7)…

2.2.2 Kỹ thuật steganalysis

Thuật toán áp dụng cho ảnh nhúng trên LSB của miền tần số DCT

Trang 6

Đầu vào: Cho một tập ảnh JPEG bất kỳ (gồm có ảnh nhúng trên hệ số cosin và ảnh

gốc)

Đầu ra: Phân loại tập ảnh đó thành hai tập: ảnh nhúng và ảnh không nhúng trên

LSB của hệ số cosin

Các bước thực hiện:

Bước 1: Chọn ảnh I trong tập ảnh đầu vào, thực hiện bước 2 và bước 3 sau đó

quay lại chọn ảnh khác

Bước 2: Thống kê tần số các hệ số DCT của ảnh I vào ma trận

X n

={x i ,i=1,2 , … , n }(giá trị n được xác định từ số các hệ số có tần số lớn hơn 0) với

x i là tần số của hệ số cosin có giá trị i Thực hiện tính P0j với

P 2 j0

=P 2 j+10

2 (0< j<

n

2)

Ta có: T = ∑

i=0

n

2 x iln x i

(pq) P i

0

vào tập ảnh gốc, ngược lại I lưu vào tập ảnh có nhúng trên LSB của hệ số cosin

3 Một số kỹ thuật steganalysis có ràng buộc

3.1 Kỹ thuật HKC

3.1.1 Giới thiệu

Kỹ thuật HKC do J.H.Hwang đề xuất năm 2006[3], dựa trên phương pháp dịch chuyển biểu đồ tần suất như sau: chọn điểm Peak là điểm có cột tần suất lớn nhất trong biểu đồ tần suất, sau đó chọn hai điểm Zero1 và Zero2 (các điểm có cột tần suất có giá trị bằng 0) ở bên trái và bên phải điểm Peak Sau đó thực hiện làm rỗng

2 cột tần suất tại vị trí Peak+1 và Peak-1 Thực hiện nhúng thông tin vào ảnh theo nguyên tắc: giả sử cần nhúng bit b, quét ảnh theo thứ tự raster nếu điểm ảnh có giá trị bằng Peak-2 hoặc Peak+2, thì kiểm bit b cần nhúng: nếu thông tin là “1” thì điểm ảnh có giá trị là Peak -2 sẽ tăng lên 1, nêu điểm ảnh có giá trị là Peak+2 sẽ giảm đi “1”, còn nếu bit thông tin là “0” thì vẫn duy trì như cũ

3.1.2 Kỹ thuật HKC và ước lượng thông tin nhúng trong ảnh

Trang 7

3.1.2 1 Kỹ thuật của Kuo và Lin

Năm 2008, W.C.Kuo và Y.H.Lin đề xuất kỹ thuật steganalysis ảnh có nhúng

sử dụng kỹ thuật HKC[4] Họ quan sát biểu đồ tần số dựa trên đỉnh Peak trước và sau khi nhúng thấy 2 giá trị lân cận 2 bên của đỉnh peak bị tụt xuống

do nhúng tin

 Điểm Peak: (a) chưa nhúng, (b) đã nhúng, (c) nhúng không đầy dủ

vì vậy họ đưa ra định lý để xây dựng kỹ thuật steganalysis dưới đây:

quan hệ láng giềng được định nghĩa lần lượt như 2 biểu thức sau:

y3−y2

y3

y3−y4

y3 ≈ τ1,0.4 ≤ τ1≤ 0.6 (4.1)

|y1−y2

y2 ||y4−y5

y4 |≤ τ2(4.2)

Áp dụng định lý này, Kuo và Lin đưa ra thuật toán phát hiện ảnh nhúng sử dụng kỹ thuật HKC theo các bước sau:

i Tìm cặp giá trị điểm peak (x max , y max¿

ii Tính tỉ lệ thay đổi và mối quan hệ láng giềng sử dụng định lý 4

iii Nếu năm cặp giá trị liên tiếp lân cận(x max , y max) thỏa mãn (4.1) và (4.2), thì kết luận ảnh có nhúng, ngược lại là ảnh không nhúng

3.1.2 2 Thử nghiệm kỹ thuật HKC và ước lượng thông tin

Trang 8

Mặt khác chúng ta thấy có thể đưa ra biểu thức đơn giản hơn sử dụng kỹ thuật HKC Dựa vào phân tích ví dụ: ảnh gốc ban đầu có biểu đồ tần số như hình 3.1: (a)tổng 2 cột giá trị lân cân bên trái và 2 cột giá trị lân cận bên phải của điểm Peak luôn lớn hơn Peak, trong khi với biểu đồ tần số của ảnh có nhúng (c) thì ngược lại

Cũng dựa vào mối quan hệ bị thay đổi này giữa các vùng lân cận của h Peak mà chúng ta có thể ước lượng được số bit thông tin nhung trong ảnh dựa vào

h Peak−1h Peak+1 Ban đầu để nhúng tin chúng ta phải dịch chuyển h Peak−1sang

h Peak−2, h Peak+1sang h Peak+2, nghĩa là làm cho h Peak−1=0, h Peak+1=0 Sau khi nhúng các bit “1” của chuỗi thông tin làm dịch chuyển một phần h Peak−2, h Peak+2sang

h Peak−1 , h Peak+1(theo thuật toán HKC) còn các bit “0” ngầm định được nhúng vào các điểm ảnh Peak-2 và Peak+2

Gọi L0,L1 là số bit “0” và bit “1” của chuỗi thông tin M cần nhúng khi đó: L1

=h Peak−1+h Peak+ 1, còn L0≈ L1, vì chuỗi thông tin M là đại lượng ngẫu nhiên có phân bố nên xác suất bit “0” và xác suất bit “1” xấp xỉ bằng nhau và bằng 0.5 (P(0) ≈ P (1)≈ 0.5¿. Vậy độ dài bit thông tin M được nhúng trong ảnh sử dụng HKC được tính theo biểu thức sau: L=2L1=2(h Peak−1+h Peak +1)

3.2 Kỹ thuật DIH

3.2.1 Giới thiệu

Kỹ thuật DIH do nhóm tác giả Lee và các cộng sự đề xuất năm 2004[5] Ban đầu nhóm tác giả tính các giá trị sai phân của các điểm ảnh theo công thức d(i,j)=I(i+1,j) - I(I,j) và tính biểu đồ tần số cho các giá trị sai phân này Họ thấy rằng các giá trị tần số tập trung phần lớn vào các hệ số sai phân có giá trị -2, -1, 0,

1, 2, do đó có thể nhúng thông tin dựa vào các giá trị này Để sau khi nhúng có thể khôi phục ảnh gốc, họ sẽ phải dịch chuyển các cột tần số có giá trị sai phân lớn hơn

1 và nhỏ hơn -1 để làm rỗng các cột tần số có giá trị bằng 2 và -2 Sau đó chuỗi bit thông tin sẽ được nhúng vào các điểm ảnh mà giá trị sai phân của nó có giá trị là 1 hoặc -1, nếu bit thông tin nhúng là 1 thì hệ số sai phân nếu là 1 chuyển thành 2, nếu

là 01 chuyển thành -2, ngược lại giữ nguyên

3.2.2 Thử nghiệm kỹ thuật DIH

Bằng phương pháp phân tích biểu đồ tần số sai phân của ảnh trước và sau khi nhúng chúng ta có thể phát hiện và ước lượng được xấp xỉ ảnh có nhúng sử dụng kỹ

Trang 9

thuật DIH như sau: khi nhúng một thông tin giống nhau vào một tập ảnh gốc sử dụng kỹ thuật DIH nhận được một tập ảnh stego (ảnh đã nhúng) Thực hiện tính toán lại biểu đồ tần số sai phân trên từng cặp ảnh (gốc, đã nhúng) chúng ta dễ dàng nhận thấy DIH đã thay đổi tính chất tự nhiên của các giá trị sai phân

Sự thay đổi này là do DIH tạo ra, nó thay đổi tần số h ± 2 của ảnh để nhúng thông tin Đây chính là vấn đề mấu chốt để phát hiện ảnh đã nhúng, với biểu thức như sau: S(O) { ảnh Ocó nhúng nếu h2+h−2

h3+h−3 ảnh O không nhúng nếu ngượclại

Với T là ngưỡng để phân loại

3.3 Kỹ thuật IWH

3.3.1 Giới thiệu

Xuan và các cộng sự đã đề xuất kỹ thuật IWH (Integer Waveket Histogram) vào năm 2006[6] Kỹ thuật này có ý tưởng gần giống kỹ thuật DIH, tuy nhiên khác ở chỗ thay vì dịch chuyển các cột tần số giá trị sai phân thì họ sử dụng phương pháp dịch chuyển tần số của các hệ số biến đổi wavelet nguyên Họ thực hiện phép biến đổi wavelet cho miền dữ liệu ảnh theo chuẩn biến đổi trong kỹ thuật nén JPEG2000

để được bốn bằng tần (LL,LH,LH,HH) Sau đó họ nhúng thông tin vào 3 băng tần cao LH,HL,HH nơi được cho là ít ảnh hưởng đến ảnh gốc Tính tần số của các hệ

số IWT, các cột tần số có giá trị lớn ơn Z (Z là một số nguyên chọn tùy ý) sẽ bị dịch chuyển sang phải, mục đích làm rỗng cột tần số có giá trị Z, thông tin được nhúng vào hệ số có giá trị Z-1 và Z Nếu trong trường hợp số bit cần nhúng lớn hơn số hệ

số wavelet có giá trị Z1, thì thực hiện tiếp nhúng thông tin sang hệ số có giá trị -(Z+1) giá trị đối xứng qua hệ số 0, việc thực hiện nhúng tương tự, ban đầu chúng ta phải làm rỗng cột tần số -Z, sau đó nhúng thông tin vào các hệ số có giá trị -(Z-1)

và –Z Nếu vẫn còn bit thông tin tiếp tục nhúng vào hệ số Z-2, cho đến khi nhúng xong thông tin Giả sử việc nhúng dừng lại ở hệ số có giá trị bằng S và hệ số bắt đầu nhúng tin là T

3.3.2 Kỹ thuật IWH

Để tấn công và ước lượng nhúng sử dụng kỹ thuật IWH, đầu tiên tác giả đưa ra một

số phân tích trong quá trình nhúng dựa trên 3 thử nghiệm:

Trang 10

Trong thử nghiệm thứ 1, sử dụng ảnh Lena (kích thước 512 x 512 pixel) và thông tin nhúng là một ảnh nhị phân (128x56 pixel) Tính tần số của các giá trị wavelet trong 3 miền băng tần cao (LH,HL,HH) Nhúng thông tin bằng phương pháp IWH với Peak chọn khởi điểm là T=2, nhận được điểm dừng S=-2

Thử nghiệm thứ 2, cũng đầu vào như trên, nhưng nhúng thông tin chọn T=4, nhận được điểm dừng S=3

Thử nghiệm thứ 3, đầu vào tương tự, chọn T=6, và nhận được S=-5

So sánh sự khác biệt giữa biểu đồ tần số các hệ số wavelet của ảnh gốc và ảnh nhúng, thấy rằng trong một ảnh điển hình thì h0>h1>h2>h3>h0>h−1>h−2>h−3>

với h i là hệ số IW có giá trị bằng i Trong khi đó ảnh nhúng trong thí nghiệm 1 ta thấy h4>h3, h3≈ h2, h−4>h−3, h−3<h−2, trong thí nghiệm thứ 2 có

h5≈ h6, h−5≈ h−4,h4<h3, h4<h5, trong thí nghiệm thứ 3 h7≈ h8, h5≈ h6, h−7≈ h−8, h−5≈ h−6

Từ đây có thể tổng quát ước lượng độ dài thông tin như sau:

i Khởi tạo độ dài thông tin L=0, quét toàn bộ tần số với từng giá trị I (i>=0, i<= max(các hệ số wavelet nguyên của các băng tần cao)), nếu gặp giá trị đầu tiên h i+h i+ 1

2 <h i +2, dừng quét, đặt Peak =I là vị trí đầu tiên để ước lượng

ii Nếu h Peakh Peak+1, L=L+h Peak+h Peak +1, đặt Peak = - Peak và thực hiện tiếp bước

3 Ngược lại thực hiện bước 4 iii Nếu h Peakh Peak+1, L=L+h Peak+h Peak +1, đặt Peak = - Peak -2 và quay lại bước 2, Ngược lại tiếp tục bước 4

iv Nếu h Peak+1<h Peak+2h Peak+1<h Peak thì L = L + 2*h Peak+1 Quá trình kết thúc

3.4 Kỹ thuật RVH

3.4.1 Giới thiệu

Kỹ thuật RVK (Reversible Vertical Horizontal Technique) do P.Mohan Kumar và K.L.Shunmuganathan đề xuất vào tháng 3 năm 2010[7] Kỹ thuật này sử dụng chiến lược nhúng nhiều lần nhằm nâng cao chất lượng ảnh và dung lượng nhúng Quá trình nhúng sẽ chia làm 2 giai đoạn: Giai đoạn 1 gọi là nhúng theo chiều ngang HEm(Horizontal embedding procedure) và giai đoạn 2 gọi là nhúng theo chiều dọc VEm(Vertical embedding procedure) Chuỗi bít thông tin M với độ dài L m được

Ngày đăng: 17/12/2016, 09:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w