Nhúng thông tin đã được ứng dụng trong nhiều lĩnh vực như bảo vệ quyền sở hữu, điều khiển việc sao chép, xác nhận giấy tờ, hay truyền đạt thông tin khác, … trong đó ứng dụng phổ biến của
Trang 1ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN MINH KHÔI
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 60.48.01
TÌM HIỂU KỸ THUẬT NHÚNG THÔNG TIN ĐỂ BẢO VỆ BẢN QUYỀN CƠ SỞ
Trang 2LỜI CẢM ƠN
Luận văn được thực hiện tại trường Đại học Công nghệ Thông tin và
Truyền Thông – Đại học Thái Nguyên dưới sự hướng dẫn của PGS TS Bùi Thế Hồng
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Bùi Thế Hồng, người đã có những định hướng, những kiến thức quý báu, những lời động viên và chỉ bảo giúp tôi vượt qua những khó khăn để tôi hoàn thành tốt luận văn của mình
Tôi xin được bày tỏ lòng cảm ơn và sự kính trọng của mình đến các thầy cô giáo Trường Đại học Công nghệ Thông tin và Truyền Thông, Đại học Thái Nguyên, đặc biệt là các thầy cô giáo đã giảng dạy và giúp đỡ tôi trong suốt quá trình học tập tại trường
Tôi cũng đặc biệt cảm ơn tới bạn bè lớp Cao học K9D, các đồng nghiệp tại Trường Đại Lương Thế Vinh tỉnh Nam Định, đã luôn động viên, giúp đỡ tôi trong quá trình học tập và công tác, để tôi hoàn thành nhiệm vụ được giao
Nhân dịp này, tôi cũng xin gửi lời cảm ơn đến gia đình, người thân, đã tạo điều kiện giúp đỡ, động viên, trợ giúp tôi về tinh thần trong suốt quá trình học tập
Thái Nguyên, ngày 10 tháng 03 năm 2013
Tác giả
Nguyễn Minh Khôi
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Tìm hiểu kỹ thuật nhúng thông tin để bảo
vệ bản quyền cơ sở dữ liệu quan hệ” này là công trình nghiên cứu của riêng
tôi Các số liệu sử dụng trong luận văn là trung thực Các kết quả nghiên cứu đƣợc trình bày trong luận văn chƣa từng đƣợc công bố tại bất kỳ công trình nghiên cứu nào khác
Nguyễn Minh Khôi
Trang 4MỤC LỤC
LỜI CẢM ƠN i
LỜI CAM ĐOAN iii
DANH MỤC CÁC HÌNH VẼ ….vi
1 Đặt vấn đề 1
2 Đối tượng và phạm vi nghiên cứu 2
3 Hướng nghiên cứu của đề tài 2
4 Những nội dung nghiên cứu chính 3
5 Phương pháp nghiên cứu 3
6 Ý nghĩa khoa học của đề tài 3
CHƯƠNG I: TÌM HIỂU VỀ BẢN QUYỀN SẢN PHẨM SỐ VÀ KỸ THUẬT NHÚNG TIN. 5
1.1 Bản quyền sản phẩm số 5
1.2 Kỹ thuật nhúng thông tin và ứng dụng 7
1.2.1 Kỹ thuật nhúng thông tin 7
1.2.2 Phân loại các kỹ thuật nhúng tin 8
1.3 Ứng dụng của kỹ thuật nhúng tin 10
1.4 Môi trường nhúng tin 12
1.4.1 Trong văn bản 12
1.4.3 Trong audio 13
1.4.4 Trong video 14
1.4.5 Nhúng thông tin vào cơ sở dữ liệu quan hệ 15
1.5 Tình hình nghiên cứu kỹ thuật nhúng tin vào cơ sở dữ liệu 16
1.5.1 Theo kiểu dữ liệu (Data type) 17
1.5.2 Theo kiểu biến dạng (Distortion) 18
1.5.3 Theo độ nhạy (Sensitivity) 18
1.5.6 Theo thông tin thuỷ vân (watermark information) 18
1.5.7 Tính kiểm tra được 19
1.5.8 Theo cấu trúc dữ liệu (Data structure) 20
1.5.9 Xử lý dữ liệu theo khối (Data cube) 21
1.5.10 Xử lý theo dòng dữ liệu (Streaming data) 21
CHƯƠNG II: NHÚNG THÔNG TIN ĐỂ BẢO VỆ BẢN QUYỀN CƠ SỞ DỮ LIỆU 22
2.1 Cơ sở của giải pháp 22
2.1.1 Nhúng tin vào ảnh số 22
Trang 52.1.1.1 Nhúng tin bằng kỹ thuật thay thế bit có trọng số thấp nhất. 22
2.1.1.2 Các phép biến đổi miền không gian ảnh sang miền tần số. 26
2.1.1.3 Kỹ thuật sinh chuỗi giả ngẫu nhiên 30
2.1.1.4 Các kỹ thuật trải phổ trong truyền thông 31
2.2 Giải thuật nhúng đề xuất 33
2.3 Giải thuật giải nhúng 41
2.4 Bảng hợp trước các loại tấn công 43
2.4.1 Xóa ngẫu nhiên bản ghi 44
2.4.2 Sửa đổi bảng ghi 45
2.4.3 Chèn bản ghi 47
CHƯƠNG III: THỬ NGHIỆM GIẢI THUẬT ĐỀ XUẤT 48
3.1 Dữ liệu cho thử nghiệm 48
3.2 Xây dựng chương trình thử nghiệm 50
3.2.1Tổ chức, cài đặt giải thuật 51
3.2.2 Hoạt động của chương trình 52
KẾT LUẬN 55
PHỤ LỤC 57
1 Mã xác thực thông tin (MAC) 57
2 Hàm băm 58
TÀI LIỆU THAM KHẢO: 63
Trang 6DANH MỤC CÁC KÝ HIỆU VÀ MỤC VIẾT TẮT
LSB Least Significant Bit DFT Discrete Fourier Transform DCT Discrete Cosine Transform DWT Descrete Wavelet Transform IDWT Inverse Discrete Cosine Transform HVS Human Visual System
CSDL Cơ sở dữ liệu quan hệ
Trang 7DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Sơ đồ biểu diễn quá trình nhúng tin 8
Hình 1.2 Sơ đồ biểu diễn quá trình giải mã 8
Hình 1.3 Phân loại kỹ thuật nhúng tin 9
Hình 2.1: Minh họa thủy vân ảnh số 22
Hình 2.1.1: Minh họa cách nhúng tin bằng kỹ thuật LSB 25
Hình 2.2.1 Minh họa dữ liệu thông tin sinh viên 34
Hình 2.2.2 Minh họa dữ liệu kết quả học tập của sinh viên 35
Hình 2.2.3 Bảng hợp lưu dữ liệu để nhúng tin 35
Hình 2.2.4: Hình mô phỏng bảng hợp chứa thông tin tìm kiếm, xác định dữ liệu. 36
Hình: 2.2.5: Minh họa bảng hợp vào các bít sẽ nhúng………… ……… 39
Hình 2.2.6: Bảng sinh viên sau khi nhúng tin……… 40
Hình 2.2.7 Bảng Kết quả học tập sau khi nhúng tin……… 40
Hình 2.3.1: Bảng bit sau giải nhúng ………………… 43
Hình 2.4.1.1: Bảng kết quả học tập sau khi bị xóa một số bản ghi ……… 45
Hình 2.4.1.2: Bảng bit thu được từ giải nhúng sau khi CSDL bị xóa bản ghi………… 45
Hình 2.4.2.1: Bảng kết quả học tập sau khi bị sửa một số bản ghi ………… 46
Hình 2.4.2.2: Bảng bit thu được từ giải nhúng sau khi CSDL bị sửa bản ghi ……….46
Hình 3.1.1: Biểu diễn tổ chức, lưu trữ thông tin trong CSDL thử nghiệm 48
Hình 3.1.2: Mối liên giữa bảng dữ liệu sinh viên và bảng điểm kết quả học tập 50
Hình 3.2.1: Giao diện kết nối tới CSDL 52
Hình 3.2.2: Giao diện chọn bảng 53
Hình 3.2.3: Giao diện xác định các trường lấy thông tin 54
Hình 3.2.4 : Thao tác nhúng và tách nhúng. 54
Hình 4.1 Sơ đồ hoạt động của MAC 57
Hình 4.2 Mô tả quá trình xác thực thông tin bằng MAC 58
Hình 4.3 Biểu diễn hàm băm 61
Trang 8LỜI MỞ ĐẦU
1 Đặt vấn đề
Với sự phát triển nhanh chóng của Internet, việc sao chép và phân phối sản phẩm số bất hợp pháp đang trở thành vấn đề nhứng nhối với nhiều cơ quan, tổ chức, cá nhân Trong khi dữ liệu số lại là đối tượng dễ dàng bị nhân rộng, thay đổi và sao chép Do đó, nếu việc vi phạm bản quyền trở nên phổ biến, thì nó sẽ làm suy yếu giá trị của thương mại của các sản phẩm số này Điều này đã tạo ra cuộc cách mạng trong lĩnh vực bảo vệ quan điểm của quyền sở hữu trí tuệ Ngày nay, không chỉ ngành công nghiệp hình ảnh và âm nhạc (audio), cả các bộ phim (video) đang gặp phải vấn đề vi phạm bản quyền lớn, do các trang web cộng đồng chia sẻ tập tin và sự gia tăng của băng thông Internet Vì vậy, quản lý quyền kỹ thuật số đang ngày càng là một vấn
đề đáng quan tâm
Nhúng thông tin là một trong những kỹ thuật giấu dữ liệu hiện đại
Nó được định nghĩa như là quá trình chèn thông tin vào dữ liệu nhưng bảo đảm không cảm thụ được, nghĩa là chỉ làm thay đổi nhỏ dữ liệu gốc Nhúng thông tin đã được ứng dụng trong nhiều lĩnh vực như bảo vệ quyền
sở hữu, điều khiển việc sao chép, xác nhận giấy tờ, hay truyền đạt thông tin khác, … trong đó ứng dụng phổ biến của nó là cung cấp bằng chứng về bản quyền tác giả của các dữ liệu số bằng cách nhúng các thông tin bản quyền Rõ ràng trong ứng dụng này, thông tin nhúng cần phải bền vững trước các thao tác nhằm loại bỏ chúng
Trong thời đại bùng nổ thông tin hiện nay, cơ sở dữ liệu quan hệ gặp các nguy cơ tấn công là không thể tránh khỏi Do lo ngại ngày càng tăng về việc vi phạm bản quyền cơ sở dữ liệu quan hệ, nên việc quản lý quyền kỹ thuật số của cơ sở dữ liệu đang trở thành một lĩnh vực nghiên cứu cực kỳ quan trọng Gần đây đã được một số công trình tiên phong trong lĩnh vực này
Trang 9giúp xác lập quyền sở hữu cơ sở dữ liệu quan hệ Giải pháp được đưa ra chính
là sử dụng kỹ thuật nhúng thông tin vào cơ sở dữ liệu để cá nhân, tổ chức xác nhận quyền làm chủ sở hữu cơ sở dữ liệu mình Trước hết hãy xem xét kịch bản người mua-người bán chung một chủ sở hữu của cơ sở dữ liệu được bán cho nhiều khách hàng khác nhau Đối với trường hợp này, rõ ràng vấn đề chính là xác định quyền sở hữu mỗi bản sao của các dữ liệu được bán như vậy là xác định nguồn gốc chính xác và đáng tin cậy của cơ sở dữ liệu quan
hệ trong trường hợp vi phạm bản quyền Cũng với cách thức này áp dụng cho tình huống công bố cơ sở dữ liệu và vấn đề xác minh thông tin trong cơ sở dữ liệu có bị xuyên tạc hay không Vì vậy luận văn này sẽ tìm hiểu các kiểu tấn công nhằm vào cơ sở dữ liệu quan hệ, từng tình huống và tìm hiểu các cách giải quyết từng vấn đề Tiếp đến luận văn sẽ tìm hiểu thuật toán nhúng thông tin vào cơ sở dữ liệu quan hệ và đưa ra minh họa
2 Đối tượng và phạm vi nghiên cứu
Một số cách thức vi phạm bản quyền cơ sở dữ liệu quan hệ thường gặp
Nhúng thông tin vào cơ sở dữ liệu quan hệ là một lĩnh vực rộng lớn và mới mẻ luận văn này chỉ tìm hiểu các giải thuật cơ sở cho việc nhúng
và giải nhúng
3 Hướng nghiên cứu của đề tài
Tìm hiểu về cơ sở dữ liệu quan hệ
Tìm hiểu mô hình nhúng thông tin cơ sở dữ liệu quan hệ
Tìm hiểu các giải thuật liên quan
Trang 104 Những nội dung nghiên cứu chính
CHƯƠNG I: TÌM HIỂU VỀ BẢN QUYỀN SẢN PHẨM SỐ VÀ KỸ THUẬT NHÚNG TIN
CHƯƠNG II: NHÚNG THÔNG TIN ĐỂ BẢO VỆ BẢN QUYỀN CƠ SỞ
+ Tìm hiểu cơ sở toán học và phương pháp xây dựng mô hình cho bài toán nhúng thông tin để bảo vệ bản quyền cơ sở dữ liệu quan hệ
Về thực nghiệm:
+ Áp dụng các thuật toán trên cho mô hình cơ sở dữ liệu để minh họa
6 Ý nghĩa khoa học của đề tài
Trong thời đại ngày nay việc an toàn quyền sở hữu thông tin là một nhu cầu cập bách không thể xa rời An toàn sở hữu thông tin ở đây chính
là bảo vệ thông tin không bị sao chép trái phép, không bị thay đổi ở mọi hình thức xuyên tạc hay bóp méo sự thật Mà quan trong hơn cả là khẳng định quyền làm chủ thông tin, mà đặc biệt hơn nữa trong quyền sở hữu thông tin chính là quyền sở hữu cơ sở dữ liệu quan hệ Bởi vì mọi cá nhân,cơ quan, tổ chức, tồn tại trong xã hội thông tin thì thông tin của mình đều được lưu trữ trong cơ sở dữ liệu quan hệ Một khi cơ sở dữ liệu đó bị xâu phạm, bị biến đổi
mà ta không thể nào chứng thực lại thông tin gốc trong cơ sở dữ liệu thì điều
Trang 11gì sẽ xẩy ra Chính vì thề mà các kỹ thuật để chứng thực quyền sở hữu cơ
sở dữ liệu quan hệ đang đƣợc nhiều tổ chức đầu tƣ nghiên cứu, trong dó kỹ thuật nhúng thông tin để bảo vệ cơ sở dữ liệu quan hệ đang đƣợc nhiều tổ chức ứng dụng
Trang 12CHƯƠNG I: TÌM HIỂU VỀ BẢN QUYỀN SẢN PHẨM SỐ VÀ KỸ
THUẬT NHÚNG TIN
Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc trong xã hội và trong cuộc sống Những thuận lợi thông tin kỹ thuật số mang lại cũng đề ra những thách thức và cơ hội mới cho quá trình đổi mới
Sự ra đời những phần mềm có tính năng mạnh, các thiết bị mới như máy ảnh kỹ thuật số, máy quét chất lượng cao, máy in, máy ghi âm kỹ thuật số, v.v…, đã với tới thế giới tiêu dùng rộng lớn để sáng tạo, xử lý và thưởng thức các dữ liệu đa phương tiện Mạng Internet toàn cầu đã biến thành một
xã hội ảo nơi diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực chính trị, quân sự, quốc phòng, kinh tế, thương mại… Và chính trong môi trường mở
và tiện nghi như thế xuất hiện những vấn nạn, tiêu cực đang rất cần đến các giải pháp hữu hiệu cho vấn đề an toàn thông tin như nạn ăn cắp bản quyền, nạn xuyên tạc thông tin, truy nhập thông tin trái phép v.v Đi tìm giải pháp cho những vấn đề này không chỉ giúp ta hiểu thêm về công nghệ phức tạp đang phát triển rất nhanh này mà còn đưa ra những cơ hội kinh tế mới cần khám phá Một trong các giải pháp được quan tâm nhiều trong giai đoạn hiện nay là nhúng tin
1.1 Bản quyền sản phẩm số
Để nói về bản quyền sản phẩm số, trước hết ta tìm hiểu về bản quyền sản phẩm Bởi vì sản phẩn số là các sản phẩn được số hóa, tổ chức và lưu trữ trên máy tính
Copyright (bản quyền) là thuật ngữ được các quốc gia theo hệ thống pháp
luật Anh-Mỹ (Án lệ) dùng chỉ cho quyền phi vật thể đối với các tác phẩm trí tuệ Quyền này tương tự như quyền tác giả (Author's Right) Copyright lại bảo vệ quyền lợi kinh tế của người sở hữu quyền tác giả (owner of the Copyright) hơn là chính tác giả Copyright trước nhất là dùng để bảo vệ các đầu tư về kinh tế
Trang 13Tại Việt Nam, Quyền tác giả tại Việt Nam đã được quy định chi tiết trong
Bộ Luật Dân sự 2005, Luật Sở hữu trí tuệ và Nghị Định 100/NĐ-CP/2006 của Chính phủ quy định chi tiết và hướng dẫn thi hành một số điều của Bộ luật Dân sự Luật Sở hữu trí tuệ về quyền tác giả và quyền liên quan Theo đó, Quyền tác giả là quyền của tổ chức, cá nhân đối với tác phẩm do mình sáng tạo hoặc sở hữu, bao gồm các quyền sau đây:
1 Quyền Nhân thân
- Đặt tên cho tác phẩm
- Đứng tên thật hoặc bút danh trên tác phẩm; được nêu tên thật hoặc bút danh khi tác phẩm được công bố, sử dụng;
- Công bố tác phẩm hoặc cho phép người khác công bố tác phẩm;
- Bảo vệ sự toàn vẹn của tác phẩm, không cho người khác sửa chữa, cắt xén hoặc xuyên tạc tác phẩm dưới bất kỳ hình thức nào gây phương hại đến danh dự và uy tín của tác giả
2 Quyền tài sản
- Làm tác phẩm phái sinh;
- Biểu diễn tác phẩm trước công chúng;
- Sao chép tác phẩm;
- Phân phối, nhập khẩu bản gốc hoặc bản sao tác phẩm;
- Truyền đạt tác phẩm đến công chúng bằng phương tiện hữu tuyến, vô tuyến, mạng thông tin điện tử hoặc bất kỳ phương tiện kỹ thuật nào khác;
- Cho thuê bản gốc hoặc bản sao tác phẩm điện ảnh, chương trình máy tính Tác phẩm được bảo hộ theo cơ chế quyền tác giả là các tác phẩm trong lĩnh vực văn học, khoa học và nghệ thuật
Về phía người tiêu dùng thì, thì có những người tiêu dùng vì đã quen thuộc với các vi phạm về quyền tác giả trong các nơi trao đổi thông tin trên
Trang 14Internet nên đang tự nhận thấy bị hạn chế các quyền tự do bởi luật pháp ngày càng nghiêm ngặt hơn Bên cạnh đó cũng có những tác giả mong muốn đưa các tác phẩm của họ cho cộng đồng sử dụng tự do
Chính vì thế mà với các sản phẩm số là cơ sở dữ liệu quan hệ thì cũng không tránh khỏi các tác động của các tác nhân lên sản phẩm số nêu trên Áp dụng sự tiến bộ của khoa học và công nghệ, các nhà nghiên cứu đã đề ra kỹ thuật nhúng thông tin khẳng định bản quyền vào trong sản phẩm trước khi công bố sản phẩm Để biết các thông tin ẩn bên trong này có tác dụng thế nào, kỹ thuật này hoạt động ra sao, thì tôi xin trình bày ở các phần dưới đây
1.2 Kỹ thuật nhúng thông tin và ứng dụng
1.2.1 Kỹ thuật nhúng thông tin
Từ trước đến nay, nhiều phương pháp bảo vệ thông tin đã được đưa ra, trong đó giải pháp dùng mật mã được ứng dụng rộng rãi nhất Thông tin ban đầu được mã hoá, sau đó sẽ được giải mã nhờ khoá của hệ mã Đã có nhiều hệ
mã phức tạp được sử dụng như DES, RSA, NAPSACK , rất hiệu quả và phổ biến
Nhúng thông tin vào sản phẩm hay nhúng thông tin vào sản phẩm cách đưa một lượng thông tin vào trong sản phẩm mà vẫn bảo đảm tính chất ẩn của
dữ liệu được giấu và chất lượng sản phẩm
Sự khác biệt chủ yếu giữa mã hoá thông tin và nhúng thông tin là mã hoá làm cho các thông tin thể hiện là có được mã hoá hay không, còn với nhúng thông tin thì người ta sẽ khó biết được là có thông tin giấu bên trong
Trang 15Hình 1.1 Sơ đồ biểu diễn quá trình nhúng tin
Hình 1.2 Sơ đồ biểu diễn quá trình giải mã Hai sơ đồ trên hình 1.1 và 1.2 biểu diễn quá trình nhúng tin và quá trình giải
tin
1.2.2 Phân loại các kỹ thuật nhúng tin
Kỹ thuật nhúng thông tin số mới được hình thành trong thời gian gần đây nên xu hướng phát triển chưa ổn định Nhiều phương pháp mới, theo nhiều khía cạnh khác nhau Hình minh họa dưới đây là sơ đồ phân loại sau đây được Fabien A P Petitcolas đề xuất năm 1999
Trang 16Hình 1.3 Phân loại kỹ thuật nhúng tin
Dựa trên việc thống kê các công trình đã công bố trên các tạp chí, cùng với thông tin về tên và tóm tắt nội dung của các công trình đã công bố trên Internet, người ta chia lĩnh vực nhúng tin ra làm hai hướng lớn, đó là watermarking và steganography
Steganography quan tâm tới ứng dụng che giấu các bản tin đòi hỏi độ
bí mật cao và dung lượng lớn
Watermark (thủy vân) quan tâm nhiều đến ứng dụng nhúng các mẩu tin ngắn nhưng đòi hỏi độ bền vững lớn của thông tin cần giấu (trước các biến đổi thông thường của tệp dữ liệu môi trường)
Đối với từng hướng lớn trên, quá trình phân loại theo các tiêu chí khác nhau dựa theo ảnh hưởng các tác động từ bên ngoài, người ta có thể chia watermark thành hai loại, một loại bền vững với các tác động sao chép trái phép, loại thứ hai lại cần tính chất hoàn toàn đối lập: dễ bị phá huỷ trước các
Trang 17tác động nói trên Cũng có thể chia watermark theo đặc tính, một loại cần được che giấu để chỉ có một số người tiếp xúc với nó có thể thấy được thông tin, loại thứ hai đối lập, cần được mọi người nhìn thấy
Như đã trình bày ở trên, các kỹ thuật nhúng tin ta đang tìm hiểu mục đích để bảo vệ bản quyền và từ đây ta có thể song hành sử dụng hai từ khóa nhúng tin bảo vệ bản quyền và thủy vân mang tính chất tương đương nhau
1.3 Ứng dụng của kỹ thuật nhúng tin
Bảo mật thông tin bằng nhúng tin có hai khía cạnh Một là bảo mật cho dữ liệu được nhúng, ví dụ nhúng tin mật: thông tin mật được giấu kỹ trong một đối tượng khác sao cho người khác không phát hiện được Hai
là bảo mật chính đối tượng được dùng để giấu dữ liệu vào, chẳng hạn ứng dụng bảo vệ bản quyền, phát hiện xuyên tạc thông tin Một số ứng dụng đang được triển khai:
- Bảo vệ bản quyền tác giả (copyright protection): Đây là ứng dụng cơ bản nhất của kỹ thuật thuỷ vân Một thông tin nào đó mang ý nghĩa quyền sở hữu tác giả (người ta gọi nó là thuỷ vân - watermark) sẽ được nhúng vào trong các sản phẩm, thuỷ vân đó chỉ người chủ sở hữu hợp pháp các sản phẩm đó có và được dùng làm minh chứng cho bản quyền sản phẩm Giả sử
có một thành phẩm dữ liệu dạng đa phương tiện như ảnh, âm thanh, video cần được lưu thông trên mạng Để bảo vệ các sản phẩm chống lại hành vi lấy cắp hoặc làm nhái cần phải có một kỹ thuật để “dán tem bản quyền” vào sản phẩm này Việc dán tem hay chính là việc nhúng thuỷ vân cần phải đảm bảo không để lại một ảnh hưởng lớn nào đến việc cảm nhận sản phẩm Yêu cầu kỹ thuật đối với ứng dụng này là thuỷ vân phải tồn tại bền vững cùng với sản phẩm, muốn bỏ thuỷ vân này mà không được phép của người chủ sở hữu thì chỉ còn cách là phá huỷ sản phẩm
- Xác thực thông tin và phát hiện xuyên tạc thông tin (authentication
Trang 18and tamper detection): Một tập thông tin sẽ được nhúng trong phương tiện chứa, sau đó được sử dụng để nhận biết dữ liệu trên phương tiện gốc
có bị thay đổi hay không Các thuỷ vân nên được ẩn để tránh sự tò mò của đối phương, hơn nữa việc làm giả các thuỷ vân hợp lệ hay xuyên tạc thông tin nguồn cũng cần xem xét.Trong các ứng dụng thực tế, người ta mong muốn tìm được vị trí bị xuyên tạc cũng như phân biệt được các thay đổi (ví dụ như phân biệt một đối tượng đa phương tiện chứa thông tin nhúng đã bị thay đổi, xuyên tạc nội dung hay chỉ bị nén mất dữ liệu).Yêu cầu chung đối với ứng dụng này là khả năng nhúng thông tin cao và thuỷ vân không cần bền vững
- Dấu vân tay hay dán nhãn (fingerprinting and labeling): Thuỷ vân trong những ứng dụng này được sử dụng để nhận diện người gửi hay người nhận một thông tin nào đó Ví dụ các vân khác nhau sẽ được nhúng vào các bản copy khác nhau của thông tin gốc trước khi chuyển cho nhiều người Với những ứng dụng này, yêu cầu là đảm bảo độ an toàn cao cho các thuỷ vân, tránh khả năng xoá dấu vết trong khi phân phối
- Điều khiển truy cập (copy control): Các thiết bị phát hiện thuỷ vân (ở đây sử dụng phương pháp phát hiện thuỷ vân đã nhúng mà không cần thông tin gốc) được gắn sẵn vào trong các hệ thống đọc ghi, tùy thuộc vào việc có thủy vân hay không để điều khiển (cho phép/cấm) truy cập Ví dụ hệ thống quản lí sao chép DVD đã được ứng dụng ở Nhật
- Nhúng tin bí mật (steganography): Các thông tin nhúng được trong những trường hợp này càng nhiều càng tốt Việc giải mã để nhận được thông tin cũng không cần phương tiện chứa gốc [4],[5]
Một ứng dụng phổ biến của kỹ thuật thuỷ vân là đưa ra một bằng chứng về quyền sở hữu đối với dữ liệu số bằng cách nhúng dấu hiệu mang tính bản quyền vào phim hoặc các sản phẩm ảnh số
Ngoài ra, còn có những ứng dụng khác :
Trang 19- Tự động điều khiển và tự hiệu chỉnh sao chép tài liệu trên Web Ví dụ một robot tìm web để đánh dấu vào tài liệu và từ đó nhận dạng sản phẩm bất hợp pháp
- Tự động kiểm tra việc truyền nhận sóng vô tuyến Ví dụ một robot có thể “nghe” một trạm thu phát sóng radio và tìm kiếm những dấu hiệu để biểu thị một phần cụ thể của bản nhạc hoặc lời quảng cáo vừa được phát ra
- Việc mở rộng dữ liệu- để thêm thông tin mang lại lợi ích một cách công khai
- Ứng dụng trong lấy dấu vân tay (cho phép nhận dạng dữ liệu đã phân tán)
1.4 Môi trường nhúng tin
Kỹ thuật nhúng tin đã được nghiên cứu và áp dụng trong nhiều môi trường dữ liệu khác nhau như trong dữ liệu đa phương tiện (text, image, audio, video), trong sản phẩm phần mềm và gần đây là những nghiên cứu trên môi trường cơ sở dữ liệu quan hệ Trong các môi trường dữ liệu đó thì dữ liệu
đa phương tiện là môi trường chiếm tỉ lệ chủ yếu trong các kỹ thuật nhúng tin
1.4.1 Trong văn bản
Nhúng thông tin bí mật vào trong văn bản là một kỹ thuật nhúng tin đơn giản và được phát triển sớm nhất Kỹ thuật này có người còn hiểu đó như phần mật mã thông tin Kỹ thuật này tận dụng những thuộc tính của văn bản, thay đổi một số thuộc tính văn bản theo quy ước để che giấu thông tin bên trong Tuy nhiên đi kèm với sự đơn giản là dễ bị tấn công, gỡ bỏ hoặc làm sai lệch thông tin được giấu
Trang 201.4.2 Trong ảnh số
Nhúng thông tin trong ảnh, hiện nay, là một bộ phận chiếm tỉ lệ lớn nhất trong các chương trình ứng dụng, các phần mềm, hệ thống nhúng tin trong đa phương tiện bởi lượng thông tin được trao đổi bằng ảnh là rất lớn và hơn nữa nhúng thông tin trong ảnh cũng đóng vai trò hết sức quan trọng trong các hầu hết các ứng dụng bảo vệ an toàn thông tin như: nhận thực thông tin, xác định xuyên tạc thông tin, bảo vệ bản quyền tác giả, điều khiển truy cập, nhúng thông tin mật Vì vậy vấn đề nhúng tin trong ảnh này đang được quan tâm rất lớn của các nhà nghiên cứu
Thông tin sẽ được nhúng vào cùng với dữ liệu ảnh nhưng chất lượng ảnh ít bị thay đổi và không thể nhận biết được bằng thị giác của con người,
nó chỉ có thể bị phát hiện bởi “thị giác máy” Ngày nay, khi ảnh số đã được
sử dụng rất phổ biến, thì nhúng thông tin trong ảnh đã đem lại rất nhiều những ứng dụng quan trọng trên nhiều lĩnh vực trong đời sống xã hội thì việc nhận thực chữ kí số, xác thực thông tin đã trở thành một vấn đề cực kì quan trọng khi mà việc ăn cắp thông tin hay xuyên tạc thông tin bởi các tin tặc đang trở thành một vấn nạn đối với bất kì quốc gia nào, tổ chức nào Một đặc điểm của nhúng thông tin trong ảnh đó là thông tin được nhúng trong ảnh một cách vô hình, nó như là một cách mà truyền thông tin mật cho nhau mà người khác không thể biết được bởi sau khi nhúng thông tin thì chất lượng ảnh gần như không thay đổi đặc biệt đối với ảnh mầu hay ảnh xám
1.4.3 Trong audio
Nhúng thông tin trong audio mang những đặc điểm riêng khác với nhúng thông tin trong các đối tượng đa phương tiện khác Một trong những yêu cầu cơ bản của nhúng tin là đảm bảo tính chất ẩn của thông tin được nhúng đồng thời không làm ảnh hưởng đến chất lượng của dữ liệu gốc Để
Trang 21đảm bảo yêu cầu này, kỹ thuật nhúng thông tin trong ảnh phụ thuộc vào hệ thống thị giác của con người - HVS (Human Vision System) còn kỹ thuật nhúng thông tin trong audio lại phụ thuộc vào hệ thống thính giác HAS (Human Auditory System) Và một vấn đề khó khăn ở đây là hệ thống thính giác của con người nghe được các tín hiệu ở các giải tần rộng và công suất lớn nên đã gây khó dễ đối với các phương pháp nhúng tin trong audio Nhưng thật may là HAS lại kém trong việc phát hiện sự khác biệt các dải tần
và công suất điều này có nghĩa là các âm thanh to, cao tần có thể che giấu được các âm thanh nhỏ thấp một cách dễ dàng Các mô hình phân tích tâm
lí đã chỉ ra điểm yếu trên và thông tin này sẽ giúp ích cho việc chọn các audio thích hợp cho việc nhúng tin
Vấn đề khó khăn thứ hai đối với nhúng thông tin trong audio là kênh truyền tin Kênh truyền hay băng thông chậm sẽ ảnh hưởng đến chất lượng thông tin sau khi nhúng Nhúng thông tin trong audio đòi hỏi yêu cầu rất cao về tính đồng bộ và tính an toàn của thông tin Các phương pháp nhúng thông tin trong audio đều lợi dụng điểm yếu trong hệ thống thính giác của con người
1.4.4 Trong video
Cũng giống như nhúng thông tin trong ảnh hay trong audio, nhúng tin trong video cũng được quan tâm và được phát triển mạnh mẽ cho nhiều ứng dụng như điều khiển truy cập thông tin, nhận thực thông tin và bảo vệ bản quyền tác giả Các kỹ thuật nhúng tin trong video cũng được phát triển mạnh
mẽ và cũng theo hai khuynh hướng là thuỷ vân số và datahiding Một phương pháp nhúng tin trong video được đưa ra bởi Cox là phương pháp phân bố đều Ý tưởng cơ bản của phương pháp là phân phối thông tin nhúng dàn trải theo tần số của dữ liệu chứa gốc Một số nhà nghiên cứu khác đã dùng những hàm Cosin riêng và các hệ số truyền sóng riêng để nhúng tin
Trang 22Trong các thuật toán khởi nguồn thì thường các kỹ thuật cho phép nhúng các ảnh vào trong video nhưng thời gian gần đây các kỹ thuật cho phép nhúng
cả âm thanh và hình ảnh vào video
1.4.5 Nhúng thông tin vào cơ sở dữ liệu quan hệ
Với tốc độ phát triển nhanh của Internet và các công nghệ có liên quan đã đưa đến một tiềm năng chưa từng có đối với việc truy cập và phân phối lại các sản phẩm kỹ thuật số Trong bối cảnh như vậy, việc thực thi quyền sở hữu dữ liệu là một yêu cầu quan trọng đòi hỏi các giải pháp đồng bộ, bao gồm các khía cạnh về kỹ thuật, về tổ chức, và cả luật pháp Mặc dù vẫn chưa có được những giải pháp toàn diện như vậy nhưng trong các năm gần đây, các kỹ thuật thuỷ vân đã đóng vai trò quyết định nhằm giải quyết vấn đề về quyền sở hữu này Những kỹ thuật như vậy cho phép người chủ dữ liệu có thể nhúng một thuỷ vân ẩn vào dữ liệu Một thuỷ vân thường
mô tả những thông tin có thể được dùng để chứng minh quyền sở hữu dữ liệu, chẳng hạn như tên chủ sở hữu, nguồn gốc, hoặc người tiếp nhận nội dung này Việc nhúng thông tin an toàn đòi hỏi thuỷ vân được nhúng trong
dữ liệu không thể bị làm giả mạo hoặc bị tẩy xoá một cách dễ dàng Nhúng
ẩn có nghĩa là thuỷ vân không thể nhìn thấy được trong dữ liệu Hơn nữa, việc phát hiện thuỷ vân được thực hiện theo phương pháp mù, tức là không đòi hỏi dữ liệu gốc cũng như thuỷ vân gốc Đã có một số kỹ thuật thuỷ vân được phát triển để nhúng thủy vân phim, âm thanh, ảnh và dữ liệu văn bản
Trái lại, vấn đề thuỷ vân dữ liệu quan hệ đã không nhận được sự chú
ý thích đáng Tuy nhiên, có nhiều ngữ cảnh ứng dụng trong đó dữ liệu trở nên một tài sản quan trọng, vì vậy vấn đề về quyền sở hữu phải được thực thi một cách cẩn thận Ví dụ dữ liệu về thời tiết, dữ liệu về thị trường chứng khoán, dữ liệu về hành vi của khách hàng, dữ liệu y học và khoa học Việc nhúng thuỷ vân vào dữ liệu quan hệ có thể thực hiện được bởi trong
Trang 23thực tế, các dữ liệu thật có thể chấp nhận một dung sai nhỏ mà vẫn không ảnh hưởng đáng kể đến giá trị sử dụng của chúng
Cho đến nay, mới có một vài cách tiếp cận đối với bài toán thuỷ vân
dữ liệu quan hệ được đề xuất Tuy nhiên, những kỹ thuật này không bền vững đối với các tấn công thủy vân Phần tiếp theo của đề tài này xin đề xuất một kỹ thuật thuỷ vân cơ sở dữ liệu quan hệ mới [1], [2], [6],[7]
Nhúng tin là một công nghệ mới rất phức tạp, nó đang được các nhà khoa học tập trung nghiên cứu ở nhiều nước trên thế giới Tuy nhiên, những kết quả thực nghiệm cho thấy để thực sự ứng dụng thực tế thì lĩnh vực này cần phải có thêm thời gian để nghiên cứu và thẩm định
Trong luận văn này ta đề cập tới vấn đề chính là nhúng tin vào cơ sở dữ liệu nên trong phần tiếp theo, chúng ta sẽ chi tiết hơn về tình hình nghiên cứu
kỹ thuật này
1.5 Tình hình nghiên cứu kỹ thuật nhúng tin vào cơ sở dữ liệu
Cho đến nay, các nhà khoa học ở Việt Nam đã có một số công trình đã được công bố trong đó có áp dụng kỹ thuật nhúng tin (thuỷ vân), trong đó chủ yếu tập trung vào các lĩnh vực như thuỷ vân audio, thuỷ vân video, thuỷ vân ảnh Các công trình nghiên cứu về thuỷ vân cơ sở dữ liệu vẫn còn hạn chế và đang được tiếp tục nghiên cứu tuy nhiên vẫn chưa nhiều về số lượng các công trình Các công trình về nhúng tin vào (thuỷ vân) sơ sở dữ liệu thông thường nghiên cứu theo một số hướng như sau:
Phương pháp sử dụng các bít trọng số nhỏ LSB khá đơn giản cho việc cài đặt, tuy nhiên thông tin được nhúng không bền vững trước nhiều hình thức tấn công Phương pháp này thích hợp cho mục đích nhúng thông tin mật [1],[2]
Trang 24Phương pháp gán và sử dụng thuộc tính chẵn lẻ có một số ưu điểm như đơn giản trong cài đặt, dễ kiểm soát chất lượng môi trường nhúng tin, có
độ bền vững cao trước nhiều hình thức tấn công Phương pháp này có hiệu quả cao khi áp dụng cho môi trường nhúng tin không chịu nén tổn hao, có cho phép sai số [3],[4]
Trên thế giới đã có nhiều công trình nghiên cứu về lĩnh vực này; Căn
cứ vào các công trình nghiên cứu, các bài báo đã công bố , ta có thể thấy các kỹ thuật nhúng tin vào cơ sở dữ liệu được nghiên cứu và phát triển theo các dạng như sau:
1.5.1 Theo kiểu dữ liệu (Data type)
Thuỷ vân dữ liệu kiểu số (watermarking numerical data) [9]
Giả thiết cơ bản của nghiên cứu này là chấp nhận một lượng thay đổi với các số nhỏ ở các bit ít ý nghĩa nhất của các giá trị dữ liệu kiểu số
Ý tưởng cơ bản là phải đảm bảo rằng các vị trí bit nhúng đó có chứa các giá trị đặc trưng để có thể xác định được bởi khoá bí mật K
Để nhận dạng lại thuỷ vân đã nhúng, người ta đã tiến hành so sánh các giá trị đánh dấu được tính toán với các giá trị bit đã lưu trong cơ sở dữ liệu Thuỷ vân được nhận dạng nếu tỷ lệ phần trăm trùng lặp lớn hơn một ngưỡng T nào đó cho trước
Watermarking categorical data [15]
Ý tưởng cơ bản của các nghiên cứu này là: đối với mỗi nhóm thuộc tính
X nào đó, thay đổi một số giá trị của thuộc tính này thành các giá trị khác sao cho các thay đổi này là chấp nhận được Các thay đổi này sẽ tuỳ thuộc vào từng ứng dụng cụ thể
Trang 251.5.2 Theo kiểu biến dạng (Distortion)
Ý tưởng cơ bản của nghiên cứu này là: Tất cả các bộ được phân hoạch một cách bí mật thành g nhóm thông qua hàm băm H(K,r.P) Một dấu thuỷ vân (watermark) khác được nhúng vào mỗi nhóm, vì vậy bất kỳ một thay đổi nào trên dữ liệu đều có thể được nhận dạng và định vị với độ chính xác cao tới cấp nhóm [16]
1.5.3 Theo độ nhạy (Sensitivity)
Hệ thống thuỷ vân có thể được phân thành hai dạng là bền vững và dễ
bị phá huỷ thông qua độ nhạy của chúng đối với các tấn công cơ sở dữ liệu
+ Bền vững (Robust watermarks) được sử dụng cho bảo vệ bản quyền, chứng mình quyền sở hữu, hoặc chống lại sự sao chép lậu
+ Dễ bị phá huỷ (Fragile watermarks) được sử dụng để định vị và phát hiện sự giả mạo dữ liệu
1.5.6 Theo thông tin thuỷ vân (watermark information)
a Nhúng một bit đến nhiều bit
Thuỷ vân một tập các số thực bằng cách thay đổi các phân phối của
Trang 26nó
Phương pháp này được thực hiện bằng cách:
+ Sắp xếp các giá trị thông qua khoá được băm của tập các bit ý nghĩa nhất của các giá trị đã được chuẩn hoá
+ Phân hoạch chúng thành các tập con không giao nhau
+ Nhúng một bit thuỷ vân vào một tập con bằng cách thực hiện các thay đổi rất nhỏ, như vậy các đầu ra trong phân phối là nhỏ hơn (hoặc lớn hơn) một ngưỡng nhỏ (hoặc lớn) nào đó
b Nhúng từ nhiều bit đến cả một dấu vân tay
Đặc điểm của phương pháp là:
+ Định danh đối tượng sử dụng dữ liệu
+ Nhiều bit fingerprint được sử dụng để xác định đối tượng người dùng nào là kẻ gian lận
Nhúng một thuỷ vân đến nhiều thuỷ vân (from one watermark to multiple watermark)
Công trình này giải quyết được các giả thiết đặt ra như sau:
+ Kẻ giả mạo cố tình chèn thêm thuỷ vân khác nữa vào dữ liệu đã được thuỷ vân
+ Một nhóm người dùng muốn nhúng thuỷ vân riêng của mỗi người vào dữ liệu và xác minh lại quyền sở hữu của họ một cách độc lập Giải pháp của nghiên cứu này đưa ra là: Mở rộng nghiên cứu của Agrawal
và Kiernan là nhúng nhiều thuỷ vân khác nhau W1, W2, W3,… vào dữ liệu với các khoá K1, K2, K3,…khác nhau [18],[19]
1.5.7 Tính kiểm tra được
Yêu cầu:
+ Các cách tiếp cận dựa vào khoá mật là không phù hợp với việc cung
Trang 27cấp bản quyền tác phẩm ra công chúng
+ Người chủ sở hưu dữ liệu sử dụng một khoá công khai để thực hiện một thuỷ vân công khai Vì vậy bất kỳ ai cũng có thể sử dụng các khoá công khai này để nhận dạng thuỷ vân đã nhúng
Giải pháp của tác giả đưa ra là:
+ Công khai khoá
+ Thuỷ vân (công khai): Khoá chính, bit ý nghĩa nhất được chọn (most significant bit)
+ Dấu xác thực: Số hiệu chủ sở hữu (owner ID), khoá thuỷ vân (key), hàm băm, thời điểm tạo dữ liệu, tính pháp lý, thuộc lĩnh vực nào
1.5.8 Theo cấu trúc dữ liệu (Data structure)
Sử dụng khoá chính ảo (Virtual primary key)
Giải quyết vấn đề đặt ra là: Nhiều lược đồ thuỷ vân đều dựa vào sự tồn tại của khoá chính, điều này tồn tại một số nhược điểm như sau:
+ Không thể áp dụng thuỷ vân trực tiếp với những quan hệ mà không tồn tại khoá chính
+ Rất dễ bị tấn công bởi kẻ tấn công đơn giản là thực hiện thay đổi hoặc xoá khoá chính
Ý tưởng cơ bản để giải quyết các vấn đề trên được nêu ra trong công trình này là:
+ Xây dựng khoá chính ảo bằng cách kết hợp các bit ý nghĩa nhất của một số thuộc tính để tạo khoá chỉnh ảo
+ Các thuộc tính khác nhau được chọn cho mỗi bộ là dựa vào một khoá
bí mật
+ Nhược điểm của phương pháp này là làm tăng gấp đôi nguy cơ thất bại khi nhận dạng lại thuỷ vân đã nhúng bởi vì, khi tao ra thêm một khoá
Trang 28chính ảo, một số bit thuỷ vân sẽ được nhúng ít lần hơn các bit khác vào dữ liệu Điều này làm gia tăng khả năng thất bại trong nhận dạng thuỷ vân nếu bị tấn công
1.5.9 Xử lý dữ liệu theo khối (Data cube)
Dữ liệu dạng khối là một dạng dữ liệu phổ biến mà hỗ trợ tốt cho việc khai thác một lượng lớn dữ liệu đa chiều Thao tác phố biến nhất đối với dữ liệu dạng này là truy vấn tổ hợp
1.5.10 Xử lý theo dòng dữ liệu (Streaming data)
Ý tưởng của công trình này là sử dụng một số các giá trị cực trị và các giá trị lân cận của nó như là những đối tượng mang các bit thuỷ vân Lựa chọn các giá trị cực trị và thuỷ vân mọi giá trị lân cận (LSB) dựa trên một khoá bí mật và các bit ý nghĩa nhất của chúng (MSB) Mọi mẫu đều bao gồm đầy đủ các giá trị cực trị và các giá trị lân cận của nó
Và cũng là loại này còn theo chiếu hướng này là phân hoạch một luồng
dữ liệu dạng số thành các nhóm và nhúng một thuỷ vân vào mỗi nhóm Việc phân nhóm là dựa vào các điểm động bộ Một thuỷ vân dùng để nhúng được tính toán bằng cách băm nhóm đã được băm trước đó hiện tại và nhóm đã băm trước đó tiếp theo, từ đó thuỷ vân được móc nối với nhau Việc nhận dạng thuỷ vân có thể được thực hiện và định vị các thay đổi ngay cả khi một
số nhóm đã bị xoá toàn bộ cả nhóm
Trang 29CHƯƠNG II: NHÚNG THÔNG TIN ĐỂ BẢO VỆ BẢN QUYỀN CƠ SỞ
DỮ LIỆU 2.1 Cơ sở của giải pháp
đề xuất trong bài viết này chúng ta xem qua các kỹ thuật nhúng tin vào ảnh và vào tài liệu dạng văn bản nêu trên
2.1.1 Nhúng tin vào ảnh số
Với kỹ thuật nhúng tin vào trong ảnh giúp tôi phát triển luận văn này
sử dụng loại ảnh tĩnh Ta tìm hiểu một chút về các kỹ thuật nhúng tin vào ảnh được phát triển trong giai đoạn gần đây
2.1.1.1 Nhúng tin bằng kỹ thuật thay thế bit có trọng số thấp nhất
LSB (Least Significant Bit) là bit có ảnh hưởng ít nhất tới việc quyết định màu sắc của mỗi điểm ảnh, vì vậy khi ta thay đổi ít nhất tới việc quyết
Hình 2.1: Minh họa thủy vân ảnh số
Trang 30định màu sắc của mỗi điểm ảnh, vì vậy khi ta thay đổi bit này thì màu sắc của điểm ảnh mới sẽ gần như không khác biệt so với điểm ảnh cũ
LSB của một điểm ảnh có vị trí tương tự như chữ số hàng đơn vị của một số tự nhiên, khi bị thay đổi, giá trị chênh lệch giữa số cũ và số mới sẽ ít nhất, so với khi ta thay đổi giá trị của chữ số hàng chục hoặc hàng trăm Việc xác định LSB của mỗi điểm ảnh trong một bức ảnh phụ thuộc vào định dạng của ảnh và số bit màu dành cho mỗi điểm ảnh của ảnh đó
Mục đích của phương pháp là chọn ra các bit ít quan trọng (ít làm thay đổi chất lượng của ảnh nền) và thay thế chúng bằng các bit thông tin cần nhúng Để khó bị phát hiện, thông tin nhúng thường được nhúng vào những vùng mắt người kém nhạy cảm với màu sắc Với ảnh 24 bit, mỗi màu được chứa trong 3 byte, theo thứ tự từ trái sang phải, byte đầu tiên chứa giá trị biểu thị cường độ màu lam (B), byte thứ hai chứa giá trị biểu thị cường độ màu lục (G), byte thứ ba chứa giá trị biểu thị cường độ màu đỏ (R) Như vậy, mỗi màu được xác định bởi một số nguyên có giá trị trong khoảng 0 – 255
Phương pháp nhúng tin
Tư tưởng của thuật toán là chọn ngẫu nhiên một điểm ảnh, với mỗi điểm ảnh, chọn ngẫu nhiên một byte màu, sau đó nhúng bit tin vào bit màu có trọng số thấp nhất Để tăng tính bảo mật, thông tin thường được nhúng vào các vùng trong ảnh mà mắt người kém nhạy cảm Đối với ảnh 24 bit màu, mỗi điểm ảnh được chứa trong 3 byte, như vậy mỗi màu được xác định bởi 1
số nguyên có giá trị trong miền từ 1 đến 256 Thuật toán thay thế k bit có trọng số nhỏ nhất sử dụng trong ảnh 24 bit màu, có thể biểu diễn qua các bước sau:
B1: Thông tin cần nhúng được biểu thị bởi luồng bit, và luồng bit này được chia nhỏ thành các cụm k bit: EiB, EiG, EiR
Trang 31Điểm ảnh thứ i ký hiệu Hi chứa 24 bit được tách ra làm 3 byte riêng Bi,
Gi, Ri ứng với màu xanh lục, xanh lam, đỏ Từ các byte này, lại tách ra các khối k bit cuối kí hiệu Bik, Gik, Rik
Là bước giải rác tin Thông tin có thể được mã hóa, sau đó lại tạo một hàm băm ngẫu nhiên Tham số seed là hạt giống để sinh ra các số ngẫu nhiên Nếu dùng cùng một hạt giống, sẽ sinh ra các chuỗi số ngẫu nhiên giống nhau,
là điểm chọn để nhúng tin trong ảnh Quá trình rải tin phải được kiểm tra để chọn ra những điểm chưa có tin nhúng Đặc tính của hàm Collection là không lưu các giá trị trùng lặp, nên điểm sinh ra sẽ là duy nhất
B2: Thay thế Bik, Gik, Rik bởi các giá trị tương ứng EiB, EiG, EiR Mỗi điểm ảnh mới nhận được, ký hiệu Hi’ sẽ mang 3 × (8 - k) bit có trọng số cao cho thông tin về ảnh, và 3 × k bit trọng số thấp cho thông tin nhúng Gọi ảnh nhận được sau khi thay thế là H’
Là bước nhúng thông tin ảnh Mỗi lần chọn 1 byte thông tin, trích từng bit từ 1 đến 8, nhúng bit tin vào điểm ảnh chưa dùng Có thể nhúng tối đa 3 bit tin trong 1 điểm ảnh
B3: Tách các thông tin bằng cách tách từ mỗi điểm ảnh 3 cụm k bit từ các byte Bi, Gi, Ri, và chắp lại thành bản tin nhúng
Kỹ thuật này tuy đơn giản, nhưng nếu bản tin trước khi nhúng đã được
mã hóa và trật tự nhúng tin được chọn theo một quy luật nào đó, thì việc tách thông tin từ H’ sẽ không đơn giản
Trang 32Thực hiện nhúng tin vào ảnh theo kỹ thuật LSB, lật bit bên phải nhất
Hình 2.1.1: Minh họa cách nhúng tin bằng kỹ thuật LSB
Trang 332.1.1.2 Các phép biến đổi miền không gian ảnh sang miền tần số
Để khảo sát hệ thống rời rạc, trong nhiều trường hợp, chúng ta thường biến đổi hệ thống rời rạc đó sang một miền biến số khác Có nhiều phép biến đổi khác nhau như biến đổi tín hiệu và hệ thống rời rạc sang miền Z, biến đổi sang miền tần số liên tục hay sang miền tần số rời rạc Mỗi phép biến đổi có những thuận lợi riêng, tùy theo yêu cầu khảo sát mà ta sẽ lựa chọn phép biến đổi phù hợp Trong trường hợp khảo sát miền không gian ảnh người ta thường biến đổi miền không gian rời rạc tín hiệu điểm ảnh sang miền tần số rời rạc bằng các phép biến đổi như Fourier, Cosin rời rạc hay wavelet (sóng lăn)…Các phép biến đổi này khá phức tạp về ý nghĩa cũng như cài đặt
a Phép biến đổi Fourier rời rạc
Phép biến đổi Fourier rời rạc viết tắt là DFT (Discrete Fourier Transform) là một công cụ toán học được dùng để chuyển cách biểu diễn tín hiệu và hệ thống rời rạc hoặc liên tục sang miền tần số rời rạc Thực chất của cách biểu diễn này là lấy từng điểm rời rạc trên vòng tròn đơn vị trong mặt phẳng Z để biểu diễn Việc biểu diễn trong miền tần số rời rạc đặc biệt hiệu quả khi xuất hiện các thuật toán tính toán nhanh DFT ta gọi là phép biến đổi Fourier nhanh FFT(Fast Fourier Transform)
Định nghĩa phép biến đổi Fourier rời rạc cho tín hiệu hai chiều (ảnh số)
Biến đổi Fourier rời rạc của một ảnh MxN:{u(m,n)} được định nghĩa như sau:
0
ln
) , ((
N
m N
n
N km
N w w n m u
Với 0<=l, k<=N-1
Và biến đổi ngược:
Trang 34u(m,n)= ln
1
0 1
0
) , (
l
km
N w w l k v N
Với 0<=m,n<=N-1
b Phép biến đổi cosin rời rạc
Biến đổi cosin rời rạc viết tắt là DCT (Discrete Cosin Transform) được đưa ra bởi Ahmed và các đồng nghiệp của ông vào năm 1974 Từ đó cho đến nay, nó được sử dụng rất phổ biến trong nhiều kỹ thuật xử lý ảnh số nói riêng
và xử lý tín hiệu số nói chung Trong các kỹ thuật thủy vân ảnh dựa trên phép biến đổi dữ liệu ảnh sang miền tần số cho phép biến đổi DCT cũng được sử dụng nhiều nhất Lý do ở đây là phép biến đổi DCT đã được dùng trong dạng chuẩn ảnh JPEG Nếu áp dụng DCT thì cũng theo chuẩn của JPEG và do đó
sẽ tránh được mất thủy vân do phép nén JPEG
Định nghĩa biến đổi cosin rởi rạc hai chiều:
Biến đổi DCT hai chiều tổng quát là biến đổi trên khối hai chiều bất kỳ M*N, trong đó các khối kích thước 8x8, 16x16 được sử dụng nhiều nhất Tuy nhiên, chúng ta sẽ tìm hiểu phép biến đổi DCT trên khối 8x8 được sử dụng trong chuẩn nén ảnh JPG
Phép biến đổi thuận DCT 8x8 được định nghĩa như sau:
I(u,v) =
16
) 1 2 ( ) 16
) 1 2 ( cos(
) , ( 4
) ( )
0 7
k X v
) 1 2 ( cos(
) , ( 4
) ( ) ( 4
) ( )
0 7
u I v u v
1 )
Trang 351 )
Đặc điểm của phép biến đổi DCT trên ảnh hai chiều:
-Thể hiện về đặc tính nội dung về tần số của thông tin ảnh Hệ số góc trên là số lớn đặc trưng cho giá trị trung bình, thành phần một chiều gọi là hệ
số DC, còn các hệ số khác có giá trị nhỏ hơn biểu diễn cho các thành phần tần
số cao theo hướng ngang và theo hướng thẳng đứng gọi là các hệ số AC
-Bản thân biến đổi DCT không nén được dữ liệu vì cũng sinh ra 64 hệ
số
-Theo nguyên lý chung, khi biến đổi chi tiết giữa các điểm ảnh càng lớn theo một hướng nào đó trong khối các điểm ảnh, hướng ngang, hướng thẳng đứng hay theo hướng chéo, thì tương ứng theo các hướng đó, các hệ số biến đổi DCT cũng lớn
-Tóm lại, DCT làm giảm độ tương quan không gian của thông tin trong khối ảnh Điều đó cho phép biểu diễn thích hợp ở miền DCT có các hệ số DCT có xu hướng có phần dư thừa ít hơn Hơn nữa, các hệ số DCT chứa thông tin về nội dung tần số không gian của thông tin trong khối Nhờ các đặc tình tần số không gian của hệ thống nhìn của mắt người, các hệ số DCT
có thể được mã hóa phù hợp, chỉ các hệ số DCT quan trọng nhất mới được
mã hóa để truyền đi
-Khối hệ số DCT có thể chia thành 3 miền, miền tần số thấp, chứa các thông tin quan trọng ảnh hưởng đến tri giác, miền tần số giữa và miền tần số cao Các thông tin trong miền tần số cao thường không mang tính tri giác cao, khi nén JPEG thì thường loại bỏ thông tin trong miền này
Trong các thuật toán thủy vân, miền hệ số DCT tần số cao thường không được sử dụng do nó thường không bền vững với các phép xử lý ảnh; hoặc nén ảnh JPEG Miền tần số thấp cũng khó được sử dụng do một sự thay