Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)Kỹ thuật giấu tin trong tệp văn bản và ứng dụng (LV thạc sĩ)
Trang 1ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN THỊ PHƯƠNG CHI
KỸ THUẬT GIẤU TIN TRONG TỆP VĂN BẢN VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN, 2017
Trang 2ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐH CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
NGUYỄN THỊ PHƯƠNG CHI
KỸ THUẬT GIẤU TIN TRONG TỆP VĂN BẢN VÀ ỨNG DỤNG
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS ĐẶNG VĂN ĐỨC
THÁI NGUYÊN, 2017
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Kỹ thuật giấu tin trong tệp văn bản và ứng
dụng” là sản phẩm của riêng cá nhân, không sao chép lại của người khác
Trong toàn bộ nội dung của luận văn, những điều được trình bày hoặc là của
cá nhân hoặc là được tổng hợp, nghiên cứu từ nhiều nguồn tài liệu Tất cả các tài liệu tham khảo đều có xuất xứ và trích dẫn rõ ràng
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của mình
Thái Nguyên, ngày 25 tháng 07 năm 2017
Học viên Nguyễn Thị Phương Chi
Trang 4LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn đến PGS.TS Đặng Văn Đức - Viện Công Nghệ Thông Tin, người đã tận tình hướng dẫn, chỉ bảo và giúp đỡ tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn này
Tôi xin chân thành cảm ơn các thầy cô giáo trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên đã giảng dạy và cung cấp cho chúng tôi những kiến thức rất bổ ích trong thời gian học cao học, giúp tôi
có nền tảng tri thức để phục vụ nghiên cứu khoa học sau này
Tôi cũng xin cảm ơn Lãnh đạo và đồng nghiệp tại đơn vị trường THPT Bãi Cháy nơi tôi công tác đã tạo điều kiện và giúp đỡ tôi trong suốt quá trình nghiên cứu và hoàn thành luận văn Tôi cũng xin bày tỏ lòng cảm ơn đến gia đình và bạn bè, những người luôn quan tâm, động viên và khuyến khích tôi trong quá trình học tập
Thái Nguyên, ngày 25 tháng 06 năm 2017
Nguyễn Thị Phương Chi
Trang 5MỤC LỤC
MỞ ĐẦU 1
1 Nhu cầu bảo mật thông tin 1
2 Lý do lựa chọn đề tài 2
3 Mục tiêu nghiên cứu 2
4 Đối tượng và phạm vi nghiên cứu 3
5 Phương pháp nghiên cứu 3
6 Cấu trúc của luận văn 3
CHƯƠNG 1: TỔNG QUAN VỀ GIẤU TIN 5
1.1 Tổng quan về giấu tin 5
1.1.1 Vài nét về lịch sử giấu tin 5
1.1.2 Khái niệm cơ bản về giấu tin 6
1.1.3 Phân loại kỹ thuật giấu tin cơ bản 8
1.1.4 Mô hình kỹ thuật giấu tin 9
1.1.5 Môi trường giấu tin .13
1.1.6 Khả năng ứng dụng của giấu tin 14
1.1.7 Tổng kết chương 1 16
CHƯƠNG 2 CÁC KỸ THUẬT GIẤU TIN TRONG VĂN BẢN 17
2.1 Các loại bảng mã tiếng Việt 17
2.1.1 Bộ gõ Unicode 17
2.1.2 Bộ gõ VISCII 17
2.1.3 Bộ gõ TCVN3 18
2.1.4 Bộ gõ VNI 18
2.2 Các loại văn bản 18
2.2.1 Bảng mã ASCII 18
2.2.2 Siêu văn bản HTML 20
Trang 62.2.3 Văn bản theo chuẩn pdf 21
2.2.4 Văn bản theo chuẩn Microsoft Word (.doc hoăc docx) 22
2.3 Các tiệm cận của giấu tin trong văn bản .22
2.3.1 Watermarking trực tiếp trên văn bản 22
2.2.2.Watermarking trên văn bản đã định dạng 26
2.2.3.Watermarking trên tập tin hình ảnh quét từ văn bản 27
2.4 Giấu tin trong tệp MS Word 28
2.4.1 Lựa chọn thuộc tính giấu tin trong tệp MS Word 28
2.4.2 Mô tả thuật toán 32
2.4.3 Bảo mật 34
2.5 Tổng kết chương 2 36
CHƯƠNG 3 XÂY DỰNG CHƯƠNG TRÌNH GIẤU TIN TRONG TÀI LIỆU 37
3.1 Mô tả bài toán giấu tin trong tệp văn bản MS Word 37
3.2 Lựa chọn ngôn ngữ và cài đặt 37
3.3 Giao diện chương trình 37
3.3.1 Mẫu thiết kế 37
3.3.2 Quy trình công thức xử lý 38
3.4 Demo chương trình 38
3.4.1 Thông tin giấu 38
3.4.2 Giấu tin 39
3.4.3 Giải mã tin đã giấu 39
3.3.4 Trích xuất tin 40
3.5 Chạy thực nghiệm 42
3.6 Đánh giá kết quả đạt được 48
KẾT LUẬN VÀ KHUYẾN NGHỊ 49
TÀI LIỆU THAM KHẢO 50
Trang 7DANH MỤC HÌNH VẼ
Hình 1.1 Lược đồ chung cho giấu tin 6
Hình 1.2 Kỹ thuật giấu tin 7
Hình 1.3 Một cách phân loại các kỹ thuật giấu tin 8
Hình 1.4 Lược đồ chung cho quá trình giấu tin 12
Hình 1.5 Sơ đồ quá trình giải mã 12
Hình 2.1 mô tả nhúng thông tin bản quyền vào các khoảng trống sau mỗi dòng 24
Hình 2.1.a Đoạn văn bản trước khi nhúng 24
Hình 2.1.b Đoạn văn bản sau khi nhúng 24
Hình 2.2 Đoạn văn bản chứa dữ liệu nhúng sử dụng các khoảng trống sau mỗi từ 25
Hình 2.3 Ví dụ nhúng bản quyền bằng phương pháp cú pháp 25
Hình 2.4 Ví dụ về các cặp từ đồng nghĩa 26
Hình 2.5 Ví dụ về dịch chuyển dòng 26
Hình 2.6 Ví dụ dịch chuyển từ 27
Hình 2.7 Ví dụ về dịch chuyển ký tự 27
Hình 2.8 Ví dụ thay đổi đặc trưng 27
Hình 2.9 Ví dụ thay đổi màu sắc các ký tự 28
Hình 2.10 Ví dụ thay đổi màu sắc các ký tự 29
Hình 2.11 Ví dụ thay đổi khoảng trống các ký tự 30
Hình 3.1 Giao diện chương trình 37
Hình 3.2 Thông tin giấu 38
Hình 3.3 Giấu tin 39
Hình 3.4 Nhập mật khẩu giấu tin 39
HÌNH 3.5 GIảI MÃ TIN ĐÃ GIấU 40
Trang 8MỞ ĐẦU
1 Nhu cầu bảo mật thông tin
Cuộc cách mạng thông tin dữ liệu số đã đem lại những thay đổi sâu sắc trong xã hội và trong cuộc sống Những thuận lợi thông tin dữ liệu số mang lại cũng đề ra những thách thức và cơ hội mới cho quá trình đổi mới Sự ra đời những phần mềm có tính năng mạnh, các thiết bị mới như máy ảnh kỹ thuật số, máy quét chấtlượng cao, máy in, máy ghi âm kỹ thuật số, … đã với tới thế giới tiêu dùng rộng lớn để sáng tạo, xử lý và thưởng thức các dữ liệu số
Cùng với sự bùng nổ của Internet - phương tiện multimedia, các dữ liệu
số được lan truyền và sao chép rất nhanh chóng dễ dàng,những vấn nạn như
ăn cắp bản quyền, xuyên tạc thông tin, truy nhập thông tin trái phép Vậy, vấn đề bảo mật thông tin số ngày càng trở nên cấp bách, đòi hỏi phải không ngừng tìm kiếm các giải pháp mới, hữu hiệu cho an toàn và bảo mật thông tin Ngày nay, cùng với sự phát triển mạnh mẽ của ngành khoa khọc công nghệ thông tin, internet đã trở thành một phương tiện, một nhu cầu không thể thiếu đối với mọi người, nhu cầu trao đổi thông tin qua mạng ngày càng lớn vì vậy việc đảm bảo an toàn và bảo mật thông tin cho dữ liệu truyền trên mạng là rất quan trọng Nhiều kỹ thuật mã hóa thông tin ra đời nhằm quyết vấn bảo mật
dữ liệu Tuy nhiên một văn bản được mã hóa sẽ dễ dàng gây sự chú ý, các tin tặc sẽ tìm mọi các để giải mã, đánh cắp thông tin [2]
Một công nghệ mới phần nào giải quyết được những khó khăn trên là
kỹ thuật giấu thông tin trong các nguồn đa phương tiện như: Âm thanh, hình ảnh, văn bản… Xét theo khía cạnh mục đích và cách thực hiện thì giấu tin cũng là một dạng mật mã nhằm đảm bảo tính an toàn của thông tin, nhưng phương pháp này ưu điểm ở chỗ là giảm được khả năng phát hiện ra sự tồn tại của các tin cần giấu trong các dữ liệu được truyền đi trên mạng [2][3] Ngoài
Trang 9các nhà khoa học nước ngoài quan tâm đến lĩnh vực nghiên cứu này [3], các nhà khoa học trong nước cũng đã có nhiều công bố về các lĩnh vực liên quan
2 Lý do lựa chọn đề tài
Từ trước đến nay, nhiều phương pháp bảo vệ thông tin đã được đưa ra, trong đó giải pháp dùng mật mã được ứng dụng rộng rãi nhất Thông tin ban đầu được mã hoá để lưu trữ hoặc truyền trên mạng, sau đó bên nhận sẽ được giải mã nhờ khoá của hệ mã để có thông tin rõ Kỹ thuật cổ điển này đã và đang được sử dụng rộng rãi và có nhiều ứng dụng trong thực tế Cho đến nay
đã có rất nhiều hệ mã đối xứng, bất đối xứng…, phức tạp được sử dụng như DES, RSA, NAPSACK , rất hiệu quả và phổ biến
Một phương pháp mới khác đã và đang được nghiên cứu và ứng dụng mạnh mẽ ở nhiều nước trên thế giới, đó là phương pháp giấu tin (DataHiding) được quan tâm phát triển trong nhiều năm nay Giấu tin là một công nghệ mới rất phức tạp, đang được tập trung nghiên cứu ở nhiều nước trên thế giới như Đức, Mỹ, Italia, Canada, Nhật Bản Giấu tin là nhúng thông tin vào trong một tệp dữ liệu khác Tệp dữ liệu khác có thể là ảnh, âm thanh, video và văn bản (dữ liệu đa phương tiện) Đã có nhiều phương pháp kèm theo các thuật toán hiệu quả đã được công bố trên thế giới về chủ đề này Tuy nhiên, những kết quả thực nghiệm cho thấy cần phải có thêm thời gian để nghiên cứu thẩm định, tuy nhiên các nhà khoa học khẳng định rằng đây là một công nghệ mới đầy hứa hẹn cho vấn đề an toàn và bảo mật thông tin
Với mục đích tìm hiểu học hỏi về cácmô hình, kỹ thuật giấu thông tin nhằm bảo vệ thông tin quan trọng trong các dữ liệu đa phương tiện,trong đó
tập trung vào dữ liệu văn bản, học viên đã chọn thực hiện đề tài luận văn: “Kỹ
thuật giấu tin trong tệp văn bản và ứng dụng”
3 Mục tiêu nghiên cứu
Trang 10Trong luận văn, ngoài việc nghiên cứu tổng quan kỹ thuật giấu tin nói chung, sẽ trung sâu hơn vào giấu tin trong tệp văn bản Sau đó, học viên sẽ thực nghiệm với tệp văn bản MS Word vì tệp văn bản MS Word là một trong những khuôn dạng tệp văn bản được sử dụng nhiều nhất hiện nay
4 Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ của luận văn, tác giả chỉ tập trung nghiên cứu và tìm hiểu tổng quan về các phương pháp các kỹ thuật giấu tin trong tệp văn bản Nghiên cứu khả năng ứng dụng trong một mô hình thử nghiệm cụ thể là giấu tin trong tệp văn bản MS Word
5 Phương pháp nghiên cứu
Thực hiện nghiên cứu lý thuyết thông qua tổng hợp các bài báo khoa học đã được công bố trong và ngoài nước và một số luận văn liên quan đến chủ đề này đã được thực hiện kết hợp với thực nghiệm thông qua chương trình thử nghiệm giấu tin trong tệp Word
6 Cấu trúc của luận văn
Ngoài phần mở đầu trình bày về mục tiêu luận văn, bài toán cần giải quyết, phương pháp nghiên cứu … và phần kết luận trình bày tóm tắt các kết quả đạt được của luận văn và các nhiệm vụ cần giải quyết tiếp theo, luận văn được trình bày thành ba chương như sau:
Chương 1: Tổng quan về giấu tin trong dữ liệu đa phương tiện
1.1 Lịch sử giấu tin
1.2 Khái niệm giấu tin
1.3 Mô hình giấu tin cơ bản
1.4 Một số kỹ thuật giấu tin
1.5 Khả năng ứng dụng giấu tin
Chương 2: Các kỹ thuật giấu tin trong văn bản
Trang 112.1 Các loại bảng gõ tiếng Việt
2.2 Các loại văn bản
2.3 Các tiệm cận của giấu tin trong văn bản
2.4 Giấu tin trong tệp MS Word
Chương 3 Xây dựng chương trình thử nghiệm
3.1 Mô tả bài toán giấu tin trong tệp văn bản MS Word
3.2 Lựa chọn dữ liệu thử nghiệm, công cụ phát triển phần mềm thử nghiệm
3.3 Xây dựng phần mềm thử nghiệm
3.4 Đánh giá kết quả đạt được
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ GIẤU TIN
Chương này trình bày một số khái niệm về giấu tin, mô hình tổng quát giấu tin và tách tin giấu trong dữ liệu đa phương tiện Sau đó trình bày về cách phân loại giấu tin và khả năng ứng dụng của giấu tin trong thực tế
1.1 Tổng quan về giấu tin
1.1.1 Vài nét về lịch sử giấu tin
Từ Steganography bắt nguồn từ Hi Lạp và được sử dụng cho tới ngày nay, nó có nghĩa là tài liệu được phủ (covered writing) Có nhiều câu chuyện lịch sử xoay quanh kỹ thuật giấu tin được lưu truyền Có lẽ những ghi chép sớm nhất về kỹ thuật giấu tin thuộc về sử gia Hy Lạp Herodotus Khi bạo chúa Hi Lạp Histiaeus bị vua Darius bắt giữ ở Susa vào thế kỷ thứ năm trước Công Nguyên, ông ta đã gửi một thông báo bí mật cho con rể của mình là Aristagoras ở Miletus Histiaeus đã cạo trọc đầu của một nô lệ tin cậy và xăm một thông báo trên da đầu của người nô lệ ấy Khi tóc của người nô lệ đủ dài người nô lệ được gửi tới Miletus
Một câu chuyện khác về thời Hi Lạp cổ đại cũng do Herodotus ghi lại Demeratus, một người Hi Lạp, cần thông báo cho Sparta rằng Xerxes định xâm chiếm Hi Lạp Để tránh bị phát hiện, anh ta đã bóc lớp sáp ra khỏi các viên thuốc và khắc thông báo lên bề mặt các viên thuốc này, sau đó bọc lại viên thuốc bằng một lớp sáp mới
Ý tưởng về che giấu thông tin đã có từ hàng nghàn năm về trước nhưng
kỹ thuật này được dùng chủ yếu trong quân đội và trong các cơ quan tình báo Ngày nay, kỹ thuật giấu tin được nghiên cứu để phục vụ các mục đích như bảo vệ bản quyền, hay giấu tin mật về quân sự và kinh tế
Trang 131.1.2 Khái niệm cơ bản về giấu tin
1.1.2.1 Định nghĩa kỹ thuật giấu tin
Giấu thông tin là kỹ thuật nhúng (embedding) [1][9]một lượng thông tin
số nào đó vào trong một đối tượng dữ liệu số khác Một trong những yêu cầu
cơ bản của giấu tin là đảm bảo tính chất ẩn của thông tin được giấu đồng thời không làm ảnh hưởng đến chất lượng của dữ liệu gốc
Sự khác biệt chủ yếu giữa mã hóa thông tin và giấu thông tin là mã hóa làm cho các thông tin hiện rõ là nó được mã hóa hay không, còn giấu thông tin thì người ta khó biết được là có thông tin giấu bên trong
Hình 1.1 Lược đồ chung cho giấu tin Hình 1.1[4]: Biểu diễn quá trình giấu tin cơ bản Phương tiện chứa bao gồm các đối tượng được dùng làm môi trường để giấu tin như: text, audio, video, ảnh, … thông tin giấu là mục đích của người sử dụng Thông tin giấu
là một lượng thông tin mang một ý nghĩa nào đó như: ảnh, logo, đoạn văn bản, … tùy thuộc vào mục đích của người sử dụng Thông tin sẽ được giấu vào trong phương tiện chứa thông qua chương trình Sau khi giấu tin ta thu được phương tiện chứa bản tin đã giấu và phân phối trên mạng Sau khi nhận được đối tượng phương tiện có giấu tin, quá trình giải mã được thực hiện
Trang 14thông qua chương trình giải mã tương ứng với chương trình mã hóa cùng với khóa của quá trình mã hóa Kết quả thu được gồm phương tiện chứa gốc và thông tin đã giấu Bước tiếp theo thông tin giấu sẽ được xử lý kiểm định so sánh với thông tin giấu ban đầu
1.1.2.2 Mục đích của giấu tin
Có hai mục đích của giấu tin:
- Trao đổi thông tin mật
- Bảo đảm an toàn (bảo vệ bản quyền) cho chính các đối tượng chứa dữ liệu giấu trong đó
Có thể thấy hai mục đích này hoàn toàn trái ngược nhau và dần phát triển thành hai lĩnh vực với những yêu cầu và tính chất khác nhau
Hình 1.2 - Kỹ thuật giấu tin
Kỹ thuật giấu thông tin bí mật (Steganography): với mục đích đảm bảo
an toàn và bảo mật thông tin tập trung vào các kỹ thuật giấu tin để có thể giấu được nhiều thông tin nhất Thông tin mật được giấu một cách vô hình trong một đối tượng khác sao cho người khác khó phát hiện được
Kỹ thuật giấu thông tin theo kiểu đánh dấu (Watermarking): để bảo vệ bản quyền của đối tượng chứa thông tin, thường tập trung một số yêu cầu như đảm bảo tính bền vững Đây là ứng dụng cơ bản nhất của kỹ thuật thủy vân số
Trang 151.1.3 Phân loại kỹ thuật giấu tin cơ bản
Do kỹ thuật giấu thông tin số mới được hình thành trong thời gian gần đây nên xu hướng phát triển chưa ổn định Nhiều phương pháp mới, theo nhiều khía cạnh khác nhau đang và chắc chắn sẽ được đề xuất, bởi vậy một định nghĩa chính xác, một sự đánh giá phân loại rõ ràng chưa thể có được Sơ
đồ phân loại trên hình 1.3 được Fabien A P Petitcolas đề xuất năm 1999
Hình 1.3: Một cách phân loại các kỹ thuật giấu tin
Sơ đồ phân loại này như một bức tranh khái quát về ứng dụng và kỹ thuật giấu thông tin Dựa trên việc thống kê sắp xếp các công trình đã công bố trên một số tạp chí, cùng với thông tin về tên và tóm tắt nội dung của nhiều công trình đã công bố trên Internet, có thể chia lĩnh vực giấu tin ra làm hai
hướng lớn, đó là watermarking và steganography
1.1.3.1 Kỹ thuật giấu tin mật (Steganography):
Với mục đích tập trung vào các kỹ thuật giấu tin sao cho người khác khó phát hiện được một đối tượng có giấu tin bên trong hay không Hơn nữa, nếu phát hiện có tin giấu thì việc giải tin cũng khó thực hiện được Đồng thời, các
kỹ thuật giấu tin mật còn quan tâm lượng tin có thể được giấu, lượng thông tin dấu được càng nhiều càng tốt Tuy nhiên lượng thông tin giấu càng lớn thì tính ẩn của thông tin giấu càng thấp
Trang 161.1.3.2 Kỹ thuật thủy vân số (Watermarking):
Dựa theo ảnh hưởng các tác động từ bên ngoài có thể chia watermark thành hai loại, một loại bền vững với các tác động sao chép trái phép, loại thứ hai lại cần tính chất hoàn toàn đối lập: dễ bị phá huỷ trước các tác động nói trên Cũng có thể chia watermark theo đặc tính, một loại cần được che giấu để chỉ có một số người tiếp xúc với nó có thể thấy được thông tin, loại thứ hai đối lập, cần được mọi người nhìn thấy
So sánh giữa Steganography và Watermarking
- Ứng dụng cho sở hữu bản quyền
- Không phát hiện được thông tin giấu
1.1.4 Mô hình kỹ thuật giấu tin
1.1.4.1 Các thành phần trong kỹ thuật giấu tin
- Các phương tiện chứa tin:
Để có thể che giấu thông tin an toàn và hiệu quả, ngoài việc phải có thuật toán giấu tin tốt, giao thức liên lạc đảm bảo, phương tiện chứa phù hợp cũng là yếu tố quan trọng
Trang 17Phương tiện chứa trước khi giấu tin có thể là bất kỳ dạng dữ liệu nào mà máy tính có thể đọc được như file hình ảnh, âm thanh số, bản tin dạng text, … Nhưng phương tiện chứa phải có đủ lượng thông tin dư thừa tối thiểu, để có thể giấu thông tin, vì dữ liệu khi biến đổi để giấu tin, có thể bị phát hiện
Có hai yêu cầu đặt ra với phương tiện chứa:
- Phương tiện chứa tin phải được giữ bí mật
- Không sử dụng phương tiện chứa tin đến lần thứ hai
Yêu cầu thứ nhất để tránh kẻ tấn công có phương tiện chứa đó, thì việc giấu tin trở lên vô nghĩa Yêu cầu thứ hai để tránh kể tấn công có thể so sánh hai phiên bản phương tiện chứa nó, để phát hiện những chỗ khác nhau, dẫn đến nghi ngờ về một liên lạc bí mật Do đó phải hủy toàn bộ các phương tiện chứa đã được dùng tại phía người gửi, và phương tiện chứa sau khi đã tách lấy thông tin ở người nhận
Để tránh việc nghi ngờ của kẻ tấn công, phương tiện chứa trước khi giấu tin và sau khi giấu tin, phải đảm bảo giống nhau về mặt tri giác, sau đó mới đến các yêu cầu về thuộc tính thống kê, về chất lượng, …
Có thể sử dụng nhiều loại phương tiện chứa khác nhau, nhưng vì lý do phổ biến và dễ thực hiện, ảnh luôn được coi là phương tiện chứa chủ yếu
- Thông tin cần che giấu
Thông điệp mà hai đối tác cần trao đổi, có thể là bất cứ loại dữ liệu nào Với kỹ thuật hiện nay, có thể giấu nhiều loại dữ liệu trong phương tiện chứa
Do yêu cầu an toàn, kích thước của phương tiện chứa phải lớn hơn rất nhiều kích thước của thông điệp, nên thông điệp dạng text (có kích thước nhỏ) thường được dùng nhiều nhất Tuy nhiên người ta có thể giấu cả ảnh, bản đồ với yêu cầu ở mức độ cần thiết, phương tiện chứa là ảnh hay bản đồ khác
Trang 18- Khóa giấu tin
Khóa giấu tin là thành phần quan trọng quyết định độ bảo mật của hệ thống giấu tin Khóa giấu tin có thể phân loại theo hình thức phân phối và có hai hình thức:
Phân phối khóa: Một trung tâm sản xuất, phân phối khóa tới các đối tác liên lạc theo một kênh an toàn Cách làm này khá phức tạp vì đòi hỏi một kênh an toàn để chuyển khóa, khi các đối tác ở xa thì việc chuyển khóa là một vấn đề đáng quan tâm
Thỏa thuận khóa: Hai đối tác có thể trực tiếp thỏa thuận khóa với nhau hay thông qua một trung tâm Khóa được quy ước lấy từ cơ sở dữ liệu nào đó
mà hai phía cùng sở hữu Cách làm này tuy có một số yếu tố bất lợi, nhưng thực hiện đơn giản hơn so với trao đổi khóa
Trong giấu tin bí mật có thể dùng cả khóa bí mật và khóa công khai.Để đảm bảo bí mật liên lạc, khóa giấu tin cần đáp ứng được hai yêu cầu:
Một là khóa giấu tin phải đảm bảo “tính tri giác”, tức là khóa phải góp phần thông tin giấu, để tránh bị đối phương phát hiện
Hai là khóa đồng thời phải đủ mạnh, để nếu đối phương có nghi ngờ và kiểm tra phương tiện chứa, cũng “khó” thể lấy được thông tin giấu trong đó
Giấu thông tin vào phương tiện chứa (hình 1.4) và tách lấy thông tin (hình 1.5) là hai quá trình trái ngược nhau
1.1.4.2 Quá trình giấu tin:
Thuật toán giấu tin được dùng để giấu thông tin (là một lượng thông tin
mang một ý nghĩa nào đó tùy thuộc vào mục đích của người sử dụng) vào một
phương tiện chứa (bao gồm các đối tượng được dùng làm môi trường để giấu
tin như văn bản, audio, video, ảnh…) Thông tin sẽ được giấu vào trong
phương tiện chứa nhờ một bộ nhúng Bộ nhúng là những chương trình theo những thuật toán để giấu tin và được thực hiện với một khoá bí mật được
Trang 19dùng chung bởi người mã và người giải mã, việc giải mã thông tin chỉ có thể thực hiện được khi có khoá bí mật giống như các hệ mã mật cổ điển Sau khi giấu tin ta thu được phương tiện chứa đã giấu và được phân phối trên các môi trường khác nhau
Hình 1.4: Lược đồ chung cho quá trình giấu tin
1.1.4.3 Quá trình tách tin:
Bộ giải mã thực hiện quá trình giải mã trên phương tiện chứa đã chứa dữ liệu và trả lại thông điệp ẩn trong đó Quá trình giải mã được thực hiện thông qua một bộ giải mã tương ứng với bộ nhúng thông tin cùng với khóa của quá trình nhúng Kết quả thu được gồm phương tiện chứa gốc và thông tin đã giấu Tùy trường hợp, thông tin nhận được có thể cần xử lí, kiểm định so sánh với thông tin giấu ban đầu
Hình 1.5 Sơ đồ quá trình giải mã
Trang 201.1.5 Môi trường giấu tin
1.1.5.1 Giấu tin trong ảnh số (Data Hiding in Image)
Giấu thông tin trong ảnh hiện nay chiếm tỉ lệ lớn nhất trong các chương trình ứng dụng, các phần mềm, hệ thống giấu tin trong đa phương tiện bởi lượng thông tin được trao đổi bằng ảnh là rất lớn, hơn nữa giấu thông tin trong ảnh cũng đóng vai trò hết sức quan trọng đối với hầu hết các ứng dụng bảo vệ an toàn thông tin như: nhận thực thông tin, xác định xuyên tạc thông tin, bảo vệ bản quyền tác giả, điều khiển truy cập, giấu thông tin mật Thông tin sẽ được giấu cùng với dữ liệu ảnh nhưng chất lượng ảnh ít thay đổi và chẳng ai biết được đằng sau ảnh đó mang những thông tin có ý nghĩa Ngày nay, khi ảnh số đã được sử dụng khá phổ biến, thì giấu thông tin trong ảnh đã đem lại nhiều ứng dụng quan trọng trên các lĩnh vực của đời sống xã hội Một trong số ứng dụng về nhận diện thẻ chứng minh, thẻ căn cước, hộ chiếu , người
ta có thể giấu thông tin trên các ảnh thẻ để xác định thông tin thực
Một đặc điểm của giấu thông tin trong ảnh đó là thông tin được giấu một cách “vô hình” Nó như là cách thức truyền thông tin mật cho nhau mà người khác không thể biết được, bởi sau khi giấu thông tin thì chất lượng ảnh gần
như không thay đổi, đặc biệt đối với ảnh màu hay ảnh xám
1.1.5.2 Giấu tin trong audio[3][5]
Kỹ thuật giấu thông tin trong audio phụ thuộc vào hệ thống thính giác của con người (HAS - Human Auditory System) HAS cảm nhận được các tín hiệu ở dải tần rộng và công suất thay đổi lớn, nhưng lại kém trong việc phát hiện sự khác biệt nhỏ giữa các dải tần và công suất Điều này có nghĩa là, các
âm thanh to, cao tần có thể che giấu được các âm thanh nhỏ thấp một cách dễ dàng Kênh truyền tin cũng là một vấn đề Kênh truyền hay băng thông chậm
sẽ ảnh hưởng đến chất lượng thông tin sau khi giấu Giấu thông tin trong audio yêu cầu rất cao về tính đồng bộ và tính an toàn của thông tin
Trang 211.1.5.3 Giấu tin trong video
Giấu tin trong video cũng được quan tâm và được phát triển mạnh mẽ cho nhiều ứng dụng như điều khiển truy cập thông tin, nhận thực thông tin và bảo vệ bản quyền tác giả Ta có thể lấy một ví dụ là các hệ thống chương trình trả tiền xem theo video clip (pay per view application) Một phương pháp giấu tin trong video được đưa ra bởi Cox [7] là phương pháp phân bố đều Ý tưởng cơ bản của phương pháp là phân phối thông tin giấu dàn trải theo tần số của dữ liệu chứa gốc Các thuật toán trước đây thường cho phép giấu ảnh vào trong video, nhưng gần đây kỹ thuật cho phép giấu cả âm thanh
và hình ảnh vào video
Kỹ thuật giấu thông tin bằng video áp dụng cả đặc điểm thị giác và thính
giác của con người
1.1.5.4 Giấu tin trong văn bản
Trong trao đổi thông tin qua hệ thống máy tính, văn bản chiếm một tỷ lệ rất lớn so với các loại phương tiện chứa khác Tuy vậy, giấu tin trong văn bản lại chưa được quan tâm nghiên cứu nhiều Các nghiên cứu về giấu tin trong văn bản được chia theo hai hướng, thứ nhất văn bản được sử dụng để giấu tin
là những văn bản được chụp lại và lưu trên máy như một bức ảnh nhị phân Theo hướng này, các kỹ thuật giấu tin được thực hiện như kỹ thuật giấu tin trong ảnh[6] Hướng thứ hai, phương tiện chứa sử dụng cho quá trình giấu tin được lưu dưới dạng văn bản Theo hướng này, các kỹ thuật giấu tin cũng tiến hành như giấu tin trong ảnh bằng cách thay đổi một số ký tự tại một số vị trí trên văn bản mà không làm ảnh hưởng nhiều đến nội dung văn bản gốc
Luận văn này tập trung nghiên cứu khảo sát một số kỹ thuật giấu tin trong văn bản, cụ thể là văn bản tạo ra bới MS Word
1.1.6 Khả năng ứng dụng của giấu tin
• Bảo vệ bản quyền tác giả (copyright protection)[7]: Đây là ứng dụng
cơ bản nhất của kỹ thuật thuỷ vân số Giả sử có một thành phẩm dữ liệu đa
Trang 22phương tiện như ảnh, âm thanh, video cần được lưu thông trên mạng Để bảo
vệ các sản phẩm chống lại hành vi lấy cắp hoặc làm nhái cần phải có một kỹ thuật để đảo bảo bản quyền cho tác giả của sản phẩm này Việc chứng thực bản quyền cho tác giả chính là việc nhúng thuỷ vân ( công việc này cần phải đảm bảo không để lại một ảnh hưởng lớn nào đến việc cảm nhận sản phẩm) Yêu cầu kỹ thuật đối với sự chứng nhận bản quyền là phải tồn tại bền vững cùng với sản phẩm, muốn bỏ thuỷ vân này mà không được phép của người chủ sở hữu thì chỉ còn cách là phá huỷ sản phẩm
• Nhận thực thông tin hay phát hiện xuyên tạc thông tin (authentication
and tamperdetection): Một tập thông tin sẽ được giấu trong phương tiện chứa, sau đó được sử dụng để nhận biết xem dữ liệu trên phương tiện gốc có bị thay đổi hay không Các thuỷ vân nên được ẩn để tránh sự tò mò của đối phương, hơn nữa việc làm giả các thuỷ vân hợp lệ hay xuyên tạc thông tin nguồn cũng cần xem xét Trong các ứng dụng thực tế, người ta mong muốn tìm được vị trí
bị xuyên tạc cũng như phân biệt được các thay đổi (ví dụ như phân biệt xem một đối tượng đa phương tiện chứa thông tin giấu đã bị thay đổi, xuyên tạc nội dung hay là chỉ bị nén mất dữ liệu) Yêu cầu chung đối với ứng dụng này
là khả năng giấu thông tin cao và thuỷ vân không cần bền vững
• Dấu vân tay hay dán nhãn (fingerprinting and labeling): Thuỷ vân
trong những ứng dụng này được sử dụng để nhận diện người gửi hay người nhận một thông tin nào đó Ví dụ như các vân khác nhau sẽ được nhúng vào các bản copy khác nhau của thông tin gốc trước khi chuyển cho nhiều người Với những ứng dụng này thì yêu cầu là đảm bảo độ an toàn cao cho các thuỷ vân, tránh khả năng xoá dấu vết trong khi phân phối
• Điều khiển truy cập (copy control): Các thiết bị phát hiện thuỷ vân (ở
đây sử dụng phương pháp phát hiện thuỷ vân đã giấu mà không cần thông tin gốc) được gắn sẵn vào trong các hệ thống đọc ghi, tùy thuộc vào việc có thủy
Trang 23vân hay không để điều khiển (cho phép/cấm) truy cập.Ví dụ như hệ thống quản lí sao chép DVD đã được ứng dụng ở Nhật
• Truyền thông tin mật (steganography): Các thông tin giấu được trong
những trường hợp này càng nhiều càng tốt Việc giải mã để nhận được thông tin cũng không cần phương tiện chứa gốc
1.1.7 Tổng kết chương 1
Chương 1 trình bày tổng quan về kỹ thuật giấu tin, các khái niệm cơ bản
về giấu tin, tìm hiểu kiến trúc mô hình giấu tin, các phương tiện để giấu tin và các ứng dụng của việc giấu tin
Trang 24CHƯƠNG 2 CÁC KỸ THUẬT GIẤU TIN TRONG VĂN BẢN
Chương này trước hết trình bày một số khuôn mẫu tệp văn bản được lưu trữ trong máy tính Sau đó trình bày một số phương pháp những thông tin
trong văn bản MS Word
2.1 Các loại bảng mã tiếng Việt
Bảng mã tiếng Việt là một loại phần mềm hỗ trợ soạn thảo văn bản bằng
tiếng Việt trên máy tính, thường cần phải có phông ký tự chữ Quốc ngữ đã được cài đặt trong máy tính Các bộ gõ tiếng Việt khác nhau sẽ hỗ trợ một hay nhiều bảng mã và kiểu gõ Mỗi bảng mã quy định việc thể hiện font chữ khác
nhau và mỗi kiểu gõ quy định việc viết dấu bằng các tổ hợp phím khác nhau 2.1.1 Bộ gõ Unicode
Là bộ mã chuẩn quốc tế được thiết kế để dùng làm bộ mã duy nhất cho tất cả các ngôn ngữ khác nhau trên thế giới, kể cả các ngôn ngữ sử dụng ký tự tượng hình phức tạp như tiếng Trung, tiếng Thái Vì điểm ưu việt đó, Unicode đã và đang từng bước thay thế các bộ mã truyền thống, kể cả bộ mã tiêu chuẩn ISO 8859 và hiện đang được hỗ trợ trên rất nhiều phần mềm cũng như các trình ứng dụng
Vì những khó khăn kỹ thuật trong những năm trước đây, đã xuất hiện rất nhiều bảng mã tiếng Việt khác nhau và không tương thích với nhau Chỉ sau khi Unicode được sử dụng rộng rãi thì chuẩn tiếng Việt mới được quy về một mối
2.1.2 Bộ gõ VISCII:
(Viết tắt của Vietnamese Standard Code for Information Interchange
trong tiếng Anh) là một bảng mã do nhóm Viet-Std đề xướng vào năm 1992 dùng để gõ tiếng Việt Bảng mã này thay thế các ký tự ít được dùng, hay các
ký tự được dùng trong các ngôn ngữ khác, bằng những ký tự chữ Quốc ngữ
Trang 25có dấu VISCII trước đây được dùng trong nhiều hệ điều hành như MS-DOS, Windows, Unix, Mac OS,
2.1.3 Bộ gõ TCVN3
Bảng mã theo tiêu chuẩn (cũ) của Việt Nam Các font chữ trong bảng
mã này có tên bắt đầu bằng Vn và mỗi font có hai loại thường và hoa (font chữ hoa kết thúc bằng H) Ví dụ: VnTime, VNSouthernH Ngày nay TCVN
đã quy định sử dụng font Unicode trong soạn thảo văn bản
2.1.4 Bộ gõ VNI
Bảng mã do công ty VNI (Vietnam-International) sở hữu bản quyền Các
font chữ trong bảng mã VNI có tên bắt đầu bằng VNI-, ví dụ như VNI-Times
Unicode, TCVN3, VNI là ba bảng mã thông dụng nhất, ngoài ra còn có các bảng mã như BK HCM, Vietware, VIQR Tổng cộng có khoảng 14 bảng
mã tiếng Việt khác nhau
2.2 Các loại văn bản
2.2.1 Bảng mã ASCII
ASCII (American Standard Code for Information Interchange) là bộ mã đầutiên lúc máy tính được phát minh ASCII quy định mối tương quan giữa các kiểu bít số với ký hiệu/ biểu tượng trong ngôn ngữ viết, vì vậy cho phép các thiết bị số liên lạc với nhau và xử lý, lưu trữ, trao đổi thông tin hướng ký tự.ASCII được công bố làm tiêu chuẩn lần đầu tiên vào năm 1963 bởi Hiệp hội tiêu chuẩn Hoa Kỳ
ASCII là mã 7 bit, tức là nó dùng 7bit biểu diễn 128 mã , phần lớn là các ký số,ký tự tiếng Anh, những ký tự đặc biệt và thông dụng khác như các dấu cộng, trừ, phần trăm … Mặc dù đơn vị dữ liệu là 8 bit nhưng chỉ có 7 bit được dùng, bit thứ tám thường được dùng bit chẵn-lẻ để kiểm tra lỗi trên các đường thông tin hoặc kiểm tra chức năng đặc hiệu theo thiết bị Các máy tính không dùng chẵn-lẻ thường thiết lập bit thứ tám là zero, nhưng một số thiết bị như máy PRIME chạy PRIMOS thiết lập bit thứ tám là một
Trang 26Mã cho phép từ 0 dến 7F Mã nhỏ nhất 0 dùng cho ký tự NULL, mã lớn nhất 7F dùng cho phím DEL 32 ký tự đầu tiên là các ký tự điều khiển không in được như ký tự Enter (mã 13), ký tự ESC (mã 27) Các mã ASCII 32-47, 58-64, 91-96 và 123-127 là các ký tự đặc biệt như dấu chấm, dấu phẩy, dấu cách, dấu ngoặc, dấu móc, dấu hỏi, …Các mã ASCII 48-57 là 10 chữ số Các mã ASCII 65-90 là các chữ cái hoa từ A đến Z Các mã ASCII 97-122 là các chữ cái thường từ a đến z, 1 ký tự được mã hóa thành 1 byte
Bảng mã ASCII
Bảng mã ANSI là bảng mã ASCII mở rộng, dùng 8 bit để biểu diễn
256 mã Mã cho phép từ 0 đến FF Mã nhỏ nhất là 0, dùng cho ký tự NULL,
mã lớn nhất là FF ASCII là tập con của ANSI
Trang 27Bảng mã ASCII mở rộng
2.2.2 Siêu văn bản HTML
Khái niệm HTML (HyperText Markup Language): là ngôn ngữ đánh dấusiêu văn bản được thiết kế ra để tạo nên các trang web.file HTML là 1 văn bản chứa các thẻ,các thẻ này giúp các trình duyệt web hiểu được cách trình bày và hiển thị 1 trang web
Trong file HTML các phần tử được đánh dấu bằng các thẻ HTML Các thẻ này được bao bởi dấu < và dấu > Thông thường các thẻ HTML được dùng theo một cặp <tên thẻ> (thẻ bắt đầu) và </tên thẻ> (thẻ kết thúc), văn bản nằm giữa cặp thẻ này là nội dung của phần tử Các thẻ HTML không phân biệt chữ hoa chữ thường Có thể tạo tài liệu HTML bằng bất kỳ trình soạn thảo nào Notepad, Worpad, Prontpage, DreamWeaver, Jereator
Ưu và nhược điểm của trang web khi viết bằng HTML
+ Ưu điểm : - Thiết kế đồ họa đẹp
- Tốc độ truy cập nhanh vì không mất thời gian truy vấn CSDL
Trang 28- Chi phí đầu tư thấp vì không phải xây dựng CSDL, chi phí cho thuê chỗ, chi phí yêu cầu hệ điều hành tương đối ít
+ Nhược điểm :
- Khó khăn trong việc thay đổi và cập nhật thông tin
- Thông tin không có tính linh hoạt, không thân thiện với người dùng Khó thích hợp nâng cấp mở rộng
- Các trang Web khác nhau, tẻ nhạt hay sinh động, vô nghĩa hoặc rất cần thiết,thì tất cả đều có cùng một cấu trúc cơ sở
- Cấu trúc cơ bản của 1 trang web
2.2.3 Văn bản theo chuẩn pdf
PDF (Portable Document Format) là định dạng tài liệu di động, tập tin văn bản khá phổ biến của hãng Adobe Systems Cũng giống như định dạng Word, PDF hỗ trợ văn bản thô cùng với font chữ, hình ảnh, âm thanh và nhiều hiệu ứng khác Một văn bản PDF sẽ được hiển thị giống nhau trên những môi trường làm việc khác nhau Đây cũng chính là ưu điểm vượt trội mà PDF sở hữu khiến cho định dạng này trở nên phổ biến cho việc phát hành sách, báo hoặc tài liệu khác qua mạng Internet
Ưu điểm của định dạng PDF
Nội dung trình bày đa dạng cùng với khả năng bảo mật cực kỳ tốt
Bạn có thể in ra trên bất cứ thiết bị nào mà vẫn giữ nguyên được định dạng
Trang 29 Hỗ trợ trên hầu hết các loại thiết bị di động
Tài liệu dạng PDF thường có kích thước khá nhỏ khiến cho việc di chuyển, chia sẻ rất dễ dàng
2.2.4 Văn bản theo chuẩn Microsoft Word (.doc hoăc docx)
Microsoft Word, còn được biết đến với tên khác là Winword, là một công cụ soạn thảo văn bản khá phổ biến hiện nay của công ty phân mềm nổi tiếng Microsof Nó cho phép người dùng làm việc với văn bản thô (text),các hiệu ứng như phông chữ, màu sắc, cùng với hình ảnh đồ họa và nhiều hiệu ứng đa phương tiện khác như âm thanh, video khiến cho việc soạn thảo văn bản được thuận tiện hơn Ngoài ra cũng có các công cụ như kiểm tra chính tả, ngữ pháp của nhiều ngôn ngữ khác nhau để hỗ trợ người sử dụng
Các phiên bản của Word thường lưu tên tệp tin với đuôi là doccủa những phiên bản Word 2003 trở về trước, hay docx đối với Word 2007 trở
lên Phiên bản Word đầu tiên chạy trên hệ điều hành MS-DOS được giới thiệu vào 11/1983 Và phiên bản gần đây nhất được đưa ra giới thiệu vào năm 2016
là Office Word 2016
2.3 Các tiệm cận của giấu tin trong văn bản
Các phương pháp ẩn dữ liệu trên văn bản có thể chia thành ba nhóm: ẩn
dữ liệu trực tiếp trên văn bản, ẩn dữ liệu trên văn bản đã định dạng, ẩn dữ liệu trên tập tin hình ảnh quét từ văn bản Sau đây sẽ trình bày chi tiết về ba dạng
ẩn dữ liệu trên văn bản
2.3.1 Watermarking trực tiếp trên văn bản
Kỹ thuật watermarking trực tiếp trên văn bản chưa định dạng (ở dạng plain text) thực hiện bằng cách sử dụng một số phương pháp giấu tin trong văn bản Tuy nhiên, sau khi sử dụng kỹ thuật watermarking trên dữ liệu văn bản, văn bản có sự thay đổi lớn và người đọc dễ dàng phát hiện ra Nhóm phương pháp watermarking trực tiếp trên văn bản bao gồm 3 nhóm phương pháp nhỏ: Nhóm phương pháp khoảng trắng mở (open space methods) nhúng