1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu những kỹ thuật digital watermarking trong việc bảo vệ bản quyền số, xây dựng một ứng dụng bảo vệ bản quyền cho những luận án tốt nghiệp của sinh viên khoa cntt

65 55 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 654,23 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương pháp nhúng thông tin bản quyền xây dựng sẽ được áp dụng thử nghiệm trên các tài liệu luận văn tốt nghiệp tại Khoa Công Nghệ Thông Tin Đại Học Bách Khoa Thành phố Hồ Chí Minh.. Hướ

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

ÁN TỐT NGHIỆP CỦA SINH VIÊN KHOA CÔNG NGHỆ THÔNG TIN

Chuyên ngành: CÔNG NGHỆ THÔNG TIN

LUẬN VĂN THẠC SĨ

TP Hồ Chí Minh, tháng 01 năm 2007

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

Trang 3

Acknowledgement

I specialy thank Dr Dang Tran Khanh for being so patient with me during the long hours of this project I would like to say thank to all lectures in Faculty of CSE-HCMUT during the time I have been studying and working on this thesis

Thanks to Information Systems Research Group (ISReG) with supporting and helping me hold the seminar Thanks to all my friends for sharing your knowledge with me and encouraging me to work this project

Trang 4

Abstract

This thesis proposes a novel approach to digital watermarking for Vietnamese documents Secured information is embedded to the documents by shifting up or down a small gap for Vietnamese signs The embedded information can be used for copyright-protection or tampering-detection The Vietnamese documents need to be converted to PostScript format files before embedding the information Watermarked files will be converted to PDF format and public to all people To retrieve the embedded information, the image files scaned from watermarked document will be used to extract the information

Trang 5

Mục lục

Acknowledgement 2

Abstract 3

Mục lục 4

Danh mục hình 6

Chương 1 GIỚI THIỆU 8

1.1 Đặt vấn đề 8

1.2 Hướng giải quyết vấn đề 10

Chương 2 CƠ SỞ LÝ THUYẾT 12

2.1 Kỹ thuật digital watermarking 12

2.1.1 Giới thiệu watermarking 12

2.1.2 Ứng dụng của digital watermarking 14

2.2 Nguyên lý cơ bản của digital watermarking 16

2.3 Các hình thức tấn công vào watermarking 18

2.4 Digital watermarking trong dữ liệu đa phương tiện 19

2.5 Digital watermarking trong dữ liệu văn bản 21

2.5.1 Watermarking trực tiếp trên văn bản 22

2.5.2 Watermarking trên dữ liệu đã định dạng 25

2.5.3 Watermarking trên tập tin hình ảnh quét từ văn bản 26

2.5.4 Nhận xét về các phương pháp watemarking trên dữ liệu văn bản 27

Chương 3 GIẢI PHÁP THỰC HIỆN 29

3.1 Đặc điểm của tiếng Việt và phương pháp nhúng thông tin 29

3.2 Lựa chọn định dạng văn bản 33

3.3 Nhúng thông tin (Encoder) 33

3.3.1 Chuyển định dạng từ Microsoft Word sang PostScript 34

3.3.2 Tạo thông tin nhúng 35

3.3.3 Nhúng thông tin vào tập tin PostScript 35

3.3.4 Chuyển định dạng PostScript sang định dạng PDF 38

3.3.5 Tóm lược quy trình nhúng thông tin vào tài liệu tiếng Việt 38

3.4 Lấy lại thông tin đã nhúng (Decoder) 39

Trang 6

3.4.1 Quét tài liệu, lọc nhiễu 40

3.4.2 Lấy lại thông tin nhúng từ tài liệu nghi ngờ 41

3.4.3 Tóm lược quy trình lấy lại thông tin đã nhúng 44

3.5 Nhận xét giải pháp thực hiện 45

Chương 4 KẾT QUẢ THỬ NGHIỆM 46

4.1 Giới thiệu 46

4.2 Xây dựng Encoder 47

4.3 Xây dựng Decoder 49

4.4 Mẫu thử nghiệm 51

4.5 Nhận xét kết quả thử nghiệm 52

Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53

Tài liệu tham khảo 55

Phụ lục 58

A Giới thiệu PostScript 58

B Một số mã biểu diễn dấu tiếng Việt trong tập tin PostScript 60

Trang 7

Danh mục hình

Hình 2.1 - Phân loại kỹ thuật giấu tin 12

Hình 2.2 - Tam giác các yêu cầu đối với digital watermarking 14

Hình 2.3 - Nguyên lý nhúng thông tin 17

Hình 2.4 - Nguyên lý lấy lại thông tin đã nhúng 18

Hình 2.5 - Ví dụ nhúng bản quyền bằng phương pháp sử dụng thẻ rỗng [11] 21

Hình 2.6 - Ví dụ nhúng bản quyền bằng phương pháp thay đổi thuộc tính [11] 21

Hình 2.7 - Ví dụ thay đổi khoảng trống giữa các từ trong câu .23

Hình 2.8 - Ví dụ thay đổi khoảng trống cuối hàng [5] 24

Hình 2.9 - Ví dụ nhúng bản quyền bằng phương pháp cú pháp [11] 24

Hình 2.10 - Ví dụ về các cặp từ động nghĩa [5] 25

Hình 2.11 - Ví dụ dịch chuyển hàng 25

Hình 2.12 - Ví dụ dịch chuyển từ 26

Hình 2.13 - Ví dụ dịch chuyển ký tự 26

Hình 2.14 – Ví dụ thay đổi đặc trưng 27

Hình 2.15 - Ví dụ thay đổi màu sắc các ký tự [12] 27

Hình 3.1 - Bảng chữ cái tiếng Việt 29

Hình 3.2 - Các ký tự không chọn nhúng thông tin 31

Hình 3.3 - Các ký tự có thể nhúng thông tin bản quyền 32

Hình 3.4 - Thanh công cụ Doc to Image Converter 34

Hình 3.5 - Đoạn văn bản đã nhúng bản quyền 36

Hình 3.6 - Lưu đồ giải thuật nhúng thông bản quyền 37

Hình 3.7 - Thông số sử dụng với GhostScript 38

Hình 3.8 - Quy trình nhúng thông tin bản quyền 39

Hình 3.9 Ví dụ nguyên lý nhận dạng bit đã nhúng 41

Hình 3.10 - Ví dụ khoảng cách khác nhau giữa dấu và ký tự nguyên âm 42

Hình 3.11- Mặt nạ nhận dạng dấu sắc 42

Hình 3.12- Giải thuật lấy lại thông tin đã nhúng 43

Hình 3.13- Ví dụ nhận dạng các dòng văn bản từ tập tin hình ảnh 43

Hình 3.14- Ví dụ vùng nhận dạng dấu tiếng Việt trong từng từ 44

Trang 8

Hình 3.15- Quy trình lấy lại thông tin nhúng 45

Hình 4.1 - Giao diện phần Encoder 48

Hình 4.2 - Giao diện chuyển định dạng PostScript sang định dạng PDF 49

Hình 4.3 -Giao điện Decoder 50

Hình 4.4 -Tài liệu gốc 51

Hình 4.5 -Tài liệu đã nhúng bản quyền 51

Hình 4.6 -Tài liệu sau khi quét 51

Hình 4.7 -Tài liệu sau khi lọc nhiễu 52

Hình 4.8 -Kết quả decoder 52

Hình B.1 - Mã biểu diễn dấu mũ trên ký tự “â” 60

Hình B.2 - Mã biểu diễn dấu á trên ký tự “ă” 61

Hình B.3 - Mã biểu diễn dấu sắc trên ký tự “á” 61

Hình B.4 - Mã biểu diễn dấu huyền trên ký tự “à” 62

Hình B.5 - Mã biểu diễn dấu hỏi trên ký tự “ả” 62

Hình B.6 - Mã biểu diễn dấu ngã trên ký tự “ã” 63

Hình B.7 - Mã biểu diễn dấu chấm tròn trên chữ “i” 64

Hình B.8 - Mã biểu diễn dấu chấm tròn trên ký tự “j” 64

Trang 9

Chương 1 GIỚI THIỆU

1.1 Đặt vấn đề

Vấn đề vi phạm bản quyền tác giả là một vấn đề phức tạp và được sự quan tâm của nhiều quốc gia Trên thế giới một loạt các công ước, thoả thuận, hiệp định quốc tế

về quyền sở hữu trí tuệ ra đời như: công ước Berne - Bảo hộ các tác phẩm văn học

và nghệ thuật, công ước bảo hộ nhà sản xuất bản ghi âm chống việc sao chép không được phép bản ghi âm của họ, công ước liên quan đến việc phân phối tín hiệu mang chương trình truyền qua vệ tinh, thoả thuận về những khía cạnh liên quan tới thương mại của quyền sở hữu trí tuệ, hiệp ước của WIPO về Quyền tác giả (WCT),

… 18] Các tổ chức quốc tế về quyền tác giả cũng lần lượt ra đời như: tổ chức Sở hữu Trí tuệ Thế giới (WIPO), hiệp hội Công nghiệp ghi âm Quốc tế, hiệp hội các Nhà soạn nhạc và Soạn lời Quốc tế, hiệp hội Quản lý các tác phẩm nghe nhìn Quốc

tế, liên hiệp quốc tế các tổ chức quyền sao chép, … Trong đó tổ chức Sở hữu Trí tuệ Thế giới (WIPO) là một trong số 16 cơ quan chuyên môn của Liên hợp quốc có trách nhiệm thúc đẩy việc bảo hộ sở hữu trí tuệ trên toàn thế giới WIPO thúc đẩy hợp tác giữa các quốc gia trong lĩnh vực sở hữu trí tuệ, quản lý nhiều liên hiệp và các tổ chức khác được thành lập trên cơ sở các hiệp định đa phương và tạo ra các luật mẫu để các nước đang phát triển thông qua 18]

Việt Nam đang từng bước hội nhập nền kinh tế thế giới Bên cạnh những hợp tác phát triển kinh tế – xã hội, Việt Nam còn phải tham gia những công ước, những hiệp định về bảo hộ tác quyền như: hiệp định Việt – Mỹ về Quyền tác giả, hiệp định

về bảo hộ sở hữu trí tuệ Việt Nam – Thụy Sĩ, công ước Berne về bảo hộ tác phẩm văn học nghệ thuật, … Chính phủ Việt Nam cũng ký kết một số bản ghi nhớ quan trọng liên quan đến bảo hộ sở hữu trí tuệ và quyền tác giả như: bản ghi nhớ giữa Cục sở hữu trí tuệ vương quốc Thái Lan và Cục bản quyền tác giả Việt Nam về hợp tác trong lĩnh vực quyền tác giả và quyền kề cận, bản ghi nhớ hợp tác trong lĩnh vực

Trang 10

quyền tác giả và quyền kề kận giữa Cục bản quyền tác giả nước cộng hoà xã hội chủ nghĩa Việt Nam và Cục bản quyền quốc gia nước cộng hoà nhân dân Trung Hoa, bản ghi nhớ giữa Cục Sở hữu trí tuệ Vương quốc Thái Lan Và Các cơ quan liên quan của nước Cộng hoà XHCN Việt Nam Về hợp tác thúc đẩy và bảo hộ sở hữu trí tuệ 18]

Quốc hội Việt Nam cũng đã ban hành Luật sở hữu trí tuệ Đối tượng áp dụng luật sở hữu trí tuệ là đối tượng quyền tác giả, đối tượng quyền sở hữu công nghiệp

và đối tượng quyền đối với giống cây trồng Đối tượng quyền tác giả bao gồm tác phẩm văn học, tác phẩm nghệ thuật, tác phẩm khoa học; cuộc biểu diễn, bản ghi âm, ghi hình, chương trình phát sóng, tín hiệu vệ tinh mang chương trình được mã hoá Đối tượng quyền sở hữu công nghiệp bao gồm sáng chế, kiểu dáng công nghiệp, thiết kế bố trí mạch tích hợp bán dẫn, bí mật kinh doanh, nhãn hiệu, tên thương mại

và chỉ dẫn địa lý Đối tượng quyền đối với giống cây trồng là giống cây trồng và vật liệu nhân giống [19] Luật sở hữu trí tuệ đưa ra một loạt các quy định liên quan đến quyền sở hữu trí tuệ như: nội dung, giới hạn quyền, thời hạn bảo hộ quyền tác giả, thủ tục đăng ký chứng nhận quyền các giả, lệ phí về sở hữu trí tuệ, cấp giấy chứng nhận quyền sở hữu, giám định về sở hữu trí tuệ, xử lý vi phạm, …

Trong quá trình thực hiện quyền sở hữu trí tuệ, công việc giám định về sở hữu trí tuệ là công việc khó khăn Giám định bản quyền đòi hỏi phải sử dụng các kiến thức, nghiệp vụ chuyên môn để đánh giá, kết luận về những vấn đề có liên quan đến vụ việc xâm phạm quyền sở hữu trí tuệ [19] Tùy thuộc vào đối tượng cần giám định cụ thế như: tác phẩm văn học, nghệ thuật và khoa học, bản ghi âm, ghi hình, kiểu dáng công nghiệp, … mà sử dụng các kỹ thuật giám định phù hợp Một

số bộ luật về bản quyền trên thế giới (bao gồm Mỹ) yêu cầu chủ sở hữu ký thông tin bản quyền (affix a copyright notice) vào mỗi bản sao sản phẩm để đảm bảo bản quyền được duy trì [2]

Ngoài vấn đề bảo hộ quyền sở hữu trí tuệ, giám định chủ sở hữu được quan tâm nhiều, trên thực tế vấn đề giả mạo giấy tờ cũng rất nóng bỏng Giấy tờ giả mạo

Trang 11

tồn tại ở nhiều dạng như: giả mạo công văn, giả mạo chỉ thị, giả mạo bằng cấp, giả mạo giấy tờ tuỳ thân, … Giấy tờ giả có thể xảy ra trong bất kỳ cơ quan, tổ chức nào Tuỳ theo mức độ quan trọng của tài liệu giả mạo, mức độ nghiêm trọng của sự việc

sẽ có độ nghiêm trọng khác nhau Để xử lý việc sử dụng giấy tờ giả mạo, công việc đầu tiên là phải phát hiện ra tài liệu giả mạo

Vấn đề đặt ra là xây đựng một phương pháp nhúng thông tin bí mật vào các tài liệu tiếng Việt Thông tin bí mật sẽ làm cơ sở cho việc giám định thông tin bản quyền sở hữu và phát hiện ra tài liệu có giả mạo hay không Các tài liệu Tiếng việt

có thể bị sử dụng trái phép, bị giả mạo toàn bộ hoặc một phần Do đó thông tin bí mật cần được nhúng vào từng mục, từng chương và toàn bộ tài liệu Phương pháp nhúng thông tin bản quyền xây dựng sẽ được áp dụng thử nghiệm trên các tài liệu luận văn tốt nghiệp tại Khoa Công Nghệ Thông Tin Đại Học Bách Khoa Thành phố

Hồ Chí Minh

1.2 Hướng giải quyết vấn đề

Digital watermaking là kỹ thuật cho phép nhúng thông tin vào sản phẩm nhằm khẳng định bản quyền sở hữu Kỹ thuật digital watermarking được chấp nhận rộng rãi vào những năm 1990 và phát triển mạnh mẽ từ năm 1995 đến nay [1] Các sản phẩm có thể ứng dụng kỹ thuật digital watermaking bao gồm: hình ảnh (images), phim (video), âm thanh (audio), văn bản (text), Watermarking trên dữ liệu văn bản cung cấp khả năng theo dõi (tracing documents) các tài liệu bị sao chép, phân phối trái phép hoặc tài liệu bị sửa đổi, giả mạo [7]

Đặc điểm của tiếng Việt có sử dụng các ký tự latinh và các dấu thanh như: thanh ngang, thanh sắc, thanh huyền, thanh hỏi, thanh ngã và thanh nặng Một số ký

tự nguyên âm của tiếng Việt có sử dụng thêm dấu mũ (như â, ê, ô) và dấu “ă” (như ă) Gọi chung các dấu thanh và các dấu trên một số ký tự nguyên âm là dấu tiếng Việt Nếu dịch chuyển các dấu tiếng Việt một khoảng cách nhỏ lên hoặc xuống thì người đọc sẽ không ngờ tới Thông tin bản quyền sẽ được nhúng vào tài liệu tiếng

Trang 12

Hướng giải quyết vấn đề là ứng dụng kỹ thuật digital watermarking xây dựng một phương pháp nhúng thông tin vào các tài liệu tiếng Việt Phương pháp này sẽ nhúng thông tin dựa đặc điểm đặc trưng có sử dụng dấu của tiếng Việt Thông tin sẽ được nhúng vào các tài liệu thông qua việc dịch chuyển các dấu tiếng Việt lên hoặc xuống một khoảng nhỏ Phương pháp dịch chuyển dấu này có thể áp dụng cho các loại tài liệu sử dụng ngôn ngữ có dấu khác như: tiếng Đức, tiếng Tây Ban Nha, tiếng Bồ Đào Nha, …

Trang 13

Chương 2 CƠ SỞ LÝ THUYẾT

2.1 Kỹ thuật digital watermarking

2.1.1 Giới thiệu watermarking

Các phương pháp giấu thông tin (information hiding, data hiding) đang được nghiên cứu và ứng dụng mạnh mẽ trong lĩnh vực an toàn và bảo mật thông tin Giấu thông tin là kỹ thuật nhúng thông tin vào đối tượng khác Giấu thông tin có nghĩa là làm cho thông tin không thể nhận biết được (imperceptible) hoặc giữ thông tin tồn tại ở trạng thái bí mật [3] Giấu thông tin thường có hai hướng tiếp cận là steganography

và watermarking Hình 2.1 thể hiện mỗi liên hệ giữa kỹ thuật dấu tin và hai hướng tiếp cận này Steganography là kỹ thuật giấu thông tin vào đối tượng khác để truyền tin đi trong trường hợp giao tiếp bí mật [1] Watermarking là kỹ thuật giấu thông tin vào đối tượng nhằm khẳng định bản quyền sở hữu hoặc chống việc xuyên tạc thông tin [2], [4]

Hình 2.1 - Phân loại kỹ thuật giấu tin

Các kỹ thuật giấu tin đã được sử dụng từ rất lâu trong quá khứ Khi nói về kỹ thuật giấu tin người ta thường nhắc tới một câu chuyện kinh điển được kể bởi sử gia

Hy Lạp Herodotus [3] Khi Histiaeus bị bắt giữ ở Susa vào thế kỷ năm trước Công nguyên, ông ta đã gởi thông điệp bí mật cho Aristagoras ở Miletus Để gởi thông điệp Histiaeus đã cạo trọc đầu một nô lệ tin cậy và xăm thông tin bí mật lên da đầu của người nô lệ đó Sau khi xăm, tóc của người nô lệ mọc dài như cũ và che dấu

Information Hiding

Trang 14

thông tin đã xăm trên da dầu Sau đó người nô lệ được gởi tới Miletus cho Aristagoras Aristagoras cạo đầu người nô lệ và đọc thông tin bí mật trên đầu người

nô lệ [3] Thông qua câu chuyện này có thể làm nổi bật lên sự khác nhau giữa steganography và watermarking Nếu thông điệp trên bí đầu người nô lệ được truyền đi với mục đích qua khỏi mọi sự kiểm soát thì phương pháp giấu tin này gọi

là steganography Nếu thông tin bí mật trên đầu người nô lệ được sử dụng để nhận biết người nô lệ đó là của Histeiaus (không phải của người khác) thì phương pháp giấu tin này gọi là watermarking [3]

Khi sử dụng kỹ thuật steganography, đối tượng dùng để giấu thông tin thường được chọn làm sao cho người dùng không thể ngờ tới Steganography được

sử dụng nhiều trong quân đội [3] Steganography cổ điển (steganography được sử dụng trước khi dữ liệu số) được chia thành hai loại: linguistic steganography và technical steganography [2] Technical steganography là kỹ thuật giấu thông tin vào đối tượng chứa dựa trên các đặc tính về vật lý hoặc hóa học Giấu tin bằng cách sử dụng mực không màu là một ví dụ tiêu biểu của kỹ thuật technical steganography

Kỹ thuật linguistic steganography sử dụng các dạng đặc biệt của chữ viết để giấu thông tin [2]

Watermarking thực hiện trên dữ liệu dạng số được gọi là digital watermaking Thuật ngữ digital watermarking được xuất hiện đầu tiên vào năm

1993, khi Tirkel đưa ra hai phương pháp giấu tin trên ảnh (hai phương pháp này dựa trên cơ sở thay đổi giá trị các bit màu có trọng số thấp) [4] Kỹ thuật digital watermarking là một lĩnh vực nổi bật trong lĩnh vực khoa học máy tính, mật mã, xử

lý tín hiệu và truyền thông [16] Digital watermaking còn là một phương pháp tốt để bảo vệ quyền sở hữu trí tuệ tránh sự sao chép trai phép [4] Tùy theo tiêu chí phân loại watermarking được chia thành nhiều loại khác nhau Các loại kỹ thuật watermarking bao gồm: watermark bền vững (robust watermark), watermark dễ vỡ (fragile watermark), watermark có sử dụng thêm khóa (public/private watermark), watermark nổi hoặc chìm (visible/invisible watermark) [2] Robust watermark: thông tin nhúng có độ bền vững cao, luôn tồn tại với dữ liệu chứa cho dù dữ liệu

Trang 15

chứa bị biến đổi phức tạp Fragile watermark: toàn bộ dữ liệu sau khi nhúng thông tin bản quyền dễ dàng bị phá hủy nếu dữ liệu bị thay đổi nhỏ hoặc sao chép trái phép Public/private watermark: watermark có sử dụng thêm các khóa bí mật trong việc nhúng hoặc lấy lại thông tin Khoá bí mật được sử dụng để quy định người nào

có thể truy xuất vào thông tin nhúng Visible/invisible watermark: visible watermark là kỹ thuật cố tình cho người sử dụng biết thông tin bản quyền Invisible watermark che giấu thông tin bản quyền, người sử dụng không hay biết dữ liệu đã được giấu thông tin

Các kỹ thuật digital watermarking được đánh giá dựa trên các yêu cầu: độ bền vững của thông tin nhúng (robustness), mức độ bảo mật (security) và mức độ ẩn thông tin nhúng (invisibility) Kỹ thuật digital watermarking đạt được các yêu cầu này càng cao càng tốt Khi tăng chất lượng một yêu cầu thì các yêu cầu khác sẽ bị ảnh hưởng [4]

Hình 2.2 - Tam giác các yêu cầu đối với digital watermarking

Watermarking là kỹ thuật vẫn còn trong giai đoạn phát triển Tương lai của watermarking đầy hứa hẹn [4] Nhiều công ty nghiên cứu về digital watermarking

đã ra đời

2.1.2 Ứng dụng của digital watermarking

Digital watermarking được ứng dụng rộng rãi trong nhiều lĩnh vực như: bảo vệ bản quyền (Copyright Protection), chứng thực nội dung (Authentication or Tampering

robustness

invisibility security

Trang 16

(Broadcast Monitoring), điều khiển sao chép (Copy Control), … Các ứng dụng của digital watermarking sẽ trình bày cụ thể dưới đây.

Bảo vệ bản quyền: watermarking được sử nhiều nhất trong lĩch vực bảo vệ bản quyền [1] Thông tin bản quyền được nhúng vào sản phẩm (phương tiện chứa) dùng làm bằng chứng cho quyền sở hữu sản phẩm Thông tin bản quyền được sử dụng trong trường hợp giải quyết tranh chấp hoặc cần chứng minh quyền sở hữu sản phẩm Watermarking để bảo vệ bản quyền cần có độ bền vững cao [15]

Chứng thực nội dung: waterking được ứng dụng trong việc làm bằng chứng xác định nội dung dữ liệu là đúng nguyên bản, chưa bị thay đổi Tránh trường hợp

dữ liệu bị thay đổi với mục đích xấu hay còn gọi là xuyên tạc nội dung [3]

Dán nhãn sản phẩm: watermarking dùng để ghi thông tin dùng nhận diện ra nguồn gốc nhà sản xuất (creator), thông tin người sử dụng (recipient), số hiệu sản phẩm (serical code) Thông tin nhận này diện này phải đặc trưng, duy nhất cho từng loại sản phẩm [15]

Theo dõi lịch phát sóng: hệ thống theo dõi lịch phát sóng dùng để tự động giám sát việc phát sóng có đúng nội dung, thời lượng và thời điểm hay không Hệ thống này cần có một bộ phận nhận tín hiệu phát sóng và so sánh với tín hiện gốc đã được lưu trữ trước đó Việc so sánh này dựa vào thông tin đánh dấu trong tín hiệu cần phát sóng bằng kỹ thuật watermarking Hệ thống theo dõi lịch phát sóng được ứng dụng trong trường hợp tổ chức đăng ký quảng cáo muốn theo dõi được tình trạng thông tin quảng cáo của họ trên các phương tiện thông tin đại chúng [3]

Điều khiển sao chép: watermarking có thể được sử dụng trong các hệ thông phân phối dữ liệu đa phương tiện Trong trường hợp này watermarking được dùng

để điều khiển sao chép đối với các thiết bị đọc ghi dữ liệu Các thiết bị đọc ghi cần phải có thêm bộ phận phát hiện ra thông tin đánh dấu trong sản phẩm nguồn, đồng thời có khả năng tạo ra thông tin cần đánh dấu mới và ghi vào sản phẩm đích Watermarking trong điều khiển sao chép đã được ứng dụng trong việc quản lý sao chép DVD tại Nhật Bản Thông tin đánh dấu trong các đĩa DVD mang ý nghĩa chỉ

Trang 17

trạng thái cho phép sao chép dữ liệu như: không được sao chép, được sao chép 1 lần, Trước khi sao chép dữ liệu, bộ đọc ghi sẽ đọc thông tin đánh dấu trong đĩa DVD gốc Tuỳ theo dữ liệu đánh dấu mà bộ đọc ghi thực hiện việc sao chép dữ liệu hoặc không thực hiện [3]

2.2 Nguyên lý cơ bản của digital watermarking

Digital watermarking là một lĩnh vực mới Lĩnh vực này đang trong giai đoạn phát triển nên nguyên lý cơ bản được trình bày theo nhiều dạng khác nhau và vẫn còn thay đổi [2] Ý tưởng cơ bản của ditital watermarking là nhúng thông tin (watermark) vào dữ liệu chứa (host data) Thông tin nhúng phải bí mật và hoàn toàn được che phủ bởi dữ liệu chứa Thông tin đã nhúng phải đảm báo sẽ trích dẫn ra được khi cần thiết [1], [4] Trên cùng một dữ liệu chứa, nhúng được càng nhiều thông tin càng tốt

Nhằm mục đích tăng tính bảo mật khi nhúng thông tin và khi trích dẫn thông tin có thể dùng thêm các khoá bảo vệ (secure key) Việc sử dụng các khoá này đảm bảo thông tin nhúng thông tin là hợp lệ, trách trường hợp dữ liệu bị nhúng bằng thông tin giả mạo [1], [2]

Để thiết kế một hệ thống digital watermarking cho phép nhúng thông tin bi mật (I) vào dữ liệu chứa gốc (X) thành dữ liệu đã nhúng thông tin bí mật (Y) bao gồm các công việc sau [1]:

− Xây dựng thông tin cần nhúng (W) Thông tin bí mật phải được chuyển dạng thích hợp trước khi nhúng vào dữ liệu chứa

Trang 18

Y=f(X,K,W)

Hình 2.3 - Nguyên lý nhúng thông tin

Hình 2.3 thể hiện nguyên lý nhúng thông tin vào dữ liệu Để nhúng thông tin cần phải cung cấp dữ liệu nhúng (W), dữ liệu cần nhúng (X) Khoá K

có thể được sử dụng hoặc không

− Xây dựng phương pháp lấy lại thông tin Thông tin đã nhúng I được lấy lại tuỳ thuộc vào phương pháp nhúng dữ liệu Tuỳ thuộc vào phương tiện chứa có thể phải sử dụng thêm sản phẩm gốc Nếu việc nhúng dữ liệu vào phương tiện chứa không cần sử dụng khoá K

I=g(Y) Nếu việc nhúng dữ liệu vào phương tiện chứa có sử dụng khoá K

I=g(Y,K) Nếu việc nhúng dữ liệu vào phương tiện chứa không sử dụng khoá K và cần phương tiện chứa gốc

I=g(Y,X)

WATERMARK ENCODER

W

K

X

Y

Trang 19

Nếu việc nhúng dữ liệu vào phương tiện chứa có sử dụng khoá K và cần phương tiện chứa gốc

I=g(Y,K,X)

Hình 2.4 - Nguyên lý lấy lại thông tin đã nhúng

Hình 2.4 thể hiện nguyên lý lại thông tin đã nhúng vào dữ liệu (Y) Để lấy lại thông tin có thể phải sử dụng thêm dữ liệu gốc (X) hoặc/và khoá bí mật (K)

2.3 Các hình thức tấn công vào watermarking

Sản phẩm sau khi nhúng thông tin sẽ được phân phối rộng rãi có thể bị tấn công nhằm mục đích vô hiệu hóa thông tin đã nhúng Các hình thức tấn công được chia thành 4 loại sau: gây nhiễu, vô hiệu hóa thông tin nhúng, nhúng lại thông tin, gỡ bỏ thông tin đã nhúng [1]

Gây nhiễu là cách tấn công thực hiện một số thao tác biển đổi trên toàn bộ dữ liệu, mục đích làm nhiễu, làm suy yếu thông tin nhúng [1] Ví dụ: các tập tin hình ảnh đã nhúng thông tin bản quyền bị gây nhiễu bằng cách dịch chuyển, xóa bỏ một

số điểm ảnh trong dữ liệu ảnh

Phương pháp vô hiệu hoá thông tin nhúng làm vô hiệu hóa mối liên hệ giữa thông tin nhúng và dữ liệu chứa nó và làm cho các chương trình lấy lại thông tin nhúng không còn khả năng tìm ra được thông tin đã nhúng [1][13] Ví dụ: phóng to, thu nhỏ dữ liệu hình ảnh, quay dữ liệu hình ảnh, dịch chuyển không gian và thời gian trong dữ liệu phim

WATERMARK DECODER

Y

K

X

I

Trang 20

Hình thức tấn công nhúng lại thông tin sẽ nhúng thông tin khác vào dữ liệu

đã có thông tin bản quyền Dữ liệu có thể bị nhúng lại nhiều lần Khi nhúng lại thông tin có thể thông tin nhúng ban đầu bị hư hỏng, sai lạc, bị vô hiệu hóa [1] Nhiều khi thông tin nhúng lại cùng tồn tại với thông tin nhúng trước đó

Hình thức tấn công gỡ bỏ thong tin nhúng phải phân tích dữ liệu đã nhúng thông tin Từ đó tìm ra thông tin đã nhúng và gỡ bỏ thông tin này Đây là phương pháp tấn công phức tạp nhất và xác suất thành công không cao [1]

Ba hình thức tấn công: gây nhiễu, vô hiệu hóa thông tin nhúng, nhúng lại thông tin không cần quan tâm dữ liệu đã nhúng và phương pháp nhúng Đây là những cách tấn công dễ thực hiện

2.4 Digital watermarking trong dữ liệu đa phương tiện

Trong thời gian gần đây, internet phát triển mạnh mẽ đã tạo ra sự thay đổi lớn trên nhiều lĩnh vực trong cuộc sống Internet là nguồn tri thức khổng lồ của nhân loại Đặc biệt internet là môi trường trao đổi thông tin hết sức tiện lợi Vấn đề vi Kỹ thuật digital watermarking càng quan trong hơn khi ngày càng nhiều nhà cung cấp muốn bán dữ liệu số qua internet Dữ liệu số bao gồm văn bản, hình ảnh, âm thanh, phim [4]

Watermarking với dữ liệu văn bản được sử dụng trong dữ liệu văn bản trong thời gian dài cho các công việc đòi hỏi độ bí mật cao Wartermarking trong dữ liệu văn bản các nhóm phương pháp: watermarking trực tiếp trên văn bản, watermarking trên dữ liệu ở một định dạng nhất định (Postscript, PDF, ), watermarking trên tập tin hình ảnh quét từ văn bản Watermarking trên văn bản sẽ được trình bày cụ thể ở mục 2.5

Watermarking với dữ liệu hình ảnh được sử dụng rộng rãi và chiếm phần lớn trong các ứng dụng về watermark [1], [3] Trong phương pháp này, thông tin sẽ được nhúng vào một số pixel trong ảnh, chất lượng ảnh thay đổi một lượng rất nhỏ Người xem không thể phát hiện được Ngày nay, ảnh số đang được sử dụng rất phổ

Trang 21

biến nên watermark trong ảnh đã đem lại nhiều ứng dụng quan trọng có ý nghĩa lớn trong cuộc sống Ứng dụng về nhận diện như thẻ chứng minh, thẻ căn cước, hộ chiếu, … Người ta có thể giấu thông tin nhận dạng vào các ảnh thẻ để xác định thông tin thực

Watermarking với dữ liệu âm thanh dựa vào khuyết điểm của hệ thống thính giác của con người – đó là đặc tích ít nhạy cảm với những thay đổi nhỏ trên miền thời gian và miền tần số [20] Các phương pháp watermarking trên âm thanh tiêu biểu là: mã hoá LSB, mã hóa pha, trải phổ, ẩn echo, kỹ thuật chi trải phổ, điều biến chỉ mục [20]

Watermarking với dữ liệu phim được quan tâm và được phát triển mạnh mẽ cho nhiều ứng dụng như điều khiển truy cập thông tin và bảo vệ bản quyền tác giả Một phương pháp watermark trong video được đưa ra bởi Cox là phương pháp phân

bố đều ý tưởng cơ bản của phương pháp là phân phối thông tin giấu dàn trải theo tần số của dữ liệu chứa gốc Kỹ thuật giấu thông tin áp dụng cả đặc điểm thị giác và thính giác của con người

XML là một ngôn ngữ đánh dấu (markup language) tương tự như HTML XML dùng để lưu trữ dữ liệu và chuyển đổi dữ liệu giữa các hệ thống sử dụng phần cứng, hệ điều hành khác nhau XML chứa dữ liệu văn bản (text) được cấu trúc theo một dạng nhất định XML bao gồm các thẻ (tag) Các thẻ này không định nghĩa trước, do người dùng tự định nghĩa Dữ liệu được lưu trữ trong các thẻ [6] Một số phương pháp wartermarking trong dữ liệu XML gồm [6]: phương pháp sử dụng thẻ rỗng và phương pháp thay đổi thứ tự thuộc tính Phương pháp sử dụng thẻ rỗng nhúng thông tin vào các tài liệu XML bằng cách sử dụng thẻ rỗng đồng thời với với các thẻ bình thường (có thẻ đóng và thẻ mở) Phương pháp thay đổi thứ tự thuộc tính nhúng thông tin vào tài liệu XML bằng cách thay đổi thứ tự các thuộc tính trong các thẻ (element, tag)

Hình 2.5 biểu diễn một phương pháp sử dụng thẻ rỗng để nhúng thông tin vào các tài liệu XML XML cho phép sử dụng các thẻ rỗng đồng thời với các thẻ

Trang 22

bình thường (có thẻ đóng và thẻ mở) Qui tắc nhúng như sau: sử dụng thẻ bình thường <img></img> có nghĩa là nhúng bit 0, sử dụng thẻ rỗng <img/> có nghĩa là nhúng bit 1 Thông tin đã được nhúng trong ví dụ này là chuỗi bit 0110

Hình 2.5 - Ví dụ nhúng bản quyền bằng phương pháp sử dụng thẻ rỗng [11]

Trên hình 2.6 biểu diễn phương pháp thay đổi thứ tự các thuộc tính “month”

và thuộc tính “date” của thẻ “event” Quy tắc nhúng thông tin: sử dụng thuộc tính

“month” trước thuộc tính “date” có nghĩa là nhúng bit 0, sử dụng thuộc tính “date” trước thuộc tính “month” có nghĩa là nhúng bit 1 Thông tin đã được nhúng trong ví

dụ này là chuỗi bit 01

Hình 2.6 - Ví dụ nhúng bản quyền bằng phương pháp thay đổi thuộc tính [11]

Watermarking còn được ứng dụng trên các loại dữ liệu khác như: digital map, rational database Digital map là dữ liệu của các hệ thống GIS với các phần tử

cơ bản là điểm, đường vùng Thông tin sẽ được nhúng dựa vào việc thay đổi nhỏ các đặc tính của dữ liệu GIS như: tọa độ, kích thước đối tượng

2.5 Digital watermarking trong dữ liệu văn bản

Dữ liệu văn bản (text document) là dạng dữ liệu thông dụng và được sử dụng nhiều nhất trong thực tế Dữ liệu văn bản có mặt ở khắp nơi, tồn tại ở nhiều định dạng như: sách, báo, trang web, hợp đồng, quảng cáo, … [17] Tại cùng thời điểm dữ liệu

<img src="foo1.jpg"></img>

<img src="foo2.jpg"/>

<img src="foo3.jpg"/>

<img src="foo4.jpg"></img>

<event month="Sep" date="2">Independence day</event>

<event date="24" month="Dec">Christmas</event>

Trang 23

văn bản có thể được phân phối rộng rãi thông qua internet Các vấn đề bảo vệ bản quyền, phân quyền truy cập hợp lệ, theo dõi việc sử dụng tài liệu vẫn là một vấn đề đầy lớn cần giải quyết So với các dạng dữ liệu âm thanh, hình ảnh, phim, … dữ liêu văn bản có ít đặc tính để nhúng thông tin bí mật [17] Thông tin nhúng trong dữ liệu văn bản thường dễ dàng bị gỡ bỏ bởi các ứng dụng tự động nhận dạng ký tự (Optical Character Recognition, OCR) [17] Vì vậy, tính bền vững của thông tin nhúng là một thách thức lớn khi thực hiện watermarking trên văn bản

Các phương pháp watermarking trên văn bản có thể chia thành ba nhóm: watermarking trực tiếp trên văn bản, watermarking trên dữ liệu đã định dạng, watermarking trên tập tin hình ảnh quét từ văn bản Chi tiết cụ thể về ba nhóm phương pháp này sẽ được sẽ trình bày dưới đây

2.5.1 Watermarking trực tiếp trên văn bản

Kỹ thuật digital watermaking trực tiếp trên dữ liệu văn bản ở dạng ký tự chưa định dạng (plain text) thực hiện bằng cách sử dụng một số phương pháp giấu tin trong văn bản Tuy nhiên, sau khi sử dụng kỹ thuật watermaking thì dữ liệu văn bản có sự thay đổi lớn và người đọc dễ dàng phát hiện ra Nhóm phương pháp watermarking trực tiếp trên văn bản bao gồm 3 nhóm phương pháp nhỏ [5], [9]:

− Nhóm phương pháp sửa khoảng trống (open space methods): nhúng thông tin thông qua việc thao tác trên các khoảng trống giữa các từ trong văn bản

− Nhóm phương pháp cú pháp (syntactic methods): nhúng thông tin dựa vào các dấu câu

− Nhóm phương pháp ngữ nghĩa (semantic methods): nhúng thông tin dựa trên việc thao tác trên chính các từ trong văn bản

Nhóm phương pháp sửa khoảng trống nhúng bản quyền vào văn bản bằng dựa trên sự thay đổi các khoảng trống trong văn bản Có hai lý do để lựa chọn

Trang 24

khoảng trống trong câu thì rất ít khả năng thay đổi nghĩa của các cụm từ hoặc ý nghĩa của câu Lý do thứ hai là người đọc thường không nghi ngờ tài liệu đã nhúng thông tin thông qua sự thay đổi nhỏ trên các khoảng trống [5] Các khoảng trống bị thay đổi có thể là khoảng trống giữa các từ trong câu, khoảng trống ở cuối mỗi hàng hoặc khoảng trống giữa các ký tự trong các từ [5]

(a)

(b)

Hình 2.7 - Ví dụ thay đổi khoảng trống giữa các từ trong câu

Hình 2.7 biểu diễn một ví dụ nhúng thông tin dựa vào khoảng trống giữa các

từ trong câu Phần (a) biểu diễn dữ liệu sau khi nhúng, phần (b) biểu diễn dữ liệu sau khi nhúng có thêm chú thích Qui tắc nhúng như sau: một khoảng trống mà trước đó có hai khoảng trống tức là nhúng bit 0, hai khoảng trống, trước đó có một khoảng trống tức là nhúng bit 1 [5] Dữ liệu được nhúng trong ví dụ là chuỗi ký tự

“BK” theo mã ASCII (American Standard Character Interchange) Mã ASCII của

Trang 25

ký tự “B” là 01000010, của ký tự “K” là 10001011 nên chuỗi bit đã được nhúng là

Hình 2.8 - Ví dụ thay đổi khoảng trống cuối hàng [5]

Nhóm phương pháp cú pháp dựa trên sự nhập nhằng giữa các dấu chấm câu hoặc sửa nghĩa của dữ liệu văn bản Nội dung, cấu trúc của văn bản bị thay đối Phương pháp này rất khó bị phá hủy nhưng việc hiện thực khó khăn do phải làm bằng thủ công bằng sức người là chính Hình 2.9 biểu diễn một ví dụ nhúng thông

tin trên việc thay đổi thứ tự các dấu chấm, dấu phảy

Hình 2.9 - Ví dụ nhúng bản quyền bằng phương pháp cú pháp [11]

Phương pháp ngữ nghĩa nhúng thông tin thông qua việc thay đổi chính các từ trong văn bản [5] Các từ đồng nghĩa được sử dụng theo một quy tắc để nhúng thông tin Phương pháp này gán cho mỗi cặp từ đồng nghĩa hai giá trị chính

See e.g., page 100

See e.g page 100

Trang 26

(primary value) và phụ (secondary value) Ví dụ trong cặp từ đồng nghĩa “big” và

“larger”, từ “big” có giá trị chính, từ “large” có giá trị phụ Khi sử dụng từ có giá trị chính có nghĩa là nhúng bit 1, sử dụng từ giá trị phụ có nghĩa là nhúng bit 0 [5] Ưu điểm của duy nhất là của phương pháp này là thông tin nhúng có độ bền vững cao, ngay cả khi người sử dụng gõ lại văn bản (retyping) Hình 2.10 biểu diễn một số cặp từ đồng nghĩa, từ phía bên trái là từ có giá trị chính, từ phía bên phải là từ có giá trị phụ

Hình 2.10 - Ví dụ về các cặp từ động nghĩa [5]

2.5.2 Watermarking trên dữ liệu đã định dạng

Dữ liệu ở một định dạng nhất định như: PDF, PostScript, RTF, TeX, … [2] Thông thường thông tin bản quyền được nhúng dựa trên đặc điểm vị trí hiển thị các ký tự trong văn bản Có thể thực hiện nhúng thông tin bằng cách dịch chuyển hàng, dịch chuyển từ hoặc dịch chuyển từng ký tự trong văn bản [1], [8], [10]

Hình 2.11 - Ví dụ dịch chuyển hàng

Phương pháp dịch chuyển hàng dịch chuyển một số hàng trong văn bản lên trên hoặc xuống dưới một khoảng cách rất nhỏ, người đọc không thể phát hiện được Thông tin đánh dấu bản bản quyền được giấu vào khoảng trống dịch chuyển

Trang 27

Hình 2.11 biểu diễn một ví dụ dịch chuyển hàng văn bản có nội dung “Chứng thực

nội dung” lên trên một khoảng nhỏ

Phương pháp dịch chuyển từ dịch chuyển một số từ trong văn bản sang trái hoặc sang phái một khoảng cách rất nhỏ Thông tin đánh dấu bản bản quyền được giấu vào khoảng trống dịch chuyển [14] Hình 2.12 biển diễn ví dụ dịch chuyển từ

“bản” trong cụm từ “Bảo vệ bản quyền” sang phải một khoảng nhỏ

2.5.3 Watermarking trên tập tin hình ảnh quét từ văn bản

Văn bản trước tiên được quét (scan) thành các tập tin hình ảnh Sau đó sẽ thực hiện nhúng thông tin Nhóm phương pháp này có thể sử dụng các phương pháp đối với watermaking trên dữ liệu ở một định dạng nhất định Ngoài ra, nhóm phương pháp này còn có thể thực hiện được các đặc điểm khác trên ký tự như: đặc điểm hiển thị đặc trưng của từng ký tự, màu sắc ký tự

Phương pháp thay đặc điểm đặc trưng của ký tự đánh dấu bản quyền thông qua việc thay đổi hình dạng một số ký tự trong văn bản Hình 2.14 biển diễn ví dụ thay đổi đặc điểm đặc trưng của ký tự “v” và ký tự “q” Trong ví dụ này ký tự “v”

và ký tự “q” đã được thay đổi đặc điểm đồ hoạ khác với bình thường

Trang 28

Hình 2.14 – Ví dụ thay đổi đặc trưng

Phương pháp thay đổi màu sắc ký tự thay đổi màu sắc một lượng nhỏ không đáng kể Thông tin sẽ được nhúng dựa vào sự thay đổi này Hình 2.15 biểu diễn nhúng thông tin thông qua thay đổi màu sắc các ký tự theo quy tắc màu bình thường

có nghĩa là nhúng bit 1, màu nhạt hơn bình thường có nghĩa là nhúng bit 0

Hình 2.15 - Ví dụ thay đổi màu sắc các ký tự [12]

2.5.4 Nhận xét về các phương pháp watemarking trên dữ liệu văn bản

Nhóm phương pháp watermarking trực tiếp trên văn bản có đặc điểm sau:

− Dữ liệu sau khi nhúng thông tin có sự thay đổi lớn, người đọc dễ dàng nghi ngờ

− Độ bền vững đối với thông tin bản quyền không cao Thông tin bản quyền có thể bị vô hiệu hoá một cách dễ dàng bằng cách sử dụng chức năng tìm và thay thế trong các phần mềm xử lý văn bản (word processor) Riêng phương pháp ngữ nghĩa có độ bền vững rất cao, thông tin nhúng vẫn còn ngay cả khi gõ lại văn bản hoặc dùng các chương trình nhận dạng văn bản

Nhóm phương pháp watermarking trên dữ liệu ở một định dạng nhất định có đặc điểm:

− Dữ liệu sau khi nhúng thông tin có sự thay không đáng kể

Trang 29

− Độ bền vững đối với thông tin nhúng cao

− Phụ thuộc vào từng định dạng dữ liệu cụ thể Phải hiểu định dạng mới nhúng thông tin được

Nhóm phương pháp watermarking trên tập tin hình ảnh quét từ văn bản có đặc điểm:

− Dữ liệu sau khi nhúng thông tin có sự thay không đáng kể

− Độ bền vững cao

− Khi nhúng thông tin đòi hỏi độ phức tạp cao do phải quét dữ liệu sang dạng hình ảnh, lọc nhiễu sau đó mới nhúng thông tin

Trang 30

Chương 3 GIẢI PHÁP THỰC HIỆN

3.1 Đặc điểm của tiếng Việt và phương pháp nhúng thông tin

Tiếng việt là ngôn ngữ của người Việt (người Kinh) Tiếng Việt được sử dụng là ngôn ngữ chính thức tại Việt Nam Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt Nam Tiếng Việt thuộc hệ ngôn ngữ Nam Á, nhóm Môn-Khmer, nhánh Việt-Mường [21] Nguồn từ vựng tiếng Việt được vay mượn từ tiếng Hán Trước đây dùng chữ Hán (chữ Nho) để viết, sau đó được cải biên thành chữ Nôm Hiện nay, tiếng Việt dùng hệ chữ viết như ký tự Latinh gọi là chữ Quốc ngữ [21]

Bảng chữ cái tiếng Việt có 29 chữ cái Các chữ cái "F", "J", "W" và "Z" không có trong bảng chữ cái tiếng Việt "F", "J", "W" và "Z" được sử dụng để viết các từ vay mượn từ tiếng nước ngoài [21] Hình 3.1 biểu diễn các chữ cái được sử dụng trong tiếng Việt

A Ă Â B C D Đ E Ê G H I K L M

a ă â b c d đ e ê g h i k l m

N O Ô Ơ P Q R S T U Ư V X Y

n o ô ơ p q r s t u ư v x y

Hình 3.1 - Bảng chữ cái tiếng Việt

Các phụ âm của tiếng Việt bao gồm phụ âm đơn và phụ âm nghép Các phụ

âm đơn là: b, c, d, đ, g, h, k, l, m, n, p, q, r, s, t, v, x Các phụ âm ghép là: ch, gh, kh,

ng, ngh, nh, ph, th, tr, gi, và qu Nguyên âm của tiếng Việt bao gồm nguyên âm đơn, nguyên âm đôi và bán nguyên âm Các nguyên âm đơn là: a, ă, â, e, ê, i, o, ô, ơ, u,

ư, y Nguyên âm đôi là: iê, yê, ia, ưa, ươ, ua, uô Bán nguyên âm là: o, u (trong trường hợp oa, oe, uy) [21]

Trang 31

Tiếng Việt là ngôn ngữ thanh điệu Trong tiếng Việt có sáu thanh: ngang (không dấu: a), huyền (nghiêng trái: à), sắc (nghiêng phải: á), hỏi (dấu hỏi: ả), ngã (dấu ngã: ã), và nặng (dấu chấm: ạ) Tất cả các dấu đều được đặt trên nguyên âm, riêng dấu nặng được đặt dưới nguyên âm [21] Một số ký tự nguyên âm của tiếng Việt có sử dụng thêm dấu mũ (như â, ê, ô) và dấu “ă” (như ă) Gọi chung các dấu thanh và các dấu trên một số ký tự nguyên âm là dấu tiếng Việt Nếu dịch chuyển các dấu tiếng Việt lên hoặc xuống một khoảng cách rất nhỏ thì người đọc sẽ không nghi ngờ Vì vậy, thông tin bí mật sẽ được nhúng vào tài liệu tiếng Việt thông qua việc dịch chuyển này

Trong văn bản sử dụng tiếng Việt, dấu nặng nằm ở vị trí phía dưới các ký tự nguyên âm Đặc điểm đồ hoạ của dấu nặng giống như đặc điểm độ hoạ của dấu chấm câu nên rất khó khăn trong việc nhúng thông tin vào dấu nặng Do đó dấu nặng không được chọn để nhúng thông tin

Đặc điểm đồ hoạ của các dấu chấm tròn nhỏ trên ký tự i, j cũng giống như đặc điểm đồ hoạ của dấu nặng và dấu chấm nhưng ký tự nguyên âm phía dưới các dấu chấm tròn này luôn là i hoặc j nên việc nhận dạng các dấu chấm tròn này không phức tạp Do đó ký tự i, j vẫn được lựa chọn để nhúng thông tin

Các ký tự không có dấu phía trên không được chọn để nhúng thông tin Hình 3.2 biểu diễn các ký tự không được chọn để nhúng thông tin bí mật Các ký tự trong hình được trình bày ở phông chữ Times New Roman, kích thước 13 Phần (a) biểu diễn các ký tự ở dạng kiểu chữ bình thường Phần (b) biểu diễn các ký tự ở dạng kiểu chữ nghiêng Phần (c) biểu diễn các ký tự ở dạng kiểu chữ đậm Phần (d) biểu diễn các ký tự ở dạng kiểu chữ đậm và nghiêng

Trang 32

(a)

(b)

(c)

(d)

Hình 3.2 - Các ký tự không chọn nhúng thông tin

Hình 3.3 biểu diễn các ký tự có thể nhúng thông tin Các ký tự trong hình được trình bày ở phông chữ Times New Roman, kích thước 13 Phần (a) biểu diễn các ký tự ở dạng kiểu chữ bình thường Phần (b) biểu diễn các ký tự ở dạng kiểu chữ nghiêng Phần (c) biểu diễn các ký tự ở kiểu chữ đậm Phần (d) biểu diễn các

Ngày đăng: 28/01/2021, 15:30

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] F. Hartung, and M. Kutter. “Multimedia Watermarking Techniques”. Proceedings of the IEEE, 1999 Sách, tạp chí
Tiêu đề: Multimedia Watermarking Techniques
[2] M. Arnold, M. Schmucker, and S. D. Wolthusen. “Techniques and Applicaitons of Digital Watermaking and Content Protection”. ISBN 1- 50853-111-3, Artech House, 2003 Sách, tạp chí
Tiêu đề: Techniques and Applicaitons of Digital Watermaking and Content Protection
[3] M. J. Cox, M. L. Miller, J. A. Bloom. “Digital Watermarking”. ISBN 1- 55860-714-5, Morgan Kaufmann Publishers, 2002 Sách, tạp chí
Tiêu đề: Digital Watermarking
[4] C. S. Lu. “Multimedia Security: Steganography and Digital Watermarking Techniques for Protection of Intellectual Property”. ISBN 1-59140-193-3, Idea Group Publishing, 2004 Sách, tạp chí
Tiêu đề: Multimedia Security: Steganography and Digital Watermarking Techniques for Protection of Intellectual Property
[5] W. Bender, D. Gruhl, N. Morimoto, and A. Lu. “Techniques for data hiding”. ISSN 0018-8670, IBM Systems Journal, 1996 Sách, tạp chí
Tiêu đề: Techniques for data hiding
[6] S. Inoue, K. Makino, I. Murase, O. Takizawa, T. Matsumoto, and H. Nakagawa. “A Proposal on Information Hiding Methods using XML”.Proceedings of the 1 st NLP and XML Workshop, 2001 Sách, tạp chí
Tiêu đề: A Proposal on Information Hiding Methods using XML
[7] J. Su, F. Hartung, and B. Girod. “Digital Watermarking of Text, Image, and Video Documents”. Computers &amp; Graphics, 1999 Sách, tạp chí
Tiêu đề: Digital Watermarking of Text, Image, and Video Documents
[8] J. Brassil, S. Low, N. Maxemchuk, and L. O’Gorman. “Electronic Marking and Identification Techniques to Discourage Document Copying”.Proceedings of the IEEE INFOCOM '94, 1994 Sách, tạp chí
Tiêu đề: Electronic Marking and Identification Techniques to Discourage Document Copying
[9] “Springer - Academic Journals, Books and Online Media”. http://www.springeronline.com/sgw/cda/pageitems/document/cda_downloaddocument/0,11996,0-0-45-101744-0,00.pdf Sách, tạp chí
Tiêu đề: Springer - Academic Journals, Books and Online Media
[10] J. Brassil, S. Low, and N. Maxemchuk. “Copyright Protection for the Electronic Distribution of Text Documents”. Proceedings of the IEEE, 1999 Sách, tạp chí
Tiêu đề: Copyright Protection for the Electronic Distribution of Text Documents
[11] “Department of Computer Science, University of Cape Town”. http://www.cs.uct.ac.za/courses/CS400W/NIS04/papers2003/bmerchant.doc Sách, tạp chí
Tiêu đề: Department of Computer Science, University of Cape Town
[12] R. Villán, S. Voloshynovskiy, O. Koval, J.E. Vila-Forcén, E. Topak, F. Deguillaume, Y. Rytsar, and T. Pun. “Text Data-Hiding for Digital and Printed Documents: Theoretical and Practical Considerations”. Proceedings of SPIE-IS&amp;T Electronic Imaging, 2006 Sách, tạp chí
Tiêu đề: Text Data-Hiding for Digital and Printed Documents: Theoretical and Practical Considerations
[13] D. Huang, and H. Yan. “Interword Distance Changes Reprented by Since Waves for Watermarking Text Images”. School of Electrical and Information Engineering University of Sydney, 2006 Sách, tạp chí
Tiêu đề: Interword Distance Changes Reprented by Since Waves for Watermarking Text Images
[14] A. M. Alattar, and O. M. Alattar. “Watermarking Electronic Text Documents containing Justified Paragraphs and Irregular Line Spacing”. Proceedings of SPIE, 2004 Sách, tạp chí
Tiêu đề: Watermarking Electronic Text Documents containing Justified Paragraphs and Irregular Line Spacing
[15] S. Katzenbeisser, and F. A. P. Petitcolas. “Information Hiding Techniques for Steganography and Digital Watermarking”. ISBN 1-58053-035-4, Artech House, 2000 Sách, tạp chí
Tiêu đề: Information Hiding Techniques for Steganography and Digital Watermarking
[16] S. P. Mohanty. “Digital Watermarking: A Tutorial Review”. Dept. of Comp. Sc. And Eng. University of South Florida, 1999 Sách, tạp chí
Tiêu đề: Digital Watermarking: A Tutorial Review
[17] S. Voloshynovskiy, O. Koval, R. Villan, E. Topak, J. V. Forcén, F. Deguillaume, Y. Rytsar, and T. Pun. “Information-theoretic analysis of electronic and printed document authentication”. Proceedings of SPIE, 2006 Sách, tạp chí
Tiêu đề: Information-theoretic analysis of electronic and printed document authentication
18] “Cục Bản quyền tác giả văn học – nghệ thuật”. http://www.cov.org.vn [19] “Luật Sở hữu trí tuệ”. Quốc hội Việt Nam Khoá XI, kỳ họp thứ 8 Sách, tạp chí
Tiêu đề: Cục Bản quyền tác giả văn học – nghệ thuật”. http://www.cov.org.vn [19] “Luật Sở hữu trí tuệ
[20] Bộ Bưu chính viễn thông – MPT. “Tạp chí Bưu chính viễn thông và công nghệ thông tin”. ISSN 0866-7039, 2006 Sách, tạp chí
Tiêu đề: Tạp chí Bưu chính viễn thông và công nghệ thông tin

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w