DSpace at VNU: Phát hiện ảnh giả mạo tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả các...
Trang 1ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI
TRẦN THỊ KIM YẾN
PHÁT HIỆN ẢNH GIẢ MẠO
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG
TIN
NGƯỜI HƯỚNG DẪN: TS ĐỖ NĂNG TOÀN
NĂM 2007
Trang 2CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT
Covariance Matrix Ma trận đồng biến
DCT Discrete Cosin Transform
EM Expectation/Maximization algorithm
Image Enhancement Tăng cường ảnh
PCA Principal Component Analysis
Trang 3DANH MỤC CÁC HÌNH
Hình 1.1 Các giai đoạn chính trong xử lý ảnh 6 Hình 1.2 Các thành phần chính trong hệ thống xử lý ảnh 6 Hình 1.3 Minh họa về việc giả mạo ảnh 10 Hình 1.4 Minh họa cho loại giả mạo ghép ảnh Error! Bookmark not defined
Hình 1.5 Minh họa cho loại giả mạo tăng cường ảnh Error! Bookmark not defined
Hình 1.6 Ảnh che phủ và bỏ đi đối tượng Error! Bookmark not defined
Hình 1.7 Ảnh bổ sung đối tượng Error! Bookmark not defined
Hình 1.8 Sơ đồ việc phát hiện giả mạo dựa vào cơ sở dữ liệu Error! Bookmark not defined
Hình 2.1 Minh họa các loại nguồn sáng Error! Bookmark not defined
Hình 2.2 Kết quả áp dụng thuật toán so khớp bền vững cho hình 1.7b Error! Bookmark not defined
Hình 2.3 Kết quả của thuật toán phát hiện dựa trên PCA Error! Bookmark not defined
Hình 2.4 Lấy mẫu lại một tín hiệu với tỷ lệ 4/3 Error! Bookmark not defined
Hình 2.5 Kết quả thực hiện thuật toán EM cho các tín hiệu ở hình 2.4 Error! Bookmark not defined
Hình 2.6 Ví dụ về lấy mẫu lại ảnh Error! Bookmark not defined
Hình 2.7 Kết quả của thuật toán EM áp dụng để ước lượng xác suất Error! Bookmark not defined
Hình 2.8 Ví dụ cho thuật toán phát hiện việc lấy mẫu lại Error! Bookmark not defined
Hình 2.9 Minh họa biểu đồ xác suất nhân tạo Error! Bookmark not defined
Hình 2.10 Độ chính xác của thuật toán phát hiện với các tham số lấy mẫu lại khác nhau Error! Bookmark not defined
Hình 3.1 Ảnh giả được tạo ra bằng việc copy một vùng khói và dán vào ảnh nhiều lần. Error! Bookmark not defined
Hình 3.2 Ảnh bổ sung đối tượng Error! Bookmark not defined
Hình 3.3 Ảnh giả được tạo ra từ 2 ảnh ở hình 3.4 Error! Bookmark not defined
Hình 3.4 Hai ảnh gốc để tạo ra ảnh giả ở hình 3.3 Error! Bookmark not defined
Trang 4Hình 3.5 Kết quả của thuật toán ước lượng hướng nguồn sáng cho 2 đối tượng trong ảnh Error! Bookmark not defined
Hình 3.6 Giao diện chương trình Error! Bookmark not defined
Hình 3.7 (a) ảnh gốc; (b) ảnh giả mạo; (c) Kết quả thực hiện thuật toán Error! Bookmark not defined
Hình 3.8 Kết quả của thuật toán phát hiện với các kích thước khối khác nhau Error! Bookmark not defined
Hình 3.9 Kết quả của thuật toán phát hiện ảnh giả mạo ở hình 3.2b Error! Bookmark not defined
Trang 5MỞ ĐẦU
Ngày nay, với sự phát triển mạnh mẽ của ngành Khoa học máy tính cũng như sự bùng nổ của lĩnh vực Công nghệ thông tin đã đẩy nhanh sự phát triển của nhiều lĩnh vực như quân sự, y học, giáo dục, kinh tế, giải trí v.v Sự phát triển của phần cứng cả về phương diện thu nhận, hiển thị, cùng với tốc độ xử lý đã mở
ra nhiều hướng mới cho sự phát triển phần mềm, đặc biệt là Công nghệ xử lý ảnh
đã ra đời và phát triển nhanh Sức mạnh của các phần mềm soạn thảo và xử lý ảnh như Photoshop đã giúp cho việc tạo ra ảnh giả mạo ngày càng dễ dàng hơn Các chương trình xử lý ảnh này có thể thêm vào hoặc bỏ đi các đặc trưng của ảnh mà ít để lại các dấu hiệu về sự giả mạo v.v Người ta tạo ra các ảnh giả mạo thường nhằm vào các mục đích như vu cáo, tạo ra các tin giật gân, đánh lừa đối thủ, làm sai lệch chứng cứ phạm tội v.v Do vậy, việc phát hiện ra ảnh giả mạo
là vấn đề phải đặt ra ngày càng cấp bách và càng trở nên khó khăn
Mặc dù nhu cầu về việc phát hiện các giả mạo ảnh số đã được công nhận bởi cộng đồng các nhà nghiên cứu, nhưng hiện nay rất ít tài liệu có giá trị về lĩnh vực này Trong việc chống giả mạo ảnh, người ta đã nghiên cứu các kỹ thuật về tạo bản quyền ảnh trên cơ sở giấu các thông tin cần thiết vào bức ảnh trước khi phát hành để tránh tình trạng sao chép bất hợp pháp hoặc để tiện cho việc phát hiện các sửa đổi hoặc cắt ghép sau này Theo cách tiếp cận này, các thiết bị máy ảnh số và camera ngày nay thường bổ sung các tính năng bản quyền ngay trong quá trình thu nhận ảnh Dựa vào đó sau này ta có thể biết được nguồn gốc của bức ảnh Nhờ đó mà có thể biết được đó có phải là ảnh gốc hay không? Cách tiếp cận này dựa vào giả thiết rằng việc giả mạo ảnh sẽ làm thay đổi thông tin bản quyền Tuy nhiên, hạn chế của cách tiếp cận này là thông tin bản quyền phải được chèn vào tại thời gian thu nhận ảnh nên chỉ giới hạn với các camera số được trang bị đặc biệt
Trên đây đã điểm qua tầm quan trọng của vấn đề phát hiện ảnh giả mạo và điều đó cho ta thấy rõ tính cần thiết cũng như tính thời sự đồng thời là ý nghĩa khoa học và thực tiễn của vấn đề Nhận thức được điều này, tôi đã chọn đề tài:
“Phát hiện ảnh giả mạo” cho luận văn của mình
Trang 6Bố cục của luận văn bao gồm phần mở đầu, phần kết luận và ba chương nội dung được tổ chức như sau:
Chương 1: Tổng quan về xử lý ảnh và giả mạo ảnh
Chương này trình bày tổng quan về một hệ thống xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh, đồng thời trình bày tổng quan về ảnh giả mạo và phát hiện ảnh giả mạo, cụ thể là các dạng ảnh giả mạo cơ bản cùng các cách tiếp cận chính
để phát hiện ảnh giả mạo
Chương 2: Một số phương pháp phát hiện ảnh giả mạo
Chương này trình bày một số kỹ thuật phát hiện ảnh giả mạo như: Kỹ thuật phát hiện dựa vào phân tích nguồn sáng, kỹ thuật phát hiện dựa vào việc tìm ra dấu vết của việc lấy mẫu lại và các kỹ thuật phát hiện dựa vào việc tìm ra các vùng lặp trong ảnh
Chương 3: Ứng dụng
Trình bày các ứng dụng của các kỹ thuật phát hiện ảnh giả mạo và sử dụng Visual C++ cài đặt kỹ thuật phát hiện các vùng lặp trong ảnh để phát hiện loại ảnh giả mạo sinh bởi thao tác copy và dịch chuyển vùng trên ảnh
Trang 7Chương 1 – TỔNG QUAN VỀ XỬ LÝ ẢNH VÀ GIẢ MẠO ẢNH
Chương này trình bày tổng quan về một hệ thống xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh, đồng thời trình bày tổng quan về ảnh giả mạo và phát hiện ảnh giả mạo, cụ thể là các dạng ảnh giả mạo cơ bản cùng với các cách tiếp cận chính để phát hiện ảnh giả mạo
1.1 Xử lý ảnh, các vấn đề cơ bản trong xử lý ảnh
1.1.1 Xử lý ảnh là gì?
Xử lý ảnh là một khoa học tương đối mới mẻ so với nhiều ngành khoa học khác, nhất là trong quy mô công nghiệp, song trong xử lý ảnh đã bắt đầu xuất hiện những máy tính chuyên dụng Để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trước hết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh
Trước hết là quá trình thu nhận ảnh Ảnh có thể thu nhận qua camera Thường ảnh thu nhận qua camera là tín hiệu tương tự (loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hóa (loại CCD-Change Coupled Device)
Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh, tranh được quét trên scanner Tiếp theo là quá trình số hóa để biến đổi tín hiệu liên tục sang tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng hóa, trước khi chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại
Quá trình phân tích ảnh bao gồm nhiều công đoạn nhỏ Trước hết là công việc tăng cường ảnh để nâng cao chất lượng ảnh Do những nguyên nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu, ảnh có thể bị suy biến Do vậy cần phải tăng cường và khôi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống nhất với trạng thái gốc – trạng thái trước khi ảnh bị biến dạng Giai đoạn tiếp theo là phát hiện các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính, v.v
Trang 8Cuối cùng, tùy theo mục đích của người sử dụng, sẽ là giai đoạn nhận dạng, phân lớp hay các quyết định khác Các giai đoạn chính trong quá trình xử lý ảnh được mô tả qua hình 1.1[1]
Hình 1.1 Các giai đoạn chính trong xử lý ảnh
Với các giai đoạn trên, một hệ thống xử lý ảnh gồm các thành phần tối thiểu như hình sau:
Hình 1.2 Các thành phần chính trong hệ thống xử lý ảnh
Thu nhận
(Camera, scanner,
sensor, )
Tiền xử lý (Nắn chỉnh, xóa nhiễu, )
Trích chọn đặc trưng
Hậu xử lý (Chính xác hóa, rút
Lưu trữ
Hệ quyết định
Máy in
Bộ nhớ
ngoài
Camera
ảnh số
Bộ nhớ ảnh
Bộ xử lý tương tự Màn hình
đồ họa
Trang 9 Đối với một hệ thống xử lý ảnh thu nhận qua camera - camera như là con mắt của hệ thống Có 2 loại camera: camera ống loại CCIR và camera CCD Loại camera ứng với chuẩn CCIR quét ảnh với tần số 1/25 và mỗi ảnh gồm 625 dòng Loại CCD gồm các photo điốt và làm tương ứng một cường độ sáng tại một điểm ảnh với một phần tử ảnh (pixel) Như vậy, ảnh là tập hợp các điểm ảnh Số pixel tạo nên một ảnh gọi là độ phân giải
Bộ xử lý tương tự thực hiện các chức năng sau:
Chọn camera thích hợp nếu hệ thống có nhiều camera
Chọn màn hình hiển thị tín hiệu
Thu nhận tín hiệu video bởi bộ số hóa Thực hiện lấy mẫu và mã hóa
Tiền xử lý ảnh khi thu nhận: dùng kỹ thuật bảng tra (Look Up Table)
Bộ xử lý ảnh số gồm nhiều bộ xử lý chuyên dụng: xử lý lọc, trích chọn đường bao, nhị phân hóa ảnh
Máy chủ đóng vai trò điều khiển các thành phần miêu tả ở trên
Bộ nhớ ngoài: Dữ liệu ảnh cũng như các dữ liệu khác, để có thể chuyển giao cho các quá trình khác, nó cần được lưu trữ
Các khái niệm cơ bản trong xử lý ảnh
Điểm ảnh (pixel): Biểu diễn cường độ sáng hay một dấu hiệu nào đó tại
một tọa độ nào đó của đối tượng trong không gian Điểm ảnh là một hàm nhiều biến P(x1, x2, , xn) trong đó n là số chiều của ảnh
Ảnh: là một tập hợp các điểm ảnh, thông thường được biểu diễn dưới dạng
ma trận các điểm ảnh
Mức xám: là kết quả của sự mã hóa tương ứng một cường độ sáng của một
điểm ảnh với một giá trị số - kết quả của quá trình lượng hóa Cách mã hóa kinh điển thường dùng 16, 32 hay 64 mức
Biểu đồ tần suất: Biều đồ tần suất của một mức xám g của ảnh I là số điểm
ảnh của I có mức xám g
Trang 101.1.2 Các vấn đề cơ bản trong xử lý ảnh
1.1.2.1 Biểu diễn ảnh
Ảnh được thu nhận từ các thiết bị thu nhận ảnh Sau khi thu nhận, ảnh được lưu trữ trên máy tính Quá trình lưu trữ gồm 2 mục đích: tiết kiệm bộ nhớ và giảm thời gian xử lý
Ảnh được lưu trữ trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in ấn
và xử lý Ảnh là tập hợp các điểm ảnh có cùng kích thước do đó nếu sử dụng càng nhiều điểm ảnh thì ảnh càng mịn càng đẹp và càng thể hiện rõ hơn chi tiết của ảnh, người ta gọi đặc điểm này là độ phân giải Việc lựa chọn độ phân giải phụ thuộc vào nhu cầu sử dụng và đặc trưng của từng loại ảnh cụ thể Chẳng hạn, ảnh dùng trong văn bản thường thể hiện dưới dạng đen trắng có độ phân giải 300 DPI, ảnh bản vẽ, bản đồ có độ phân giải 200DPI
Trên cơ sở đó, các ảnh được biểu diễn theo 2 mô hình cơ bản là RASTER
và VECTOR
Mô hình RASTER:
Theo mô hình này, ảnh được biểu diễn dưới dạng ma trận các điểm ảnh Tùy theo yêu cầu thực tế mà mỗi điểm ảnh được biểu diễn bằng một hoặc nhiều bít
Ngày nay thiết bị phần cứng phát triển nhưng chủ yếu là theo định hướng Raster cho cả thiết bị đầu vào cũng như đầu ra Ví dụ: máy in, máy quét v.v Một trong những nghiên cứu chủ yếu trong mô hình raster là kỹ thuật nén ảnh, chia ra 2 khuynh hướng là nén bảo toàn và nén không bảo toàn thông tin Nén bảo toàn thông tin là có khả năng phục hồi hoàn toàn dữ liệu ban đầu Nén không bảo toàn thông tin là có khả năng phục hồi dữ liệu ban đầu nhưng với sai
số chấp nhận được Trên cơ sở đó người ta đã xây dựng được nhiều khuôn dạng ảnh khác nhau: *.pcx, *.tif, *.gif, *.jpg, *.jpeg, v.v
Mô hình VECTOR:
Ảnh lưu trữ trên máy tính ngoài yêu cầu về giảm không gian lưu trữ, thời gian xử lý, dễ dàng cho hiển thị và in ấn còn phải đảm bảo dễ dàng trong lựa chọn, sao chép, di chuyển và tìm kiếm Theo những yêu cầu này, kỹ thuật biểu diễn Vector tỏ ra ưu việt hơn
Trang 11Trong mô hình Vector, ảnh được biểu diễn bởi các điểm ảnh và các đường thể hiện hướng của một điểm Ảnh dạng Vector được thu nhận từ các thiết bị như sensor, digitalier, v.v
Ngày nay, các thiết bị phần cứng phát triển mạnh theo hướng Raster cho cả đầu vào và đầu ra nên một trong những nghiên cứu chủ yếu của mô hình Vector
là tập trung cho chuyển đổi từ ảnh Raster sang ảnh Vector
1.1.2.2 Nắn chỉnh biến dạng
Ảnh thu được sau quá trình thu nhận thường bị biến dạng do những thiết bị quang học và điện tử Do đó cần phải có khâu nắn chỉnh biến dạng
Để nắn chỉnh biến dạng ta dựa vào tập các điểm điều khiển
'
( ,P P i i) (i 1, , ).n
Cần tìm hàm: f P: i f P( )i sao cho: ' 2
1
( ) min
n
i
1.1.2.3 Khử nhiễu
Trong quá trình thu nhận ảnh không thể tránh khỏi bị nhiễu Có 2 loại nhiễu
cơ bản:
- Nhiễu hệ thống: là loại nhiễu gây ra bởi hệ thống, như vết xước hoặc nguồn sáng ngoại lai Loại nhiễu này có tính chất chu kỳ và có thể dễ khắc phục bằng các phép biến đổi
- Nhiễu ngẫu nhiên: là các vết bẩn không rõ nguyên nhân Loại nhiễu này thường khó khử, tùy vào từng ảnh cụ thể mà có cách khắc phục Thông thường
sử dụng các phép lọc
1.1.2.4 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính chủ yếu của đối tượng Có hai kiểu mô tả đối tượng:
- Mô tả tham số (nhận dạng theo tham số)
- Mô tả theo cấu trúc (nhận dạng theo cấu trúc)
Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái, chữ số, chữ có dấu)
Trang 12Nhận dạng chữ in hoặc đánh máy phục vụ cho việc tự động hóa quá trình đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính
Nhận dạng chữ viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu chữ, v.v ) phục vụ cho nhiều lĩnh vực
Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới
dựa vào kỹ thuật mạng nơron đang được áp dụng và cho kết quả khả quan
1.2 Ảnh giả mạo và phát hiện ảnh giả mạo
1.2.1 Ảnh giả mạo
Ảnh giả mạo được xem là ảnh không có thật, việc có được ảnh là do sự ngụy tạo bởi các chương trình xử lý ảnh hoặc quá trình thu nhận ảnh
Sức mạnh của các chương trình xử lý ảnh số như PhotoShop, Corel Draw, v.v giúp việc tạo ra các ảnh giả mạo từ một hay nhiều ảnh khác nhau trở nên dễ dàng Một trong những ví dụ cho việc giả mạo này là hình 1.3 Hình này được tạo lập từ 3 bức ảnh: Nhà trắng, Bill Clinton và Saddam Hussein Bill Clinton và Saddam Hussein được cắt và dán vào bức ảnh Nhà trắng Các hiệu ứng về bóng
và ánh sáng cũng được tạo ra làm cho bức ảnh nhìn có vẻ hoàn toàn như thật
Hình 1.3 Minh họa về việc giả mạo ảnh
Trang 13TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] Nguyễn Thanh Thủy (2002), “Nhập môn xử lý ảnh số”, Trường Đại học
Bách khoa Hà Nội
[2] Đỗ Năng Toàn, Vũ Đức Thi (2006), “Tổng quan về phát hiện giả mạo
trong ảnh kỹ thuật số”, Hội nghị khoa học kỷ niệm 30 năm thành lập Viện
Công nghệ thông tin 27-28/12/2006
[3] Đỗ Năng Toàn, Hà Xuân Trường, Phạm Việt Bình (2007), “Một cải tiến
cho thuật toán phát hiện ảnh giả mạo robust match”, Hội nghị nghiên cứu
cơ bản và ứng dụng công nghệ thông tin – FAIR 09-10/08/2007
Tiếng Anh:
[4] A C Popescu and H Farid (2004), Exposing digital forgeries by
detecting duplicated image regions, IEEE Transactions on Signal
Processing
[5] A C Popescu and H Farid (2005), Exposing digital forgeries by
detecting traces of resampling, IEEE Transactions on Signal Processing,
53(2):758- 767
[6] A C Popescu and H Farid (2005), Exposing digital forgeries in color
filter array interpolated images, IEEE Transactions on Signal Processing,
(in press)
[7] Alin C Popescu and Hany Farid (2005), Exposing Digital Forgeries in
Color Filter Array Interpolated Images, IEEE Transactions on Signal
Processing, Vol 53, Issue 10, Part 2, pp 3948-3959
[8] J Fridrich, D Soukal, and J Lukás (2003), Detection of copy-move
forgery in digital images, In Proceedings of DFRWS
[9] J Fridrich (1998), Methods for Detecting Changes in Digital Images,
Proc of The 6th IEEE International Workshop on Intelligent Signal