Bố cục của luận văn được trình bày như sau: Chương 3: Phát hiện ảnh giả mạo dựa trên mẫu nhiễu cảm biến: Chương này nghiên cứu về mẫu nhiễu cảm biến của máy ảnh, từ đó đưa ra... Quá trìn
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ NĂNG TOÀN
Hà Nội - Năm 2014
Trang 3LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cảm ơn Thầy PGS.TS Đỗ Năng Toàn là người
đã định hướng nghiên cứu và tận tình hướng dẫn cho tôi trong suốt quá trình làm luận văn Nếu không có sự giúp đỡ tận tình của thầy, tôi khó có thể hoàn thành luận văn này
Đồng thời tôi cũng xin chân thành cảm ơn các thầy cô Khoa Công nghệ thông tin – Trường Đại học Công nghệ đã tận tình giảng dạy và cung cấp cho tôi những kiến thức cần thiết trong suốt thời gian học tập tại trường
Cuối cùng xin gửi lời cảm ơn chân thành đến gia đình, cơ quan, bạn bè và đồng nghiệp đã tạo điều kiện, giúp đỡ và động viên tôi trong suốt thời gian học tập cũng như trong thời gian nghiên cứu luận văn
Tuy có nhiều cố gắng nhưng do thời gian và kiến thức của bản thân còn nhiều hạn chế nên trong luận văn không tránh khỏi những thiếu sót Kính mong nhận được sự góp ý của thầy cô và các bạn để luận văn được hoàn thiện hơn
Tôi xin chân thành cảm ơn !
Phạm Thị Cúc
Trang 4LỜI CAM ĐOAN Tôi xin cam đoan: Bản luận văn tốt nghiệp này là kết quả nghiên cứu thực sự của cá nhân, được thực hiện trên cơ sở nghiên cứu lý thuyết, cài đặt thực nghiệm chương trình Kết quả của luận văn là cả một quá trình nghiên cứu nghiêm túc các kiến thức được học ở trường và dưới sự hướng dẫn khoa học của PGS.TS Đỗ Năng Toàn
Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và có tính kế thừa, phát triển từ các tài liệu, tạp chí, các công trình nghiên cứu đã được công bố, các website,… Dữ liệu để thực nghiệm có nguồn gốc rõ ràng và không mang tính chất thương mại
Học viên
Phạm Thị Cúc
Trang 5MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
DANH MỤC CÁC HÌNH 5
DANH MỤC CÁC TỪ VIẾT TẮT 6
LỜI NÓI ĐẦU 7
CHƯƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ ẢNH GIẢ MẠO 9
1.1 Xử lý ảnh và một số vấn đề cơ bản trong xử lý ảnh 9
1.1.1 Một số khái niệm cơ bản 9
1.1.2 Một số vấn đề cơ bản trong xử lý ảnh 10
1.1.3 Các giai đoạn trong xử lý ảnh 15
1.1.3.1 Thu nhận ảnh 15
1.1.3.2 Tiền xử lý 15
1.1.3.3 Phân đoạn ảnh 16
1.1.3.4 Biểu diễn và mô tả 17
1.1.3.5 Cơ sở trí thức 17
1.1.3.6 Nhận dạng và nội suy ảnh 18
1.1.3.7 Trích chọn đặc trưng 18
1.2 Ảnh giả mạo và các dạng giả mạo ảnh cơ bản 20
1.2.1 Ảnh giả mạo 20
1.2.2 Các loại ảnh giả mạo cơ bản 22
1.2.2.1 Ghép ảnh 22
1.2.2.2 Tăng cường ảnh 22
1.2.2.3 Sao chép và dịch chuyển vùng trên ảnh 23
CHƯƠNG 2: CÁC KỸ THUẬT PHÁT HIỆN ẢNH SỐ GIẢ MẠO 25
2.1 Dựa trên đặc trưng điểm ảnh (Pixel Based) 25
2.1.1 Nhân bản (Cloning) 25
2.1.2 Lấy mẫu lại (Re-sampling) 26
2.1.3 Ghép (Splicing) 26
2.2 Dựa trên định dạng ảnh (Format Based) 27
2.2.1 Lượng tử hóa JPEG (JPEG quantization) 27
2.2.2 Phần đầu ảnh JPEG (JPEG Header) 28
2.2.3 Nén kép (Double JPEG) 30
2.2.4 Hiệu ứng khối JPEG (JPEG Blocking) 30
2.3 Dựa trên đặc điểm máy ảnh (Máy ảnh-Based) 31
2.3.1 Quang sai màu (Chromatic Aberration) 31
2.3.2 Mảng lọc màu (Color Filter Array) 33
2.3.3 Đáp ứng của máy ảnh (Máy ảnh Response) 33
2.3.4 Mẫu nhiễu cảm biến (Sensor Pattern Noise) 34
2.4 Một số phương pháp trực quan khác 34
2.4 1 Nguồn sáng 35
2.4.2 Hướng mắt nhìn và vị trí 36
2.4.3 Hình học 36
Trang 6CHƯƠNG 3: PHÁT HIỆN ẢNH GIẢ MẠO DỰA VÀO MẪU NHIỄU CẢM BIẾN 37
3.1 Giới thiệu 37
3.2 Mẫu nhiễu và các phương thức biểu diễn 38
3.2.1 Xử lý tín hiệu trong máy ảnh kỹ thuật số 38
3.2.2 Mẫu nhiễu cảm biến 39
3.2.3 Dò tìm mẫu nhiễu 41
3.3 Thuật toán phát hiện ảnh giả mạo dựa vào mẫu nhiễu cảm biến 43
3.3.1 Tạo các mẫu tham chiếu của máy ảnh 43
3.3.2 Thuật toán nhận dạng ảnh giả 45
3.4 Chương trình thực nghiệm 47
3.4.1 Bài toán 47
3.4.2 Công cụ và dữ liệu thử nghiệm 47
3.4.3 Kết quả thử nghiệm 48
KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 53
Trang 7DANH MỤC CÁC HÌNH
Hình 1.1 Quá trình xử lý ảnh 10
Hình 1.2 Biểu diễn ảnh bằng hàm f(X Y, ) 10
Hình 1.3 Ảnh thu nhận và ảnh mong muốn 12
Hình 1.4 Các bước cơ bản trong xử lý ảnh số 15
Hình 1.5 Các thành phần cơ bản của một hệ xử lý ảnh 19
Hình 1.6 Minh họa về việc giả mạo ảnh 20
Hình 1.7 Ảnh giả của John Kerry và Jane Fonda được cắt ghép từ hai ảnh riêng lẻ 21
Hình 1.8 Ghép ảnh từ hai ảnh riêng rẽ 22
Hình 1.9 Ví dụ về tăng cường ảnh 23
Hình 1.10 Ảnh che phủ và bỏ đi đối tượng 24
Hình 1.11 Ảnh bổ sung đối tượng 24
Hình 2.1 Mô phỏng sử dụng quang sai để phát hiện ảnh giả 32
Hình 2.2 Mô phỏng hướng nguồn sáng tới bề mặt một quả cầu 35
Hình 2.3 Mô phỏng việc phân tích nguồn sáng để phát hiện ảnh giả 35
Hình 3.1 Quy trình xử lý tín hiệu của máy ảnh kỹ thuật số 38
Hình 3.2 Mô hình mẫu nhiễu 39
Hình 3.3 Minh họa vùng R được chọn và mẫu nhiễu tham chiếu tương ứng của nó 42
Hình 3.4 Hình ảnh minh họa chọn các vùng Q i và mẫu tham chiếu 42
Hình 3.5 Mô hình tạo mẫu tham chiếu của máy ảnh 44
Hình 3.6 Sơ đồ bài toán phát hiện ảnh giả mạo 47
Hình 3.7 Ảnh giả mạo bằng cách cắt ghép và lấy mẫu lại 49
Hình 3.8 Các hình gốc dùng để tạo ảnh giả 49
Hình 3.9 Minh họa kết quả chương trình với ảnh giả mạo định dạng TIFF 50
Hình 3.10 Minh họa kết quả chương trình với ảnh giả mạo dạng nén JPEG 50
Hình 3.11.Minh họa kết quả chương trình với ảnh giả cắt/ghép từ hai ảnh được chụp bởi cùng loại máy ảnh 51
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
BAM Blocking Artifact Matrix - Ma trận các khối dấu hiệu
CFA Color Filter Array - Mảng lọc màu sắc
DCT Discrete Cosine Transform - Dãy biến đổi cosine rời rạc
ELA Error Level Analysis - Phân tích mức độ lỗi
EM Expectation Maximization - Thuật toán kỳ vọng cực đại
EXIF Exchange able Image Tệp format -Tiêu chuẩn xác định định dạng ảnh FPN Fixed Pattern Noise - Mẫu nhiễu có cấu trúc
JPEG Joint Photographic Experts Group - Là một phương pháp nén ảnh
hiệu quả
MAP Maximum A Posteriori Estimation - Ước lượng hậu cực đại
PCA Principal Component Analysis - Phân tích thành phần chính
PNG Portable Network Graphics-Là một định dạng của ảnh
PNU Pixel Non-Uniformity - Điểm ảnh không đồng nhất
PRNU Photo-response non-uniformity noise - Ảnh hưởng không đồng nhất
của nhiễu tới điểm ảnh
TIFF Tag Image File Format –Là một định dạng của ảnh
Trang 9
LỜI NÓI ĐẦU Ngày nay, ảnh số là phương tiện truyền thông được sử dụng phổ biến và rộng rãi, nó chứa đựng nhiều thông tin, cũng là cách để biểu diễn thế giới xung quanh ta một cách dễ dàng và cô đọng
Một câu hỏi đặt ra là ảnh này có độ tin cậy bao nhiêu? Rõ ràng, thông tin hình ảnh có tác động quan trọng đến xã hội chúng ta, chúng đóng vai trò cốt yếu trong đời sống con người
Việc xác thực ảnh là bài toán quan trọng trong nhiều lĩnh vực xã hội, chẳng hạn trong phòng xử án, tính thật của một bức ảnh đóng vai trò cốt yếu vì nó chính là một bằng chứng Mặt khác, hằng ngày các bài báo hay tạp chí đều chứa nhiều hình ảnh, trong vật lý và y học thì có nhiều quyết định đều phải dựa vào các ảnh số,…
Hơn nữa, hiện nay do sự tiến bộ của các máy tính hiệu năng cao, giá thành thấp, giao diện người máy thân thiện hơn, cũng như các phần mềm điều khiển và thao tác trên ảnh số là khá mạnh và đơn giản Sức mạnh của các chương trình xử
lý ảnh số như PhotoShop giúp việc tạo ra các ảnh giả mạo từ một hay nhiều ảnh khác nhau trở nên dễ dàng
Điều đó, đồng nghĩa với việc phát hiện ảnh giả mạo là bài toán khó khăn và ngày càng trở nên cấp thiết hơn
Từ yêu cầu thực tế đó, tôi lựa chọn đề tài “Phát hiện ảnh giả mạo dựa trên
mẫu nhiễu cảm biến” nhằm nghiên cứu kỹ thuật phát hiện ảnh kỹ thuật số giả
mạo dựa trên cơ sở dò tìm các mẫu nhiễu tạo ra bởi máy ảnh
Bố cục của luận văn được trình bày như sau:
Chương 3: Phát hiện ảnh giả mạo dựa trên mẫu nhiễu cảm biến: Chương này nghiên cứu về mẫu nhiễu cảm biến của máy ảnh, từ đó đưa ra
Trang 10phương pháp phát hiện ảnh giả mạo dựa vào mẫu nhiễu cảm biến bao gồm ý tưởng, thuật toán và chương trình thử nghiệm
Phần kết luận
Trang 11CHƯƠNG 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ ẢNH GIẢ MẠO 1.1 Xử lý ảnh và một số vấn đề cơ bản trong xử lý ảnh
1.1.1 Một số khái niệm cơ bản
Để có thể xử lý bằng máy tính điện tử thì ảnh cần phải được số hóa Đó là quá trình biến đổi ảnh từ tín hiệu liên tục sang tín hiệu rời rạc thông qua việc lấy mẫu và lượng tử hóa Trong quá trình này người ta sử dụng khái niệm
“pixel” Mỗi pixel được đặc trưng bởi một cặp tọa độ (X Y, ) và màu sắc của nó
Ảnh và điểm ảnh:
Ảnh là một tập hợp các pixel có cấu trúc, ta có thể coi ảnh là một mảng hai chiều I( , )n p có n dòng và p cột, ảnh sẽ có n p(pixel) Ta ký hiệuI(X Y, )để chỉ điểm ảnh có toạ độ (X Y, )
Điểm ảnh (pixel) là một phần tử của ảnh số tại tọa độ (x,y) với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh
Mức xám (Gray level): Đó là kết quả của việc mã hóa, cho tương ứng một cường độ sáng của mỗi điểm ảnh với một giá trị số, có thể là 16, 32, 64 mức
Biểu diễn ảnh: Trong biểu diễn ảnh người ta thường sử dụng các phần tử đặc trưng của ảnh là pixel Một hàm hai biến chứa các thông tin như một biểu diễn ảnh Một số mô hình thường dùng để biểu diễn ảnh là mô hình toán (biểu diễn ảnh nhờ các hàm cơ sở), mô hình thống kê (ảnh coi như một phần tử của một tập hợp đặc trưng bởi kỳ vọng toán, hiệp biến, phương sai, moment…)
Tăng cường ảnh: Đây là một bước quan trọng bao gồm các kỹ thuật lọc
độ tương phản, khử nhiễu, nổi màu…
Biến đổi ảnh: Thao tác chủ yếu trên một tập các ma trận và sử dụng các
kỹ thuật để biến đổi ảnh qua ma trận: Biến đổi Furie, Sin, Cosin, tích Kronecker
Phân tích ảnh: Liên quan tới việc xác định các độ đo định lượng của một ảnh để đưa ra một mô tả đầy đủ về ảnh Có những kỹ thuật cơ bản để hỗ trợ phân tích ảnh: Dò biên, lọc vi phân, dò theo quy hoạch động, phân vùng ảnh
Trang 121.1.2 Một số vấn đề cơ bản trong xử lý ảnh
Xử lý ảnh?
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận
Hình 1.1 Quá trình xử lý ảnh
Cách biểu diễn ảnh
Đối với ảnh đơn giản (ảnh đen trắng) thì ảnh được biểu diễn bằng một hàm cường độ sáng hai chiều f(X Y, ), trong đó X Y, là các giá trị toạ độ không gian và hàm giá trị của f tại một điểm ( , )X Y bất kỳ sẽ tỷ lệ với độ sáng hay mức xám của điểm ảnh tại điểm này
Trong một số trường hợp hàm ảnh còn được biểu diễn với một trục thứ 3 gọi là hàm cường độ sáng (với hình 1.2,trục thứ 3 bằng 0)
Một ảnh số là một ảnh f(X Y, ) được gián đoạn theo không gian và cường
độ sáng Một ảnh số được xem như một ma trận với hàng và cột biểu diễn một điểm trong ảnh và giá trị điểm ma trận tương ứng với mức xám tại điểm đó Các phần tử của một dãy số như thế được gọi là các điểm ảnh
Ánh sáng có dạng năng lượng f(X Y, ) phải khác 0 và hữu hạn:
Kết luận
* P(X,Y)
Trang 13 Số lượng ánh sáng nguồn rơi trên cảnh vật được nhìn thấy
Số lượng ánh sáng nguồn phản xạ từ vật thể ( trong cảnh vật)
Chúng được gọi gần đúng là sự phát sáng và các thành phần phản xạ, và được biểu diễn tương ứng là i(X Y, ) và r(X Y, ) Bản chất của i(X Y, ) được xác định bằng nguồn sáng và của r(X Y, )được xác định bằng các đặc trưng của vật thể Hàm i(X Y, ) và r(X Y, ) kết hợp với nhau để cho hàm f(X Y, )
Trong lý thuyết, chỉ cần Lmin và 0 Lmaxhữu hạn Trong thực tế:
min min min
max max max
Khoảng Lmin,Lmax được gọi là thang xám Ta có thể dịch khoảng này đến
0, L, trong đó l là đen và l0 L là trắng trong thang xám Giá trị tức thời
là các dạng mức xám thay đổi liên tục từ đen đến trắng
Các điểm 4 láng giềng:
Giả sử (i,j) là một điểm ảnh, khi đó các điểm 4 – láng giềng là:
N4= {(i-1,j); (i+1,j); (i, j-1); (i, j+1)}
Trang 14Hình 1.3 Ảnh thu nhận và ảnh mong muốn
Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường được xây dựng trên tập các điểm điều khiển Giả sử (Pi, Pi’) i=1, n có n các tập
điều khiển Tìm hàm f: Pi → f (Pi) sao cho ' 2
1
n
i i i
Tương tự tìm được a2, b2, c2
Xác định được hàm f
Kỹ thuật phóng to, thu nhỏ ảnh:
Khi ảnh quá lớn chúng ta muốn nhìn toàn bộ ảnh thì chúng ta phải thu nhỏ ảnh lại và ngược lại khi ta muốn xem chi tiết một bộ phận nào đó của ảnh thì ta phải phóng to nó lên
Trang 15xp=x/k yp=y/k
- Kỹ thuật thu nhỏ ảnh:
Tương tự như phóng to ảnh, khi thu nhỏ ảnh ta thu được ảnh mới giống ảnh
cũ nhưng có kích thước nhỏ hơn ảnh cũ Kích thước của ảnh mới là:
Height = Height / k Width = Width / k Việc tính các điểm ảnh tương ứng của ảnh mới sẽ được tính theo công thức:
xp=x*k yp=y*k
Nhận dạng ảnh: Quá trình này liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Nhận dạng ảnh thường đi sau các quá trình trích chọn các đặc trưng chủ yếu của đối tượng
Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong nhiều ngành khoa học khác nhau Tuy nhiên, một câu hỏi đặt ra là: mẫu (pattern) là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách mơ hồ (vaguely defined) và có thể gán cho nó một tên gọi nào đó” Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào
đó được chụp, một chữ viết, khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói
Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có thể: Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân biệt (discriminant analyis), trong đó mẫu đầu vào được định danh như một thành phần của một lớp đã xác định Hoặc phân loại không có mẫu
Trang 16(unsupervised classification hay clustering) trong đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:
- Thu nhận dữ liệu và tiền xử lý
- Biểu diễn dữ liệu
- Nhận dạng, ra quyết định
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
- Đối sánh mẫu dựa trên các đặc trưng được trích chọn
- Phân loại thống kê
- Đối sánh cấu trúc
- Phân loại dựa trên mạng nơ-ron nhân tạo
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lại (hybrid system) bao gồm nhiều mô hình kết hợp Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng
đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu
Trang 171.1.3 Các giai đoạn trong xử lý ảnh
Bài toán xử lý ảnh bao gồm các giai đoạn tổng quát như sau:
Hình 1.4 Các bước cơ bản trong xử lý ảnh số
1.1.3.1 Thu nhận ảnh
Đây là bước đầu tiên trong quá trình xử lý ảnh Để thực hiện điều này ta cần có các thiết bị nhu nhận ảnh Các thiết bị thu nhận ảnh có 2 loại chính ứng với 2 loại ảnh thông dụng Raster và Vector Các thiết bị thu nhận ảnh thông thường Raster là máy ảnh, còn các thiết bị thu nhận ảnh Vector là sensor hoặc
bộ số hóa (Digitalizer) hoặc được chuyển đổi từ ảnh Raster
Các thiết bị thu ảnh thông thường gồm máy ảnh cộng với bộ chuyển đổi tương tự số AD (Analog to Digital) hoặc scanner chuyên dụng Các thiết bị thu nhận ảnh này có thể cho ảnh đen trắng hoặc ảnh màu Đầu ra của scanner là ảnh ma trận số mà ta quen gọi là bản đồ ảnh (ảnh Bitmap) Bộ số hoá (Digitalizer) sẽ tạo ảnh vector có hướng Nhìn chung, các hệ thống thu nhận ảnh thực hiện hai quá trình:
- Cảm biến : biến đổi năng lượng quang học thành năng lượng điện
- Tổng hợp năng lượng điện thành ảnh
1.1.3.2 Tiền xử lý
Ở bước này, ảnh sẽ được cải thiện về độ tương phản, khử nhiễu, khử bóng, khử độ lệch, v.v… với mục đích làm cho chất lượng ảnh trở nên tốt hơn
Trang 18nữa, chuẩn bị cho các bước xử lý phức tạp hơn về sau trong quá trình xử lý ảnh Quá trình này thường được thực hiện bởi các bộ lọc
Khử nhiễu: Nhiễu được chia thành hai loại: nhiễu hệ thống và nhiễu ngẫu nhiên Đặc trưng của nhiễu hệ thống là tính tuần hoàn Do vậy, có thể khử nhiễu này bằng việc sử dụng phép biến đổi Fourier và loại bỏ các đỉnh điểm Đối với nhiễu ngẫu nhiên, trường hợp đơn giản là các vết bẩn tương ứng với các điểm sáng hay tối, có thể khử nhiễu bằng phương pháp nội suy, lọc trung
vị, lọc trung bình
Chỉnh mức xám: Đây là kỹ thuật nhằm chỉnh sửa tính không đồng đều của thiết bị thu nhận hoặc độ tương phản giữa các vùng ảnh
Chỉnh tán xạ: Ảnh thu nhận từ các thiết bị quang học hay điện tử có thể
bị mờ, nhòe Phương pháp biến đổi Fourier dựa trên tích chập của ảnh với hàm tán xạ cho phép giải quyết việc hiệu chỉnh này
Nắn chỉnh hình học: Những biến dạng hình học thường do các thiết bị điện tử và quang học gây ra Do đó phương pháp hiệu chỉnh hình ảnh dựa trên
mô hình được mô tả dưới dạng phương trình biến đổi ảnh biến dạng f(x,y) thành ảnh lý tưởng f(x’,y’) như sau:
Trong đó x , y là các phương trình tuyến tính (biến dạng do phối cảnh) hay bậc hai (biến dạng do ống kính máy ảnh)
1.1.3.3 Phân đoạn ảnh
Phân đoạn ảnh có nghĩa là chia một ảnh đầu vào thành nhiều phần khác nhau hay còn gọi là các đối tượng để biểu diễn phân tích, nhận dạng ảnh Ví dụ: để nhận dạng chữ (hoặc mã vạch) trên phong bì thư cho mục đích phân loại bưu phẩm, cần chia các câu, chữ về địa chỉ hoặc tên người thành các từ, các chữ, các số (hoặc các vạch) riêng biệt để nhận dạng
Đây là phần phức tạp khó khăn nhất trong xử lý ảnh và cũng dễ gây lỗi, làm mất độ chính xác của ảnh Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này
Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều phần
tử khác nhau cấu tạo nên ảnh thô Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó,
Trang 19do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu
1.1.3.4 Biểu diễn và mô tả
Biểu diễn ảnh: Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của các vùng ảnh (ảnh đã phân đoạn) cộng với mã liên kết với các vùng lân cận Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được Ví dụ : trong nhận dạng kí tự trên phong bì, chúng ta miêu tả các đặc trưng của từng kí tự giúp phân biệt kí tự này
tự khác
Mô tả ảnh: Ảnh sau khi số hóa sẽ được lưu vào bộ nhớ, hoặc chuyển sang các khâu tiếp theo để phân tích Nếu lưu trữ ảnh trực tiếp từ các ảnh thô, đòi hỏi dung lượng bộ nhớ cực lớn và không hiệu quả theo quan điểm ứng dụng và công nghệ Thông thường, các ảnh thô đó đặc tả (biểu diễn) lại (hay đơn giản là mã hóa) theo các đặc điểm của ảnh được gọi là đặc trưng của ảnh như : biên ảnh, vùng ảnh Một số phương pháp biểu diễn thường dùng:
- Biểu diễn bằng mã chạy: Phương pháp này thường biểu diễn cho vùng ảnh và áp dụng cho ảnh nhị phân
- Biểu diễn bằng mã xích: Phương pháp này thường dung để biểu diễn các đường biên ảnh
- Biểu diễn bằng mã tứ phân: Phương pháp này được dùng để mã hóa cho các vùng ảnh
Trang 20- Nhận dạng theo tham số
- Nhận dạng theo cấu trúc
Một số đối tượng nhận dạng khá phổ biến hiện nay đang được áp dụng trong khoa học và công nghệ là: nhận dạng ký tự (chữ in, chữ viết tay, chữ kí điện tử), nhận dạng văn bản (Text), nhận dạng vân tay, nhận dạng mã vạch, nhận dạng mặt người,…
1.1.3.7 Trích chọn đặc trưng
Vì lượng thông tin chứa trong ảnh là rất lớn, trong khi đó đa số ứng dụng chỉ cần một số thông tin đặc trưng nào đó, cần có bước trích chọn đặc điểm để giảm lượng thông tin khổng lồ ấy Việc trích chọn hiệu quả đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm
Các đặc điểm của đối tượng được trích chọn tùy theo mục đích nhận dạng
Có thể nêu ra một số đặc điểm của ảnh sau đây:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn, v.v
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện lọc vùng (Zonal Filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (Feature Mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn,…)
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng
và do rất hữu ích trong việc trích chọn các đặc tính bất biến được dung khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử Gradien, toán tử Laplace, toán tử chéo không (Zero Crossing)
Trang 21Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng xử lý ảnh nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý
Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thông tin quan trọng từ ảnh Ví dụ như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay, v.v…
Để xử lý các quá trình trên thì cần một hệ thống xử lý ảnh bao gồm một
số thành phần cơ bản sau đây:
Hình 1.5 Các thành phần cơ bản của một hệ xử lý ảnh
Bộ xử lý tương tự thực hiện các chức năng:
- Chọn Máy ảnh thích hợp nếu có nhiều Máy ảnh
- Chọn màn hình hiển thị tín hiệu
- Thu nhận tín hiệu video bởi bộ số hóa Thực hiện lấy mẫu và mã hóa
- Tiền xử lý ảnh khi thu nhận
Bộ xử lý ảnh số bao gồm nhiều bộ xử lý chuyên dụng: Xử lý lọc, trích chọn đặc trưng, nhị phân hóa ảnh
Máy chủ đóng vai trò điều khiển các thành phần khác
Bộ nhớ ngoài: Lưu trữ dữ liệu ảnh cũng như các kiểu dữ liệu khác để có thể chuyển giao cho các quá trình có nhu cầu
Trang 221.2 Ảnh giả mạo và các dạng giả mạo ảnh cơ bản
1.2.1 Ảnh giả mạo
Ảnh giả mạo được xem là ảnh không có thật, việc có được ảnh là do sự ngụy tạo bởi các chương trình xử lý ảnh hoặc quá trình thu nhận ảnh Sức mạnh của các chương trình xử lý ảnh số như photoshop giúp việc tạo ra các ảnh giả mạo từ một hay nhiều ảnh khác nhau trở nên dễ dàng
Ví dụ: Một ảnh giả được tạo lập từ 3 bức ảnh: Nhà trắng, Bill Clinton và Saddam Hussein Hình ảnh Bill Clinton và Saddam Hussein được cắt và dán vào bức ảnh Nhà trắng Các hiệu ứng về bóng và ánh sáng cũng được tạo ra làm cho bức ảnh có vẻ nhìn gần giống như thật, rất khó nhận biết bằng mắt thường
Hình 1.6 Minh họa về việc giả mạo ảnh
Một bức ảnh khác là hình ghép giữa hai bức ảnh khác nhau xuất hiện trong chiến dịch tranh cử tổng thống Mỹ năm 2004, cho thấy ứng viên John Kerry nói chuyện với cựu nữ diễn viên Jane Fonda tại một cuộc biểu tình phản chiến vào những năm 60 của thế kỷ trước
Trang 23(a) Hai ảnh gốc
(b) Ảnh giả mạo tạo ra từ hai bức ảnh trên
Hình 1.7 Ảnh giả của John Kerry và Jane Fonda được cắt ghép từ hai ảnh riêng lẻ
Giả mạo ảnh nhằm vào nhiều mục đích trong đó có việc vu cáo, tạo ra các tin giật gân, đánh lừa đối thủ, làm sai lệch chứng cứ phạm tội, v.v….Việc phát hiện và chống giả mạo ảnh là một chủ đề ngày càng được quan tâm bởi các nhóm trên thế giới như: TS Chung-Sheng Li ở IBM T.J.Watson Research Center, TS Jessica Fridrich ở Department of Electrical and Computer Engineering, SUNY Binghamton, Binghamton, NY 13902-6000 hay TS David Rosenthal ở Odyssey Research Associates, v.v…
Trong việc chống giả mạo ảnh, người ta đã nghiên cứu các kỹ thuật về tạo bản quyền ảnh trên cơ sở giấu các thông tin cần thiết vào bức ảnh trước khi phát hành để tránh tình trạng sao chép bất hợp pháp hoặc để tiện cho việc phát hiện sửa đổi hoặc cắt/dán sau này Theo cách tiếp cận này, ngày nay các thiết bị máy ảnh số và máy ảnh thường bổ sung các tính năng bản quyền ngay trong quá trình thu nhận ảnh Dựa vào đó, sau này ta có thể biết được nguồn gốc của bức ảnh Nhờ đó mà có thể biết được đó có phải là ảnh gốc hay không? Phát
Trang 24hiện ảnh giả mạo là một vấn đề khó hơn, ảnh giả mạo thường chia làm hai loại chính Ảnh giả nhưng thật, ở đây hiện trường được dựng thật và sau đó việc thu nhận ảnh là thật Loại thứ hai là ảnh giả được tạo ra từ việc có tác động lên ảnh nhằm thay đổi nội dung và bản chất bức ảnh dựa trên các kỹ thuật xử lý ảnh (cắt, dán, ghép, thêm, bớt, chỉnh sửa) Trong đề tài nghiên cứu này chỉ quan tâm xác định những ảnh giả mạo thuộc loại thứ 2
1.2.2 Các loại ảnh giả mạo cơ bản
1.2.2.1 Ghép ảnh
Ghép ảnh là dạng giả mạo ảnh số phổ biến nhất Một ví dụ về ghép ảnh là hình số 1.8 Hình 1.8a được ghép từ hai ảnh có cùng tỷ lệ Rõ ràng là nếu xác định được đây là ảnh thật hay ảnh giả mạo thì cũng chứng minh được mối quan
hệ giữa họ Độ tin cậy của sự giả mạo phụ thuộc vào mức độ phù hợp các thành phần của ảnh về kích thước, tư thế, màu sắc, chất lượng và ánh sáng Nếu có một cặp ảnh tương thích tốt, được thực hiện bởi một chuyên gia giàu kinh nghiệm thì việc kết hợp hoàn toàn như thật
Hình 1.8b là ghép từ hai ảnh có sự thay đổi tỷ lệ Nếu ảnh này không chứng minh được là giả thì sẽ phải có cách nhìn khác về sự tiến hóa của loài gà?
a)Ảnh ghép từ hai ảnh riêng rẽ b)Ảnh ghép từ hai ảnh có thay đổi tỷ lệ
Hình 1.8 Ghép ảnh từ hai ảnh riêng rẽ
1.2.2.2 Tăng cường ảnh
Gồm một loạt các phương pháp nhằm hoàn thiện trạng thái quan sát một ảnh, không phải là làm tăng cường lượng thông tin vốn có mà làm nổi bật một
Trang 25số đặc tính của ảnh như: thay đổi độ tương phản, lọc nhiễu, nổi biên, làm trơn biên, tăng cường độ tương phản, điều chỉnh mức xám của ảnh
Hình 1.9 gồm một ảnh gốc (góc trên bên trái), và 3 ví dụ về việc tăng cường ảnh: (1) Xe mô tô màu xanh được chuyển thành màu lục lam và xe tải màu đỏ trong nền được chuyển thành màu vàng; (2) Tăng độ tương phản của toàn cảnh làm cho ảnh này giống như được chụp trong một ngày trời nắng; (3) Các xe ô tô đã bị làm mờ làm chiều sâu của khung cảnh hẹp hơn… Không giống như ghép ảnh, dạng giả mạo này thường ít sử dụng thao tác nhấp chuột hơn
Hình 1.9 Ví dụ về tăng cường ảnh
Mặc dù loại giả mạo này không thay đổi về hình thức hay ý nghĩa của ảnh (như loại ghép ảnh), nhưng nó vẫn có những ảnh hưởng riêng đến thể hiện của ảnh, các tăng cường ảnh đơn giản có thể làm mờ hay làm tăng quá mức các chi tiết của ảnh, hoặc thay đổi thời gian chụp ảnh
1.2.2.3 Sao chép và dịch chuyển vùng trên ảnh
Một dạng khác thường thấy nữa của ảnh giả mạo là việc sao chép – dịch chuyển các đối tượng trong ảnh, việc này được xem như là che phủ hoặc xóa đi đối tượng
Hình 1.10.a là ảnh gốc với hai chiếc ô tô, một xe con và một xe tải Hình 1.10.b là ảnh 1.10.a giả mạo với việc che phủ chiếc xe tải bởi một cành cây cũng lấy từ chính trong ảnh Trong khi hình 1.10.c là ảnh gốc với chiếc trực thăng nhỏ còn hình 1.10.d chính là ảnh gốc 1.10.c đã được bỏ đi đối tượng là trực thăng Trong cả hai dạng giả mạo này đều được thực hiện từ một ảnh nên
Trang 26độ tương đồng về ánh sáng và bóng là như nhau Do đó, bằng mắt thường rất khó xác định
Hình 1.10 Ảnh che phủ và bỏ đi đối tượng
Hình 1.11 Ảnh bổ sung đối tượng
Hình 1.11 thể hiện một dạng khác thường thấy của giả mạo sao chép/dịch chuyển, đó là việc bổ sung thêm đối tượng Hình 1.11.a là ảnh gốc chỉ có một chiếc máy bay trực thăng, nhưng trong hình 1.11.b đã được bổ sung thêm thành
ba chiếc trực thăng ở các vị trí khác nhau Các trực thăng này chính là được sao chép từ trực thăng gốc nên góc độ và hướng là giống nhau, do đó rất khó cho việc phát hiện giả mạo
Trang 27CHƯƠNG 2: CÁC KỸ THUẬT PHÁT HIỆN ẢNH SỐ GIẢ MẠO
Hiện tại trên thế giới cũng có rất nhiều các nhóm nghiên cứu các kỹ thuật nhận diện ảnh giả mạo khác nhau cũng như phát triển các công cụ khác nhau để phát hiện ra ảnh bị làm giả Dựa vào các đặc trưng của các kỹ thuật nhận diện ảnh giả người ta chia ra làm 5 loại [4]: 1) Dựa vào các đặc trưng của các điểm ảnh 2) Dựa trên các đặc trưng của định dạng ảnh 3) Dựa trên đặc điểm kỹ thuật của máy ảnh như cảm biến máy ảnh, ống kính hoặc trên chip xử lý máy ảnh 4) Dựa trên các tính chất vật lý và mối tương tác giữa ánh sáng với máy ánh 5) Dựa trên đặc trưng hình học của các đối tượng
2.1 Dựa trên đặc trưng điểm ảnh (Pixel Based)
Trong tất cả các ngành khoa học, các đặc điểm đầu tiên được đưa ra phân tích và nhận dạng chính là các nhân tố nhỏ nhất tạo nên cấu trúc của sự vật, hiện tượng (trong y học nhận dạng nhờ phân tích ADN, tế bào, trong địa chất nhận dạng các phần tử đất, trong hóa học nhận dạng các nguyên tử, phân tử….) Trong lĩnh vực xử lý ảnh, các cấu trúc nhỏ nhất đó chính là các điểm ảnh Người
ta nghiên cứu mối tương quan giữa các điểm ảnh để tìm dấu hiệu của sự giả mạo ảnh kỹ thuật số
2.1.1 Nhân bản (Cloning)
Một trong những thao tác cơ bản nhất của việc tạo ra một bức ảnh giả đó
là sao - chuyển vùng ảnh (copy-move), một phần hình ảnh sẽ được che giấu bởi một người hoặc một đối tượng trong cảnh Các thao tác sao - chuyển vùng ảnh được thực hiện trên cùng một bức ảnh nên nó sẽ xuất hiện các vùng giống nhau trên bức ảnh giả, các khu vực này chính là bằng chứng của giả mạo
Ta có thể dễ dàng tìm kiếm hai khu vực giống hệt nhau trong hình ảnh bằng cách so sánh các giá trị của điểm ảnh hoặc các khối ảnh với nhau Tuy nhiên, nếu vùng nhân bản đó bị thay đổi kích thước hay màu sắc, hay bị nén JPEG, nó sẽ gây ra sự khó khăn trong việc so sánh để tìm ra các vùng nhân bản
Hiện nay, có hai phương pháp chính nghiên cứu để phát hiện ra các vùng nhân bản của ảnh giả dạng sao - chuyển vùng ảnh Thứ nhất đó là phương pháp dựa trên thuật toán dãy biến đổi cosin rời rạc (DCT) Khu vực nhân bản sẽ được phát hiện bởi từ điển phân loại khối hệ số DCT và nhóm các khối tương tự Thứ hai đó là phương pháp dựa trên việc phân tích thành phần chính (PCA), việc sử dụng PCA nhằm xác định các vector cơ sở và tìm khu vực trùng lặp phát hiện bởi từ điển phân loại khối vector cơ sở và nhóm các khối tương tự
Trang 282.1.2 Lấy mẫu lại (Re-sampling)
Để tạo ra một bức ảnh thuyết phục, người ta có thể phải thay đổi kích thước, xoay ảnh hoặc kéo dài các phần của hình ảnh Quá trình này yêu cầu lấy mẫu lại (re-sampling) vào một lưới mẫu mới Mặc dù việc lấy mẫu lại bình thường không dễ nhận thấy, nhưng nó có mối tương quan đặc biệt với hình ảnh, khi phát hiện nó có thể được sử dụng làm bằng chứng của sự giả mạo
Xét ví dụ đơn giản với tín hiệu một chiều x(n) có độ dài là M Lấy mẫu lại tín hiệu này để có tín hiệu mới là y(n) có độ dài 2M Các mẫu lẻ của tín hiệu được lấy mẫu lại bằng giá trị của tín hiệu ban đầu: y(2i-1) = x(i), i=1,… , Các
mẫu chẵn sẽ là trung bình của các tín hiệu liền kề
Hay là:
Ta thấy trong tín hiệu được lấy mẫu lại y(n), mỗi giá trị là sự kết hợp
tuyến tính của hai giá trị lân cận Trong trường hợp đơn giản này, một tín hiệu lấy mẫu lại có thể được phát hiện bởi tất cả các giá trị mẫu đều có sự tương quan với các giá trị lân cận chúng và tương quan đó xuất hiện theo chu kỳ Thuật toán
kỳ vọng cực đại (EM) có thể được sử dụng để tìm sự tương quan Thuật toán
EM bao gồm hai bước lặp:
1 Bước kỳ vọng: Tính xác suất ước lượng các điểm ảnh có thể tương quan
với các điểm lân cận
2 Bước cực đại: Các dạng cụ thể của các mối tương quan giữa các điểm ảnh
được ước tính
Giả sử có một mô hình nội suy tuyến tính, bước kỳ vọng làm giảm ước lượng Bayesian và bước cực đại làm giảm trọng số các khoảng ước lượng Xác suất ước tính sau đó được sử dụng để xác định nếu một phần của hình ảnh đã được lấy mẫu lại
2.1.3 Ghép (Splicing)
Một hình thức phổ biến của việc giả mạo ảnh số đó là ghép hai hoặc nhiều ảnh vào với nhau Khi họ thực hiện một cách cẩn thận không thể thấy được biên giới giữa các vùng ghép đó bằng mắt thường Tuy nhiên, một số nhà nghiên cứu
đã cho thấy có thể sử dụng thống kê Fourier bậc cao để phát hiện ra sự ghép nối