Luận văn đề xuất phương pháp tăng cường chất lượng đường biên đối tượng và chất lượng đối tượng trong ảnh bằng cách kết hợp phương pháp bản đồ nổi bật dựa trên tương phản toàn cục và đạo
Trang 1ĐẠI HỌC QUỐC GIA TP HCM
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 12 năm 2014
Trang 2ĐẠI HỌC QUỐC GIA TP HCM
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 12 năm 2014
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : TS Nguyễn Thanh Bình
Cán bộ chấm nhận xét 1 : TS Ngô Quốc Việt
Trang 4ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÕA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày, tháng, năm sinh: 01/10/1989 Nơi sinh: Tp.Hồ Chí Minh
Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01
I TÊN ĐỀ TÀI:
TĂNG CƯỜNG CHẤT LƯỢNG ĐƯỜNG BIÊN ĐỐI TƯỢNG TRONG
ẢNH DỰA TRÊN KỸ THUẬT SALIENCY MAP
II NHIỆM VỤ VÀ NỘI DUNG:
Tìm hiểu các loại ảnh hiện có
Tìm hiểu các công trình nghiên cứu liên quan tăng cường chất lượng
đường biên đối tượng
Đề xuất phương pháp tăng cường đường biên
Hiện thực và so sánh với các phương pháp khác
III NGÀY GIAO NHIỆM VỤ : 20/01/2014
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/11/2014
V CÁN BỘ HƯỚNG DẪN: TS Nguyễn Thanh Bình
Tp HCM, ngày 20 tháng 01 năm 2015
CÁN BỘ HƯỚNG DẪN (Họ tên và chữ ký)
TS Nguyễn Thanh Bình
TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
PGS.TS Thoại Nam
Trang 5LỜI CẢM ƠN
Trước tiên, em xin gửi sự biết ơn sâu sắc tới quý thầy TS Nguyễn Thanh Bình
đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình học tập, thực hiện luận văn cũng như công bố bài báo khoa học quốc tế
Chân thành cảm ơn tất cả Thầy Cô trong khoa Khoa học và Kỹ thuật máy tính
đã truyền đạt những kiến thức quý báu và hữu ích trong quá trình học tập và thực hiện công việc nghiên cứu khoa học
Cuối cùng, cảm ơn bạn bè đã động viên, giúp đỡ mình trong thời gian học tập tại trường Đặc biệt là nhờ công lao sinh thành, dưỡng dục của cha mẹ mà con đạt được kết quả ngày hôm nay Ba mẹ hãy an tâm, con sẽ cố gắng hơn nữa để xứng đáng với công lao và sự cố gắng của ba mẹ đã bỏ ra để nuôi lớn và cho con ăn học thành người
Tp Hồ Chí Minh, ngày 08 tháng 12 năm 2014
Nguyễn Duy Đạt
Trang 6TÓM TẮT
Trong những năm gần đây, việc rút trích đối tượng trọng tâm trong ảnh ngày càng cấp thiết hơn Đây là bước rất quan trọng và xuất hiện rất nhiều trong hầu hết ứng dụng của thị giác máy tính như phân vùng ảnh, nhận dạng đối tượng, phân lớp thành viên…Có nhiều phương pháp để giải quyết vấn đề này Nhưng hầu hết ảnh đầu vào cần làm rõ đối tượng, nâng cao chất lượng và xử lý việc thay đổi màu sắc ở đường biên
Luận văn đề xuất phương pháp tăng cường chất lượng đường biên đối tượng và chất lượng đối tượng trong ảnh bằng cách kết hợp phương pháp bản đồ nổi bật dựa trên tương phản toàn cục và đạo hàm trên các khoảng cách màu Kết quả thu được khá khả quan ở chất lượng bản đồ nổi bật khi thực nghiệm trên tập dữ liệu công khai và thậm chí là thời gian có cải thiện hơn so với các phương pháp liên quan
ABSTRACT
In recent years, extracting interesting objects become urgent than before This step is very important in many computer vision applications as image segmentation, object recognition, object classification, etc There are a lot of methods to solve this problem but most of output images need enhance quality, and fix color change at contour
Thesis propose a method to enhance object contour quality and object quality in image from combination between saliency map based on global contrast and derivative on color distance The result is good at saliency map quality and even run time is better than some related methods
Trang 7LỜI CAM ĐOAN
Tôi cam đoan rằng toàn bộ kết quả trình bày trong luận văn này là do bản thân nghiên cứu và thực nghiệm Tất cả kết quả số liệu không sao chép từ công trình khác cũng nhƣ không nộp những kết quả này để lấy bằng cấp ở nơi khác
Tp Hồ Chí Minh, ngày 08 tháng 12 năm 2014
Nguyễn Duy Đạt
Trang 8MỤC LỤC
DANH MỤC HÌNH ẢNH vi
DANH MỤC BẢNG vii
DANH MỤC TỪ VIẾT TẮT viii
CHƯƠNG 1 GIỚI THIỆU 1
1.1 Giới thiệu đề tài 1
1.2 Mục tiêu đề tài 2
1.3 Nội dung đề tài 3
1.4 Giới hạn đề tài 4
1.5 Phương pháp sử dụng trong nghiên cứu 4
1.6 Cấu trúc luận văn 4
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN 6
2.1 Cơ sở lý thuyết 6
2.1.1 Thu giảm không gian màu 6
2.1.2 Thu giảm số lượng màu trong ảnh 7
2.1.3 Bản đồ nổi bật 8
2.1.4 Tạo mặt nạ 9
2.1.5 Toán tử đạo hàm 10
2.1.6 Lọc trung vị 12
2.1.7 Trung bình của bình phương lỗi (Mean Square Error) 13
2.1.8 Tỉ lệ nhiễu trên đỉnh (Peak Signal to Noise Ratio) 15
2.2 Các công trình nghiên cứu liên quan 16
2.2.1 Nghiên cứu ngoài nước 16
CHƯƠNG 3 TĂNG CƯỜNG CHẤT LƯỢNG ĐƯỜNG BIÊN ĐỐI TƯỢNG TRONG ẢNH 23
3.1 Phương pháp đề xuất 23
3.2 Mô tả chi tiết từng bước của phương pháp đề xuất 25
3.2.1 Thu giảm không gian màu 25
3.2.2 Tạo bản đồ nổi bật 27
3.2.3 Làm mượt không gian màu 28
3.2.4 Tạo mặt nạ 30
Trang 93.2.5 Rút trích đối tượng nổi bật 31
3.2.6 Loại bỏ màu nền 32
3.2.7 Nâng cao chất lượng ảnh bằng phương pháp lọc 36
3.3 Đánh giá sơ bộ phương pháp đề xuất 40
3.3.1 Đánh giá định tính 40
3.3.2 Đánh giá định lượng 40
3.3.3 So sánh kết quả đạt được 41
CHƯƠNG 4 THỰC NGHIỆM VÀ KIỂM CHỨNG 43
4.1 Phương pháp thực hiện và đánh giá kết quả 43
4.2 Kết quả thí nghiệm 43
4.3 So sánh với những phương pháp khác 43
CHƯƠNG 5 KẾT LUẬN 54
5.1 Kết quả đạt được 54
5.2 Ưu nhược điểm 54
5.2.1 Ưu điểm 54
5.2.2 Nhược điểm 55
5.3 Đóng góp của luận văn 57
5.3.1 Đóng góp về mặt khoa học 57
5.3.2 Đóng góp về mặt thực tiễn 57
5.4 Hướng phát triển tương lai 58
TÀI LIỆU THAM KHẢO 59
PHỤ LỤC 62
LÝ LỊCH TRÍCH NGANG 77
Trang 10DANH MỤC HÌNH ẢNH
Hình 2 1 Bọ rùa nổi bật trong khung cảnh 8
Hình 2 2 Minh họa bản đồ nổi bật 9
Hình 2 3 Tạo mặt nạ từ bản đồ nổi bật 10
Hình 2 4 Đồ thị hàm số y = f(x) 10
Hình 2 5 Đường tiếp tuyến tại M(x0, y0) 11
Hình 2 6 Minh họa lọc trung vị 13
Hình 2 7 Minh họa tỉ lệ PSNR giảm theo tỉ lệ nén ảnh 16
Hình 2 8 Bản đồ nổi bật của Zhai [12] 17
Hình 2 9 Phương pháp tính bản đồ nổi bật của Achanta 19
Hình 2 10 Phương pháp tính bản đồ nổi bật của Cheng 20
Hình 2 11 Kết quả bước làm mượt không gian màu 21
Hình 3 1 Sơ đồ các bước trong phương pháp đề xuất 24
Hình 3 2 Thu giảm không gian màu 26
Hình 3 3 Quá trình xử lý để tạo ra bản đồ nổi bật 29
Hình 3 4 Tạo mặt nạ nhị phân 31
Hình 3 5 Đối tượng sau khi tách nền 32
Hình 3 6 Loại bỏ màu nền dùng phương pháp bản đồ nổi bật 33
Hình 3 7 Khoảng cách màu trước và sau đạo hàm 35
Hình 3 8 Kết quả phương pháp đạo hàm khoảng cách màu 35
Hình 3 9 Minh họa phương pháp lọc trung vị cho ảnh xám 36
Hình 3 10 Minh họa cho việc tách ảnh thành 3 lớp màu R, G, B 37
Hình 3 11 Nâng cao chất lượng đối tượng bằng phương pháp lọc trung vị 38
Trang 11DANH MỤC BẢNG
Bảng 1 Bảng đổi màu cũ và màu mới 7
Bảng 2 So sánh chất lượng bản đồ nổi bật giữa phương pháp đề xuất với CRF [7] và CSD [11] 43
Bảng 3 So sánh chất lượng bản đồ nổi bật giữa phương pháp đề xuất với APO [8], CLM [9] và SPM [10] 45
Bảng 4 Một số kết quả đối với đối tượng riêng lẻ 46
Bảng 5 Một số kết quả cho đồ, động vật trong cảnh hỗn hợp 47
Bảng 6 Một số kết quả cho hoa trong cảnh tự nhiên 49
Bảng 7 Một số ảnh minh họa cho người trong cảnh đơn giản 50
Bảng 8 Một số ảnh minh họa cho người, hoa, vật trong cảnh phức tạp 51
Bảng 9 So sánh thời gian tính toán bản đồ nổi bật 52
Bảng 10 Một số kết quả phương pháp đề xuất 62
Trang 12DANH MỤC TỪ VIẾT TẮT
APO : Attend to Proto-Object
CLM : Colors and Luminance to Measure
CRF : Conditional Random Field
CSD : Center Surround Histogram
SPM : Spatial Pooling Mechanism
HC-map : High Contrast Map
RC-map : Region contrast map
RCC-map : region contrast cut map
HSI : Hue Saturation Intensitive color space
LAB : Luminace Anpha Beta color space
RGB : Red Green Blue color space
SVM : Support Vector Machine
XYZ : XYZ color space
MSE : Mean Square Error
PSNR : Peak Signal to Noise Ratio
Trang 13CHƯƠNG 1 GIỚI THIỆU
1.1 Giới thiệu đề tài
Trong những năm gần đây, các nhu cầu liên quan đến việc xử lý ảnh ngày càng phổ biến Từ những việc đơn giản như chỉnh độ sáng tối, cân bằng màu, thay đổi độ tương phản… đến những yêu cầu cao cấp hơn như phân tách các vùng trong ảnh, khử mờ và nhiễu ảnh, lấy đối tượng chính trong ảnh nhằm loại bỏ nền, chỉnh sửa đối tượng chính theo yêu cầu
Mọi người đều muốn chất lượng tấm ảnh tốt nhất có thể và đặc biệt là đối tượng chính trong ảnh cần được quan tâm hơn cả Trong thực tế tình trạng mờ nhiễu, các vùng màu không rõ ràng cũng như đường biên đối tượng và nền bị lem cũng khiến người nhìn có cảm giác thẩm mỹ không tốt hay máy tính xác định không chính xác đối tượng trọng yếu trong ảnh Từ đó dẫn đến các thao tác sau cũng bị ảnh hưởng nhiều Cuối cùng kết quả công việc sẽ không được như ý muốn
Trên thế giới hiện nay có những kỹ thuật khử nhiễu, mờ, tách đối tượng chính cũng như các kỹ thuật làm rõ đối tượng có thể đáp ứng yêu cầu của bài toán Những
kỹ thuật khử nhiễu như median filter, image reconstruction … đều có ưu và nhược điểm cũng như đối tượng áp dụng khác nhau Các kỹ thuật khử mờ dựa trên wavelet thế hệ mới như contourlet, curvelet, ridgelet … cho kết quả tốt nhưng vẫn có những hạn chế nhất định như ảnh phải có chiều cao, rộng là 2n Những kỹ thuật phân tách các vùng trong ảnh như segment image, saliency map, color segment… có điểm hay
là phân chia các phần trong ảnh rất nhanh nhưng để kết hợp các phần thành một đối tượng hoàn chỉnh thì những thuật toán trên chưa hoàn thiện
Công việc cần làm trong bài toán này là làm rõ đối tượng trọng yếu trong ảnh Chính vì vậy, bài toán phải trải qua các bước như : xác định đối tượng chính trong ảnh và làm rõ đối tượng đó Trong quá trình thực hiện sẽ phải làm một số công việc phụ như khử nhiễu, mờ ở mức độ nhẹ, xác định đường biên đối tượng một cách chính xác
Nhằm giải quyết những vấn đề trên, thuật toán đề xuất sử dụng kỹ thuật bản đồ nổi bật (saliency map) để xác định đối tượng chính, trong đó sử dụng phương pháp thu giảm không gian màu để loại bỏ những màu không cần thiết như pixel bị nhiễu màu Kỹ thuật này phù hợp với ảnh màu do nó tập trung vào việc xác định màu nổi
Trang 14bật (được thể hiện trong kết quả là bản đồ nổi bật) chứ không nhằm mục tiêu xác định cụ thể những màu cho trước của đối tượng
Những màu của đối tượng thường nổi bật với những màu xung quanh vì vậy nếu dùng kỹ thuật phân vùng màu rồi kết hợp những vùng này để khôi phục lại đối tượng sẽ tốn kém thời gian và công sức, làm phức tạp thêm vấn đề cần giải quyết Một vấn đề nữa là tính toán nhầm dẫn đến việc một số pixel đáng lẽ phải loại bỏ lại được giữ lại, qua quan sát thực tế thấy rằng màu của những pixel này giống màu nền hơn màu đối tượng Chính vị vậy, thuật toán sử dụng phép toán đạo hàm dựa trên khoảng cách màu để loại bỏ những pixel có màu giống với màu nền hơn là màu đối tượng cần quan tâm
Đối tượng sau khi được xác định sẽ sử dụng phương pháp mặt nạ để tách đối tượng ra khỏi nền Phương pháp tạo mặt nạ sử dụng bản đồ đo lường giá trị nổi bật
để xác định chính xác giá trị cần phân ngưỡng nhằm tạo ra mặt nạ tốt nhất
Phần việc cuối cùng, phương pháp lọc trung vị được sử dụng vì đối tượng trong trường hợp này bị mờ nhẹ do có một số pixel có màu hơi khác so với xung quan (do máy ảnh), một số có màu chưa đúng (do ánh sáng), còn đường viền của đối tượng bị
mờ so với xung quanh do chuyển màu Tất cả vấn đề trên đều phù hợp với phương pháp lọc trung vị Phương pháp này làm hai việc là chỉnh sửa màu cho những pixel
có màu chưa đúng và làm đối tượng mượt mà, rõ ràng hơn nhờ tính lại màu sắc cho các pixel tại đường biên
1.2 Mục tiêu đề tài
Sau khi nghiên cứu, tìm hiểu sâu về kỹ thuật bản đồ nổi bật và lọc trung vị, tôi nhận thấy rằng cả hai kỹ thuật trên rất phù hợp với vấn đề xác định và làm rõ đối tượng trong ảnh Các nghiên cứu trước đây dừng lại ở việc sử dụng kỹ thuật bản đồ nổi bật để xác định và tách đối tượng ra khỏi ảnh ban đầu chứ chưa có hướng mới là làm rõ đối tượng sau khi tách ra khỏi ảnh
Trong khuôn khổ luận văn này, tôi đi sâu vào tìm hiểu các vấn đề thường gặp khi tách đối tượng trên ảnh thông thường như các loại nhiễu, mờ thường gặp và tính chất chung của các loại nhiễu, mờ cũng như tính chất riêng của chúng trong tập dữ liệu này là gì Những kỹ thuật làm rõ ảnh như median filter, k-man filter, cân bằng sáng tối…Từ những bài báo hội nghị hay tạp chí quốc tế sẽ giúp tôi tìm hiểu sâu sắc
và kỹ càng hơn những vấn đề trên cũng như cách khắc phục chúng Mục tiêu chính
Trang 15của đề tài là đề xuất phương pháp tăng cường chất lượng đường biên trong ảnh dựa trên kỹ thuật saliency map
1.3 Nội dung đề tài
Trong luận văn này, tôi đi vào tìm hiểu các loại ảnh trong tập ảnh công khai cũng như tính chất của tập ảnh này Từ đó đề xuất phương pháp phù hợp để đạt được mục tiêu đã nêu ra ở trên Vấn đề chính của luận văn là xác định vùng của đối tượng chính sau đó nâng cao chất lượng đường biên đối tượng
Thứ nhất, tôi sẽ đi sâu vào tìm hiểu cách tăng tốc độ tính toán cũng như chất lượng kết quả bằng kỹ thuật thu giảm không gian màu của Cheng [1] Vì đây là kỹ thuật rất hay so với trước, giúp giảm độ phức tạp của phương pháp đi rất nhiều cũng như việc tính toán trở nên dễ dàng hơn
Thứ hai là việc nghiên cứu lý thuyết tạo ra bản đồ nổi bật (salient map) tốt hơn trước, sử dụng ý tưởng của Achanta [5] và Cheng [1] Những kỹ thuật trước cho ra bản đồ nổi bật nhanh nhưng kết quả cần cải thiện nhiều Kỹ thuật tạo ra bản đồ nổi bật dựa vào màu và tần số là một ý tưởng đột phá so với trước Những kết quả đăng trong bài báo Achanta [5] và Cheng [1] là rất khả quan
Thứ ba, sau khi có được bản đồ nổi bật rõ ràng, thể hiện tốt khu vực của đối tượng nổi bật Tôi sẽ tiến hành tìm hiểu phương pháp phân ngưỡng, rút trích đối tượng nổi bật trong ảnh nhờ đường biên và độ nổi bật của khu vực chưa đối tượng
Kỹ thuật nhị phân hóa bản đồ nổi bật sẽ là một lựa chọn hứa hẹn và đầy triển vọng
do nó sử dụng hai tính chất đã nêu ở trên
Thứ tư, đối tượng sau khi rút trích sẽ được xử lý một lần nữa bằng phương pháp loại bỏ màu nền Phương pháp này hướng tới việc đem lại kết quả tối ưu so với trước kia vì nó dựa vào màu đối tượng, màu nền và đường ranh giới để tiến hành loại bỏ những pixel chưa đúng trong quá trình xử lý trước đó
Thứ năm, đối tượng đã được tách ra trải qua công đoạn cuối của quá trình xử lý Nhằm tăng cường chất lượng đường biên và chất lượng của đối tượng, đề tài sẽ nghiên cứu để dùng phương pháp lọc trung vị nhằm đạt được mục đích đã nêu trên Cuối cùng, về phương diện đánh giá, tôi sẽ đánh giá phương pháp đề xuất với hai tham số MSE, PSNR Đây là hai tham số được sử dụng nhiều và hiệu quả trong lĩnh vực xử lý ảnh tự nhiên Về mặt định tính, tôi sẽ so sánh chất lượng bản đồ nổi bật với những phương pháp đã nêu trên
Trang 161.4 Giới hạn đề tài
Luận văn tập trung vào nghiên cứu phương pháp xác định đối tượng trọng tâm
là phương pháp bản đồ nổi bật (saliency map) và phương pháp lọc trung vị để làm
rõ đối tượng chính trong ảnh
Cơ sở dữ liệu dựa trên tập dữ liệu công khai của Achanta [9] Trong đề tài này, phương pháp sẽ so sánh cả chất lượng kết quả đạt được cũng như tốc độ so với các phương pháp khác
1.5 Phương pháp sử dụng trong nghiên cứu
Công việc nghiên cứu bắt đầu từ việc tìm hiểu cơ sở lý thuyết, tham khảo nội dung các công trình liên quan và cuối cùng là xác định những những vấn đề còn tồn tại cũng như phương pháp giải quyết đã có liên quan đến việc xử lý ảnh màu có đối tượng
Tổng hợp ý tưởng hiệu quả cũng như phân tích các phương pháp đã có để cải tiến
Gom nhóm các phương pháp đã có dựa trên cách lựa chọn đặc trưng, kỹ thuật phân tách đối tượng và hướng giải quyết những vấn đề trước và sau
Sau cùng, đề tài sẽ kết hợp các phương pháp, ý tưởng mới Từ đó, tôi nghiên cứu đề xuất và hiện thực phương pháp đã đề ra, mà nó sẽ giải quyết bài toán làm rõ thành phần trọng yếu của ảnh màu trong phạm vi giới hạn đã nêu ở trên
Đề tài được hiện thực bằng công cụ Matlab và so sánh kết quả đạt được với những nghiên cứu trước đó nhằm đánh giá mức độ hiệu quả của phương pháp đề xuất ở hai phương diện chính là định lượng (thời gian, MSE, PSNR) và định tính (kết quả bản đồ nổi bật)
1.6 Cấu trúc luận văn
Luận văn chia thành 5 chương như sau:
Trang 17Chương 1: Giới thiệu tổng quan về bái toán cần giải quyết, động cơ thực hiện, giới hạn đề tài, kết quả cần đạt được
Chương 2: Trình bày các lý thuyết liên quan trong đề tài như các vấn đề và phương pháp giải quyết, những phương pháp liên quan đến đề tài, tham số và cách tìm tham số
Chương 3: Mô tả chi tiết phương pháp đề xuất cũng như nêu rõ các yếu tố cần xác định, cách tính toán, thứ tự tính toán, ý tưởng chính để đạt được mục tiêu
Chương 4: Nêu ra những kết quả đạt được, so sánh với các phương pháp khác
về mặt thời gian chất lượng đối tượng sau khi nâng cao dùng tham số MSE, PSNR Chương 5: Kết luận lại những vấn đề đã nêu, điểm tốt của phương pháp đề xuất cũng như những điểm đề tài cần học hỏi để cải thiện kết quả
Trang 18CHƯƠNG 2 CƠ SỞ LÝ THUYẾT VÀ CÁC CÔNG TRÌNH
NGHIÊN CỨU LIÊN QUAN
2.1 Cơ sở lý thuyết
2.1.1 Thu giảm không gian màu
Zhai và Shah [12] sử dụng ý tưởng thu giảm không gian màu để nâng cao hiệu suất tính toán Trong [12] ông sử dụng trục L (độ sáng) để thu giảm, trục L sau khi thu giảm còn 12 giá trị màu cách đều nhau thay vì sử dụng toàn bộ 100 giá trị như trước đây Hai trục màu a, b không bị thu giảm nên số màu đã được thu giảm từ CIE
Ming Cheng [1] sử dụng ý tưởng trên một cách triệt để hơn, ông thu giảm cả 3 chiều trong không gian màu và thu được kết quả rất khả quan Từ chỗ phải dùng CIE L * a * b khoảng
255*255*255 = 16.581.375 màu
12 * 12 * 12 = 1.728 màu
Tổng số màu đã giảm đi rất nhiều, còn lại khoảng 0,001% màu so với ban đầu Tốc độ tình toán nhờ vậy mà cải thiện gấp nhiều lần so với trước đó Cách làm của Minh Cheng[13] là phân ngưỡng cứng cho mỗi trục màu cố định để chia từ 255 giá trị còn 12 giá trị Bước nhảy giữa mỗi màu là 255/12 = 21,25 màu
Mười hai giá trị màu mới được tính như sau :
Bước 1 : Gán giá trị bắt đầu là 0 đối với mảng màu cũ lẫn màu mới
Bước 2 : Cứ mỗi 21 màu tiếp theo sẽ mang giá trị mới là 0
Bước 3 : Màu mới tiếp theo có giá trị bằng giá trị trước đó cộng với bước nhảy và cộng thêm một để tránh trùng lắp
Trang 19 Bước 4 : Lặp lại bước 2 cho đến khi hết màu ở mảng cũ
Bảng 1 Bảng đổi màu cũ và màu mới
Giá trị màu cũ Giá trị màu mới
2.1.2 Thu giảm số lượng màu trong ảnh
Cheng [1] sau khi thu giảm không gian màu là bước thu giảm số lượng màu trong ảnh Vì có những màu rất ít xuất hiện, có thể loại bỏ khỏi ảnh và thay bằng màu gần nhất Những màu hiếm khi xuất hiện này thường là nhiễu trong ảnh, chúng hay xuất hiện ở vùng chuyển tiếp, đường biên, phần bị mờ … trong hình ảnh tự nhiên ở đầu vào
Loại bỏ những màu hiếm này giúp ảnh rõ ràng, sắc nét hơn cũng như tăng tốc
độ tính toán do sử dụng ít màu hơn
Phương pháp của Cheng giữ lại những màu có tần số xuất hiện cao và loại bỏ những màu có tần số xuất hiện thấp Giữ lại những màu hay xuất hiện nhất và tổng
độ phủ trên 95% còn những màu có tần số xuất hiện thấp và tổng độ phủ bé hơn 5%
sẽ bị loại bỏ và thay thế bằng màu gần với nó nhất mà những màu này nằm trong nhóm màu được giữ lại Xem kết quả của bước này ở chương 5
Trang 20Khi thực nghiệm, số màu còn lại thường dưới 95 màu so với hàng trăm ngàn màu trước khi thu giảm màu bằng tần số xuất hiện trong ảnh Nhờ số màu còn lại được giảm đi rất nhiều nên tốc độ tính toán cũng cải thiện một cách tối đa
2.1.3 Bản đồ nổi bật
Kỹ thuật bản đồ nổi bật mới được giới thiệu và phát triển gần đây nhằm giải quyết tốt hơn bài toán nhận dạng Những kỹ thuật trước đây nhận dạng đối tượng có một số màu cho trước, phần màu nền cũng phải khác so với đối tượng rõ rệt Chính
vì thế kỹ thuật bản đồ nổi bật ngày càng phát triển hơn so với trước do màu đối tượng tùy ý chỉ cần thỏa mãn yêu cầu màu đối tượng và màu nền có sự tương phản
Từ hình trên ta có thể hiểu được nguyên nhân tại sao mọi loài vật kể cả con người lại dành sự tập trung vào khu vực nổi bật trong ảnh vì đó thường là những thông tin quan trọng với mọi động vật Thông tin thị giác phải được xử lý nhanh chóng nhằm phát hiện con mồi, động vật ăn thịt hay là đồng loại trong thế giới đủ thứ hình dạng và màu sắc
Những xử lý này là phức tạp, khó khăn để xác định mục tiêu trong ảnh là gì Bởi vì ngay với bộ não sinh học thông minh nhất cũng rất khó khăn để nắm bắt được đối tượng trong ảnh [25] Để giải quyết vấn đề này, sinh vật sử dụng giải pháp
là chú ý hơn đến những khu vực có màu khác và nổi bật so với xung quanh
Trang 21Những nghiên cứu đầu tiên về bản đồ nổi bật cho kết quả chưa được tốt và cần cải tiến nhiều do tính toán còn chậm và bản đồ nổi bật chưa rõ ràng và khá là ẩu tả
Ý tưởng chính khi tính toán bản đồ nổi bật là dựa vào độ tương phản màu giữa các thành phần này với thành phần khác trong ảnh
(a) là hình gốc, (b) là bản đồ nổi bật Hình 2 2 Minh họa bản đồ nổi bật
Link : https://graphics.ethz.ch/~perazzif/saliency_filters/files/teaser_01.png
Từ hình trên ta sẽ dành thời gian tập trung ngay vào chấm đỏ do nó có độ tương phản cao hơn hẳn những màu xung quanh Nguyên nhân vì màu khác biệt so với phần lớn màu xung quanh
2.1.4 Tạo mặt nạ
Từ hình ảnh của bản đồ nổi bật, chúng ta cần tạo ra một mặt nạ để xác định rõ phần nào của đối tượng còn phần nào thuộc về nền
Để làm việc này ta cần xác định ngưỡng k để phân loại xem mức nổi bật
đến đâu thì được xem là đối tượng, còn bên dưới là nền Ngưỡng này được xác định bằng cách nào đó theo yêu cầu của từng bài toán Khi đã có ngưỡng
ta sẽ tiến hành nhị phân hóa ảnh đầu vào
Công thức nhị phân hóa thường là:
{ (1) Trong đó:
y là giá trị nổi bật sau khi phân ngưỡng
x là giá trị nổi bật ban đầu của pixel
Trang 22(a) (b)
(a) là ảnh bản đồ nổi bật, (b) là ảnh sau khi phân ngưỡng
Hình 2 3 Tạo mặt nạ từ bản đồ nổi bật
2.1.5 Toán tử đạo hàm
Cho hàm số y = f(x) và đồ thị Ta coi đồ thị là tập hợp của hàm là tập hợp các
điểm Từ đó ta vẽ đồ thị trong mặt phẳng với một trục ngang (trục x) và trục đứng (trục y)
Hình 2 4 Đồ thị hàm số y = f(x)
Cố định một điểm trên biểu đồ, gọi là M(x 0 , y 0) Nếu đồ thị có tính chất liên tục tại điểm đang xét, ta có thể tìm một biểu thức đường thẳng sao cho giao với đồ thị tại điểm đó và có góc giống với góc của hàm số tại lân cận của điểm M Đường thẳng có được gọi là đường tiếp tuyến tại điểm đang xét
Trang 23Hình 2 5 Đường tiếp tuyến tại M(x 0 , y 0 )
Khi x tiến càng gần đến x 0, đường thẳng sẽ tiến gần sát với đường tiếp tuyến Lúc hai điểm này sát lại gần nhau, ta có thể tìm độ dốc tại điểm đang xét bằng phương trình:
( ) ( ) ( )
Ta có thể dùng phép toán xét giới hạn tại đây
( )
Trang 242.1.6 Lọc trung vị
Trong xử lý ảnh số, chúng ta thường phải đối phó với vấn đề giảm nhiễu trong một tấm ảnh cụ thể hay là tín hiệu đầu vào Trong nhiều kỹ thuật lọc khử nhiễu, lọc trung vị là kỹ thuật lọc số liệu không tuyến tính
Nó thường được dùng trong các bước loại bỏ nhiễu, ví dụ như loại bỏ hay làm giảm nhiễu trong những bước tiền xử lý dữ liệu đầu vào hay làm những việc như nâng cao kết quả của dữ liệu sau khi xử lý Đây là phương pháp rất được ưa chuộng cũng như áp dụng rộng rãi trong lĩnh vực xử lý ảnh bởi vì với những điều kiện cho phép, nó vẫn giữ gìn cạnh, đường biên, trong khi loại bỏ nhiễu
Ý tưởng chính của lọc trung vị là xử lý tín hiệu theo từng nhóm liên tiếp nhau, thay thế phần tử trung tâm mỗi khối với giá trị trung vị trong nhóm Mẫu thực nghiệm của các hàng xóm được gọi là "cửa sổ", nó đại diện cho mỗi lát cắt, mỗi nhóm trên tổng thể tín hiệu hiện có
Đối với những tín hiệu một chiều, cửa sổ thường có độ dài khoảng một mẫu hay vài chuỗi Trong khi đó, những tín hiệu có hai chiều trở lên ví dụ hình ảnh, càng có thêm nhiều khả năng lấy cửa sổ đối với những mẫu khác nhau Lưu ý rằng, với những cửa số có số phần tử là lẻ, ta dễ dàng định nghĩa phần tử trung tâm, trong khi những cửa sổ có số phần tử có chẵn phần tử, càng có nhiều khả năng hơn để chọn phần tử trung tâm
Điều kiện đường biên đối với lọc trung vị:
Tránh xử lý đường biên, tránh chồng chéo đường biên của tín hiệu hay đường biên của ảnh
Tránh lặp lại các nhóm từ những vùng khác
Không kéo giãn cửa sổ gần đường biên, việc làm này sẽ làm mọi cửa sổ bị tràn
Với lọc 2 chiều:
Trang 25Hình 2 6 Minh họa lọc trung vị
Link:http://www.mathworks.com/matlabcentral/fileexchange/screenshots/21264/original.jpg
Trong ví dụ lọc hai chiều này, ta định nghĩa cửa sổ lọc có kích thước 3x3, có tổng số phần tử là số lẻ vì vậy chọn phần tử trung tâm là vị trí thứ 5 Ô trung tâm có giá trị 10 sẽ bị thay thế bằng giá trị 4
Tính chất bảo tồn cạnh, ưu điểm của lọc trung vị thể hiện ở những điểm sau: Đây là một trong những kỹ thuật làm mượt vì nó sẽ thay thế giá trị bị sai bằng giá trị trung bình của một vùng Vì vậy nếu có một vài pixel bị lỗi thì nó sẽ thay bằng giá trị chính xác hơn
2.1.7 Trung bình của bình phương lỗi (Mean Square Error)
Trung bình của bình phương lỗi (MSE) là một phương pháp ước lượng trung bình của bình phương của một lỗi Nó phản ánh sự khác biệt giữa những gì ước lượng là những dự đoán MSE là môt hàn xác định độ rủi ro, tương ứng với giá trị
kỳ vọng đối với sự mất mát lỗi-bình phương Sự thay đổi này xảy ra ngẫu nhiên hoặc vì một vài lý do chưa tính đến, từ đó gây ra việc mất mát thông tin
MSE phản ánh lỗi ở khía cạnh kết hợp cả phương sai của các ước lượng và độ sai lệch của nó Đối với các ước lượng không có độ sai biệt lớn, MSE là phương sai của các ước lượng Nó tương tự như độ lệch chuẩn, căn bậc hai của MSE mang ý nghĩa căn bậc hai của trung bình bình phương lỗi của một đại lượng đang xem xét Định nghĩa của MSE :
Gọi ̂ là một vector với n dự đoán và Y là vector chứa giá trị thật, khi đó ước lượng lỗi của dự đoán là :
Trang 26∑( ̂ )
(4)
Trong đó :
MSE là trung bình của bình phương lỗi
n là số dự đoán (số thành viên của vector Y)
̂ là vector ước lượng (dự đoán) giá trị lúc sau của Y
Y là vector chứa giá trị thật, giá trị lúc đầu
Đây là một khái niệm về số lượng tính toán được cho bởi một mẫu cụ thể Điều kiện để tính toán được là hai tham số có cùng kích thước, số lượng thành viên và chi khác nhau giá trị của một hay một vài thành viên giữa hai tham số này mà thôi Chính vì lý do trên, nó có thể mở rộng thành một ước lượng tổng quát cho một tham
số chưa biết Ta có một ước lượng ̂ tương ứng với tham số chưa biết , khi đó MSE của ước lượng ̂ được định nghĩa là :
Trong đó :
(̂) là ước lượng lỗi của tham số ̂
E là trung bình bình phương lỗi
là tham số chưa biết
̂ là dự đoán của tham số trước đó
Trong trường hợp cụ thể của bài toán này, MSE lúc này được dùng để tính toán
sự khác biệt giữa hai ảnh trước và sau khi tăng cường đường biên và khắc phục một vài khuyết điểm của đối tượng ban đầu Công thức tính MSE cho hai ảnh được cụ thể hóa dựa trên công thức tổng quát, vì vậy công thức tính là :
∑ ∑ ( ) ( )
(6)
Trong đó :
I(i, j) là giá trị pixel tại ví trí i, j của ảnh đối tượng lúc đầu
I’(i, j) là giá trị pixel tại ví trí i, j của ảnh đối tượng sau khi chỉnh sửa
Trang 27 M, N là kích thước dài, rộng của ảnh
i, j là vị trí pixel tại vị trí i, j trong ảnh
Nó đại diện cho bình phương lỗi tích lũy khi so sánh giữa ảnh gốc và ảnh sau chỉnh sửa MSE nói lên việc ảnh có bị lỗi, thay đổi nhiều hay không Vì vậy, ảnh càng ít thay đổi, MSE càng nhỏ
2.1.8 Tỉ lệ nhiễu trên đỉnh (Peak Signal to Noise Ratio)
Tỉ lệ nhiễu trên đỉnh, thường được viết tắt là PSNR Đây là kỹ thuật dùng để tính tỉ lệ giữa công suất tối đa có thể của một tín hiệu so với tiếng ồn gây nhiễu Tiếng ồn này ảnh hưởng đến độ trung thực của tín hiệu trước đó Vì tín hiệu ban đầu có tần số dao động rất lớn nên PSNR có đơn vị decibel (dB)
PSNR được sử dụng rộng rãi trong việc đo lường chất lượng khôi phục các khối tín hiệu đã nén (chẳng hạn các khối video, ảnh sau khi nén) Trong trường hợp này
là dữ liệu ban đầu và tiếng ồn là những lỗi xảy ra trong quá trình nén Khi so sánh các khối đã giải nén với ban đầu thì PSNR là một đại lượng giúp chúng ta nhận xét
và đánh giá được về chất lượng của khối ban đầu với chất lượng của khối sau khi tái tạo lại
Chính vì đại diện cho sự tương đồng giữa hai tín hiệu ban đầu và tín hiệu khôi phục nên PSNR cao xảy ra khi hai tín hiệu có tỉ lệ giống nhau cao
Định nghĩa PSNR :
Cho ảnh ban đầu I có kích thước MxN và ảnh sau khi bị nhiễu K Ta sẽ tính
PSNR dựa trên MSE như sau :
∑ ∑ ( ) ( )
MAX I là giá trị tối đa mà pixel có thể đạt được
MSE là trung bình bình phương lỗi
PSNR là tỉ lệ nhiễu đỉnh
Trang 28Trong ảnh số, các pixel được lưu giá trị theo bit hay byte với số bit phụ thuộc
vào cấu trúc lưu trữ ảnh, cho nên MAX I được tính bằng công thức sau :
Trong đó :
MAX I là giá trị tối đa của một pixel có thể có
B là số lượng bit dùng để lưu trữ một pixel ảnh
Thông thường, giá trị PSNR trong ảnh và video nén thất thoát thông tin là khoảng 30 tới 50 dB, nếu ảnh được mã hóa 8-bit Càng nhiều bit dùng để nén sẽ càng giữa được nhiều thông tin hơn, ví dụ như ảnh 16-bit thì giá trị PSNR thường rơi vào tầm 60 tới 80 dB
(a) Ảnh ban đầu (chưa nén) (b) Ảnh đã nén với tỉ lệ Q = 90, PSNR = 45.53 dB
(c) Ảnh nén với Q = 30, PSNR = 36.81 dB (d) Ảnh nén với Q = 10, PSNR = 31.45 dB Hình 2 7 Minh họa tỉ lệ PSNR giảm theo tỉ lệ nén ảnh
Link: http://en.wikipedia.org/wiki/Peak_signal-to-noise_ratio
Trong hình trên Q là tỉ lệ nén ảnh, tỉ lệ ảnh còn lưu giữ sau khi nén so với ban đầu (khi chưa nén) Nguyên nhân giá trị PSNR giảm khi tỉ lệ nén tăng là do càng nén, thông tin mất mát càng nhiều dẫn đến MSE tăng, khi MSE càng tăng thì PSNR càng giảm do chúng có tỉ lệ nghịch Quá trình nén chỉ giữ lại những thông tin chính, còn những vùng gần giống nhau hay chi tiết nhỏ dễ bị bỏ qua khi nén
2.2 Các công trình nghiên cứu liên quan
2.2.1 Nghiên cứu ngoài nước
Những công trình trước đây tập trung vào thông tin thị giác, thuần tính toán hay kết hợp những góc nhìn mới hay sử dụng nhiều ý tưởng đã có nhằm giải quyết vấn
đề chưa giải quyết triệt để Một số phương pháp dùng những thông tin chính như vùng nổi bật và các vùng xung quanh hay những thông tin về góc cạnh, độ sáng,
Trang 29màu sắc như Achanta [5] Tóm lại, những ý tưởng trên có thể phân loại thành hai nhóm chính là phân loại dựa vào độ tượng phản toàn cục và tương phản cục bộ Tương phản toàn cục là ý tưởng của những phương pháp hướng tới việc đo lường giá trị nổi bật của một vùng dựa trên sự tương phản của nó với những vùng khác trong ảnh Tác giả Zhai [12] đã đề xuất ý tưởng xác định giá trị nổi bật của một pixel dựa trên độ tương phản giửa các pixel với nhau Phương pháp của nhà khoa học Zhai đem lại kết quả khả quan, nhưng điểm cần cải thiện là hiệu suất, thời gian tính toán
Nguyên nhân bắt nguồn từ việc chỉ sử dụng thông tin độ sáng trong khi bỏ qua các kênh màu khác, đây là việc chưa sử dụng hết thông tin để đạt kết quả tối đa Ngoài ra việc tính toán độ tượng phản của từng pixel đem lại là rất tốt do xử lý kỹ càng độ nổi bật đến từng pixel trong ảnh, nhưng cái giá là phải chi phí thời gian rất
lớn do độ phức tạp của phương pháp là O(n 2) Mỗi pixel sẽ so sánh với tất cả pixel khác nên chi phí bỏ ra ở những điểm như bộ nhớ, tốc độ là rất lớn
Tác giả Zhai đề xuất công thức tính toán giá trị nổi bật của một pixel như sau :
D(m, n) là khoảng cách màu giữa màu m và màu n (không gian màu Lab)
SalS(I k ) là giá trị nổi bật của pixel I k trong ảnh
SalS(a m ) là giá trị nổi bật của màu a m trong ảnh
f n là tần số của pixel có màu a n trong ảnh
(a) Ảnh đầu vào (b) Giá trị nổi bật của từng màu (c) Bản đồ nổi bật
Hình 2 8 Bản đồ nổi bật của Zhai [12]
Trang 30Khi tính toán giá trị nổi bật cho từng pixel cho kết quả rất sát với từng pixel được tính, vì vậy bản đồ nổi bật cho cảm quan sinh động, rõ ràng Nhưng cũng vì tính cẩn thận từng pixel nên bản đồ nổi bật tiêu tốn thời gian cũng như số phép tính rất lớn Hình trên minh họa phương pháp của Zhai, đầu tiên tìm giá trị nổi bật cho từng pixel sau đó thế giá trị đó vào vị trí tương ứng trên bản đồ nổi bật ( thể hiện dưới dạng ảnh xám )
Achanta [5] sử dụng ý tưởng tần suất của màu, cụ thể là giá trị nổi bật của một màu sẽ được tính bằng khoảng cách của màu đó so với các màu khác kết hợp với tần số của màu đó Phương pháp này xác định độ nổi bật nhanh hơn và tính toán độ nổi bật tốt tương đương với việc tính từng pixel Nếu phương pháp này cải tiến thêm để giải quyết ảnh tự nhiên trong trường hộp đa dạng màu sắc sẽ có thêm nhiều kết quả khả quan hơn nữa
Phương pháp của Achanta đòi hỏi phải có một số yêu cầu sau để tính toán và xác định chính xác vùng của đối tượng:
Tập trung vào những đối tượng nổi bật nhất
Tính nhất quán của khu vực nổi bật
Ranh giới giữa đối tượng nổi bật và nền phải rõ ràng
Không có nhiễu tần số cao xuất phát từ tiếng ồn, bối cảnh và vật cản
Bản đồ nổi bật ở đầu ra phải có độ phân giải toàn phần và hiệu quả
Trong bài báo [5] Achanta giới thiệu công thức tính bản đồ nổi bật cho một ảnh
I có độ rộng W và chiều cao H như sau :
kể từ khi thuật toán chú trọng hơn đến mức độ quan trọng do sự khác biệt đem lại Điều này đem lại hiệu quả khá đáng kể khi tính toán trên ảnh, đặc biệt là thỏa mãn
Trang 31tiêu chí thứ tư (loại bỏ nhiễu, vật cản) Phương pháp này xử lý ảnh gốc mà không cần lấy mẫu con nhưng vẫn tính được bản đồ nổi bật đầy đủ
(a) Ảnh đầu vào, (b) Bản đồ nổi bật, (c) Ảnh đã phân vùng (d) Độ nổi bật trung bình giữa các vùng, (e) Mặt nạ nhị phân , (f) Đối tượng nổi bật
Hình 2 9 Phương pháp tính bản đồ nổi bật của Achanta
Ảnh đầu vào (a) sẽ dùng để tính hai phần : bản đồ nổi bật (b) và phân vùng ảnh (c) Từ hai ảnh này ta sẽ tính toán độ nổi bật của từng vùng đối với những vùng còn lại để có (d) Thuật toán sẽ nhị phân hóa bản đồ nổi bật của từng vùng và tạo ra mặt
nạ nhị phân (e) Kết hợp mặt nạ nhị phân này với ảnh đầu sẽ có ảnh đối tượng (f) Cheng [13] sử dụng ý tưởng mới, kết hợp 2 ý tưởng trên và dùng thêm thông tin không gian của các phần trong ảnh để tính toán, xác định giá trị nổi bật Kết quả đạt được tốt cả phương diện thời gian và bản đồ nổi bật nhưng tốn thời gian hơn trước
Trang 32Áp dụng phương pháp tính độ nổi bật giữa các vùng với nhau trên HC-map nhằm xác định RC-map (c), áp dụng thêm phương pháp tìm chỗ phân đoạn trên (c) sẽ thu dược RCC-map (d)
Trang 33(a) (b)
(a) Bản đồ nổi bật, (b) Bản đồ nổi bật sau khi làm mượt không gian màu (HC-map)
Hình 2 2 Kết quả bước làm mượt không gian màu, Cheng [13]
Sau khi có bản đồ nổi bật, Cheng đề xuất nên phát triển thêm một bước nữa nhằm tối ưu hóa Tại bước này, màu sắc sẽ được sắp xếp theo tần số và giá trị nổi bật, với một cửa sổ trượt sẽ hiệu chỉnh giá trị nổi bật của từng màu dựa trên độ nổi
(14)
( )
Công thức (13) dùng để tạo ra bản đồ nổi bật từ ảnh ban đầu, trong đó :
S(I k ) là giá trị nổi bật của pixel I k trong ảnh Lab
S(c l ) là giá trị nổi bật của màu c l trong ảnh Lab
D(c l , c j ) là khoảng cách hai màu c l , c j trong không gian màu Lab
f i là tần số của màu thứ i khi tính khoảng cách màu
c l , c j là màu c l và màu c j trong ảnh Lab
Công thức (14) áp dụng để tính độ nổi bật từng vùng đối với nhau, các chú thích tương tự công thức (13) Cuối cùng là công thức (15) dùng để ước lượng điểm giá trị cần cắt (giá trị phân đoạn nhị phân) trong bản đồ nổi bật tính theo khu vực thành bản đồ nhị phân nhằm tách đối tượng nổi bật Trong đó :
- là hệ số phụ ( = 0.3)
- Precision là ước lượng mong muốn
- Recall là tỉ lệ thu hồi
Trang 34- F là hàm so sánh giữa hai phương pháp cho trước
Hàm F dùng để so sánh hiệu quả tạo ra bản đồ nhị phân giữa hai phương pháp cho trước bằng cách chia hai kết quả này cho nhau
Koch [14] đã đề xuất những phương pháp tính toán độ nổi bật cục bộ dựa trên phân tích tính chất của một vùng và các vùng quanh nó Itti [6] đo lường giá trị nổi bật trong ảnh bằng cách ước lượng những sự khác biệt của những vùng gần trung tâm Liu [15] tính toán độ nổi bật đa co giãn và dùng nổi bật kết hợp tuyến tính trong kim tự tháp ảnh Gaussian Goferman [16] tạo một mô hình sử dụng sự nổi bật cục bộ, các luật trực quan và những tính năng riêng để phát hiện một đối tượng nổi bật với bối cảnh của nó
Ma và Zhang [17] xác định sự nổi bật cục bộ bằng cách sử dụng mô hình phát triển mờ Ko và Nam [18] sử dụng kỹ thuật SVM (support vector machine) để xác định vùng nổi bật trong một ảnh đã phân vùng sẵn Harel [19] chuẩn hóa bản đồ tính chất thành các phần được đánh dấu và kết hợp chúng với những bản đồ khác Những phương pháp dựa trên nổi bật cục bộ cho ra giá trị nổi bật tốt hơn cho mỗi vùng nhưng không tốt khi xác định đối tượng nổi bật Rahtu [7] kết hợp giữa đo lường nổi bật với CRF (conditional random field) để tạo ra bản đồ nổi bật Walther [8] dựa trên mô hình sinh học và APO (attend to proto-object) nhằm tạo ra bản đồ nổi bật Achanta [9] dựa trên màu và độ sáng để đo lường giá trị nổi bật của mỗi vùng, đó là phương pháp CLM (Colors and Luminance to Measure saliency value) Murray [10] dùng mô hình màu và cơ chế vùng không gian với mong muốn tạo
ra bản đồ nổi bật, phương pháp SPM (spatial pooling mechanism) Tie [11] dùng ý tưởng phân bổ màu theo không gian, sự tương phản đa co giãn và kỹ thuật CSD (center surround histogram) nhằm tính toán bản đồ nổi bật
Trong luận văn này, đề tài sẽ sử dụng kỹ thuật thu giảm không gian màu để tăng tốc tính toán và nâng cao kết quả bản đồ nổi bật, kỹ thuật bản đồ nổi bật cải tiến sử dụng thêm kỹ thuật làm mượt không gian màu, kỹ thuật phân ngưỡng và tạo mặt nạ,
ý tưởng đạo hàm trên khoảng cách màu và cuối cùng là kỹ thuật lọc trung vị
Trang 35CHƯƠNG 3 TĂNG CƯỜNG CHẤT LƯỢNG ĐƯỜNG BIÊN ĐỐI TƯỢNG
TRONG ẢNH
3.1 Phương pháp đề xuất
Trước tiên, nghiên cứu phải xác định được không gian màu nào được dùng và tại sao phải dùng không gian màu đó khi tính toán mà không sử dụng chính không gian màu RGB ban đầu Nguyên nhân là vì mỗi không gian màu đều có ưu, nhược điểm riêng và nó phù hợp với từng bài toán cụ thể Không gian màu RGB trong trường hợp này không thể hiện được tính chất độ sáng của màu, trong khi đó không gian màu Lab lại có cả hai tính chất cần thiết để giải bài toán độ nổi bật, đó là thông tin về độ sáng và màu sắc
Đối tượng trong ảnh có màu sắc rất đa dạng và khác nhau, ta sẽ sử dụng lý thuyết về bản đồ nổi bật Đây là một lý thuyết mới nhưng rất hiệu quả khi tìm kiếm, xác định đối tượng trong ảnh Lý thuyết này đề cập đến việc gán mỗi màu một giá trị nổi bật đề từ đó khoanh vùng và rút trích đối tượng dễ dàng, chỉ cần màu đối tượng có độ nổi bật cao so với xung quanh
Quá trình tính toán bản đồ nổi bật trước đây còn chậm, chính vì thế lý thuyết về thu giảm không gian màu được tạo ra nhằm tính toán giá trị nổi bật của pixel nhanh hơn Ngày nay, giá trị nổi bật của mỗi pixel sẽ được tính theo màu và tần số của màu đó trong ảnh Nhờ đó mà quá trình tính toán được cải thiện rất đáng kể
Lý thuyết về phân ngưỡng và tạo dựng bản đồ nhị phân để xác định vùng của đối tượng và đường biên là một lý thuyết rất đáng quan tâm vì nó giải quyết được vấn đề chọn ngưỡng và xác định vùng của đối tượng
Trong toán học đại số, có phép toán rất hay đó là đạo hàm dùng khi tìm cực trị của hàm số Nó có khả năng giải quyết được bài toán khắc phục phân ngưỡng màu
tự động chính xác hơn trước
Từ những lý thuyết đã nói ở trên, tôi đã nghiên cứu đưa ra phương pháp đề xuất
và sẽ nói chi tiết về từng lý thuyết cũng như cách áp dụng nhằm đạt mục đích tăng cường chất lượng đường biên đối tượng
Trang 36Hình 3 1 Sơ đồ các bước trong phương pháp đề xuất
Bước 1: Ảnh đầu vào sẽ được chuyển sang không gian màu LAB
Bước 2: Thực hiện thu giảm không gian màu trong ảnh, mỗi chiều còn
khoảng 12 màu trong không gian màu LAB
Bước 3: Từ ảnh đã thu giảm màu, máy tính sẽ xử lý để tạo ra bản đồ nổi bật
(saliency map) dựa vào giá trị nổi bật giữa các vùng màu với nhau và độ lớn của vùng màu đó so với các vùng màu khác
Bước 4: Hiệu chỉnh bản đồ nổi bật để có kết quả tốt hơn dựa trên sự đồng
hóa các vùng màu giá trị nổi bật tương đương nhau
Bước 5: Bản đồ nổi bật đã hiệu chỉnh được dùng tạo ra mặt nạ cho lần tách
đối tượng đầu tiên
Bước 6: Loại bỏ những màu thuộc về màu nền
a Đối tượng sau khi tách ra bằng mặt nạ sẽ sử dụng thuật toán HC-map
để loại bỏ thêm những pixel màu gần giống với màu nền
b Chọn ra 2 màu chủ đạo, ngược nhau trong ảnh để loại bỏ những màu gần với hai màu này
Trang 37 Bước 7: Sử dụng thuật toán lọc để tăng cường chất lượng đối tượng sau khi
rút trích khỏi ảnh ban đầu
3.2 Mô tả chi tiết từng bước của phương pháp đề xuất
Ảnh đầu vào sẽ được chuyển từ không gian màu RGB sang không gian màu Lab để tính toán Không gian màu L*a*b được chọn vì có trục độ sáng và hai trục màu thực Ở đây ta cần sử dụng thông tin độ sáng và màu sắc để tính độ nổi bật của các màu đối với nhau
Nếu ta dùng không gian màu RGB thì khó tính toán độ nổi bật do không có thông tin độ sáng, cả 3 trục đều là màu Còn dùng không gian màu HSI thì lại dư thông tin độ bão hòa màu, nó làm cho thuật toán trở nên khó xác định độ nổi bật
3.2.1 Thu giảm không gian màu
Trong một ảnh thường có khoảng n = 2563
màu gây ra việc xử lý không hiệu quả do có những màu gần giá trị với nhau nhưng vẫn được coi là hai màu khác biệt Trong ảnh, tổng số màu thường thường lớn hơn nhiều lần tổng số pixel dẫn đến việc tính toán ra bản đồ nổi bật rất chậm do mọi công thức tính toán bản đồ nổi bật đều phải dùng đến hai đại lượng là tổng số pixel trong ảnh và tổng số màu trong ảnh Một bức ảnh nhỏ với kích thước (500x400) đã có 20.000 pixel ảnh, nếu nhân với số màu n = 2563
màu sẽ ra con số rất lớn, khiến quá trình xử lý của những phương pháp trước đây tốn rất nhiều thời gian
Từ đó xuất hiện nhu cầu làm sao để xử lý ít hơn nhưng kết quả đạt được tốt hơn Nhà khoa học đầu tiên đưa ra ý tưởng thu giảm không gian màu là Zhai [12] ông chỉ thu giảm chiều độ sáng của ảnh trong khi bỏ qua thông tin về độ sai biệt màu Cheng [13] thu giảm toàn bộ không gian màu vì việc này làm hiệu quả tính toán tăng lên rất nhiều (giảm chi phí thời gian tính toán) trong khi vẫn giữ được chất lượng ảnh Quá trình này gồm hai bước :
Bước 1: Thu giảm theo từng chiều trong không gian màu Mỗi chiều trong
không gian màu sẽ được chia từ 255 giá trị màu ban đầu thành 12 giá trị màu khác nhau, dẫn đến không gian màu từ 2563
màu trở thành 123 màu khác biệt Tổng số màu đã giảm đi rất nhiều nên việc tính toán cũng hiệu quả hơn hẳn
Trang 38 Bước 2: Thu giảm theo tần số xuất hiện của mỗi màu Ý tưởng chính của
việc làm này là giữ lại những màu hay gặp và loại bỏ những màu hiếm khi xuất hiện Những màu hiếm khi xuất hiện thường là màu của các pixel nhiễu trong khi những màu hay xuất hiện lại là những màu chính của ảnh
Vì vậy, việc loại bỏ những màu này không những làm tăng tốc độ tính toán
mà còn tăng cường chất lượng bản đồ nổi bật ở bước sau nhưng vẫn giữ được những đặc trưng quan trọng của ảnh
Theo Cheng [13] đề xuất nên giữ lại những màu có tần số xuất hiện cao nhất và tổng tần số lớn hơn 95% Những màu có tổng tần số thấp nhất và dưới 5% sẽ được thay thế bằng những màu gần nhất với nó dựa trên khoảng cách Euclid trong không gian màu Thực nghiệm cho thấy, số màu còn lại thường nằm trong khoảng 92 màu, con số này khá nhỏ so với 123
màu Đây là bước rất quan trọng để tăng cường tốc
độ tính toán của phương pháp đề xuất
(a) Ảnh gốc (b) Ảnh sau khi thu giảm không gian màu (c) Tần số của những màu trong ảnh sau khi thu giảm không gian màu
Hình 3 2 Thu giảm không gian màu
Trong hình minh họa trên, ảnh gốc (a) sẽ được thu giảm số lượng màu ở cả 3 chiều màu Trước kia mỗi chiều có 256 giá trị màu, thì giờ đây mỗi chiều còn 12
Trang 39màu mà thôi Đầu tiên ta tìm giá trị lớn nhất, nhỏ nhất trên mỗi chiều màu để xác định khoảng chia màu, sau đó chia khoảng trên thành 12 khoảng nhỏ, cuối cùng ảnh
xạ 12 khoảng giá trị này thành 12 màu đại diện cho mỗi khoảng tương ứng (thông thường, ảnh còn dưới 1000 màu sau bước thu giảm không gian màu)
Bước tiếp theo ta sẽ tìm tần số của tất cả màu còn lại trong ảnh nhằm loại bỏ những màu có quá ít pixel Ta giữ lại những màu có tần số cao và có tổng tần số là 95%, những màu có tần số thấp sẽ bị thay thế bằng những màu giữ lại và gần nó nhất tính theo khoảng cách Euclid (trong không gian màu Lab) Cuối cùng ta thu được ảnh đã thu giảm màu (b), nhìn vào hình ảnh này đã xuất hiện những vùng màu giống nhau mà trước đó không có, vì cả hai bước thu giảm màu này đều gom nhóm những màu gần giống thành một nhóm rồi lấy một màu ra làm đại diện
Hình (c) thể hiện tần số những màu còn lại trong ảnh đã thu giảm, những màu đầu tiên có tần số rất cao, chiếm phần lớn tần số trong ảnh vì trong ảnh này, màu nền gần giống nhau, nên khi gom nhóm những màu nền này sẽ trở thành một hay vài màu có tần số cao nhất và chiếm ưu thế
3.2.2 Tạo bản đồ nổi bật
Phương pháp đề xuất sử dụng bản đồ nổi bật dựa trên độ tương phản màu để xác định giá trị nổi bật cho từng màu trong ảnh Điều này có được từ sự quan sát của con người đối với xung quanh Chúng ta dành nhiều thời gian, sự chú ý hơn cho những vùng có màu nổi bật hơn, tương phản hơn so với những vùng màu khác và
độ lớn của vùng đó trong ảnh Nguyên nhân vì suy nghĩ của chúng ta kế thừa từ tự nhiên, đó là suy nghĩ chủ quan, có chọn lọc Nó giúp con người tập trung hơn đến những thứ quan trọng nhằm mục đích đưa ra giải pháp nhanh nhất và hiệu quả nhất nhưng không cần sử dụng hết thông tin đã biết để ra quyết định
Tương tự như vậy, khi nhìn vào một tấm ảnh ta chú ý ngay đến những vùng có màu tương phản cao so với xung quanh và độ lớn của vùng trong ảnh Giá trị nổi bật của từng vùng màu được xác định dựa trên thống kê hai yếu tố:
Số pixel của mỗi màu trong tập hợp màu được lấy từ ảnh đầu vào (số phần
tử của mỗi loại)
Độ tương phản giữa các màu với nhau
Từ những yếu tố trên và theo Cheng [1] thì giá trị nổi bật của một màu so với những màu khác được tính theo công thức :
Trang 40( ) ∑ ( )
(16)
Trong đó :
c l là giá trị của màu thứ l trong ảnh
S(c l ) là tổng giá trị nổi bật của màu c l so với những màu khác
n là tổng số màu khác biệt trong ảnh
f j là tần số của màu thứ j trong ảnh
D(c l , c j ) là khoảng cách Euclid giữa hai màu c l và màu c j trong không gian màu LAB
Bản đồ nổi bật được tạo ra từ giá trị nổi bật của từng màu Khi tính giá trị nổi bật của các màu xong, ta co giãn toàn bộ giá trị nổi bật về khoảng 0-255 để thể hiện dưới dạng ảnh xám Bản đồ nổi bật vẫn cần nâng cao chất lượng nhằm dễ dàng xác định đối tượng hơn vì những màu tương tự nhau có giá trị nổi bật gần nhau Vì vậy,
ta cần phải giảm nhiễu trong ảnh do nguyên nhân trên Cheng [1] đề xuất sử dụng
kỹ thuật làm mượt không gian màu để hiệu chỉnh giá trị nổi bật của những màu gần nhau nhưng có giá trị nổi bật khác nhau
3.2.3 Làm mượt không gian màu
Phương pháp này sử dụng ý tưởng trọng số làm mượt tuyến tính Từ trọng số này ta sẽ liên tục thay đổi giá trị những màu láng giềng trong khoảng của trọng số với mục đích hiệu chỉnh giá trị những màu láng giềng Chúng ta sẽ đo lường trung bình trọng số của giá trị nổi bật từ những màu láng giềng Mục đích của bước làm này là đồng hóa giá trị nổi bật của những màu gần nhau, tránh việc những màu gần nhau có giá trị nổi bật khác nhau quá nhiều Sau bước này, bản đồ nổi bật trở nên rất mượt vì độ nổi bật của những màu hàng xóm trở nên sát với nhau hơn Đồng thời, công việc làm này cũng gom nhóm màu sắc trong ảnh dựa trên giá trị nổi bật Giá trị nổi bật hiệu chỉnh sẽ dùng công thức mà Cheng [1] đề xuất :