Nhãn hiệu đã trở thành một đối tượng có giá trị và là một tài sản vô hình quan trọng của nhà sản xuất giúp làm tăng sức cạnh tranh của hàng hóa mang nhãn hiệu Vì vậy nhận dạng nhãn hiệu là bài toán nhận được rất nhiều sự quan tâm Ứng dụng kỹ thuật nhận dạng và xử lý ảnh trong bài toán nhận dạng đã được ứng dụng khá thành công khẳng định vai trò thực tiễn của công nghệ thông tin tự động hóa ứng dụng trong cuộc sống những năm gần đây phương pháp sử dụng bộ phân loại máy hỗ trợ vector Support Vector Machine SVM được quan tâm và áp dụng nhiều trong lĩnh vực nhận dạng Luận văn này nghiên cứu ứng dụng kĩ thuật Support Vector Machine để nhận dạng mẫu và phân biệt nhãn hiệu rượu bị làm giả thông qua ảnh chụp sử dụng phương pháp phân lớp SVM Kết quả thực nghiệm với độ chính xác phân loại trên 90 cho thấy sự thành công của việc áp dụng phương pháp SVM vào phân biệt nhãn hiệu rượu giả – thật đồng thời cho thấy khả năng xây dựng những ứng dụng thực tiễn có hiệu quả từ cách tiếp cận này
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -
NGUYỄN THỊ UYÊN PHƯƠNG
NHẬN DẠNG NHÃN HIỆU ĐỂ PHÂN BIỆT RƯỢU THẬT VÀ RƯỢU GIẢ TRÊN THỊ TRƯỜNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Đà Nẵng – Năm 2018
Trang 2ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA -
NGUYỄN THỊ UYÊN PHƯƠNG
NHẬN DẠNG NHÃN HIỆU ĐỂ PHÂN BIỆT RƯỢU THẬT VÀ RƯỢU GIẢ TRÊN THỊ TRƯỜNG
Chuyên ngành:KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
1 TS Huỳnh Hữu Hưng
Đà Nẵng - 2018
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn này là kết quả nghiên cứu của bản thân dưới sự
hướng dẫn của TS Huỳnh Hữu Hưng
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai côngbố trong bất kỳ công trình nào khác
Tác giả
Nguyễn Thị Uyên Phương
Trang 4MỤC LỤC
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2.Mục tiêu và nhiệm vụ nghiên cứu 1
3.Đối tượng và phạm vi nghiên cứu 1
4.Phương pháp nghiên cứu 2
5.Ý nghĩa khoa học và thực tiễn của luận văn 2
CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG VÀ XỬ LÝ ẢNH 3
1.1 Các bước cơ bản trong xử lý ảnh số 3
1.1.1 Thu nhận ảnh 3
1.1.2 Tiền xử lý 3
1.1.3 Phân đoạn hay phân vùng ảnh 3
1.1.4 Biểu diễn ảnh 3
1.1.5 Nhận dạng và nội suy ảnh 4
1.2 Một số vấn đề cơ bản trong xử lý ảnh số 4
1.2.1 Điểm ảnh 4
1.2.2 Mức xám của ảnh 4
1.2.3 Ảnh đen trắng 4
1.2.4 Ảnh nhị phân 5
1.2.5 Ảnh màu 5
1.3 Cải thiện ảnh sử dụng toán tử điểm 6
1.3.1 Tăng giảm độ sáng 6
1.3.2 Tăng độ tương phản 6
1.3.3 Tách nhiễu và lấy ngưỡng 7
1.3.4 Biến đổi âm bản 7
1.3.5 Biến đổi ảnh đen trắng 8
1.3.6 Lược đồ xám (Histogram) 8
1.3.7 Kỹ thuật cải thiện ảnh nhị phân 10
1.4 Trích rút đặt trưng ảnh 11
1.4.1 Đặc trưng màu sắc 12
1.4.2 Đặc trưng kết cấu 13
1.4.3 Đặc trưng hình dáng 15
1.5 Phương pháp nhận dạng 16
1.5.1 Khái niệm nhận dạng 16
1.5.2 Máy vector hỗ trợ (SVM) 16
1.5.3 K-láng giềng gần nhất (k-Nearest Neighbors) 16
1.5.4 Mô hình Markov ẩn (Hidden Markov Models) 17
Trang 51.5.5 Mạng nơ-ron nhân tạo 17
1.6 Đánh giá ưu điểm của thuật toán SVM 17
1.7 KẾT CHƯƠNG 18
CHƯƠNG 2 PHƯƠNG PHÁP đẶC TRƯNG VÀ NHẬN DẠNG 19
2.1 Các công trình nghiên 19
2.2 Trích xuất đặc trưng ảnh 20
2.2.1Sử dụng đặc trưng màu sắc 20
2.2.2 Sử dụng đặc trưng kết cấu 21
2.2.3 Sử dụng đặc trưng Gist và Gist descriptor 23
2.3 Một số phương pháp phân lớp và nhận dạng 23
2.3.1 Phương pháp nhận dạng và dịch bản chỉ dẫn 23
2.3.2Phương pháp phân lớp ảnh chụp lá cây ứng dụng máy Vector hỗ trợ 26
2.3.3Thuật toán Watershed và đối sánh mẫu để phát hiện bệnh thối trên xoài 30
2.4 KẾT CHƯƠNG 34
CHƯƠNG 3 ỨNG DỤNGMÁY VECTƠ HỖ TRỢ TRONGnhẬN DẠNG NHÃN HIỆU RƯỢU VODKA 35
3.1 Phương pháp phân lớp dữ liệu máy vector hỗ trợ SVM 35
3.1.1 Giới thiệu 35
3.1.2 Ý tưởng của phương pháp 35
3.1.3 Các bước chính của phương pháp 36
3.1.4 Cơ sở lý thuyết 36
3.2 Nhận dạng nhãn hiệu rượu Vodkavới máy vetor hỗ trợ (SVM) 39
3.2.1 Mô tả bài toán 40
3.2.2 Mô hình giải quyết bài toán 40
3.3 Tiền xử lý 41
3.3.1Tăng/giảm độ tương phản của ảnh 41
3.3.2Thực hiện phép co/giãn ảnh 41
3.3.3 Chuyển và tách ảnh màu RGB sang các kênh H-S-V 42
3.4 Trích chọn đặc trưng 43
3.4.1 Đặc trưng màu sắc 43
3.4.2 Đặc trưng kết cấu 44
3.5 Thực nghiệm 48
3.5.1 Tập mẫu rượu Vodka thật 48
3.5.2 Tập mẫu rượu Vodka giả 48
3.5.3 Xử lý 49
3.5.4Huấn luyện và nhận dạng nhãn hiệu ứng dụng máy vetor hỗ trợ SVM 50
3.6 Một số kết quả nhận dạng 52
3.6.1Rượu Vodka thật 52
3.6.2 Rượu Vodka giả 53
Trang 63.7 KẾT CHƯƠNG 53
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54 DANH MỤC TÀI LIỆU THAM KHẢO 55 QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)
Trang 7NHẬN DẠNG NHÃN HIỆU ĐỂ PHÂN BIỆT RƯỢU THẬT VÀ RƯỢU GIẢ TRÊN THỊ TRƯỜNG
Học viên: Nguyễn Thị Uyên Phương; Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01; Khóa: 2016-2018 Trường Đại học Bách khoa - ĐHĐN
Tóm tắt – Nhãn hiệu đã trở thành một đối tượng có giá trị và là một tài sản vô hình
quan trọng của nhà sản xuất, giúp làm tăng sức cạnh tranh của hàng hóa mang nhãn hiệu Vì vậy nhận dạng nhãn hiệu là bài toán nhận được rất nhiều sự quan tâm Ứng dụng kỹ thuật nhận dạng và xử lý ảnh trong bài toán nhận dạng đã được ứng dụng khá thành công, khẳng định vai trò thực tiễn của công nghệ thông tin, tự động hóa ứng dụng trong cuộc sống, những năm gần đây, phương pháp sử dụng bộ phân loại máy hỗ trợ vector (Support Vector Machine
- SVM) được quan tâm và áp dụng nhiều trong lĩnh vực nhận dạng Luận văn này nghiên cứu ứng dụng kĩ thuật Support Vector Machine để nhận dạng mẫu và phân biệt nhãn hiệu rượu bị làm giả thông qua ảnh chụp sử dụng phương pháp phân lớp SVM Kết quả thực nghiệm với
độ chính xác phân loại trên 90% cho thấy sự thành công của việc áp dụng phương pháp SVM vào phân biệt nhãn hiệu rượu giả – thật, đồng thời cho thấy khả năng xây dựng những ứng dụng thực tiễn có hiệu quả từ cách tiếp cận này
Từ khóa – Nhận dạng nhãn hiệu rượu, máy vectơ hỗ trợ, nhận dạng mẫu
Abstract – The brand has become a valuable asset and an important intangible asset of
the manufacturer, helping to increase the competitiveness of branded goods So brand identity
is a problem that gets a lot of attention The application of image recognition and processing techniques in the identification problem has been applied successfully The system has brought these utilities, as well as emphasizing the practical role of information technology, the application of automation in life In recent years, the use of Support Vector Machine (SVM) has been taken into serious consideration and extensively applied in the field of identification This thesis studies the application of Support Vector Machine technique to identify patterns and distinguish fake branded labels specimens through photos using SVM classification method Experimental results with the accuracy of over 95% indicate the success of applying the SVM method to to the differentiation of fake wine labels, and demonstrates the potential for developing effective practical applications from this approach
Key words 1- Alcohol brand identification, Support Vector Machine, Specimen
identification
Trang 8DANH MỤC CÁC CHỮ VIẾT TẮT
ANN Artificial Neural Networks Mạng nơron
GLCM Gray-Level Co-occurrence Matrices Ma trận đồng hiện mức xám HMM Hidden Markov Models Mô hình Markov ẩn
HSV Hue, Saturation, Value Vùng màu, Độ bão hòa màu, Độ
sáng KNN K-Nearest Neighbors algorithm K -láng giềng gần nhất
MLP MultiLayer Perceptron Mạng Perceptron nhiều tầng
PE Processing Element Phần tử xử lý
P-M McCulloch and Pitts McCulloch và Pitts
QP Quadratic Programing Quy hoạch toàn phương
RGB Red, Green,Blue Màu đỏ, xanh lục, xanh lơ
SDM Size-dependent measurements Đo lường phụ thuộc vào kích
thước SIM Size-independent measurements Đo lường không phụ thuộc vào
kích thước SOM Self – Organizing Map Kiểu học không có giám sát trong
mạng nơron SVM Support Vector Machine Máy vectơ hỗ trợ
Trang 9Hình 1.12 Biểu đồ lược đồ xám (Histogram) của ảnh 9
Hình 2.1 Minh họa hiệu suất của bộ mô tả dựa trên kết cấu 23
Hình 2.4 Minh họa một số mẫu bảng chỉ dẫn tự tạo 24
Trang 10Hình 2.13 Cấu trúc hệ thống đề xuất 31
Hình 2.15 Các hình ảnh của xoài trong bộ DB_MANGO 32
Hình 2.18 Phát hiện trái xoài bình thường và xoài bệnh 33 Hình 3 1 Siêu phân hoạch tập mẫu từ không gian Rn sang không gian Rd 35 Hình 3 2 Siêu phẳng phân chia dữ liệu với khoảng cách biên lớn nhất 36
Hình 3.4 Minh họa bài toán phân hai lớp với SVM 37 Hình 3.5 Bài toán SVM mẫu trong trường hợp không phân tách tuyến tính 37 Hình 3.6 Hàm nhận dạng của SVM 2-vs-rest có giá trị bé nhất, nên mẫu
cần nhận dạng là lớp thứ 2
38
Hình 3.9 Mô hình nhận dạng ảnh nhãn hiệu rượu Vodka 40
Hình 3.17 Giao diện huấn luyện và nhận dạng ảnh 51
Trang 11Bảng 3.4 Các tham số đặc trưng được trích xuất từ tập ảnh huấn luyện 50
Bảng 3.6 Kết quả thực nghiệm phân lớp bằng máy học SVM 52
Trang 12MỞ ĐẦU
1 Lý do chọn đề tài
Nhận dạng là lĩnh vực được các nhà khoa học rất quan tâm để giải quyết các yêu cầu trong cuộc sống hiện nay, có nhiều lĩnh vực nhận dạng như nhận dạng tiếng nói, nhận dạng cử chỉ hay nhận dạng hình ảnh Nhận dạng nhãn hiệu hàng hoá nói chung
và nhận dạng nhãn hiệu của sản phẩm rượu nói riêng là một vấn đề thách thức đối với những nhà nghiên cứu
Hiện nay, ở Việt Nam số lượng các mặt hàng tiêu dùng bị làm giả, làm nhái nhãn hiệu đang được bày bán tràn lan trên thị trường, hàng giả không chỉ làm ảnh hưởng đến quyền lợi người tiêu dùng, mà còn ảnh hưởng đến hình ảnh, thương hiệu và thiệt hại về kinh tế của nhà sản xuất Công tác quản lý thị trường hàng hoá còn nhiều bất cập, rất khó kiểm soát nạn hàng giả, hàng nhái trên thị trường Để nhận biết được một sản phẩm là hàng thật hay hàng giả, hàng nhái hết sức khó khăn cho người tiêu dùng
và các cơ quan chức năng quản lý Rượu là một trong những sản phẩm hàng hoá bị làm giả rất tinh vi, rượu giả đa phần được pha chế bằng những nguyên liệu kém chất lượng và có tác hại nghiêm trọng đến sức khoẻ người dùng, được làm giả mạo nhãn hiệu rượu đã được đăng ký bảo hộ nhãn hiệu Với mong muốn nghiên cứu các ứng dụng nhận dạng và xử lý ảnh để nhận biết sản phẩm rượu bị làm giả, làm nhái nhãn hiệu thật, phục vụ tốt cho công tác quản lý, kiểm tra, kiểm soát thị trường
Với những lí do trên, tôi đề xuất chọn đề tài: “Nhận dạng nhãn hiệu để phân biệt rượu thật và rượu giả trên thị trường”
2 Mục tiêu và nhiệm vụ nghiên cứu
2.1 Mục tiêu nghiên cứu
Mục tiêu chính của đề tài này là nghiên cứu học máy nhận dạng nhãn hiệu để phân biệt sản phẩm hàng hoá thật hay giả và sử dụng các giải thuật nhận dạng để xây dựng chương trình nhận dạng hình ảnh nhãn hiệu sản phẩm phục vụ cho việc quản lý sản phẩm rượu trên thị trường
2.2 Nhiệm vụ nghiên cứu
Đề tài sẽ thực hiện nghiên cứu các vấn đề sau:
- Nghiên cứu các kỹ thuật xử lý ảnh, nhận dạng hình ảnh để phục vụ cho đề tài;
- Tìm hiểu các mô hình học máy, các phương pháp xử lý ảnh;
- Tìm hiểu và thu thập hình ảnh nhãn hiệu rượu Vodka trên thị trường;
- Xây dựng chương trình demo để kiểm tra tính hiệu quả;
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
Đề tài nghiên cứu chủ yếu tập trung vào các đối tượng:
- Nhãn hiệu đúng và sai các sản phẩm rượu Vodka;
- Cơ sở lý thuyết về nhận dạng hình ảnh;
Trang 13- Các mô hình trong học máy;
- Các kỹ thuật xử lý ảnh để phục vụ nhận dạng nhãn hiệu sản phẩm rượu Vodka
thật và giả
3.2 Phạm vi nghiên cứu
- Nghiên cứu kỹ thuật xử lý tách đối tượng trong ảnh;
- Nghiên cứu các bước xử lý và xây dựng tập dữ liệu huấn luyện (training set),
tập dữ liệu tham chiếu (reference set), tập dữ liệu để nhận dạng (probe set);
- Nghiên cứu các phương pháp phân lớp, nhận dạng hình ảnh
4 Phương pháp nghiên cứu
4.1 Phương pháp nghiên cứu lý thuyết
Nghiên cứu lý thuyết tập trung vào các vấn đề gồm:
- Thu thập, phân tích các tài liệu và thông tin liên quan đến đề tài;
- Các tài liệu về cơ sở lý thuyết: Xử lý ảnh, lọc trích đặc trưng ảnh, xác định biên,
nghiên cứu các kỹ thuật nhận dạng mẫu
4.2 Phương pháp nghiên cứu thực nghiệm
Nghiên cứu thực nghiệm tập trung vào các nội dung sau:
- Thực nghiệm trên dữ liệu đầu vào là các ảnh sản phẩm rượu;
- Cài đặt chương trình, thực hiện chương trình với một số mẫu nhãn hiệu rượu và
5.2 Ý nghĩa thực tiễn
Góp phần hỗ trợ cho việc nhận dạng hình ảnh nhãn hiệu rượu bằng xử lý ảnh một cách hiệu quả, ứng dụng hỗ trợ tích cực trong công tác quản lý thị trường
Trang 14CHƯƠNG1 TỔNG QUAN VỀ NHẬN DẠNG VÀ XỬ LÝ ẢNH
1.1 Các bước cơ bản trong xử lý ảnh số
Các bước chính của quá trình xử lý ảnh số được mô tả trong hình sau:
1.1.2 Tiền xử lý
Sau bộ thu nhận, ảnh có thể nhiễu, độ tương phản thấp nên cần đưa vào bộ tiền
xử lý để nâng cao chất lượng ảnh
Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng độ tương phản, hiệu chỉnh mức xám,để làm ảnh rõ hơn, nét hơn và tạo điều kiện thuận lợi cho các xử lý tiếp theo
1.1.3 Phân đoạn hay phân vùng ảnh
Phân đoạn ảnh là tách một ảnh đầu vào thành các vùng thành phần để biểu diễn, phân tích, nhận dạng Đây cũng là một trong những vấn đề khó giải quyết nhất trong lĩnh vực xử lý ảnh
Các thuật toán phân đoạn ảnh đều dựa trên tính không liên tục hoặc tính tương tự của các giá trị mức xám của ảnh Tính không liên tục của các giá trị mức xám trong ảnh cho chúng ta thấy có sự thay đổi đột ngột về cường độ sáng trong ảnh
Phân đoạn ảnh có thể thực hiện bởi ba kỹ thuật cơ bản: phân đoạn ảnh dựa trên ngưỡng, dựa trên biên và dựa trên vùng Kết quả nhận dạng ảnh phụ thuộc rất nhiều vào công đoạn này
1.1.4 Biểu diễn ảnh
Đầu ra ảnh sau phân đoạn chứa các điểm ảnh của vùng ảnh (ảnh đã phân đoạn)
Trang 15cộng với mã liên kết với các vùng lận cận Việc biến đổi các số liệu này thành dạng thích hợp là cần thiết cho xử lý tiếp theo bằng máy tính Việc chọn các tính chất để thể hiện ảnh gọi là trích chọn đặc trưng (Feature Selection) gắn với việc tách các đặc tính của ảnh dưới dạng các thông tin định lượng hoặc làm cơ sở để phân biệt lớp đối tượng này với đối tượng khác trong phạm vi ảnh nhận được
Ảnh đen trắng gồm có ảnh nhị phân và ảnh đa cấp xám, nếu chỉ có hai mức 0 và
1 còn gọi là ảnh nhị phân, nếu lớn hơn hai mức ta có ảnh đa cấp xám Với ảnh nhị phân, mỗi pixel được mã hóa trên một bit Còn với ảnh xám 256 mức được mã hóa
Trang 16trên 1 byte = 8 bit
Hình 1.5Ảnh màu
Trang 171.3 Cải thiện ảnh sử dụng toán tử điểm
1.3.1 Tăng giảm độ sáng
Độ tương phản biểu diễn sự thay đổi độ sáng của đối tượng so với nền Vì vậy, muốn nhìn thấy rõ đối tượng trong ảnh so với nền thì chúng ta có thể thay đổi giá trị cường độ sáng trong ảnh
Giả sử ta có ảnh đầu vào I ~ kích thước (m x n) và số nguyên c:
Nếu c > 0: ảnh sáng lên Nếu c < 0: ảnh tối đi
Ảnh gốc c=+100 c=-100
Hình 1.6Ảnh tăng/giảm độ sáng
1.3.2 Tăng độ tương phản
Ảnh số là tập hợp các điểm, mỗi điểm có giá trị độ sáng khác nhau, hai đối tượng
có cùng độ sáng nhưng đặt trên hai nền khác nhau sẽ cho cảm nhận sáng khác nhau Vậy độ tương phản biểu diễn sự thay đổi độ sáng của đối tượng so với nền, hay
độ tương phản là độ nổi của điểm ảnh hay vùng ảnh so với nền Nếu ảnh có độ tương phản kém, ta có thể thay đổi theo các hàm
−
+
b u a V a u
a u u
u f
b
a
)(
)()(
Trang 18Hình 1.7Biểu đồ giãn độ tương phản
Hình 1.8Ảnh khi giãnđộ tương phản
1.3.3 Tách nhiễu và lấy ngưỡng
• Tách nhiễu: là trường hợp riêng của giãn độ tương phản khi α = γ = 0, ứng dụng
để giảm nhiễu khi biết tín hiệu nằm trong khoảng [a,b]
• Lấy ngưỡng: là trường hợp riêng của tách nhiễu khi a = b = θ (θ là ngưỡng), ứng dụng trong trường hợp biến đổi từ ảnh đa mức xám về ảnh nhị phân
1.3.4 Biến đổi âm bản
Âm bản nhận được bằng phép biến đổi âm.Phép biến đổi này có rất nhiều hữu ích cho các phim ảnh dùng trong y học
v= f ( u ) = L − u
Giả sử ta có ảnh I ~ kích thước (m x n)
Trang 19Hình 1.9 Ảnh âm bản
1.3.5 Biến đổi ảnh đen trắng
Để chuyển đổimột ảnh màu sang ảnh đen trắng ta dùng kĩ thuật tách ngưỡng Giả sử ta có ảnh I ~ kích thước (m x n), hai số Min, Max và ngưỡng θ
Hình 1.10Ảnh trắng đen
1.3.6 Lược đồ xám (Histogram)
a Hiển thị lược đồ xám của ảnh
Lược đồ mức xám là một hàm cung cấp tần suất xuất hiện của mỗi mức xám (gray-level) trong ảnh Biễu diễn toán học của histogram của một ảnh số có L=256 mức xám là một hàm rời rạc
Trang 20Miền giá trị của p f ( k) [0,1]
Một cách biễu diễn toán học khác của histogram của một ảnh là số lần xuất hiện của mỗi mức xám
( k) k
Khi lược đồ xám được biễu diễn trong một hệ tọa độ vuông góc x, y (trục hoành
x biễu diễn số mức xám từ 0 đến L -1, trục tung y biễu diễn số điểm ảnh có cùng mức xám hay tỷ lệ số điểm ảnh có cùng mức xám trên tổng số điểm ảnh), thì hình dạng của histogram của ảnh sẽ mang đến cho chúng ta thông tin về tính động của ảnh (ảnh rất sáng hay ảnh rất đậm) dùng làm cơ sở cho việc tăng cường độ tương phản
Hình 1.11 Lược đồ mức xám của các loại ảnh
Nhìn vào biểu đồ trên ta nhận thấy rằng: nếu ảnh tối thì mức xám sẽ tập trung ở gần gốc tọa độ
Theo định nghĩa của lược đồ xám, thì việc xây dựng nó là khá đơn giản
Hình 1.12Biểu đồ lược đồ xám (Histogram) của ảnh
Lược đồ xám là một công cụ hữu hiệu dùng trong nhiều công đoạn của tăng
Trang 21cường xử lý ảnh
b Cân bằng lược đồ xám
Với một ảnh tự nhiên được lượng hóa một cách tuyến tính, phần lớn các điểm ảnh có giá trị thấp hơn độ sáng trung bình Trong miền tối, ta khó có thể cảm nhận các chi tiết của ảnh.Thực tế cần phải khắc phục nhược điểm này bằng cách biến đổi lược
đồ xám Người ta biến đổi lược đồ sao cho tiến gần tới lược đồ định trước Có nhiều phương pháp, trong đó phương pháp phổ dụng nhất là san bằng lược đồ
Nếu ảnh có kích thước (p x p) và ảnh kết quả được mã hóa trên N F mức xám thì
số điểm ảnh cho một mức xám trong lược đồ cân bằng lý tưởng sẽ là hằng số và bằng
1.3.7 Kỹ thuật cải thiện ảnh nhị phân
Với ảnh nhị phân, mức xám chỉ có 2 giá trị là 0 hay 1 Do vậy, ta xét một phần tử ảnh như một phần tử logic và có thể áp dụng các toán tử hình học dựa trên khái niệm biến đổi hình học của một ảnh bởi một phần tử cấu trúc
Phần tử cấu trúc là một mặt nạ dạng bất kỳ mà các phần tử của nó tạo nên một mô-típ, người ta tiến hành rê mặt nạ đi khắp ảnh và tính giá trị điểm ảnh bởi các điểm lân cận với mô-típ của mặt nạ theo cách lấy hội hay lấy tuyển
Dựa vào nguyên tắc trên, người ta sử dụng 2 kỹ thuật: dãn ảnh (Dilation) và co ảnh (Erosion)
a Dãn ảnh
Dãn ảnh nhằm loại bỏ điểm đen bị vây bởi các điểm trắng Trong kỹ thuật này, một cửa sổ (N+1) x (N+1) được rê đi khắp ảnh và thực hiện đối sánh một pexel của ảnh với (N+1)2-1 điểm lân cận (không tính điểm ở tâm) Phép đối sánh ở đây thực hiện bởi phép tuyển logic
Trang 22Trong kỹ thuật này, một cửa sổ (N+1) 2 được rê đi khắp ảnh và thực hiện so sánh
một pixel của ảnh với (N+1) 2 -1 điểm lân cận.Việc so sánh ở đây thực hiện bởi phép
Trang 23Trích rút đặc trưng ảnh nhằm lựa chọn một tập đặc trưng để phục vụ cho việc phân lớp sao cho hệ thống nhận dạng đạt độ chính xác cao nhất với số lượng phần tử được trích chọn ít nhất
1.4.1 Đặc trưng màu sắc
Màu sắc thường là vấn đề tập trung giải quyết nhiều nhất, bởi vì với một ảnh màu thì thông tin quan trọng nhất trong ảnh chính là màu sắc Hơn nữa thông tin về màu sắc là thông tin người dùng quan tâm nhất; qua đặc trưng màu sắc, có thể lọc được rất nhiều lớp ảnh, thông qua vị trí, không gian, định lượng của màu trong ảnh
a Không gian màu
Theo lý thuyết màu do Thomas đưa ra từ năm 1802, mọi màu đều có thể tổ hợp
từ ba màu cơ bản: Đỏ (Red), Lục (Green), Lam (Blue) Ba màu này là các màu cơ bản của hệ màu cộng (Additive Color System) Hệ màu RGB dựa trên cơ sở hệ thống tọa
độ Cartesian – hệ thống tọa độ Decac: mỗi màu cơ bản đều được mã hóa bởi 8 bit, vậy với ba màu phối hợp nhau tạo thành 224 = 16.777.216 màu thứ cấp mà mắt người có thể cảm nhận được Ảnh màu được lưu trữ từng màu riêng biệt như ảnh đa cấp xám Ứng với một pixel của ảnh màu sẽ chiếm 3 byte, do đó ảnh màu sẽ chiếm bộ nhớ gấp
ba lần ảnh đa cấp xám cùng kích thước
Hình 1.16Không gian màu RGB
b Mô hình màu HSV (Hue, Saturation, Value) :
Có ba thuộc tính chủ yếu trong cảm nhận màu
• Value (brightness): cường độ hay độ chói ánh sáng V có giá trị trong
khoảng [0-1], V = 0 có màu đen
Mô hình HSV trực giác hơn mô hình RGB Bắt đầu từ Hue (H cho trước và V=1,
Trang 24S=1) Thay đổi S: bổ sung hay bớt trắng; thay đổi V: bổ sung hay bớt đen đến khi có màu mong muốn
Hình 1.17Không gian màu HSV
1.4.2 Đặc trưng kết cấu
Kết cấu (texture) là một đặc tính quan trọng khác của ảnh Kết cấu là một thành phần có ảnh hưởng rất quan trọng đối với cảm nhận trực quan của con người Tất cả mọi người đều có thể nhận ra kết cấu nhưng lại rất khó có thể định nghĩa chính xác nó
là gì Rất nhiều cách thể hiện kết cấu đã được nghiên cứu trong nhận dạng và thị giác máy tính Về cơ bản, các phương pháp biểu diễn kết cấu có thể được phân ra thành hai loại: phương pháp cấu trúc và phương pháp thống kê
Phương pháp cấu trúc, gồm toán tử hình thái và đồ thị kề, mô tả kết cấu bởi nhận dạng cấu trúc gốc và các luật sắp đặt của chúng Chúng có khuynh hướng hiệu quả nhất khi được áp dụng với các kết cấu đều
Các phương pháp thống kê, gồm các kỹ thuật phổ năng lượng Fourier, các ma trận đồng khả năng, phân tích thành phần chính bất biến - trượt, đặc trưng Tamura, phân rã Wold, trường ngẫu nhiên Markov mô hình fractal, và lọc đa phân giải như biến đổi Gabor và sóng, mô tả kết cấu bằng phân bố thống kê của cường độ ảnh
Kết cấu là một đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm
để phân lớp những vùng đó Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cường độ một ảnh, kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực láng giềng với nhau
a Phương pháp phân tích kết cấu
- Tiêu chuẩn kết cấu thống kê: Một tập các đặc điểm được sử dụng để biểu diễn
những đặc điểm của một kết cấu ảnh, những đặc điểm này đo những thuộc tính như độ tương phản, mối tương quan và entropy Chúng thường được lấy ra từ những loạt dài giá trị mức xám, giá trị mức xám khác nhau hoặc ma trận kết hợp Những đặc điểm được lựa chọn và ảnh không thể tái tạo lại từ tập các đặc điểm được đánh giá
- Mô hình kết cấu ước lượng (Stochastic): Một đặc điểm được coi là sự thực hiện
Trang 25của quá trình ước lượng bị ảnh hưởng bởi một số tham số Việc phân tích được thực hiện bằng việc xác định một mô hình và những tham số ước lượng, bởi vậy xử lý ước lượng có thể được tái tạo từ những mô hình và tham số kết hợp Những tham số ước lượng có thể đáp ứng như là những đặc điểm cho những bài toán phân đoạn và phân lớp kết cấu Một khó khăn đối với mô hình kết cấu này là một số kết cấu tự nhiên không phù hợp với sự hạn chế của mô hình đặc biệt
- Tiêu chuẩn kết cấu cấu trúc: Một số kết cấu có thể xem như là những mô hình
hai chiều gồm một tập các đặc điểm gốc hoặc các mẫu con được sắp xếp dựa trên luật nhất định Các đặc điểm gốc này có thể là những hình dạng thay đổi hoặc xác định như hình tròn, hình lục giác hoặc thậm chí là mô hình dấu chấm Những kết cấu lớn có đặc điểm gốc lớn trong khi những kết cấu nhỏ được tạo ra từ những đặc điểm nguyên thuỷ nhỏ, những thuật ngữ này liên quan tới độ phân giải của ảnh Ảnh có kết cấu được hình thành từ những đặc điểm nguyên thuỷ bởi các luật cả trên phạm vi ảnh và mối quan hệ giữa các ảnh với nhau
b Các đặc trưng lọc Gabor
Trong xử lý ảnh, bộ lọc Gabor là một bộ lọc tuyến tính thường được sử dụng để phát hiện biên, phần vùng ảnh, phân tích đặc trưng ảnh, phân lớp ảnh Tần số và hướng được thể hiện trong các bộ lọc Gabor tương tự như hệ thống thị giác của con người Bộ lọc Gabor hai chiều (2D Gabor) được áp dụng trong ảnh với tỉ lệ và tần số khác nhau Hàm Gabor 2D được biến đổi từ đường hình sin phức tạp của hàm Gaussian 2D Hàm sóng con Gabor trong miền không gian có dạng như sau:
gλ,θ,φ,σ,γ(x,y)=exp(𝑥
′2 +𝛾2𝑦22𝜎 2 ) 𝑐𝑜𝑠(2𝜋𝑥′
𝜆 + 𝜑) (3) Trong đó:
y’= - x sin(θ) + y cos(θ) x’= - x cos(θ) + y sin(θ)
Bước sóng (λ - lamda) đại diện cho sóng của các tác nhân cosine của hàm Gaussian, hướng (θ - theta) đại diện cho hướng của các đường gạch sọc song song của hàm Gabor tại một góc nào đó (độ), độ lệch pha (φ - phi) theo góc, và tỉ lệ hướng (γ - gamma) là tỷ lệ co giãn trong không gian và nó xác định tính đơn giản của hàm Gabor,
và độ lệch chuẩn σ xác định kích thước của hàm Gaussian tuyến tính
• Ma trận đồng hiện mức xám (GLCM) là một trong những phương pháp trích lọc đặc trưng được đề xuất từ rất sớm bởi Haralick vào năm 1973
• Ma trận đồnghiện mức xám của ảnh f(x,y) có kích thước n x m và có G mức độ
xám là một ma trận hai chiều C(i, j) Mỗi phần tử của ma trận thể hiện xác suất xảy ra cùng giá trị cường độ sáng i và j tại một khoảng cách d và một góc θ xác
Trang 26định Do đó, có thể có nhiều GLCM khác nhau phụ thuộc vào cặp giá trị d và θ
Ma trận đồng hiện mức xám được tính toán như sau:
j y x f i y x f
y x y x
d y y x x MxM
y x y x N j i
)),(),,((
)
|
|,max(|
)),(),,((
),
(
2 2 1
1
2 2 1 1
2 1 2 1
2 2 1
Có hai phương pháp thường được dùng để đo lường hình dáng trong lĩnh vực xử
lý ảnh là: đo lường phụ thuộc vào kích thước - SMD và đo lường không phụ thuộc vào kích thước - SIM
Phương pháp SDM có đặc điểm là dễ hiểu, và tính toán đơn giản Độ rắn chắc (compactness) là một trong những giải pháp tốt trong SDM để mô tả và đo lường hình dáng của đối tượng bằng cách đo tỉ lệ giữa diện tích trên bình phương chu vi của đối tượng
Hình dáng của các đối tượng là không đồng nhất (Russ, 1999) do đó, phương pháp đo lường SDM không đo lường được tất cả hình ảnh nhãn hiệu rượu vì hình dáng nhãn hiệu của rượu tuỳ thuộc kiểu mẫu, hình dáng của chai rượu, nên phương pháp SIM được đề xuất và được sử dụng rộng rãi hơn SIM bao gồm phương pháp dựa trên vùng (region-based methods) và phương pháp dựa trên đường biên (boundary-based methods)
Trang 271.5 Phương pháp nhận dạng
1.5.1 Khái niệm nhận dạng
Quá trình nhận dạng dựa vào những mẫu học biết trước gọi là nhận dạng có thầy
hay học có giám sát, trong những trường hợp ngược lại gọi là học không có giám sát
Học có giám sát: Ta có một thư viện các mẫu chuẩn, mẫu cần nhận dạng sẽ được
đem so sánh với mẫu chuẩn để xem nó thuộc loại nào và quyết định gán cho chúng vào một lớp nhờ các hàm phân lớp hay hàm ra quyết định
Học không có giám sát: Kỹ thuật này nhằm tiến hành mọi cách gộp nhóm có thể và
chọn lựa cách tốt nhất Bắt đầu từ tập dữ liệu, nhiều thủ tục xử lý khác nhau nhằm
phân lớp và nâng cấp dần để đạt được một phương án phân loại
1.5.2 Máy vector hỗ trợ (SVM)
SVM là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê SVM sẽ
cố gắng tìm cách phân lớp dữ liệu sao cho có lỗi xảy ra trên tập kiểm tra là nhỏ nhất
Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau
Giả sử, chúng ta lựa chọn được tập các đặc trưng là T={t1, t2, …, tn}, x i là vector
dữ liệu được biểu diễn xi=(wi1, wi2, …, win), winR là trọng số của đặc trưng tn Với
tập dữ liệu huấn luyện Tr={(x1, y1), (x 2 , y 2 ), …, (x l , y l )}, (x iR n ), yi{+1, -1}, cặp (x i ,
y i ) được hiểu là vector x i được gán nhãn là y i
Nếu xem mỗi xi được biểu diễn tương ứng với một điểm dữ liệu trong không gian
Rn thì ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian n-chiều để phân chia dữ liệu sao cho tất cả các điểm x+ được gán nhãn 1 thuộc về phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –1 thuộc về phía âm của siêu phẳng (f(x-)<0)
Hình 1.18H 2 là siêu phẳng tốt nhất
1.5.3 K-láng giềng gần nhất (k-Nearest Neighbors)
K-Nearest Neighbors algorithm (KNN) được sử dụng rất phổ biến trong lĩnh vực
Trang 28khai phá dữ liệu (data mining) KNN là phương pháp để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp với tất cả các đối tượng trong dữ liệu huấn luyện (training data)
Một đối tượng được phân lớp dựa vào k láng giềng của nó K là số nguyên dương
được xác định trước khi thực hiện thuật toán Người ta thường dùng khoảng cách Euclidean để tính khoảng cách giữa các đối tượng
1.5.4 Mô hình Markov ẩn (Hidden Markov Models)
Mô hình Markov ẩn (HMM) thuộc lớp phân loại có khả năng huấn luyện, nó đại diện cho một mô hình thống kê, trong đó cử chỉ có khả năng phù hợp được xác định cho một véc tơ đặc trưng nhất định dựa trên dữ liệu huấn luyện Để huấn luyện HMM, thuật toán Baum-Welch được áp dụng để điều chỉnh các trạng thái bên trong theo một
số thông tin phản hồi liên quan đến tính chính xác
1.5.5 Mạng nơ-ron nhân tạo
Mạng nơ-ron nhân tạo là một mô hình toán học hay mô hình tính toán được xây dựng dựa trên các mạng nơ-ron sinh học Nó gồm có các nơ-ron (nút) nối với nhau, và
xử lý thông tin bằng cách truyền theo các kết nối và tính giá trị mới tại các nút Trong nhiều trường hợp, mạng nơ-ron nhân tạo là một hệ thống thích ứng (adaptive system)
tự thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trong chảy qua mạng trong quá trình học
Mô hình toán học của mạng nơron sinh học được đề xuất bởi McCulloch và Pitts, thường được gọi là nơron M-P, ngoài ra nó còn được gọi là phần tử xử lý và được ký
hiệu là PE (Processing Element) Mô hình nơron có m đầu vào 𝑥1, 𝑥2, … , 𝑥𝑚, và một đầu ra 𝑦𝑖 như sau:
Hình 1.19Mô hình một nơ-ron nhân tạo
1.6 Đánh giá ưu điểm của thuật toán SVM
• SVM rất hiệu quả để giải quyết bài toán dữ liệu có số chiều lớn
• SVM giải quyết vấn đề overfitting rất tốt (dữ liệu có nhiễu và tách dời nhóm hoặc dữ liệu huấn luyện quá ít)
W i1
W i2
W im
Trang 29• Là phương pháp phân lớp nhanh
• Có hiệu suất tổng hợp tốt và hiệu suất tính toán cao
SVM được đánh giá là một hướng tiếp cận phân lớp đạt độ chính xác cao, phương pháp học máy tiên tiến đã đóng góp nhiều thành công trong các lĩnh vực khai phá dữ liệu cũng như trong lĩnh vực nhận dạng Bài toán huấn luyện SVM thực chất là
bài toán quy hoạch toàn phương (QP: Quadratic Programing) trên một tập lồi, do đó
SVM luôn có nghiệm toàn cục và duy nhất, đây chính là điểm khác biệt rõ nhất giữa SVM so với phương pháp phân lớp khác Với khả năng vượt trội của SVM về tính hiệu quả, độ chính xác, khả năng xử lý bộ dữ liệu một cách linh hoạt, việc sử dụng máy vec-tơ hỗ trợ SVM đã và đang là sự lựa chọn tối ưu nhất trong việc giải quyết bài toán phân loại
1.7 KẾT CHƯƠNG
Chương 1 tác giả đã trình bày tổng quan về các vấn đề liên quan tới nhận dạng và
xử lý ảnh số Tiếp theo Chương 2, tác giả sẽ trình bày nghiên cứu về các kết quả nhận dạng và phân tích mẫu, ứng dụng thuật toán SVM để ứng dụng nhận dạng nhãn hiệu rượu Vodka
Trang 30CHƯƠNG 2 PHƯƠNG PHÁP ĐẶC TRƯNG VÀ NHẬN DẠNG
2.1 Các công trình nghiên
Các tác giả ở [13] đã phát triển một thuật toán nhận dạng để phân loại thực phẩm dựa trên đặc trưng hình dáng và kết cấu Đặc trưng hình dáng và kết cấu được trích lọc bằng cách sử dụng các thao tác hình thái học và ma trận GLCM, các tham số đặc trưng này sau đó được phân loại bởi thuật toán mean-shift Kết quả được thử nghiệm trên 6 loại thực phẩm khác nhau: Táo, Chuối, Cam, Lạc (peanut), Lê và Bánh rán (doughnuts), mỗi loại có 100 mẫu được đưa vào huấn luyện, và nhận dạng với độ chính xác trung bình 97.6%
Md Zahangir Alom và Hyo Jong Lee [9] đề xuất phương pháp phân đoạn ảnh Gaussian Mean (GM) để phát hiện bệnh tật trên lá lúa Ảnh RGB đầu vào được chuyển sang không gian màu HSV, sau đó kênh H trong không gian HSV được tính toán dựa trên phương pháp thống kê Mô hình Gaussian được dùng để tính toán giá trị trung bình và sự khác nhau giữa tất cả các điểm ảnh trong ảnh đầu vào Một ngưỡng tối ưu được tính toán dựa trên mô hình Gaussian, giá trị ngưỡng này giống với cách tính toán của phương pháp lấy ngưỡng toàn cục
Arash Asef Nejad, Karim Faez đã đề xuất một phương pháp xác định vị trí của logo bằng việc phân tích chiều ngang, chiều dọc kết hợp với cấu trúc cây phân tầng Sau khi xác định vị trí của logo, một thuật toán mở rộng đường biên của các hình chữ nhật đặc trưng được dùng để rút trích logo Tiếp theo là chuẩn hóa kíchthước của logo
và loại bỏ góc nghiêng được thực hiện trước khi sử dụng giải thuật KNN để nhận dạng logo
Deepesh Kumar Srivastava [12] đã đề xuất phương pháp khử chói trong ảnh và phát hiện khuyết điểm trên bề mặt trái cây sử dụng bộ lọc Gabor Ảnh đầu vào được đặt trong giả định là bị chói sáng khi lấy mẫu, tác giả đã sử dụng phương pháp biến đổi ảnh sang ảnh nhị phân với giá trị ngưỡng là 0.8 – 0.9, sau đó sử dụng các phép toán hình thái học để khử chói Để phát hiện khuyết điểm, ảnh đầu vào sau khi khử độ chói đã được đưa vào bộ lọc Gabor với bộ giá trị (λ, θ, φ, γ, bandwidth) = (8, (0, 30,
45, 60, 90, 120, 1800), 0, 0.5, 1) để phân đoạn ảnh
Các tác giả [14] đã đề xuất một phương pháp để phát hiện khuyết điểm trên bề mặt những trái cây thuộc giống cam quít dựa trên các đặc trưng màu sắc Ảnh màu RGB được chuyển đổi sang không gian màu HSI và tiến hành tách kênh H, S, I riêng biệt Các kênh màu H, S và I được đưa vào ma trận phụ thuộc mức xám không gian SGDM để tiến hành tính toán đặc trưng kết cấu
Trang 312.2 Trích xuất đặc trưng ảnh
Trích chọn đặc trưng là cơ sở của truy vấn ảnh dựa vào nội dung Như chúng ta đã biết, nội dung của một bức ảnh có thể bao gồm cả nội dung trực quan và nội dung ngữ nghĩa Trong nội dung trực quan của ảnh lại được phân làm hai loại là nội dung tổng quan và nội dung đặc tả Trong phạm vi đặc trưng trực quan, các đặc trưng có thể được phân loại tiếp thành các đặc trưng chung và các đặc trưng lĩnh vực cụ thể Các đặc trưng trực quan chung gồm màu sắc, kết cấu, hình dạng; tuy nhiên tuỳ vào từng bài toán cụ thể mà các nhà nghiên cứu có những lựa chọn và kết hợp giữa các đặc trưng khác nhau Trong khuôn khổ luận văn này chỉ tập trung nghiên cứu nội dung trực quan tổng quan của ảnh về màu sắc và kết cấu
2.2.1 Sử dụng đặc trưng màu sắc
2.2.1.1 Vector liên kết màu sắc (CCV)
Phương pháp so sánh màu sắc dựa trên vector liên kết màu sắc được trình bày bởi Pass, Zabih, & Miller (1997) Họ xác định sự liên kết màu sắc như cấp độ mà các điểm ảnh của màu sắc là các thành viên của một vùng rộng lớn với màu đồng nhất Những vùng này được gọi là vùng liên kết Các điểm ảnh liên kết thuộc về một số vùng tiếp giáp lớn, trong khi các điểm ảnh liên kết thì không Để tính toán CVVs, phương pháp này làm mờ và làm rời rạc khoảng màu của hình ảnh để loại bỏ các biến thể nhỏ giữa các điểm ảnh lân cận Sau đó tìm thấy các thành phần kết nối trong ảnh để phân loại điểm ảnh của một nhóm màu nhất định hoặc là liên kết hoặc là rời rạc Sau khi phân loại các điểm ảnh, CCV tính toán hai biểu đồ màu: một là đối với các điểm ảnh liên kết, hai là đối với các điểm ảnh rời rạc Hai biểu đồ này được lưu trữ dưới dạng biểu
đồ đơn
Là lược đồ tinh chế lược đồ màu, chia mỗi ô màu (bin) thành 2 nhóm điểm ảnh: Nhóm liên kết màu (coherence pixels) và nhóm không liên kết màu (non-coherence pixels) Một pixel trong 1 ô màu (bin) được gọi là điểm liên kết màu (coherent) nếu nó thuộc vùng gồm các màu tương tự với kích thước lớn (thường bằng khoảng 1% kích thước ảnh) Với mỗi ô màu (bin) giả sử số điểm liên kết màu là α và số điểm không liên kết màu là β thì vector liên kết màu được xác định:
D I I = = +
2.2.1.2 Biểu đồ sai lệch màu sắc (CDH)
Biểu đồ sai lệch màu sắc (CDH) được thiết kế bằng cách sử dụng sai lệch màu của các điểm ảnh lân cận tại một khoảng nhất định (Liu, & Yang, 2013) Đặc trưng độc nhất của CDH là đếm sự khác biệt màu sắc đồng nhất một cách cảm giác giữa hai
Trang 32điểm dưới các nền khác nhau liên quan đến màu sắc và định hướng cạnh trong khoảng màu L*a*b* Nó chú ý nhiều đến màu sắc, định hướng cạnh và sự khác biệt màu sắc đồng dạng theo cảm giác và mã hóa màu sắc, định hướng và sự khác biệt màu sắc đồng dạng theo cảm giác qua đại diện tính năng theo cách tương tự với hệ thống thị giác của con người
2.2.1.3 Biểu đồ màu toàn cục (GCH)
Biểu đồ màu (Color Histogram) để biểu diễn nội dung màu của một bức ảnh Biểu đồ màu dễ tính toán và rất hiệu quả để biểu diễn cả sự phân bố màu tổng quan và
sự phân bố màu cục bộ của ảnh Ngoài ra, biểu đồ màu không bị ảnh hưởng bởi sự dịch chuyển hay sự quay của ảnh và ít bị ảnh hưởng của tỉ lệ góc ảnh
Biểu đồ màu toàn cục là phương pháp đơn giản nhất để mật mã hóa các thông tin thể hiện trong một ảnh (Gonzalez & Woods, 2007)
Một GCH là một bộ giá trị yêu cầu, đối với mỗi màu sai lệch, đại diện cho xác suất của một điểm ảnh của màu sắc đó Sự lượng tử hóa và tiêu chuẩn hóa đồng nhất được sử dụng để tránh sự thay đổi tỷ lệ và giảm số lượng màu sai lệch (Gonzalez & Woods, 2007)
2.2.2 Sử dụng đặc trưng kết cấu
Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực láng giềng với nhau Kết cấu của ảnh màu và kết cấu đối với ảnh xám là như nhau Kết cấu gồm nhiều kết cấu gốc hay kết cấu phần tử gộp lại, đôi khi được gọi là texel
2.2.2.1Biểu đồ phần tử cấu trúc (SHE)
Biểu đồ phần tử kết cấu (SEH) được đề xuất để mã hóa các kết cấu cục bộ nhỏ của hình ảnh (Xingyuan, & Zongyu, 2013) SEH mô tả các hình ảnh với các tính năng cục bộ của nó Nó sử dụng khoảng màu HSV (được lượng tử hóa đến 72 bins) SEH tích hợp các lợi thế của cả hai phương pháp mô tả thống kê và kết cấu cấu trúc và nó
có thể đại diện cho tương đồng từng phần của kết cấu cục bộ
2.2.2.2 Mẫu nhị phân cục bộ (LBP)
Cho một điểm ảnh vào trong hình ảnh đầu vào, LBP được tính bằng cách so sánh
nó với các điểm lân cận nó (Ojala, Pietikainen, & Maenpaa, 2002):
( ),
là I*J Sau khi mã LBP của mỗi điểm ảnh được tính toán, biểu đồ được tạo ra để biểu
Trang 332.2.2.3Mẫu tam phân cục bộ (LTP)
Mẫu tam phân cục bộ là sự mở rộng tự nhiên của LBP ban đầu Trong (Tan, & Triggs, 2010), Tan et al đề xuất sử dụng một mô hình cơ sở-3 để thể hiện vùng Là một bộ mô tả kết cấu hình ảnh cục bộ hiệu quả điện toán, LTP được sử dụng với thành công đáng kể trong một số các nhiệm vụ nhận dạng hình ảnh LTP có thể được tính toán theo phương trình sau:
LTP(i) =
( ) ( ) ( ) ( )
2.2.2.4Mẫu nhị phân cục bộ hoàn chỉnh (CLBP)
Đặc trưng LBP chỉ xem xét các dấu hiệu sai lệch cục bộ (nghĩa là sự khác nhau của mỗi điểm ảnh với các điểm lân cận) trong đó tính năng CLBP xem xét cả hai dấu hiệu (S) và độ lớn (M) của sai biệt cục bộ cũng như giá trị (C) mức độ xám trung tâm ban đầu (Guo, Zhang, & Zhang, 2010) Tính năng CLBP là sự kết hợp giữa 3 tính năng, gọi là CLBP_S, CLBP_M, và CLBP_C CLBP_S tương tự như LBP ban đầu và được
sử dụng để mã hóa thông tin dấu hiệu của sai lệch cục bộ CLBP_M được sử dụng để
mã hóa thông tin lớn của sai lệch cục bộ:
( ) ( )
, 1
0
1,, 2 , ,
0,
x c CLBP t g c t x c
Trang 34vào Trong thực nghiệm này, giá trị của ‘N và ‘R’ được thiết lập đến ‘8’ và ‘1’ một cách riêng biệt để tính toán đặc trưng CLBP
Đặc trưng CLBP thể hiện nhiều kết quả chính xác hơn LBP bởi vì đặc trưng CLBP
sử dụng cả ký hiệu và thành phần biên độ của sai lệch cục bộ với giá trị điểm ảnh trung tâm ban đầu
Hình 2.1Minh họa hiệu suất của bộ mô tả dựa trên kết cấu
2.2.3 Sử dụng đặc trưng Gist và Gist descriptor
Để thực hiện quá trình phân lớp, bước trích chọn đặc trưng ảnh có vai trò rất quan trọng Đặc trưng ảnh ở đây chính là đặc trưng nội dung ảnh, thể hiện bằng màu sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features) hay bất cứ thông tin nào có từ chính nội dung ảnh Việc sử dụng phương pháp trích chọn đặc trưng toàn cục Gist [Oliva and Torralba (2001)] và Gist descriptor [Douze et al (2009) được sử dụng để trích chọn đặc trưng Gist cho ảnh Đặc trưng Gist sử dụng bộ lọc Gabor với kích thước là 32 (gồm 4 thang chia và 8 hướng) Bộ lọc Gabor được tính toán trước và lưu lại Ảnh được chia ra thành 16 cửa sổ, trong mỗi cửa sổ bộ lọc được áp dụng để tính vector đặc trưng Do vậy, sẽ có tổng sốlà 32 x 16 = 512 đặc trưng trong vector đặc trưng để biểu diễn một ảnh
2.3 Một số phương pháp phân lớp và nhận dạng
2.3.1 Phương pháp nhận dạng và dịch bản chỉ dẫn
2.3.1.1 Phát biểu bài toán
Hệ thống nhận dạng bảng chỉ dẫn là một tập hợp của nhiều quá trình xử lý: phát hiện vùng ứng cử (vùng chứa chứa ký tự), rút trích đặc trưng, tinh chỉnh kích thước, huấn luyện và nhận dạng Việc kiểm thử sẽ được thực hiện qua hai giai đoạn: phát hiện vùng chứa ký tự tiếng Anh trong bảng chỉ dẫn, nhận dạng và dịch sang tiếng Việt Trong đó việc nhận dạng ký tự tác giả sẽ kiểm thử phương pháp SVM
2.3.1.2 Hệ thống đề xuất
Hệ thống nhận dạng bảng chỉ dẫn với đầu vào là ảnh màu, hệ thống sẽ phát hiện vùng chứa ký tự có trong bảng chỉ dẫn Sau đó ảnh được đem đi nhận dạng và trả về