Trong một số ứng dụng khác như điều khiển chất lượng sản xuất vải sợi, so sánh ảnh mây vệ tinh hay địa chất thì việc sử dụng thông tin kết cấu gần như là bắt buộc vì các thông tin về màu
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2MỤC LỤC
DANH SÁCH CÁC CHỮ VIẾT TẮT 4
MỞ ĐẦU 5
CHƯƠNG 1: TỔNG QUAN VỀ KẾT CẤU VÀ PHÁT HIỆN ĐỐI TƯỢNG 7
1.1 Tổng quan về kết cấu và ứng dụng 7
1.1.1 Định nghĩa kết cấu 7
1.1.2 Các ứng dụng của kết cấu 10
1.2 Phát hiện đối tượng dựa vào kết cấu 15
1.2.1 Phát hiện đối tượng 15
1.2.2 Các thành phần của hệ thống phát hiện đối tượng 18
1.2.3 Vai trò của kết cấu trong phát hiện đối tượng 25
CHƯƠNG 2: CÁC PHƯƠNG PHÁP BIỂU DIỄN KẾT CẤU 27
2.1 Biểu diễn hình học 28
2.2 Biểu diễn thống kê 29
2.3 Biểu diễn dựa vào mô hình 38
2.4 Biểu diễn dựa trên kỹ thuật xử lý tín hiệu 43
CHƯƠNG 3: ỨNG DỤNG 50
3.1 Bài toán 50
3.2 Phân tích bài toán 51
3.2.1 Xây dựng phương pháp biểu diễn kết cấu 53
3.2.2 Xây dựng chức năng phân loại đối tượng 59
3.3 Thực nghiệm minh họa 60
KẾT LUẬN 63
TÀI LIỆU THAM KHẢO 64
Trang 3DANH SÁCH CÁC CHỮ VIẾT TẮT
KL Karhumen-Loeve (transform)
Kullback-Leibler
Biến đổi Karhumen-Loeve
SAR Simultaneous Auto-Regressive Tự thoái lui đồng thời
DSP Digital signal processing Xử lý tín hiệu số
ACF Autocorrelation Function Hàm tự tương quan
Biến đổi dạng sóng kiểu hình cây
MRF Markov random field Trường ngẫu nhiên Markov
LBP Local Binary Pattern Kết cấu nhị phân cục bộ
SOM Self Organization Map Bản đồ tự tổ chức
ROR(x,i) Circular shift to the Right Hàm dịch phải quay vòng
RFM Random Field Model Mô hình trường ngẫu nhiên
SGLDM Spatial Grey Level Dependence
Method
Phương pháp phụ thuộc mức xám không gian
GLRLM Grey Level Run Length Method Phương pháp loạt dài mức xám GLDM Grey Level Difference Method Phương pháp sai khác mức xám PSM Power Spectral Method Phương pháp phổ lũy thừa
Trang 4MỞ ĐẦU
Phân tích kết cấu đóng một vai trò quan trọng trong lĩnh vực thị giác máy tính Trong các ứng dụng như vậy, việc “hiểu ảnh” chính xác là một trong những yếu tố chính dẫn đến thành công của hệ thống Thông thường việc sử dụng dựa vào yếu tố màu sắc của đối tượng để hiểu ảnh (hay giải thích ảnh) là một trong những kỹ thuật chính để hình thành nên các hệ thống này Tuy nhiên, trong nhiều trường hợp sử dụng thông tin màu sắc để giải thích ảnh là chưa đủ, hoặc không thể thực hiện được trong hệ thống
Trong các ứng dụng giám sát giao thông, hoặc kiểm tra chất lượng sản phẩm công nghiệp thì thông tin về kết cấu đã được sử dụng để tăng độ chính xác cho việc sử dụng các thông tin màu sắc đơn thuần [1,3] Trong một số ứng dụng khác như điều khiển chất lượng sản xuất vải sợi, so sánh ảnh mây vệ tinh hay địa chất thì việc sử dụng thông tin kết cấu gần như là bắt buộc vì các thông tin về màu sắc, hình dạng không thể hiện được trong hệ thống [11] Thông tin kết cấu cũng có thể được sử dụng trong phân tích ảnh y học, xác thực cho các hệ thống
an toàn bảo mật dựa vào sinh trắc học, truy vấn ảnh dựa vào nội dung, phân tích tài liệu, mô hình hóa môi trường,…
Trong vài năm gần đây, có hàng loạt các công trình nghiên cứu, các bài báo cụ thể liên quan đến việc làm thế nào để có một mô tả kết cấu đủ hiệu quả cho các ứng dụng thị giác máy tính Xét một cách trực quan, kết cấu cung cấp một lượng thông tin phong phú về bề mặt tự nhiên của hình ảnh Tuy nhiên, việc phân tích kết cấu nói chung và biểu diễn kết cấu một cách đầy đủ, hiệu quả nói riêng vẫn là một vấn đề khó do bởi sự đa dạng và phức tạp của vấn đề kết cấu tự nhiên
Nội dung của bản luận văn này sẽ giới thiệu về cơ sở lý thuyết cũng như hướng ứng dụng của việc biểu diễn thông tin kết cấu cho chức năng phát hiện đối tượng của một hệ thống thị giác máy tính điển hình Trên cơ sở đó tiến hành thử nghiệm xây dựng một bộ các module chương trình cho việc phát hiện, phân loại đối tượng dựa vào kết cấu bề mặt của đối tượng Về cơ bản nội dung của luận văn được chia thành 3 chương chính sau:
Trang 5Chương 1: Trình bày một cách tổng quát về kết cấu và phát hiện đối
tượng dựa vào kết cấu trong một hệ thống thị giác máy tính Chương này cũng trình bày về các kỹ thuật áp dụng thông tin về kết cấu cho việc giải thích ảnh Việc trình bày về cơ sở lý thuyết của kết cấu và cách thức áp dụng thông tin kết cấu vào từng thành phần của hệ thống phát hiện đối tượng cũng là một phần chính của chương mở đầu này
Chương 2: Trình bày các phương pháp cơ bản về biểu diễn thông tin kết
cấu cho máy tính Trên cơ sở đó nhấn mạnh về khái niệm và cách thức áp dụng phương pháp biểu diễn kết cấu dựa vào toán tử không gian LBP cho một hệ thống phát hiện đối tượng Do việc mô tả kết cấu cũng như các phương pháp biểu diễn kết cấu là phức tạp và có rất nhiều phương pháp được nghiên cứu Chương này cũng sẽ trình bày tóm lược một số đánh giá, so sánh của các nghiên cứu về hiệu quả của các phương pháp biểu diễn kết cấu phổ biến đã được thực hiện trên thực tế bằng thực nghiệm nhằm tạo cơ sở cho việc chọn lựa biểu diễn kết cấu thích hợp với các ứng dụng khác nhau
Chương 3: Chương này giới thiệu cách thức ứng dụng của phương pháp
biểu diễn kết cấu bằng toán tử không gian LBP cho một ứng dụng cụ thể trong điều khiển chất lượng sản phẩm công nghiệp Trên cơ sở đó tiến hành xây dựng một số module chương trình mục đích minh họa thí nghiệm cũng như đánh giá các ưu nhược điểm khi sử dụng phương pháp LBP cho một hệ thống điều khiển chất lượng vải sợi
Trang 6CHƯƠNG 1: TỔNG QUAN VỀ KẾT CẤU VÀ
PHÁT HIỆN ĐỐI TƯỢNG
1.1 Tổng quan về kết cấu và ứng dụng
1.1.1 Định nghĩa kết cấu
Kết cấu (của bề mặt của vật thể) trong tự nhiên là một khái niệm chung
mà người ta có thể quy cho mọi vật Có khá nhiều định nghĩa về kết cấu của đối
tượng trong tự nhiên Theo từ điển Webster, 1986 kết cấu “Là cấu trúc hoặc một
sự sắp xếp cơ sở, một kết hợp chặt chẽ của hầu hết các phần tử riêng lẻ tạo nên một đối tượng” Theo từ điển Oxford, 1989 “Là sự tổ chức, cấu trúc, hoặc chất liệu của bất kỳ những gì hình thành nên một đối tượng” Nói chung, người ta có
thể hiểu một cách chung nhất kết cấu là các tính chất thể hiện ra bên ngoài có thể nhìn thấy và tiếp xúc được của một đối tượng nào đó Nhiều ví dụ minh họa về kết cấu như kết cấu của cát, của khói, của vân tay người,… Đối với con người, thể hiện của kết cấu liên quan đến các cấu trúc cục bộ của bề mặt được lặp đi lặp lại về mặt không gian Các cấu trúc này được hình thành từ một hay một vài phần
tử cơ bản (Primitives) riêng biệt Nó chứa các thông tin quan trọng về sự sắp xếp
cấu trúc của bề mặt
Hình 1.1 : Ví dụ về kết cấu
Kết cấu gạch Kết cấu vân tay Kết cấu mây Kết cấu đất
Trang 7Trong lĩnh vực xử lý ảnh số, tính chất kết cấu của ảnh được thể hiện thông qua sự biến thiên về màu sắc và cường độ của ảnh Mặc dù không thể có thông tin về nguyên nhân sự biến thiên này nhưng thông tin về sự khác nhau của của các pixel trong ảnh đã đưa ra nhiều phương pháp để xác định kết cấu của đối tượng Tuy nhiên từ trước đến nay chưa ai có thể đưa ra được một định nghĩa chính xác về mặt toán học (định nghĩa cho xử lý số) cho kết cấu của đối tượng
trong ảnh số Theo [1], Haralick (1973):“Kết cấu rất khó để có được một định
nghĩa chính xác” Mười năm sau, Cross & Jain (1983) đưa ra một định nghĩa
đơn giản hơn:“ Chúng ta xem xét một kết cấu như là một ảnh hai chiều với tính
chất tương đối chu kỳ và ngẫu nhiên” Nhưng mười ba năm sau việc định nghĩa
kết cấu cũng không rõ ràng hơn: “Kết cấu mặc dù thiếu một định nghĩa chính
xác nhưng lại có rất nhiều ứng dụng trong lĩnh vực thị giác máy tính (Jain & Karu 1996)” Với việc thiếu những lý thuyết cơ bản và thống nhất như vậy đã
làm cho việc phân tích kết cấu kém thuyết phục và không đồng nhất ít ra là về mặt phương pháp luận theo quan điểm của các nhà toán học Và cũng do đó việc đánh giá chất lượng của các hệ thống sử dụng tính kết cấu của ảnh phần nhiều đều mang tính kinh nghiệm Tuy vậy cũng có rất nhiều nghiên cứu trong việc tạo ra và sử dụng các độ đo kết cấu được áp dụng nhiều trong các hệ thống thị giác máy tính Trong các nghiên cứu đó, việc đưa ra các kỹ thuật sử dụng kết cấu phụ thuộc rất nhiều vào mô hình kết cấu được sử dụng và phân loại Một số tác giả đã phân loại kết cấu theo sự thể hiện của chúng Một cách phân loại kết cấu hay được sử dụng là phân chia chúng thành hai nhóm chính, kết cấu ngẫu
nhiên (Stochastic –hình 1.3) và kết cấu xác định được (Deterministic- hình 1.2)
Trang 8Hình 1.2: Ví dụ về kết cấu được xác định
Hình 1.3: Ví dụ về kết cấu ngẫu nhiên
Trong [2], theo cách phân chia này Tamura (1978) đưa ra các đặc trưng
mà các hệ thống phân tích kết cấu thường hay sử dụng, gọi tắt là các đặc trưng Tamura, các đặc tính quan trọng nhất của kết cấu cho hệ thống hình dung của
con người là tính giống đường (Line-likeness), tính trật tự (Regularity), tính gồ
ghề (Roughness), tính thô ráp (Coarseness), tính tương phản (Contrast), tính có hướng (Directionality) Ngoài ra theo cách phân loại kết cấu của Rao & Lohse
(1993) dựa trên ba chiều trực giao là sự lặp lại – sự không lặp, sự vô hướng với
sự tương phản cao - có hướng với sự tương phản thấp, độ mịn – độ hạt của kết cấu, kết cấu được phân chia theo sự đồng nhất về không gian của chúng thành
ba loại: kết cấu đồng nhất, kết cấu đồng nhất yếu (hình 1.4), kết cấu không đồng
nhất Dựa trên cách phân loại này một số độ đo kết cấu (Texture Measures) đã
được nghiên cứu và áp dụng cho các hệ thống thị giác máy tính [1]
Trang 9Hình 1.4: Ví dụ về kết cấu đồng nhất yếu 1.1.2 Các ứng dụng của kết cấu
Trong lĩnh vực thị giác máy tính thông tin kết cấu đóng một vai trò quan trọng Trong hầu hết các ứng dụng, các kỹ thuật được phát triển cho việc phân tích kết cấu tập trung vào việc tìm một mô tả kết cấu một cách hiệu quả, tổng quát [ 1, 10, 11, 12] Mục đích chính là để cho máy tính có thể sử dụng các thao tác toán học cho việc thay thế, so sánh cũng như chuyển đổi kết cấu Các giải thuật phân tích kết cấu hầu hết liên quan đến việc chọn lọc, xác định các đặc trưng kết cấu và biểu diễn các đặc trưng này dưới một dạng mà máy tính có thể hiểu được Các giải thuật khác nhau có các đặc trưng được chọn lọc và cách biểu diễn các đặc trưng của kết cấu khác nhau Với các giải thuật sử dụng tiếp cận thống kê, chúng đặc tả kết cấu qua các thông kê tín hiệu của ảnh hay các tính chất phân bố không gian của tín hiệu ảnh Với các giải thuật sử dụng cách tiếp
cận theo phổ của ảnh (Spectral), chúng đặc tả kết cấu theo miền phổ Các giải
thuật tiếp cận theo mô hình kết cấu có cấu trúc, chúng đặc tả các kết cấu như là phân cấp theo sự sắp xếp không gian của các đối tượng cơ bản Cũng tương tự như mô hình xác suất cho giải thuật phân tích kết cấu kết cấu được đặc tả dưới dạng hàm phân bố Có 4 dạng ứng dụng chính của kết cấu dựa trên các kỹ thuật phân tích kết cấu vừa nêu
Trang 10 Phân loại kết cấu
Phân loại kết cấu là các ứng dụng gán mỗi kết cấu đã cho tới các lớp kết cấu khác nhau được định nghĩa trước Có hai phương pháp phân loại kết cấu
chính là phân loại có giám sát (Supervised) và phân loại không giám sát (Unsupervised) Phân loại kết cấu có giám sát là kỹ thuật có cung cấp các ví dụ
mẫu về các lớp kết cấu như là một tập huấn luyện, bộ phân loại sẽ sử dụng các mẫu này để học về tính chất của kết cấu Phân loại không giám sát không yêu cầu tri thức về các mẫu huấn luyện cho trước Nó có thể tự động nhận ra các lớp khác nhau từ các mẫu đầu vào Một loại phân loại kết cấu khác ít khi được sử dụng là
phân loại kết cấu nửa giám sát (Semi-supervised), loại phân loại này yêu cầu một
phần nhỏ tri thức cần phải biết trước cho nhận dạng
Quá trình phân loại bao gồm hai trạng thái chính Thứ nhất là quá tình xác định các đặc trưng của kết cấu, tùy vào từng ứng dụng sẽ có các cách lấy đặc trưng khác nhau sao cho phù hợp và chính xác với mỗi loại kết cấu Các đặc trưng này sẽ được biểu diễn dưới dạng các độ đo đặc trưng Việc chọn các đặc trưng là đặc biệt quan trọng và thường phải đảm bảo các yêu cầu về sự không thay đổi với các thao tác chuyển ảnh như dịch ảnh, quay ảnh, hay phóng to, thu nhỏ ảnh Lý tưởng nhất là các độ đo định lượng của kết cấu đầu vào gần một cách tối đa với độ đo của các kết cấu tương tự Tuy nhiên việc thiết kế một bộ xác định kết cấu có khả năng ứng dụng một cách tổng thể là một vấn đề khó và
nó thường yêu cầu một số tri thức trong các lĩnh vực hẹp Trạng thái thứ hai là quá trình phân loại, bộ phân loại sẽ dựa trên các độ đo đặc trưng để phân các kết cấu đầu vào vào các lớp thích hợp Bộ phân loại được xem như một hàm với đầu vào
độ đo của các đặc trưng của kết cấu đầu vào và đầu ra là lớp kết cấu tương ứng
Trong phân loại có giám sát người ta thường sử dụng bộ phân loại K láng
giềng gần nhất (K-nearest neighbour) Đây là bộ phân loại mà kết cấu đầu vào
được xác định bằng cách tính toán khoảng cách với K trường hợp huấn luyện gần nhất Hàm khoảng cách được tính toán dựa trên không gian đặc trưng nhiều
Trang 11chiều Các khoảng cách Euclidean, Chi-square, và Kullback-Leibler là các khoảng cách được sử dụng chính để đo độ tương tự của hai vector đặc trưng Đây
là các phương pháp phân loại không tham số
Một số phương pháp phân loại khác dựa vào giả thiết về sự phân bố xác suất của vector đặc trưng thường được gọi với tên phân loại có tham số Phân loại kết cấu có thể sắp xếp các dữ liệu ảnh thành các thông tin có thể hiểu được một cách dễ dàng Điều này làm cho nó có nhiều ứng dụng rộng rãi trong các lĩnh vực như truy vấn ảnh dựa vào nội dung, các ứng dụng ảnh y học, các ứng dụng kiểm tra chất lượng công nghiệp hay các ứng dụng về nhận dạng vân tay, mặt người, tròng mắt trong các ứng dụng về an ninh sinh trắc học …
Phân đoạn kết cấu
Phân đoạn kết cấu là các loại ứng dụng phân chia một ảnh thành các vùng riêng biệt dựa vào thuộc tính kết cấu của bề mặt của các vùng Các vùng này là các vùng có cùng một thuộc tính kết cấu nào đó Kết quả của quá trình phân đoạn dựa vào kết cấu có thể làm đầu vào cho các quá trình xử lý và phân tích ảnh về sau (chẳng hạn như nhận dạng đối tượng) Cũng như quá trình phân loại kết cấu, phân đoạn kết cấu cũng gồm hai trạng thái chính là xác định các độ đo đặc trưng
và sử dụng các thông số để cô lập các kết cấu Tuy nhiên việc phân đoạn các kết cấu phải làm thêm việc dò được biên của các kết cấu đã được nhận dạng Các kỹ thuật phân đoạn kết cấu cũng có thể là giám sát hoặc không giám sát phụ thuộc vào thông tin được biết trước của ảnh hoặc các lớp kết cấu sẵn có
Phân đoạn kết cấu có giám sát xác định và phân biệt một hoặc nhiều vùng phù hợp với thuộc tính kết cấu được cung cấp trong mẫu huấn luyện Phân đoạn kết cấu không giám sát phải lấy các lớp kết cấu khác nhau từ một ảnh trước khi phân chúng thành các vùng So với việc phân đoạn kết cấu có giám sát thì việc phân đoạn không giám sát linh hoạt và phù hợp hơn với các ứng dụng thế giới thực, tuy nhiên việc thực hiện nó sẽ phức tạp và khả năng để tính toán sẽ cao hơn
Trang 12Việc phân đoạn một ảnh thành các miền có kết cấu đồng nhất có nhiều ứng dụng trong thực tế nhất là các ứng dụng nhƣ học máy và nhận dạng mẫu Ví
dụ nhƣ trong các ứng dụng phân tích GIS, phân đoạn kết cấu có thể áp dụng để
số hóa bản đồ hay phát hiện những thay đổi của phong cảnh từ các ảnh hàng không Hình 1.5 cho thấy một ví dụ về phân đoạn kết cấu Phân đoạn kết cấu có thể phân biệt thành các vùng khác nhau cho một ảnh hàng không Các vùng này
sẽ đƣợc quản lý dựa vào hệ thống GIS cho sử dụng
Hình 1.5: Ví dụ về phân đoạn kết cấu (a)Ảnh đầu vào (b)Vùng cánh đồng (c)Vùng dân cƣ (d)Vùng thực vật
Trang 13ít, tuy thế người xem vẫn không có cảm giác cảnh bị lặp lại) Kết cấu được tổng hợp sẽ khác với mẫu kết cấu đầu vào nhưng vẫn phải đảm bảo tính chất đồng nhất về kết cấu đối với quan sát của con người Một trong những ưu điểm chính của các kỹ thuật tổng hợp kết cấu là việc điều khiển các điều kiện ở biên của mẫu kết cấu để kết cấu được tổng hợp không có cảm giác bị lặp lại đơn điệu và do đó
sẽ không có cảm giác đồng nhất về mặt kết cấu cho quan sát So với phân loại và phân đoạn kết cấu việc tổng hợp kết cấu được xem là khó khăn hơn vì nó phải yêu cầu các mô tả kết cấu một cách chi tiết hơn nhiều so với các biểu diễn đặc trưng của các ứng dụng phân loại và phân đoạn kết cấu Hơn nữa việc tạo lại kết cấu hiển nhiên sẽ là khó hơn nhiều so với việc hiểu và sử dụng chúng trong các ứng dụng khác Các ứng dụng của tổng hợp kết cấu phổ biến như các ứng dụng
về biên tập ảnh, tổng hợp video hay ảnh nhân tạo
Hình 1.6: Ví dụ về tổng hợp kết cấu
Tạo hình ảnh từ kết cấu
Tạo hình ảnh từ kết cấu là các ứng dụng mà phải ước lượng hình dạng của mặt phẳng 3 chiều dựa trên việc phân tích tính chất của kết cấu ảnh hai chiều Tính đồng nhất và tính đẳng hướng có thể cung cấp thông tin về hình dạng của bề mặt 3 chiều Độ nghiêng của kết cấu có thể bị ảnh hưởng là do ảnh được xem ở một góc nghiêng nào đó Từ các góc nghiêng này người ta có thể suy ra các tham
số về hình dạng của bề mặt hay sử dụng các thao tác chuyển đổi Thông qua các
Trang 14góc nghiêng và hướng này chiều sâu của đối tượng ảnh có thể được khôi phục Cũng dựa vào các thông số của kết cấu này người ta có thể suy ra được bố trí của các đối tượng trong ảnh
Hình 1.7: Ứng dụng tạo lại hình ảnh trong lĩnh vực ảnh y học 1.2 Phát hiện đối tượng dựa vào kết cấu
1.2.1 Phát hiện đối tượng
Phát hiện đối tượng hay phát hiện đối tượng trong một ảnh thực chất là hoạt động tìm lớp các đối tượng nào đó được định nghĩa trước trong ảnh [14] Nó cũng được xem như một ứng dụng của nhận dạng mẫu Người ta thường xem phát hiện đối tượng ảnh như là một chức năng con trong các ứng dụng về phân tích ảnh và thị giác máy tính Trong một hệ thống CV điển hình các thành phần chính được sử dụng theo tuần tự sau:
- Thu nhận ảnh
- Xử lý nâng cao chất lượng ảnh đầu vào
- Phân đoạn ảnh thành các đối tượng quan sát
- Trích chọn các đặc trưng của đối tượng
- Phân loại đối tượng
Trang 15- Mô tả và giải thích kết quả đầu ra
Hình 1.8 : Các thành phần một hệ thống CV điển hình
Nhiều ứng dụng của CV đã được áp dụng, từ nhận dạng chữ viết, phân đoạn và số hóa bản đồ, cho đến các ứng dụng về phân tích ảnh trong y học, giám sát hệ thống giao thông, điều khiển robot hay các lĩnh vực đảm bảo an toàn an ninh cho quân sự Tùy vào các ứng dụng cụ thể các thành phần chính trên sẽ có
sự thay đổi khác nhau về kỹ thuật cũng như cách thức sử dụng Cũng tùy vào từng ứng dụng mà chức năng phát hiện đối tượng được áp dụng một cách khác nhau Ví dụ, trong một hệ thống giám sát giao thông, các đối tượng trong ảnh sau khi đã được tiền xử lý để nâng cao chất lượng ảnh sẽ được phân thành vùng các đối tượng khác nhau dựa vào biên của chúng Các ảnh sau khi đã được phân vùng
sẽ được xử lý bởi hệ thống hiểu ảnh hay một hệ thống phân loại Xe hơi hay xe tải sẽ được gán những nhãn khác nhau cho hệ thống để hệ thống có thể đưa ra
những quyết định cuối cùng một cách chính xác như “số lượng xe tải tham gia
giao thông trong ngày” hay “có bao nhiêu phương tiện giao thông không được phép qua lại trên tuyến đường này mỗi ngày” Trong trường hợp này hệ thống
phát hiện đối tượng có vai trò quan trọng trong việc phân loại các đối tượng phương tiện giao thông một cách chính xác Một ví dụ khác là hệ thống cảnh báo hỏa hoạn, hệ thống phát hiện đối tượng có vai trò quan trọng trong việc phân loại
Trang 16chính xác đối tượng là lửa, khói hay chỉ là những vật thể cùng màu như màu áo của người qua đường, băng rôn cổ động,…để có thể đưa ra cảnh báo chính xác
về hỏa hoạn Xét về tổng quát chức năng cơ bản của hệ thống phát hiện đối tượng ảnh là xây dựng một bộ phân loại để xác định xem lớp đối tượng quan sát có nằm trong một phần của ảnh hay không
Để thực hiện công việc này, về mặt kỹ thuật ta có thể xem công việc của
chức năng phát hiện đối tượng ảnh bao gồm hai thành phần chính là xác định và biểu diễn đặc trưng từ đối tượng ảnh (các đối tượng này được phân đoạn và xác định từ trước) và phân loại đối tượng ảnh thành các đối tượng cho mục đích
phát hiện đối tượng ảnh
Hình 1.9: Sơ đồ một hệ thống giám sát giao thông
Phát hiện đối tượng là một chức năng trong hệ thống
Có thể có nhiều các định nghĩa khác nhau cho một hệ thống phát hiện đối tượng ảnh Tuy nhiên hai thành phần trên được xem là chính yếu để hình thành nên hệ thống Trong khuôn khổ của luận văn này việc xác định các kỹ thuật cũng như thiết kế, so sánh, đánh giá giữa các hệ thống phát hiện đối tượng sẽ được thực hiện dựa trên hai thành phần chủ yếu trên Có rất nhiều các kỹ thuật được phát triển để thực hiện hai chức năng trên, ta sẽ đề cập đến các kỹ thuật này ở phần sau
Trang 171.2.2 Các thành phần của hệ thống phát hiện đối tượng
Về cơ bản có một số kỹ thuật biểu diễn các đặc trưng của ảnh thường được áp dụng dựa trên các đặc trưng dễ nhận thấy của ảnh như: các đặc trưng về không gian, các đặc trưng về màu sắc, các đặc trưng về hình dạng và các đặc trưng về kết cấu Các đặc trưng về màu sắc thường được sử dụng cho những hệ thống mà thông tin về màu sắc là một thành phần quan trọng trong phát hiện đối tượng Một số biểu diễn đặc trưng phổ biến là moment màu, lược đồ màu, vector gắn kết màu, sơ đồ tương quan màu hay các đặc điểm bất biến màu [4,6,7,8,12] Các đặc trưng về hình dạng liên quan nhiều đến các phương pháp phát hiện và biểu diễn biên, các bất biên moment, góc xoay/hàm xoay, độ tròn/độ lệch tâm/hướng trục chính, các mô tả Fourier [4,17] Các đặc trưng về kết cấu lại thường được sử dụng một cách kết hợp với các thành phần biểu diễn đặc trưng khác hoặc trong những trường hợp đối tượng phát hiện chỉ mang thông tin về kết cấu
Một số biểu diễn của đặc trưng kết cấu như phổ năng lượng Fourier, ma trận đồng khả năng, Tamura, Phân tích Wold, trường ngẫu nhiên Markov, các bộ lọc đa phân giải như biến đổi Gabor và biến đổi dạng sóng, các toán tử hình thái
Trang 18[2,4,6,8,11,12] Việc biểu diễn các đặc trưng kết cấu sẽ được đề cập rõ hơn trong chương 2 của luận văn này Các đặc trưng này thường được dùng để áp dụng cho các đối tượng trong ảnh một cách tổng thể hay cục bộ hoặc các đặc trưng kết hợp
Với các đặc trưng toàn cục, các tính chất của toàn bộ miền biểu diễn của đối tượng được xem xét Đó có thể là các đặc trưng về hình dạng như diện tích, chu vi, hay mô tả Fourier, moments hoặc các đặc trưng về kết cấu nếu đối tượng
là miền đồng nhất mang tính kết cấu cao,… Tính toàn cục thể hiện ở việc xem xét tất cả các điểm trong miền đối tượng hoặc toàn bộ các điểm trên biên kín biểu diễn đối tượng ảnh
Việc mô tả đặc trưng phải xem xét đến tất cả các điểm, vị trí , tính chất về
độ sáng, và quan hệ không gian Một mô tả đặc trưng cũng phải đủ mạnh để mô
tả đối tượng khi ảnh được quay, độ sáng thay đổi, hay co giãn với các tỷ lệ khác nhau Với các đặc trưng cục bộ, một số phần nhỏ riêng biệt của miền đối tượng được sử dụng làm biểu diễn đặc trưng Độ cong và các thuộc tính liên quan, được tính toán trên biên hoặc trên bề mặt thường được sử dụng làm các đặc trưng phổ biến Các góc (các điểm với độ cong cao) hay các phân đoạn của biên cũng là một trong những thành tố để biểu diễn đặc trưng cục bộ của đối tượng Với các đặc trưng kết hợp, các đặc trưng sử dụng dựa trên vị trí tương đối của các đối tượng cục bộ và các đặc trưng cục bộ Vị trí tương đối này có thể là khoảng cách
và các số đo về hướng, chiều liên kết liên quan
Phân loại đối tượng ảnh
Sau khi xác định được các đặc trưng thích hợp của đối tượng thì việc tiếp theo của một hệ thống phát hiện đối tượng là phân loại kết cấu và phát hiện đối tượng cần Khi số các mẫu trong cơ sở dữ liệu lớn, và số đối tượng cần phải phân loại nhiều thì phải có các kỹ thuật khác nhau để hỗ trợ cho việc phân loại chính xác Các kỹ thuật này có thể khác nhau từ đơn giản đến phức tạp, có thể kết hợp nhiều bộ phân loại với nhau để tạo ra một bộ phân loại nhiều tầng để tăng độ chính xác Tuy nhiên, theo [14], có thể quy về hai loại kỹ thuật chính sử dụng mạng Neural trong phân loại đối tượng ảnh là phân loại có giám sát và phân loại
Trang 19không giám sát phụ thuộc vào tập ví dụ mẫu sẵn có Phân loại có giám sát
(Supervised Classification) hay còn gọi là học có giám sát (là loại kỹ thuật yêu
cầu thông tin về tập đối tượng mẫu để huấn luyện, đối tượng mới sẽ được phân biệt nhờ hệ thống đã được huấn luyện) Các kỹ thuật phân loại này có thể dựa
trên mô hình phụ thuộc hàm phân bố (Statistical), có thể có tham số (như phân
bố Gaussian) hoặc không tham số và mô hình không phụ thuộc hàm phân bố
(Distribution - free) Phân loại không giám sát (Nonsupervised Classification) là
loại phân loại sử dụng kỹ thuật mà không cần thông tin trước về đối tượng mẫu,
hệ thống sẽ tự nhận ra thông tin về đối tượng để phân loại Trong [16], với giả sử các đặc trưng cho một đối tượng được biểu diễn trong một không gian N chiều, một số kỹ thuật phân loại thường được dùng trong phân loại đối tượng được thể hiện một cách toán học và rõ ràng hơn
Phân loại láng giềng gần nhất (Nearest Neighbor Classifiers):
Giả sử rằng đối tượng mẫu đại diện cho mỗi lớp đã biết và đặc trưng biểu diễn của nó cho lớp thứ i là fij, j = 1, , N Với mỗi tính toán đặc trưng của đối tượng U chưa biết được biểu diễn bởi uj, j = 1, , N
O 1
O 2
O 3
O 4
Hình 1.10: Đối tượng được phân loại dựa vào khoảng cách
Để quyết định lớp nào là lớp chứa đối tượng, người ta tính toán độ tương tự của biểu diễn đặc trưng đối tượng với các điểm trong mỗi lớp của không gian đặc trưng và gán nó tới lớp có độ tương tự gần nhất Độ tương tự được tính bằng cách tính khoảng cách Euclidean hoặc tổ hợp các đặc trưng với trọng số bất kỳ Tổng quát, khoảng cách dj của đối tượng đầu vào và lớp thứ j được đo bởi công thức:
Trang 20 1/2
N
1 i
2 ij j
R min d d
Một vấn đề đặt ra khi sử dụng giải thuật láng giềng gần nhất này là điểm nào trong không gian đặc trưng sẽ là điểm đại diện cho lớp để có thể tính khoảng cách tới điểm đặc trưng đầu vào Một lớp có thể chứa nhiều đối tượng, được thể hiện bằng cụm các điểm trong không gian đặc trưng như trong hình 1.10:
Hình 1.11: Một lớp được thể hiện bằng cụm các điểm Người ta giải quyết vấn đề này bằng cách chọn điểm đại diện cho lớp là điểm trọng tâm của cụm hoặc chọn điểm trong lớp có khoảng cách gần với điểm đầu vào nhất
Phân loại Bayes (Bayesian Classifier)
Phân loại Bayes được sử dụng cho phát hiện đối tượng khi phân bố của các đối tượng không dễ dàng nhận biết như trường hợp phân loại láng giềng gần nhất Trong thực tế với các giá trị vector dùng để tính các biểu diễn đặc trưng, có nhiều vector đặc trưng của các đối tượng khác nhau lại có giá trị trùng nhau Lúc này biểu diễn của các lớp bằng các giá trị số nhiều chiều không hẳn đã phù hợp Một biểu diễn bằng hàm mật độ xác suất cho các giá trị biểu diễn đặc trưng
Trang 21thường được sử dụng Trên cơ sở đó cách phân loại Bayes thường được sử dụng
để lấy được kết quả phân loại chính xác
Hình 1.12: Hàm mật độ xác suất có điều kiện các giá trị đặc trưng
Trong cách phân loại này, những thông tin xác suất về các đặc trưng được
sử dụng Giả sử ta biết xác suất sẽ xuất hiện của một đối tượng thuộc lớp j là
là x theo công thức Bayes sau:
x p
w P w x p x w
Với p x p x w P w
N
1 j
j j
sử dụng trong các hệ thống thực tế, nhất là các ứng dụng truy vấn ảnh theo nội dung Khác nhau duy nhất so với các bộ phân loại đã kể trên là khác nhau của hàm tính khoảng cách và tiêu chuẩn để phân loại Để thuận tiện cho việc trình bày các kỹ thuật này chúng ta đưa ra một số ký hiệu chung được dùng trong tất
Trang 22cả các phương pháp dưới đây: ký hiệu D(I,J) là số đo khoảng cách (về độ tương tự) giữa ảnh mẫu I (đối tượng đầu vào) và một ảnh J bất kỳ và f i (I) là số điểm ảnh
trong bin thứ i của ảnh (đối tượng ảnh) I
Khoảng cách Minkowski
Nếu mỗi kích thước của vector đặc trưng của ảnh là độc lập với nhau và
có độ quan trọng như nhau thì khoảng cách Minkowski L p là thích hợp để tính toán khoảng cách giống nhau giữa hai ảnh Khoảng cách này được tính như sau:
p
i
p i
i I f J f
J
I
D
/ 1
)()()
trong đó p = 1, 2 và , D(I, J) tương ứng là L 1 , L 2 (còn gọi là khoảng cách
Euclide) và L Khoảng cách Minkowski là phép đo được sử dụng nhiều nhất
trong tra cứu ảnh Một trường hợp đặc biệt của khoảng cách L 1 là tập giao nhau
của các histrogram Giao của hai histogram I và J được định nghĩa như sau:
J f I f j
))(),(min(
Khoảng cách toàn phương
Cách đo khoảng cách Minkowski coi tất cả các bin của histogram đặc trưng độc lập hoàn toàn với nhau và không dựa trên một thực tế là có các cặp bin xác định tương ứng với những đặc trưng quan trọng hơn trong việc đánh giá sự tương tự giữa hai ảnh hơn là các cặp khác
Để khắc phục nhược điểm này, người ta đưa ra cách tính khoảng cách toàn phương như sau:
)(
)(
),
(I J F I F J T A F I F J
trong đó A = [a ij ] là ma trận độ tương tự và mỗi phần tử a ij là độ tương tự
giữa bin i và bin j F I và F J là các vector liệt kê tất cả các đề mục của f i (I) và f i (J)
Trang 23Khoảng cách toàn phương được sử dụng trong nhiều hệ thống tra cứu dựa trên histogram màu
Khoảng cách Mahalanobis
Phương pháp đo khoảng cách Mahalanobis sử dụng thích hợp nhất khi các chiều của vector đặc trưng không độc lập với nhau và có độ quan trọng khác nhau Công thức định nghĩa khoảng cách Mahalanobis là:
)(
)(
),
(I J F I F J T C 1 F I F J
trong đó C là ma trận hiệp biến của các vector đặc trưng
Cách tính khoảng cách Mahalanobis có thể được đơn giản hoá nếu các chiều của vector đặc trưng độc lập với nhau, chỉ một phương sai của mỗi thành phần đặc trưng ci là cần thiết, khi đó:
I F c F
) ,
(
Độ phân kỳ Kullback-Leibler và độ phân kỳ Jeffrey
Độ phân kỳ Kullback-Leibler giữa hai ảnh I và J được định nghĩa là:
i i
J f
I f I f J
I
D
)(
)(log)()
,
(
KL thường được sử dụng để đánh giá độ tương tự về kết cấu
Độ phân kỳ Jeffrey được định nghĩa là:
i i
i
i i
f
J f J f f
I f I f J
I
D( , ) ( )log (^) ( )log (^ )
Trong đó fi^ = [fi(I) + fi(J)]/2 Khác với độ phân kỳ KL, độ phân kỳ Jeffrey
có tính đối xứng cao
Trang 241.2.3 Vai trò của kết cấu trong phát hiện đối tượng
Như đã nêu ở phần trước, việc biểu diễn các đặc trưng của đối tượng ảnh đóng một vai trò đặc biệt trong các ứng dụng CV nói chung và phát hiện đối tượng nói riêng Thông tin về kết cấu của bề mặt đối tượng là một trong những thành tố quan trọng, không thể bỏ qua và đôi khi là duy nhất có trong ảnh để có thể lấy được các đặc trưng của đối tượng Trong các ứng dụng giám sát giao thông, hoặc kiểm tra chất lượng sản phẩm công nghiệp thì thông tin về kết cấu đã được sử dụng để tăng độ chính xác cho việc sử dụng các thông tin màu sắc đơn thuần [1,3] Trong một số ứng dụng khác như điều khiển chất lượng sản xuất vải sợi, so sánh ảnh mây vệ tinh hay địa chất thì việc sử dụng thông tin kết cấu là gần như là bắt buộc vì các thông tin về màu sắc, hình dạng không thể hiện được trong
hệ thống [11] Thông tin kết cấu cũng có thể được sử dụng trong phân tích ảnh y học, xác thực cho các hệ thống an toàn dựa vào sinh trắc học, truy vấn ảnh dựa vào nội dung, phân tích tài liệu, hay mô hình hóa môi trường,…
Khi thiết kế một hệ thống phát hiện đối tượng, các công cụ và kỹ thuật thích hợp sẽ được chọn lọc để tối ưu cho từng bước của các thành phần hệ thống Tuy nhiên, thực tế không có một kỹ thuật nào là phù hợp một cách tổng thể cho tất các ứng dụng trong việc phát hiện đối tượng Việc sử dụng thông tin về kết cấu để phát hiện đối tượng cũng không phải là ngoại lệ Đối với từng thành phần của hệ thống việc sử dụng thông tin kết cấu có những khó khăn riêng
Biểu diễn đối tượng hoặc mô hình
Các đối tượng trong mô hình và trong cơ sở dữ liệu được biểu diễn theo kết cấu như thế nào? Biểu diễn đó có thể hiện chính xác thông tin kết cấu của bề mặt hay không? Các kết cấu mang tính trật tự cao (thường do con người tạo ra như kết cấu về gạch, vải sợi, hoa văn gạch men – kết cấu tĩnh) sẽ có thể được thể hiện và thực hiện rất tốt bằng các kỹ thuật biểu diễn có cấu trúc Trong khi đó, với các kết cấu dạng khói, lửa trong các ứng dụng cảnh báo hỏa hoạn (kết cấu động) thì biểu diễn theo hướng có cấu trúc lại không thích hợp
Trang 25Các kỹ thuật biễu diễn kết cấu ngẫu nhiên theo cách thống kê tỏ ra rất hữu dụng để biểu diễn theo dạng kết cấu động này Chương 2 sẽ trình bày một cách
rõ ràng hơn về các kỹ thuật biểu diễn cho các loại thông tin kết cấu khác nhau Tuy nhiên với nhiều mô hình biểu diễn đối tượng có thể rất hữu dụng vì độ chính xác nó mang lại nhưng lại rất nặng nề về xử lý nhất là trong các ứng dụng yêu cầu về thời gian thực, các ứng dụng loại này yêu cầu thời gian xử lý phải tính bằng thời gian để xử lý một khung hình của cảnh thực Thêm nữa cách biễu diễn này có hữu dụng (có nhận ra được đối tượng) khi ảnh bị co giãn hoặc các đối tượng bị quay đi theo một góc nào đó Phần 2.3 sẽ trình bày một phương pháp kết hợp cả tiếp cận có cấu trúc và tiếp cận thống kê để biểu diễn thông tin cấu trúc Đối với từng loại ứng dụng phát hiện đối tượng dựa vào kết cấu khác nhau, việc xác định được mô hình biểu diễn thông tin kết cấu thích hợp là vô cùng quan trọng
Phát hiện đối tượng
Các đặc trưng kết cấu của đối tượng phù hợp với các mô hình kết cấu trong cơ sở dữ liệu như thế nào? Trong nhiều trường hợp, với việc kết hợp nhiều đặc trưng và nhiều đối tượng khác nhau, với một phương pháp phân loại để phát hiện đối tượng toàn diện có thể dẫn đến việc chậm chạp trong xử lý bất kể tính hữu dụng của nó
Trang 26CHƯƠNG 2: CÁC PHƯƠNG PHÁP BIỂU DIỄN
KẾT CẤU
Có rất nhiều các phương pháp khác nhau được nghiên cứu để biểu diễn kết cấu trong lĩnh vực computer vision Về cơ bản có hai cách tiếp cận khác nhau
cho biểu diễn kết cấu là cấu trúc (Structural) và thống kê (Statistical) [1] Trong
cách tiếp cận cấu trúc, kết cấu được biểu diễn bằng các phần tử cơ bản trong cấu trúc (xác định bằng các toán tử hình thái) của bề mặt và quy tắc sắp đặt của chúng (theo biểu diễn đồ thị liền kề, lược đồ cơ bản) Cách tiếp cận này rất phù hợp cho những kết cấu bề mặt mà biểu diễn hình học của các phần tử cơ bản được sắp xếp, phân bố đều đặn và lặp lại một cách thường xuyên (kết cấu nhân tạo) Cách tiếp cận thống kê ( [4,5,6,7]) mô tả kết cấu bề mặt như là các phân bố thống kê của các mức xám các điểm trong ảnh
Theo một cách phân loại khác [18], việc biểu diễn thông tin kết cấu lại có thể phân theo bốn cách tiếp cận chính Biểu diễn kết cấu hình học, biểu diễn kết cấu thống kê, biểu diễn kết cấu dựa vào mô hình và biểu diễn kết cấu dựa trên kỹ thuật xử lý tín hiệu số Phần tiếp theo của chương này sẽ trình bày một số phương pháp biểu diễn kết cấu điển hình theo cách phân loại trên [18] Tuy nhiên trên thực tế với những ứng dụng thời gian thực như phân loại đối tượng giao thông, hay cảnh báo hỏa hoạn, kiểm tra chất lượng sản phẩm công nghiệp, thì các một số phương pháp tiếp cận hiệu quả trong việc phân tích kết cấu nhưng lại
tỏ ra rất phức tạp và khó có thể đáp ứng yêu cầu về tốc độ thời gian thực nếu chỉ thực hiện bằng phần mềm đơn thuần Chúng thường phải thực hiện trực tiếp bằng phần cứng, đi kèm với thiết bị xử lý tín hiệu số DSP
Một số phương pháp biểu diễn kết cấu kết hợp của các phương pháp trên được sử dụng cho một số loại kết cấu và ứng dụng đặc thù để đáp ứng yêu cầu về
sự đơn giản, tốc độ, thời gian của các ứng dụng thời gian thực Phương pháp dựa vào Local Binary Pattern là một ví dụ của loại phương pháp kết hợp giữa biểu diễn kết cấu thống kê và cấu trúc đã được sử dụng trong nhiều ứng dụng thực tế
Trang 27của xử lý ảnh [1, 10, 11] Chương ba của luận văn sẽ áp dụng phương pháp này nhằm đưa ra một phương pháp góp phần giải quyết yêu cầu bài toán điều khiển chất lượng công nghiệp trong thực tế
2.1 Biểu diễn hình học
Không phức tạp như các phương pháp thông kê với nhiều biểu diễn khác nhau, phương pháp biểu diễn kết cấu theo hình học (Geometrical) dựa vào những đặc trưng hình học của các phần tử kết cấu cơ bản Phương pháp này phù hợp nhất với các kết cấu bề mặt được sắp xếp một cách có chu kỳ xác định Việc biểu diễn thông tin theo phương pháp hình học đơn thuần là việc xác định các phần tử
cơ bản của kết cấu (Texel) và quy tắc sắp đặt của chúng trên bề mặt đối tượng
Các phần tử này được lặp đi lặp lại một cách có quy tắc, xác định hoặc ngẫu nhiên Mỗi phần tử cơ bản này được cô lập bằng cách xác định một nhóm các điểm có thuộc tính không đổi nào đó Các phần tử cơ bản này có thể được biểu diễn mức xám của chúng, bởi hình dạng, hoặc tính đồng nhất của một số đặc tính cục bộ như kích cỡ, hướng, hay lược đồ bậc hai (ma trận đồng khả năng) Quy tắc sắp đặt sẽ định nghĩa quan hệ không gian giữa các phần tử cơ bản Quan hệ không gian này lại có thể được biểu diễn bởi các thuộc tính như liền kề, khoảng cách gần nhất, sự tuần hoàn, trong trường hợp các quy tắc sắp đặt này là xác
định Trong truờng hợp này kết cấu được xem như là mạnh (strong) Với trường
hợp các phần tử cơ bản của kết cấu được sắp đặt một cách ngẫu nhiên, kết cấu được xem như là yếu và thường ít khi sử dụng phương pháp biểu diễn kết cấu bằng hình học cho các ứng dụng phân tích kết cấu
Một phương pháp được dùng phổ biến trong các ứng dụng tổng hợp kết cấu là biểu diễn quan hệ giữa các phần tử cơ bản trong ảnh bằng biểu đồ Voronoi (đôi khi gọi là đa giác Voronoi) với các phần tử cơ bản là các biên của đối tượng ảnh [18] Các ứng dụng phân đoạn ảnh có tính kết cấu thường hay sử dụng kỹ thuật biểu diễn với các đa giác Voronoi này Hình 2.1 là một kết quả minh họa sử dụng phương pháp biểu diễn này cho một ứng dụng kết cấu Với (a) là ảnh gốc, (b) là ảnh được tiền xử lý với bộ lọc để dò các biên ảnh, (c) là kết quả phân đoạn
Trang 28với các đặc trưng kết cấu sử dụng từ biểu đồ Voronoi Việc biểu diễn kết cấu theo phương pháp hình học nói chung phụ thuộc rất nhiều vào các kỹ thuật xử lý ảnh cho việc trích chọn được phần tử cơ bản Các kỹ thuật xử lý ảnh trước khi biểu diễn các đặc trưng kết cấu có thể bao gồm việc dò biên với lọc Laplacian hoặc với các biến thể của lọc Gaussian, trích chọn các miền phù hợp để tìm ra các phần tử cơ bản Sau khi xác định được các phần tử cơ bản, các đặc trưng kết cấu sẽ được xác định bằng cách thống kê phần tử cơ bản hoặc giải mã quy tắc sắp đặt của các phần tử cơ bản này để biểu diễn dưới dạng đồ thị
Một cách biểu biễn quy tắc sắp đặt các phần tử cơ bản khác là theo cây văn phạm Đặc trưng của kết cấu được xem như một chuỗi trong ngôn ngữ được định nghĩa bởi văn phạm và kết thúc của một chuỗi là một phần tử cơ bản Phương pháp này được xem như một phương pháp cải tiến cho việc tạo ra các kết cấu và các ứng dụng phân tích kết cấu khác
Hình 2.1: Một ví dụ về phân đoạn kết cấu theo mô hình biểu đồ Voronoi 2.2 Biểu diễn thống kê
Với các bề mặt tự nhiên, các kết cấu được sắp xếp một cách ngẫu nhiên và không thể hoặc rất khó để tìm được quy tắc sắp đặt nào phù hợp để có thể biểu
Trang 29diễn một cách toán học và có thể lập trình được Với các kết cấu loại này một loạt các kỹ thuật mang tính thống kê được đề xuất để biểu diễn cho mô tả kết cấu một cách toán học [4, 5, 6, 7, 8] Phương pháp thống kê phân tích sự phân bố không gian của các mức xám bằng cách tính toán các đặc trưng cục bộ tại mỗi điểm ảnh Các dạng biểu diễn thống kê khác nhau của các đặc trưng cục bộ này
sẽ được sử dụng để làm vector đặc trưng cho kết cấu Phương pháp biểu diễn thống kê có thể phân ra thành biểu diễn bậc một (một điểm ảnh), biểu diễn bậc hai (hai điểm ảnh), biểu diễn bậc cao hơn (với nhiều điểm ảnh hơn) dựa vào số điểm ảnh định nghĩa đặc trưng cục bộ Thống kê bậc một thường là các ước lượng thuộc tính thống kê như trung bình, phương sai của các giá trị mức xám của các điểm ảnh riêng lẻ mà không quan tâm đến quan hệ không gian giữa các điểm ảnh Các thống kê bậc hai hoặc cao hơn, ước lượng các thuộc tính của hai hoặc nhiều giá trị các mức xám của các điểm ảnh có những quan hệ lẫn nhau nào
đó giữa các điểm Các biểu diễn đặc trưng như ma trận đồng xuất hiện hay sự khác nhau giữa các mức xám hay đặc trưng Tamura là những biểu diễn thống kê được sử dụng rộng rãi nhất Chương ba của luận văn sẽ trình bày một phương pháp dựa trên cách biểu diễn thống kê này để áp dụng cho bài toán phát hiện đối tượng với đối tượng có bề mặt kết cấu có cấu trúc nhỏ với toán tử đơn giản Local Binary Pattern Ngoài ra các biểu diễn thống kê khác cũng được sử dụng rộng rãi trong các hệ thống phân tích kết cấu như biểu diễn hàm tự tương quan
(Autocorrelation Function) dùng để mô tả tính trật tự và độ thô của kết cấu hay biểu diễn loạt dài mức xám (Run Lengths) [18] Dưới đây sẽ trình bày một cách
tổng quát một số phương pháp chính sử dụng kỹ thuật thống kê được công bố và
sử dụng trong các hệ thống phát hiện đối tượng cũng như phân tích kết cấu
Các đặc trưng Tamura (Tamura Features)
Các đặc trưng Tamura bao gồm độ thô, độ tương phản, độ định hướng, độ
tuyến tính, độ đồng đều và độ gồ ghề, được thiết kế phù hợp với sự cảm nhận của
thị giác con người đối với kết cấu Ba thành phần đầu tiên của các đặc trưng Tamura là độ thô, độ tương phản và độ định hướng thường được dùng nhiều nhất
Trang 30trong một số hệ thống tra cứu ảnh Cách tính toán các đại lượng đặc trưng này được thực hiện như sau:
Độ thô
Độ thô được dùng để đo tính chất hạt của kết cấu Để tính toán độ thô, tại mỗi điểm ảnh (x,y) ta tính toán một trung bình động (average moving) Ak(x,y) sử dụng một cửa sổ kích thước 2k
x2k (k = 0, 1, , 5):
k y
y j x
x i k
k
k k
k
j i g y
x
1 2
2
1 2
2
2/),()
,
(
1 1 1
trong đó g(i,j) là độ sáng của điểm ảnh ở vị trí (i,j)
Bước tiếp theo là tính toán sự khác nhau giữa các cặp trung bình động không chồng lấn lên nhau theo chiều dọc và chiều ngang của các điểm ảnh:
|),2(),2(
|),
E k h k k k k
| ) 2 , ( ) 2 , (
| ) ,
k v
i
n m
F
1 1
),(
1
Ngoài ra người ta cũng có thể tính toán độ thô bằng cách sử dụng histogram để tính toán sự phân bố của Sbest Nếu so sánh với việc chỉ dùng một giá trị để thể hiện độ thô thì các tính toán độ thô kiểu histogram có thể giúp cải thiện đáng kể hiệu năng của hệ thống tra cứu ảnh vì cách này có khả năng phù hợp với các ảnh hoặc vùng ảnh có nhiều loại kết cấu
Trang 31Độ tương phản
Công thức tính độ tương phản như sau:
4 4
1
10
1
10
000
111
Trong đó H và V là các sai khác theo chiều ngang và chiều dọc của tích chập Sau đó bằng cách lượng tử hoá và đếm số điểm ảnh có trọng số |G| lớn
hơn một mức ngưỡng nào đó ta có thể xây dựng được histogram của và ký hiệu
là H D Histogram này sẽ có nhiều đỉnh cực đại nếu ảnh có độ định hướng cao, còn với những ảnh không có tính định hướng thì histogram này sẽ bằng phẳng hơn Cuối cùng, tính toán histogram tổng hợp của cả ảnh để xác định độ định hướng tổng thể dựa trên độ sắc của các đỉnh:
w
D p n
p
Trong công thức này, p chạy trên tất cả các đỉnh n p , và đối với mỗi đỉnh p,
w p là tập các bin phân bố trên đỉnh đó còn p là bin đạt giá trị tại đỉnh đó
Ma trận đồng xuất hiện (Co-occurrence Matrices)
Trang 32Ma trận đồng xuất hiện biểu diễn các đặc trưng kết cấu theo nghĩa khai thác mối quan hệ phụ thuộc không gian của các mức xám trong ảnh Một ma trận đồng xuất hiện biểu diễn tần suất xuất hiện của các cặp mức xám tương ứng với
các cặp điểm phụ thuộc riêng biệt với nhau như thế nào theo một khoảng cách d
và một góc a nào đó
Hình 2.2: Minh họa ma trận đồng xuất hiện mức xám
Sau khi ma trận đồng xuất hiện được xây dựng các thống kê hữu ích được chon lọc và tính toán từ ma trận để biểu diễn kết cấu của ảnh như phương sai, tương quan, trung bình tổng, độ tương phản, moment bậc hai góc, entropy, entropy tổng, trung bình cục bộ,…
Cách biểu diễn kết cấu bằng ma trận đồng khả năng thể hiện sự liên quan
về mặt không gian của các mức xám Định nghĩa toán học của ma trận đồng khả năng
được thực hiện như sau:
1 Giả sử có một toán tử vị trí P(i,j)
2 A là một ma trận kích thước n×n, phần tử A[i][j] biểu thị số lần mà các điểm có mức xám (độ chói) là g[i] và g[j] thoả mãn toán tử P
3 Đặt C là ma trận kích thước n×n tính được bằng cách chia ma trận A cho tổng số cặp điểm thoả mãn toán tử P C[i][j] là xác suất để một cặp điểm thoả mãn toán tử P có cặp giá trị g[i], g[j]