Bằng việc sử dụng đánh giá lựa chọn đặc trưng bằng hệ số biểu diễn thưa trong ngữcảnh học không giám sát, đề tài đã cho thấy sự hiệu quả của đề xuất thông qua quátrình thực nghiệm trên b
Trang 1Lựa chọn đặc trưng LBP Dựa trên quá trình học không giám sát và
Phương pháp biểu diễn thưa
Ứng dụng cho bài toán nhận dạng ảnh kết cấu màu
Trương Hoàng Vinh
Trang 2Danh sách hình vẽ 1
1.1 Biểu diễn ảnh màu 3
1.1.1 Hệ màu 3
1.1.2 Ảnh vân màu 5
1.1.3 Đặc trưng cho texture màu 7
1.1.4 Toán tử Local binary patterns 9
1.2 Phân loại ảnh texture 11
1.2.1 Ngữ cảnh học 12
1.2.2 Rút gọn dữ liệu 13
1.2.3 Bộ phân lớp K-láng giếng gần nhất (K-NN) 14
1.3 Kết luận 14
2 Lựa chọn đặc trưng 16 2.1 Phân nhóm các phương pháp lựa chọn đặc trưng 16
2.1.1 Ngữ cảnh học 18
2.1.2 Kỹ thuật đánh giá 19
2.2 Ký hiệu và biểu diễn dữ liệu 19
2.2.1 Biểu diễn dữ liệu dưới dạng đồ thị 20
2.2.2 Xây dựng đồ thị dựa trên phương pháp biểu diễn thưa 21
2.3 Lựa chọn đặc trưng LBP 22
2.4 Kết luận 24
3 Đề xuất và Kết quả 25 3.1 Hệ số thưa cho lựa chọn histogram 25
3.1.1 Ngữ cảnh biểu diễn LBP histogram 25
3.1.2 Hệ số dựa trên biểu diễn thưa 26
3.2 Kết quả thực nghiệm 26
3.2.1 Phương pháp đánh giá 26
3.2.2 Các bộ ảnh màu chuẩn 27
3.2.3 Kết quả 29
3.3 Kết luận 32
Trang 3Danh sách hình vẽ
1.1 Minh họa ảnh màu trong không gian màu RGB và 3 kênh màu tương ứng 4
1.2 Minh họa về sự biểu diễn màu sắc của lá cây trên các hệ màu khác nhau 5
1.3 Minh họa các texture khác nhau 5
1.4 Minh họa các điều kiện quan sát khác nhau của một texture 6
1.5 Minh họa phương pháp tính mã LBP 9
1.6 Điểm ảnh trung tâm với các kích thước khác nhau 10
1.7 Minh họa tính toán LBP màu dựa trên việc kết hợp thông tin từ 3 kênh màu 11
1.8 Minh họa phương pháp tính Opponent Color LBP 12
1.9 Minh họa hai texture khác nhau 13
1.10 Sơ đồ phân loại ảnh texture 13
1.11 Mô hình phân loại texture với bước rút gọn dữ liệu 14
1.12 Minh họa bộ phân lớp K-NN 14
2.1 Các bước của phương pháp lựa chọn đặc trưng 17
2.2 Phân loại phương pháp lựa chọn đặc trưng theo (a) ngữ cảnh học and (b) kỹ thuật đánh giá 18
2.3 Sơ đồ tổng quát lựa chọn đặc trưng trong ngữ cảnh học có giám sát 18
3.1 Bộ dữ liệu OuTex-TC-00013 với 69 lớp ảnh khác nhau 28
3.2 Minh họa một số lớp của bộ dữ liệu USPTex 29
3.3 Minh họa một số lớp của bộ dữ liệu STex 30
3.4 Minh họa bộ dữ liệu BakTex 31
3.5 Bộ ảnh New BarkTex 31
3.6 Độ chính xác và số lượng histogram được chọn với hệ số SpASL với 3 độ đo 32 3.7 Độ chính xác với số lượng histogram được chọn của bộ dữ liệu New BarkTex bởi hệ số thưa trong ngữ cảnh lựa chọn có giám sát và không giám sát trên 4 hệ màu khác nhau (RGB (a); HSV (b) ; I1I2I3 (c); Y CbCr (d)) 33
3.8 Độ chính xác với số lượng histogram được chọn của bộ dữ liệu Outex-TC-000013 bởi hệ số thưa trong ngữ cảnh lựa chọn có giám sát và không giám sát trên 4 hệ màu khác nhau (RGB (a); HSV (b) ; I1I2I3 (c); Y CbCr (d)) 33 3.9 Độ chính xác với số lượng histogram được chọn của bộ dữ liệu USPTex bởi hệ số thưa trong ngữ cảnh lựa chọn có giám sát và không giám sát trên 4 hệ màu khác nhau (RGB (a); HSV (b) ; I1I2I3 (c); Y CbCr (d)) 34
3.10 Độ chính xác với số lượng histogram được chọn của bộ dữ liệu STex bởi hệ số thưa trong ngữ cảnh lựa chọn có giám sát và không giám sát trên 4 hệ màu khác nhau (RGB (a); HSV (b) ; I1I2I3 (c); Y CbCr (d)) 34
Trang 4TÓM TẮT ĐỀ TÀI
Dữ liệu với số chiều kích thước lớn sẽ làm giảm hiệu suất tính toán vì trong đó cókhả năng sẽ xuất hiện các biến dữ liệu nhiễu, thừa và trùng lắp Xử lý và lưu trữ dữ liệunhư thế sẽ là một thách thức và điều cần thiết là cần phải chọn ra hoặc rút gọn mộttập con các biến dữ liệu có ý nghĩa nhất để rút gọn không gian lưu trữ và giảm độ phứctạp cũng như thời gian tính toán của hệ thống Để giải quyết bài toán phân loại ảnh vân(texture classification), các phương pháp lựa chọn đặc trưng có giám sát đa số dựa vàonhãn (label) để xác định các biến có ý nghĩa nhất Trong thập niên qua, có hàng trămphương pháp mô tả và biểu diễn đặc trưng ảnh khác nhau đã được đề xuất cho nhiều ứngdụng khác nhau trong ngành thị giác máy tính Một trong số đó, toán tử Local BinaryPatterns (LBP) được đánh giá là khá thành công trong việc biểu diễn ảnh bởi sự đơngiản và hiệu quả Mặc dù được áp dụng rộng rãi nhưng LBP vẫn tồn tại một số bất lợi,trong đó là việc sinh ra chiều dữ liệu khá lớn khi biểu diễn ảnh màu Nhằm khắc phụchạn chế đó, đề tài đề xuất nột phương pháp rút gọn chiều dữ liệu của LBP bằng phươngpháp biểu diễn thưa dựa trên quá trình học không giám sát
Bằng việc sử dụng đánh giá lựa chọn đặc trưng bằng hệ số biểu diễn thưa trong ngữcảnh học không giám sát, đề tài đã cho thấy sự hiệu quả của đề xuất thông qua quátrình thực nghiệm trên bốn bộ dữ liệu benchmark về ảnh màu: New BarkTex, OuTex-TC-00013, USPTex, STex Kết quả cho thấy rằng độ chính xác của việc lựa chọn đặctrưng cho histogram LBP trong ngữ cảnh có giám sát và không giám sát là như nhau
Trang 5Màu sắc là một yếu tố quan trọng trong hệ thị giác mắt người và trong xử lý ảnh kỹthuật số Màu sắc chứa đựng nhiều thông tin hơn ảnh xám và đã được chứng minh rằngthông tin hình ảnh trên ảnh màu có ý nghĩa và giúp tăng cường thông tin sai biệt cho bàitoán nhận dạng về mẫu [4, 57, 38, 37] Để biểu diễn và mô tả ảnh màu, cần thiết phải cókhông gian biểu diễn về vân (texture) và màu sắc Mục này sẽ giới thiệu một số khônggian màu phổ biến dùng trong phân tích ảnh, định nghĩa ảnh màu cũng như một số đặctrưng chính dùng để biểu diễn ảnh màu.
Màu sắc là cảm giác mang đến cho hệ thần kinh của người từ sự kết hợp tín hiệu của
ba loại tế bào cảm thụ màu ở mắt người Các dao động của điện trường trong ánh sángtác động mạnh đến các tế bào cảm thụ ánh sáng trong mắt người Có ba loại tế bào cảmthụ ánh sáng trong mắt người, cảm nhận 3 vùng quang phổ khác nhau (tức ba màu sắckhác nhau) Sự kết hợp cùng lúc 3 tín hiệu từ ba loại tế bào này tạo nên những cảm giácmàu sắc phong phú Để tạo ra hình ảnh màu trên màn hình, người ta cũng sử dụng baánh sáng ở 3 vùng quang phổ nhạy cảm của người [79]
Ảnh màu kỹ thuật số bao gồm ba hình ảnh thành phần và màu sắc của từng pixelđược mã hóa trong không gian màu ba chiều, xác định bởi hệ tọa độ màu Hầu hết cáchình ảnh màu được chụp bởi các thiết bị có mã màu trong không gian RGB Một điểmtrong không gian này được đặc trưng bởi ba thành phần của pixel tương ứng là màu đỏ(R), màu xanh lá cây (G ) và màu xanh lam (B ) Hình 1.1 minh họa một ví dụ về hìnhảnh màu với ba thành phần tương ứng Các không gian màu khác có thể được tính từkhông gian RGB bằng các phép biến đổi tuyến tính hoặc phi tuyến Trong vài năm qua,
Trang 6nhiều không gian màu, có các đặc tính về vật lý, sinh lý và tâm lý khác nhau đã được dềxuất Chúng được chia thành bốn nhóm như sau [76]:
Kênh màu Red
Kênh màu Green
Kênh màu Blue
Hình 1.1: Minh họa ảnh màu trong không gian màu RGB và 3 kênh màu tương ứng
1 Không gian màu chính được dựa trên lý thuyết ba màu, với giả định rằng có thểxem là phù hợp với bất kỳ màu nào bằng cách trộn lẫn thành phần của ba màuchính Chúng có thể được chia thành các nhóm nhỏ sau:
• hệ màu chính thực, với các hệ màu chính có thể sinh ra tương ứng ở mực thựcthể vật lý Ví dụ như hệ màu RGB
• hệ màu chính ảo, các hệ màu này không tồn tại ở mức vật lý Mỗi hệ màu cóthể được tạo ra từ hệ chính RGB như CIE XYZ [33]
Hệ màu chính có thể được chuẩn hóa bằng cách chia các kênh màu bởi tổng cácthành phần tương ứng từng kênh để thu về một kênh màu chuẩn hóa, ví dụ như hệmàu rgb [9] và xyz [33]
2 Các không gian màu sắc độ chói được bao gồm một thành phần đại diện chothông tin sắc nét (luminance), định lượng thông tin màu sắc với độ chói (chromi-nance) Các hệ màu tương ứng trong nhóm này có thể liệt kê như: AC1C2 [24],
bwrgby [72], L∗a∗b∗ , L∗u∗v∗ và U V W [33]
3 Các không gian màu độc lập là kết quả của các phương pháp phân tích thống
kê (Karhunen-Loeve Transform (KLT) or Principal Component Analysis (PCA))nhằm tạo ra các kênh màu ít tương quan nhất, ví dụ như hệ màu I1I2I3 được đềxuất bởi Ohta [53]
4 Các không gian màu nhận thức được tạo ra với sự nỗ lực nhằm định lượngmàu sắc chủ quan của con người bằng các yếu tố như cường độ, màu sắc và các
Trang 7thành phần bão hòa Một số hệ màu thuộc nhóm này như là ACC1C2hC1C2, L∗Cab∗ hab,
lá trong thế giới thực tốt hơn so với các hệ màu khác
Ảnh vân (texture image) thông thường sẽ chứa đựng một vật chất hoặc đối tượng nào
đó được biểu diễn bởi một thông tin về vân (texture) Ảnh 1.3 mô tả các minh họa về 4loại texture khác nhau (đá, gạch, cát và granit) từ bộ dữ liệu USPTex Texture thực sự
là một yếu tố quan trong của hệ thị giác người Hệ thống thị giác của con người có thểphân biệt khá hiệu quả việc mô tả các đặc điểm họa tiết bằng các tính từ như mịn hoặcthô, mịn hoặc thô, dạng hạt hoặc dạng sợi, đẳng hướng hoặc không đều và tương phản.Tuy nhiên, rất khó để xác định texture là gì trong khi con người dễ xác định dựa trên hệthị giác Cho tới thời điểm hiện tại, vẫn chưa có định nghĩa về texture sẽ được công nhận
và chấp nhận một cách thống nhất, và nhiều định nghĩa đã được đề xuất trong các tàiliệu về thị giác máy tính:
Hình 1.3: Minh họa các texture khác nhau
• Texture là một thuộc tính cơ bản của sự xuất hiện của hầu như tất cả các bề mặt
tự nhiên và đóng vai trò chính trong các hệ thống thị giác máy tính Texture cóthể cung cấp thông tin về các tính chất vật lý của các vật thể, như độ mịn hoặc độnhám hoặc sự khác biệt về độ phản xạ bề mặt, hoặc các màu sắc khác nhau [74]
Trang 8• Texture có thể được xem như một mô hình toàn cục phát sinh từ sự lặp lại của cácmẫu con địa phương [86].
• Một vùng trong ảnh có texture không đổi nếu một tập hợp các nhóm thành phầnđiểm ảnh không đổi hoặc thay đổi chậm [86]
Các định nghĩa khác nhau về texture dẫn đến nhiều cách khác nhau để phân tích vàdiễn giải Làm thế nào để biểu diễn hiệu quả các mẫu texture là một vấn đề nền tảng củathị giác máy tính và vấn đề này phụ thuộc vào các điều kiện quan sát của các textuređược xem xét
Đặc tính của một texture hoàn toàn phụ thuộc vào một hai tham số bao gồm mức độnhận thức và điều kiện quan sát Liên quan đến mức độ nhận thức, có hai thang đo củatexture có thể được xác định như sau:
• Quan sát ở mức Microscopic: cho thấy cấu trúc không đều hoặc hỗn loạn củacác điểm ảnh màu trên ảnh Hình 1.4 a tương ứng với texture ở mức quan sátMicroscopic
• Quan sát ở mức Macroscopic: liên quan đến khái niệm về một mô hình cơ bản hoặcmột hướng riêng biệt nào đó của các điểm ảnh Hình 1.4 b tương ứng với texture ởmức quan sát Microscopic
(a) Plastic mc quan sát microscopic (b) Plastic mc quan sát macroscopic
(c) Thay i hng chp ca plastic (d) Thay i ánh sáng ca plastic
Hình 1.4: Minh họa các điều kiện quan sát khác nhau của một texture
Trang 9Bên cạnh mức độ nhận thức ảnh hưởng đến đặc tính của texture, thông tin của texturecũng có thể phụ thuộc vào các điều kiện quan sát như ánh sáng và độ xoay Ảnh 1.4b vớimột góc xoay 90 độ và ảnh 1.4d với sự thay đổi điều kiện ánh sáng (dùng nguồn chiếusáng với 4000K thay vì ánh sáng tự nhiên) Do đó, các điều kiện thu thập ảnh với các mức
độ khác nhaucó thể ảnh hưởng đến việc lựa chọn các đặc trưng (mô tả) được sử dụng đểbiểu diễn thông tin texture Ví dụ, một texture không đều sẽ được biểu diễn tốt hơn bởicác đặc trưng mang tính thống kê, trong khi một kết cấu thông thường sẽ được mô tả tốt
về các đặc trưng mang tính hình học và dựa trên tần số
Trong phần tiếp theo, một số đặc trưng phổ biến cho biểu diễn ảnh texture màu sẽgiới thiệu và phân tích sơ lược
Màu sắc và texture là hai đặc tính có liên quan đến nhau của hình ảnh, nhưng nhữngđặc điểm này thường được phân tích riêng Nhiều công trình [22, 57, 10] chứng minh rằngcác tính năng texture kết hợp thông tin màu sắc có thể cải thiện sự phân biệt, đặc biệt làkhi xử lý các texture ảnh tự nhiên được quan sát trong các điều kiện ánh sáng cố định.1.1.3.1 Sự kết hợp giữa màu sắc và texture
Hai phương pháp chính có thể được xem xét để kết hợp màu sắc và thông tin texture:
xử lý thông tin màu sắc và texture riêng biệt và các phương pháp phân tích kết hợp màusắc và texture cùng nhau [52, 19] Trong cách tiếp cận đầu tiên, các đặc trưng textuređại diện cho phân bố không gian của hình ảnh độ chói được sử dụng cùng với các đặctrưng khác mô tả phân bố màu trong một không gian màu nhất định [58, 56, 31] Xét kýhiệu chung của một không gian màu 3D nhất định (C1, C2, C3) Ngoài ra còn cách phươngpháp khác để kết hợp màu sắc và texture bằng cách kết hợp bộ phân lớp để tính toán sựtương đồng giữa vector đặc trưng texture và đặc trưng màu [58]
Trong cách tiếp cận thứ hai, các thành phần màu của các điểm ảnh được phân tích
Nó cho phép cùng đặc trưng phân bố không gian và màu sắc Trong vài năm qua, một sốnghiên cứu đã được hướng đến vấn đề đại diện chung về kết cấu và màu sắc và ba hướngkhác nhau đã được đề xuất:
• Hướng đầu tiên bao gồm việc đánh giá các tính năng texture trong mỗi thành phầnmàu của một hình ảnh (mối quan hệ bên trong thành phần) một cách độc lập, màkhông xem xét các tương tác không gian giữa các cấp độ của hai thành phần màusắc riêng biệt Trong trường hợp này, các tính năng kết cấu được xác định cho hìnhảnh độ chói được áp dụng cho từng trong ba thành phần màu một cách độc lập
• Hướng thứ hai bao gồm việc đánh giá mức độ phân phối điểm ảnh trong mỗi thànhphần màu của một không gian màu nhất định và giữa các thành phần màu khácnhau (bên trong và giữa các kênh) [3, 60, 48, 80, 2]
• Cuối cùng, phương pháp thứ ba bao gồm phân tích các tương tác không gian giữacác màu của điểm ảnh, dựa trên việc xem xét mối quan hệ thứ tự màu xác định độlớn giữa các giá trị điểm ảnh màu [63, 42]
Các phương pháp được phát triển trong ngữ cảnh của đề tài dựa trên hướng thứ hai.Tuy nhiên, hướng này làm tăng số lượng đặc trưng, đặc biệt là khi các mối quan hệ bên
Trang 10trong và giữa các kênh màu được phân tích Do đó, các phương pháp mà đề tài đề xuất lànhằm mục đích giảm kích thước của các đặc trưng và khắc phục nhược điểm này Nhiềutính năng, ban đầu được xác định để phân tích hình ảnh mức xám, đã được mở rộng chomột hoặc một số chiến lược kết hợp màu sắc và kết cấu Chúng tôi đề xuất trong phầntiếp theo để mô tả các mô tả kết cấu màu chính, trong khuôn khổ chung của phân loạikết cấu màu, độc lập với chiến lược kết hợp màu sắc và kết cấu.
Phân tích texture là một nhánh nghiên cứu quan trọng của ngành thị giác máy tính,trong những năm qua, hàng loạt các đặc trưng mô tả ảnh màu đã được đề xuất [68, 75].Các đặc trưng có thể được phân chia thành ba nhóm tiêu biểu như sau: hình học, khônggian tần số và thống kê [74]
• Đăc trưng hình học: Các đăc trưng này có tính đến cấu trúc của ảnh thườngdùng để mô tả và biểu diễn các texture ở múc quan sát quan sát macroscopic Mô
tả hình học của một texture bao gồm trích xuất một số đặc trưng gốc như: góc,cạnh, điểm, đường, đường cong và quy tắc vị trí cho các đặc trưng gốc đó Zheng et
al [84] đã đề xuất một tập hợp các đặc trưng hình học cụ thể cho texture của ảnh
về thịt Tuy nhiên, loại đăc trưng này không cho phép mô tả các texture không đềuthường thấy trong các hình ảnh tự nhiên
• Đặc trưng không gian tần số: có thể được chia thành ba miền: miền không gian,miền tần số và miền tần số không gian
1 Miền không gian liên quan đến các đăc trưng nhằm đặc trưng hóa texture theo
số lượng chuyển đổi trên một đơn vị diện tích Các bộ lọc Cumani, Laplace vàSobel [40] là tất cả các ví dụ về bộ lọc được sử dụng rộng rãi để phát hiện cáccạnh màu Tuy nhiên, loại đăc trưng này chưa bao giờ được áp dụng để phânloại hình ảnh texture màu
2 Biến đổi Fourier hoặc biến đổi cosine rời rạc mang lại một biểu diễn texturethay thế hoàn toàn dựa trên miền tần số Các đăc trưng này phù hợp với trườnghợp hình ảnh chứa texture dạng thô, trong đó có sự liên tục đáng kể giữa cáccấp độ của từng thành phần màu của điểm ảnh Drimbarean và cộng sự [22]
đã sử dụng phép biến đổi cosine ở mức độ xám và phần mở rộng màu của nó
để mô tả các texture trong phần thực ngiệm của họ
3 Miền tần số không gian liên quan đến các đặc trưng kết hợp các biểu diễn khácnhau như đã trình bày ở mục trên Biến đổi Gabor và biến đổi wavelet được
sử dụng rộng rãi nhất trong phân loại ảnh texture màu, vì chúng có hiệu quả
để phân tích cả macrotextures và microtextures Một số tác giả đã nghiên cứuviệc sử dụng bộ lọc Gabor trên hình ảnh màu và cho thấy việc sử dụng này
có thể cải thiện kết quả phân loại so với việc sử dụng các đăc trưng ở độ màuxám [70] Tuy nhiên, phương pháp này đưa ra các nhược điểm: sự cần thiếtphải cài đặt tham số cho các bộ lọc và thời gian tính toán nhiều để biểu diễncác texture nhất định
• Đặc trưng thống kê có thể được sử dụng để mô tả bất kỳ loại texture nào Mộttexture được xác định theo mức độ màu xám hoặc biến đổi màu sắc trong một vùnglân cận các điểm ảnh Khá nhiều cácđăc trưng thống kê được sử dụng để phân loại
Trang 11ảnh texture màu, bao gồm thống kê hình ảnh (image statistics), biểu đồ hình ảnh(image histograms), ma trận phối hợp màu sắc (chromatic co-occurrence matrices)
và tổng chênh lệch biểu đồ (sum and difference histograms), mô hình nhị phân cục
bộ (local binary patterns) Các đặc trưng này có thể được phân nhóm thành một
số loại dựa trên thứ tự tương tác giữa các điểm ảnh của chúng[59, 52]
Trong những năm gần đây, có khá nhiều đặc trưng mô tả ảnh màu được đề xuất chonhiều ứng dụng khác nhau và có những đóng góp quan trọng trong việc phân tích và xử lýảnh màu Một trong số các đặc trưng nổi tiếng có thể kể đến là bộ lọc Gabor [70], mô hìnhMarkov ngẫu nhiên [77], Color Descriptors (DCD) [38], Three-Dimensional Adaptive Sumand Difference Histograms (3D-ASDH) [69], Color Local Binary Pattern [51, 52] Trong
số đó, toán tử LBP được chú ý vì khá thành công và được áp dụng cho nhiều bài toán xử
lý ảnh texture màu Phần tiếp theo của báo cáo sẽ trình bày về khái niệm LBP và cácvấn đề liên quan đến toán tử này
1.1.4 Toán tử Local binary patterns
Ojala và cộng sự [55] đề xuất mã hóa mã nhị phân LBP dựa trên nhóm gồm 9 điểmảnh xám Điểm ảnh trung tâm sẽ so sánh với 8 điểm ảnh lân cận và mã hóa thành mãnhị phân 8 bit và chuyển đổi thành mã LBP Nếu giá trị điểm ảnh lân cận lớn hơn hoặcbằng giá trị điểm ảnh trung tâm thì thu về bit 1, ngược lại sẽ là bit 0 Hình 1.5 mô tảcách tính mã LBP từ 9 điểm ảnh xám
1
6
10100
8163264128
4832
0
00
00
điểm ảnh xám
Hình 1.5: Minh họa phương pháp tính mã LBP
Một cách tổng quát, toán tử LBP có thể áp dụng để tính mã LBP trong một lân cận
số lượng điểm ảnh khác nhau Cho bán kính R và P số lượng điểm ảnh cần so sánh vớiđiểm ảnh trung tâm dựa trên giá trị xám mã LBPP,R(xc, yc) của từng điểm ảnh được tínhbằng cách so sánh giá trị trung tâm gc và giá trị trong một lân cận các điểm {gi}P−1i=0 với
P điểm ảnh, ta có công thức như sau:
Trang 12Bằng cách thay đổi giá trị R và P, ta có thể mã hóa mã LBP ở nhiều mức độ khácnhau Ví dụ với LBP16,2, tương ứng với bán kính số lượng điểm ảnh trong một lân cận 16điểm ảnh và bán kính có giá trị là 2, mã LBP sẽ sinh ra 2P giá trị khác nhau, tương ứngvới một histogram có kích thước số chiều là 2P Hình 1.6 minh họa cách tính mã LBPdựa trên sự thay đổi về bán kính và số điểm ảnh lân cận.
0 1 2 3 4 5 6 7
Hình 1.6: Điểm ảnh trung tâm với các kích thước khác nhau : (a) LBP8,1 và (b) LBP16,2
Mặc dù LBP có một số ưu điểm nhưng cũng có những nhược điểm đáng kể: nó nhạycảm với xoay hình ảnh và nhiễu, nó chỉ thu được texture rất cục bộ và không phát hiện
ra cấu trúc của các texture quy mô lớn [73] Kể từ công trình của Ojala, nhiều biến thểcủa toán tử LBP đã được đề xuất để cải thiện hiệu năng cũng như chống nhiễu và tăngkhả năng ứng dụng vào các loại vấn đề khác nhau như phân tích hình ảnh khuôn mặt,sinh trắc học, phân tích hình ảnh y tế, phân tích chuyển động và truy xuất dựa trên nộidung [45]
Tính toán mã hóa LBP xuất phát điểm dựa trên hình ảnh xám Tuy nhiên, một sốcông trình đã chứng minh rằng thông tin màu sắc rất quan trọng để thể hiện các texture,đặc biệt là trong biểu diễn các texture tự nhiên [25] Một số biến thể LBP cho ảnh màu
đã được đề xuất, trong phạm vi đề tài của vấn đề rút gọn dữ liệu, hai biến thể quan trọng
và phổ biến nhất được giới thiệu như sau:
• Phương pháp thứ nhất bao gồm việc áp dụng toán tử LBP một cách độc lập trênmỗi ba kênh của hình ảnh màu, mà không xem xét các tương tác không gian giữacác điểm ảnh với các cấp độ của hai thành phần màu khác nhau Bộ mô tả kếttexture được bằng cách ghép ba biểu đồ LBP lại với nhau dưới dạng một histogramnối dài Hình 1.7 minh họa phương pháp này trên kênh màu (C1, C2, C3) Một sốcông trình đã áp dụng phương pháp này để mô tả ảnh màu như [59, 28, 16, 6, 85]
• Phương pháp thứ hai bao gồm việc tính đến các tương tác không gian của các điểmảnh bên trong và giữa các thành phần màu Để mô tả texture màu, một dạng LBPmàu (Opponent Color LBP) đã được đề xuất [52] LBP được áp dụng trên từngđiểm ảnh và cho từng cặp điểm ảnh (Ck, Ck0), k, k0 ∈ {1, 2, 3} Các cặp (C1, C2) và(C2, C1) được xem là trùng thông tin và chỉ sử dụng một trong hai Điều này dẫnđến việc mô tả một kết cấu chỉ với sáu cặp histogram ((C1, C1), (C2, C2), (C3, C3),(C1, C2), (C1, C3), (C2, C3)) Tuy nhiên, với bài toán lựa chọn đặc trưng và rút gọn
dữ liệu, 9 histogram được quan tâm hơn vì nó sẽ chứa đựng được nhiều thông tin để
Trang 13LBP image of
the component
LBP image ofthe component
nh màu
Kênh màuKênh màu
Hình 1.7: Minh họa tính toán LBP màu dựa trên việc kết hợp thông tin từ 3 kênh màu
mô tả ảnh, bao gồm 3 cặp histogram cho các kênh ((C1, C1), (C2, C2), (C3, C3)) và 6cặp cho các kênh ((C1, C2), (C2, C1), (C1, C3), (C3, C1), (C2, C3), (C3, C2)) Một sốcông trình đã áp dụng phương pháp này như [52, 14, 15, 62, 61, 36] Hình 1.8 mô
tả các bước tính toán LBP màu cho trường hợp này
Phân loại texture là một vấn đề cho phép gán một nhãn nhất định cho một nhómtexture Đây là một vấn đề nền tảng của thị giác máy tính, đóng một vai trò quan trọngtrong nhiều ứng dụng như phân tích hình ảnh y sinh, kiểm tra công nghiệp, phân tíchhình ảnh vệ tinh hoặc trên không, phân tích tài liệu, phân tích khuôn mặt, sinh trắc học
và nhiều hơn nữa Phân loại texture màu đã trở thành một chủ đề đầy thách thức bởi vìhình ảnh trong thế giới thực thường thể hiện mức độ phức tạp, ngẫu nhiên Ví dụ: haihình ảnh chứa cùng một màu với các mẫu texture khác nhau hoặc cùng một mẫu texturenhưng các màu khác nhau được coi là các texture màu khác nhau [22] Hình 1.9 (a-b)minh họa hai hình cùng màu sắc nhưng với các texture khác nhau 1.9 (c) và 1.9 (d) biểu
Trang 14The analysed pixel
of the color image and
Hình 1.8: Các bước khác nhau để tính các cặp (C1, C1), (C1, C2), (C2, C1) và (C1, C3) cho
1 điểm ảnh được xem xét
diễn ảnh của texture viên đá với màu sắc khác nhau
Phân loại texture màu thường được chia thành hai nhóm biểu diễn đăc trưng và phânlớp 1.10 Bước tạo đặc trưng cho phép mô tả hình ảnh nhờ vào đặc trưng texture và bướcquyết định gán đặc trưng này cho một trong các lớp texture Đề tài sẽ tập trung vào việc
đề xuất các giải pháp ở bước tạo và mô tả đặc trưng
Dựa vào nhãn của dữ liệu được cung cấp để huấn luyện mô hình, sẽ có ba ngữ cảnhhọc khác nhau như sau [34]:
Trang 15Hình 1.10: Sơ đồ phân loại ảnh texture.
1 Học có giám sát (Supervised classification): dữ liệu đầu vào cần có nhãn để huấnluyện Quá trình này có thể được đánh giá thành hai bước, huấn luyện và quyếtđịnh Trong bước huyấn luyện, việc tạo đặc trưng được áp dụng trên một số hìnhảnh texture màu với nhãn đã biết Bước dự đoán sẽ gán nhãn cho hình ảnh này,dựa trên thước đo tương đồng giữa vector đặc trưng được hụyấn luyện và vectorđặc trưng của hình ảnh kiểm tra
2 Học không giám sát (Unsupervised classification): việc tạo đặc trưng hoàn toànkhông dùng đến nhãn dữ liệu mà chỉ phụ thuộc hoàn toàn vào giá trị đầu vào đượccung cấp Mô hình hoàn toàn không trải qua bước huấn luyện mà đi thẳng vào bướcquyết định
3 Học nữa giám sát (Semi-supervised classification): việc huyấn kuyện được dựa trênnhãn được cung cấp một phần hoặc rất hạn chế
1.2.2 Rút gọn dữ liệu
Với ba ngữ cảnh học khác nhau cho bài toán phân loại texture, ta có thể bổ sung mộtbước rút gọn kích thước dữ liệu trước bước ra quyết định (như hình 1.11) Việc rút gọnnày có thể cho phép chúng ta có được một mô hình tốt hơn và gọn nhẹ Ví dụ về việcbiểu diễn mô tả ảnh màu bằng đặc trưng EOCLBP màu, ta cần phải có 256 × 9 = 2.304bins (hay đặc trưng) để biểu diễn một ảnh màu Rõ ràng, không hẳn 2.304 đặc trưng này
sẽ cùng đóng góp cho việc xây dựng mô hình, có thể một số đặc trưng là không cần thiết
Trang 16và thừa Do đó việc rút gọn là khá cần thiết Nhiều công trình đã đề cập và giải quyếtvấn đề rút gọn chiều dữ liệu cho đặc trưng LBP màu.
c tr ng
Hình 1.11: Mô hình phân loại texture với bước rút gọn dữ liệu
Dựa vào đặc trưng gốc ban đầu có bị chuyển đổi sang miền không gian khác haykhông, ta có thể phân phương pháp rút gọn dữ liệu thành hai nhóm: biến đổi đặc trưng(feature extraction) và lựa chọn đặc trưng (feature selection) Đề tài này sẽ tập trung vàoviệc giải quyết vấn đề lựa chọn đặc trưng cho LBP màu trong ngữ cảnh học không giámsát Các phương pháp này sẽ được giới thiệu chi tiết ở chương 2
Một bộ phân lớp là một hàm số sử dụng các đặc trưng là biến đầu vào với biến đầu ra
là nhãn của đặc trưng này Có khá nhiều bộ phân lớp khác nhau [43] đã được đề xuất Vớibài toán phân loại đặc trưng và rút gọn dữ liệu thì K-NN là một trong số các bộ phân lớpđược sử dụng thường xuyên nhất[18, 1] Trên miền không gian đặc trưng, khoảng cáchgiữa mỗi ảnh kiểm tra và ảnh huấn luyện trong một lân cận K được tính toán và so sánh.Ảnh kiểm tra sẽ được gán cho nhãn gần nó nhất trùng với số lượng K ảnh huấn luyện
Bộ phân lớp này phụ thuộc vào một số tham số như giá trị K và độ đo khoảng cách được
sử dụng để tính toán Nhìn chung, so với các bộ phân lớp khác thì K-NN vẫn đơn giảnhơn về mặt tính toán và vẫn thường được xem là một bộ phân lớp phi tham số khi giátrị K=1 Ví dụ minh họa về bộ phân lớp K-NN được minh họa ở hình 1.12 Dựa vào giátri của K, ảnh kiểm tra (đại diện bởi ngôi sao màu xanh) seẽ được gán theo nhãn củalớp A hoặc lớp B Nếu K=3, ảnh này sẽ thuộc về nhóm A, ngược lại, khi K=5, ảnh này
Trang 17phân loại hoặc nhận dạng Đặc trưng LBP là một trong những nỗ lực nhằm đề xuất ramột mô hình biểu diễn đặc trưng cho ảnh texture Các biến thể LBP màu đã được đề xuấtkhá hiệu quả nhưng nó lại bộc lộ một nhược điểm về chiều của dữ liệu khá lớn Nhằmkhắc phục vấn đề đó, một số phương pháp đề xuất rút gọn dữ liệu LBP màu Chươngtiếp theo của báo cáo sẽ trình bày về phương pháp lựa chọn đặc trưng thường được sửdụng để rút gọn kích thước dữ liệu.
Trang 18Chương 2
Lựa chọn đặc trưng
Các bài toán trong lĩnh vực máy học (machine learning) nói chung hay thị giác máytính nói riêng thường gặp phải vấn đề xử lý dữ liệu với kích thước lớn Trên thực tế,không hẳm tất cả những đặc trưng dữ liệu đều đóng góp vào phần kết quả , trong số đó
sẽ có một số đặc trưng không liên quan đến việc biểu diễn mô hình Với vấn đề biểu diễnảnh màu bằng đặc trưng LBP, số chiều sẽ càng lớn khi số lượng điểm ảnh lân cận được
sử dụng nhiều hơn Do đó việc rút gọn kích thước LBP là một vấn đề cần thiết
Các phương pháp rút gọn kích thước dữ liệu được phân thành hai họ chính: biến đổiđặc trưng và lựa chọn đặc trưng Trong số đó phương pháp biến đổi đặc trưng biến đổitập dữ liệu sang một không gian mới và có kích thước ngắn hơn ban đầu bằng các phươngpháp tuyến tính hoặc phi tuyến Sự biến đổi này làm mất đi ý nghĩa vật lý ban đầu củađặc trưng trên miền không gian chuyển đổi Một số phương pháp biến đổi đặc trưng phổbiến có thể kể ra đó là Principal Component Analysis (PCA) [23], Locality PreservingProjections (LPP) [30] Ngược lại với phương pháp biến đổi đặc trưng, phép lựa chọn đặctrưng vẫn giữ nguyên và không thay đôi giá trị của các đặc trưng gốc Trong những nămgần đây, lựa chọn đặc trưng đã được áp dụng cho nhiều lĩnh vực khác nhau như máyhọc [49], phân tích dữ liệu [21], truy vấn và nhận dạng thông tin đa phương tiện [67] hoặctheo dõi đối tượng [83] Đề tài sẽ tập trung vào việc lựa chọn đặc trưng LBP màu cho bàitoán nhận dạng ản texture
Phần tiếp theo của chương được tổ chức như sau Mục 2.1 giới thiệu sơ lược về lựachọn đặc trưng với các khái niệm cơ bản và ngữ cảnh học khác nhau Mục 2.2 trình bàycác ký hiệu và phương pháp biểu diễn đặc trưng Tiếp theo là phần trình bày về các kỹthuật sắp xếp đặc trưng ở mục ?? Mục 2.4giới thiệu các phương pháp rút gọn đặc trưngLBP
Lựa chọn đặc trưng là một tiến trình nhằm chọn ra một tập con đặc trưng tốt nhấtcủa tập dữ liệu từ một tập gốc ban đầu Có hai loại đặc trưng được định nghĩa là : đặctrưng có liên quan và đặc trưng không liên quan [35] Với bài toán phân lớp, đặc trưng
có liên quan là những đặc trưng chứa đựng các thông tin phân biệt (trong ngữ cảnh học
có giám sát) hoặc cụm (ngữ cảnh học không giám sát) Ngược lại, đặc trưng không liênquan là những đặc trưng gây nhiễu thông tin hoặc các đặc trưng trùng nhau và gây khókhăn cho sự phân lớp Việc loại bỏ những đặc trưng không liên quan nhằm tăng cườnghiệu quả của việc phân lớp cũng như giảm kích thước lưu trữ dữ liệu
Trang 19Dựa theo Dash và Liu, lựa chọn đặc trưng là một tiến trình bao gồm 4 bước (nhưminh họa ở hình 2.1 [20]).
Hình 2.1: Các bước của phương pháp lựa chọn đặc trưng [20]
1 Bước khởi tạo dựa trên các kỹ thuật tìm kiếm nhằm đánh giá các tập con đặctrưng được sinh ra Mục tiêu của bước này nhằm tìm kiếm một tập con các đặctrưng tối ưu nhất Các kỹ thuật tìm kiếm thường dựa trên ba kỹ thuật: đầy đủ,tuần tự và ngẫu nhiên [44]:
• Đầy đủ tìm kiếm tất cả các tập con sinh ra được từ tập đặc trưng gốc Nếu
dữ liệu có kích thước là D đặc trưng, sẽ sinh ra 2D tập con đặc trưng có thểsinh ra Phương pháp này khá tốn kém về mặt thời gian tính toán vì nó phảiquét hết tất cả các trường hợp kết hợp các tập đặc trưng có thể sinh ra
• Tuần tự: Xuất phát từ một tập đặc trưng rỗng, lần lượt bổ sung các đặc trưng
từ dưới lên trên hoặc từ trên xuống Có hai phương pháp thường sử dụng nhấ làSequential Forward Selection (SFS) và Sequential Backward Selection (SBS)
• Ngẫu nhiên: Xuất phát từ một tập đặc trưng ngẫu nhiên và thêm vào hoặcxóa các đặc trưng vào tập đó một cách ngẫu nhiên
2 Bước đánh giá sẽ tính toán tập các đặc trưng được sinh ra từ bước khởi tạo Nó
sẽ so sánh với các tập đã được đánh giá trước đó, nhằm thay thế nếu tìm ra tập contốt hơn Bước này có thể độc lập với bộ phân lớp hoặc sử dụng bộ phân lớp như làmột phương tiện để đánh giá [39]
3 Tiêu chuẩn dừng quyết định khi nào thuật toán ngưng tại mỗi bước lặp để quyếtđịnh tiến trình lựa chọn đặc trưng còn tiếp tục nữa hay không ? Nếu không có mộttiêu chuẩn dừng cụ thể, thuật toán sẽ chạy vô hạn Các bước khởi tạo và đánh giáảnh hưởng rất nhiều đến việc lựa chon tiêu chuẩn dừng Tiêu chuẩn này có thể baogồm: số lượng các đặc trưng đã đạt được, số lần lặp được chọn trước
4 Bước hợp lệ xác định tập con đặc trưng có phì hợp hay không ngay sau khi tiêuchuẩn dừng kết thúc
Dựa vào các phương pháp lựa chọn đặc trưng, ta có thể chia ra thành 2 nhóm chínhdựa trên 2 tiêu chuẩn đó là kỹ thuật đánh giá và ngữ cảnh học Hình 2.2a và figure 2.2b
mô tả 2 nhóm này Phần tiếp theo sẽ đi sâu vào trình bày kỹ thuật đánh giá và ngữ cảnhhọc của phương pháp lựa chọn đặc trưng
Trang 20Dựa vào thông tin huấn luyện được cung cấp, lựa chọn đặc trưng có thể chia ra thành
3 nhóm: học có giám sát, nữa giám sát và không giám sát [8] Hầu hết các phương pháplựa chọn đặc trưng trong ngữ cảnh học có giám sát và nữa giám sát đều dựa trên nhãncủa dữ liệu để đánh giá mức độ liên quan của đặc trưng
• Phương pháp có giám sát: Nhãn của dữ liệu sẽ quyết định độ tương quan củacác đặc trưng Hình 2.3 mô tả sơ đồ tổng quát của lựa chọn đặc trưng trong ngữcảnh học có giám sát Các tập đặc trưng được chọn sẽ được dùng cho tập dữ liệuhuấn luyện để đưa ra quyết định và dựa đoán nhãn Phương pháp này phụ thuộchoàn toàn vào công đoạn đánh nhãn, vốn được thực hiện bởi con người và đôi khimang ý chủ quan
sinh ra
Hình 2.3: Sơ đồ tổng quát lựa chọn đặc trưng trong ngữ cảnh học có giám sát
• Không giám sát: là một ngữ cảnh thách thức hơn vì thiếu nhãn huấn luyện Cáctập con đặc trưng được chọn dựa trên sự tương đồng của dữ liệu để xác định mức
độ liên quan Sau bước lựa chọn đặc trưng, thuật toán phân cụm được áp dụng để
ra quyết định
• Nữa giám sát: Trên thực tế, nhãn của dữ liệu bị hạn chế và tốn nhiều chi phí choviệc đánh nhãn toàn bộ dữ liệu Đôi khi chỉ có một phần dữ liệu được gán nhãn
Trang 21Ngữ cảnh học nữa giám sát khai thác dữ liệu của hai ngữ cảnh giám sát với mộtphần (hạn chế) dữ liệu và một phần không giám sát để tìm ra tập con đặc trưng.
Ở bước tiếp theo, các đặc trưng không ưu tiên sẽ được loại bỏ và chỉ giữ lại cácđặc trưng có ý nghĩa nhất Tuy nhiên phương pháp này có hạn chế là có thể loại bỏmột số đặc trưng liên quan đến bộ phân lớp Một số phương pháp lọc phổ biến làVariance [11], Laplacian [29] và Fisher [26]/
• Phương pháp cuốn đánh giá tập con đặc trưng được sinh ra dựa trên bộ phânlớp bằng tiêu chuẩn độ chính xác Phương pháp này khá tốn về thời gian tính toánnếu dữa liệu có kích thức lớn, tuy nhiên kết quả thường tốt hơn so với phương phápkhác
• Phương pháp lai kết hợp cả hai phương pháp lọc và cuốn để tạo ra một mô hìnhhiệu quả và tốt hơn việc sử dụng riêng lẻ [50] Phương pháp lọc sẽ đánh giá sơ bộcác đặc trưng trước khi đưa vào phương pháp cuốn để xác định độ chính xác của
mô hình ước lượng
Trong số các phương pháp lựa chọn đặc trưng dựa trên kỹ thuật đánh giá, đề tài quantâm đến phương pháp lai với những ưu thế đã phân tích Phần tiếp theo sẽ trình bày cácphương pháp lựa chọn đặc trưng cho vấn đề phân loại ảnh texture trong các ngữ cảnhkhác nhau Trước khi trìn bày các phương pháp này, các ký hiệu toán học dùng để biểudiễn được trình bày trước
Trong ngữ cảnh liên quan đến bài toán lựa chọn đặc trưng, ta có một tập dữ liệu với
N ảnh texture màu được định nghĩa trong một không gian D đặc trưng Các ký hiệu viếtnghiêng biểu thị cho các thành phần vô hướng, ký hiệu in đậm biểu thị cho vector hoặc
ma trận (ví dụ như, x, x, X) Ta ký hiệu X = (xr
i), i ∈ {1, , N }; r ∈ {1, , D} tươngứng một ma trận được mô tả như công thức 2.1, với xri là giá trị đặc trưng r của ảnh màu
x1
i xDi
Trang 22Mỗi dòng của N dòng của ma trận X đại diện cho một ảnh màu tương ứng với
xi = (x1
i, , xr
i, , xDi ) ∈ RD, mỗi D cột của ma trận X đại diện cho một vector đặc trưng
fr, được định nghĩa như sau:
xri
xr N
fir
fr N
với yi ∈ {1, , c, , C}, C là số lượng lớp ảnh của dữ liệu đầu vào Với mỗi ảnh màu
Ii, ta có vector đặc trưng xi tương ứng với nhãn dữ liệu yi
Biểu diễn dữ liệu dưới dạng một cấu trúc đồ thị xây dựng trên miền không gian đặctrưng sẽ phản ánh tốt các đặc tính của dữ liệu và từ đó có thể rút gọn số chiều [46] Lýthuyết đồ thị phổ được đề xuất là một công cụ khá hiệu quả cho việc rút gọn dữ liệu.Các phương pháp lựa chọn đặc trưng của đề tài dựa trên nền tảng của lý thuyết đồ thị.Phần tiếp theo của báo cáo sẽ tập trung vào giới thiệu các phương pháp xây dựng đồ thị
có liên quan đến hướng tiếp cận này
2.2.1 Biểu diễn dữ liệu dưới dạng đồ thị
Cho tập dữ liệu X, với G = (V, E) là một đồ thị vô hướng được xây dựng từ ma trận
X, với V = {v1, , vN} là các đỉnh và E là tập các cạnh của đồ thị Mỗi đỉnh vi đại diệncho một ảnh xi và mỗi cạnh đại diện cho một cặp đỉnh được xác định bởi một trọng số
sij ≥ 0 Độ tương đồng của ma trận là S = (sij)i,j=1, ,N, do G vô hướng nên ta luôn có
sij = sji Có nhiều cách để chuyển một tập dữ liệu sang dạng biểu diễn đồ thị với độtương đồng sij Trong đó có 3 cách phổ biến là đồ thị lân cận , k -láng giềng gần nhất và
đồ thị đầy đủ [47, 7, 17]
• lân cận : các điểm dữ liệu trong cùng một khối cầu có tâm là xi với một bánkính sẽ hình thành một độ thị tương đồng Các điểm dữ liệu phải có khoảng cách(tương đồng) nhỏ hơn ngưỡng giá trị được định nghĩa
• k -láng giềng gần nhất: một cạnh được tạo ra nếu hai điểm xi và xj gần nhau và
xi nằm trong khoảng k điểm lân cận gần nhất với xj
• kết nối đầy đủ: mọi điểm dữ liệu sẽ được kết nối với nhau và tính độ tương đồnggiữa các cạnh bởi sij Có nhiều cách khác nhau để tính toán độ tương đồng Belkin
và Niyogi [7] áp dụng hàm kernel với các phương sai Gaussian khác nhau của giátrị σ nhu sau:
sij = e−kxi−xj k
2
Trang 23với σ là giá trị kiểm soát độ rộng khoảng cách của các điểm và kxi− xjk là độ đokhoảng cách của 2 điểm xi and xj Khi giá trị σ → ∞ thì trọng số tiến về giá trị 1.Cortes và Mohri [17] đề xuất sử dụng nghịch đảo độ đo khoảng cách như sau:
Độ đo di của một đỉnh i có thể xem như là độ đo mật độ cục bộ tại điểm dữ liệu xi
Ma trận Laplacian L của X được xác định bởi:
Một trong những bất cập của các phương pháp trên là nó phụ thuộc vào giá trị cáctham số khác nhau như , k, σ hoặc độ đo khoảng cách Nếu không xác định được giá trịtối ưu, ma trận độ tương đồng sẽ không phản ánh thực tế độ tương đồng giữa các điểm dữliệu Gần đây, để giải quyết vấn đề ràng buộc tham số, một số phương pháp đã được đềxuất với mô hình phi tham số, tiêu biểu trong đó là phương pháp biểu diễn thưa, nhằmxây dựng độ tương đồng hoàn toàn dựa trên giá trị dữ liệu và không phụ thuộc vào cáctham số Phần tiếp theo sẽ trình bày về phương pháp biểu diễn thưa
Phương pháp biểu diễn thưa nhận được nhiều sự quan tâm trong lĩnh vực thị giácmáy tính trong vài năm gần đây Nó chứng tỏ sự hiệu quả cho nhiều ứng dụng như nénảnh và mả hóa [71, 82], xử lý ảnh và tín hiệu [12] Một cách tổng quát, phương phápbiểu diễn thưa cho phép tìm ra cấu trúc biểu diễn compact nhất cho dữ liệu gốc Qiao vàcộng sự đã đề xuất đầu tiên [66] kỹ thuật xây dựng độ tương đồng dựa trên phương phápbiểu diễn thưa Bằng việc chuẩn hóa tối tiểu dựa trên chuẩn l1, một đồ thị tương ứng vớitrọng số các cạnh sẽ được sinh ra Đây là một cách làm hoàn toàn mới vì nó không dựavào các tham số (độ đo khoảng cách Eulice hay Cosine) mà hoàn toàn dựa vào giá trị tựthân của dữ liệu Kỹ thuật này đã được đánh giá về mặt thực nghiệm là khá thành côngcho việc biểu diễn độ tương đồng của các điểm dữ liệu [81]
Cho ma trận X = [x1, , xi, , xN]T ∈ RD×N với các điểm dữ liệu biểu diễn dưới dạngcột, ta muốn xây dựng mỗi điểm dữ liệu xi, (ví dụ mỗi điểm dữ liệu là một ảnh màu đượcbiểu diễn trong miền không gian đặc trưng), và sử dụng ít X nhất có thể Vấn đề này cóthể biểu diễn về mặt toán học như sau:
Trang 24s i
với si = [si1, , si(i−1), 0, si(i+1), , siN]T là một vector hệ số có kích thước N và phần
tử thứ ith tương ứng giá trị 0 (xác định bởi một xi bị loại bỏ từ X) và phần tử sij(i 6= j)
ký hiệu sự đóng góp trong việc tạo nên độ tương đồng bởi xj và xi, k.k0 ký hiệu cho chuẩn
l0, bằng với số lượng thành phần khác không trong si
Nhắc lại rằng, giải pháp cho công thức 2.9 là NP-hard trong trường hợp tổng quát.Một vector thưa si có thể được xấp xỉ bởi phương pháp cực tiểu hóa bằng chuẩn l1 :
min
s i
với, k.k1 ký hiệu cho chuẩn l1 , ; 1 ∈ RN là vector chỉ toàn giá trị 1
Trong thực tế, ràng buộc xi = Xsi trong công thức 2.10 không luôn luôn đảm bảo
vì có sự hiện diện của phần thông tin bị nhiễu Hàm mục tiêu được định nghĩa lại nhưsau [78]:
min
s i
ksik1 s.t kxi− Xsik2 < ξ, 1 = 1Tsi, (2.11)với ξ đại diện cho ngưỡng chấp nhận Một vector thưa si sẽ được tính từ mỗi mẫu xi.Giá trị tối ưu của công thức 2.11 cho mỗi mẫu xi là một vector thưa ˆsi Kết quả này chophép chúng ta xây dựng một ma trận độ tương đồng S = (ˆsi,j)N ×N xác định bởi:
S = [ˆs1, , ˆsi, , ˆsN]T (2.12)Vấn đề cực tiểu hóa bằng chuẩn l1 có thể được giải quyết bằng các phương pháp đại
số tuyến tính Do vector ˆsi thưa nên nhiều thành phần của vector này mang giá trị 0.Điều đó có nghĩa là điểm dữ liệu ở xa tín hiệu đầu vào sẽ có hệ số bằng 0 hoặc gia trị rấtnhỏ Phương pháp này có thể phản ánh đúng bản chất đặc tính của giá trị dữ liệu banđầu Trong trường hợp vắng mặt của nhãn dữ liệu, thông tin phân biệt có thể thu đượcmột cách tự nhiên từ ma trận S
Lựa chon và rút gọn đặc trưng LBP được phân thành 2 nhóm chính: (1) nhóm rútgọn dựa trên độ dài các mẫu nhị phân (binary patter) được định nghĩa trước bởi một sốquy tắc nào đó như LBP uniform, (2) nhòm sử dụng cá phương pháp lựa chọn đặc trưngsau khi trích xuất đầy đủ các mẫu nhị phân Trong đó hóm thứ hai vì đây là kỹ thuậtcho ra độ chính xác tốt hơn, tuy nhiên lại đòi hỏi một quá trình huấn luyện offline.Trong số các phương pháp rút gọn và lựa chọn đặc trưng LBP, đề tài quan tâm đếnnhóm các phương pháp rút gọn toàn bộ histogram (thay vì lựa chọn một số đặc trưng)được đề xuất lần đầu tiên bởi Porebski và cộng sự [64] Phương pháp này đánh giá cáchistogram LBP của ảnh màu bằng các hệ số bởi kỹ thuật lọc (filter), độ chính xác được
áp dụng để chọn số lượng histogram cần thiết để tạo tập con đặc trưng Tiếp theo sau
đó Kalakech và cộng sự đề xuất cải tiến dựa trên hệ số Laplacian với tên gọi Adapt theSupervised Laplacian (ASL) [36] Phương pháp này dựa trên độ tương đồng giữa hai điểm
dữ liệu có cùng một nhãn (hay cùng một lớp) sẽ có giá trị là 1 Độ đo Jeffrey được dùng