1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo

67 436 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 2,98 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Số các cụm dữ liệu được phân ở đây cĩ thể được xác định trước theo kinh nghiệm hoặc cĩ thể được tự động xác định của phương pháp phân cụm Trong PCDL khái niệm hai hoặc nhiều đối tượng cù

Trang 1

Nguyễn Đình Sinh

NGHIÊN CỨU MỘT SỐ KỸ THUẬT PHÂN CỤM

TRONG TRA CỨU LOGO

Chuyên ngành: Khoa học máy tính

Trang 2

LỜI MỞ ĐẦU 1

Chương 1: KHÁI QUÁT VỀ PHÂN CỤM VÀ BÀI TỐN TRA CỨU LOGO 3

1.1 Phân cụm dữ liệu 3

1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu 3

1.1.2 Các ứng dụng của phân cụm dữ liệu 6

1.1.3 Các yêu cầu của phân cụm 7

1.1.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 9

1.1.4.1 Phương pháp phân cụm phân hoạch 9

1.1.4.2 Phương pháp phân cụm phân cấp 11

1.1.4.3 Phương pháp phân cụm dựa trên mật độ 12

1.1.4.4 Phương pháp phân cụm dựa trên lưới 13

1.1.4.5 Phương pháp phân cụm dựa trên mơ hình 14

1.1.4.6 Phương pháp phân cụm cĩ dữ liệu ràng buộc 15

1.2 Bài tốn tra cứu Logo 16

1.2.1 Định nghĩa Logo 16

1.2.2 Đặc trưng của Logo và ảnh Logo 17

1.2.2 Đặc trưng của Logo và ảnh Logo 17

1.2.2.1 Một số đặc trưng cơ bản của ảnh số 17

1.2.2.2 Tra cứu thơng tin và thơng tin trực quan 19

1.2.3 Đặc trưng của logo 22

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 3

2.4 Thuật tốn CURE 32

2.5 Thuật tốn DBSCAN 35

2.6 Thuật tốn STING 37

Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 39

3.1 Bài tốn 39

3.1.1 Phân tích về lơgơ 39

3.1.2 Đánh giá độ tương tự về lơgơ 40

3.2 Phân tích, lựa chọn kỹ thuật tra cứu 41

3.2.1 Thuật tốn K – Mean trong phân cụm ảnh 44

3.2.2 Một số thuật tốn sử dụng trong chương trình 46

3.3 Chương trình 48

3.3.1 Hướng dẫn sử dụng chương trình 48

3.3.2 Chương trình và một số kết quả đạt được 48

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 55

PHỤ LỤC - ẢNH LƠGƠ TRONG CƠ SỞ DỮ LIỆU 57

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 4

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 5

LỜI CAM ĐOAN

Tơi xin cam đoan tồn bộ nội dung trong Luận văn hồn tồn theo đúng nội dung đề cương cũng như nội dung mà cán bộ hướng dẫn giao cho Nội dung của Luận văn, các phần trích lục các tài liệu là hồn tồn chính xác Nếu cĩ sai sĩt tơi hồn tồn chịu trách nhiệm

Thái Nguyên, Ngày 20 tháng 09 năm 2013

Học viên NGUYỄN ĐÌNH SINH

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 6

DANH MỤC CÁC HÌNH

Hình 1.1- Mơ tả tập dữ liệu vay nợ được phân thành 3 cụm 4

Hình 1.2: Các chiến lược phân cụm phân cấp 12

Hình 1.3 Một số hình dạng khám phá bởi phân cụm dựa trên mật độ 13

Hình 2.1: Các thiết lập để xác định các ranh giới các cụm ban đầu 25

Hình 2.2: Tính tốn trọng tâm của các cụm mới 26

Hình 2.3: Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means 29

Hình 2.4: Khái quát thuật tốn CURE 32

Hình 2.5: Các cụm dữ liệu được khám phá bởi CURE 33

Hình 2.6 Ví dụ thực hiện phân cụm bằng thuật tốn CURE 34

Hình 2.7 a) Mật độ trực tiếp, b) Đến được mật độ, c) Mật độ liên thơng 36

Hình 3.1 Mơ hình hệ thống tra cứu ảnh 41

Hình 3.2: Sơ đồ thuật tốn K – Mean trong phân cụm ảnh 44

Hình 3.3 Phân cụm ảnh 45

Hình 3.4- Sơ đồ thuật tốn dị biên Canny 46

Hình 3.5- Hàm xấp xỉ Gaussian rời rạc với  1.4 (cửa sổ W kích cỡ 5x5) 46

Hình 3.6 - Cặp mặt lạ tính tốn gradient 47

Hình 3.7 - Màn hình lựa chọn các tham số cho chương trình 49

Hình 3.8- Màn hình lựa chọn menu mở file ảnh lơgơ đưa vào tra cứu 49

Hình 3.9- Màn hình hiển thị ảnh lơgơ đưa vào cùng histogram màu và hình dạng 50

Hình 3.10- Lựa chọn menu Image Retrieval -> By Color (tra cứu theo màu sắc) 50

Hình 3.11- Màn hình hiển thị kết quả 10 ảnh lơgơ gần giống nhất theo màu sắc 51

Hình 3.12- Lựa chọn menu Image Retrieval -> By Shape để tra cứu theo hình dạng 51

Hình 3.13- Màn hình hiển thị kết quả 10 ảnh lơgơ gần giống nhất theo hình dạng 52

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 7

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 8

LỜI MỞ ĐẦU

Những năm gần đây, ảnh số và việc xử lý ảnh số ngày càng nhận được sự quan tâm của nhiều người, một phần do các thiết bị thu nhận ảnh số ngày càng trở nên thơng dụng với mọi người, cùng với nĩ là các thiết bị lưu trữ ngày càng được cải thiện về dung lượng và giá thành nên việc lưu trữ ảnh ngày càng thơng dụng hơn, chất lượng ảnh tốt hơn, thời gian lưu trữ lâu hơn,

Mặt khác, với sự phát triển mạnh mẽ của cơng nghệ thơng tin, đặc biệt là sự phát triển của Internet làm cho số lượng ảnh số được lưu trữ và trao đổi qua Internet là rất lớn Do đĩ bài tốn thực tế đặt ra là cần phải cĩ phương pháp tổ chức CSDL ảnh phù hợp, phục vụ cho quá trình tìm kiếm và tra cứu ảnh nhanh hơn và cĩ độ chính xác cao hơn

Việc tìm kiếm một bức ảnh thỏa mãn tiêu chí tìm kiếm trong vơ số các bức ảnh thuộc đủ loại chủ đề và định dạng khác nhau là rất khĩ khăn, và khi số lượng ảnh trong CSDL cịn ít, việc nhận diện một bức ảnh hay việc so sánh sự giống và khác nhau giữa nhiều bức ảnh cĩ thể thực hiện được bằng mắt thường, tuy nhiên khi số lượng ảnh rất lớn thì việc so sánh này rất khĩ khăn, và do đĩ cần cĩ các phương pháp hiệu quả và phù hợp hơn

Sự phát triển mạnh mẽ của cơng nghệ ảnh số làm số lượng ảnh lưu trữ trên web tăng lên một cách nhanh chĩng Để tìm kiếm bức ảnh theo mong muốn là rất khĩ khăn Hơn thế nữa việc xã hội hĩa và hội nhập kinh tế diễn ra rất mạnh mẽ Đã cĩ thêm rất nhiều các cơng ty mới xuất hiện tại nước ta (Các cơng ty trong nước, liên doanh và nước ngồi) Với mỗi cơng ty được thành lập thì đều cĩ Logo riêng của cơng ty đĩ, Logo đĩ phải được thiết kế bởi các nhà thiết kế và đăng ký bản quyền với Cục bản quyền tác giả Nhưng việc để biết được Logo đĩ đã cĩ hay chưa và đã được đăng ký hay chưa là rất khĩ khăn

Kỹ thuật tra cứu ảnh được nhiều người quan tâm nghiên cứu hiện nay là kỹ thuật

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 9

" Tra cứu ảnh dựa theo nội dung” Kỹ thuật này cho phép trích rút các đặc trưng

dựa vào nội dung trực quan của bản thân ảnh như màu sắc, kết cấu, hình dạng, bố cục khơng gian của ảnh, để làm cơ sở cho việc tra cứu, sắp xếp, tổ chức CSDL ảnh Việc biểu diễn và trích rút đặc trưng để nhận dạng được bức ảnh mong muốn

là rất quan trọng và nhiều hướng nghiên cứu khác nhau đã được triển khai Tuy nhiên, khi CSDL ảnh lớn thì việc tìm kiếm ảnh một cách tuần tự sẽ tốn rất nhiều thời gian Để tăng tốc hệ thống tra cứu ảnh dựa vào nội dung, cần cĩ một số kỹ thuật tra cứu ảnh nhanh Thực tế địi hỏi thời gian tìm kiếm khơng được tăng tuyến tính đối với số các ảnh trong CSDL

Cĩ rất nhiều kỹ thuật được sử dụng trong tra cứu ảnh và Logo Một trong các kỹ thuật đĩ là các kỹ thuật phân cụm Nĩ cĩ thể giúp người sử dụng tìm kiếm nhanh và

chính xác một Logo đã cĩ Vì vậy tơi chọn đề tài: ”Nghiên cứu một số kỹ thuật phân cụm trong tra cứu Logo”

Luận văn được trình bầy trong 3 chương và phụ lục:

Chương 1: Khái quát về phân cụm và bài tốn tra cứu Logo

Chương 2: Một số kỹ thuật phân cụm trong tra cứu Logo

Chương 3: Chương trình thử nghiệm

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 10

Chương 1: KHÁI QUÁT VỀ PHÂN CỤM VÀ

BÀI TỐN TRA CỨU LOGO

1.1 Phân cụm dữ liệu

1.1.1 Khái niệm và mục tiêu của phân cụm dữ liệu

Mục đích chính của phân cụm dữ liệu (PCDL) nhằm khám phá cấu trúc của mỗi dữ liệu để thành lập các nhĩm dữ liệu từ tập dữ liệu lớn, theo đĩ nĩ cho phép người ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thơng tin tiềm ẩn, hữu ích phục vụ cho việc ra quyết định Ví

dụ “Nhĩm các khách hàng trong cơ sở dữ liệu (CSDL) ngân hàng cĩ vốn các đầu tư vào bất động sản cao” Như vậy, PCDL là một phương pháp xử lý thơng tin quan trọng và phổ biển, nĩ nhằm khám phá mối liên hệ giữa các mẫu dữ liệu bằng cách

tổ chức chúng thành các cụm

Ta cĩ thể khái quát hĩa khái niệm PCDL: PCDL là một kĩ thuật trong khai phá dữ liệu (KPDL), nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên, tiềm ẩn, quan trọng trong tập dữ liệu lớn từ đĩ cung cấp thơng tin, tri thức hữu ích cho việc ra quyết định

Như vậy, PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm “tương tự” với nhau và các phần tử trong các cụm khác nhau sẽ “phi tương tự” với nhau Số các cụm dữ liệu được phân

ở đây cĩ thể được xác định trước theo kinh nghiệm hoặc cĩ thể được tự động xác định của phương pháp phân cụm

Trong PCDL khái niệm hai hoặc nhiều đối tượng cùng được xếp vào một cụm nếu chúng cĩ chung một định nghĩa về khái niệm hoặc chúng xấp xỉ với các khái niệm mơ tả cho trước

Trong học máy, PCDL được xem là vấn đề học khơng cĩ giám sát, vì nĩ phải giải quyết vấn đề tìm một cấu trúc trong tập hợp dữ liệu chưa biết trước các thơng tin về lớp hay các thơng tin về tập huấn luyện Trong nhiều trường hợp, nếu phân lớp

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 11

được xem là vấn đề học cĩ giám sát thì PCDL là một bước trong phân lớp dữ liệu, PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhĩm

dữ liệu

Trong KPDL, người ta cĩ thể nghiên cứu các phương pháp phân tích cụm cĩ hiệu quả và hiệu suất cao trong CSDL lớn Những mục tiêu trước tiên của nghiên cứu là tập trung vào khả năng mở rộng của các phương pháp phân cụm, tính hiệu quả của các phương pháp phân cụm với các hình dạng phức tạp, những kĩ thuật cho phân cụm với nhiều kiểu dữ liệu cĩ kích cỡ lớn và những phương pháp cho PCDL tường minh và những dữ liệu dạng số hỗn hợp trong CSDL lớn PCDL được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử

lý ảnh, nghiên cứu thị trường

Hình 1.1- Mơ tả tập dữ liệu vay nợ được phân thành 3 cụm

Vấn đề thường gặp trong PCDL là hầu hết các dữ liệu cần cho phân cụm đều

cĩ chứa dữ liệu “nhiễu” do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại

bỏ “nhiễu” trước khi bước vào giai đoạn phân tích PCDL “nhiễu” ở đây cĩ thể là các đối tượng dữ liệu khơng chính xác hoặc các đối tượng dữ liệu khuyết thiếu

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 12

thơng tin về một số thuộc tính Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng “nhiễu” bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất

Ngồi ra, dị tìm phần tử ngoại lai là một trong những hướng nghiên cứu quan trọng trong PCDL, chức năng của nĩ là xác định một nhĩm nhỏ các đối tượng

dữ liệu “khác thường” so với các dữ liệu khác trong CSDL - tức là đối tượng dữ liệu khơng tuân theo các hành vi hoặc mơ hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của PCDL Khám phá các phần tử ngoại lai đã được phát triển và ứng dụng trong viễn thơng, dị tìm gian lận thương mại

Tĩm lại, PCDL là một vấn đề khĩ vì người ta phải đi giải quyết các vấn đề con cơ bản như sau:

- Biểu diễn dữ liệu

- Xây dựng hàm tính độ tượng tự

- Xây dựng các tiêu chuẩn phân cụm

- Xây dựng mơ hình cho cấu trúc cụm dữ liệu

- Xây dựng thuật tốn phân cụm và xác lập các điều kiện khởi tạo

- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm

Theo các nghiên cứu thì đến nay chưa cĩ một phương pháp phân cụm tổng quát nào cĩ thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa, các phương pháp phân cụm cần cĩ cách thức biểu diễn cấu trúc các cụm dữ liệu khác nhau, với mỗi cách thức biểu diễn khác nhau sẽ cĩ một thuật tốn phân cụm phù hợp PCDL đang là vấn đề mở và khĩ vì người ta cần phải đi giải quyết nhiều vấn đề cơ bản như đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau Đặc biệt đối tượng với dữ liệu hỗn hợp, đang ngày càng tăng trưởng khơng ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong những thách thức lớn trong lĩnh vực KPDL trong những thập kỷ tiếp theo và đặc biệt trong lĩnh vực KPDL bằng phương pháp phân cụm dữ liệu.Mục tiêu của phân cụm dữ liệu là xác định được bản chất nhĩm trong tập dữ liệu chưa cĩ nhãn Nhưng

để cĩ thể quyết định được cái gì tạo thành một cụm tốt Nĩ cĩ thể được chỉ ra rằng

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 13

khơng cĩ tiêu chuẩn tuyệt đối “tốt” mà cĩ thể khơng phụ thuộc vào kết quả phân cụm Vì vậy, nĩ địi hỏi người sử dụng phải cung cấp tiêu chẩn này, theo các mà kết quả phân cụm sẽ đáp ứng được yêu cầu Ví dụ, cĩ thể quan tâm đến việc tìm đại diện cho các nhĩm đồng nhất (rút gọn dữ liệu), trong tìm kiếm Mục tiêu của phân cụm dữ liệu là xác định được bản chất nhĩm trong tập dữ liệu chưa cĩ nhãn Nhưng

để cĩ thể quyết định được cái gì tạo thành một cụm tốt Nĩ cĩ thể được chỉ ra rằng khơng cĩ tiêu chuẩn tuyệt đối “tốt” mà cĩ thể khơng phụ thuộc vào kết quả phân cụm Vì vậy, nĩ địi hỏi người sử dụng phải cung cấp tiêu chẩn này, theo các mà kết quả phân cụm sẽ đáp ứng được yêu cầu Ví dụ, cĩ thể quan tâm đến việc tìm đại diện cho các nhĩm đồng nhất (rút gọn dữ liệu), trong tìm kiếm “các cụm tự nhiên”

và mơ tả các thuộc tính chưa biết (kiểu dữ liệu tự nhiên) hoặc tìm kiếm các đối tượng khác thường (dị tìm phần tử ngoại lai)

1.1.2 Các ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu là một cơng cụ quan trọng trong một số ứng dụng Sau đây

là một số ứng dụng của nĩ:

• Giảm dữ liệu: Giả sử ta cĩ một lượng lớn dữ liệu (N). Phân cụm sẽ nhĩm các dữ liệu này thành m cụm dữ liệu dễ nhận thấy và m << N. Sau đĩ xử lý mỗi cụm như một đối tượng đơn

• Rút ra các giả thuyết: Các giả thuyết này cĩ liên quan đến tính tự nhiên của

dữ liệu và phải được kiểm tra bởi việc dùng một số tập dữ liệu khác

• Kiểm định giả thuyết: Ta sẽ phân cụm để xét xem cĩ tồn tại một tập dữ liệu

nào đĩ trong tập dữ liệu thoả mãn các giả thuyết đã cho hay khơng Chẳng hạn xem xét giả thuyết sau đây: “Các cơng ty lớn đầu tư ra nước ngồi“ Để kiểm tra, ta áp dụng kỹ thuật phân cụm với một tập đại diện lớn các cơng ty Giả sử rằng mỗi cơng

ty được đặc trưng bởi tầm vĩc, các hoạt động ở nước ngồi và khả năng hồn thành các dự án Nếu sau khi phân cụm, một cụm các cơng ty được hình thành gồm các cơng ty lớn và cĩ vốn đầu tư ra nước ngồi (khơng quan tâm đến khả năng hồn thành các dự án) thì giả thuyết đĩ được củng cố bởi kỹ thuật phân cụm đã thực hiện

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 14

• Dự đốn dựa trên các cụm: Đầu tiên ta sẽ phân cụm một tập dữ liệu thành

các cụm mang đặc điểm của các dạng mà nĩ chứa Sau đĩ, khi cĩ một dạng mới chưa biết ta sẽ xác định xem nĩ sẽ cĩ khả năng thuộc về cụm nào nhất và dự đốn được một số đặc điểm của dạng này nhờ các đặc trưng chung của cả cụm

Cụ thể hơn, phân cụm dữ liệu đã được áp dụng cho một số ứng dụng điển hình trong các lĩnh vực sau:

• Thương mại: Trong thương mại, phân cụm cĩ thể giúp các thương nhân

khám phá ra các nhĩm khách hàng quan trọng cĩ các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu mua bán trong cơ sở dữ liệu khách hàng

• Sinh học: Trong sinh học, phân cụm được sử dụng để xác định các loại sinh

vật, phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu

• Phân tích dữ liệu khơng gian: Do sự đồ sộ của dữ liệu khơng gian như dữ

liệu thu được từ các hình ảnh chụp từ vệ tinh các thiết bị y học hoặc hệ thống thơng tin địa lý (GIS), làm cho người dùng rất khĩ để kiểm tra các dữ liệu khơng gian một cách chi tiết Phân cụm cĩ thể trợ giúp người dùng tự động phân tích và xử lý các dữ liệu khơng gian như nhận dạng và chiết xuất các đặc tính hoặc các mẫu dữ liệu quan tâm cĩ thể tồn tại trong cơ sở dữ liệu khơng gian

• Lập quy hoạch đơ thị: Nhận dạng các nhĩm nhà theo kiểu và vị trí địa lý,

nhằm cung cấp thơng tin cho quy hoạch đơ thị

• Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất nhằm cung cấp

thơng tin cho nhận dạng các vùng nguy hiểm

• Địa lý: Phân lớp các động vật và thực vật và đưa ra đặc trưng của chúng

• Web Mining: Phân cụm cĩ thể khám phá các nhĩm tài liệu quan trọng, cĩ

nhiều ý nghĩa trong mơi trường Web Các lớp tài liệu này trợ giúp cho việc khám phá tri thức từ dữ liệu,

1.1.3 Các yêu cầu của phân cụm

Việc xây dựng, lựa chọn một thuật tốn phân cụm là bước then chốt cho việc giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 15

phân cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa chất lượng của các cụm hay tốc độ thực hiện thuật tốn,

Hầu hết các nghiên cứu và phát triển thuật tốn PCDL đều nhằm thỏa

mãn các yêu cầu cơ bản sau:

• Cĩ khả năng mở rộng: Nhiều thuật tốn phân cụm làm việc tốt với những

tập dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên một CSDL lớn cĩ thể chứa tới hàng triệu đối tượng Việc phân cụm với một tập dữ liệu cho lớn cĩ thể làm ảnh hưởng tới kết quả Vậy làm các nào để chúng ta cĩ thể phát triển các thuật tốn phân cụm cĩ khả năng mở rộng cao đối với các CSDL lớn?

• Khả năng thích nghi với các kiểu dữ liệu khác nhau: Thuật tốn cĩ thể áp

dụng hiệu quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau như dữ liệu kiểu số, kiểu nhị phân, dữ liệu định danh, hạng mục, và thích nghi với kiểu dữ liệu hỗn hợp

• Khám phá các cụm với hình dạng bất kỳ: Do hầu hết các cơ sở dữ liệu cĩ

chứa nhiều cụm dữ liệu với các hình thù khác nhau như: hình lõm, hình cầu, hình que, Vì vậy, để khám phá được các cụm cĩ tính tự nhiên thì các thuật tốn phân cụm cần phải cĩ khả năng khám phá ra các cụm dữ liệu cĩ hình thù bất kì

• Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: Do các giá

trị đầu vào thường ảnh hưởng rất lớn đến thuật tốn phân cụm và rất phức tạp để xác định các giá trị vào thích hợp đối với các CSDL lớn

• Ít nhạy cảm với thứ tự của dữ liệu vào: Cùng một tập dữ liệu, khi đưa vào

xử lý cho thuật tốn PCDL với các thứ tự vào của các đối tượng dữ liệu ở các lần thực hiện khác nhau thì khơng ảnh hưởng lớn đến kết quả phân cụm

• Khả năng thích nghi với dữ liệu nhiễu cao: Hầu hết các dữ liệu phân cụm

trong KPDL đều chứa đựng các dữ liệu lỗi, dữ liệu khơng đầy đủ dữ liệu rác Thuật tốn phân cụm khơng những hiệu quả đối với các dữ liệu nhiễu mà cịn tránh dẫn đến chất lượng phân cụm thấp do nhạy cảm với nhiễu

• Ít nhạy cảm với thứ tự của các tham số đầu vào: Nghĩa là giá trị của các

tham số đầu vào khác nhau ít gây ra các thay đổi lớn đối với kết quả phân cụm

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 16

• Thích nghi với dữ liệu đa chiều: Thuật tốn cĩ khả năng áp dụng hiệu quả

cho dữ liệu cĩ số khác chiều nhau

• Dễ hiểu dễ cài đặt và khả thi: Người sử dụng cĩ thể chờ đợi những kết quả

phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm cĩ thể cần được giải thích ý nghĩa và ứng dụng rõ ràng Việc nghiên cứu cách để một ứng dụng đạt được mục tiêu rất quan trọng cĩ thể gây ảnh hưởng tới sự lựa trọn các phương pháp phân cụm

Với những yêu cầu đáng chú ý này, nghiên cứu của ta về phân tích phân cụm diễn ra như sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách chúng cĩ thể gây ảnh hưởng tới các phương pháp phân cụm Thứ hai, ta đưa ra một cách phân loại chúng trong các phương pháp phân cụm Sau đĩ, ta nghiên cứu chi tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, các phương pháp phân cấp, các phương pháp dựa trên mật độ, các phương pháp dựa trên lưới và các phương pháp dựa trên mơ hình Ta cũng khảo sát sự phân cụm trong khơng gian đa chiều và các biến thể của các phương pháp khác

1.1.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu

Các kỹ thuật phân cụm cĩ rất nhiều cách tiếp cận và các ứng dụng trong thực

tế Các kỹ thuật phân cụm đều hướng tới hai mục tiêu chung: chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật tốn Tuy nhiên cĩ thể phân loại thành từng loại cơ bản dựa trên phân loại các phương pháp Hiện nay, các kỹ thuật phân cụm cĩ thể phân loại theo các cách tiếp cận chính sau:

1.1.4.1 Phương pháp phân cụm phân hoạch

Ý tưởng chính của kỹ thuật này là phân hoạch một tập hợp dữ liệu cĩ n phần

tử cho trước thành k nhĩm dữ liệu sao mỗi phần tử dữ liệu chỉ thuộc về một nhĩm

dữ liệu cĩ tối thiểu ít nhất một phần tử dữ liệu Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong khơng gian Euclidean Ngồi ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào cĩ quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào khơng cĩ quan hệ hoặc cĩ

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 17

quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này khơng thể

xử lý các cụm cĩ hình dạng kỳ quặc hoặc các cụm cĩ mật độ các điểm dầy đặc Các thuật tốn phân hoạch dữ liệu cĩ độ phức tạp rất lớn khi xác định nghiệm tối ưu tốn cục cho vấn đề PCDL, do nĩ phải tìm kiếm tất cả các cách phân hoạch cĩ thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Với chiến lược này, thơng thường bắt đầu khởi tạo một phân hoạch ban đầu cho tập dữ liệu theo phép ngẫu nhiên hoặc Heuristic và liên tục tinh chỉnh nĩ cho đến khi thu được một phân hoạch mong muốn, thỏa mãn ràng buộc cho trước Các thuật tốn phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phân cụm, bằng cách tính các giá trị đo độ tương

tự giữa các đối tượng dữ liệu và sắp xếp các giá trị này, sau đĩ thuật tốn lựa chọn một giá trị trong dẫy sắp xếp sao cho hàm tiêu chuẩn đạt giá trị tối thiểu Như vậy,

ý tưởng chính của thuật tốn phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiểm nghiệm

Lớp các thuật tốn phân cụm phân hoạch bao gồm các thuật tốn đề xuất đầu tiên trong lĩnh vực KPDL cũng là thuật tốn được áp dụng nhiều trong thực tế như k-means, k-medoids, PAM, CLARA, CLARANS,

Thuật tốn K-means là một trong những thuật tốn phổ biến nhất Nĩ căn cứ vào khoảng cách giữa các đối tượng để phân cụm Các đối tượng được xếp vào một cụm dựa trên khoảng cách từ chúng tới tâm cụm Trong thuật tốn này, chúng ta chọn một giá trị cho k (số các cụm mong muốn), sau đĩ chọn ngẫu nhiên k đối tượng làm k cụm ban đầu Tiếp theo ta tính tốn khoảng cách giữa từng đối tượng với k cụm này Căn cứ vào khoảng cách tính được để xếp từng đối tượng vào cụm thích hợp Sau khi phân cụm, ta lại tìm tâm mới cho từng cụm Quá trình này được lặp lại cho đến khi tâm các cụm ổn định Thuật tốn này cĩ một vài phiên bản, phân biệt với nhau bằng hàm tính khoảng cách Thuật tốn K-means thích hợp với các cụm dữ liệu cĩ dạng hình cầu và trịn Tuy nhiên, K-means tỏ ra rất nhạy cảm với nhiễu và các phần tử ngoại lai

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 18

Thuật tốn tiếp theo là K-medoids Thuật tốn này sử dụng phương pháp khác so với thuật tốn K-means để tính trọng tâm của cụm, nhằm khắc phục ảnh hưởng của nhiễu và các phần tử ngoại lai Thuật tốn này dùng đối tượng nằm ở vị trí trung tâm nhất của cụm làm trung tâm Phần tử này gọi là medoid của cụm dod Mỗi khi một cụm được bổ sung một phần tử mới, một medoid được lựa chọn dựa trên các hàm chi phisddeer đảm bảo rằng chất lượng phân cụm luơn được cải thiện Cách tiếp cận này giúp K-medoid giảm nhẹ ảnh hưởng của nhiễu và các phần tử ngoại lai, nhưng cũng làm tăng thời gian tính tốn so với K-means

Một biến thể khác của K-medoids là PAM (Partitioning Around Medoids), trong đĩ việc lựa chọn phần tử medoid phải thỏa mãn điều kiện sai số bình phương

là nhỏ nhất Chất lượng phân cụm của PAM khá tốt, nhưng thời gian thực hiện lâu hơn so với K-means và K-medoids Tuy nhiên, PAM tỏ ra khơng thích hợp đối với tập dữ liệu lớn

1.1.4.2 Phương pháp phân cụm phân cấp

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc cĩ dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Cây phân cụm cĩ thể được xây dựng theo hai phương pháp sau: hịa nhập nhĩm, thường được gọi là tiếp cận Bottom-Up và phân chia nhĩm, thường được gọi là tiếp cận Top-Down

Phương pháp Bottom-Up: phương pháp này bắt đầu xuất phát với mỗi đối tượng dữ liệu được khởi tạo tương ứng với các cụm riêng biệt và sau đĩ tiến hành nhĩm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai nhĩm), quá trình này được thực hiện cho đến khi tất cả các nhĩm được hịa nhập vào một nhĩm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm

Phương pháp Top-Down: Bắt đầu với trạng thái là tất cả các đối tượng dữ liệu được sắp xếp trong cùng một cụm và phương pháp này tiến hành chia nhỏ các cụm Mỗi vịng lặp thành cơng, một cụm được tách ra thành các cụm nhỏ hơn theo

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 19

giá trị của một phép đo tương tự nào đĩ cho đến khi mỗi đối tượng dữ liệu là một cụm riêng biệt hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

Sau đây là minh họa chiến lược phân cụm phân cấp Bottom up và Top down:

Hình 1.2: Các chiến lược phân cụm phân cấp

Trong thực tế áp dụng, cĩ nhiều trường hợp người ta kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp cĩ thể cải tiến thơng qua bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp PCDL cổ điển, hiện đã

cĩ rất nhiều thuật tốn cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong KPDL Phương pháp này bao gồm các thuật tốn AGNES, DIANA, BIRCH, CURE, ROCK, Chemeleon,

1.1.4.3 Phương pháp phân cụm dựa trên mật độ

Phương pháp này nhĩm các đối tượng theo hàm mật độ xác định Mật độ xác định được định nghĩa như là số các đối tượng lân cận của một đối tượng dữ liệu theo một ngưỡng nào đĩ Trong cách tiếp cận này, khi một cụm dữ liệu mới miễn là

số các đối tượng lân cận của các đối tượng này phải lớn hơn 1 ngưỡng đã được xác định trước Phương pháp phân cụm dựa vào mật độ của các đối tượng để xác định các cụm dữ liệu và cĩ thể phát hiện ra các cụm dữ liệu với nhiều hình dạng bất kỳ Tuy vậy, việc xác định các tham số mật độ của thuật tốn rất khĩ khăn, trong khi

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 20

các tham số này lại cĩ thể tác động rất lớn đến kết quả của PCDL Hình 1.3 minh hoạ về các cụm dữ liệu với các hình thù khác nhau dựa trên mật độ được khám phá

từ 3 CSDL khác nhau

Hình 1.3 Một số hình dạng khám phá bởi phân cụm dựa trên mật độ

Các cụm cĩ thể được xem như các vùng mật độ cao, được tách ra bởi các vùng khơng cĩ hoặc ít mật độ Khái niệm mật độ ở đây được xem như là các số các đối tượng láng giềng

Một thuật tốn PCDL dựa trên mật độ điển hình như DBSCAN, OPTICS, DENCLUE, SNN,

1.1.4.4 Phương pháp phân cụm dựa trên lưới

Kỹ thuật phân cụm dựa trên mật độ khơng thích hợp với dữ liệu nhiều chiều,

để giải quyết cho địi hỏi này, người ta đã sử dụng phương pháp phân cụm dựa trên lưới Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để PCDL, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu khơng gian Thí dụ như dữ liệu được biểu diễn dưới dạng cấu trúc hình học của đối tượng trong khơng gian cùng với các quan

hệ, các thuộc tính, các hoạt động của chúng Mục tiêu của phương pháp này là lượng hố tập dữ liệu thành các ơ (cell), các ơ này tạo thành cấu trúc dữ liệu lưới; Sau đĩ, các thao tác PCDL làm việc với các đối tượng trong từng ơ này Cách tiếp

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 21

cận dựa trên lưới này khơng di chuyển các đối tượng trong các ơ mà xây dựng nhiều mức phân cấp của nhĩm các đối tượng trong một ơ Ưu điểm của phương pháp PCDL dựa trên lưới là thời gian xử lý nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đĩ là chúng phụ thuộc vào số ơ trong mỗi chiều của khơng gian lưới Một thí dụ về cấu trúc dữ liệu lưới chứa các ơ trong khơng gian như hình sau:

Hình 1.4 Mơ hình cấu trúc dữ liệu lưới

Một số thuật tốn PCDL dựa trên cấu trúc lưới điểu hình như STING, Wavecluster, CLIQUE

1.1.4.5 Phương pháp phân cụm dựa trên mơ hình

Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mơ hình sao cho khớp với dữ liệu một cách tốt nhất Chúng cĩ thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mơ hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mơ hình này để nhận dạng ra các phân hoạch

Phương pháp phân cụm dựa trên mơ hình cố gắng khớp giữa các dữ liệu vớ i mơ hình tốn học, nĩ dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 22

phối xác suất cơ bản Các thuật tốn phân cụm dựa trên mơ hình cĩ hai cách tiếp cận chính: mơ hình thống kê và mạng nơron. Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mơ hình đã được xác định trước đĩ, nhưng đơi khi nĩ khơng bắt đầu với một số cụm cố định và khơng sử dụng cùng một khái niệm mật độ cho các cụm Một thuật tốn PCDL dựa trên mơ hình điển hình như EM, COBWEB,

1.1.4.6 Phương pháp phân cụm cĩ dữ liệu ràng buộc

Sự phát triển của PCDL khơng gian trên CSDL lớn đã cung cấp nhiều cơng

cụ tiện lợi cho phân tích thơng tin địa lý, tuy nhiên hầu hết các thuật tốn này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thoả mãn trong quá trình phân cụm Để PCDL khơng gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật tốn phân cụm

Hiện nay các phương pháp phân cụm trên đã và đang phát triển và áp dụng nhiều trong các lĩnh vực khác nhau và đã cĩ một số nhánh nghiên cứu được phát triển trên cơ sở các phương pháp đĩ như:

- Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chỉ

áp dụng cho các dữ liệu cĩ thuộc tính số

- Phân cụm khái niệm: Các kỹ thuật phân cụm được phát triển áp dụng cho

dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lý

- Phân cụm mờ: Thơng thường mỗi phương pháp PCDL phân một tập dữ liệu ban đầu thành các cụm dữ liệu cĩ tính tự nhiên và mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám ph á ra các cụm cĩ mật độ cao và rời nhau Tuy nhiên, trong thực tế, các cụm dữ liệu lại cĩ thể chồng lên nhau (một số các đối tượng dữ liệu thuộc về nhiều các cụm khác nhau), người ta đã áp dụng lý thuyết về tập mờ trong PCDL để giải quyết cho trường hợp này, cách thức kết hợp này được gọi là phân cụm mờ Trong phương pháp phân cụm mờ, độ phụ thuộc của đối tượng dữ liệu x k tới cụm thứ i (uk) cĩ giá trị thuộc

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 23

khoảng [0,1] Ý tưởng trên đã được giới thiệu bởi Ruspini (1969) và được Dunn áp dụng năm 1973 nhằm xây dựng một phương pháp phân cụm mờ dựa trên tối thiểu hĩa hàm tiêu chuẩn Bezdek (1982) đã tổng quát hĩa phương pháp này và xây dựng thành thuật tốn phân cụm mờ c-means cĩ sử dụng trọng số mũ

C-means là thuật tốn phân cụm mờ (của K-means) Thuật tốn C - means

mờ hay cịn gọi tắt là thuật tốn FCM (Fuzzy C-mens) đã được áp dụng thành cơng trong giải quyết một số lớn các bài tốn PCDL như trong nhận dạng mẫu, xử lý ảnh,

y học, Tuy nhiên, nhược điểm lớn nhất của thuật tốn FCM là nhạy cảm với các nhiễu và phần tử ngoại lai, nghĩa là các trung tâm cụm cĩ thể nằm xa so với trung tâm thực tế của cụm

Đã cĩ nhiều phương pháp đề xuất để cải tiến cho nhược điểm trên của thuật tốn FCM bao gồm: Phân cụm dựa trên xác suất (keller, 1993), phân cụm nhiễu mờ (Dave, 1991), phân cụm dựa trên tốn tử Lp Norm (kersten, 1999) Thuật tốn s -Insensitive Fuzzy c-means (s FCM- khơng nhạy cảm mờ c-means)

1.2 Bài tốn tra cứu Logo

1.2.1 Định nghĩa Logo

- Logo là một yếu tố đồ họa (kí hiệu, chữ biểu thị, biểu tượng, hình tượng )

kết hợp với cách thức thể hiện nĩ tạo thành: một nhãn hiệu hay thương hiệu, hình ảnh đại diện cho một cơng ty hay các tổ chức phi thương mại, hình ảnh biểu thị một

sự kiện, một cuộc thi, một phong trào hay một cá nhân nào đĩ

Hình 1.5: Logo của hãng Apple

- Một Logo được tạo lên bởi: Hình dạng và màu sắc

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 24

1.2.2 Đặc trưng của Logo và ảnh Logo

1.2.2.1 Một số đặc trưng cơ bản của ảnh số

*) Khái niệm đặc trưng của ảnh số

Trích rút đặc trưng là cơ sở của tra cứu ảnh dựa vào nội dung Theo nghĩa rộng, các đặc trưng cĩ thể bao gồm cả các đặc trưng dựa vào văn bản và các đặc trưng trực quan Các đặc trưng trực quan cĩ thể được phân loại tiếp thành các đặc trưng chung và các đặc trưng trong các lĩnh vực cụ thể Các đặc trưng trực quan chung gồm: màu, kết cấu, hình dạng, .; các đặc trưng trong các lĩnh vực cụ thể phụ thuộc vào các ứng dụng, ví dụ: mặt người, vân tay, Các đặc trưng lĩnh vực cụ thể bao gồm nhiều tri thức lĩnh vực, ta khơng đề cập ở đây

Nĩi chung, khơng tồn tại một biểu diễn đơn tốt nhất cho một đặc trưng đã cho, và tùy vào điều kiện cụ thể nên lựa chọn các đặc trưng ảnh một cách phù hợp

*) Đặc trưng về màu sắc

Màu là đặc trưng trực quan quan trọng đầu tiên và đơn giản nhất trong tra cứu ảnh dựa vào nội dung Nĩ cũng là đặc trưng được sử dụng phổ biến nhất trong lĩnh vực này, vì nĩ độc lập với kích thước và hướng của ảnh Mỗi điểm ảnh cĩ thể được biểu diễn như một điểm trong khơng gian màu sắc ba chiều, với các khơng gian màu thường dùng là RGB, HSV, CIE,

*) Lược đồ màu

Lược đồ màu H của một ảnh được xác định bởi véc tơ: H={H[0], H[1], H[2], , H[N]}, trong đĩ H[i] là số các pixel cĩ màu i trong ảnh, i biểu diễn một màu trong lược đồ màu, tương ứng với một khối con trong khơng gian màu RGB, N là số các bin trong lược đồ màu, mỗi bin biểu thị xác suất của các pixel trong ảnh Để so sánh các ảnh cĩ các kích cỡ khác nhau, các lược đồ màu sẽ được chuẩn hĩa Lược đồmàu chuẩn hĩa H’ được xác định: H’={H’[0], H’[1], ., H’[N]},

với H'[i] = -Mi,p và p là tổng các pixel trong ảnh

Đối với đặc trưng màu, lược đồ màu thường được sử dụng để thực hiện việc tra cứu ảnh bằng cách tính tốn để xác định tỉ trọng của các điểm ảnh, vì lược đồ màu biểu thị xác suất chung của các cường độ của ba kênh màu Cĩ rất nhiều kỹ thuật

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 25

đã áp dụng thành cơng lược đồ màu trong việc tra cứu ảnh, ví dụ như Swain và Ballard đề xuất lược đồ màu giao để tính tốn sự tương tự giữa các lược đồ màu của các ảnh, hay Stricker và Orengo đề xuất sử dụng các lược đồ màu tích lũy, hoặc sử dụng phương pháp mơ-men khoảng màu [12], Smith và Chang đề xuất thiết lập bộ màu như là một xấp xỉ với lược đồ màu [10], để khắc phục một số hạn chế của lược đồ màu thơng thường Ở đây khơng gian màu được giả thiết là

cố định, thơng tin khơng gian trong ảnh bị bỏ qua, và thơng tin màu trong một ảnh tiêu biểu cĩ thể được xem như tín hiệu ba chiều đơn, điều này cĩ thể dẫn tới khả năng các ảnh rất khác nhau cĩ thể cĩ các phân bố màu giống nhau, nhất là trong các CSDL lớn Để giải quyết vấn đề này, một số cải tiến đã được đề xuất để kết hợp với thơng tin khơng gian ảnh ngồi các thơng tin màu, mà phương pháp đơn giản nhất là phân chia một ảnh thành các vùng (phân hoạch ảnh) và xác định lược

đồ màu cho từng vùng Phân hoạch hay được dùng là phân hoạch hình chữ nhật, thậm chí phân hoạch đối tượng Việc tăng số các vùng con sẽ tăng thơng tin về vị trí, nhưng cũng tăng về chi phí bộ nhớ và thời gian tính tốn khi thực hiện tra cứu ảnh

cĩ sự tương đồng lớn về màu sắc và kết cấu Khơng gian màu HSV cung cấp các kết quả tra cứu tốt hơn khơng gian CIE L*u*v* và CIE L*a*b*

*) Tương quan màu

Tương quan màu được đề xuất khơng chỉ để mơ tả các phân bố màu của các pixel, mà cịn tương quan khơng gian của các cặp màu Chiều thứ nhất và thứ hai của lược đồ màu ba chiều là các màu của mọi cặp pixel và chiều thứ ba làkhoảng

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 26

cách khơng gian của chúng Một tương quan màu là một bảng được đánh chỉ số bởi các cặp màu, ở đây mục thứ k cho (i,j) chỉ rõ xác suất tìm được một pixel cĩ màu j tại một khoảng cách k từ một pixel cĩ màu i trong ảnh Cho I biểu diễn tồn bộ tập các pixel ảnh và Ic(i) biểu diễn tập các pixel cĩ màu c(i) thì tương quan màu được định nghĩa bằng:(1.1) Ở đây i,j ek e|pi-p2| là khoảng cách giữa các pixel p1 và p2

Nếu ta xét tất cả các kết hợp cĩ thể của các cặp màu, thì cỡ của tương quan màu sẽ rất lớn (bằng O(N2d)), do đĩ một phiên bản đơn giản hố, được gọi là tự tương quan màu thường được sử dụng thay thế Tự tương quan màu chỉ thu tương quan khơng gian giữa các màu thuần nhất và vì thế giảm số chiều xuống cịn O(Nd)

So sánh với lược đồ màu và véc tơ gắn kết màu, tự tương quan màu cho các kết quả tra cứu tốt hơn, nhưng chi phí tính tốn cũng cao hơn do cĩ tính tới thơng tin về chiều cao trong khơng gian màu ba chiều

*) Đặc trưng về hình dạng

Các đặc trưng hình dạng của các đối tượng hoặc các vùng đã được sử dụng trong nhiều hệ thống CBIR So với các đặc trưng màu và kết cấu, đặc trưng này thường được mơ tả sau khi các ảnh được phân đoạn thành các vùng hoặc các đối tượng Do phân đoạn ảnh mạnh và chính xác là khĩ đạt được, sử dụng các đặc trưng hình dạng cho tra cứu ảnh bị giới hạn đối với các ứng dụng chuyên biệt, ở đĩ các đối tượng hoặc các vùng đã sẵn cĩ Các phương pháp state-of-art cho mơ tả hình cĩ thể được phân thành hoặc là các phương pháp dựa vào đường bao hoặc các phương pháp dựa vào vùng Một biểu diễn đặc trưng hình tốt cho một đối tượng phải bất biến với dịch chuyển, quay và tỷ lệ Chúng ta sẽ mơ tả ngắn gọn một số đặc trưng hình được sử dụng phổbiến trong các ứng dụng tracứuảnh.Với một giới thiệu tổng quan ngắn gọn về các kỹ đối sánh hình

1.2.2.2 Tra cứu thơng tin và thơng tin trực quan

*) Khái niệm:

Thuật ngữ “Tra cứu thơng tin” được đưa ra vào năm 1952 và được phổ biến

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 27

trong cộng đồng nghiên cứu từ năm 1961 Một hệ thống tra cứu thơng tin được xem như một hệ thống lưu trữ và tìm kiếm thơng tin, vì thế nĩ được cấu tạo bởi một tập các thành phần tương tác, mỗi thành phần lại được thiết kế để đáp ứng một chức năng cụ thể cho một mục tiêu cụ thể, và tất cả các thành phần này được liên hệ với nhau để đạt được một mục tiêu, đĩ là tra cứu thơng tin trong một phạm vi nào đĩ Trước đây, tra cứu thơng tin cĩ nghĩa là tra cứu thơng tin văn bản, định nghĩa trên vẫn được giữ khi áp dụng đối với tra cứu thơng tin trực quan (VIR) Tuy nhiên, cĩ một sự khác biệt giữa loại thơng tin và bản chất của tra cứu văn bản với các đối tượng trực quan Thơng tin văn bản là một chiều trong khi hình ảnh là hai chiều, và video là ba chiều (chiều thứ ba là thời gian)

Cĩ hai cách tiếp cận chung đối với các giải pháp cho vấn đề VIR dựa trên dạng thơng tin trực quan đĩ là các phương pháp dựa trên đặc trưng và các phương pháp dựa trên văn bản mơ tả ảnh Các phương pháp dựa trên văn bản mơ tả ảnh dựa trên các phương pháp tra cứu thơng tin văn bản truyền thống và hệ quản trị CSDL cũng như sự can thiệp của con người để trích rút siêu dữ liệu về một đối tượng trực quan

và kết hợp nĩ cùng với đối tượng trực quan như một chú thích văn bản Tuy nhiên, gán các thuộc tính văn bản một cách thủ cơng cần nhiều thời gian và chi phí Hơn nữa, các chú thích thủ cơng thường phụ thuộc rất nhiều vào nhận thức chủ quan của con người Nhận thức chủ quan và chú thích thiếu chính xác là nguyên nhân tra cứu khơng chính xác trong các quá trình tra cứu sau này Các vấn đề đối với việc truy cập các ảnh và video dựa vào văn bản đã thúc đẩy nhanh chĩng sự quan tâm phát triển các giải pháp dựa vào nội dung Với giải pháp này, thay vì được chú thích một cách thủ cơng bởi các từ khố dựa vào văn bản, các ảnh cĩ thể được trích rút sử dụng một số đặc trưng trực quan như màu, kết cấu, hình dạng, và quan hệ khơng gian giữa các vùng và được đánh chỉ số dựa trên các các đặc trưng trực quan này Cách tiếp cận này dựa chủ yếu vào các kết quả từ thị giác máy Tuy nhiên, khơng

cĩ đặc trưng riêng lẻ tốt nhất mà cho các kết quả chính xác Thơng thường một sự kết hợp các đặc trưng một cách tuỳ biến là cần thiết để cung cấp các kết quả tra cứu thích hợp cho ứng dụng tra cứu ảnh dựa vào nội dung Tuy nhiên, vì mang tính chất

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 28

tìm hiểu và nghiên cứu, nên trong luận văn này chỉ tập trung vào một đặc trưng chính cụ thể, đĩ là đặc trưng màu cho ứng dụng tra cứu ảnh dựa vào nội dung

*) Truy vấn người sử dụng

Cĩ nhiều cách gửi một truy vấn trực quan Một phương pháp truy vấn tốt là một phương pháp tự nhiên đối với người sử dụng cũng như thu được đủ thơng tin từ người sử dụng để trích rút các kết quả cĩ ý nghĩa Các phương pháp truy vấn dưới đây được sử dụng phổ biến trong tra cứu ảnh dựa vào nội dung:

- Truy vấn bởi ảnh mẫu (QBE)

Trong loại truy vấn này, người sử dụng hệ thống chỉ rõ một ảnh truy vấn đích, dựa trên ảnh truy vấn đĩ hệ thống sẽ tìm kiếm trong CSDL ảnh các ảnh tương tự nhất Ảnh truy vấn cĩ thể là một ảnh thơng thường, một bản quét của một ảnh cĩ độ phân giải thấp, hoặc một phác thảo của người sử dụng dùng các cơng cụ mơ tả giao diện đồ hoạ để tạo ra nĩ Ưu điểm chính của loại hệ thống này là nĩ tự nhiên cho những người sử dụng chung và chuyên gia để tìm kiếm một CSDL ảnh

- Truy vấn bởi đặc trưng (QBF)

Trong hệ thống QBF tiêu biểu, những người sử dụng chỉ rõ các truy vấn bằng việc chỉ rõ các đặc trưng họ quan tâm cho tìm kiếm Ví dụ, một người sử dụng cĩ

thể truy vấn một CSDL ảnh bằng việc đưa ra một lệnh để tra cứu tất cả các ảnh cĩ gĩc phần tư trái chứa 25% pixel màu xanh Truy vấn này được chỉ rõ bằng việc sử

dụng các cơng cụ giao diện đồ hoạ chuyên dụng Những người sử dụng hệ thống tra cứu ảnh chuyên biệt cĩ thể thấy loại truy vấn này là bình thường, nhưng những người sử dụng chung thì khơng thể QBIC là một ví dụ về một hệ thống tra cứu ảnh dựa vào nội dung sử dụng loại phương pháp truy vấn này

- Truy vấn dựa vào thuộc tính

Loại truy vấn này sử dụng các chú thích văn bản, trích rút trước bởi nỗ lực của con người, như một khố tra cứu chính Loại biểu diễn này địi hỏi độ trừu tượng cao và khĩ thực hiện một cách tự động hồn tồn do một ảnh cĩ một lượng lớn các thơng tin và khĩ tĩm tắt bởi một số ít các từ khố Phương pháp này nhìn chung là nhanh hơn và dễ hơn để thực hiện, nhưng cĩ một độ chủ quan và nhập nhằng cao

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 29

Người sử dụng thích truy vấn các hệ thống tra cứu ảnh dựa vào nội dung bằng

việc yêu cầu các câu hỏi tự nhiên như “Đưa ra các bức ảnh về Đại học Thái

Nguyên”, hoặc “ Tìm các ảnh liên quan đến các lớp Thạc sĩ Tin học của Đại học

Thái Nguyên" Ánh xạ truy vấn ngơn ngữ tự nhiên này đến một truy vấn trên CSDL

ảnh là vơ cùng khĩ so với việc sử dụng các phương pháp chú thích Khả năng của các máy tính để thực hiện nhận dạng đối tượng tự động trên các ảnh chung vẫn là một vấn đề nghiên cứu mở Do đĩ hầu hết các nỗ lực nghiên cứu và thương mại tập trung vào xây dựng các hệ thống thực hiện tốt với các phương pháp QBE

1.2.3 Đặc trưng của logo

Theo Al Ries và Laura Ries (1998), Alycia Perry (2003), cũng như một số chuyên gia thương hiệu khác thì logo của thương hiệu thường phải đảm bảo một số yêu cầu

- Khác biệt: Cĩ những dấu hiệu đặc biệt gây ấn tượng thị giác mạnh, dễ phân

biệt Đây là chức năng quan trọng của logo, giúp phân biệt thương hiệu hay sản phẩm với thương hiệu hay sản phẩm cạnh tranh Sự khác biệt cũng làm cho thương hiệu dễ đi vào tâm trí của khách hàng hơn Để tạo sự khác biệt, cĩ thể các nhà thiết thường tránh những hình cơ bản, được dùng nhiều Tính khác biệt cao cũng làm tăng khả năng được pháp luật bảo hộ

- Đơn giản, dễ nhớ: Tạo khả năng dễ chấp nhận, dễ suy diễn Trong vài chục

giây quan sát, người xem cĩ thể hình dung lại đường nét biểu trưng trong trí nhớ Trong bối cảnh nhiều sản phẩm cạnh tranh cùng được khuếch trương trên các phương tiện thơng tin đại chúng, logo của thương hiệu sẽ khơng được khách hàng biết đến nếu nĩ phức tạp và khĩ nhớ, dù là bằng tên gọi, ký hiệu hay chữ viết Hầu hết các thương hiệu nổi tiếng thế giới đều sử dụng những dấu hiệu thương hiệu rất

đơn giản Kodak sử dụng chữ K được viết cách điệu, McDonald sử dụng chữ M hình cánh cổng màu vàng, Nike sử dụng nét phết, IBM sử dụng tên thượng hiệu

viết cách điệu Hầu như những dấu hiệu thương hiệu này chỉ sử dụng 1 hoặc 2 màu

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 30

cơ bản như màu vàng của Kodak, McDonanld, màu xanh da trời của IBM, hay màu

đỏ của Coca Cola

- Dễ thích nghi: Cĩ khả năng thích nghi trong các thị trường thuộc khu vực

khác nhau, các nền văn hố hay ngơn ngữ khác nhau Trên thực tế, khách hàng ở các nước khác nhau, cĩ nền văn hố khác nhau và ngơn ngữ khác nhau thường cĩ cách hiểu khác nhau đối với các hình ảnh hay ký hiệu Do đĩ các biểu trưng thương mại quốc tế ít dùng hình ảnh mang ý nghĩa sẵn cĩ theo một nền văn hố hay ngơn ngữ nào mà sử dụng những hình ảnh mới rồi gắn chúng với các liên tưởng về sản phẩm

- Cĩ ý nghĩa: Biểu thị được những nét đặc trưng cho sản phẩm hay các chủ

đề liên quan Thực tế là những logo cĩ ý nghĩa tự thân về sản phẩm lại thường khơng tạo nên cảm giác khác biệt Hơn nữa, sản phẩm ngày nay thường quá phức tạp khiến tên gọi hay hình ảnh cĩ ý nghĩa thì lại khĩ khác biệt, dễ nhớ và đảm bảo tính tượng trưng Cho nên trong thực tế tính ý nghĩa này thường được tạo ra qua các liên tưởng về thương hiệu hơn là tự thân thương hiệu

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 31

Cách khác để tạo ra ấn tượng là dùng kiểu chữ đặc thù của tên thương hiệu Đây là hình thức cách điệu tên thương hiệu bằng cách sử dụng kiểu chữ đặc thù bao gồm việc sử dụng phơng chữ, chữ hoa - chữ thường, thay đổi độ đậm nhạt hoặc cách viết cách điệu Khi thiết kế logo theo cách này, doanh nghiệp cĩ thể sử dụng thiết kế đặc thù của tên thương hiệu đầy đủ hoặc viết tắt

Màu sắc

Màu sắc cũng cĩ xu hướng đơn giản, dễ dàng được nhận thấy và ghi nhớ Các nhà thiết kế cĩ thể ưu tiên vẽ màu trắng và đen trước khi tơ màu Một vài ví dụ diễn giải màu sắc:

· Đen : Trang trọng, đặc biệt, mạnh mẽ, quyền lực, tinh tế, truyền thống

· Xanh dương : Uy quyền, đỉnh đạc, an tồn, đáng tin cậy, truyền thống, ổn định, trung thành

· Nâu /Vàng : Cổ điển, lợi ích, trần tục, giàu sang, truyền thống, bảo thủ

· Xám /Bạc : Ảm đạm, quyền lực, thực tế, tâm linh, tin tưởng

· Xanh lá cây : Yên tĩnh, lành mạnh, khoẻ khoắn, ổn định, thèm muốn

· Hồng : Nữ tín, ngây thơ, dịu dàng, khoẻ mạnh, trẻ trung

· Tím : Tinh tế, tâm lý, giàu sang, hồng tộc, trẻ trung, bí ẩn

· Đỏ : Hung hăng, mạnh mẽ, bền bỉ, đầy sức sống, kinh sợ,

· Cam : Là màu phối hợp giữa màu đỏ và vàng, chỉ điềm lành được hưởng cuộc sống yên vui, nhiều quyền hành

Người thiết kế logo cĩ thể chọn màu sắc tương hợp, tương sinh với triết lý

âm dương, ngũ hành

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 32

Chương 2: MỘT SỐ KỸ THUẬT PHÂN CỤM TRONG TRA CỨU LOGO

2.1 Thuật tốn K- Means

Thuật tốn phân cụm K-means do MacQueen đề xuất lĩnh vực thống kê năm

1967, K-means là thuật tốn phân cụm trong đĩ các cụm được định nghĩa bởi trọng tâm của các phần tử Phương pháp này dựa trên độ đo khoảng cách tới giá trị trung bình của các đối tượng dữ liệu trong cụm, nĩ được xem như là trung tâm của cụm Như vậy, nĩ cần khởi tạo một tập trung tâm các trung tâm cụm ban đầu, và thơng qua đĩ nĩ lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần, và tính tốn tại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tượng Quá trình lặp này dừng khi các trung tâm hội tụ

Hình 2.1: Các thiết lập để xác định các ranh giới các cụm ban đầu

Trong phương pháp K-means, chọn một giá trị k là số cụm cần xác định

và sau đĩ chọn ngẫu nhiên k trung tâm của các đối tượng dữ liệu Tính tốn khoảng cách giữa đối tượng dữ liệu và trung bình mỗi cụm để tìm kiếm phần tử nào là tương tự và thêm vào cụm đĩ Từ khoảng cách này cĩ thể tính tốn trung bình mới của cụm và lặp lại quá trình cho đến khi mỗi các đối tượng dữ liệu là một bộ phận của cụm nào đĩ

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Trang 33

Mục đích của thuật tốn K-means là sinh k cụm dữ liệu {C1, C2, ,Ck} từ một tập dữ liệu ban đầu chứa n đối tượng trong khơng gian d chiều X i ={Xi1,Xi2, , Xin},

i = 1,n, sao cho hàm tiêu chuân: E = X D (x-mi) đạt giá trị tối thiểu

Trong đĩ: m;- là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tượng

Hình 2.2: Tính tốn trọng tâm của các cụm mới

Trọng tâm của một cụm là một vectơ, trong đĩ giá trị của mỗi phần tử của nĩ

là trung bình cộng của các thành phần tương ứng của các đối tượng vectơ dữ liệu trong cụm đang xét Tham số đầu vào của thuật tốn là số cụm k, và tham số đầu ra của thuật tốn là các trọng tâm của cụm dữ liệu Độ đo khoảng cách D giữa các đối tượng dữ liệu thường được sử dụng là khoảng cách Euclide vì đây là mơ hình khoảng cách nên dễ lấy đạo hàm và xác định các cực trị tối thiểu Hàm tiêu chuẩn

và độ đo khoảng cách cĩ thể được xác định cụ thể hơn tùy vào ứng dụng hoặc quan điểm của người dùng Thuật tốn K-means bao gồm các bước cơ bản sau:

Input: Tập dữ liệu S và số cụm mong muốn k

Output: Tập các cụm Ci(1< i < k) và hàm tiêu chẩn E đạt giá trị tối thiểu

Begin

Bước 1: Khởi tạo

Số hóa bởi trung tâm học liệu http://www.lrc.tnu.edu.vn/

Ngày đăng: 18/11/2014, 22:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Đỗ Năng Toàn, Phạm Việt Bình, Giáo trình Xử lý ảnh, Nhà xuất bản Khoa học và Kỹ thuật, Hà Nội 2008 Sách, tạp chí
Tiêu đề: Giáo trình Xử lý ảnh
Nhà XB: Nhà xuất bản Khoa học và Kỹ thuật
[2]. Lương Mạnh Bá, Nguyễn Thanh Thủy, Nhập môn Xử lý ảnh số. Nhà xuất bản Khoa học và Kỹ thuật, Hà Nội 1999 Sách, tạp chí
Tiêu đề: Nhập môn Xử lý ảnh số
Nhà XB: Nhà xuất bản Khoa học và Kỹ thuật
[4]. Effective Logo Retrieval with Adaptive Local Feature Selection, Jianlong Fu, Jinqiao Wang, and Hanqing Lu, http://nlpr-web.ia.ac.cn/2010papers/gjhy/gh91.pdf Sách, tạp chí
Tiêu đề: Effective Logo Retrieval with Adaptive Local Feature Selection
Tác giả: Jianlong Fu, Jinqiao Wang, Hanqing Lu
Nhà XB: ACM
Năm: 2010
[8]. Mari Partio, “Content-based Image Retrieval using Shape and Texture Attributes”, Master of Science Thesis,Tampere University of Technology, April 2002 Sách, tạp chí
Tiêu đề: Content-based Image Retrieval using Shape and Texture Attributes
[9]. Q. Tian, N. Sebe, M.S. Lew, E. Loupias, T. S. Huang, “Content-Based Image Retrieval Using Wavelet-based Salient Points”, August 2001 Sách, tạp chí
Tiêu đề: Content-Based Image Retrieval Using Wavelet-based Salient Points
[10]. Norio Katayama and Shin’ichi Satoh, “Similarity Image Retrieval with Significane-Sensitive Nearest-Neighbor Search”, National Institute of Informatics, 2004 Sách, tạp chí
Tiêu đề: Similarity Image Retrieval with Significane-Sensitive Nearest-Neighbor Search
Tác giả: Norio Katayama, Shin’ichi Satoh
Nhà XB: National Institute of Informatics
Năm: 2004
[11]. Pengyu Hong, Qi Tian, Thomas S. Huang, “Incorporate Support Vector Machine to Content-Based Image Retrieval With Relevant Feedback”, IFP Group, Beckman Institute - University of Illinois at Urbana-Champaign, Urbana, USA, 2000 Sách, tạp chí
Tiêu đề: Incorporate Support Vector Machine to Content-Based Image Retrieval With Relevant Feedback
Tác giả: Pengyu Hong, Qi Tian, Thomas S. Huang
Nhà XB: IFP Group
Năm: 2000
[12]. Kerry Rodden, Wojciech Basalaj,David Sinclair, Kenneth Wood, “A comparison of measures for visualising image similarity”, University of Cambridge Computer Laboratory Sách, tạp chí
Tiêu đề: A comparison of measures for visualising image similarity
Tác giả: Kerry Rodden, Wojciech Basalaj, David Sinclair, Kenneth Wood
Nhà XB: University of Cambridge Computer Laboratory
[13]. Thomas Deselaers, “Features for Image Retrieval”, Master of Science Thesis, Technische Hochschule Aachen, December 2003 Sách, tạp chí
Tiêu đề: Features for Image Retrieval
[14]. Pinar Duygulu, “Interest Points”, Computer Vision, Bilkent University, Spring 2006 Sách, tạp chí
Tiêu đề: Interest Points
[15]. Simone Santani and Ramesh Jain, “Similarity Measures”, University of California, San Diego Sách, tạp chí
Tiêu đề: Similarity Measures
[16]. V. Gouet N. Boujemaa, “Object-based queries using color points of interest”, Valerie.Gouet@inria.fr, Nozha.Boujemaa@inria.fr, April 2001 Sách, tạp chí
Tiêu đề: Object-based queries using color points of interest
[7]. Data clustering: 50 years beyond K-means, Anil K. Jain, http://biometrics.cse.msu.edu/Publications/GeneralPRIP/JainDataClustering_PRL09.pdf Link

HÌNH ẢNH LIÊN QUAN

Hình 1.1- Mô tả tập dữ liệu vay nợ đƣợc phân thành 3 cụm. - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 1.1 Mô tả tập dữ liệu vay nợ đƣợc phân thành 3 cụm (Trang 11)
Hình 1.2: Các chiến lược phân cụm phân cấp - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 1.2 Các chiến lược phân cụm phân cấp (Trang 19)
Hình 1.4. Mô hình cấu trúc dữ liệu lưới. - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 1.4. Mô hình cấu trúc dữ liệu lưới (Trang 21)
Hình 2.1: Các thiết lập để xác định các ranh giới các cụm ban đầu - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 2.1 Các thiết lập để xác định các ranh giới các cụm ban đầu (Trang 32)
Hình 2.3: Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 2.3 Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means (Trang 36)
Hình 2.6. Ví dụ thực hiện phân cụm bằng thuật toán CURE - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 2.6. Ví dụ thực hiện phân cụm bằng thuật toán CURE (Trang 41)
Hình 2.7. a) Mật độ trực tiếp, b) Đến được mật độ, c) Mật độ liên thông - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 2.7. a) Mật độ trực tiếp, b) Đến được mật độ, c) Mật độ liên thông (Trang 43)
Hình 3.2: Sơ đồ thuật toán K – Mean trong phân cụm ảnh. - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.2 Sơ đồ thuật toán K – Mean trong phân cụm ảnh (Trang 51)
Hình 3.3. Phân cụm ảnh - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.3. Phân cụm ảnh (Trang 52)
Hình 3.7 - Màn hình lựa chọn các tham số cho chương trình - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.7 Màn hình lựa chọn các tham số cho chương trình (Trang 56)
Hình 3.9- Màn hình hiển thị ảnh lôgô đưa vào cùng histogram màu và hình dạng - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.9 Màn hình hiển thị ảnh lôgô đưa vào cùng histogram màu và hình dạng (Trang 57)
Hình 3.10- Lựa chọn menu Image Retrieval -&gt; By Color (tra cứu theo màu sắc) - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.10 Lựa chọn menu Image Retrieval -&gt; By Color (tra cứu theo màu sắc) (Trang 57)
Hình 3.11- Màn hình hiển thị kết quả 10 ảnh lôgô gần giống nhất theo màu sắc - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.11 Màn hình hiển thị kết quả 10 ảnh lôgô gần giống nhất theo màu sắc (Trang 58)
Hình 3.12- Lựa chọn menu Image Retrieval -&gt; By Shape để tra cứu theo hình dạng - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.12 Lựa chọn menu Image Retrieval -&gt; By Shape để tra cứu theo hình dạng (Trang 58)
Hình 3.13- Màn hình hiển thị kết quả 10 ảnh lôgô gần giống nhất theo hình dạng - Nghiên cứu một số kỹ thuật phân cụm trong tra cứu logo
Hình 3.13 Màn hình hiển thị kết quả 10 ảnh lôgô gần giống nhất theo hình dạng (Trang 59)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w