1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phát triển hệ thống truy vấn ảnh y sinh theo nội dung

85 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 85
Dung lượng 2,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu phát triển hệ thống truy vấn ảnh y sinh theo nội dung Nghiên cứu phát triển hệ thống truy vấn ảnh y sinh theo nội dung Nghiên cứu phát triển hệ thống truy vấn ảnh y sinh theo nội dung luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

Lê Hữu Toàn

NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG TRUY VẤN ẢNH Y SINH THEO NỘI DUNG

Chuyên ngành : Kỹ thuật y sinh

LUẬN VĂN THẠC SĨ KĨ THUẬT

KỸ THUẬT Y SINH

NGƯỜI HƯỚNG DẪN KHOA HỌC :

1 PGS.TS Nguyễn Tiến Dũng

Hà Nội – Năm 2016

Trang 2

MỤC LỤC

DANH MỤC HÌNH VẼ 1

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 3

LỜI CAM ĐOAN 4

LỜI MỞ ĐẦU 5

CHƯƠNG 1 TỔNG QUAN VỀ TRUY VẤN ẢNH Y SINH THEO NỘI DUNG 7

1.1 Động lực của đề tài 7

1.1.1 Hệ thống dựa trên khái niệm (Concept-base) 8

1.1.2 Tiêu chuẩn hình ảnh y tế 9

1.1.3 Những hạn chế của truy vấn concept -based 10

1.2 Truy vấn ảnh theo nội dung (CBIR) 12

1.3 CBIR trong các ứng dụng y tế 13

CHƯƠNG 2 THÔNG TIN NỀN TẢNG CỦA HÌNH ẢNH KỸ THUẬT SỐ 16

2.1 Ảnh kỹ thuật số 16

2.2 Xử lý ảnh kỹ thuật số 17

2.2.1 Biểu diễn ảnh 20

2.2.2 Tăng cường ảnh – khôi phục ảnh 21

2.2.3 Biến đổi ảnh 22

2.2.4 Phân tích ảnh 22

2.2.5 Nhận dạng ảnh 23

2.3 Đặc tính ảnh số 23

2.3.1 Màu sắc 23

2.3.2 Hình dạng 24

Trang 3

2.3.3 Cấu trúc 25

2.4 Kết hợp các đặc tính 26

2.5 Lập chỉ mục đặc tính (Feature Indexing) 27

2.6 Truy vấn ảnh tương tác 28

CHƯƠNG 3 CÁC ĐẶC TÍNH ỨNG DỤNG TRONG TRUY VẤN ẢNH THEO NỘI DUNG 32

3.1 Đặc tính màu 32

3.1.1 Không gian màu 32

3.1.2 Lượng tử hóa màu 35

3.1.3 Mô tả màu 36

3.2 Đặc tính bất biến 38

3.3 Ma trận đồng xuất hiện (Co-occurence Matrix ) 40

3.4 Đặc tính Gabor 41

3.5 Đặc tính Tamura 42

3.6 Mô tả cấu trúc toàn bộ 45

3.7 Đặc tính cục bộ 46

3.8 Đặc tính dựa trên vùng 48

3.9 Các đặc điểm biến đổi PCA 49

3.10 Tương quan giữa các đặc tính 50

CHƯƠNG 4 KHOẢNG CÁCH ĐẶC TÍNH TRONG HỆ THỐNG TRUY VẤN ẢNH THEO NỘI DUNG 51

4.1 Phương pháp so sánh lược đồ 51

4.1.1 So sánh từng thành phần một ( bin-by-bin) 51

4.1.2 Phương pháp so sánh chéo thành phần lược đồ: 54

Trang 4

4.2 So sánh ảnh 59

4.2.1 Khoảng cách Euclidean 59

4.2.2 Khoảng cách tiếp tuyến 59

4.2.3 Mô hình méo ảnh 60

4.3 So sánh ảnh dựa trên đặc tính cục bộ 60

4.3.1 Chuyển trực tiếp (Direct Tranfer) 60

4.3.2 Mô hình méo ảnh đặc tính cục bộ ( Local Feature Image Distortion Model) 61

4.4 So sánh mô tả dựa trên vùng 61

4.4.1 So sánh vùng kết hợp ( Integrated Region Matching) 62

4.4.2 So sánh vùng Hungarian lượng tử (Quantized Hungarian Region Matching) 62

4.5 Các đặc tính khác 64

CHƯƠNG 5 ĐÁNH GIÁ CHẤT LƯỢNG TRUY VẤN ẢNH VÀ MÔ PHỎNG NHẬN DẠNG ẢNH SIÊU ÂM 65

5.1 Đánh giá chất lượng truy vấn ảnh 65

5.2 Mô phỏng nhận dạng ảnh siêu âm 68

5.2.1 Giới thiệu về chương trình mô phỏng 68

5.2.2 Sơ đồ khối chương trình 74

5.2.3 Giao diện chương trình 75

5.2.4 Kết quả nhận dạng ảnh và đánh giá 76

KẾT LUẬN VÀ HƯ ỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 80

TÀI LIỆU THAM KHẢO 81

Trang 5

DANHMỤC HÌNH VẼ

Hình 1.1 Loại và kích cỡ của một số hình ảnh y tế kỹ thuật số thường được sử

dụng .7

Hình 1.2 - Một sơ đồ cơ bản đại diện cho hệ thố ng truy vấn ảnh theo khái niệm 9

Hình 1.3 Sơ đồ khối hệ thống truy vấn ảnh theo nội dung 13

Hình 2.1 Các bước trong xử lý ảnh số 19

Hình 2.2 Ảnh biến dạng do nhiễu 21

Hình 2.3 Hệ thống truy vấn có tương tác 30

Hình 3.1 Biến đổi HSV C T từ RGB thành HSV và lượng tử hóa Q C166 cung cấp 166 màu HSV 36

Hình 3.2 Biểu diễn màu phân bố cục bộ 38

Hình 3.3 Ví dụ về đặc tính cấu trúc: (a) độ thô lớn, (b) độ thô nhỏ, (c) độ tương phản cao, (d) độ tương phản thấp, (e) có tính hướng, (f) không có tính hướng 43

Hình 3.4 Trích chọn đặc tính cục bộ 47

Hình 3.5 Các phân vùng của các ảnh với số lượng các vùng và k khác nhau 49

Hình 4.1 Ba lược đồ với khoảng cách thành phần giống nhau tứng đôi một 51

Hình 4.2 So sánh lược đồ : Dạng bình phương và EMD 57

Hình 4.3 Time warp disance T(Ha,Hb) = 6; 58

Hình 4.4 Ví dụ về biểu đồ căn chỉnh 58

Hình 4.5 Căn vùng để tìm vùng phù hợp bởi lượng tử hóa Hungarian 63

Hình 5.1 Tương quan giữa các phép đo chất lượng theo phạm vi [-100,100] 68

Hình 5.2 Ảnh siêu âm Gallbladder 69

Hình 5.3 Ảnh siêu âm Kidney 69

Hình 5.4 Ảnh siêu âm Liver 70

Hình 5.5 Ảnh siêu âm Pancreas 70

Hình 5.6 Ảnh siêu âm Spleen 71

Hình 5.7 Ảnh siêu âm Heart 4 Chamber 71

Hình 5.8 Ảnh siêu âm Heart Parasternal View 71

Trang 6

Hình 5.9 Ảnh siêu âm Heart Short Axis View Papillary 72

Hình 5.10 Ảnh siêu âm Heart Short Axis View Mitral Valve 72

Hình 5.11 Ảnh siêu âm LT.THY.TRANS 72

Hình 5.12 Ảnh siêu âm RT.CCA.LONG 73

Hình 5.13 Ảnh siêu âm RT.THY.LONG 73

Hình 5.14 Ảnh siêu âm RT.THY.TRANS 73

Hình 5.15 Sơ đồ khối mô tả hoạt động của chương trình 74

Hình 5.16 Giao diện chương trình mô phỏng 75

Hình 5.17 Chương trình nhận dạng đúng Gallbladder 76

Hình 5.18 Chương trình nhận dạng sai Gallbladder thành Kidney 77

Hình 5.19 Chương trình nhận dạng đúng Heart Parasternal View 77

Hình 5.20 Chương trình nhận dạng đúng RT.THY.TRANS 78

Hình 5.21: Chương trình nhận dạng sai Liver thành RT.CCA.LONG 78

Trang 7

DANHMỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT

DICOM - Digital Image and Communications System

MRI - magnetic resonance imaging

PACS - Picture Archive and Communications Systems

CBIR - Content Based Image Retrieval

IRMA - Image Retrieval for Medical Applications –

SPIRS - Spine Pathology & Image Retrieval System –

CCD - Charge Coupled Device

Trang 8

LỜI CAM ĐOAN

Tôi là Lê Hữu Toàn, học viên lớp Cao họcKỹ thuật Y sinhkhóa CH2013B - Trường Đại học Bách khoa Hà Nội

Đề tài luận văn: Nghiên cứu phát triển hệ thống truy vấn ảnh y sinh theo nội dung

Nay tôi xin cam đoan:

Tất cả những nội dung trong luận văn này đều do tôi thực hiện và chưa từng được ai công bố trong bất kỳ một công trình nào khác

Tất cả những phần thông tin được trích dẫn từ các tài liệu của các tác giả khác đều được chú thích rõ ràng

Tôi xin chịu mọi trách nhiệm đối với nội dung luận văn này

CÁN BỘ HƯỚNG DẪN

PGS.TS Nguyễn Tiến Dũng

TÁC GIẢ LUẬN VĂN

Lê Hữu Toàn

Trang 9

LỜI MỞ ĐẦU

Những tiến bộ trong công nghệ hình ảnh kỹ thuật số và tỷ lệ ngày càng tăng của các hệ thống lưu trữ hình ảnh đã dẫn đến một sự tăng trưởng theo cấp số nhân trong số các hình ảnh được tạo ra và lưu trữ trong các bệnh viện trong những năm gần đây Vì vậy, tự động chú thích và phân loại ảnh y tế là rất hữu ích cho các mục đích quản lý cơ sở dữ liệu hình ảnh

Hệ thố ng truy xuất hình ảnh thông thường được dựa trên văn bản chú thích các thông tin quan trọng về hình ảnh được lưu trữ Trong hình ảnh y tế nó tạo thành một thành phần thiết yếu trong hồ sơ của bệnh nhân Tuy nhiên, trong nhiều trường hợp thông tin này là r ất thường bị mất như hậu quả của việc nén hình ảnh ho ặc lỗi của con người Ngoài ra, với nhiều tiêu chuẩn khác nhau áp dụng cho việc chú thích hình ảnh y tế, việc xây dựng một bản thể luận toàn diện liên quan đến thuật ngữ y tế không phải luôn luôn có sự đồng thuận Gần đây, những tiến bộ trong truy vấn ảnh theo nội dung nhắc nhở các nhà nghiên cứu theo hướng tiếp cận mới trong truy vấn thông tin trong cơ sở dữ liệu hình ảnh Trong các ứng dụng y tế nó đã gặp một số mức độ thành công nhưng còn nhiều hạn chế

Luận văn này với đề tài: Nghiên cứu phát triển hệ thống truy vấn ảnh y

sinh theo nội dung, gồm các phần chính như sau:

- Chương 1:Tổng quan về truy vấn ảnh dựa trên nội dung: Trình bày tổng quan về các vấn đề cơ bản trong truy vấn ảnh dựa trên nội dung

- Chương 2:Thông tin nền tảng của hình ảnh kỹ thuật số: Trình bày Tổng quan về xử lý ảnh số và các đặc tính của ảnh số

- Chương 3:Các đặc tính ứng dụng trong truy vấn ảnh theo nội dung: Trình bày các đặc tính khác nhau được trích chọn từ ảnh để phục vụ cho việc so sánh ảnh

Trang 10

- Chương 4: Khoảng cách đặc tính trong hệ thống truy vấn ảnh theo nội dung: Trình bày các phương pháp đánh giá mức độ khác biệt giữa các đặc tính của ảnh trong hệ thống truy vấn

- Chương 5: Đánh giá chất lượng truy vấn ảnh theo nội dung và mô phỏng nhận dạng ảnh siêu âm: Trình bày các phương pháp đ ánh giá chất lượng truy vấn ảnh; giới thiệu một chương trình nhận dạng ảnh siêu âm (một chức năng quan trọng trong một hệ thống truy vấn ảnh) bằng ngôn ngữ lập trình C++

Truy vấn ảnh dựa trên nội dung là vấn đề vẫn còn đang được nhiên cứu để đáp ứng các yêu cầu khác nhau trong các lĩnh vực áp dụng khác nhau Trong tương lai, tôi hy vọ ng có cơ hội để nghiên cứu , tìm hiểu đầy đủ và chi tiết hơn Trong phạm vi của một luận văn tốt nghiệp và khả năng hiểu biết còn có nhiều hạn chế, luận văn này không thể tránh khỏi những thiếu sót, tôi rất mong nhận được những ý kiến đóng góp c ủa các thầy cô và bạn bè để có thể hoàn thiện hơn nữa trong những nghiên cứu sau này

Tôi xin chân thành cảm ơn PGS.TS Nguyễn Tiến Dũng đã giúp đỡ tôi hoàn thành được luận văn tốt nghiệp của mình

Trang 11

CHƯƠNG 1 TỔNG QUAN VỀ TRUY VẤN ẢNH Y SINH THEO NỘI

DUNG 1.1 Động lực của đề tài

Hình ảnh là một trong những công cụ quan trọng nhất trong y học vì nó cung cấp cơ sở để chẩn đoán, theo dõi đáp ứng điều trị và quản lý bệnh của bệnh nhận với lợi thế thường là thủ thuật không xâm lấn rất nhanh, có rất ít tác dụng phụ với mối quan hệ chi phí –hiệu quả tuyệt vời

Định dạng bản cứng của ảnh, ví dụ như phim là điều thường thấy trong giai đoạn ban đầu của ảnh y tế nhưng giờ đây đã trở nên hiếm hơn Chi phí bảo quản, không gian lưu trữ và lượng vật tư phim, giấy khổn lồ khiến nó trở nên lỗi thời Ngày nay với sự phát triển của hình ảnh kỹ thuật số, các định dạng mềm có thể sao chép đã giải quyết được các tồn tại của dạng bản cứng, kèm theo khả năng đính kèm chú thích văn bản ở dạng siêu dữ liệu Hình 1.1 cho thấy cái nhìn tổng thể về các loại ảnh số, kích thước và số lượng ảnh trong mỗi thủ thuật tạo ảnh y tế Điều kì lạ

là quá trình chuyển giao từ ảnh cứng sang ảnh mềm vẫn là trọng tâm c ủa một cuộc tranh luận thú vị liên quan đến phân tích và cảm nhận của bác sỹ trong quá trình chẩn đoán

Hình1.1 Loại và kích cỡ của một số hình ảnh y tế kỹ thuật số thường được sử dụng

Trang 12

Với sự gia tăng khả năng lưu trữ dữ liệu và sự phát triển của các thiết bị hình ảnh kỹ thuật số, để tăng cường hiệu quả và tạo ra thông tin chính xác hơn, một sự tăng trưởng ổn định về số lượng các hình ảnh y tế được tạo ra có thể dễ dàng hiểu được Một ví dụ điển hình của xu hướng này là Khoa Chẩn đoán hình ảnh của Bệnh viện Đại học Geneva đã tạo ra từ 12.000 hình ảnh y tế một ngày vào năm 2002 đến 50.000 hình ảnh y tế một ngày năm 2007 Đóng góp chính cho những con số này là các khung hình từ video từ đ ặt ống thông tim và nội soi Ngoài những hữu dụng của hình ảnh y khoa trong việc chẩn đoán và điều trị bệnh nhân, lượng dữ liệu rất lớn này cũng cung cấp nguồn tài nguyên tuyệt vời cho các nhà nghiên c ứu trong lĩnh vực y tế

1.1.1 Hệ thống dựa trên khái niệm (Concept-base)

Với sự gia tăng theo cấp số nhân của các dữ liệu y tế trong các thư viện kỹ thuật số, việc phân tích và tìm kiếm các dữ liệu liên quan đến một công việc cụ thể ngày càng trở nên khó khăn Vì việc truy vấn dựa vào thông tin bằng văn bản đã là một

kỹ thuật phổ biến, một cách để khắc phục vấn đề này là sử dụng siêu dữ liệu cho hình ảnh để mô tả về nội dung chính và bối cảnh của nó có thể được lưu trữ Đối với hình ảnh y tế, ta có thể lưu trữ, ví dụ, xác định bệnh nhân, lo ại bài kiểm tra và các chi tiết kỹ thuật của nó ho ặc thậm chí một văn bản nhận xét nhỏ liên quan đến thông tin lâm sàng có liên quan Với thông tin này được chú thích, kỹ thuật văn bản phù hợp có thể được áp dụng để lấy hình ảnh đáp ứng một câu tìm kiếm được trung gian bởi một từ điển đồng nghĩa, thực hiện bằng cách đánh giá sự tương tự giữa câu tìm kiếm và các siêu dữ liệu Đánh giá đầu ra có thể thúc đẩy sự mở rộng từ điển đồng nghĩa sau đó, quy định mới để xác nhận và phù hợp hoặc một tuyên bố tìm kiếm mới Điều này được gọi là dựa trên văn bản hoặc truy vấn ảnh theo văn bản (text-base) hay theo khái niệm (concept-base) Một lược đồ này cho các loại hệ thống được mô tả trong hình 1.2

Trang 13

Hình 1.2 - Một sơ đồ cơ bản đại diện cho hệ thống truy vấn ảnh theo khái niệm

Hệ thống Concept-base có thể truy ngược trở lại, trong một miền rộng lớn hơn nhiều, và vẫn được sử dụng trong các trang web chia sẻ ảnh và video như Flickr, Google image search hay YouTube

1.1.2 Tiêu chuẩn hình ảnh y tế

Để thúc đẩy phương pháp tiếp cận Concept-base, một danh mục các thuật ngữ y tế cùng kèm theo một mô hình quan hệ hoặc cấp bậc - một chuẩn - là cần thiết để bắc cầu giữa nội dung c ủa hình ảnh y tế và bối cảnh của nó Ngoài ra, các tiêu chuẩn liên quan đến các định dạng nén hình ảnh, ngôn ngữ lập trình cơ sở dữ liệu và các giao thức mạng là rất cần thiết, vì chúng cung cấp sự hiểu biết lẫn nhau giữa người sử dụng với những nền tảng khác nhau trong môi trường người-thuật toán cũng như khả năng hoán đổi dữ liệu thông qua giao thức thuật toán-thuật toán

Bộ tiêu chuẩn ARC-NEMA cho hình ảnh y tế được phát triển đầu tiên vào những năm 1980 bởi một liên doanh giữa American College of Radiology (ACR)

và Hiệp hội các nhà s ản xuất điện quốc gia Hoa Kỳ (NEMA) Sau đó, vào năm

1992, sau khi bao quát cả các giao thức mạng và nhiều phiên bản chú giải thuật ngữ, ARC-NEMA được đổi tên thành Digital Image and Communications System (DICOM) và là tiêu chuẩn phổ biến nhất được sử dụng để xác định các thành phần

Trang 14

của một hệ thống hình ảnh y tế Các tiêu chuẩn khác như SNOMED, MeSH, HL7, Galen, ICD-10 và UMLS cũng được phát triển song song với các giải pháp khác để xác định khả năng tương tác giữa chúng: các IHE sử dụng DICOM / HL7 cho thông tin liên lạc nội bộ / bên ngoài mà không là một tiêu chuẩn riêng của mình Các vấn

dề "đơn hàng", liên quan đến thông tin c ụ thể theo yêu cầu của pháp luật và chỉ là một phần tùy chọn của tiêu đề DICOM, cũng dẫn đến sự phát triển của tiêu chuẩn Nhật Bản JJ1017 Ở Nhật Bản, môi trường y tế làm việc với các thông tin chi tiết không được bao quát đầy đủ bởi tiêu chuẩn DICOM Sau khi thất bại trong cố gắng

để thay đổi tiêu chuẩn DICOM cho phù hợp với những nhu cầu này, Nhật Bản đã phát triển hệ thống của mình như là một phần mở rộng của DICOM

Mức độ mà các bản thể luận của bất kì tiêu chuẩn nào có thể là một đại diện

rõ ràng c ủa nội dung cơ bản hình ảnh y tế là một vấn đề Có thể hiểu ontology như một cách thức quy chuẩn hệ thống hóa ngữ nghĩa để miêu tả cho một lý luận, chúng

ta phải đối mặt với những khó khăn để lựa chọn một thuật ngữ thích hợp để mô tả ý nghĩa của các hình ảnh Rất thường khi vấn đề được đảo ngược khi thuật ngữ đã được xác định rõ nhưng những khái niệm mà chúng cố gắng đại diện lại trở thành đối tượng của sự chú ý Điều này đặc biệt rõ ràng trong Emotional Information Retrieval (EmIR) Hơn nữa, ý nghĩa không phải là một thuộc tính được định lượng

rõ ràng, nhưng, như Heidorn định nghĩa, một thuộc tính được gán bằng các phân tích của con người bao gồm sự kết hợp giữa các kiến thức khách quan và chủ quan trong một quá trình nhận thức xã hội Sau đó, một mặt, từ ngữ có thể được sử dụng

để diễn tả nội dung hình ảnh nếu ý nghĩa của sẽ là đơn giản và theo nghĩa đen, điều không phải quá thường xuyên Mặt khác, nếu các nội dung hình ảnh bao hàm các lớp khác nhau c ủa kiến thức thì những từ ngữ có lẽ không đủ để mô tả ý nghĩa của

1.1.3 Những hạn chế của truy vấn concept -based

Trong thực hành các khái niệm của một từ điển đồng nghĩa chung của thuật ngữ y tế tiêu thụ nhiều tài nguyên và đòi hỏi những nỗ lực hợp tác rộng lớn nơi sự

Trang 15

đồng thuận là khó tiếp cận Có lý do để sử dụng phương pháp quy nạp bằng cách bắt đầu với các tiêu chuẩn cụ thể hơn và nỗ lực tổng quát sau Trong các kết hợp SNOMED-DICOM vi-thuật ngữ một chiến lược như vậy đã được sử dụng Tuy nhiên, tất cả các tiêu chuẩn được trình bày là không hiệu quả kể từ khi chúng được

sử dụng trong một số Hệ thống lưu trữ và truyền thông hình ảnh (Picture Archive and Communications Systems - PACS) Đối mặt với số lượng hình ảnh trong một

cơ sở dữ liệu, chú thích bởi bàn tay con người có thể là một thời gian và nhiệm vụ nặng nề mà nhận thức chủ quan có thể dẫn đến sai sót không thể khôi phục Một nghiên cứu về hình ảnh y tế sử dụng các header DICOM tiết lộ 15% lỗi chú thích xuất xứ từ cả con người và thuật toán Số lượng của các ngôn ngữ khác nhau có thể được sử dụng để chú thích là rộng lớn và có thể dẫn đến sai sót dịch / phiên dịch trong một yêu cầu tìm kiếm hoặc khi cơ sở dữ liệu được sáp nhập Rất dễ để nhận thấy tương lai phải chú thích lại các hình ảnh lại chỉ do sự hiện diện của một sự kiện làm thay đổi tầm quan trọng của một khía cạnh cụ thể, hoặc cần thiết để liên kết các nội dung của hình ảnh vào một khả năng tự tìm kiếm mới, ví dụ như, kỹ thuật tìm kiếm của Seloff cho một khung gắn lệch đang có chỉ trong một chương trình hình ảnh đào tạo phi hành gia được chú thích Từ những điều trên thì rõ ràng việc truy vấn hình ảnh dựa trên khái niệm đặt ra quá nhiều vấn đề cả từ quan điểm bản thể luận của quan điểm, như đã nói ở phần trước, và từ quan điểm thực tế Một trở ngại lớn cho hệ thống truy vấn ảnh dựa trên khái niệm là sự tồn tại của từ đồng có cùng cách đánh vần nhưng ý nghĩa khác nhau (Homograph) và thực tế là câu tìm kiếm, hoặc truy vấn, không cho phép người dùng chuyển đổi và kết hợp các mô hình tương tác trong khi văn bản được gửi đi Hệ thống lý tưởng sẽ làm giảm các yếu tố con người từ các công việc chú thích, bằng cách làm nó tự động, và cho phép truy xuất hình ảnh bởi nội dung của nó ở dạng tinh khiết nhất của nó, chứ không phải bằng văn bản mô tả Đây là truy vấn ảnh theo nội dung (Content Based Image Retrieval - CBIR)

Trang 16

1.2 Truy vấn ảnh theo nội dung (CBIR)

Sự phát triển nhanh chóng của công nghệ máy tính và viễn thông đã dẫn đến việc phải lưu trữ một khối lượng khổng lồ các dữ liệu đa phương tiện trong nhiều lĩnh vực khác nhau như y tế, viễn thám, giải trí hay giáo dục, Điều này cũng giống như sự phát triển nhanh chóng khối lượng các dữ liệu số liệu trong thời kỳ đầu phát triển của công nghệ máy tính dẫn đến việc phát triển hệ thống quản lý dữ liệu (DBMS) Các hệ thống quản lý dữ liệu truyền thống được thiết kế để tổ chức các dữ liệu số liệu thành các nhóm dữ liệu liên quan để việc lưu trữ và truy vấn có thể thực hiện một cách tiện lợi và hiệu quả Tuy nhiên, kỹ thuật này không phù hợp để quản

lý các dữ liệu đa phương tiện do sự đa dạng về kiểu và định dạng dữ liệu, kích thước lớn của các đối tượng, sự khó khăn khi trích chọn ngữ nghĩa từ dữ liệu Để có thể sử dụng các thông tin đa phương tiện một cách hiệu quả cần phải có một phương pháp để lưu trữ, sắp xếp và truy vấn.Các dữ liệu đa phương tiện khác nhau

có thể yêu cầu các công cụ và phương tiện khác nhau

Từ những năm 1970, truy vấn ảnh đã là lĩnh vực nghiên cứu thực sự trong hai cộng đồng nghiên cứu chính là quản lý dữ liệu và ảnh máy tính Các nghiên cứu về truy vấn ảnh từ hai góc độ khác nhau Góc độ thứ nhất chủ yếu dựa trên văn bản (text) còn góc độ thứ hai dựa trên các đặc tính ảnh của dự liệu

Truy vấn ảnh dựa trên văn bản (text-based image retrieval) xuất hiện từ những năm cuối thập kỹ 1970 Tại thời điểm đó, hình ảnh được chú thích bằng các

từ khóa và được lưu trữ như là từ khóa truy vấn trong các cơ sở dữ liệu truyền thống Có hai vấn đề khiến việc chú thích thủ công không hiệu quả khi kích thước

cơ sở dữ liệu ảnh trở nên quá lớn Thứ nhất là giới hạn về số lượng nhân công để thực hiện chú thích cho ảnh Thứ hai là khó khăn trong việc mô tả nội dung phong phú của hình ảnh khi chỉ sử dụng số lượng từ khóa hạn chế

Vào những năm đầu của thập kỷ 1990, do sự phát triển của các bộ sưu tập ảnh

có kích thước lớn, phương pháp truy vấn ảnh dựa trên nội dung (Content-based image retrieval- CBIR) được đề xuất để khắc phục những khó khăn trên Trong hệ thống CBIR, hình ảnh được tự động lập chỉ mục (indexing) bằng việc tổng kết các

Trang 17

nội dung ảnh của chúng thông qua các đặc tính được trích chọn như màu sắc, cấu trúc, hình dạng Như vậy, các đặc tính được trích chọn sẽ thay thế cho các chú thích bằng văn bản hay từ khóa Hệ thống CBIR điển hình thường tự động trích chọn (và lập chỉ mục) nội dung hình ảnh để đáp ứng yêu cầu của lĩnh vực áp dụng cụ thể Một hệ thống truy vấn ảnh theo nội dung điển hình được mô tả trong Hình 1.3

Hình 1.3 Sơ đồ khối hệ thống truy vấn ảnh theo nội dung

Mô tả nội dung ảnh

Hình thành yêu cầu

Người

sử dụng

So sánh tính tương tự

Cơ sở dữ liệu đặc tính

Mô tả nội dung

Cơ sở dữ liệu ảnh

Tra chỉ mục

và truy vấn

Kết quả truy vấn Đầu ra

Trang 18

cụ thể và cơ sở dữ liệu phải đối mặt với một sự tăng trưởng của nó phản ánh trên số lượng các ứng dụng y tế và các khuôn khổ vẫn còn rất hạn chế Chỉ có một vài hệ thống tồn tại với tương đối thành công Hệ thống Cervigram Finder đã được phát triển để nghiên cứu bệnh ung thư cổ tử cung Sẽ là một khung thuật toán tính hỗ trợ

mà các tính năng địa phương từ một khu vực người dùng định nghĩa trong một hình ảnh được tính toán và sử dụng các biện pháp tương tự, hình ảnh tương tự được lấy

ra từ một cơ sở dữ liệu Các Bệnh cột sống& Hệ thống truy vấn ảnh (Spine Pathology & Image Retrieval System - SPIRS) là một hệ thống truy vấnlai dựa trên web, làm việc với cả hai tính năng trực quan hình ảnh và thông tin dựa trên văn bản

Nó cho phép người sử dụng để trích xuất hình ảnh x-quang cột sống từ một cơ sở

dữ liệu bằng cách cung cấp một phác họa / hình ảnh của những phác thảo sống Quá trình truy vấn dựa trên một thuật toán cho sự phân biệt hình dạng dựa trên đường nét tích cực

Hệ thố ng truy vấn hình ảnh cho ứng dụng y tế (Image Retrieval for Medical Applications - IRMA) là một hệ thống chung truy vấn ảnh x-quang trên nền web Nó cho phép người sử dụng để trích xuất hình ảnh từ một cơ sở dữ liệu cho một truy vấn hình ảnh x-ray Tính năng địa phương và các biện pháp tương tự được sử dụng để tính toán các hình ảnh gần nhất Các hệ thống SPIRS và IRMA đã được sáp nhập để tạo thành hệ thống SPIRS-IRMA, với các chức năng của cả hai Gần đây hơn một khung mẫu CBIR đã được đề xuất để truy vấn các hình ảnh từ một miền rộng lớn hơn, bao gồm cả Xquang, CT và US Trong hệ thống này nhiều tính năng từ các hình ảnh, dựa vào cường độ, hình dạng và kết cấu, được trích xuất

từ một truy vấn được và được sử dụng để lấy hình ảnh tương tự dựa trên các biện pháp tương tự

Ứng dụng y tế là một trong những lĩnh vực ưu tiên, nơi CBIR có thể đáp ứng được nhiều thành công ngoài phạm vi thử nghiệm do lão hóa dân số ở các nước đang phát triển Mặc dù có những tiến bộ đã đạt được trong vài khung có sẵn ở đây vẫn còn rất nhiều việc phải được thực hiện để phát triển một hệ thống thương mại

Trang 19

có thể thực hiện truy vấn hình ảnh / chẩn đoán nhận thức một miền hình ảnh rộng hơn

Trang 20

CHƯƠNG 2 THÔNG TIN NỀN TẢNG CỦA HÌNH ẢNH KỸ THUẬT SỐ 2.1 Ảnh kỹ thuật số

Việc sử dụng các hình ảnh kỹ thuật số bắt đầu từ năm 1920, khi dịch vụ cáp truyền hình Bartlane được sử dụng để chuyển hình ảnh giữa London và New York Chúng được hệ thống hóa trong 5 mức độ xám và tái tạo bằng cách sử dụng một thuật toán in điện báo Việc sử dụng các hình ảnh kỹ thuật số như chúng ta biết ngày nay xuất hiện trong năm 1960, khi những cải tiến về công nghệ và sự khởi đầu của cuộc đua không gian tính toán dẫn đến một sự đột biến trong xử lý hình ảnh kỹ thuật số, đặc biệt là trong việc nâng cao hình ảnh của mặt trăng chụp bởi Ranger và Apollo Trong lĩnh vực y tế kỹ thuật số hình ảnh xuất hiện trong năm 1970 và tầm quan trọng của nó được công nhận vào năm 1979, khi Sir Godfrey Hounsfield N và Giáo sư Allan M Cormack đã chia sẻ giải Nobel về y học cho các sáng chế của chụp cắt lớp, các phát minh phía sau tr ục Computerized Chụp cắt lớp Nhưng một hình ảnh là gì? Các hình ảnh, trong một định nghĩa đen, là một đ ại diện bằng hình ảnh hai chiều Những hình ảnh kỹ thuật số là một xấp xỉ của một hình ảnh hai chiều bằng cách tập hợp các giá trị gọi là điểm ảnh hoặc textals Mỗi điểm ảnh được mô tả bằng các màu sắc của nó, cường độ / độ sáng hoặc giá trị Mỗi hình ảnh kỹ thuật số

có một mức độ hạn chế, khung ảnh, là quy mô bên ngoài, và độ phân giải hạn chế, quy mô bên trong

Ảnh tĩnh trong không gian 2 chiều được định nghĩa là một hàm hai biến S(x,y), với S là giá trị biên độ ( được biểu diễn bằng màu sắc) tại vị trí không gian (x,y) Phân loại ảnh:

+ Ảnh tương tự S(x,y): (x,y) liên tục, S liên tục

+ Ảnh số S(m,n): (m,n) rời rạc, S rời rạc

Xử lý ảnh số là xử lý các tấm ảnh 2D bằng máy tính, hay nói cách khác là xử lý số các số liệu 2 chiều Ảnh số là ma trận của các số thực và số phức

Trang 21

Trong việc biểu diễn ảnh mức xám (gray- level images), ảnh được biểu diễn bởi mảng các con số hai chiều Mỗi con số thể hiện cường độ hoặc mức xám của ảnh tại vị trí tương đối Nếu mỗi mức xám được biểu diễn bởi 8 bit thì số mức xám được biểu diễn là 28 = 256 giá trị Các mức này thông thường được gán các giá trị nguyên từ 0 đến 255, với 0 đ ặc trưng cho mức tối thấp nhất và 255 đặc trưng cho mức xám cao nhất Mỗi phần tử trong ma trận được gọi là pixel hoặc PEL Trong ảnh màu, cách biểu diễn cũng tương tự, nhưng tại mỗi vị trí của ma trận con số sẽ biểu diễn 3 màu cơ bản: red, green và blue (RGB) Đối với việc biểu diễn màu của 8bit*3 = 24 bit trên một pixel thì con số chia làm 3 segment* 8bit Mỗi segment biểu diễn cường độ của một trong 3 màu cơ bản

Trích chọn đặc tính là cơ sở của hệ thống truy vấn ảnh theo nội dung CBIR Các đặc tính này có thể được đưa ra thành đặc tính chung hay đặc tính riêng Các đặc tính chung điển hình bao gồm màu sắc, cấu trúc hình dạng, quan hệ không gian, ngoài ra còn có các đặc tính riêng được áp dụng cho các lĩnh vực cụ thể như nhận dạng khuôn mặt hoặc nhận dạng vân tay Mỗi đặc tính có thể có một vài thể hiện

2.2 Xử lý ảnh kỹ thuật số

Xử lý ảnh số có nhiều ứng dụng trong thực thế Các nghiên cứu về xử lý ảnh số bắt đầu từ những năm đầu của thập kỷ 60 tại phòng thí nghiệm Jet Propulsion Do có sự hạn chế về kích thước và khối lượng của các hệ thống chụp hình gắn trên tàu vũ trụ nên ảnh nhận được từ các hệ thống này bị suy giảm chất lượng như bị mờ, méo hình học và nhiễu nền Do đó các ảnh này phải được xử lý để đạt được chất lượng tốt hơn Hình ảnh mặt trăng và sao hỏa mà ta thường gặp trong các tạp chí đều được xử

lý bằng máy tính số

Ứng dụng của xử lý ảnh có tác động mạnh mẽ đến nhiều lĩnh vực khác như: viễn thám qua vệ tinh hay tàu vũ trụ, truyền ảnh, lưu trữ cho các ứng dụng nội vụ, hành chính, xử lý y học, radar, somar, xử lý ảnh acoustic, robotics, giám định tự động trong các ngành công nghiệp…

Trang 22

Trong ứng dụng y học, xử lý ảnh liên quan đến xử lý các tia X, các ảnh cắt lớp và các ảnh y học khác từ chụp điện (radiology), cộng hưởng từ tính hạt nhân (nuclear magnetic retonance), quét siêu âm (ultrasonic scanning) Các kỹ thuật này được dùng để phát hiện các khối u hoặc các bệnh khác của bệnh nhân

Một ứng dụng khác gần gũi hơn với cuộc sống là cải tiến ảnh tivi Hình ảnh hiển thị trên màn hình tivi có độ phân giải hạn chế, có bóng mờ, nhiễu nền, trượt hình do xen dòng ở những mức độ khác nhau Hiện nay, tivi số đang có những bước phát triển dần thay thế tivi truyền thống tương tự và xử lý ảnh số sẽ có tác động quyết định đến việc cải thiện chất lượng hình ảnh của những hệ truyền hình hiện tại

và làm phát triển hệ truyền hình mới như truyền hình có độ phân giải cao HDTV Ứng dụng của xử lý ảnh trong truyền thông là nén dữ liệu ảnh, giảm thời gian kênh truyền và tiết kiệm không gian lưu trữ.Ví dụ như trong hội nghị video, điện thoại video, yêu cầu cần có dải tần rộng Việc mã hóa thẳng chương trình video chất lượng quảng bá yêu cầu cần đến 100 triệu bit/sec Nếu hy sinh một phần chất lượng

và dùng các sơ đồ mã hóa ảnh số thì có thể đạt được chất lượng đủ rõ với nhịp bit chỉ dưới 100 nghìn bit/sec

Các ứng dụng khác như: trong sinh học, phân tích ảnh của các mẫu xương,

mô, tế bào, kiểu AND…, trong an ninh, quốc phòng xử lý ảnh trinh thám để phát hiện ra các mục tiêu như: phi trường, tàu chiến, dàn phóng hỏa trên các vệ tinh Xử

lý vân tay, nhận dạng nhân thể…, trong nhiếp ảnh, điện ảnh, thay thế các kỹ thuật phòng tối trong một số trường hợp tạo hiệu quả đặc biệt trong phim ảnh, trong viễn thám, trắc địa, tái tạo và tăng cường độ rõ, độ sáng cho các ảnh số vệ tinh, lập bản

đồ, phát hiện tài nguyên, quản lý môi trường, theo dõi biến động khí quyển, phát hiện cháy rừng, trong tự động hóa thì kiểm tra chất lượng sản phẩm tự động bằng hệ thống giúp loại bỏ phế phẩm, xây dựng hình ảnh máy cho các robot

Việc xử lý ảnh có thể được thực hiện thông qua hệ thống xử lý ảnh chuyên dùng hoặc hệ thống ảnh dùng trong xử lý, dào tạo Hình 2.1 mô tả các bước cơ bản cần thiết trong xử lý ảnh số

Trang 23

Hình 2.1 Các bước trong xử lý ảnh số Trước hết là quá trình thu nhận ảnh Ảnh có thể thu nhận qua camera Thường ảnh thu nhận qua camera là tín hiệu tương tự (loại camera ống kiểu CCIR), nhưng cũng có thể là tín hiệu số hóa (loại CCD – Charge Coupled Device)

Ảnh cũng có thể thu nhận từ vệ tinh qua các bộ cảm ứng (sensor), hay ảnh, tranh được quét trên scanner Tiếp theo là quá trình số hóa (Digitalizer) để biến đổi tín hiệu tương tự sang tín hiệu rời rạc (lấy mẫu) và số hóa bằng lượng tử hóa, trước khi chuyển sang giai đoạn xử lý, phân tích hay lưu trữ lại

Quá trình phân tích ảnh thực chất bao gồm nhiều công đoạn nhỏ Trước hết là công việc tăng cường ảnh để nâng cao chất lượng ảnh Do những nguyên nhân khác nhau: có thể do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay do nhiễu, ảnh

có thể bị suy biến Do vậy cần phải tăng cường và khôi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hay làm cho ảnh gần giống nhất với trạng thái gốc- trạng thái trước khi ảnh bị biến dạng Giai đoạn tiếp theo là phát hiện các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính,v.v…

Cuối cùng, tùy theo mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phân lớp hay các quyết định khác

Thiết bị thu

nhận ảnh

Thu nhận ảnh

ảnh

Nhận dạng

Hệ quyết định Lưu trữ

Trang 24

Đối với một hệ thống xử lý ảnh thu nhận qua camera, camera như là con mắt của hệ thống Có hai loại camera: camera ống loại CCIR và camera CCD Loại camera ứng với chuẩn CCIR quét ảnh với tần số 1/25 và mỗi ảnh gồm 625 dòng Loại CCD gồm các photo diot và làm tương ứng một cường độ sáng tại một điểm ảnh ứng với một phần tử ảnh (pixel) Như vậy, ảnh là tập hợp các điểm ảnh Số pixel tạo nên một ảnh gọi là độ phân giải (resolution)

Bộ xử lý tương tự ( analog processor) Bộ phận này thực hiện các chức năng sau:

- Chọn camera thích hợp nếu hệ thống có nhiều camera

Máy chủ Đóng vai trò điều khiển các thành phần mô tả ở trên

Bộ nhớ ngoài: Dữ liệu ảnh cũng như các kiểu dữ liệu khác, để có thể chuyển giao cho các quá trình khác, nó cần được lưu trữ Để có một ước lượng, xét thí dụ sau: một ảnh đen trắng kích cỡ 512 x 512 với 256 mức xám chiếm 256Kbytes Với một ảnh màu cùng kích thước thì dung lượng sẽ tăng 3 lần

2.2.1 Biểu diễn ảnh

Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của ảnh là pixel Nhìn chung có thể xem một hàm hai biến chứa các thông tin như biểu diễn của một ảnh Các mô hình biểu diễn ảnh cho ta một mô tả logic hay định lượng các tính chất của hàm này Trong biểu diễn ảnh cần chú ý đến tính trung thực của ảnh hoặc các tiêu chuẩn ”thông minh” để đo chất lượng ảnh hoặc tính hiệu quả của các

kỹ thuật xử lý

Trang 25

Việc xử lý ảnh số yêu cầu ảnh phải được mẫu hóa và lượng tử hóa Thí dụ một ảnh ma trận 512 dòng gồm 512 x 512 pixel Việc lượng tử hóa ảnh là chuyển đổi tín hiệu tương tự sang tín hiệu số (Analog Digital Convert) của một ảnh đã lấy mẫu sang một số hữu hạn mức xám

Một số mô hình thường được dùng trong biểu diễn ảnh : mô hình toán, mô hình thống kê Trong mô hình toán, ảnh hai chiều được biểu diễn nhờ các hàm hai biến trực giao gọi là các hàm cơ sở Với mô hình thống kê, một ảnh được coi như một phần tử của một tập hợp đặc trưng bởi các đại lượng như: kỳ vọng toán học, hiệp biến, phương sai, moment

;,()

,

Trong đó:

- η(x,y) là hàm biểu diễn nhiễu cộng

- f(α,β) là hàm biểu diễn đối tượng

- g(x,y) là ảnh thu nhận

- h(x,y ;α,β) là hàm tán xạ điểm ( Point Spread Function – PSF)

Hình 2.2 Ảnh biến dạng do nhiễu

Hệ thống thu nhận ảnh

f(α,β)

β

α

Ảnh đầu vào f(α,β)

Ảnh đầu ra g(x,y)

g(x,y)

y

x

x

Trang 26

Hình 2.2 là một thí dụ về sự biến dạng của ảnh do nhiễu

Vấn đề khôi phục ảnh tiêu biểu là tìm một xấp xỉ của f(α,β) khi PSF của nó có thể đo lường hay quan sát được, ảnh mờ và các tính chất xác suất của quá trình nhiễu

2.2.3 Biến đổi ảnh

Thuật ngữ biến đổi ảnh (Image Transform) thường dùng để nói tới một lớp các ma trận đơn vị và các kỹ thuật dùng để biến đổi ảnh Cũng như các tín hiệu một chiều được biểu diễn bởi một chuỗi các hàm cơ sở, ảnh cũng có thể được biểu diễn

bởi một chuỗi rời rạc các ma trận cơ sở gọi là ảnh cơ sở Phương trình ảnh cơ sở có

dạng:

T

k

A*,1 1* (2.2) với ak là cột thứ k của ma trận A A là ma trận đơn vị

Có nghĩa là AA T I Các A k*,1 định nghĩa ở trên với k, l = 0, 1, , N-1 là ảnh

cơ sở Có nhiều loại biến đổi được dùng như :

- Biến đổi Fourier, Sin, Cosin [1],

- Tích Kronecker [1]

- Biến đổi KL ( Karhumen Loeve) [1] : Biến đổi này có nguồn gốc từ khai triển của các quá trình ngẫu nhiên gọi là phương pháp trích chọn các thành phần chính

Do phải xử lý nhiểu thông tin, các phép toán nhân và cộng trong khai triển là khá lớn Do vậy, các biến đổi trên nhằm làm giảm thứ nguyên của ảnh để việc xử lý ảnh được hiệu quả hơn

2.2.4 Phân tích ảnh

Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh

để đưa ra một mô tả đầy đủ về ảnh Các kỹ thuật được sử dụng ở đây nhằm mục đích xác định biên của ảnh Có nhiều kỹ thuật khác nhau như lọc vi phân hay dò theo quy hoạch động

Người ta cũng dùng các kỹ thuật để phân vùng ảnh Từ ảnh thu được, người

Trang 27

giá như : màu sắc, cường độ, v v Các phương pháp được biết đến như Quad- Tree, mảnh hóa biên, nhị phân hóa đường biên Cuối cùng, phải kể đến các kỹ thuật phân lớp dựa theo cấu trúc

2.2.5 Nhận dạng ảnh

Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính chủ yếu của đối tượng Có hai kiểu mô tả đối tượng :

- Mô tả tham số ( nhận dạng theo tham số)

- Mô tả theo cấu trúc ( nhận dạng theo cấu trúc)

Trên thực tế, người ta đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như : nhận dạng ảnh vân tay, nhận dạng chữ cái, chữ số, chữ có dấu)

Nhận dạng chữ in hoặc đánh mãy phục vụ cho việc tự động hóa quá trình đọc tài liệu, tăng nhanh tốc độ và chất lượng thu nhận thông tin từ máy tính

Nhận dang chữ viết tay (với mức độ ràng buộc khác nhau về cách viết, kiểu chữ, v v) phục vụ cho nhiều lĩnh vực

Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dang mới dựa trên kỹ thuật mạng nơ ron đang được áp dụng và cho kết quả khả quan

2.3 Đặc tính ảnh số

Ta đã biết rằng không hề có một định nghĩa rõ ràng về nội dung hình ảnh Thay vào đó, mối quan hệ giữa các thuộc tính hình ảnh như màu sắc, hình dạng, kết cấu và điểm đặc trưng chắc chắn sẽ là cơ sở cho đặc tính của nó Nhưng những đặc tính gì là chính xác và cách chúng được sử dụng cho mục đích CBIR là như thế nào?

2.3.1Màu sắc

Màu sắc là một trong những thành phần dễ nhận biết nhất của nội dung hình ảnh và được sử dụng rộng rãi để truy vấn ảnh bởi tính bất biến đối với phóng to thu nhỏ, dịch chuyển và xoay ảnh Các vấn đề quan trọng trong việc trích chọn màu sắc

Trang 28

bao gồm không gian màu, lượng tử hóa màu và lựa chọn hàm so sánh tính tương tự Đặc tính màu của hình ảnh có thể thể hiện bởi lược đồ màu hoặc moment màu

Trong CBIR, màu sắc là một tính năng phổ biến trực quan để phân lo ại đối tượng Đối với điều này biến được thể hiện trong các điều khoản của một không gian màu sắc để đại diện cho hình ảnh màu sắc Hệ thống RGB (Red, Green, Blue) thường được sử dụng để đại diện cho hình ảnh màu sắc, nơi cường độ mức xám được thể hiện như là một tổng của các cường độ mức xám màu đỏ, xanh lá cây và xanh dương Có nhiều hệ thống màu khác, như HSV (Hue, Saturation, Value) hoặc CMYK (Cyan, Magenta, Yellow, Key) Những hình ảnh cũng có thể được biểu diễn như là một hình ảnh màu xám 8-bit, nơi cường độ điểm ảnh được đăng ký về 256 sắc thái c ủa màu xám, hoặc như là một hình ảnh nhị phân 2-bit, trong màu đen và trắng

Tùy thuộc vào hệ thống màu sắc, một hoặc nhiều biểu đồ được sử dụng để định lượng sự phân bố màu sắc, được xác định bởi số lượng các ngăn được sử dụng

Sự khác biệt trong phân bố màu sắc, đôi khi, điều cần thiết để xác định sự khác biệt giữa các hình ảnh Tuy nhiên phân phối như thế có thể dẫn đến sai sót khi hình ảnh khác nhau trình bày biểu đồ tương tự Nhằm nắm bắt các mối quan hệ không gian giữa các màu sắc, hình ảnh được phân chia trong hình ảnh phụ nhỏ hơn và một biểu

đồ màu chiết xuất từ mỗi trong số này Điều này dẫn đến cách bố trí màu sắc của hình ảnh Tìm hiểu mối tương quan giữa các cặp màu sắc tương tự dựa trên kho ảng cách lẫn nhau của họ trong hình ảnh cũng có thể được khám phá trong những gì được gọi là một quan đồ màu màu tự động

Trang 29

rất nhiều kỹ thuật phân đoạn ảnh : Dựa trên mức ngưỡng toàn bộ, kỹ thuật phát triển vùng (region – growing), kỹ thuật tách hợp, kỹ thuật dựa theo đường biên, kỹ thuật dựa trên cấu trúc, kỹ thuật dựa trên màu, kỹ thuật dựa trên mô hình Nói chung, khó

có thể phân vùng ảnh một cách chính xác do sự phức tạp về hình dạng của mỗi đối tượng, sự tồn tại của bóng hình, nhiễu

Khi các đối tượng đã được phân vùng, đặc tính hình dạng của chúng sẽ được biểu diễn và lập chỉ mục Thông thường, biểu diễn hình dạng được phân ra thành ba loại :

- Biểu diễn dựa trên đường bao (boundary – based representations) : các đặc tính thường dùng là mã xích (chain code), mã Fourier (Fourier descriptor),

và UNL descriptor [1]

- Biểu diễn dựa trên vùng : Đặc tính bao gồm lượng bất biến moment (moment invariant), đặc tính hình thái học (morphological descriptor), Zernike moment [1]

- Biễu diễn kết hợp : Kết hợp các biểu diễn cơ bản như moment invariant với đặc tính Fourier hoặc với đặc tính UNL [1]

Đặc tính Fourier được trích chọn bằng cách áp dụng biến đổi Fourier đối với đường bao 1D Do nhiễu đã được số hóa ảnh hưởng đáng kể đến kỹ thuật này nên một phương pháp khác đã được phát triển, phương pháp này cũng không bị ảnh hưởng bởi sự thay đổi hình học

Có hai loại đặc tính cấu trúc cơ bản : Dựa trên mô hình thống kê và dựa trên biến đổi Loại thứ nhất sử dụng sự phụ thuộc không gian mức xám của cấu trúc và

Trang 30

trích chọn các số liệu có ý nghĩa để thể hiện cấu trúc Ví dụ sự phụ thuộc không gian mức xám của cấu trúc là ma trận đồng xuất hiện (co- occurence matrix) Thống

kê tỷ lệ góc đường cũng được sử dụng bằng cách phân tích mối quan hệ không gian của các đường thẳng và đặc tính của đối tượng xung quanh Tamura cũng nghiên cứu vấn đề này nhưng theo một cách nhìn khác Dựa trên cơ sở tâm lý học, Tamura chỉ ra rằng có sáu đặc tính cấu trúc cơ bản là độ thô, độ tương phản, tính hướng, tính giống đường thẳng, tính đều đặn và độ ráp Phương pháp này lựa chọn các đặc tính tương ứng với đặc điểm hệ thống thị giác của con người hơn là đo lường thống

kê dữ liệu và vì vậy mà có thể thích hợp để truy vấn các hình ảnh tự nhiên

Một nghiên cứu về nhận biết cấu trúc của con người chỉ ra rằng ba chiều trực giao quan trọng nhất là "sự lặp lại", "tính hướng" và "tính chất hạt và độ phức tạp" Một số phép biến đổi được sử dụng để trích cọn đặc tính cấu trúc như biến đổi cosin rời rạc DCT, biến đổi Fourier – Mellin, Polar Fourier, biến đổi Gabor và wavelet

2.4Kết hợp các đặc tính

Việc sử dụng một loại đặc tính để truy vấn ảnh thường không cho kết quả một cách chính xác Để nâng cao khả năng truy vấn ảnh cả về tốc độ và chất lượng thì cần phải kết hợp nhiều đặc tính khác nhau

Có thể phân loại kết hợp đặc tính thành kết hợp nối tiếp hoặc kết hợp song song Kết hợp đặc tính nối tiếp, thường được gọi là lọc đặc tính (feature filtering), là một quá trình nhiều giai đoạn trong đó các đặc tính khác nhau được lần lượt sử dụng để lọc bớt bộ ảnh ứng viên Trong phương pháp kết hợp đặc tính song song, một vài đặc tính được sử dụng đồng thời trong quá trình truy vấn Trong phương pháp này, các trọng số khác nhau sẽ được gán cho các đặc tính khác nhau do các đặc tính khác nhau có khả năng phân biệt khác nhau, tùy thuộc theo từng ứng dụng

và nhiệm vụ cụ thể Phương pháp kết hợp các đặc tính tỏ ra hữu hiệu hơn phương pháp sử dụng đặc tính đơn lẻ và được sử dụng trong rất nhiều hệ thống CBIR Hệ thống QBIC (Query by Image Content) cho phép người sử dụng lựa chọn mức độ

Trang 31

Hạn chế chủ yếu của việc kết hợp các đặc tính trong hầu hết các hệ thống CBIR là sự liên quan quá lớn của người sử dụng không những trong việc lựa chọn các đặc tính trong mỗi lần truy vấn mà còn trong việc xác định các trọng số đặc tính Một hệ thống thành công dựa trên kết hợp đặc tính cần phải hiểu rõ sự phù hợp của mỗi đặc tính và các trọng số được sử dụng để cho ra kết quả tốt Để tạo ra các yêu cầu có kết quả truy vấn tốt đôi khi rất khó khăn Hệ thống CBIR tương tác có thể đươc thiết kế để đơn giản hóa vấn đề này

Thông thường, các đặc tính ảnh được biểu diễn bởi các vector đa chiều, các vector này được sử dụng để so sánh sự tương tự giữa hai bức ảnh bằng cách tính khoảng cách đặc tính Khi số lượng ảnh trong cở sở dữ liệu nhỏ, việc tìm kiếm tuần

tự có thể chấp nhận được về mặt thời gian và chất lượng tìm kiếm Tuy nhiên, với các cơ sở dữ liệu ảnh lớn, việc lập chỉ mục (indexing) hỗ trợ việc tìm kiếm hiệu quả dựa trên nội dung ảnh hoặc đặc tính được trích chọn Trong hệ thống quản lý dữ liệu liên quan truyền thống (RDBMS), các kỹ thuật lập chỉ mục phổ biến là B-tree, hay B+ tree [2] B-tree cho phép tìm kiếm một cách hiệu quả khi khóa tìm là vô hướng Tuy nhiên, kỹ thuật này không thích hợp cho việc lập chỉ mục nội dung hình ảnh được biểu diễn bởi các đặc tính đa chiều Kỹ thuật R-tree và các biến thể là các

kỹ thuật indexing đa chiều phổ biến nhất

2.5Lập chỉ mục đặc tính (Feature Indexing)

Thông thường, các đặc tính ảnh được biểu diễn bởi các vector đa chiều, các vector này được sử dụng để so sánh sự tương tự giữa hai bức ảnh bằng cách tính kho ảng cách đ ặc tính Khi số lượng ảnh trong cở sở dữ liệu nhỏ, việc tìm kiếm tuần

tự có thể chấp nhận được về mặt thời gian và chất lượng tìm kiếm Tuy nhiên, với các cơ sở dữ liệu ảnh lớn, việc lập chỉ mục (indexing) hỗ trợ việc tìm kiếm hiệu quả dựa trên nội dung ảnh ho ặc đặc tính được trích chọn Trong hệ thống quản lý dữ liệu liên quan truyền thống, các kỹ thuật lập chỉ mục phổ biến là B-tree, hay B+ tree [2] B-tree cho phép tìm kiếm một cách hiệu quả khi khóa tìm là vô hướng Tuy nhiên, kỹ thuật này không thích hợp cho việc lập chỉ mục nội dung hình ảnh được

Trang 32

biểu diễn bởi các đ ặc tính đa chiều Kỹ thuật R-tree và các biến thể là các kỹ thuật indexing đa chiều phổ biến nhất

Kinh nghiệm chỉ ra rằng R- tree và R*- tree [2] chỉ hoạt động tốt cho truy vấn khi số chiều của các khóa indexing nhỏ hơn 20 Đối với không gian nhiều chiều hơn, khả năng thực hiện của kỹ thuật này suy giảm nhanh chóng Vì vậy việc giảm

số chiều phải được thực hiện trước khi lập chỉ mục các vector đặc tính Có hai phương pháp được sử dụng rộng rãi để giảm số chiều là biến đổi KL (Karhunen-Loeve Transform- KLT) và phân nhóm theo cột (Column- wise Clustering)

KLT được sử dụng trong phạm vi nhận diện khuôn mặt, principal component analysis Do KLT là thuật toán yêu cầu tính toán nhiều nên một số tính toán xấp xỉ được sử dụng để lập chỉ mục bao gồm xấp xỉ nhanh cho KLT, SVD mức thấp (low- rank singular value decompotion) [3]

Phân nhóm (clustering) là một phương pháp hữu ích khác để giảm số chiều vector Ý tưởng chính của việc phân nhóm là nhóm một bộ các đối tượng có đặc điểm tương tự thành một nhóm [3]

Các kỹ thuật lập chỉ mục rất đa dạng và phong phú: thuật toán gầu nước (bucketing algorithm), k-d tree, quad- tree, K-D-B tree, hB- tree, R- tree và biến thể R+- tree, R*- tree Trong số đó, R- tree là các hình chữ nhật có thể trùm lên nhau vì vậy mà có nhiều hơn một cây phụ dưới một node được kiểm tra qua trong một lần

tìm kiếm R*- tree giảm thiểu các node trùm nhau vì vậy cho kết quả tốt hơn

2.6Truy vấn ảnh tương tác

Trong thời kỳ đầu phát triển của CBIR, các nhà nghiên cứu chủ yếu tập trung vào việc biểu diễn các đặc tính khác nhau để tìm ra cách biểu diễn tốt nhất Trong các hệ thống này, người sử dụng đầu tiên phải lựa chọn một số đặc tính ảnh và sau

đó xác định trọng số cho mỗi đặc tính Người sử dụng cần phải có kiến thức sâu sắc

về việc biểu diễn các đặc tính mức thấp trong hệ thống truy vấn Có hai lý do chính

Trang 33

khiến các hệ thống này bị hạn chế: khó khăn khi biểu diễn ngữ nghĩa c ủa ảnh bằng các đặc tính mức thấp và tính chủ quan của hệ thống thị giác con người

Quá trình truy vấn trong hệ thống gồm việc tìm kiếm các ảnh phù hợp nhất trong kho ảnh theo các đặc tính mức thấp được tính toán từ các ảnh mẫu yêu cầu đầu vào Tuy nhiên, người sử dụng thường mong muốn truy vấn cơ sở dữ liệu dựa trên ngữ nghĩa c ủa ảnh chẳng hạn như “ tìm kiếm ảnh hoàng hôn” chứ không phải dựa trên các đặc tính mức thấp như “ tìm kiếm ảnh có màu đỏ và da cam chủ đạo” Các yêu cầu truy vấn thứ hai sẽ cho kết quả rất nhiều hình ảnh không phải là c ảnh hoàng hôn nhưng có màu đỏ và da cam là chính Rõ ràng là các đặc tính mức thấp không thể biểu diễn chính xác nội dung hình ảnh đa dạng và rất phức tạp

Mỗi người khác nhau hoặc cùng một người ở các hoàn cảnh khác nhau có thể nhận thức khác nhau về nội dung của cùng một ảnh Chẳng hạn, có người thì quan tâm đến màu sắc của ảnh, người khác thì quan tâm đến vẻ mặt của người trong ảnh Quan trọng hơn, khi một người cảm thấy hai hình ảnh là tương tự nhau có nghĩa là hai ảnh đó có ngữ nghĩa giống nhau

Lựa chọn các đặc tính phù hợp nhất và các trọng số cố định của các hệ thống CBIR thời kỳ đầu không thể biểu diễn hiệu quả các khái niệm mức cao và nhận thức chủ quan của con người Các hệ thống CBIR đang chuyển sang quá trình tương tác với sự tham gia c ủa con người trong quá trình truy vấn Ví dụ như, phân vùng tương tác, chú thích ảnh tương tác, kết hợp tương tác t ừ khóa và các khái niệm mức cao Hình 1.5 biểu diễn sơ đồ tổng quát của một hệ thống CBIR tương tác

Trang 34

Hình 2.3 Hệ thống truy vấn có tương tác

Có bốn phần chính trong hệ thống này: Cơ sở dữ liệu ảnh, cơ sở dữ liệu đặc tính, phần lựa chọn tham số so sánh, phần tính toán đặc tính liên q uan Khi bắt đầu quá trình truy vấn, hệ thống không có thông tin nào trước về yêu cầu truy vấn, vì vậy tất cả các đặc tính được coi quan trọng như nhau và được sử dụng để tính toán

so sánh mức độ ngang nhau N ảnh giống nhất sẽ được gửi đến người sử dụng n hư

là kết quả truy vấn, và người sử dụng có thể tinh lọc bằng cách gửi phản hồi thích hợp cho đến khi có kết quả truy vấn đạt yêu cầu Phần tính toán đặc tính liên quan dựa trên “ việc học” tính toán lại các trọng số của mỗi đặc tính trên cơ sở phản hồi của người sử dụng, và phần lựa chọn tham số so sánh lựa chọn tham số tốt nhất cho các vector đặc tính đã được gán trọng số trên cơ sở “ việc học”

Do có phản hồi của người sử dụng nên hệ thống có thể tự động điều chỉnh yêu cầu truy vấn và cho kết quả gần hơn với yêu cầu Hơn nữa, gánh nặng về việc ánh xạ khái niệm và xác định các trọng số đã được loại bỏ Người sử dụng chỉ cần

Learning-based feature relevance computation

Reinforcement learning

User Interaction

Image database

Feature database

Feature weight vector

Retrieval results

Trang 35

đánh dấu các ảnh phù hợp với yêu cầu- trọng số cho mỗi đặc tính được cập nhật để biểu diễn các khái niệm mức cao và nhận thức chủ quan của con người

Trang 36

CHƯƠNG 3.CÁC ĐẶC TÍNH ỨNG DỤNG TRONG TRUY VẤN ẢNH THEO

NỘI DUNG 3.1 Đặc tính màu

Màu sắc là một yếu tố quan trọng trong cảm nhận thị giác của con người, cho phép phân biệt và nhận dạng các thông tin hình ảnh Do vậy, đặc tính màu sắc được

sử dụng để lập chỉ mục và tìm kiếm ảnh trong cơ sở dữ liệu Nói chung, các mô tả màu tương đối dễ dàng được trích chọn và so sánh và vì vậy rất phù hợp để truy vấn theo nội dung Việc xác định mô tả màu sắc yêu cầu tạo ra một không gian màu và xác định các thành phần

Các ảnh có thể được lập chỉ mục bằng cách ánh xạ các điểm ảnh vào không gian màu được lượng tử hóa và tính toán mô tả màu Các mô tả màu như mức màu

đồ có thể tạo ra từ các ảnh theo nhiều cách khác nhau Ví dụ, trong một số trường hợp, cần thu nhận phân phối màu tổng thể của ảnh Trong một số trường hợp khác, cần thu nhận phân bố không gian màu của từng vùng khác nhau Trong mỗi trường hợp các mô tả được biểu diễn như các điểm trong không gian đa chiều, cần phải xác định các thông số để xác định tính tương tự giữa các mô tả

3.1.1 Không gian màu

Không gian màu là không gian đa chiều trong đó mỗi chiều biểu diễn các thành phần màu khác nhau Màu sắc hoặc ánh sáng màu được biểu thị bởi hàm F(λ),

là bức xạ điện từ trong dải ánh sáng nhìn thấy ( λ Є { 380nm…780nm} Màu sắc được cảm nhận qua ba cơ quan cảm nhận màu sắc độc lập có đáp ứng đỉnh gần với màu đỏ, lục và lam có bước sóng tương ứng là r = 700nm, g = 546.1nm, b = 435.8nm Gán cho mỗi cơ quan cảm nhận màu sắc một đáp ứng c k với k Є {r, g, b}, tổng tuyến tính của c k biểu diễn ánh sáng F của bất kỳ màu sắc hoặc bước sóng nào Chuẩn hóa c k so với ánh sáng trắng W ta có:

b g

c

W (3.1)

Trang 37

Với c r,c g,c b là các thành phần màu đỏ, xanh lục và xanh lam đã được chuẩn hóa

Ánh sáng màu F(λ) tạo ra ba giá trị màu thành phần (R, G, B):

b g

Rc

F (3.2)

Bất cứ màu sắc nào đều có thể biểu diễn bởi kết hợp tuyến tính bởi ba màu (

R, G, B) Không gian tạo bởi các giá trị R, G, và B có thể hoàn toàn mô tả các màu nhìn thấy được, được biểu diễn bằng các vector màu trong không gian màu RGB 3D Tuy nhiên, không gian màu RGB không đồng đều về cảm nhận thị giác Cụ thể hơn, khoảng cách bằng nhau giữa các vùng khác nhau và theo các chiều khác nhau của không gian màu RGB 3D không tương ứng cảm nhận như nhau về sự khác biệt màu Do không có sự đồng nhất về cảm nhận thị giác nên cần có phát triển phương pháp lượng tử hóa phức tạp hơn để chia không gian màu RGB hình thành các mô tả màu Có thể tạo ra các không gian màu khác bằng cách biến đổi không gian màu RGB

Nói chung, các màu RGB biểu diễn bởi vector vc có thể được ánh xạ đến các không gian màu sắc khác nhau nhờ biến đổi màu T c, với w c là các màu đã được chuyển đổi Biến đổi màu đơn giản nhất là biến đổi tuyến tính Ví dụ như biến đổi tuyến tính không gian màu RGB thành các không gian màu quan trọng khác như YIQ ( tiêu chuẩn TV màu NTSC), YUV ( tiêu chuẩn TV màu PAL và SECAM), YcrCb ( tiêu chuẩn mã hóa ảnh số JPEG và tiêu chuẩn mã hóa video số MPEG), và không gian màu đối lập OPP Phương trình dưới biểu diễn các ma trận để chuyển đổi một vector RGB thành vector của các không gian màu nói trên YIQ, YUV, YcrCb được sử dụng trong hệ thống mã hóa ảnh màu Các chuyển đổi tuyến tính này đều tạp ra một kênh chói và hai kênh màu để phù hợp với các thiết bị hiển thị

Do các không gian màu này không đồng nhất nên khoảng cách màu không tương ứng với cảm nhận sự khác biệt màu

Trang 38

322.0274.0596.0

144.0587.0299.0

YIQ

C

T (3.3)

100.0515.0615.0

436.0289.0147.0

144.0587.0299.0

YUV

C

5000.03313.01687.0

0813.04187.05000.0

1140.05870.02990.0

YCrCb

C

500.0000.1500.0

500.0500.0500.0

333.0333.0333.0

độ chói ( value), độ bão hòa ( saturation) Tuy nhiên, không gian màu CIE khôn g thuận tiện do các biến đổi phi tuyến từ không gian màu RGB

Mặc dù việc xác định không gian màu tối ưu vẫn là một vấn đề nhưng có một

số không gian màu được cho là thích hợp để truy vấn ảnh theo màu sắc Chuyển đổi sang không gian màu là chuyển đổi phi tuyến nhưng dễ dàng có thể chuyển đổi ngược Không gian màu HSV là tự nhiên và gần như là đồng nhất Vì vậy, lượng tử

Trang 39

3.1.2 Lƣợng tử hóa màu

Loại mô tả màu hay được dùng là lược đồ màu Lược đồ màu biểu diễn sự phân phối màu trong một bức ảnh hoặc trong một vùng ảnh Lược đồ được xây dựng bằng cách gán mỗi thành phần của lược đồ với một bộ giá trị Mỗi thành phần của lược đồ sẽ chứa số lượng điểm ảnh thuộc giá trị liên kết với thành phần đó Màu

sử dụng cho lược đồ là biến ngẫu nhiên, không gian màu 24bit sẽ có 224

màu khác nhau Vì vậy, phân chia không gian màu là một bước quan trọng để xây dựng mô tả lược đồ màu

Vì không gian màu là đa chiều, không gian màu sẽ được phân chia bởi quá trình lượng tử hóa vô hướng đa chiều (có nghĩa là lượng tử hóa mỗi chiều một cách riêng biệt) hoặc theo phương pháp lượng tử hóa vector Theo định nghĩa, bộ lượng

tử hóa vector có số chiều k và kích thước M là một ánh xạ từ một vector trong không gian k chiều vào một bộ hữu hạn C chứa M kết quả ra Vì vậy, bộ lượng tử hóa vactor được định nghĩa là ánh xạ Qc: Є k

R → C, với C = y0,y1, , y M 1 và mỗi

ym là một vector trong không gian Euclidean k chiều k

R Bộ C thường được gọi là

sổ mã (codebook), các thành phần của nó được gọi là từ mã ( codeword) Trong trường hợp lượng tử hóa vector của không gian màu, thì k = 3 và mỗi từ mã y m là một điểm màu thực sự Vì vậy, sổ mã C biểu diễn toàn bộ màu sắc

Bộ lượng tử hóa phân chia không gian màu k

c

Q cho không gian màu HSV phân chia không gian màu HSV

Trang 40

thành 166 màu Như biểu diễn trong Hình 2.1, không gian màu có dang hình trụ Trục của hình trụ biểu diễn độ chói (value), từ mức đen đến mức trắng Khoảng cách từ trục biểu diễn độ bão hòa màu (saturation) Góc xung quanh trục là sắc màu (hue) Do sắc màu (hue) là đặc tính nổi bật dễ nhận biết nhất của màu nên cần phải lượng tử hóa chi tiết nhất Như biểu diễn trong Hình 2.1, các màu cơ bản đỏ, lục, lam cách nhau một góc 120° trong vòng tròn sắc màu Lượng tử hóa theo hình tròn với các bước 20° chia hue để ba màu cơ bản và các màu vàng, megenta, cyan được biểu diễn bởi ba tiểu vùng Các chiều màu khác được lượng tử hóa thưa hơn do hệ thống thị giác của con người có khả năng phân biệt thấp hơn, chúng ta sử d ụng ba mức độ chói (value) và độ bão hòa (saturation) Quá trình lượng tử hóa tạo ra M =

166 màu khác nhau trong không gian màu HSV, từ 18 hue (H) x 3 saturation x 3 value (V) + 4 gray

Hình 3.1 Biến đổi T C HSV từ RGB thành HSV và lượng tử hóa Q C166cung cấp 166 màu

HSV

3.1.3 Mô tả màu

Mô tả màu mô tả đặc tính màu của một ảnh Cũng như cấu trúc và hình dạng,

có thể trích chọn mô tả màu từ toàn bộ ảnh tạo ra đặc điểm tổng thể hoặc từ các vùng khác nhau của ảnh tạo ra đặc điểm cục bộ Mô tả tổng thể truyền tải thông tin

G

R

B

Ngày đăng: 14/02/2021, 13:28

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w