Giáo trình nhận dạng và xử lý ảnh

Trong đó, thị giác máy là một trong nhữnggiác quan máy quan trọng nhất giúp cho quá trình thu nhận tín hiệu, xử lý, phân tíchnhằm đưa ra tri thức phục vụ các hệ thống ra quyết định.Trong

Trang 1

GIÁO TRÌNH NHẬN DẠNG VÀ XỬ LÝ ẢNH

Biên soạn: TS Hoàng Văn Dũng

Tháng 5 năm 2018

Trang 2

Lời nói đầuCùng với sự phát triển nhanh chóng của khoa học công nghệ, các kỹ thuật dựatrên trí tuệ nhân tạo và thị giác máy tính ứng dụng trong các hệ thống thông minh đạtđược những kết quả vượt bậc, có nhiều triển vọng Cuộc cách mạng công nghiệp lầnthứ 4 (Industry 4.0) hiện đang diễn ra tại trên phạm vi toàn cầu, đặc biệt ở các nước cónền khoa học kỹ thuật phát triển… Industry 4.0 tập trung vào sản xuất và dịch vụthông minh chủ yếu dựa trên các hệ thống tương tác thực ảo, các hệ thống thông minhdần thay thế con người Nền tảng của các hệ thống thông minh có thể nói bắt nguồn từlĩnh vực trí tuệ nhân tạo và thị giác máy Trong đó, thị giác máy là một trong nhữnggiác quan máy quan trọng nhất giúp cho quá trình thu nhận tín hiệu, xử lý, phân tíchnhằm đưa ra tri thức phục vụ các hệ thống ra quyết định.

Trong thời gian qua, các kỹ thuật mới trong lĩnh vực thị giác máy tính, mà cụ thểhơn là xử lý ảnh và nhận dạng đã được nhiều nhà khoa học, tập đoàn công nghệ chútrọng nghiên cứu, phát triển, làm thay đổi hướng tiếp cận truyền thống ví dụ như các

kỹ thuật học sâu Vì thế, các kiến thức về xử lý ảnh, nhận dạng mẫu, trí tuệ nhân tạo,học máy đã trở thành môn học quan trọng đối với sinh viên các chuyên ngành liênquan đến khoa học máy tính, công nghệ thông tin, tự động hóa trong các trường đạihọc ở Việt Nam hiện nay Tuy nhiên, tài liệu tiếng Việt cho sinh viên và những ngườiquan tâm lại có giới hạn về cập nhật công nghệ, kỹ thuật Giáo trình Nhận dạng và xử

lý ảnh nhằm cung cấp những kiến thức cơ bản về kỹ thuật xử lý hình ảnh cũng nhưgiới thiệu một số phương pháp trí tuệ nhân tạo được áp dụng phân tích hình ảnh vànhận dạng mẫu Kỹ thuật học sâu là hướng tiếp cận mới đang được nhiều nhà khoa họcnghiên cứu và các công ty công nghệ quan tâm và khả năng ứng dụng cao trong thực

tế cũng được trình bày trong tài liệu này

Nội dung giáo trình gồm 7 chương lần lượt trình bày những kiến thức nhập môn

về xử lý ảnh, các phương pháp nâng cao trong phân tích, nhận dạng mẫu, kỹ thuật họcsâu như: các phép biến đổi, điều chỉnh nâng cao chất lượng ảnh; biến đổi ảnh màu, ảnh

đa mức xám, toán tử tích chập, các bộ lọc ảnh và phép biến đổi không gian ảnh, biếnđổi hình thái học ứng dụng trong phân tích vùng ảnh, trích biên đối tượng; phươngpháp phân đoạn ảnh theo phân ngưỡng thủ công, phân ngưỡng tự động; phương phápphân tích ảnh như phân đoạn ảnh bằng thuật toán phân cụm k-means, Meanshift,Watershed, trích chọn đặc trưng cơ bản như kỹ thuật trích chọn cạnh, điểm chính(keypoint) và mô tả vùng đặc trưng vùng ảnh Giáo trình cũng giới thiệu một sốphương pháp trích chọn đặc trưng nâng cao như SIFT, SUFT, HOG, Haar-like feature;phương pháp so khớp đặc trưng giữa các ảnh phục vụ phát hiện đối tượng tương đồng

và nhận dạng mẫu cùng với kỹ thuật lọc loại trừ nhiễu trong so khớp ảnh Phần cuốitrình bày những kỹ thuật nhận dạng mẫu và phân loại đối tượng từ cách tiếp cận truyềnthống như cây quyết định, rừng ngẫu nhiên, boosting, máy phân loại hỗ trợ vectorSVM, mạng neural nhân tạo và đến kỹ thuật học sâu, mạng neural tích chập như mạngLeNet, AlexNet, ZFNet, GooLeNet, VGGNet, R-CNN và kiến trúc mạng mô tả ngữnghĩa ảnh

Tài liệu này được biên soạn dựa trên kinh nghiệm tích lũy qua quá trình nghiêncứu và giảng dạy của tác giả liên quan đến lĩnh vực thị giác máy tính, trí tuệ nhân tạo

và các hệ thống thông minh Hy vọng, giáo trình là tài liệu hữu ích phục vụ học tập,

Trang 3

tham khảo cho sinh viên các ngành liên quan đến khoa học máy tính, công nghệ thôngtin, cũng như độc giả quan tâm đến lĩnh vực nhận dạng xử lý ảnh và ứng dụng trí tuệnhân tạo trong nhận dạng mẫu.

Tác giả xin chân thành cảm ơn các ý kiến đóng góp, hỗ trợ của đồng nghiệp vàđặc biệt là sự quan tâm của Lãnh đạo Trường Đại học Quảng Bình trong quá trình biênsoạn tài liệu này

Trong quá trình biên soạn, giáo trình chắc chắn không thể tránh khỏi những thiếusót Tác giả rất mong nhận được những ý kiến đóng góp của quý thầy cô, nhà nghiêncứu, sinh viên và độc giả để tác giả có thể điều chỉnh hợp lý, kịp thời

Góp ý xin gửi về: Hoàng Văn Dũng

Trường Đại học Quảng Bình

312 Lý Thường Kiệt, TP Đồng Hới, Quảng BìnhEmail: zunghv@gmail.com

Người biên soạn: Hoàng Văn Dũng

Trang 4

MỤC LỤC

CHƯƠNG 1. NHẬP MÔN XỬ LÝ ẢNH 1

1.1 Tổng quan về xử lý ảnh 1

1.1.1 Các khái niệm về ảnh số, điểm ảnh 1

1.1.2 Các thành phần trong hệ thống xử lý ảnh 3

1.1.3 Các ứng dụng 4

1.2 Hệ màu và loại ảnh 4

1.2.1 Các hệ màu thông dụng 4

1.2.2 Một số loại ảnh thông dụng 7

1.3 Cấu trúc dữ liệu ảnh 9

1.3.1 Cấu trúc ảnh vector 9

1.3.2 Cấu trúc ảnh raster 10

1.4 Một số định dạng ảnh phổ biến 10

1.4.1 Định dạng ảnh TIFF 11

1.4.2 Định dạng ảnh GIF 11

1.4.3 Định dạng hình ảnh JPG 12

1.4.4 Định dạng ảnh BMP 12

1.4.5 Định dạng ảnh PNG 13

1.4.6 So sánh các chuẩn định dạng 13

Câu hỏi và bài tập 13

CHƯƠNG 2. BIẾN ĐỔI XỬ LÝ ẢNH 15

2.1 Khái niệm 15

2.2 Các phép biến đổi trên điểm ảnh 16

2.2.1 Lược đồ ảnh 16

2.2.2 Điều chỉnh mức sáng 16

2.2.3 Điều chỉnh độ tương phản 17

2.2.4 Cân bằng lược đồ ảnh 18

2.2.5 Biến đổi ảnh màu và đa mức xám 20

2.3 Các phương pháp xử lý ảnh thông dụng 22

2.3.1 Phương pháp tích chập 22

2.3.2 Các kỹ thuật lọc thông dụng 23

2.4 Các phép biển đổi toàn cục 28

2.4.1 Biến đổi cosin rời rạc 28

2.4.2 Biến đổi Fourier rời rạc 31

2.5 Biến đổi hình thái học 34

2.5.1 Phần tử cấu trúc 34

2.5.2 Phép co ảnh – Erosion 35

Trang 5

2.5.3 Phép giãn ảnh – Dilation 36

2.5.4 Phép mở ảnh – Openning 36

2.5.5 Phép đóng ảnh- Closing 37

2.5.6 Phép biến đổi "Hit or miss" 37

2.5.7 Ứng dụng của kỹ thuật hình thái học 39

CHƯƠNG 3. PHƯƠNG PHÁP PHÂN ĐOẠN ẢNH 46

3.1 Tổng quan về phân đoạn ảnh 46

3.2 Phân đoạn bằng ngưỡng 47

3.2.1 Phân ngưỡng thủ công 48

3.2.2 Phân đoạn ngưỡng tự động 48

3.2.3 Phân đoạn bằng kỹ thuật Otsu 53

3.3 Phân đoạn bằng k-means 55

3.4 Kỹ thuật phân đoạn MeanShift 58

3.5 Phân đoạn bằng kỹ thuật Watershed 59

3.6 Phân đoạn phân cấp 62

CHƯƠNG 4. TRÍCH CHỌN ĐẶC TRƯNG CƠ BẢN 65

4.1 Các khái niệm 65

4.1.1 Đặc trưng và trích chọn đặc trưng ảnh 65

4.1.2 Đặc trưng mức thấp 66

4.1.3 Đặc trưng mức cao 67

4.2 Kỹ thuật trích chọn đặc trưng cạnh 67

4.2.1 Trích chọn biên bằng toán tử Sobel 68

4.2.2 Trích chọn biên bằng toán tử Prewitt 69

4.2.3 Trích chọn biên bằng toán tử Robert 70

4.2.4 Trích chọn biên bằng phương pháp Canny 70

4.3 Kỹ thuật trích chọn đặc trưng điểm chính 72

4.3.1 Trích xuất điểm góc 72

4.3.2 Trích xuất đặc trưng đốm 77

CHƯƠNG 5. ĐẶC TRƯNG NÂNG CAO VÀ SO KHỚP ẢNH 83

5.1 Giới thiệu chung 83

5.2 Mô tả đặc trưng SIFT 83

5.2.1 Đặc trưng SIFT 83

5.2.2 Quá trình xử lý SIFT 84

5.3 Mô tả đặc trưng SURF 89

Trang 6

5.3.1 Giới thiệu về đặc trưng SURF 89

5.3.2 Phát hiện keypoint 90

5.3.3 Mô tả đặc trưng SURF 92

5.4 Mô tả đặc trưng Haar 94

5.4.1 Đặc trưng Haar 94

5.4.2 Trích xuất đặc trưng Haar 94

5.4.3 Mở rộng đặc trưng Haar 95

5.5 Mô tả đặc trưng HOG 97

5.5.1 Đặc trưng HOG 97

5.5.2 Quá trình trích rút đặc trưng HOG 98

5.5.3 Các biến thể của biểu diễn đặc trưng HOG 101

5.6 So khớp ảnh 102

5.6.1 Giới thiệu về so khớp ảnh 102

5.6.2 Thuật toán Brute- Force 103

5.6.3 So khớp ảnh dùng bộ mô tả SIFT 103

5.6.4 So khớp ảnh dùng bộ mô tả SURF 104

5.6.5 So khớp dựa vào điểm góc Harris 105

5.7 Kỹ thuật lọc nhiễu trong so khớp ảnh 106

5.7.1 Lọc theo bình phương tối thiểu 106

5.7.2 Phương pháp đồng thuận ngẫu nhiên 107

5.8 Ví dụ áp dụng trong nhận dạng 110

CHƯƠNG 6. KỸ THUẬT NHẬN DẠNG 114

6.1 Giới thiệu chung 114

6.2 Cây quyết định 115

6.2.1 Khái niệm 115

6.2.2 Thuật toán ID3 xây dựng cây quyết định 115

6.2.3 Thuật toán C4.5 xây dựng cây quyết định 118

6.2.4 Rừng ngẫu nhiên 119

6.3 Kỹ thuật Boosting 120

6.4 Máy phân loại vector hỗ trợ 122

6.4.1 Giới thiệu 122

6.4.2 Phân loại tuyến tính 123

6.4.3 Phân loại tuyến tính lề mềm 125

6.4.4 Hàm nhân 126

6.4.5 Tuyến tính hóa phân loại phi tuyến 127

6.5 Mạng neural nhân tạo 128

Trang 7

6.6 Kỹ thuật trượt window trong nhận dạng 131

6.6.1 Vấn đề trượt window 131

6.6.2 Gom các mẫu nhận dạng chồng lấp 132

6.6.3 Huấn luyện mô hình 133

6.6.4 Nhận dạng đối tượng trong ảnh 134

CHƯƠNG 7. KỸ THUẬT HỌC SÂU 137

7.1 Tổng quan về học sâu 137

7.2 Mạng neural sâu 139

7.3 Mạng neural tích chập 140

7.3.1 Lớp tích chập 141

7.3.2 Lớp pooling 142

7.3.3 Lớp hiệu chỉnh 144

7.3.4 Lớp chuẩn hóa 145

7.3.5 Lớp kết nối đầy đủ: 145

7.3.6 Lớp Dropout: 146

7.3.7 Lớp đầu ra 146

7.3.8 Tạo mạng học sâu với Matlab 147

7.4 Một số kiến trúc mạng tích chập học sâu 150

7.4.1 Mạng LeNet 150

7.4.2 Mạng AlexNet 151

7.4.3 Mạng ZFNet 153

7.4.4 Mạng GoogLeNet 154

7.4.5 Mạng VGGNet 156

7.4.6 Mạng R-CNN 157

7.5 Mô tả ngữ nghĩa ảnh với học sâu 159

7.5.1 Bộ mô tả ảnh 159

7.5.2 Mô hình suy diễn mối liên kết 160

7.5.3 Mô hình sinh diễn tả ảnh 161

Tài liệu tham khảo 163

Trang 8

CHƯƠNG 1.NHẬP MÔN XỬ LÝ ẢNH

Chương này giới thiệu kiến thức nhập môn về xử lý ảnh như: Những khái niệm liênquan đến ảnh kỹ thuật số, các thành phần hệ thống xử lý ảnh, các loại hệ màu cơ bản,loại ảnh thông dụng, các cấu trúc dữ liệu ảnh và kiểu định dạng phổ biến trong ảnh số.1.1 Tổng quan về xử lý ảnh

1.1.1 Các khái niệm về ảnh số, điểm ảnh

và y là các tọa độ trong không gian và độ lớn (amplitude) của hàm f được gọi là độsáng (intensity) hay độ xám (gray level) của ảnh tại điểm đó

Ảnh rời rạc hai chiều, I(m,n) biểu diễn thông tin thu được từ cảm biến của mộtchuỗi các vị trí cố định (m = 1, 2, , M; n= 1, 2, , N) trong tọa độ Cartesian haichiều được biến đổi từ tín hiệu liên tục không gian 2 chiều thông qua quá trình xử lýtần số liên tục sang miền rời rạc

1.1.1.2 Điểm ảnh

Thuật ngữ điểm ảnh được dịch ra từ thuật ngữ gốc là pixel (viết tắt cụm từ pictureelement) nghĩa là một phần tử ảnh[1] Phần tử ảnh được xác định theo toạ độ (x, y)tương ứng với số thứ tự cột và hàng trong ảnh Giá trị mỗi phần tử ảnh được xác địnhbởi giá trị cường độ mức xám hoặc màu nhất định Kích thước và khoảng cách giữacác điểm ảnh được biểu diễn thích hợp sao cho mắt người cảm nhận sự liên tục vềkhông gian và mức xám (màu) của ảnh số gần với như hình ảnh của nó trong khônggian thật Số điểm ảnh trên mỗi diện tích biểu diễn xác định độ phân giải của ảnh số.Ảnh có độ phân giải càng cao thì càng thể hiện rõ nét các đặc điểm của hình ảnh, cànglàm cho hình ảnh trở nên gần với thực tế thực và sắc nét hơn,

1.1.1.3 Các dạng ảnh

Nội dung thông tin của các điểm ảnh có thể được xem xét dưới nhiều khía cạnhkhác nhau tùy thuộc vào dạng của ảnh Ví dụ ảnh màu (colour image), ảnh đa mứcxám (grey image), ảnh nhị phân (binary image), ảnh hồng ngoại (infrared image),

Trang 9

– Ảnh màu: Ảnh màu thường là các ảnh chứa thông tin về đối tượng được biểu diễndưới dạng màu sắc mà mắt thường có thể quan sát được Mỗi điểm ảnh có cấu trúcgồm nhiều kênh màu khác nhau, thông thường trong máy tính, nó biểu diễn ba lớpmàu cơ bản RGB, gồm màu đỏ (red), xanh lá cây (green) và xanh lam (blue).

– Ảnh đa mức xám: Ảnh đa mức xám thường biểu diễn thông tin liên quan đếncường độ đa mức xám của đối tượng trong không gian mà không được thể hiện bởimàu sắc thực của nó

- Ảnh nhị phân: Ảnh biểu diễn đối tượng bởi hai mức 0 hoặc 1, thường được dùng

để biểu diễn, phân biệt sự xuất hiện đối tượng và nền trong mỗi bức ảnh

- Ảnh hồng ngoại: Biểu diễn trực quan quang phổ, liên quan đến phổ điện từ Ảnhhồng ngoại cung cấp thông tin ảnh dựa trên phản xạ ánh sáng hồng ngoại hoặc bức xạhồng ngoại mà các đối tượng trong khung nhìn phát ra Dựa vào khả năng thu nhậnphản xạ hoặc bức xạ hồng ngoại mà các loại camera hồng ngoại thu được hình ảnhtrong điều kiện không có ánh sáng nhìn thấy hoặc ánh sáng kém

1.1.1.4 Mức xám

Giá trị mức xám là kết quả của ánh xạ giá trị độ sáng của một điểm ảnh màu trongkhông gian thực với một giá trị số nguyên dương thể hiện mức độ sáng tối của điểmảnh đó Các thang giá trị mức xám thường dùng là 2, 16, 32, 64, 128, 256 Ảnh đa mứcxám thường dùng là 256, như vậy mức xám thường xác định trong khoảng [0, 255] tuỳthuộc vào giá trị mà mỗi điểm ảnh được biểu diễn

1.1.1.5 Độ phân giải của ảnh

Kính thước của lưới pixel hai chiều cùng với kích thước dữ liệu lưu trữ cho mỗipixel xác định độ phân giải không gian và chất lượng màu của mỗi ảnh[1] Xét về mặtkhông gian của độ phân giải thì số cột và số hàng của ảnh xác định số lượng pixelđược sử dụng để biểu diễn hình ảnh thu được từ thế giới thực Như vậy, độ phân giảikhông gian (spatial resolution) của ảnh là mật độ pixel được xác định trên một ảnh số.Một số độ phân giải thông thường được sử dụng trong các thiết bị hiển thị và lĩnh vực

xử lý ảnh như 640× 480, 800 × 600, 1024 × 768 (HD), 192 × 1080 (full HD), 3840 ×

2160 (UHD),…

Độ phân giải bit liên quan đến chất lượng ảnh, nó được định nghĩa là số lượng cácgiá trị khác nhau có thể biểu diễn về cường độ sáng hoặc màu sắc Ví dụ ảnh nhị phânthì chỉ biểu diễn được hai trạng thái giá trị khác nhau (đen hoặc trắng) mỗi pixel loạinày dùng 1 bit, ảnh đa mức xám dùng 8bit cho mỗi pixel, biểu diễn được 256 giá trịkhác nhau từ màu đen (giá trị 0) đến trắng (giá trị 255), ảnh màu RGB dùng 24 bit cóthể biểu diễn được hơn 16 triệu màu (224=16.777.216)

Độ phân giải bit của một ảnh không nhất thiết phải tương ứng với độ phân giải của

hệ thống ảnh Thông thường các máy ảnh hiện đại ngày nay tự động điều chỉnh để đáp

Trang 10

ứng tối đa và tối thiểu của trường ảnh thu nhận được và phạm vi này được chia tựđộng thành một số lượng phù hợp các bit, ví dụ như chia thành N mức Trong trườnghợp như vậy, độ phân giải bit của ảnh thường thấp hơn độ chính xác của thiết bị.1.1.2 Các thành phần trong hệ thống xử lý ảnh

Một hệ thống xử lý ảnh thường bao gồm các thành phần chính như thiết bị phầncứng (máy ảnh) để chụp hình và lưu trữ dữ liệu, các công cụ phần mềm phục vụ xử lý

và giải quyết yêu cầu của chức năng hệ thống đề ra Trong lĩnh vực khoa học máy tính,

hệ thống xử lý ảnh là đối tượng nghiên cứu liên quan đến kỹ thuật thị giác máy(computer vision), là quá trình biến đổi từ một ảnh ban đầu được thu nhận từ thiết bịsang một không gian mới sao cho làm nổi bật đặc tính dữ liệu, thuận lợi cho quá trình

xử lý thông tin và nâng cao độ chính xác[2] Một hệ thống xử lý ảnh thường gồm một

số thành phần chính sau:

Hình 1.1 Sơ đồ tổng quát hệ thống xử lý ảnhThu nhận ảnh là việc hình ảnh về thế giới thực được thu nhận và chuyển qua tínhiệu ảnh rời rạc thông qua máy ảnh kỹ thuật số hoặc các thiết bị thu hình ảnh khác.Tiền xử lý là bước xử lý trên ảnh đầu vào nhằm khử nhiễu, làm nổi bật một số tínhchất của ảnh nhằm nâng cao chất lượng các bước xử lý sau

Trích chọn đặc trưng là quá trình biến đổi dữ liệu ảnh đầu vào thành tập các đặctrưng Các đặc trưng thường có đặc tính phân biệt cao của mẫu đầu vào giúp cho việcphân biệt mẫu dữ liệu ảnh dễ dàng hơn nhằm nâng cao chất lượng phân loại mẫu sovới xử lý dữ liệu thô trên giá trị pixel ảnh Việc trích chọn đặc trưng cũng có thể làmgiảm kích thước thể hiện thông tin trong ảnh trong khi dữ liệu về đặc trưng ảnh có tínhphân biệt cao

Phân loại, nhận dạng mẫu là quá trình xử lý dữ liệu bằng các kỹ thuật, phươngpháp phân tích đặc trưng để phân loại mẫu về các nhóm có một số tính chất chung.Các phương pháp phân loại, nhận dạng mẫu thường liên quan đến kỹ thuật học máy,bao gồm cả học có giám sát và học không có giám sát

Biểu diễn tri thức là bước thể hiện mức cao của biểu diễn dữ liệu, các mẫu dữ liệusau khi phân loại, nhận dạng được biểu diễn dưới dạng tri thức giúp hệ thống có khảnăng “hiểu biết” ngữ nghĩa của nó theo từng kiểu ứng dụng khác nhau trong hệ thốngtrí tuệ nhân tạo và hệ thống thông minh

Phân loại, nhậndạng mẫu

Biểu diễntri thứcRa

quyết định

Trang 11

Ra quyết định là bước cuối cùng của một hệ thống trong lĩnh vực hệ thống thôngminh Các mẫu được biểu diễn dưới dạng tri thức và được suy luận ngữ nghĩa để đưa

ra các quyết định thực hiện một nhiệm vụ nào đó Ví dụ trong hệ thống robot dichuyển tự động, khi phát hiện chướng ngại vật, robot sẽ tự động ra quyết định tìmkiếm đường đi mới và di chuyển theo đường đi khả thi

1.1.3 Các ứng dụng

Ngày nay, với sự hỗ trợ của các hệ thống tính toán lớn, các thuật toán tiên tiến rađời cho phép máy tính có thể hiểu biết và quyết định tốt hơn con người trong một sốlĩnh vực nhất định Ví dụ hệ thống xử lý ảnh bằng mạng neural nhân tạo học sâu có thểnhận dạng, phân loại các kiểu đối tượng khác nhau tốt hơn và nhanh hơn con người

Xử lý ảnh có rất nhiều ứng dụng trong hầu hết các lĩnh vực của đời sống xã hội dân sự,

an ninh quốc phòng, hàng không vũ trụ như:

Lĩnh vực quân sự, an ninh, quốc phòng: Tự động nhận dạng, phát hiện tội phạm,theo vết và truy tìm thủ phậm thông qua hình ảnh hiện trường phạm tội và các vấn đề

hỗ trợ do tìm tội phạm qua hệ thống giám sát an ninh toàn cầu, quốc gia

Trong lĩnh vực y tế: Phân tích hình ảnh, chẩn đoán bệnh qua các loại hình ảnh tiaGamma, X-quang, scan PET/CT (cắt lớp phát xạ), ảnh cực tím và đặc biệt với sự thànhcông của kỹ thuật học sâu đã giúp cho các chẩn đoán hình ảnh y học đạt kết quả cao.Trong lĩnh vực viễn thám, vũ trụ: Thám hiểm vũ trụ, do thám, phân tích và pháthiện vật thể trong vũ trụ

Trong lĩnh vực giao thông, dân sự: Các hệ thống khôi phục ảnh, chỉnh sửa, điềuchỉnh độ phân giải, xử lý màu sắc, mã hóa và truyền tin, nhận dạng và phân loại hànhđộng trong các hệ thống giám sát an ninh; hệ thống xe không người lái, giám sát sảnphẩm sản xuất công nghiệp, robot phục vụ dân sự, giám sát bãi xe thông minh, kiểmsoát- điều khiển giao thông thông minh

1.2 Hệ màu và loại ảnh

1.2.1 Các hệ màu thông dụng

1.2.1.1 Hệ màu RGB

Ảnh số trong hệ màu RGB (Red- Green- Blue) được biểu diễn bởi 3 kênh màu, gồm

đỏ (red), xanh lá cây (green), xanh lam (xanh da trời - blue) Hệ màu RGB là hệ màuđược sử dụng trong kỹ thuật hiển thị hình ảnh trên thiết bị điện tử như máy tính, TV.Trong biểu diễn và xử lý hệ màu RGB, mỗi kênh màu được mã hóa bằng 1 byte (8bit) thể hiện 256 giá trị cường độ sáng khác nhau với dải giá trị trong khoảng từ 0 đến

255 Trường hợp mỗi kênh màu mã hóa bằng 1 byte được gọi là ảnh 24 bit màu (8 bit

× 3 kênh- 24 bit) Ảnh màu 24 bit có thể mã hóa được 256× 256× 256 = 16.777.216giá trị màu khác nhau

Trang 12

Hình 1.2 Phối trộn màu trong hệ màu R-G-BMột số màu đặc biệt được thể hiện trong bảng sau:

Hệ màu HSV (Hue Saturation Value) có tên gọi khác là là HSI (Hue SaturationIntensity) hoặc HSL (Hue Saturation Lightness) Hệ màu HSV gồm bộ ba giá trị H, S,

V Mô hình hệ màu này do tác giả Alvy Ray Smith đề xuất năm 1978[3] Hệ màu nàydựa trên các đặc tính màu trực quan được như sắc (tint), bóng (shade) và tông màu(tone) hoặc họ màu, độ thuần khiết và độ sáng của hình ảnh trong thực tế để biểu diễn

Hình 1.3 Không gian màu H-S-V1Trong mô hình này, một hệ tọa độ hình trụ được dùng để biểu diễn không gian màu:– Hue là giá trị thể hiện sắc màu của hình ảnh (hay còn gọi là vùng màu), sắc màuthông thường được dùng để chỉ tên gọi của màu như đỏ, lục, lam, chàm, tím,… Cácsắc màu khác nhau được biểu diễn trên một vòng tròn chỉ màu, giá trị từ 0 đến 360°

- Saturation là giá trị thể hiện mức độ bão hòa màu Giá trị của nó để chỉ mức độthuần khiết của màu Nói cách khác, khi ảnh có độ bão hòa cao, màu sẽ trong và rực rỡhơn giá trị bão hòa thấp Giá trị của S (saturation) nằm trong đoạn [0, 1], trong đó S

Trang 13

đạt giá trị cao nhất (giá trị 1) là màu tinh khiết nhất, hoàn toàn không pha trắng, nghĩa

là S càng lớn thì màu càng tinh khiết, nguyên chất

- Value là giá trị đo độ sáng của màu (intensity hoặc lightness) Thành phần V cógiá trị trong đoạn [0, 1] với giá trị đặt biệt V = 0 thì ảnh là hoàn toàn tối (đen), ngượclại V = 1 là hoàn toàn sáng Giá trị V càng lớn thì màu càng sáng

1.2.1.3 Hệ màu Lab

Không gian màu Lab thể hiện mô hình toán học của tất cả các màu mà con ngườicảm nhận được trong không gian 3 chiều với giá trị L thể hiện cho màu sáng, a và b làcác thành phần màu xanh đỏ (green–red) và xanh vàng (blue–yellow) Hệ màu Labđược xem là mô hình màu độc lập đối với thiết bị và thường được sử dụng làm cơ sởtham chiếu khi chuyển đổi từ một không gian màu này sang một không gian màu khác

Hệ màu này sau đó phát triển theo các phiên bản CIELab (đề xuất bởi Hunter) vàCIEL*a*b* (đề xuất năm 1976) Theo mô hình Lab, tất cả các màu có cùng một độsáng sẽ nằm trên cùng một mặt phẳng có dạng hình tròn theo 2 trục a và b Màu có giátrị a dương thì ngả đỏ, màu có giá trị a âm thì ngả lục Tương tự b dương thì ngả vàng

và b âm thì ngả lam Còn độ sáng của màu thì thay đổi theo trục dọc

Hình 1.4 Thể hiện màu trong không gian màu Lab21.2.1.4 Hệ màu YCbCr

Các hệ màu YCbCr và Y'CbCr còn được gọi với các tên khác như YCBCR vàY'CBCR tương ứng, hai hệ màu này là một họ không gian màu được sử dụng nhiềutrong các hệ thống video, ảnh kỹ thuật số và các hệ thống thiết bị phát hình điện tử.Trong hệ màu YCbCr, thành phần Y đại diện cho độ sáng của ảnh và Cb và Cr là cácthành phần màu tương ứng với màu xanh lam (blue) và màu đỏ (red) Hệ màu YCbCrtrong ảnh kỹ thuật số tương đương với hệ màu YUV trong ảnh tín hiệu tuần tự(analog) Không gian màu YCbCr được định nghĩa trong hệ tọa độ tương ứng vớikhông gian màu RGB Giá trị các kênh màu R, G và B tại mỗi pixel được sử dụng đểtổng hợp lại với nhau tạo ra giá trị đơn của thành phần Y biểu diễn độ sáng chung tạipixel tương ứng Các thành phần Cb và Cr được tổng hợp từ các giá trị của thành phần

Y và các kênh màu B và R tương ứng trong hệ màu RGB

2 https://en.wikipedia.org/wiki/Lab_color_space

Trang 14

Hình 1.5 Mặt phẳng thể hiện màu theo Cb và Cr với hệ số Y'=0.5(3)

1.2.2 Một số loại ảnh thông dụng

1.2.2.1 Ảnh màu

Ảnh màu được hiểu chung là ảnh thể hiện các đối tượng theo màu sắc của nó màmắt thường cảm nhận được Nói cách khác, ảnh màu được hiểu là một ảnh chứa mộthoặc nhiều kênh màu xác định màu sắc tại các vị trí cụ thể của ảnh I(x,y)[1] TheoThomas Young thì ảnh màu được tổ hợp từ 3 màu cơ bản là đỏ (R-red), xanh lục (G-green), xanh lam (B-blue) và thường thu nhận trên các dải băng tần khác nhau Khônggian màu RGB thường được dùng nhiều trong các thiết bị hiển thị điện tử so với cáckhông gian màu khác như HSV, YCbCr Một ảnh màu thường được lưu trữ trong bộnhớ như là một bản đồ rapter hay bản đồ pixel (bitmap) bởi một mảng hai chiều vớimỗi phần tử là bộ ba giá trị màu tương ứng với mỗi kênh màu Trong ảnh RGB, thôngthường mỗi kênh màu dùng 8 bit để để biểu diễn cho một điểm ảnh, vậy một điểm ảnhmàu cần 24 bit tương ứng với 3 kênh màu thành phần Giá trị mỗi kênh màu được chiathành n mức màu khác nhau tương ứng từ 0 đến n-1, nếu 8 bit thì có 256 từ 0 đến 255.Mỗi giá trị thể hiện cường độ sáng của kênh màu tương ứng Trong hệ màu RGB, việclưu trữ ảnh màu theo từng kênh màu riêng biệt rất dễ dàng

Hình 1.6 Tạo màu theo nguyên lý R-G-B41.2.2.2 Ảnh đa mức xám

Trong kỹ thuật xử lý ảnh, ảnh đa mức xám (grey image) còn được gọi là ảnh đơnsắc (monochromatic) Ảnh đa mức xám dùng một kênh để thể hiện cường độ sáng củađiểm ảnh Mỗi điểm ảnh có một giá trị mức xám độ sáng từ màu đen (giá trị nhỏ nhất

3 https://en.wikipedia.org/wiki/YCbCr

Trang 15

0) đến màu trắng (giá trị lớn nhất) Như vậy, khác với ảnh màu RGB, ảnh đa mức xámchỉ dùng một thành phần giá trị nên nếu dùng cùng độ bit để mã hóa cho mỗi thànhphần thì ảnh đa mức xám có kích thước bằng 1/3 so với ảnh màu RGB.

Một số loại ảnh đa mức xám phổ biến phân theo kích thước bit dùng cho mỗi pixel:

- Ảnh 256 mức xám: Loại ảnh này cần dùng 8 bit cho mỗi điểm ảnh, có giá trị nằmtrong khoảng [0, 255] tương ứng với biến đổi cường độ sáng từ đen qua trắng

- Ảnh 8 mức xám: Loại ảnh này cần dùng 3 bit cho mỗi điểm ảnh, giá trị nằm trongkhoảng [0, 7] Như vậy, loại ảnh này có độ phân giải màu thấp hơn so với loại ảnh8bit Giá trị điểm ảnh bằng 0 nghĩa là điểm ảnh đó tối (đen), giá trị điểm ảnh lớn nhấtnghĩa là điểm ảnh đó trắng Giá trị điểm ảnh càng lớn thì điểm ảnh đó càng sáng

- Ảnh 2 mức xám: Mỗi pixel chỉ biểu diễn 2 mức cường độ sáng tương ứng với đen(0) và trắng (1) Để tránh nhầm lẫn ảnh đen trắng với ảnh đa mức xám, người tathường gọi là ảnh nhị phân hay ảnh đen trắng nhị phân Như vậy mỗi pixel chỉ cầndùng 1 bit để biểu diễn Ảnh đen trắng thường được dùng để biểu diễn đối tượng vànền trong ảnh

Trong một số trường hợp, màu sắc của hình ảnh không quan trọng và màu có thểnhạy cảm với các nguồn sáng mà chỉ cần biểu diễn hình dáng theo mức độ sáng tối củađối tượng trong hình ảnh thì ảnh đa mức xám được sử dụng để giảm dung lượng lưutrữ và giảm thiểu ảnh hưởng của nguồn sáng

Hình 1.7 Biểu diễn ảnh trong các loại ảnh: (a) ảnh màu RGB, (b) ảnh đa mức xám1.2.2.3 Ảnh đen trắng

Hình 1.8 Ảnh nhị phân trong biểu diễn cạnhNhư đã đề cập ở mục trước, ảnh đen trắng là trường hợp đặc biệt của ảnh đa mứcxám chỉ gồm 2 màu là đen và trắng, thường gọi là ảnh nhị phân Ảnh nhị phân khá đơn

Trang 16

giản, các phần tử ảnh có thể coi như các phần tử nhị phân Ảnh nhị phân thường đượcdùng để biểu diễn trạng thái đối tượng, phân biệt đối tượng trong ảnh với nền, hoặc đểbiểu diễn các đường biên đối tượng, vùng ảnh.

1.2.2.4 Ảnh quang phổ

Ảnh quang phổ là trường hợp tổng quát của hình ảnh với các loại tín hiệu tương ứngvới các loại bước sóng đặc biệt nào đó, bao gồm cả các loại bước sóng nhìn thấy (đốivới ảnh số thông thường) Ảnh quang phổ có thể biểu diễn dưới dạng ảnh màu hoặcảnh đa mức xám, ảnh nhị phân Có nhiều loại ảnh quang phổ khác nhau như ảnh quangphổ X-ray, ảnh quang phổ hồng ngoại,… Ảnh phổ hồng ngoại là hình ảnh thu được từtia hồng ngoại do bức xạ điện từ có bước sóng dài hơn ánh sáng nhìn thấy nhưng ngắnhơn tia bức xạ vi ba Hồng ngoại có nghĩa là bước sóng ngoài mức đỏ, là bước sóngdài nhất trong ánh sáng nhìn thấy được

Hình 1.9 Ảnh hồng ngoại: (a) ảnh thấy bằng mắt thường, (b) bức xạ hồng ngoại5Hiện nay loại camera hồng ngoại trở nên phổ biến, đặc biệt là các loại camera giámsát an ninh, camera trong các hệ thống tự động hóa Camera hồng ngoại có khả năngthu bức xạ hồng ngoại để chuyển đổi qua ảnh hiển thị trong ngưỡng nhìn thấy bằngmắt thường Do vậy, camera hồng ngoại được sử dụng nhiều trong các ứng dụng banđêm và các điều kiện thiếu ảnh sáng

độ x, y nhất định trên hệ trục tọa độ Nhờ vậy, các điểm ảnh chi tiết trên đối tượng khiphóng sẽ được nội suy dựa vào những điểm chính và biểu thức toán học để tính giá trịđiểm ảnh giữa các điểm chính

Trang 17

Hình 1.10 Ảnh vector khi phóng to vẫn giữ nguyên được đối tượng

Ưu điểm của ảnh vector là khi phóng to hoặc thu nhỏ ảnh không bị vỡ, đường biêngiữa các vùng không bị hiện tượng răng cưa Kích thước ảnh vector thường nhỏ, chứađối tượng đơn giản Ảnh vector được dùng nhiều trong các trường hợp thiết kế logo,icon avatar, ảnh nghệ thuật vector

Hạn chế của ảnh vector là hình ảnh hiển thị thường không “tự nhiên”, có sự chuyểnmàu và không sắc nét với ảnh ngoại cảnh, phân phối màu phức tạp

1.3.2 Cấu trúc ảnh raster

Ảnh raster hay ảnh bitmap tổ chức biểu diễn theo cấu trúc lưới các điểm màu thểhiện các pixel, nó được tạo ra bởi các điểm ảnh rời rạc, chứa giá trị mỗi màu nhất định.Như vậy, ở độ phân giải chuẩn, ảnh raster nguyên gốc thể hiện hình ảnh đối tượnggiống với tự nhiên hơn ảnh vector do không phải tính dựa vào các biểu thức toán học

để tính ra các điểm ảnh giữa trên cơ sở các điểm chính Hầu hết các ảnh được lưu trữtheo các định dạng thông thường đều theo dạng cấu trúc raster và các biến thể nén nhưGIF, JPEG và PNG Ảnh dạng raster thường có kích thước lớn hơn ảnh vector

Hình 1.11 Ảnh raster khi phóng to bị vỡ hình và răng cưaKhác với ảnh vector, ảnh raster khi phóng to thường bị hiện răng cưa, đối tượngkhông sắc nét Nếu ảnh gốc kích thước nhỏ, khi phóng quá to so với ban đầu đối tượngthường không giữ lại được diện mạo, bị mờ

Trang 18

1.4.1 Định dạng ảnh TIFF

Định dạng TIFF (tagged image format file) được nghiên cứu và giới thiệu vào năm

1986 bởi công ty Aldus Corp., là một định dạng file ảnh chất lượng cao và được sửdụng nhiều trong các ứng dụng thu nhận ảnh từ máy scan Chuẩn định dạng TIFF làmột trong những tiêu chuẩn quan trọng, được sử dụng nhiều trong ngành công nghiệp

in ấn và xuất bản File ảnh dạng TIFF thường có kích thước lớn hơn nhiều so với cácfile ảnh nén theo chuẩn JPEG Định dạng TIFF lưu trữ dữ liệu hình ảnh dạng nén hoặckhông nén và có thể sử dụng các kỹ thuật nén không mất dữ liệu hoặc mất thông tin.Khác với định dạng JPEG, định dạng TIFF có thể có độ sâu màu từ 8 bits/channel đến

16 bits/channel và có thể có nhiều lớp ảnh được lưu trữ đồng thời trong cùng file ảnhTIFF Định dạng TIFF thường có các kiểu nén là LZW, ZIP và JPGE

Đặc điểm của ảnh theo định dạng TIFF là thường không bị mất dữ liệu hình ảnh khilưu trữ ra thiết bị nhớ và đọc lại để xử lý trong máy tính, thường được sử dụng để biểudiễn hình ảnh có màu sắc phức tạp Ảnh định dạng TIFF sử dụng trong các trường hợpđòi hỏi chất lượng cao như hình ảnh in ấn, phân tích mẫu

1.4.2 Định dạng ảnh GIF

Định dạng GIF (graphics interchange format) được phát triển từ năm 1987, thườngđược dùng trong biểu diễn và truyền hình ảnh trong môi trường Web Ảnh định dạngGIF thường biểu diễn hình ảnh thành các frame để tạo ảnh chuyển động Với mục đíchtạo ra định dạng trao đổi hình ảnh nên các file ảnh theo định dạng GIF thường có kíchthước nhỏ, chất lượng hình ảnh vừa phải, đáp ứng được trong môi trường mạng Khácvới JPGE, GIF sử dụng thuật toán nén ít mất thông tin (lossless) mà không làm giảmchất lượng hình ảnh sau khi nén Trong kỹ thuật nén ảnh theo chuẩn GIF, dữ liệu lưubằng cách sử dụng màu chỉ mục (index), mỗi hình ảnh có thể bao gồm 256 màu

Một trong những ưu điểm của GIF là nén theo chuẩn Lossless nên ảnh thườngkhông bị mất dữ liệu khi nén, hình ảnh dạng GIF được tự động nhận biết trên hầu hếtcác trình duyệt web Vì chuẩn GIF lưu trữ dữ liệu theo bảng chỉ mục nên nó thườngđược dùng để tạo các khung nhìn khác nhau tạo nên hiệu ứng chuyển động, vì hìnhảnh giữa các frame có mức độ tương tự cao nên sẽ tiết kiệm được không gian nhớ sovới video thông thường Ảnh GIF sử dụng tốt đối với các trường hợp biểu diễn hìnhảnh đơn giản như những bản vẽ chỉ có nét, bảng màu sắc và những minh họa đơn giản,tạo những hình ảnh động, hình ảnh Web không có quá nhiều màu sắc, những ảnhavatar có kích thước nhỏ Hình mô phỏng về hình ảnh chuyển động của hai con lắcminh họa thí nghiệm của Newton được tạo thành từ các ảnh đơn lẻ Phần lớn các đốitượng đều không thay đổi, chỉ có hai quả cầu ở hai bên ngoài cùng chuyển động luânphiên nhau Các ảnh này được nén theo chuẩn GIF cho ảnh chất lượng cao trong khidung lượng file ảnh không tăng nhiều so với kích thước của một ảnh đơn lẻ vì phần

Trang 19

lớn dữ liệu ảnh đều giống nhau, chỉ một vài chi tiết nhỏ thay đổi, do vậy bảng chỉ mụcnhỏ chỉ cần tham chiếu đến các frame.

Hình 1.12 Ảnh động GIF được tạo thành từ tập các ảnh liên tục

1.4.3 Định dạng hình ảnh JPG

Định dạng JPG được đề xuất năm 1992 trong công bố của tác giả Haines [5] Địnhdạng JPG được gắn liền với chuẩn nén ảnh JPGE (joint photographic experts group) vàlưu trữ trong máy tính theo file JPG Định dạng JPG là một trong những phương phápđược sử dụng phổ biến nhất hiện nay cho các file ảnh kỹ thuật số và xử lý tính toántrong máy tính Định dạng JPG gắn liền với thuật toán nén mất thông tin (lossy), tức làkhi nén dữ liệu để lưu trữ, thông tin sẽ bị mất trong quá trình nén và giải nén Do đó,chất lượng hình ảnh sẽ bị giảm so với ảnh ban đầu Tuy nhiên, với phương pháp nénmất thông tin thì kích thước file lưu trữ của ảnh cũng giảm đáng kể Phương pháp nénJPEG thường được dùng để nén ảnh số có mất mát thông tin Các file ảnh dùng néntheo chuẩn JPEG thường có tên file mở rộng là *.jpg, *.jpeg,*.jfif hay *.jpe

Thông thường, định dạng JPG dùng 24bit để biểu diễn màu với mỗi kênh màuchiếm 8bit (1 byte) Như vậy, ảnh JPG 24bit có thể biểu diễn được hơn 16 triệu màukhác nhau (224=16.777.216) Dung lượng lưu trữ file ảnh nhỏ hơn rất nhiều so với ảnhkhông nén (dạng Bitmap) Các ảnh sử dụng phương pháp nén JPGE tương thích vớihầu hết các trình duyệt web hiện nay Ảnh JPG sử dụng tốt và hiệu quả đối với các loạiảnh tĩnh, ảnh có màu sắc phức tạp, ảnh đa mức xám, ảnh ngoại cảnh và chân dung.1.4.4 Định dạng ảnh BMP

BMP là loại định dạng bitmap, được phát triển vào năm 1994 BMP là loại địnhdạng và lưu trữ file ảnh đồ họa dạng lưới (raster) được sử dụng để lưu trữ ảnh số dạngthô File ảnh dạng BMP thường có kích thước lớn và dữ liệu không nén do vậy cũngkhông mất thông tin trong quá trình lưu file và đọc ảnh từ file Dữ liệu hình ảnh BMPđộc lập với các thiết bị hiển thị như Graphics adapter, đặc biệt trên các ứng dụng chạytrong môi trường Microsoft Windows và hệ điều hành OS/2

Định dạng BMP có ưu điểm là không làm mất thông tin của ảnh đang xử lý, nên nóphù hợp cho việc in ấn, chỉnh sửa hình ảnh Mặt khác, vì ảnh không nén nên file ảnhBMP được đọc dễ dàng bằng các chương trình phần mềm dùng chung với những thuậttoán đơn giản Tuy nhiên, ảnh không hỗ trợ nén cũng ảnh hưởng không tốt cho việclưu trữ vì dung lượng file thường lớn hơn các loại định dạng khác

Trang 20

1.4.5 Định dạng ảnh PNG

PNG (Portable Network Graphics) được đề xuất năm 1996 là một định dạng file đồhọa dạng raster PNG hỗ trợ nén dữ liệu không bị mất thông tin (lossless- ít mất thôngtin) Định dạng PNG được xem là một dạng cải tiến và thay thế cho GIF trong môitrường ảnh vector và được sử dụng nhiều trên internet Chuẩn định dạng PNG thường

sử dụng hai dạng khác nhau là PNG-8 và PNG-24 Trong trường hợp ảnh có màu sắcphức tạp, không phân bố theo dạng vector thì PNG có dung lượng lớn hơn JPGE

Ưu điểm của định dạng PNG là hình ảnh các đối tượng không bị cạnh răng cưa khiphóng to ảnh, điểm ảnh được biểu diễn dạng vector Ảnh định dạng PNG được néntheo chuẩn không mất thông tin do vậy khi giải nén ảnh vẫn giữ nguyên được chấtlượng ban đầu trước khi nén

Ảnh dạng PNG thích hợp với các loại hình ảnh chứa đối tượng phân phối màu đơngiản, tuân theo quy luật như văn bản, các loại hình vẽ Với các loại hình ảnh mà nềntrong suốt hoặc có thể được thiết lập giữa mờ đục lưu trữ theo định dạng PNG cho ảnhchất lượng cao với kích thước file nhỏ Bên cạnh đó, nó cũng được dùng trong quátrình chỉnh sửa hình ảnh nhằm không làm mất thông tin của ảnh đang xử lý Ngoài ra,định dạng PNG sử dụng tốt cho các hình ảnh web/blog, những mảng màu phẳng, thiết

kế logo, hình ảnh có nền trong suốt hoặc bán trong suốt

Câu hỏi và bài tập

1 Ảnh kỹ thuật số khác với ảnh phim như thế nào?

2 Hãy cho biết mối liên hệ giữa kích thước ảnh và số điểm ảnh

3 Hãy cho biết mối liên hệ kích thước ảnh và độ phân giải ảnh

4 Hãy phân biệt ảnh màu, ảnh đa mức xám và ảnh nhị phân

5 Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, Lab và YcbCr và hiểnthị từng ảnh trên các cửa sổ khác nhau

6 Đọc vào một ảnh định dạng RGB, chuyển qua ảnh HSV, sau đó tăng giá trị thànhphần màu V lên 150%, chuyển qua ảnh RGB và hiển thị ảnh gốc và ảnh sau khi điềuchỉnh Hãy nhận xét sự thay đổi của ảnh

Trang 21

7 Đọc vào một ảnh có định dạng JPG, thay đổi ảnh về kích thước 256×256 pixels,sau đó lưu ra các file ảnh theo các định dạng GIF, PNG, BMP và TIFF Dùng phầnmềm Paint thay đổi kích thước ảnh đã lưu thành 1.000×1.000 pixels Đọc ảnh và hiểnthị các ảnh theo các định dạng đã tạo và cho nhận xét về chất lượng ảnh.

8 Dùng phần mềm Paint để tạo ảnh kích thước 480×480 pixels có chứa một số hìnhđơn giản có sẵn trong Paint, tô đầy một màu cho mỗi đối tượng Lưu ảnh thành cácđịnh dạng JPG, PNG, GIF, BMP và TIFF Hãy nhận xét về dung lượng lưu trữ theomỗi định dạng Đọc các ảnh và hiển thị, đánh giá chất lượng hình ảnh tương ứng

9 Dùng phần mềm Paint để thay đổi kích thước các ảnh ở câu 1.8 thành 1.024×1.024 pixels Cho biết dung lượng lưu trữ và chất lượng các ảnh theo các định dạngtương ứng

Trang 22

CHƯƠNG 2.BIẾN ĐỔI XỬ LÝ ẢNH

Chương này giới thiệu những kiến thức về kỹ thuật xử lý ảnh số như phép biến đổitrên điểm ảnh, các phép điều chỉnh nâng cao chất lượng ảnh cũng như cách biến đổiqua lại giữa ảnh màu, ảnh đa mức xám và giữa hệ màu, các phép toán trên ảnh nhưtoán tử tích chập, các bộ lọc ảnh thông dụng và phép biến đổi không gian ảnh Bêncạnh đó, chương này cũng tập trung trình bày các phương pháp biến đổi hình thái học,

là những kỹ thuật quan trọng xử lý điểm ảnh và phân tích vùng ảnh, trích biên đốitượng và một số ứng dụng của biến đổi hình thái học

và thực hiện xử lý tính toán xong, dữ liệu đầu ra sẽ được biến đổi ngược để đưa vềmiền xác định ban đầu Các biến đổi thường gặp trong xử lý ảnh là:

- Biến đổi Hough: thường dùng để phát hiện các cạnh có trong ảnh

- Biến đổi Radon: thường được dùng để tái tạo lại hình ảnh từ các dữ liệu tia chiếuchùm (fan beam) và tia chiếu song song

Iảnh đầu vào

I'ảnh đầu ra

f(I)biến đổi ảnh

Houghtransform

Trang 23

- Biến đổi Fourier rời rạc (discrete Fourier): Dùng để lọc và phân tích tần số.

- Biến đổi Cosin rời rạc (discrete Cosin): Dùng trong các kỹ thuật nén ảnh và video

- Biến đổi tích chập (convolution) để lọc ảnh, làm mịn ảnh như lọc cảnh Sobel, làm

Ví dụ: Cho ảnh đa mức xám đầu vào có kích thước là 640×480 pixels Như vậy, sốlượng điểm ảnh 640×480 bằng 307.200 điểm ảnh Với ảnh đa mức xám 8bit thì cácđiểm ảnh có giá trị nằm trong khoảng từ 0 đến 255 Lược đồ ảnh là kết quả của việcthực hiện thống kê có bao nhiêu điểm ảnh có giá trị 0 từ 307.200 điểm ảnh đã cho,tương tự thống kê số lượng điểm ảnh có giá trị bằng 1, thực hiện lặp lại cho các giá trịcường độ sáng bằng 2,…255 Như vậy, tổng các điểm ảnh phân phối theo các cường

độ sáng từ 0 đến 255 này bằng 307.200 Lược đồ có thể tính theo từng giá trị hoặc cóthể tính trong các khoảng giá trị

Hình 2.2 Lược đồ ảnh đa mức xám2.2.2 Điều chỉnh mức sáng

Mức sáng của ảnh là thuộc tính quan trọng, được dùng để biểu diễn giá trị độsáng của điểm ảnh Mức sáng liên quan đến mức độ sáng tối của ảnh Điểm ảnh cómức sáng càng thấp (càng tối) thì giá trị điểm ảnh đó càng nhỏ (tối nhất là 0) và ngượclại ảnh càng sáng thì giá trị điểm ảnh càng lớn

Điều chỉnh mức sáng (brightness adjustment) là một kỹ thuật khá cơ bản và đơngiản trong lĩnh vực xử lý ảnh

Trang 24

Ví dụ thay đổi mức sáng ảnh tại mỗi pixel theo công thức I'(x,y)= I(x,y)+b, với b là

hệ số điều chỉnh mức sáng, nếu b>0 thì thực hiện tăng mức sáng của điểm ảnh (làmcho ảnh sáng hơn), ngược lại b<0 thì thực hiện giảm độ sáng của điểm ảnh (làm choảnh trở nên tối hơn)

Đối với ảnh màu trong hệ không gian màu RGB, việc thay đổi mức sáng có thể thựchiện thay đổi trên từng kênh màu R-G-B Đối với hệ không gian màu HSV thì V làthành phần biểu diễn mức sáng, việc thay đổi mức sáng tương ứng với thay đổi thànhphần V tương ứng

độ sáng của đối tượng với vùng nền càng thấp thì ta nói ảnh đó có độ tương phản thấp

và ngược lại độ chênh lệch càng cao có nghĩa là độ tương phản ảnh càng cao Một ảnh

Trang 25

có độ tương phản thấp thì khi quan sát thấy ảnh ít có sự sắc nét giữa các thành phầnsáng-tối (đen- trắng) với nhau.

Ví dụ hình minh họa các ảnh có độ tương phản thấp với các giá trị cường độ sángphân bố tập trung ở khoảng giữa của dải cường độ sáng [0, 255] Khi ảnh được điềuchỉnh độ tương phản cao hơn với các giá trị cường độ sáng phân phối tương đối đềutrong khoảng [0, 255], thì ảnh sáng rõ nét hơn với các vùng sáng tối

Hình 2.5 Độ tương phản ảnh: (a) độ tương phản thấp, (b) độ tương phản cao

Có nhiều kỹ thuật khác nhau để điều chỉnh độ tương phản ảnh

Ví dụ lập trình Matlab điều chỉnh độ tương phản:

Thực thi trên CPU

title('Contrast adjustment image');

Thực thi trên GPU

title('Contrast adjustment image');

Hình 2.6 Điều chỉnh độ tương phản ảnh với các mức khác nhau

2.2.4 Cân bằng lược đồ ảnh

Kỹ thuật cân bằng lược đồ ảnh (Histogram equalization) thường được sử dụng đểtăng cường độ tương phản ảnh Ví dụ ảnh có lược đồ đa mức xám có giá trị điểm ảnh

Trang 26

không phân bố đều trong khoảng [0-255] mà chỉ tập trung trong một khoảng ngắn nào

đó thì nhiều khả năng ảnh có độ tương phản thấp Mục tiêu của cân bằng lược đồ ảnh

là giúp biến đổi một ảnh có mức độ tương phản thấp thành ảnh có mức độ tương phảncao hơn bằng cách giãn đều giá trị cường độ sáng của các điểm ảnh phân bố trên vùnggiá trị rộng hơn mà vẫn giữ được nội dung chính của bức ảnh

Phương pháp cân bằng lược đồ ảnh có ưu điểm là đơn giản, tính toán dễ dàng, đồngthời cho phép phục hồi lại trạng thái ảnh ban đầu khi cần thiết Tuy nhiên, hạn chếquan trọng của nó là dễ dàng làm tăng cường nhiễu trong ảnh, đồng thời làm giảm cácchi tiết quan trọng của hình ảnh

Sử dụng hàm Matlab điều chỉnh độ tương phản bằng phương pháp cân bằng lược đồảnh:

subplot(2,1,2)imhist(J,64)

Trang 27

+ Phương pháp cân bằng toàn cục là công việc điều chỉnh, làm cân bằng lại sự phân

bố các giá trị độ sáng điểm ảnh Kỹ thuật cân bằng toàn cục được sử dụng trong việc

xử lý ảnh từ vệ tinh, chụp X-quang, ảnh đo nhiệt bức xạ,…

Với w và h là chiều dài và chiều rộng của ảnh đầu vào

+ Phương pháp cân bằng cục bộ là quan tâm đến từng phần của ảnh thay vì thựchiện cân bằng trên toàn bộ bức ảnh Cách tiếp cận cân bằng cục bộ giúp giải quyết vấn

đề trong ảnh có các vùng quá tối hoặc quá sáng được cân bằng tốt hơn Một trongnhững giới hạn chính của phương pháp cân bằng cục bộ là phải thực hiện lặp đi lặp lạiviệc tính toán trên các phân vùng nhỏ nên dẫn đến thời gian tính toán rất lớn, khôngphù hợp xử lý thời gian thực Người ta thường tích hợp xử lý trên thiết bị chuyên dụngnhư mạch tích hợp dùng cấu trúc mảng phần tử logic lập trình được (Field-programmable gate array - FPGA)

2.2.5 Biến đổi ảnh màu và đa mức xám

2.2.5.1 Chuyển đổi ảnh RGB thành ảnh đa mức xám

Ảnh RGB được chuyển qua ảnh đa mức xám được thực hiện theo công thức:

imshow(Grey);

a) Ảnh màu RGB b) Ảnh grayscaleHình 2.9 Chuyển đổi hệ màu từ RGB thành grayscale

Trang 28

2.2.5.2 Chuyển đổi ảnh giữa các hệ màu RGB và HSV

a) Chuyển đổi RGB sang HSV

Việc chuyển đổi ảnh từ hệ màu RGB sang hệ màu HSV tương ứng với việc kết hợpcác giá trị màu thành phần R, G, B để tính các thành phần màu Hue (H), Saturation (S)

và Value (V) Trước hết, thực hiện chuyển đổi cường độ sáng từ miền giá trị [0 …255] thành [0 1] bằng cách chia các giá trị thành phần màu R,G, B cho 255:

b) Chuyển đổi ảnh HSV sang ảnh RGB

Trong ảnh màu theo định dạng HSV, các thành phần màu có giá trị trong các miềnxác định như sau Hue H ∈ [0°, 360°], Saturation SHSV∈ [0, 1] và Value V ∈ [0, 1].Đầu tiên tính giá trị màu C (Chroma) trong không gian màu HSV theo công thức

HSV

C V S  

Tiếp theo, thực hiện tính các giá trị màu (R1, G1, B1) trong không gian màu RGBtương ứng với giá trị Hue và Chroma bằng cách sử dụng giá trị trung gian X cho thànhphần lớn nhất của màu này với các công thức:

Trang 29

1 1 1

(0, 0,0) if is undefined ( , ,0) if 0 1 ( , ,0) if 1 2 ( , , ) (0, , ) if 2 3

(0, , ) if 3 4 ( ,0, ) if 4 5 ( ,0, ) if 5 6

( , , ) ( R G B  R m G m B m  ,  ,  ) 2.92.2.5.3 Chuyển đổi ảnh hệ màu RGB và YCbCr

Để chuyển đổi từ hệ màu RGB thành YCbCr, trước hết tính giá trị của thành phần

Y Thành phần Y phụ thuộc vào cả ba thành phần màu đỏ, xanh lục và xanh lam Côngthức chuyển đổi được xác định như sau:

Trong toán học, tích chập là phép toán tuyến tính Phép tích chập thường được kýhiệu phép nhân tròn là  Tích chập thực hiện việc tính toán dựa vào hai hàm đã có f

và k, với f(x, y) được gọi là hàm ảnh và k(x, y) được gọi là nhân lọc (kernel) hay mặt nạ

7 https://en.wikipedia.org/wiki/YCbCr

Trang 30

(mask) có kích thước m×n (kích thước này thường nhỏ hơn nhiều kích thước ảnh).Phép toán tích chập được thực hiện theo công thức:

nạ tích chập Điểm neo sẽ xác định vị trí khớp giữa mặt nạ tích chập với vị trí trên ảnhđầu vào để tích chập Thông thường điểm neo được chọn là tâm của mặt nạ lọc Giá trịmỗi phần tử trên mặt nạ được xem như hệ số tổ hợp với lần lượt giá trị độ xám củatừng điểm ảnh trong vùng tương ứng với mặt nạ

Phép tích chập được hình dung là việc thực hiện dịch chuyển mặt nạ lần lượt qua tất

cả các vị trí trên ảnh, bắt đầu từ góc trên-trái đến dưới-phải của ảnh Quá trình dịchchuyển điểm neo được đặt tương ứng tại điểm ảnh đang xét và tiến hành tính tíchchập Ở mỗi lần dịch chuyển, thực hiện tính toán kết quả tích chập mới cho điểm ảnhđang xét bằng công thức tích chập như trên

Ví dụ viết chương trình bằng Matlab sử dụng tích chập để thực hiện lọc nhiều theophương pháp lọc trung bình, với kích thước mặt nạ 5×5

2.3.2.1 Lọc trung bình

Lọc trung bình là kỹ thuật lọc tuyến tính Lọc trung bình hoạt động như một bộlọc thông thấp Thuật toán lọc trung bình được mô tả tóm tắt như sau: Sử dụng mộtcửa sổ lọc (filter kernel) có kích thước n×n, thực hiện tính toán tích chập với ảnh đầu

Trang 31

vào để thu được ảnh lọc Tại mỗi vị trí điểm ảnh, lấy giá trị các điểm ảnh (từ ảnh đầuvào) trong vùng n×n tại vị trí của cửa sổ lọc dịch chuyển hiện tại, tiến hành tích chậpvới giá trị tương ứng của bộ lọc Hay nói cách khác, giá trị các điểm ảnh của ảnh mớisau khi lọc là giá trị trung bình của tất cả các điểm ảnh trong vùng lân cận n×n của nótrong cửa sổ lọc với kích thước n×n.

Ví dụ sử dụng cửa ma trận lọc kích thước 3×3, đọc ảnh được lưu trữ trong máy tínhvào rồi thực hiện lọc trung bình, hiển thị ảnh trước khi lọc và sau khi lọc

Phương pháp lọc Sobel (Sobel filter) được dùng khá phổ biến để phát hiện cạnh cácđối tượng trong ảnh Khác với lọc trung bình, phương pháp lọc Sobel sử dụng mặt nạvới giá trị của các phần tử được phân phối theo quy tắc do Irwin Sobel đề xuất năm

1968 [6] Hai mặt nạ lọc Sobel kxvà kytheo hai hướng x và y tương ứng được xác địnhnhư sau:

Trang 32

Lọc trung vị (median filter) là kĩ thuật lọc phi tuyến được dùng để khử nhiễu kháhiệu quả đối với các loại nhiễu đốm (speckle noise) và nhiễu muối tiêu (salt-peppernoise) Thuật toán lọc trung vị được tóm tắt như sau: Sử dụng một cửa sổ lọc n×n quétqua lần lượt từng điểm ảnh của ảnh đầu vào Giá trị mỗi điểm ảnh mới được xác địnhbằng cách lấy giá trị phần tử trung vị từ tập điểm ảnh lân cận tương ứng trong vùngn×n của ảnh gốc Để lấy giá trị trung vị, các giá trị trong vùng n×n được sắp xếp theothứ tự (tăng dần/ giảm dần) Lấy điểm ảnh nằm chính giữa (phần tử trung vị median)

từ dãy giá trị đã sắp xếp ở trên gán cho giá trị điểm ảnh đang xét của ảnh đầu ra saukhi lọc

I = imread('coins.png');

I = imnoise(I,'salt & pepper',0.05);

[h, w] = size(I);

Med = zeros(3,3,'uint8');

Ime= zeros(size(I),'uint8');

for i=2:h-1

Trang 33

Phương pháp lọc Gaussian (Gaussian filter) là kỹ thuật làm trơn ảnh được sử dụngphổ biến trong tiền xử lý ảnh Phương pháp này thực hiện tích chập ảnh ban đầu vớimột cửa sổ lọc kích thước n×n, giá trị các phần tử trong cửa sổ lọc được xác định theophân bố Gaus (phân bố chuẩn Gaussian).

Hình 2.15 Lọc GaussianN=5;

ind = -floor(N/2): floor(N/2);

Trang 35

title('Midpoint filtered image');

Hình 2.17 Lọc ảnh bằng phương pháp midpoint với kích thước bộ lọc 3×3.2.4 Các phép biển đổi toàn cục

2.4.1 Biến đổi cosin rời rạc

Biến đổi cosin rời rạc (discrete cosine transform- DCT)[7] là một phép biến đổituyến tính và khả nghịch: f R : N  R Nvới R là miền số thực hoặc tương ứng với matrận vuông khả nghịch N×N Trong lĩnh vực xử lý ảnh, phép biến đổi cosin mặc địnhđược hiểu là biến đổi cosin rời rạc Có một số dạng biến thể của biến đổi cosin, với

Trang 36

một tập số thực x0,…, xN-1 được biến đổi vào tập số thực X0,…, Xn-1 được định nghĩatheo các dạng sau:

+ Biến đổi cosin dạng 1 (DCT1):

Biến đổi cosin dạng 2 được sử dụng khá phổ biến và nó thường mặc định được gọi

là biến đổi cosin rời rạc

+ Biến đổi cosin dạng 3 (DCT3):

1 0

+ Biến đổi đa chiều của DCT2:

Biến đổi cosin của một ảnh hoặc ma trận đơn giản chỉ là phép biến đổi DCT2 mộtchiều, thực hiện theo hàng rồi đến cột hoặc ngược lại Do vậy, biến đổi DCT2 trong2D được định nghĩa như sau:

+ Ứng dụng trong nén ảnh: TheoGupta và Garg trong[8], biến đổi cosin giúp phântách ảnh thành các phần theo mức độ quan trọng khác nhau Biến đổi cosin tương tựnhư biến đổi Fourier là phép biến đổi ảnh hoặc tín hiệu từ miền không gian sang miềntần số Công thức tổng quát DCT trong 1D được định nghĩa như sau:

Trang 37

1 1 2

Biến đổi ngược tương ứng ký hiệu là F u  1 ( )

Công thức tổng quát với biến đổi DCT trong không gian 2D (N×M) được định nghĩanhư sau [9]:

0 0

1 1

Biến đổi ngược tương ứng ký hiệu là F u v  1 ( , )

Toán tử cơ bản của DCT thể hiện như sau:

+ Ảnh đầu vào kích thước N×M;

+ f(i,j) là cường độ sáng của pixel tại vị trí hàng i và cột j;

+ F(u,v) là hệ số DCT tại hàng k1và cột k2trong ma trận DCT;

+ Đầu vào DCT là mảng số nguyên, có thể xác định bằng 8×8, chứa giá trị mứcxám của mỗi pixel

+ Giá trị pixel (8 bit) xác định trong khoảng từ 0 đến 255

Ví dụ hệ số F[0,0] được gọi là hệ số một chiều (Direct current- DC), các hệ số cònlại trên ma trận F được gọi là hệ số xoay chiều (Alterniting current- AC) Bản chất hệ

số DC là giá trị trung bình toàn bộ các giá trị điểm ảnh từ ảnh đầu vào, hệ số AC biểudiễn độ lệch giữa các điểm ảnh theo các tần số và biên độ khác nhau Do vậy, đối vớihầu hết các ảnh, phần lớn năng lượng tín hiệu nằm ở mức thấp, chúng xuất hiện ở góctrên- trái trong bảng DCT Kết quả nén thu được khi giá trị phía dưới- phải thể hiện tần

số cao hơn và thường đủ nhỏ để có thể bỏ qua với sự biến dạng ít nhìn thấy được.Mảng đầu ra của DCT là hệ số chứa số nguyên nằm trong miền xác định [-1024:1023] Nó dễ dàng tính toán hơn trong thực hiện và hiệu quả hơn khi xem DCTnhư là một tập các hàm cơ bản với kích thước đầu vào biết trước (8×8) có thể đượctính trước và lưu trữ lại Vấn đề tính toán khá đơn giản bằng cách tính tích chập vớimặt nạ chập (cửa sổ 8×8) (xem thêm phần tích chập- convolution) Các giá trị đượctính từ công thức tính DCT Như vậy, giá trị hệ số DCT tương ứng với hàm cơ sở làtổng các điểm ảnh trên toàn bộ ảnh đầu vào và được đánh trọng số Ví dụ minh họa 64(8× 8) hàm cơ sở được thể hiện như sau

Trang 38

Hình 2.18 Các tần số DCT 2 chiều từ biến đổi ảnh JPEG [9]

Hình thể hiện sự kết hợp các tần số ngang và dọc với một biến đổi DCT 2 chiều.Mỗi bước từ trái sang phải, từ trên xuống dưới là một bước tăng trưởng với tần số ½chu kỳ Ví dụ dịch phải 1 ô vuông từ trên- trái ta nhận được nửa chu kỳ trong tăng theotần số ngang, dịch chuyển sang bên phải tạo ra nửa chu kỳ Dữ liệu nguồn 8x8 đượcbiến đổi thành kết hợp tuyến tính của 64 hình vuông tần số như trên

2.4.2 Biến đổi Fourier rời rạc

Biến đổi Fourier rời rạc (discrete Fourier transform- DFT), còn gọi là biến đổiFourier hữu hạn Phép biến đổi Fourier rời rạc được áp dụng để thực hiện rời rạc hoámột chuỗi giá trị phức Biến đổi Fourier rời rạc có nhiều ứng dụng trong thực tế nhưnhư phép lọc ảnh, nén ảnh, phóng to ảnh, Biến đổi Fourier có thể được tính nhanhbởi thuật toán biến đổi Fourier nhanh (Fast Fourier transform- FFT)

Hình 2.19 Biến đổi giữa các miền dữ liệuThông thường, đầu vào của phép biến đổi Fourier là một dãy hữu hạn các số Giả sửcho trước một dãy N số phức x 0 , , xN1 được biến đổi thành dãy N số phức tương ứng

là X 0 , , XN 1 Phép biến đổi Fourier của X được thể hiện bằng X(k) gồm N mẫu xácđịnh bởi công thức sau8:

XMiền không gian ban đầu

T

T-1

YKhông gian đặc trưng

Trang 39

Phép biến đổi ngược Fourier xác định như sau:

Tham số về tần số không gian ký hiệu là  và diện tích của Gaussian trong miền tần

số được điều chỉnh bởi tham số , với tương ứng với tham số σ trong miền khônggian Có nghĩa là một hàm Gaussian hẹp hơn trong miền không gian thì có phổ rộnghơn và hàm Gaussian rộng hơn thì có phổ hẹp hơn trong miền tần số Tính chất nàyliên quan đến việc khử bỏ nhiễu trong bộ lọc Gaussian Một phân phối hàm Gaussianhẹp sẽ cho kết quả ít mịn hơn do phạm vi ảnh hưởng của nó nhỏ và trong miền tần sốphổ của nó có băng thông rộng làm mất nhiễu ở tần số cao Khi độ rộng của hàmGaussian trong miền không gian tăng lên thì hàm Gaussian thì độ mịn tăng lên dophạm vi ảnh hưởng của nó rộng hơn và tương tự trong miền tần số thì hàm Gaussianhẹp hơn sẽ làm mất nhiễu tần số cao ít hơn Mối quan hệ giữa độ rộng trong miềnkhông gian và độ rộng của phổ trong miền tần số làm nổi bật mức độ dễ dàng trong sửdụng bộ lọc Gaussian để giải quyết các bài toán thực tế Biến đổi Fourier của hàmGaussian cũng giải thích tại sao tính chất single-lobe trong miền không gian đưa vàomiền tần số

Biến đổi Fourier có nhiều ứng dụng quan trọng trong xử lý tín hiệu số, đặc biệt làtrong lọc ảnh kỹ thuật số Một số bộ lọc cơ bản dựa trên biến đổi Fourier như bộ lọcthông thấp, lọc thông cao, lọc theo dải và lọc chắn dải

Trang 40

Trong đó:

- ωc≤ ω ≤ ωc: là dải thông qua được của các tín hiệu trên miền tần số

- π ≤ ω ≤ ωcvà ωc≤ ω ≤ π: dải bị chắn, không thông qua được trên miền tần số

Hình 2.20 Lọc thông thấpNhư vậy, có thể sử dụng bộ lọc này để lọc nhiễu ảnh trong miền không gian ví dụnhư nhiễu muối hạt tiêu, làm mờ cạnh,

- ωc≤ ω ≤ ωc: Dải bị chắn, không thông qua được trên miền tần số

- π ≤ ω ≤ ωcvà ωc≤ ω ≤ π: Dải thông qua được trên miền tần số

Tiêu đề	Giáo Trình Nhận Dạng Và Xử Lý Ảnh
Tác giả	TS. Hoàng Văn Dũng
Trường học	Trường Đại học Quảng Bình
Chuyên ngành	Nhận dạng và xử lý ảnh
Thể loại	Giáo Trình
Năm xuất bản	2018
Thành phố	Quảng Bình

Định dạng
Số trang	173
Dung lượng	3,2 MB