1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thiết kế hệ thống nhận dạng hướng nhìn điều khiển robot di động

100 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 100
Dung lượng 3,66 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xác định hướng nhìn của mắt eye-gaze detection là một trong những kỹ thuật được dùng trong các ứng dụng HCI.. Hình 1.3: Các bộ phận trong mắt người fovea Optic nerve Optic clise sclera

Trang 1

-

NGUYỄN HỮU CƯỜNG

THIẾT KẾ HỆ THỐNG NHẬN DẠNG HƯỚNG NHÌN ĐIỀU KHIỂN ROBOT DI ĐỘNG

Chuyên ngành: TỰ ĐỘNG HÓA

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 12 năm 2010

Trang 2

Cán bộ hướng dẫn khoa học: TS HUỲNH THÁI HOÀNG

Cán bộ chấm nhận xét 1:

Cán bộ chấm nhận xét 2:

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày …… tháng …… năm ……

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1

2

3

4

5

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Bộ môn quản lý chuyên ngành sau khi luận văn được sửa chữa (nếu có)

Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành

Trang 3

Tp HCM, ngày 15 tháng 01 năm 2010

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: NGUYỄN HỮU CƯỜNG Phái: Nam

Ngày, tháng, năm sinh: 06/11/1980 Nơi sinh: Cần Thơ

I – TÊN ĐỀ TÀI:

THIẾT KẾ HỆ THỐNG NHẬN DẠNG HƯỚNG NHÌN

ĐIỀU KHIỂN ROBOT DI ĐỘNG

II – NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu thiết kế và xây dựng hệ thống xác định hướng nhìn của mắt

người dùng

- Thiết kế và chế tạo mô hình xe lăn điện

- Ứng dụng hệ thống xác định hướng nhìn của mắt vào điều khiển hướng di

chuyển cho xe lăn điện

III – NGÀY GIAO NHIỆM VỤ: 15/01/2010

IV – NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2010

V – CÁN BỘ HƯỚNG DẪN: TS HUỲNH THÁI HOÀNG

Trang 4

rong suốt thời gian theo học và hoàn thành chương trình Cao học và đề tài luận văn thạc sĩ này, tôi đã nhận được rất nhiều sự giảng dạy, hướng dẫn, giúp đỡ và đóng góp rất nhiều tình của quý Thầy Cô, các thành viên trong gia đình, các đồng nghiệp và các bạn học

T

Để có được kết quả như hôm nay, trước hết tôi xin gởi lời biết ơn sâu sắc

đến Tiến sĩ Huỳnh Thái Hoàng đã dành nhiều thời gian và tâm huyết hướng dẫn

và giúp đỡ tôi hoàn thành luận văn Thạc sĩ Đặc biệt, tôi xin chân thành cảm ơn sự quan tâm và cảm thông của Thầy đến hoàn cảnh gia đình tôi trong quá trình học tập cũng như thực hiện luận văn Thạc sĩ

Đồng thời, tôi xin chân thành cảm ơn quý Thầy Cô Bộ môn Điều khiển Tự động – Khoa Điện-Điện Tử - Trường Đại học Bách Khoa TP.HCM đã giảng dạy và tạo nhiều điều kiện để tôi học tập và hoàn thành luận văn Thạc sĩ

Nhân đây, tôi xin chân thành cảm ơn Ba, Mẹ, Vợ và Chị tôi đã quan tâm, động viên và giúp đỡ tôi trong suốt thời gian học tập xa nhà Tôi cũng xin gởi lời cảm ơn đến quý Thầy Cô và các đồng nghiệp của Bộ môn Tự động hóa – Khoa Công nghệ - Trường Đại học Cần Thơ đã tạo điều kiện cho tôi được tham gia và hoàn thành khóa học

Cuối cùng, tôi xin gởi lời cảm ơn đến các anh chị học viên ngành Tự động khóa – Khóa 2008 đã chia sẽ những khó khăn và trao đổi kinh nghiệm cùng tôi trong quá trình học tập và nghiên cứu trong suốt khóa học

TP Hồ Chí Minh, ngày 10 tháng 12 năm 2010

Học viên ngành Tự động hóa – Khóa 2008

Nguyễn Hữu Cường

Trang 5

In this thesis, we propose an efficient approach for real-time eye-gaze detection from images acquired from a web camera The measured data is sufficient

to describe the eye movement, because the web camera is stationary with respect to the head First, the image is binarized with a dynamic threshold Then geometry features of the eye image are extracted from binary image Next using estimation method based on geometry structure of eye, we detect the positions of two eye corners After that, the center of iris is detected by matching between an iris boundary model and image contours Finally, using the relative position information between the center of iris and the eye corners, base on the relationship between image coordinate and monitor coordinate, the position where the eye is looking at the monitor is calculated This system requires only a low cost web camera and a personal computer Experimental results show that the proposed system can detect accurately eye movements in real-time This system had been applied to control the electric wheelchair by using the eye-gaze of user

Trang 6

Đề tài “Thiết kế hệ thống nhận dạng hướng nhìn điều khiển robot di động” là luận văn Thạc sĩ chuyên ngành Tự động hóa của chương trình đào tạo theo

phương thức nghiên cứu

Trong đề tài, chúng tôi trình bày những nghiên cứu của mình liên quan đến

kỹ thuật xác định hướng nhìn của mắt dựa trên công nghệ thị giác máy tính Qua quá trình nghiên cứu tổng quan và đánh giá kết quả trên những phương pháp khác nhau, chúng tôi chọn phương pháp trích đặc trưng ảnh và khớp mô hình để thiết kế

và xây dựng hệ thống xác định hướng nhìn của mắt Dựa vào kết quả thí nghiệm cho thấy rằng hệ thống này đạt được độ chính xác khá cao trong thời gian thực và hoạt động tương đối ổn định trong những điều kiện chiếu sáng khác nhau

Từ hệ thống xác định hướng nhìn đã xây dựng được trên máy tính, chúng tôi ứng dụng vào điều khiển hướng di chuyển cho xe lăn điện bằng hướng nhìn của mắt nhằm hướng đến mục tiêu hỗ trợ cho những người tàn tật trong di chuyển và sinh hoạt hàng ngày

Nội dung chuyên đề bao gồm 6 chương:

- Chương 1: Giới thiệu

- Chương 2: Cơ sở lý thuyết

- Chương 3: Giải thuật xác định hướng nhìn

- Chương 4: Chương trình xác định hướng nhìn

- Chương 5: Xe lăn điện điều khiển bằng hướng nhìn

- Chương 6: Kết luận và hướng phát triển

Mặc dù chúng tôi đã cố gắng hoàn thành luận văn bằng tất cả tâm huyết và năng lực của mình, tuy nhiên vẫn không thể tránh khỏi những thiếu sót, rất mong nhận được những đóng góp quý báu của quý Thầy Cô và các bạn

Trang 7

CHƯƠNG I

GIỚI THIỆU

1.1 Đặt vấn đề 12

1.2 Nghiên cứu tổng quan 13

1.2.1 Phân loại kỹ thuật theo đặc điểm giao tiếp người-máy 13

1.2.2 Phân loại kỹ thuật theo phương tiện, thiết bị 14

1.2.3 Phân tích mắt người và ảnh mắt người 15

1.2.4 Kỹ thuật ảnh phổ hồng ngoại và ảnh phổ nhìn thấy được 16

1.2.5 Hệ thống thu ảnh 18

1.2.6 Các giải thuật xác định hướng nhìn 19

1.3 Những công trình nghiên cứu liên quan 21

1.4 Mục tiêu đề tài 26

1.5 Tóm lược nội dung nghiên cứu 27

CHƯƠNG II CƠ SỞ LÝ THUYẾT 2.1 Thiết bị thu ảnh số 29

2.1.1 Camera CCD 29

2.1.2 Camera video 30

2.1.3 WebCAM 30

2.2 Ảnh số 31

2.2.1 Khái niệm ảnh số 31

2.2.2 Biểu diễn ảnh số 32

2.3 Không gian màu 35

2.3.1 Không gian màu RGB 35

Trang 8

b r

2.3.5 Không gian màu HSV 38

2.4 Nâng cao chất lượng ảnh 40

2.4.1 Histogram – Cân bằng histogram 40

2.4.2 Lọc ảnh nhiễu 41

2.5 Phân ngưỡng ảnh 47

2.5.1 Phân ngưỡng hai mức 48

2.5.2 Nhị phân hóa 49

CHƯƠNG III GIẢI THUẬT XÁC ĐỊNH HƯỚNG NHÌN 3.1 Tổng quan giải thuật xác định hướng nhìn 51

3.2 Thuật toán phát hiện biên 52

3.2.1 Khái niệm 53

3.2.2 Các bộ phát hiện biên 54

3.3 Thuật toán trích điểm đặc trưng 57

3.3.1 Bộ trích đặc trưng Harris 57

3.3.2 Bộ trích đặc trưng Shi-Tomasi 59

3.4 Thiết lập đường bao 60

3.5 Mô hình – Giải thuật khớp mô hình 61

3.5.1 Mô hình đường bao tròng đen 61

3.5.2 Giải thuật khớp mô hình 62

3.6 Ước lượng hướng nhìn 64

3.6.1 Mối liên hệ giữa tọa độ ảnh chụp và tọa độ ảnh mắt 64

3.6.2 Mối liên hệ giữa tọa độ ảnh mắt và tọa độ màn hình 64

3.6.3 Ước lượng hướng nhìn 65

Trang 9

4.1 Chương trình xác định hướng nhìn 66

4.1.1 Thu ảnh và tiền xử lý ảnh 66

4.1.2 Trích đặc trưng hình học ảnh mắt 68

4.1.3 Khớp mô hình với đặc trưng đường bao tròng đen 69

4.1.4 Tính toán hướng nhìn 70

4.2 Thí nghiệm và kết quả 72

4.2.1 Thí nghiệm 1 72

4.2.2 Thí nghiệm 2 72

CHƯƠNG V XE LĂN ĐIỆN ĐIỀU KHIỂN BẰNG HƯỚNG NHÌN 5.1 Mô hình và phương trình động học xe lăn điện 74

5.1.1 Xe lăn điện 74

5.1.2 Phương trình động học 75

5.2 Mạch điện cho xe lăn điện 77

5.2.1 Mạch điều khiển động cơ 78

5.2.2 Mạch vi điều khiển 78

5.3 Chương trình điều khiển xe lăn điện 80

5.3.1 Chương trình điều khiển trên máy tính 80

5.3.2 Giao diện chương trình 80

5.3.3 Chương trình cho vi điều khiển 81

5.4 Kết quả thí nghiệm 81

CHƯƠNG VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết luận 83

6.2 Hướng phát triển 84

Trang 10

TÀI LIỆU THAM KHẢO 92

Trang 11

Hình 1.1 Trang 14

Hình 1.2 15

Hình 1.3 16

Hình 1.4 16

Hình 1.5 17

Hình 1.6 18

Hình 1.7 19

Hình 1.8 24

Hình 1.9 25

Hình 2.1 29

Hình 2.2 30

Hình 2.3 31

Hình 2.4 32

Hình 2.5 33

Hình 2.6 35

Hình 2.7 36

Hình 2.8 37

Hình 2.9 40

Hình 2.10 43

Hình 2.11 47

Hình 2.12 48

Hình 2.13 50

Hình 3.1 52

Hình 3.2 54

Hình 3.3 55

Hình 3.4 57

Hình 3.5 59

Trang 12

Hình 3.9 64

Hình 3.10 65

Hình 4.1 66

Hình 4.2 67

Hình 4.3 67

Hình 4.4 67

Hình 4.5 67

Hình 4.6 68

Hình 4.7 68

Hình 4.8 68

Hình 4.9 68

Hình 4.10 69

Hình 4.11 70

Hình 4.12 71

Hình 4.13 71

Hình 4.14 72

Hình 4.15 73

Hình 4.16 73

Hình 5.1 74

Hình 5.2 75

Hình 5.3 75

Hình 5.4 76

Hình 5.5 77

Hình 5.6 78

Hình 5.7 78

Hình 5.8 79

Trang 13

DANH MỤC BẢNG BIỂU

Bảng 4.1 71

Bảng 4.2 72

Bảng 4.3 73

Bảng 5.1 80

Trang 14

Xác định hướng nhìn của mắt (eye-gaze detection) là một trong những kỹ thuật được dùng trong các ứng dụng HCI Kỹ thuật xác định hướng nhìn của mắt dùng để đo đạc điểm nhìn hay chuyển động tương đối của mắt so với đầu Thiết bị xác định hướng nhìn của mắt là một thiết bị dùng để đo vị trí và chuyển động của mắt Các thiết bị này được sử dụng trong nghiên cứu trên hệ thống ảo, trong tâm lý học, trong ngôn ngữ học và trong thiết kế sản phẩm

Khoa học nghiên cứu về các chuyển động của mắt đã bắt đầu từ thế kỷ 19 Nhưng chỉ trong thời gian gần đây, cùng với công nghệ xử lý ảnh và thị giác máy tính phát triển nhanh chóng và có nhiều ứng dụng thực tiễn nhờ sự ra đời của những thiết bị phần cứng (bao gồm thiết bị tính toán và camera) tốc độ cao, giá thành thấp;

Trang 15

cấu hình phần cứng, chất lượng hình ảnh thu nhận, tiềm năng ứng dụng của các chuyển động mắt trong giao tiếp người máy mới được khám phá Giao tiếp dùng ánh mắt là một phương thức giao tiếp người – máy tự nhiên, thân thiện với con người Nhiều nghiên cứu đã cho thấy rõ khả năng của kỹ thuật xác định hướng nhìn của mắt giúp nâng cao chất lượng giao tiếp người-máy trong cuộc sống hàng ngày, đặc biệt các ứng dụng hỗ trợ người khuyết tật, người già trong giao tiếp và điều khiển các thiết bị phục vụ

Với những tiện ích sẵn có, bài toán xác định hướng nhìn của mắt đang được chú trọng đầu tư nghiên cứu ở hầu hết quốc gia phát triển trên thế giới và đã đạt được một số ứng dụng quan trọng Tuy nhiên, ở Việt Nam thì xác định hướng nhìn vẫn còn là một lĩnh vực khá mới chỉ tập trung ở các mức độ công trình nghiên cứu khoa học ở các viện, trường đại học

1.2 NGHIÊN CỨU TỔNG QUAN

Kỹ thuật xác định hướng nhìn của mắt ngày càng chứng tỏ tiềm năng ứng dụng to lớn trong giao tiếp người-máy Dựa vào đặc điểm, phương tiện, thiết bị, giải thuật tính toán mà ta có thể phân loại kỹ thuật xác định hướng nhìn của mắt ngày nay thành nhiều dạng khác nhau

1.2.1 Phân loại theo đặc điểm giao tiếp người-máy

1.2.1.1 Giao tiếp tích cực

Giao tiếp tích cực cho phép người dùng điều khiển giao tiếp trực tiếp thông qua việc sử dụng mắt [1] Một trong các ứng dụng tiêu biểu như đánh máy chữ bằng mắt cho phép người dùng nhìn các phím trên một bàn phím ảo để đánh máy thay vì bình thường ấn các phím với một bàn phím cổ điển [2] Tương tự, các hệ thống đã được thiết kế cho phép người dùng điều khiển con trỏ chuột bằng mắt của họ theo một cách có thể được, thí dụ, vẽ các bức tranh [3] Những hệ thống này thường dùng các chuyển động mắt để điều khiển vị trí con trỏ và sử dụng cái nháy mắt để tạo các click chuột hay các sự kiện khác [4] Giao tiếp tích cực cho phép những người dùng khuyết tật, không thể di chuyển được tương tác với máy tính cũng có

Trang 16

thể hỗ trợ cho những người dùng khỏe mạnh trong một số tác vụ nhanh chẳng hạn như chọn biểu tượng và zoom các cửa sổ trong các giao diện đồ họa [5], [6] hoặc chọn đối tượng trong thực tế ảo [7]

1.2.1.2 Giao tiếp thụ động

Hệ thống xác định hướng nhìn giao tiếp thụ động quan sát mắt của người dùng và sử dụng thông tin này để hiệu chỉnh một số định hướng hiển thị hay đáp ứng theo hành vi của người dùng Thí dụ, mức độ tập trung của tài xế khi đang lái

xe có thể xác định được bằng cách quan sát mắt và mí mắt Trong trường hợp khi

mà mức độ tập trung quá thấp, một tín hiệu cảnh báo được tạo ra để nhắc nhở tài xế [8] Hơn thế nữa, kích thước của con ngươi mang ý nghĩa quan trọng liên quan đến

sự kích thích cảm xúc, có thể cung cấp tín hiệu về cảm xúc con người [9]

1.2.2 Phân loại theo thiết bị phương tiện

Trang 17

Hình 1.2: Sử dụng kính áp tròng đặc biệt trong xác định hướng nhìn

1.2.2.3 Sử dụng hình ảnh

Kỹ thuật xác định hướng nhìn của mắt này sử dụng hình ảnh được chụp lại bằng camera Kỹ thuật này có ưu điểm so với những kỹ thuật đã nêu là người dùng không cảm thấy khó chịu vì phải mang nhiều thiết bị trên người khi sử dụng

Phần lớn kỹ thuật xác định hướng nhìn của mắt hiện nay là kỹ thuật dựa trên hình ảnh Vì vậy, kỹ thuật này sẽ được nghiên cứu chi tiết trong các phần tiếp theo

1.2.3 Phân tích mắt người và ảnh mắt người

Mắt người là một cơ quan cảm nhận ánh sáng Những bộ phận quan trọng của mắt người có liên quan đến kỹ thuật xác định hướng nhìn của mắt bao gồm:

- Giác mạc (cornea) là một màng trong suốt phía trước cầu mắt

- Tròng đen (iris) là cơ bắp điều khiển kích thước của con ngươi (pupil), giống như lỗ mở ống kính trong một camera cho ánh sáng đi vào

- Con ngươi có màu sắc khác biệt giữa người này với người khác, do đó có thể được dùng trong sinh trắc học

- Màng cứng mắt (sclera) là bề mặt dai ở phía ngoài của cầu mắt và có màu trắng (tròng trắng) trong ảnh mắt

- Limbus là biên giữa tròng trắng và tròng đen

Ba thành phần đáng quan tâm nhất của mắt là con ngươi – lỗ mở để ánh sáng

đi vào mắt, tròng đen – nhóm cơ bắp điều khiển đường kính của con ngươi, và tròng trắng phần mô mỏng bảo vệ màu trắng bao phủ phần còn lại của mắt

Trang 18

Hình 1.3: Các bộ phận trong mắt người

fovea Optic nerve

Optic clise

sclera choroid retina

Vitreous humor Suspensory ligament

Zonular fibers

Posterior chamber

Ciliary muscle

cornea Anterior chamber filled with aqueous humor iris pupil

pupil limbus

iris sclera

Hình 1.4: Ảnh mắt người được chụp bằng camera

1.2.4 Ảnh quang phổ hồng ngoại - Ảnh quang phổ nhìn thấy được

Có hai loại hình ảnh thường dùng trong kỹ thuật xác định hướng nhìn của mắt là ảnh có quang phổ hồng ngoại và quang phổ nhìn thầy được [12]:

- Ảnh quang phổ nhìn thấy được có được bằng cách chụp lại một cách thụ động ánh sáng xung quanh được phản chiếu từ mắt (như Hình 1.4) Trong các ảnh này, đặc trưng tốt nhất để phân tích là đường biên giữa tròng đen và tròng trắng được gọi là limbus Xác định hướng nhìn của mắt với ảnh quang phổ nhìn thấy được khá phức tạp vì thực tế ánh sáng xung quanh không thể kiểm soát được, có thể bao gồm nhiều thành phần phản chiếu và khuếch tán khác nhau

- Kỹ thuật sử dụng ảnh quang phổ hồng ngoại khử được những tia phản xạ không kiểm soát được bằng cách chiếu trực tiếp vào mắt một ánh sáng hồng

Trang 19

ngoại đồng nhất và kiểm soát được mà người dùng không cảm nhận được Một ưu điểm khác của ảnh quang phổ hồng ngoại là khi đó con ngươi, đúng hơn là limbus, có đặc tính biên mạnh nhất trong ảnh Cả tròng trắng và tròng đen đều phản chiếu mạnh với ánh sáng hồng ngoại trong khi đó đối với ánh sáng nhìn thấy được chỉ có tròng trắng phản chiếu mạnh Việc xác định biên con ngươi phù hợp hơn vì biên con ngươi nhỏ và dễ nhận ra hơn limbus Hơn nữa, với kích thước của nó, con ngươi ít bị che khuất bởi các mi mắt Nhược điểm chính của kỹ thuật sử dụng ảnh quang phổ hồng ngoại là không thể sử dụng ngoài trời suốt cả ngày vì sự chiếu sáng của hồng ngoại xung quanh

Hình 1.5: Ảnh mắt quang phổ hồng ngoại

Xác định hướng nhìn của mắt bằng ảnh quang phổ hồng ngoại thường được

áp dụng cho kỹ thuật bright-pupil, dark-pupil hoặc cả hai

- Kỹ thuật bright-pupil thực hiện bằng cách chiếu sáng mắt bởi một nguồn sáng nằm trên hoặc rất gần trục của camera Hiệu quả của việc chiếu sáng là con ngươi được phân biệt rõ hơn bởi một vùng sáng do phản xạ ánh sáng tự nhiên của màu đen của mắt

- Kỹ thuật dark-pupil thực hiện bằng cách chiếu sáng mắt bởi một nguồn sáng lệch với trục của camera sao cho con ngươi là vùng đen nhất trong ảnh, trong khi tròng trắng, tròng đen và các mí mắt đều phản xạ với sự chiếu sáng Trong mỗi kỹ thuật, sự phản xạ với nguồn chiếu sáng của giác mạc (phần ánh sáng phía ngoài cùng của mắt) cũng đều thấy được Vector giữa tâm con ngươi

và tâm phản xạ giác mạc thường được dùng như số đo chỉ phụ thuộc vào tâm con ngươi Đó là bởi vì hiệu vector ít bị sai lệch nhờ vào sự cố định của thiết bị đội đầu – cả camera và nguồn sáng chuyển động đồng thời

Trang 20

Việc phối hợp cả hai kỹ thuật brigth và dark-pupil có thể tìm thấy trong [13,

14, 15] Các hệ thống này sử dụng các LED nằm bên trên và lệch với trục camera Ảnh kết hợp bright-pupil và dark-pupil thu được bằng cách tắt mở xen kẻ giữa các LED nằm bên trên và lệch với trục của camera Ảnh sai phân thu được bằng cách trừ các ảnh đó với ngưỡng, kết quả thu được là ảnh của con ngươi

1.2.5 Hệ thống thu ảnh

Các hệ thống thu ảnh trong kỹ thuật xác định hướng nhìn của mắt bằng hình ảnh có thể được phân thành hệ thống từ xa và hệ thống đội đầu Mỗi dạng hệ thống

có những ưu điểm riêng của nó

Cả hai kỹ thuật sử dụng ảnh quang phổ nhìn thấy được và ảnh quang phổ hồng ngoại đều được áp dụng trong trường hợp xác định hướng nhìn của mắt dựa vào hệ thống thu hình ảnh từ xa

Hình 1.6: Một hệ thống xác định hướng nhìn của mắt thu hình ảnh từ xa

Một nguyên nhân hấp dẫn duy nhất để sử dụng hệ thống thu ảnh từ xa là có thể sử dụng nó hoàn toàn kín đáo và tạo cảm giác tự nhiên, thoải mái cho người dùng Tuy nhiên, một hạn chế của hệ thống thu ảnh từ xa là nó chỉ có thể theo dõi những chuyển động mắt khi người dùng ở trong một vùng hoạt động bị giới hạn Bên cạnh đó, độ chính xác của hệ thống nhận dạng hướng nhìn từ xa thường thấp hơn các hệ thống nhận dạng hướng nhìn đội đầu

Các camera lập thể có thể được dùng để cho phép hệ thống xác định hướng nhìn của mắt đạt được độ chính xác tốt hơn [16, 17] Thiết kế của hệ thống xác định hướng nhìn của mắt thu ảnh từ xa phải tính toán theo ba hướng giá thành thương

Trang 21

động mắt khắp một vùng rộng có thể được cải thiện bằng cách sử dụng một camera pan-tilt, nhưng loại camera này khá đắt Hơn nữa, chất lượng hình ảnh có thể được cải thiện bằng cách chụp một ảnh độ phân giải cao của mắt bằng một camera phóng đại [18], dùng trong thương mại và giá thành cao

Mặc dù vậy, cũng có một số kỹ thuật xác định hướng nhìn thu ảnh từ xa có nhiều triển vọng (chẳng hạn, [19, 20]), xuất hiện gần đây có khả năng đạt được tiềm năng lớn gần như hệ thống đội đầu

Sáng kiến của Jeff Pelz và các đồng nghiệp [21, 22] tại học viện kỹ thuật Rochester trên công trình xây dựng các hệ thống xác định hướng nhìn của mắt đội đầu nhỏ giá thành thấp là một trường hợp đặc biệt đáng chú ý Hệ thống đội đầu không đòi hỏi thiết bị thu hình phải có độ phân giải cao

Tuy vậy, bất lợi chính của hệ thống xác định hướng nhìn đội đầu là gây ra sự khó chịu cho người dùng, bởi vì phải gắn các thiết bị lên đầu hay mặt của người dùng khi sử dụng

Hình 1.7: Một hệ thống xác định hướng nhìn của mắt đội đầu

1.2.6 Các giải thuật xác định hướng nhìn của mắt

Các giải thuật xác định hướng nhìn của mắt thường được phân thành hai dạng: giải thuật xác định dựa vào điểm đặc trưng và giải thuật xác định dựa vào mô hình

1.2.6.1 Giải thuật xác định hướng nhìn dựa vào điểm đặc trưng

Giải thuật xác định hướng nhìn của mắt dựa vào điểm đặc trưng bao gồm phát hiện và khoanh vùng các đặc trưng ảnh tương ứng với vị trí của mắt Một trong

Trang 22

những giải thuật dựa vào điểm đặc trưng phổ biến đó là xác định một chuẩn (hay, một ngưỡng) cần thiết để quyết định khi nào có một đặc trưng xuất hiện hoặc không Việc xác định một ngưỡng thích hợp thường được xem như một tham số tự

do được điều chỉnh bởi người dùng

Các đặc trưng được xác định biến đổi rộng giữa các giải thuật nhưng hầu hết dựa vào các mức sáng hay các gradient cường độ sáng

Thí dụ, kỹ thuật ảnh quang phổ hồng ngoại hai ngưỡng, sử dụng một ngưỡng sáng thích hợp để tách ra vùng tương ứng với con ngươi Tâm con ngươi được xem như tâm hình học của vùng được nhận dạng Gradient cường độ sáng cũng được dùng để phát hiện biên con ngươi trong các ảnh quang phổ hồng ngoại [23, 24] hoặc limbus trong các ảnh quang phổ nhìn thấy được [25, 26] Sau đó, sử dụng các đường bậc hai [25, 26, 27] hay đường tròn [28] để khớp một elip hay một hình tròn với các điểm đặc trưng này

Tuy nhiên, vì việc xác định điểm đặc trưng có thể bị ảnh hưởng bởi lông mi

và mí mắt, nên cần một vài phép xử lý để khử những điểm đặc trưng sai (nằm ngoài) Các điểm đặc trưng con ngươi được phát hiện dọc theo các vector xuyên tâm [24] Các điểm đặc trưng được phân định trong một hình tứ giác được định dạng bởi các góc mắt, điểm cao nhất của mí mắt trên và điểm thấp nhất của mí mắt dưới [25]

Phương pháp khớp ellip đôi khi cũng được áp dụng [23] Trước tiên, những điểm đặc trưng đã xác định thô được dùng để khớp ellip Và sau đó các điểm đặc trưng được xác định lại bằng cách dùng tâm của ellip thứ nhất như điểm khởi đầu Cuối cùng, một ellip được khớp với các điểm đặc trưng gần với ellip thứ nhất Một hàm cong được áp dụng để khử các tạo tác của bờ con ngươi trong [27] Tuy nhiên, những phương pháp này chưa đủ mạnh đối với một số lượng tương đối lớn các điểm nằm ngoài và không thể loại bỏ hết tất cả các điểm nằm ngoài

1.2.6.2 Giải thuật xác định hướng nhìn dựa vào mô hình

Giải thuật dựa vào mô hình thường được sử dụng khi không xác định rõ ràng các điểm đặc trưng, thay vào đó là đi tìm mô hình phù hợp nhất với ảnh

Trang 23

Thí dụ, các phép tính vi phân đầy đủ có thể được áp dụng để tìm đường tròn [29] hoặc ellip [30] phù hợp nhất cho limbus và biên con ngươi Phương pháp này đòi hỏi một phép tìm lặp không gian tham số mô hình để cực đại hóa toàn bộ đạo hàm dọc theo biên của đường tròn hoặc ellip

Giải thuật xác định hướng nhìn dựa vào mô hình có thể cung cấp một phép ước lượng tâm con ngươi chính xác hơn giải thuật dựa vào điểm đặc trưng với một chuẩn đặc trưng chưa được đưa vào dữ liệu ảnh Tuy nhiên, giải thuật này đòi hỏi cần tìm một không gian tham số phức tạp có thể chứa nhiều cực tiểu cục bộ Do đó các kỹ thuật gradient không thể sử dụng được nếu không có sự phỏng đoán ban đầu cho các tham số mô hình

Như vậy, độ chính xác có được của giải thuật dựa vào mô hình phải trả giá bằng tốc độ tính toán và độ linh hoạt Tuy nhiên, đáng chú ý là các giải thuật sử dụng xử lý ảnh multi-scale [31] kết hợp với giải thuật dựa vào mô hình cũng chứa đựng nhiều hứa hẹn cho hiệu quả thời gian thực [12]

1.3 NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Để có thể thấy được tầm quan trọng cũng như mức độ nghiên cứu của kỹ thuật xác định hướng nhìn hiện nay, ta còn có thể liệt kê một số công trình nghiên cứu và những ứng dụng thực tiễn có liên quan như sau:

- Rainer Stiefelhagen và các đồng sự [32] giới thiệu một hệ thống xác định hướng nhìn không gây phiền toái (non-intrusive) có thể xác định và bám đuổi mắt của một người dùng trong thời gian thực ngay khi gương mặt xuất hiện trong thị trường của camera mà không cần sử dụng nguồn sáng đặc biệt hay bất kỳ dấu hiệu nào trên gương mặt người dùng Hệ thống sử dụng mạng neural để ước lượng hướng nhìn của mắt một người dùng bằng cách sử dụng ảnh của cả hai mắt người dùng như ngõ vào của mạng neural Nhóm thực hiện đã thu thập 4 tập dữ liệu từ 4 người dùng khác nhau dùng hệ thống nhận dạng hướng nhìn và đã huấn luyện và kiểm tra trên vài mạng neural Hệ

Trang 24

thống nhận dạng hướng nhìn của mắt đã đạt được độ chính xác từ 1.3 đến 1.8

độ với chế độ một người dùng và 1.9 độ với chế độ nhiều người dùng

- Trong [33] tác giả đề xuất một phương pháp hiệu quả cho nhận dạng hướng nhìn thời gian thực từ thông tin chuỗi ảnh và cảm biến từ Các ngõ vào hệ thống nhận dạng hướng nhìn là những ảnh được lấy từ một camera và dữ liệu

từ một cảm biến từ Dữ liệu đo đạc đủ để mô tả chuyển động của mắt và đầu, bởi vì camera và bộ thu của cảm biến từ được đặt cố định so với đầu Các kết quả thí nghiệm cho thấy hiệu quả của hệ thống trong ứng dụng thời gian thực

và cũng cho thấy tính khả thi của hệ thống khi sử dụng thay thế một con chuột giao tiếp máy tính

- Xây dựng một hệ thống xác định hướng nhìn thích nghi, rẽ tiền là một thách thức trong lĩnh vực thị giác máy tính [34] giới thiệu một phương pháp xác định hướng nhìn mới dựa trên công thức xác suất thống kê nâng cao Sử dụng một camera đội đầu, để loại bỏ ảnh huởng của chuyển động đầu, ta có thể phát hiện và bám đuổi thích nghi con ngươi mắt Các kết quả thí nghiệm trên các chuỗi video đối với mắt bình thường và chớp mắt được trình bày với

độ chính xác cao

- Để thực hiện các giao tiếp người-máy trở nên thân thiện hơn với người dùng, Rowel Atienza và Alexander Zelinsky [35] đã xây dựng một hệ thống xác định hướng nhìn linh hoạt có thể đo hướng nhìn của một người trong thời gian thực Cái nhìn thường nói lên đối tượng chung quanh một người đang được quan tâm Do đó, nó có thể được dùng như một vật trung gian cho tương tác người-máy như hướng dẫn một cánh tay robot nhặt một đối tượng nào đó mà người dùng đang nhìn Các tác giả nghiên cứu làm thế nào để xây dựng và kết hợp các thuật toán với nhau để xác định độ phóng đại của camera, điều khiển mức thấp cho việc bám đuổi đầu, mặt và hướng nhìn để tạo ra một hệ thống xác định hướng nhìn linh hoạt

- Để có được sự phổ biến của các hệ thống nhận dạng hướng nhìn số đòi hỏi phải có một sự giảm giá đáng kể so với các mức giá như hiện nay Trong

Trang 25

[36], tác giả khảo sát tính khả thi của việc chế tạo một thiết bị giá rẻ để bám đuổi vị trí mắt của một người dùng máy tính Thiết bị hoạt động trong thời gian thực sử dụng giao thức phần mềm Jitter với tốc độ 9 ảnh trên giây trên một laptop Apple PowerBook Đáp ứng của hệ thống đủ để hiển thị một con trỏ có độ phân giải thấp trên màn ảnh máy tính tương ứng với vị trí mắt của người dùng, và độ chính xác với sai số 1 độ Các bộ phận phần cứng của hệ thống có thể được lắp ráp từ những thiết bị điện tử tiêu dùng có sẵn và các bộ phận giảm giá dưới 30$ với một máy tính cá nhân

- Hệ thống giao tiếp người-máy (HCI) được thiết kế dùng cho những người tàn tật Những người bị liệt hay mắc bệnh hiểm nghèo chẳng hạn ALS (bệnh Lou Gehrig) hay xơ cứng toàn thân không thể di chuyển hay điều khiển bất kỳ bộ phận nào của cơ thể họ ngoại trừ cặp mắt Hệ thống [37] phát hiện sự chớp mắt của người dùng và phân tích mẫu và khoảng thời gian chớp mắt, sử dụng chúng để cung cấp cho ngõ vào máy tính dưới dạng một cái click chuột Hệ thống tự khởi động sau khi xuất hiện cái chớp mắt vô thức của người dùng một đến hai lần, mắt được bám đuổi trong thời gian thực sử dụng tương ứng với một mô hình trực tuyến Nếu độ sâu của người dùng thay đổi đáng kể hay xuất hiện chuyển động đầu nhanh, hệ thống tự khởi động lại Không đòi hỏi nguồn sáng cũng như các mô hình offline phù hợp đối với chức năng của hệ thống Hệ thống làm việc với camera USB không đắt tiền và chạy với tốc độ

30 fps Các thí nghiệm lớn cho phép xác định độ chính xác của hệ thống trong việc xác định các chớp mắt cố ý và vô ý, cũng như độ thích nghi của hệ thống trong các điều kiện môi trường không ổn định, chẳng hạn thay thế camera khác và các điều kiện ánh sáng khác nhau Những thí nghiệm này thực hiện trên tám đối tượng đạt được độ phát hiện chính xác 95.3%

- Trong [38], giới thiệu về GazeSpace, một hệ thống mới sử dụng ánh mắt để đọc nội dung trong không gian Trong khi phần lớn các hệ thống xác định ánh mắt được thiết kế dùng trong y khoa, GazeSpace được nhằm vào những người khỏe mạnh Với mục tiêu này nhóm nghiên cứu có những tham vọng

Trang 26

cao hơn về chất lượng tương tác và tiện ích, GazeSpace tích hợp với một giao tiếp người dùng theo bối cảnh, và hồi tiếp liên tục đến người dùng Để đối phó với những tác vụ thông tin thế giới thực, GazeSpace kết hợp chặt chẽ các thuật toán mới nhất sử dụng một ngưỡng động thay cho các mức tĩnh Các tác giả đã thực hiện một khảo sát để đánh giá sự hài lòng của người dùng

và các kết quả cho thấy rằng GazeSpace dễ sử dụng và gây được “hứng thú” đối với người dùng

Hình 1.8: Giao diện GazeSpace

Một số ứng dụng kỹ thuật xác định hướng nhìn của mắt trong các thiết bị hỗ trợ người khuyết tật, đặc biệt là trong các hoạt động di chuyển, chẳng hạn như các

xe lăn điện cũng đang được nghiên cứu và phát triển:

- Nghiên cứu [39] điều khiển xe lăn dùng điện mắt (EOG) Hệ thống gồm xe lăn điện tiêu chuẩn, máy tính, cảm biến điện mắt, cảm biến phát hiện chướng ngại vật và màn hình giao tiếp người dùng Hệ thống có chức năng hoạch định quỹ đạo dựa trên tín hiệu điện mắt và điều khiển xe lăn di chuyển theo quỹ đạo

- Matsumoto và các đồng nghiệp [40] nghiên cứu điều khiển xe lăn dùng ánh mắt Hệ thống gồm 2 camera, cảm biến laser đo khoảng cách và máy tính PC Pentium II 450MHz lắp đặt trên xe lăn điện thương mại của công ty Misawa

Trang 27

Xe lăn được điều khiển bằng ánh mắt, có thể phát hiện và tránh chướng ngại vật

- Bằng phát minh US 6842670 B2 của Mỹ [41] Hệ thống gồm thiết bị thu nhận hình ảnh mắt là đeo kính mắt có gắn camera kèm theo đèn chiếu công suất nhỏ 5W, bộ điều khiển là máy tính PC và thiết bị chấp hành là xe lăn điện Hệ thống có thể thu nhận một cách hiệu quả hình ảnh mắt người và sau

đó xác định chính xác vị trí con ngươi Dựa vào vị trí con ngươi, bộ điều khiển ra lệnh điều khiển xe lăn điện

- Viện nghiên cứu AIST (Nhật) [42] phát triển xe lăn điện thông minh có gắn camera đa hướng, hệ thống xử lý ảnh và điều khiển sử dụng máy tính PC Bên cạnh chức năng phát huy tính năng ưu việt của camera đa hướng trong việc phát hiện chướng ngại vật, va chạm và các tình huống rủi ro như đi xuống cầu thang, hệ thống còn có chức năng thông minh khác như: nhận dạng cử chỉ bàn tay và tự động điều khiển xe lăn đi tới đến khi tay chạm nút nhấn thang máy, dừng khẩn cấp và gọi điện thoại cho người nhà nếu phát hiện dáng điệu bất thường của người sử dụng xe lăn

Hình 1.9: Xe lăn điện thông minh của viện nghiên cứu AIST (Nhật)

Trang 28

1.4 MỤC TIÊU ĐỀ TÀI

Từ nghiên cứu tổng quan về vấn đề nghiên cứu và ứng dụng kỹ thuật xác định hướng nhìn của mắt ở trên, cho thấy rằng, đây là lĩnh vực có nhiều ứng dụng thực tiễn và còn nhiều tiềm năng nghiên cứu trong tương lai

Đề tài nghiên cứu: “Thiết kế và xây dựng hệ thống xác định hướng nhìn của mắt cho điều khiển xe lăn điện” được thực hiện dựa trên những tiện ích hiện

nay của công nghệ máy tính cá nhân và thiết bị thu nhận hình ảnh phổ biến là webCAM Ta lựa chọn kỹ thuật xác định hướng nhìn của mắt thông qua thiết bị thu nhận hình ảnh từ xa dựa trên ảnh quang phổ nhìn thấy được bằng cách sử dụng loại webCAM thông dụng trên thị trường nhằm mục đích thiết kế được một hệ thống xác định hướng nhìn gọn nhẹ với giá thành thấp

Hệ thống xác định hướng nhìn của mắt đòi hỏi phải có độ chính xác và độ tin cậy cao, có khả năng hoạt động thời gian thực và bền vững với những điều kiện chiếu sáng khác nhau

Mục tiêu quan trọng nhất và khó khăn nhất của đề tài là xây dựng được hệ thống xác định hướng nhìn từ ảnh thu được từ webCAM thông thường Đa số những webCAM thông dụng có độ phân giải tương đối thấp Vì vậy, bài toán khó được đặt ra là thiết lập được giải thuật xác định hướng nhìn chính xác từ ảnh thu từ webCAM có độ phân giải thấp Để xác định được hướng nhìn, đề tài phải giải quyết các vấn đề về phân ngưỡng ảnh và xác định biên dưới những điều kiện chiếu sáng thay đổi khác nhau Và đặc biệt là xây dựng được mô hình tròng đen và giải thuật matching phù hợp để ước lượng được vị trí tâm tròng đen trong ảnh Bên cạnh đó,

hệ thống phải cho phép người dùng chuyển động đầu tự do với gương mặt nhìn thẳng Ngoài ra, tốc độ tính toán của máy tính cũng là một khó khăn lớn cần giải quyết để đảm bảo hệ thống đáp ứng trong thời gian thực

Để đánh giá được khả năng ứng dụng của hệ thống xác định hướng nhìn của mắt đã xây dựng, hệ thống được nghiên cứu áp dụng thực nghiệm để điều khiển hướng di chuyển của xe lăn điện Xe lăn này có khả năng di chuyển và chuyển

Trang 29

hướng trơn mịn theo quỹ đạo được xác định bằng hướng nhìn của mắt người điều khiển

1.5 TÓM LƯỢC NỘI DUNG NGHIÊN CỨU

Đề tài đã được nghiên cứu theo các bước: nghiên cứu lý thuyết, xây dựng giải thuật, lập trình hệ thống, đánh giá hệ thống và áp dụng thực nghiệm để kiểm chứng

Đây là một đề tài thuộc lĩnh vực thị giác máy tính, do đó lý thuyết cơ sở cần nghiên cứu là các phép toán và các giải thuật về xử lý ảnh số, xác định và trích đặc trưng ảnh Nội dung lý thuyết phục vụ chủ yếu cho đề tài là các phương pháp và giải thuật xác định hướng nhìn Tuy nhiên, do yêu cầu hệ thống phải hoạt động tốt trong những điều kiện và có những yếu tố bất định nên đòi hỏi đề tài cần nghiên cứu thêm một số lý thuyết về xử lý ảnh có chất lượng không ổn định

Giải thuật xác định hướng nhìn của mắt từ ảnh mắt người dùng qua webCAM, đòi hỏi phải phân tích các đặc trưng và trích được những điểm đặc trưng hình học của mắt Bên cạnh đó, xây dựng mô hình tròng đen phù hợp và matching

mô hình với đặc trưng hình học của tròng đen Từ đó, ước lượng hướng nhìn của mắt dựa vào vị trí tương đối của tâm tròng đen so với các góc mắt

Để lập trình xây dựng hệ thống, ta chọn ngôn ngữ lập trình C++ Ta nghiên cứu lập trình ứng dụng trên máy tính cá nhân bằng Visual C++ để xây dựng chương trình ứng dụng thu ảnh người dùng qua webCAM, chạy các giải thuật xác định hướng nhìn của mắt, giao tiếp và điều khiển thiết bị ngoại vi

Ta nghiên cứu các phương pháp lưu trữ và thống kê dữ liệu hình ảnh thu từ webCAM và hình ảnh đã xác định được hướng nhìn để từ đó đánh giá độ chính xác của hệ thống Độ chính xác của hệ thống được đánh giá dựa trên tỉ lệ giữa số lượng ảnh mắt xác định đúng hướng nhìn và số lượng ảnh webCAM thu vào

Để kiểm chứng hoạt động của hệ thống dựa vào thực nghiệm, ta thiết kế mô hình xe lăn điện Từ đó, nghiên cứu áp dụng hệ thống xác định hướng nhìn của mắt

Trang 30

để điều khiển hướng di chuyển của xe lăn thông qua hướng nhìn của mắt người điều khiển

Trang 31

Hình 2.1: Một camera CCD chụp ảnh một cái bình

Trang 32

Nếu một ảnh số có các giá trị mức xám kích thước byte 500 dòng và 500 cột, thì phải cần đến một mảng bộ nhớ ¼ triệu byte Đôi khi một camera CCD được gắn vào một board máy tính, bao gồm bộ nhớ cho ảnh và có thể điều khiển camera Những thiết kế mới hiện nay cho phép truyền thông số trực tiếp (chẳng hạn, sử dụng chuẩn IEEE 1394) Ngày nay, các nhà sản xuất camera chuyên nghiệp đưa ra những camera số có thể lưu trữ nhiều ảnh trên bộ nhớ bên trong camera; một số có một ổ đĩa dùng cho mục đích này Những ảnh này có thể được đưa vào máy tính xử lý bất

kỳ lúc nào

2.1.2 Camera video

Các camera video tạo hình ảnh dùng cho người bằng cách ghi lại chuỗi ảnh ở tốc độ 30 ảnh/giây, cho phép biểu diễn chuyển động của đối tượng theo thời gian bằng cách thêm vào các đặc trưng không gian trong các ảnh hay khung đơn lẻ Để cung cấp độ mịn, các chúng sử dụng 60 bán khung/giây: các bán khung này là tất cả các dòng ảnh lẻ và các dòng ảnh chẵn trong chuỗi luân phiên Một tín hiệu âm thanh cũng được mã hóa

Các camera video tạo hình ảnh dùng cho máy có thể ghi lại những ảnh ở một tốc độ thích hợp nào đó và không cần sử dụng kỹ thuật bán khung

Các khung của chuỗi video được tách ra bởi các bộ ghi và một số thủ thuật nén ảnh cũng được sử dụng để giảm lượng dữ liệu

2.1.3 WebCAM

WebCAM (web camera) là thiết bị ghi video được kết nối với máy tính hoặc mạng máy tính, thường sử dụng một cổng USB, wi-fi, hoặc được tích hợp bên trong một số loại laptop WebCAM được biết đến vì chi phí sản xuất thấp và linh hoạt, đó

là một dạng điện thoại hình ảnh có chi phí thấp nhất

Trang 33

Các webCAM thường bao gồm một thấu kính, một cảm biến hình ảnh, và một số mạch điện tử hỗ trợ Có nhiều loại thấu kính khác nhau, thường gặp nhất trong những webCAM loại thông thường là một thấu kính plastic có thể vặn vào và

ra để đặt tiêu cự của camera Cũng có những thấu kính tiêu cự cố định, không điều chỉnh được Các cảm biến hình ảnh có thể là CMOS hay CCD

Phần lớn webCAM thông thường có khả năng cung cấp video độ phân giải VGA với tốc độ 30 khung/giây Nhiều thiết bị mới hơn có thể cung cấp video ở các

độ phân giải nhiều megapixel, và một số có thể chạy ở các tốc độ cao hơn Chẳng hạn, PlayStation Eye có thể tạo video 320x240 ở tốc độ 120 khung/giây

Những mạch điện tử hỗ trợ được dùng để đọc hình ảnh từ cảm biến và truyền

nó đến máy tính Thí dụ, webCAM trong Hình 2.3 sử dụng chip SN9C101 của Sonix để truyền hình ảnh của nó qua USB

Hình 2.3: Mạch điện hỗ trợ trong webCAM

Nhóm thiết bị video USB cho phép kết nối giữa webCAM và máy tính không cần cài đặt driver Microsoft Windows XP SP2, Linux và Mac OS X có sẵn các driver này và không yêu cầu thêm driver, tuy nhiên chúng thường được cài đặt

để có được những tính năng bổ sung

2.2 ẢNH SỐ

2.2.1 Khái niệm ảnh số

Một ảnh bao gồm một mảng các con số hai chiều Sắc thái màu hay mức xám được hiển thị đối với một phần tử ảnh (pixel) cho trước phụ thuộc vào con số được lưu trữ trong mảng dành cho pixel đó Dạng dữ liệu ảnh đơn giản nhất là trắng và đen Đó là một ảnh nhị phân vì mỗi pixel hoặc là 0 hoặc là 1

Trang 34

Tiếp theo, dạng dữ liệu ảnh phức tạp hơn là mức xám, trong đó mỗi pixel lấy

một giá trị giữa 0 và một giá trị mức xám mà máy quét có thể ghi được Những ảnh

này thường xuất hiện giống như các ảnh đen trắng – chúng bao gồm trắng, đen và

sắc xám Hầu hết ảnh mức xám hiện nay có 256 sắc xám Con người có thể phân

biệt khoảng 40 sắc xám, do đó một ảnh 256 sắc xám “trông giống như một bức ảnh”

Dạng ảnh phức tạp nhất là ảnh màu Ảnh màu tương tự như ảnh xám ngoại

trừ rằng chúng có ba dải, hay kênh, tương ứng với các màu đỏ, xanh lá và xanh lam

Do đó, mỗi pixel có ba giá trị tương ứng với chúng Một máy quét màu sử dụng các

bộ lọc đỏ, xanh lá và xanh lam để tạo ra các giá trị này

Ảnh số thường có sẵn trên Internet, hoặc dùng máy quét và các camera số

Bức ảnh nào đó được trình bày trên Internet có thể download được đến máy tính và

thường ở định dạng JPEG (Joint Photographic Experts Group) Một số phần mềm

có thể chuyển đổi sang định dạng TIFF (Tagged Image File Format) hay BMP

(Bitmap Picture)

a) b) c)

Hình 2.4: a) Ảnh màu; b) Ảnh mức xám; c) Ảnh nhị phân

2.2.2 Biểu diễn ảnh

Thông tin chứa trong một ảnh có thể được biểu diễn theo nhiều cách khác

nhau Phổ biến nhất là biểu diễn trong không gian và biểu diễn dưới dạng sóng Các

cách biểu diễn đều hoàn toàn đầy đủ và tương đương, chúng có thể được chuyển đổi

quan lại với nhau Phép biến đổi giữa phép biểu diễn trong không gian và dạng

không gian vector được biết đến là phép biến đổi Fourier

Trang 35

2.2.2.1 Biểu diễn ảnh trong không gian

Ảnh biểu diễn trong không gian là một phân bố bức xạ trên một mặt phẵng

Về mặt toán học, sự phân bố này có thể được mô tả như một hàm liên tục của hai

biến không gian:

)(),(x1 x2 E x

Máy tính không thể biểu diễn các ảnh liên tục mà chỉ có thể xử lý trên các

mảng số Do đó, cần thiết phải biểu diễn ảnh dưới dạng các mảng điểm hai chiều

Một điểm trên lưới 2-D được gọi là pixel Một pixel biểu diễn sự bức xạ tại một vị

trí tương ứng trên lưới Trong trường hợp đơn giản nhất, các pixel được định vị trên

một lưới hình chữ nhất Vị trí của pixel được cho dưới dạng ký hiệu thông thường

của ma trận Chỉ số thứ nhất, m ký hiệu vị trí của dòng, chỉ số thứ hai, n là vị trí của

cột (Hình 2.5a) Nếu ảnh số chứa M x N pixel, tức là, nó được biểu diễn bởi một ma

trận M x N, chỉ số n chạy từ 0 đến N-1, và chỉ số m chạy từ 0 đến M-1 M cho biết

số dòng, N là số cột Tương ứng với ký hiệu ma trận, trục tung (trục x) chạy từ trên

xuống dưới và trục hoành (trục x) chạy từ trái sang phải Mỗi pixel không chỉ biểu

diễn một điểm trong ảnh mà còn là một vùng chữ nhật, một ô cơ bản của lưới

Hình 2.5: Biểu diễn ảnh số bằng các mảng điểm rời rạc trên một lưới chữ nhật:

a) Ảnh 2-D, b) Ảnh 3-D

Trang 36

Trong không gian 3-D (và các không gian số chiều cao hơn) cũng được quan

tâm trong xử lý ảnh Trong các ảnh ba chiều một pixel được gọi là voxel, viết tắt của

volume element Trên một lưới chữ nhật, mỗu voxel biểu diễn giá trị mức xám trung

bình của một hình khối Vị trí của một voxel được cho bởi ba chỉ số Thứ nhất, k

biểu diễn chiều sâu, m là dòng và n là cột (Hình 2.5b)

2.2.2.2 Không gian vector

Trong phần trên, ta đã thảo luận xung quanh phép biểu diễn không gian của

các ảnh số Ta chưa đề cập đến vấn đề xem một ảnh như là từng pixel riêng biệt

Bây giờ ta xét một ảnh với nhiều ảnh cơ sở trong đó mỗi ảnh cơ sở là một pixel có

một giá trị của ảnh cơ sở trong khi tất cả các pixel còn lại bằng không Ta ký hiệu

một ảnh cơ sở tại dòng m, cột n bởi

P m n m n n

m

0

''

1: , ,' ',

Bất kỳ một ảnh vô hướng nào cũng có thể coi như được tạo thành từ các ảnh

1

0

, ,

M m

N n

n m n

m p g

G

trong đó, Gm,n biểu diễn giá trị mức xám tại vị trí (m, n)

Tích số của hai ảnh cơ sở bằng không nếu hai ảnh cơ sở khác nhau Tích vô

hướng của một ảnh cơ sở với chính nó là một Do đó, M x N ảnh cơ sở được chuyển

đổi thành một không gian vector M x N trên tập các số thực

Tương tự đối với các không gian vector hai chiều và ba chiều R2 và R3 đã

được biết đến giúp ta biết được lợi ích của phép biểu diễn ảnh như thế nào Một ảnh

M x N biểu diễn một điểm trong không gian vector M x N Nếu ta đổi hệ tọa độ, thì

ảnh vẫn như cũ nhưng hệ tọa độ của nó thay đổi Có nghĩa là ta có thể quan sát cùng

một mẫu thông tin từ một góc nhìn khác

Tóm lại, ta có thể rút ra hai kết luận quan trọng từ thực tế cơ bản này Thứ

nhất, tất cả các phép biểu diễn đều tương đương với nhau Mỗi cách đều cho một

Trang 37

phép biểu diễn ảnh đầy đủ Thứ hai, các phép biến đổi hệ tọa độ thích hợp giúp ta chuyển đổi từ phép biểu diễn này sang phép biểu diễn khác và ngược lại

2.3 KHÔNG GIAN MÀU

Một số không gian màu hay mô hình màu đã được thừa nhận và mỗi không gian màu có một hệ tọa độ màu đặc trưng và mỗi điểm trong không gian màu chỉ biểu diễn một màu đặc trưng Mỗi mô hình màu có thể được dùng cho những ứng dụng đặc biệt

2.3.1 Không gian màu RGB

Những ảnh màu thông thường, được tạo ra từ một hệ thống ảnh số, được biểu diễn dưới dạng màu đỏ, xanh lá, xanh lam và thường được gọi là các ảnh RGB Chúng thường dùng đối với các màn hình màu, và các camera video Một ảnh màu RGB, được biểu diễn bởi các pixel R, G và B 8-bit có 2563 hay 16.777.216 màu

Hình 2.6: Không gian màu RGB

Một ảnh mức xám được cấu thành từ các pixel có mức xám khác nhau thay đổi từ 0 đến 255 Ta có thể coi toàn bộ ảnh là một mảng hai chiều, mà mỗi phần tử

có giá trị thay đổi từ 0 đến 255

Để chuyển ảnh màu RGB thành ảnh mức xám ta có thể thực hiện theo phép biến đổi sau:

Trang 38

Y 0 , 3 0 , 59 0 , 11]

Ngoài ra, còn có một số không gian màu khác như CMY, HSV, HIS hay

LUV v.v

2.3.2 Không gian màu CMY

Mô hình màu thú vị khác sử dụng CMY (cyan – màu lục lam, megenta –

màu đỏ tươi, yellow – màu vàng và black – màu đen) và mô hình này được sử dụng

trong các máy in màu Hầu hết các thiết bị đầu ra bao gồm máy in hay máy copy

màu sử dụng mô hình màu CMY Cũng như các màu chính là đỏ, xanh lá và xanh

lam, các màu đỏ tươi, lục lam và vàng được pha tương ứng từ các màu đỏ, xanh lá

Y M C

111

trong đó R, G, B biểu diễn các giá trị màu được bình thường hóa trong khoảng từ 0

đến 1

Có thể dễ dàng kiểm tra từ trên rằng một bề mặt phủ màu lục lam không có

màu đỏ, hay một bề mặt được phủ màu đỏ tươi không có màu xanh lá Cũng cần

chú ý rằng nếu lượng các màu chính pha bằng nhau (thí dụ, màu lục lam, đỏ tươi và

vàng) tạo ra màu đen Do đó một hệ thống gồm bốn màu C, M, Y và B tạo thành

một mô hình bốn màu

Trang 39

2.3.3 Không gian màu NTSC hay YIQ

Trong không gian màu này, thông tin độ chói Y biểu diễn thông tin mức

xám, trong khi đó sắc thái (I) và độ bão hòa (Q) mang thông tin về màu Phép biến

đổi từ RGB sang YIQ là

Q I Y

312,0523,0211,0

322,0274,0596,0

114,0587,0299,0

Các phần tử của dòng đầu tiên khi được cộng lại trở thành 1 và các phần tử

trong hàng thứ hai và thứ ba có tổng là 0 Do đó, trong một ảnh mức xám, ở đó R =

G = B, các thành phần màu I và Q bằng không Không gian màu NTSC được dùng

trong truyền hình

2.3.4 Không gian màu YC b C r

Trong không gian màu này, Y là thành phần độ chói trong khi đó Cb và Cr

cung cấp thông tin màu Thông tin màu được chứa đựng trong hai thành phần màu

khác biệt Cb và Cr Không gian màu này được dùng trong video số Phép biến đổi từ

RGB sang YCbCr như sau:

C C Y

r

b

214,18786

,9300

,112

00,112203

,74797

,37

966,24553,128481

,65128

12816

Hình 2.8: Mối quan hệ giữa không gian màu YCbCr và RGB

Trang 40

2.3.5 Không gian màu HSV

Màu (color) là một thuộc tính của nhận thức thị giác và có thể được mô tả bằng nhiều tên màu như đỏ, xanh lá, vàng, trắng, xám, đen, v.v… Cũng như màu, sắc thái (hue) cũng là một thuộc tính của nhận thức con người và có thể được mô tả như đỏ, xanh lá, xanh lam, màu tía và vàng là các sắc thái chính hay trung gian của

sự phối hợp các sắc thái chính Mặc dù đen, trắng và xám được coi là màu, nhưng chúng không có sắc thái Từ đó ta có thể cho rằng có hai nhóm màu: (1) màu có sắc thái (chromatic) tức là, những màu sắc không bao gồm trắng, đen và xám và (2) màu không có sắc thái (achromatic) bao gồm, trắng, đen và xám

Không gian màu HSV hay HSL hay HIS là không gian màu mô tả các màu

mà con người nhận thức được HIS (hay HSV) là viết tắc cho sắc thái (H), độ bão hòa (S) và cường độ (I) (hoặc giá trị V)

Sắc thái được nói đến như một thuộc tính màu của ánh sáng Nó cũng có thể được hiểu là một thuộc tính của sự phản chiếu bề mặt hay sự truyền ánh sáng Thí

dụ, một chiếc xe màu xanh lam phản chiếu sắc thái xanh lam Hơn thế nữa, nó cũng

là một thuộc tính của nhận thức con người Sắc thái về bản chất là thành phần chromatic của nhận thức chúng ta có thể biết được là sắc thái yếu hay sắc thái mạnh

Sự đầy đủ màu sắc của một màu được mô tả bằng thành phần độ bão hòa Thí dụ, màu từ một nguồn sáng đơn sắc, thiết bị tạo ra những màu chỉ một bước sóng, là bão hòa ở mức cao, trong khi đó những màu gồm nhiều bước sóng khác nhau có sắc thái không đáng kể và độ bão hòa thấp Những màu xám không có sắc thái nào và do đó chúng có độ bão hòa bằng không hay không bão hòa Vì vậy, độ bão hòa là một đơn vị đo sự đầy đủ màu sắc hay sắc trắng trong màu

Độ chói sáng (L) hay cường độ (I) hay giá trị (V) về bản chất cung cấp một đơn vị đo độ rực rỡ của màu Nó cho biết lượng ánh sáng được phản chiếu từ một vật thể hay lượng ánh sáng được phát ra từ một vùng Nó tỉ lệ với năng lượng điện

từ được phát ra của vật thể Độ sáng (hay cường độ) giúp mắt con người nhận biết

Ngày đăng: 17/02/2021, 08:16

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w