Xác định hướng nhìn của mắt eye-gaze detection là một trong những kỹ thuật được dùng trong các ứng dụng HCI.. Hình 1.3: Các bộ phận trong mắt người fovea Optic nerve Optic clise sclera
Trang 1-
NGUYỄN HỮU CƯỜNG
THIẾT KẾ HỆ THỐNG NHẬN DẠNG HƯỚNG NHÌN ĐIỀU KHIỂN ROBOT DI ĐỘNG
Chuyên ngành: TỰ ĐỘNG HÓA
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 12 năm 2010
Trang 2Cán bộ hướng dẫn khoa học: TS HUỲNH THÁI HOÀNG
Cán bộ chấm nhận xét 1:
Cán bộ chấm nhận xét 2:
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày …… tháng …… năm ……
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1
2
3
4
5
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Bộ môn quản lý chuyên ngành sau khi luận văn được sửa chữa (nếu có)
Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành
Trang 3Tp HCM, ngày 15 tháng 01 năm 2010
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN HỮU CƯỜNG Phái: Nam
Ngày, tháng, năm sinh: 06/11/1980 Nơi sinh: Cần Thơ
I – TÊN ĐỀ TÀI:
THIẾT KẾ HỆ THỐNG NHẬN DẠNG HƯỚNG NHÌN
ĐIỀU KHIỂN ROBOT DI ĐỘNG
II – NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu thiết kế và xây dựng hệ thống xác định hướng nhìn của mắt
người dùng
- Thiết kế và chế tạo mô hình xe lăn điện
- Ứng dụng hệ thống xác định hướng nhìn của mắt vào điều khiển hướng di
chuyển cho xe lăn điện
III – NGÀY GIAO NHIỆM VỤ: 15/01/2010
IV – NGÀY HOÀN THÀNH NHIỆM VỤ: 30/11/2010
V – CÁN BỘ HƯỚNG DẪN: TS HUỲNH THÁI HOÀNG
Trang 4rong suốt thời gian theo học và hoàn thành chương trình Cao học và đề tài luận văn thạc sĩ này, tôi đã nhận được rất nhiều sự giảng dạy, hướng dẫn, giúp đỡ và đóng góp rất nhiều tình của quý Thầy Cô, các thành viên trong gia đình, các đồng nghiệp và các bạn học
T
Để có được kết quả như hôm nay, trước hết tôi xin gởi lời biết ơn sâu sắc
đến Tiến sĩ Huỳnh Thái Hoàng đã dành nhiều thời gian và tâm huyết hướng dẫn
và giúp đỡ tôi hoàn thành luận văn Thạc sĩ Đặc biệt, tôi xin chân thành cảm ơn sự quan tâm và cảm thông của Thầy đến hoàn cảnh gia đình tôi trong quá trình học tập cũng như thực hiện luận văn Thạc sĩ
Đồng thời, tôi xin chân thành cảm ơn quý Thầy Cô Bộ môn Điều khiển Tự động – Khoa Điện-Điện Tử - Trường Đại học Bách Khoa TP.HCM đã giảng dạy và tạo nhiều điều kiện để tôi học tập và hoàn thành luận văn Thạc sĩ
Nhân đây, tôi xin chân thành cảm ơn Ba, Mẹ, Vợ và Chị tôi đã quan tâm, động viên và giúp đỡ tôi trong suốt thời gian học tập xa nhà Tôi cũng xin gởi lời cảm ơn đến quý Thầy Cô và các đồng nghiệp của Bộ môn Tự động hóa – Khoa Công nghệ - Trường Đại học Cần Thơ đã tạo điều kiện cho tôi được tham gia và hoàn thành khóa học
Cuối cùng, tôi xin gởi lời cảm ơn đến các anh chị học viên ngành Tự động khóa – Khóa 2008 đã chia sẽ những khó khăn và trao đổi kinh nghiệm cùng tôi trong quá trình học tập và nghiên cứu trong suốt khóa học
TP Hồ Chí Minh, ngày 10 tháng 12 năm 2010
Học viên ngành Tự động hóa – Khóa 2008
Nguyễn Hữu Cường
Trang 5In this thesis, we propose an efficient approach for real-time eye-gaze detection from images acquired from a web camera The measured data is sufficient
to describe the eye movement, because the web camera is stationary with respect to the head First, the image is binarized with a dynamic threshold Then geometry features of the eye image are extracted from binary image Next using estimation method based on geometry structure of eye, we detect the positions of two eye corners After that, the center of iris is detected by matching between an iris boundary model and image contours Finally, using the relative position information between the center of iris and the eye corners, base on the relationship between image coordinate and monitor coordinate, the position where the eye is looking at the monitor is calculated This system requires only a low cost web camera and a personal computer Experimental results show that the proposed system can detect accurately eye movements in real-time This system had been applied to control the electric wheelchair by using the eye-gaze of user
Trang 6Đề tài “Thiết kế hệ thống nhận dạng hướng nhìn điều khiển robot di động” là luận văn Thạc sĩ chuyên ngành Tự động hóa của chương trình đào tạo theo
phương thức nghiên cứu
Trong đề tài, chúng tôi trình bày những nghiên cứu của mình liên quan đến
kỹ thuật xác định hướng nhìn của mắt dựa trên công nghệ thị giác máy tính Qua quá trình nghiên cứu tổng quan và đánh giá kết quả trên những phương pháp khác nhau, chúng tôi chọn phương pháp trích đặc trưng ảnh và khớp mô hình để thiết kế
và xây dựng hệ thống xác định hướng nhìn của mắt Dựa vào kết quả thí nghiệm cho thấy rằng hệ thống này đạt được độ chính xác khá cao trong thời gian thực và hoạt động tương đối ổn định trong những điều kiện chiếu sáng khác nhau
Từ hệ thống xác định hướng nhìn đã xây dựng được trên máy tính, chúng tôi ứng dụng vào điều khiển hướng di chuyển cho xe lăn điện bằng hướng nhìn của mắt nhằm hướng đến mục tiêu hỗ trợ cho những người tàn tật trong di chuyển và sinh hoạt hàng ngày
Nội dung chuyên đề bao gồm 6 chương:
- Chương 1: Giới thiệu
- Chương 2: Cơ sở lý thuyết
- Chương 3: Giải thuật xác định hướng nhìn
- Chương 4: Chương trình xác định hướng nhìn
- Chương 5: Xe lăn điện điều khiển bằng hướng nhìn
- Chương 6: Kết luận và hướng phát triển
Mặc dù chúng tôi đã cố gắng hoàn thành luận văn bằng tất cả tâm huyết và năng lực của mình, tuy nhiên vẫn không thể tránh khỏi những thiếu sót, rất mong nhận được những đóng góp quý báu của quý Thầy Cô và các bạn
Trang 7CHƯƠNG I
GIỚI THIỆU
1.1 Đặt vấn đề 12
1.2 Nghiên cứu tổng quan 13
1.2.1 Phân loại kỹ thuật theo đặc điểm giao tiếp người-máy 13
1.2.2 Phân loại kỹ thuật theo phương tiện, thiết bị 14
1.2.3 Phân tích mắt người và ảnh mắt người 15
1.2.4 Kỹ thuật ảnh phổ hồng ngoại và ảnh phổ nhìn thấy được 16
1.2.5 Hệ thống thu ảnh 18
1.2.6 Các giải thuật xác định hướng nhìn 19
1.3 Những công trình nghiên cứu liên quan 21
1.4 Mục tiêu đề tài 26
1.5 Tóm lược nội dung nghiên cứu 27
CHƯƠNG II CƠ SỞ LÝ THUYẾT 2.1 Thiết bị thu ảnh số 29
2.1.1 Camera CCD 29
2.1.2 Camera video 30
2.1.3 WebCAM 30
2.2 Ảnh số 31
2.2.1 Khái niệm ảnh số 31
2.2.2 Biểu diễn ảnh số 32
2.3 Không gian màu 35
2.3.1 Không gian màu RGB 35
Trang 8b r
2.3.5 Không gian màu HSV 38
2.4 Nâng cao chất lượng ảnh 40
2.4.1 Histogram – Cân bằng histogram 40
2.4.2 Lọc ảnh nhiễu 41
2.5 Phân ngưỡng ảnh 47
2.5.1 Phân ngưỡng hai mức 48
2.5.2 Nhị phân hóa 49
CHƯƠNG III GIẢI THUẬT XÁC ĐỊNH HƯỚNG NHÌN 3.1 Tổng quan giải thuật xác định hướng nhìn 51
3.2 Thuật toán phát hiện biên 52
3.2.1 Khái niệm 53
3.2.2 Các bộ phát hiện biên 54
3.3 Thuật toán trích điểm đặc trưng 57
3.3.1 Bộ trích đặc trưng Harris 57
3.3.2 Bộ trích đặc trưng Shi-Tomasi 59
3.4 Thiết lập đường bao 60
3.5 Mô hình – Giải thuật khớp mô hình 61
3.5.1 Mô hình đường bao tròng đen 61
3.5.2 Giải thuật khớp mô hình 62
3.6 Ước lượng hướng nhìn 64
3.6.1 Mối liên hệ giữa tọa độ ảnh chụp và tọa độ ảnh mắt 64
3.6.2 Mối liên hệ giữa tọa độ ảnh mắt và tọa độ màn hình 64
3.6.3 Ước lượng hướng nhìn 65
Trang 94.1 Chương trình xác định hướng nhìn 66
4.1.1 Thu ảnh và tiền xử lý ảnh 66
4.1.2 Trích đặc trưng hình học ảnh mắt 68
4.1.3 Khớp mô hình với đặc trưng đường bao tròng đen 69
4.1.4 Tính toán hướng nhìn 70
4.2 Thí nghiệm và kết quả 72
4.2.1 Thí nghiệm 1 72
4.2.2 Thí nghiệm 2 72
CHƯƠNG V XE LĂN ĐIỆN ĐIỀU KHIỂN BẰNG HƯỚNG NHÌN 5.1 Mô hình và phương trình động học xe lăn điện 74
5.1.1 Xe lăn điện 74
5.1.2 Phương trình động học 75
5.2 Mạch điện cho xe lăn điện 77
5.2.1 Mạch điều khiển động cơ 78
5.2.2 Mạch vi điều khiển 78
5.3 Chương trình điều khiển xe lăn điện 80
5.3.1 Chương trình điều khiển trên máy tính 80
5.3.2 Giao diện chương trình 80
5.3.3 Chương trình cho vi điều khiển 81
5.4 Kết quả thí nghiệm 81
CHƯƠNG VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 6.1 Kết luận 83
6.2 Hướng phát triển 84
Trang 10TÀI LIỆU THAM KHẢO 92
Trang 11Hình 1.1 Trang 14
Hình 1.2 15
Hình 1.3 16
Hình 1.4 16
Hình 1.5 17
Hình 1.6 18
Hình 1.7 19
Hình 1.8 24
Hình 1.9 25
Hình 2.1 29
Hình 2.2 30
Hình 2.3 31
Hình 2.4 32
Hình 2.5 33
Hình 2.6 35
Hình 2.7 36
Hình 2.8 37
Hình 2.9 40
Hình 2.10 43
Hình 2.11 47
Hình 2.12 48
Hình 2.13 50
Hình 3.1 52
Hình 3.2 54
Hình 3.3 55
Hình 3.4 57
Hình 3.5 59
Trang 12Hình 3.9 64
Hình 3.10 65
Hình 4.1 66
Hình 4.2 67
Hình 4.3 67
Hình 4.4 67
Hình 4.5 67
Hình 4.6 68
Hình 4.7 68
Hình 4.8 68
Hình 4.9 68
Hình 4.10 69
Hình 4.11 70
Hình 4.12 71
Hình 4.13 71
Hình 4.14 72
Hình 4.15 73
Hình 4.16 73
Hình 5.1 74
Hình 5.2 75
Hình 5.3 75
Hình 5.4 76
Hình 5.5 77
Hình 5.6 78
Hình 5.7 78
Hình 5.8 79
Trang 13DANH MỤC BẢNG BIỂU
Bảng 4.1 71
Bảng 4.2 72
Bảng 4.3 73
Bảng 5.1 80
Trang 14Xác định hướng nhìn của mắt (eye-gaze detection) là một trong những kỹ thuật được dùng trong các ứng dụng HCI Kỹ thuật xác định hướng nhìn của mắt dùng để đo đạc điểm nhìn hay chuyển động tương đối của mắt so với đầu Thiết bị xác định hướng nhìn của mắt là một thiết bị dùng để đo vị trí và chuyển động của mắt Các thiết bị này được sử dụng trong nghiên cứu trên hệ thống ảo, trong tâm lý học, trong ngôn ngữ học và trong thiết kế sản phẩm
Khoa học nghiên cứu về các chuyển động của mắt đã bắt đầu từ thế kỷ 19 Nhưng chỉ trong thời gian gần đây, cùng với công nghệ xử lý ảnh và thị giác máy tính phát triển nhanh chóng và có nhiều ứng dụng thực tiễn nhờ sự ra đời của những thiết bị phần cứng (bao gồm thiết bị tính toán và camera) tốc độ cao, giá thành thấp;
Trang 15cấu hình phần cứng, chất lượng hình ảnh thu nhận, tiềm năng ứng dụng của các chuyển động mắt trong giao tiếp người máy mới được khám phá Giao tiếp dùng ánh mắt là một phương thức giao tiếp người – máy tự nhiên, thân thiện với con người Nhiều nghiên cứu đã cho thấy rõ khả năng của kỹ thuật xác định hướng nhìn của mắt giúp nâng cao chất lượng giao tiếp người-máy trong cuộc sống hàng ngày, đặc biệt các ứng dụng hỗ trợ người khuyết tật, người già trong giao tiếp và điều khiển các thiết bị phục vụ
Với những tiện ích sẵn có, bài toán xác định hướng nhìn của mắt đang được chú trọng đầu tư nghiên cứu ở hầu hết quốc gia phát triển trên thế giới và đã đạt được một số ứng dụng quan trọng Tuy nhiên, ở Việt Nam thì xác định hướng nhìn vẫn còn là một lĩnh vực khá mới chỉ tập trung ở các mức độ công trình nghiên cứu khoa học ở các viện, trường đại học
1.2 NGHIÊN CỨU TỔNG QUAN
Kỹ thuật xác định hướng nhìn của mắt ngày càng chứng tỏ tiềm năng ứng dụng to lớn trong giao tiếp người-máy Dựa vào đặc điểm, phương tiện, thiết bị, giải thuật tính toán mà ta có thể phân loại kỹ thuật xác định hướng nhìn của mắt ngày nay thành nhiều dạng khác nhau
1.2.1 Phân loại theo đặc điểm giao tiếp người-máy
1.2.1.1 Giao tiếp tích cực
Giao tiếp tích cực cho phép người dùng điều khiển giao tiếp trực tiếp thông qua việc sử dụng mắt [1] Một trong các ứng dụng tiêu biểu như đánh máy chữ bằng mắt cho phép người dùng nhìn các phím trên một bàn phím ảo để đánh máy thay vì bình thường ấn các phím với một bàn phím cổ điển [2] Tương tự, các hệ thống đã được thiết kế cho phép người dùng điều khiển con trỏ chuột bằng mắt của họ theo một cách có thể được, thí dụ, vẽ các bức tranh [3] Những hệ thống này thường dùng các chuyển động mắt để điều khiển vị trí con trỏ và sử dụng cái nháy mắt để tạo các click chuột hay các sự kiện khác [4] Giao tiếp tích cực cho phép những người dùng khuyết tật, không thể di chuyển được tương tác với máy tính cũng có
Trang 16thể hỗ trợ cho những người dùng khỏe mạnh trong một số tác vụ nhanh chẳng hạn như chọn biểu tượng và zoom các cửa sổ trong các giao diện đồ họa [5], [6] hoặc chọn đối tượng trong thực tế ảo [7]
1.2.1.2 Giao tiếp thụ động
Hệ thống xác định hướng nhìn giao tiếp thụ động quan sát mắt của người dùng và sử dụng thông tin này để hiệu chỉnh một số định hướng hiển thị hay đáp ứng theo hành vi của người dùng Thí dụ, mức độ tập trung của tài xế khi đang lái
xe có thể xác định được bằng cách quan sát mắt và mí mắt Trong trường hợp khi
mà mức độ tập trung quá thấp, một tín hiệu cảnh báo được tạo ra để nhắc nhở tài xế [8] Hơn thế nữa, kích thước của con ngươi mang ý nghĩa quan trọng liên quan đến
sự kích thích cảm xúc, có thể cung cấp tín hiệu về cảm xúc con người [9]
1.2.2 Phân loại theo thiết bị phương tiện
Trang 17Hình 1.2: Sử dụng kính áp tròng đặc biệt trong xác định hướng nhìn
1.2.2.3 Sử dụng hình ảnh
Kỹ thuật xác định hướng nhìn của mắt này sử dụng hình ảnh được chụp lại bằng camera Kỹ thuật này có ưu điểm so với những kỹ thuật đã nêu là người dùng không cảm thấy khó chịu vì phải mang nhiều thiết bị trên người khi sử dụng
Phần lớn kỹ thuật xác định hướng nhìn của mắt hiện nay là kỹ thuật dựa trên hình ảnh Vì vậy, kỹ thuật này sẽ được nghiên cứu chi tiết trong các phần tiếp theo
1.2.3 Phân tích mắt người và ảnh mắt người
Mắt người là một cơ quan cảm nhận ánh sáng Những bộ phận quan trọng của mắt người có liên quan đến kỹ thuật xác định hướng nhìn của mắt bao gồm:
- Giác mạc (cornea) là một màng trong suốt phía trước cầu mắt
- Tròng đen (iris) là cơ bắp điều khiển kích thước của con ngươi (pupil), giống như lỗ mở ống kính trong một camera cho ánh sáng đi vào
- Con ngươi có màu sắc khác biệt giữa người này với người khác, do đó có thể được dùng trong sinh trắc học
- Màng cứng mắt (sclera) là bề mặt dai ở phía ngoài của cầu mắt và có màu trắng (tròng trắng) trong ảnh mắt
- Limbus là biên giữa tròng trắng và tròng đen
Ba thành phần đáng quan tâm nhất của mắt là con ngươi – lỗ mở để ánh sáng
đi vào mắt, tròng đen – nhóm cơ bắp điều khiển đường kính của con ngươi, và tròng trắng phần mô mỏng bảo vệ màu trắng bao phủ phần còn lại của mắt
Trang 18Hình 1.3: Các bộ phận trong mắt người
fovea Optic nerve
Optic clise
sclera choroid retina
Vitreous humor Suspensory ligament
Zonular fibers
Posterior chamber
Ciliary muscle
cornea Anterior chamber filled with aqueous humor iris pupil
pupil limbus
iris sclera
Hình 1.4: Ảnh mắt người được chụp bằng camera
1.2.4 Ảnh quang phổ hồng ngoại - Ảnh quang phổ nhìn thấy được
Có hai loại hình ảnh thường dùng trong kỹ thuật xác định hướng nhìn của mắt là ảnh có quang phổ hồng ngoại và quang phổ nhìn thầy được [12]:
- Ảnh quang phổ nhìn thấy được có được bằng cách chụp lại một cách thụ động ánh sáng xung quanh được phản chiếu từ mắt (như Hình 1.4) Trong các ảnh này, đặc trưng tốt nhất để phân tích là đường biên giữa tròng đen và tròng trắng được gọi là limbus Xác định hướng nhìn của mắt với ảnh quang phổ nhìn thấy được khá phức tạp vì thực tế ánh sáng xung quanh không thể kiểm soát được, có thể bao gồm nhiều thành phần phản chiếu và khuếch tán khác nhau
- Kỹ thuật sử dụng ảnh quang phổ hồng ngoại khử được những tia phản xạ không kiểm soát được bằng cách chiếu trực tiếp vào mắt một ánh sáng hồng
Trang 19ngoại đồng nhất và kiểm soát được mà người dùng không cảm nhận được Một ưu điểm khác của ảnh quang phổ hồng ngoại là khi đó con ngươi, đúng hơn là limbus, có đặc tính biên mạnh nhất trong ảnh Cả tròng trắng và tròng đen đều phản chiếu mạnh với ánh sáng hồng ngoại trong khi đó đối với ánh sáng nhìn thấy được chỉ có tròng trắng phản chiếu mạnh Việc xác định biên con ngươi phù hợp hơn vì biên con ngươi nhỏ và dễ nhận ra hơn limbus Hơn nữa, với kích thước của nó, con ngươi ít bị che khuất bởi các mi mắt Nhược điểm chính của kỹ thuật sử dụng ảnh quang phổ hồng ngoại là không thể sử dụng ngoài trời suốt cả ngày vì sự chiếu sáng của hồng ngoại xung quanh
Hình 1.5: Ảnh mắt quang phổ hồng ngoại
Xác định hướng nhìn của mắt bằng ảnh quang phổ hồng ngoại thường được
áp dụng cho kỹ thuật bright-pupil, dark-pupil hoặc cả hai
- Kỹ thuật bright-pupil thực hiện bằng cách chiếu sáng mắt bởi một nguồn sáng nằm trên hoặc rất gần trục của camera Hiệu quả của việc chiếu sáng là con ngươi được phân biệt rõ hơn bởi một vùng sáng do phản xạ ánh sáng tự nhiên của màu đen của mắt
- Kỹ thuật dark-pupil thực hiện bằng cách chiếu sáng mắt bởi một nguồn sáng lệch với trục của camera sao cho con ngươi là vùng đen nhất trong ảnh, trong khi tròng trắng, tròng đen và các mí mắt đều phản xạ với sự chiếu sáng Trong mỗi kỹ thuật, sự phản xạ với nguồn chiếu sáng của giác mạc (phần ánh sáng phía ngoài cùng của mắt) cũng đều thấy được Vector giữa tâm con ngươi
và tâm phản xạ giác mạc thường được dùng như số đo chỉ phụ thuộc vào tâm con ngươi Đó là bởi vì hiệu vector ít bị sai lệch nhờ vào sự cố định của thiết bị đội đầu – cả camera và nguồn sáng chuyển động đồng thời
Trang 20Việc phối hợp cả hai kỹ thuật brigth và dark-pupil có thể tìm thấy trong [13,
14, 15] Các hệ thống này sử dụng các LED nằm bên trên và lệch với trục camera Ảnh kết hợp bright-pupil và dark-pupil thu được bằng cách tắt mở xen kẻ giữa các LED nằm bên trên và lệch với trục của camera Ảnh sai phân thu được bằng cách trừ các ảnh đó với ngưỡng, kết quả thu được là ảnh của con ngươi
1.2.5 Hệ thống thu ảnh
Các hệ thống thu ảnh trong kỹ thuật xác định hướng nhìn của mắt bằng hình ảnh có thể được phân thành hệ thống từ xa và hệ thống đội đầu Mỗi dạng hệ thống
có những ưu điểm riêng của nó
Cả hai kỹ thuật sử dụng ảnh quang phổ nhìn thấy được và ảnh quang phổ hồng ngoại đều được áp dụng trong trường hợp xác định hướng nhìn của mắt dựa vào hệ thống thu hình ảnh từ xa
Hình 1.6: Một hệ thống xác định hướng nhìn của mắt thu hình ảnh từ xa
Một nguyên nhân hấp dẫn duy nhất để sử dụng hệ thống thu ảnh từ xa là có thể sử dụng nó hoàn toàn kín đáo và tạo cảm giác tự nhiên, thoải mái cho người dùng Tuy nhiên, một hạn chế của hệ thống thu ảnh từ xa là nó chỉ có thể theo dõi những chuyển động mắt khi người dùng ở trong một vùng hoạt động bị giới hạn Bên cạnh đó, độ chính xác của hệ thống nhận dạng hướng nhìn từ xa thường thấp hơn các hệ thống nhận dạng hướng nhìn đội đầu
Các camera lập thể có thể được dùng để cho phép hệ thống xác định hướng nhìn của mắt đạt được độ chính xác tốt hơn [16, 17] Thiết kế của hệ thống xác định hướng nhìn của mắt thu ảnh từ xa phải tính toán theo ba hướng giá thành thương
Trang 21động mắt khắp một vùng rộng có thể được cải thiện bằng cách sử dụng một camera pan-tilt, nhưng loại camera này khá đắt Hơn nữa, chất lượng hình ảnh có thể được cải thiện bằng cách chụp một ảnh độ phân giải cao của mắt bằng một camera phóng đại [18], dùng trong thương mại và giá thành cao
Mặc dù vậy, cũng có một số kỹ thuật xác định hướng nhìn thu ảnh từ xa có nhiều triển vọng (chẳng hạn, [19, 20]), xuất hiện gần đây có khả năng đạt được tiềm năng lớn gần như hệ thống đội đầu
Sáng kiến của Jeff Pelz và các đồng nghiệp [21, 22] tại học viện kỹ thuật Rochester trên công trình xây dựng các hệ thống xác định hướng nhìn của mắt đội đầu nhỏ giá thành thấp là một trường hợp đặc biệt đáng chú ý Hệ thống đội đầu không đòi hỏi thiết bị thu hình phải có độ phân giải cao
Tuy vậy, bất lợi chính của hệ thống xác định hướng nhìn đội đầu là gây ra sự khó chịu cho người dùng, bởi vì phải gắn các thiết bị lên đầu hay mặt của người dùng khi sử dụng
Hình 1.7: Một hệ thống xác định hướng nhìn của mắt đội đầu
1.2.6 Các giải thuật xác định hướng nhìn của mắt
Các giải thuật xác định hướng nhìn của mắt thường được phân thành hai dạng: giải thuật xác định dựa vào điểm đặc trưng và giải thuật xác định dựa vào mô hình
1.2.6.1 Giải thuật xác định hướng nhìn dựa vào điểm đặc trưng
Giải thuật xác định hướng nhìn của mắt dựa vào điểm đặc trưng bao gồm phát hiện và khoanh vùng các đặc trưng ảnh tương ứng với vị trí của mắt Một trong
Trang 22những giải thuật dựa vào điểm đặc trưng phổ biến đó là xác định một chuẩn (hay, một ngưỡng) cần thiết để quyết định khi nào có một đặc trưng xuất hiện hoặc không Việc xác định một ngưỡng thích hợp thường được xem như một tham số tự
do được điều chỉnh bởi người dùng
Các đặc trưng được xác định biến đổi rộng giữa các giải thuật nhưng hầu hết dựa vào các mức sáng hay các gradient cường độ sáng
Thí dụ, kỹ thuật ảnh quang phổ hồng ngoại hai ngưỡng, sử dụng một ngưỡng sáng thích hợp để tách ra vùng tương ứng với con ngươi Tâm con ngươi được xem như tâm hình học của vùng được nhận dạng Gradient cường độ sáng cũng được dùng để phát hiện biên con ngươi trong các ảnh quang phổ hồng ngoại [23, 24] hoặc limbus trong các ảnh quang phổ nhìn thấy được [25, 26] Sau đó, sử dụng các đường bậc hai [25, 26, 27] hay đường tròn [28] để khớp một elip hay một hình tròn với các điểm đặc trưng này
Tuy nhiên, vì việc xác định điểm đặc trưng có thể bị ảnh hưởng bởi lông mi
và mí mắt, nên cần một vài phép xử lý để khử những điểm đặc trưng sai (nằm ngoài) Các điểm đặc trưng con ngươi được phát hiện dọc theo các vector xuyên tâm [24] Các điểm đặc trưng được phân định trong một hình tứ giác được định dạng bởi các góc mắt, điểm cao nhất của mí mắt trên và điểm thấp nhất của mí mắt dưới [25]
Phương pháp khớp ellip đôi khi cũng được áp dụng [23] Trước tiên, những điểm đặc trưng đã xác định thô được dùng để khớp ellip Và sau đó các điểm đặc trưng được xác định lại bằng cách dùng tâm của ellip thứ nhất như điểm khởi đầu Cuối cùng, một ellip được khớp với các điểm đặc trưng gần với ellip thứ nhất Một hàm cong được áp dụng để khử các tạo tác của bờ con ngươi trong [27] Tuy nhiên, những phương pháp này chưa đủ mạnh đối với một số lượng tương đối lớn các điểm nằm ngoài và không thể loại bỏ hết tất cả các điểm nằm ngoài
1.2.6.2 Giải thuật xác định hướng nhìn dựa vào mô hình
Giải thuật dựa vào mô hình thường được sử dụng khi không xác định rõ ràng các điểm đặc trưng, thay vào đó là đi tìm mô hình phù hợp nhất với ảnh
Trang 23Thí dụ, các phép tính vi phân đầy đủ có thể được áp dụng để tìm đường tròn [29] hoặc ellip [30] phù hợp nhất cho limbus và biên con ngươi Phương pháp này đòi hỏi một phép tìm lặp không gian tham số mô hình để cực đại hóa toàn bộ đạo hàm dọc theo biên của đường tròn hoặc ellip
Giải thuật xác định hướng nhìn dựa vào mô hình có thể cung cấp một phép ước lượng tâm con ngươi chính xác hơn giải thuật dựa vào điểm đặc trưng với một chuẩn đặc trưng chưa được đưa vào dữ liệu ảnh Tuy nhiên, giải thuật này đòi hỏi cần tìm một không gian tham số phức tạp có thể chứa nhiều cực tiểu cục bộ Do đó các kỹ thuật gradient không thể sử dụng được nếu không có sự phỏng đoán ban đầu cho các tham số mô hình
Như vậy, độ chính xác có được của giải thuật dựa vào mô hình phải trả giá bằng tốc độ tính toán và độ linh hoạt Tuy nhiên, đáng chú ý là các giải thuật sử dụng xử lý ảnh multi-scale [31] kết hợp với giải thuật dựa vào mô hình cũng chứa đựng nhiều hứa hẹn cho hiệu quả thời gian thực [12]
1.3 NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Để có thể thấy được tầm quan trọng cũng như mức độ nghiên cứu của kỹ thuật xác định hướng nhìn hiện nay, ta còn có thể liệt kê một số công trình nghiên cứu và những ứng dụng thực tiễn có liên quan như sau:
- Rainer Stiefelhagen và các đồng sự [32] giới thiệu một hệ thống xác định hướng nhìn không gây phiền toái (non-intrusive) có thể xác định và bám đuổi mắt của một người dùng trong thời gian thực ngay khi gương mặt xuất hiện trong thị trường của camera mà không cần sử dụng nguồn sáng đặc biệt hay bất kỳ dấu hiệu nào trên gương mặt người dùng Hệ thống sử dụng mạng neural để ước lượng hướng nhìn của mắt một người dùng bằng cách sử dụng ảnh của cả hai mắt người dùng như ngõ vào của mạng neural Nhóm thực hiện đã thu thập 4 tập dữ liệu từ 4 người dùng khác nhau dùng hệ thống nhận dạng hướng nhìn và đã huấn luyện và kiểm tra trên vài mạng neural Hệ
Trang 24thống nhận dạng hướng nhìn của mắt đã đạt được độ chính xác từ 1.3 đến 1.8
độ với chế độ một người dùng và 1.9 độ với chế độ nhiều người dùng
- Trong [33] tác giả đề xuất một phương pháp hiệu quả cho nhận dạng hướng nhìn thời gian thực từ thông tin chuỗi ảnh và cảm biến từ Các ngõ vào hệ thống nhận dạng hướng nhìn là những ảnh được lấy từ một camera và dữ liệu
từ một cảm biến từ Dữ liệu đo đạc đủ để mô tả chuyển động của mắt và đầu, bởi vì camera và bộ thu của cảm biến từ được đặt cố định so với đầu Các kết quả thí nghiệm cho thấy hiệu quả của hệ thống trong ứng dụng thời gian thực
và cũng cho thấy tính khả thi của hệ thống khi sử dụng thay thế một con chuột giao tiếp máy tính
- Xây dựng một hệ thống xác định hướng nhìn thích nghi, rẽ tiền là một thách thức trong lĩnh vực thị giác máy tính [34] giới thiệu một phương pháp xác định hướng nhìn mới dựa trên công thức xác suất thống kê nâng cao Sử dụng một camera đội đầu, để loại bỏ ảnh huởng của chuyển động đầu, ta có thể phát hiện và bám đuổi thích nghi con ngươi mắt Các kết quả thí nghiệm trên các chuỗi video đối với mắt bình thường và chớp mắt được trình bày với
độ chính xác cao
- Để thực hiện các giao tiếp người-máy trở nên thân thiện hơn với người dùng, Rowel Atienza và Alexander Zelinsky [35] đã xây dựng một hệ thống xác định hướng nhìn linh hoạt có thể đo hướng nhìn của một người trong thời gian thực Cái nhìn thường nói lên đối tượng chung quanh một người đang được quan tâm Do đó, nó có thể được dùng như một vật trung gian cho tương tác người-máy như hướng dẫn một cánh tay robot nhặt một đối tượng nào đó mà người dùng đang nhìn Các tác giả nghiên cứu làm thế nào để xây dựng và kết hợp các thuật toán với nhau để xác định độ phóng đại của camera, điều khiển mức thấp cho việc bám đuổi đầu, mặt và hướng nhìn để tạo ra một hệ thống xác định hướng nhìn linh hoạt
- Để có được sự phổ biến của các hệ thống nhận dạng hướng nhìn số đòi hỏi phải có một sự giảm giá đáng kể so với các mức giá như hiện nay Trong
Trang 25[36], tác giả khảo sát tính khả thi của việc chế tạo một thiết bị giá rẻ để bám đuổi vị trí mắt của một người dùng máy tính Thiết bị hoạt động trong thời gian thực sử dụng giao thức phần mềm Jitter với tốc độ 9 ảnh trên giây trên một laptop Apple PowerBook Đáp ứng của hệ thống đủ để hiển thị một con trỏ có độ phân giải thấp trên màn ảnh máy tính tương ứng với vị trí mắt của người dùng, và độ chính xác với sai số 1 độ Các bộ phận phần cứng của hệ thống có thể được lắp ráp từ những thiết bị điện tử tiêu dùng có sẵn và các bộ phận giảm giá dưới 30$ với một máy tính cá nhân
- Hệ thống giao tiếp người-máy (HCI) được thiết kế dùng cho những người tàn tật Những người bị liệt hay mắc bệnh hiểm nghèo chẳng hạn ALS (bệnh Lou Gehrig) hay xơ cứng toàn thân không thể di chuyển hay điều khiển bất kỳ bộ phận nào của cơ thể họ ngoại trừ cặp mắt Hệ thống [37] phát hiện sự chớp mắt của người dùng và phân tích mẫu và khoảng thời gian chớp mắt, sử dụng chúng để cung cấp cho ngõ vào máy tính dưới dạng một cái click chuột Hệ thống tự khởi động sau khi xuất hiện cái chớp mắt vô thức của người dùng một đến hai lần, mắt được bám đuổi trong thời gian thực sử dụng tương ứng với một mô hình trực tuyến Nếu độ sâu của người dùng thay đổi đáng kể hay xuất hiện chuyển động đầu nhanh, hệ thống tự khởi động lại Không đòi hỏi nguồn sáng cũng như các mô hình offline phù hợp đối với chức năng của hệ thống Hệ thống làm việc với camera USB không đắt tiền và chạy với tốc độ
30 fps Các thí nghiệm lớn cho phép xác định độ chính xác của hệ thống trong việc xác định các chớp mắt cố ý và vô ý, cũng như độ thích nghi của hệ thống trong các điều kiện môi trường không ổn định, chẳng hạn thay thế camera khác và các điều kiện ánh sáng khác nhau Những thí nghiệm này thực hiện trên tám đối tượng đạt được độ phát hiện chính xác 95.3%
- Trong [38], giới thiệu về GazeSpace, một hệ thống mới sử dụng ánh mắt để đọc nội dung trong không gian Trong khi phần lớn các hệ thống xác định ánh mắt được thiết kế dùng trong y khoa, GazeSpace được nhằm vào những người khỏe mạnh Với mục tiêu này nhóm nghiên cứu có những tham vọng
Trang 26cao hơn về chất lượng tương tác và tiện ích, GazeSpace tích hợp với một giao tiếp người dùng theo bối cảnh, và hồi tiếp liên tục đến người dùng Để đối phó với những tác vụ thông tin thế giới thực, GazeSpace kết hợp chặt chẽ các thuật toán mới nhất sử dụng một ngưỡng động thay cho các mức tĩnh Các tác giả đã thực hiện một khảo sát để đánh giá sự hài lòng của người dùng
và các kết quả cho thấy rằng GazeSpace dễ sử dụng và gây được “hứng thú” đối với người dùng
Hình 1.8: Giao diện GazeSpace
Một số ứng dụng kỹ thuật xác định hướng nhìn của mắt trong các thiết bị hỗ trợ người khuyết tật, đặc biệt là trong các hoạt động di chuyển, chẳng hạn như các
xe lăn điện cũng đang được nghiên cứu và phát triển:
- Nghiên cứu [39] điều khiển xe lăn dùng điện mắt (EOG) Hệ thống gồm xe lăn điện tiêu chuẩn, máy tính, cảm biến điện mắt, cảm biến phát hiện chướng ngại vật và màn hình giao tiếp người dùng Hệ thống có chức năng hoạch định quỹ đạo dựa trên tín hiệu điện mắt và điều khiển xe lăn di chuyển theo quỹ đạo
- Matsumoto và các đồng nghiệp [40] nghiên cứu điều khiển xe lăn dùng ánh mắt Hệ thống gồm 2 camera, cảm biến laser đo khoảng cách và máy tính PC Pentium II 450MHz lắp đặt trên xe lăn điện thương mại của công ty Misawa
Trang 27Xe lăn được điều khiển bằng ánh mắt, có thể phát hiện và tránh chướng ngại vật
- Bằng phát minh US 6842670 B2 của Mỹ [41] Hệ thống gồm thiết bị thu nhận hình ảnh mắt là đeo kính mắt có gắn camera kèm theo đèn chiếu công suất nhỏ 5W, bộ điều khiển là máy tính PC và thiết bị chấp hành là xe lăn điện Hệ thống có thể thu nhận một cách hiệu quả hình ảnh mắt người và sau
đó xác định chính xác vị trí con ngươi Dựa vào vị trí con ngươi, bộ điều khiển ra lệnh điều khiển xe lăn điện
- Viện nghiên cứu AIST (Nhật) [42] phát triển xe lăn điện thông minh có gắn camera đa hướng, hệ thống xử lý ảnh và điều khiển sử dụng máy tính PC Bên cạnh chức năng phát huy tính năng ưu việt của camera đa hướng trong việc phát hiện chướng ngại vật, va chạm và các tình huống rủi ro như đi xuống cầu thang, hệ thống còn có chức năng thông minh khác như: nhận dạng cử chỉ bàn tay và tự động điều khiển xe lăn đi tới đến khi tay chạm nút nhấn thang máy, dừng khẩn cấp và gọi điện thoại cho người nhà nếu phát hiện dáng điệu bất thường của người sử dụng xe lăn
Hình 1.9: Xe lăn điện thông minh của viện nghiên cứu AIST (Nhật)
Trang 281.4 MỤC TIÊU ĐỀ TÀI
Từ nghiên cứu tổng quan về vấn đề nghiên cứu và ứng dụng kỹ thuật xác định hướng nhìn của mắt ở trên, cho thấy rằng, đây là lĩnh vực có nhiều ứng dụng thực tiễn và còn nhiều tiềm năng nghiên cứu trong tương lai
Đề tài nghiên cứu: “Thiết kế và xây dựng hệ thống xác định hướng nhìn của mắt cho điều khiển xe lăn điện” được thực hiện dựa trên những tiện ích hiện
nay của công nghệ máy tính cá nhân và thiết bị thu nhận hình ảnh phổ biến là webCAM Ta lựa chọn kỹ thuật xác định hướng nhìn của mắt thông qua thiết bị thu nhận hình ảnh từ xa dựa trên ảnh quang phổ nhìn thấy được bằng cách sử dụng loại webCAM thông dụng trên thị trường nhằm mục đích thiết kế được một hệ thống xác định hướng nhìn gọn nhẹ với giá thành thấp
Hệ thống xác định hướng nhìn của mắt đòi hỏi phải có độ chính xác và độ tin cậy cao, có khả năng hoạt động thời gian thực và bền vững với những điều kiện chiếu sáng khác nhau
Mục tiêu quan trọng nhất và khó khăn nhất của đề tài là xây dựng được hệ thống xác định hướng nhìn từ ảnh thu được từ webCAM thông thường Đa số những webCAM thông dụng có độ phân giải tương đối thấp Vì vậy, bài toán khó được đặt ra là thiết lập được giải thuật xác định hướng nhìn chính xác từ ảnh thu từ webCAM có độ phân giải thấp Để xác định được hướng nhìn, đề tài phải giải quyết các vấn đề về phân ngưỡng ảnh và xác định biên dưới những điều kiện chiếu sáng thay đổi khác nhau Và đặc biệt là xây dựng được mô hình tròng đen và giải thuật matching phù hợp để ước lượng được vị trí tâm tròng đen trong ảnh Bên cạnh đó,
hệ thống phải cho phép người dùng chuyển động đầu tự do với gương mặt nhìn thẳng Ngoài ra, tốc độ tính toán của máy tính cũng là một khó khăn lớn cần giải quyết để đảm bảo hệ thống đáp ứng trong thời gian thực
Để đánh giá được khả năng ứng dụng của hệ thống xác định hướng nhìn của mắt đã xây dựng, hệ thống được nghiên cứu áp dụng thực nghiệm để điều khiển hướng di chuyển của xe lăn điện Xe lăn này có khả năng di chuyển và chuyển
Trang 29hướng trơn mịn theo quỹ đạo được xác định bằng hướng nhìn của mắt người điều khiển
1.5 TÓM LƯỢC NỘI DUNG NGHIÊN CỨU
Đề tài đã được nghiên cứu theo các bước: nghiên cứu lý thuyết, xây dựng giải thuật, lập trình hệ thống, đánh giá hệ thống và áp dụng thực nghiệm để kiểm chứng
Đây là một đề tài thuộc lĩnh vực thị giác máy tính, do đó lý thuyết cơ sở cần nghiên cứu là các phép toán và các giải thuật về xử lý ảnh số, xác định và trích đặc trưng ảnh Nội dung lý thuyết phục vụ chủ yếu cho đề tài là các phương pháp và giải thuật xác định hướng nhìn Tuy nhiên, do yêu cầu hệ thống phải hoạt động tốt trong những điều kiện và có những yếu tố bất định nên đòi hỏi đề tài cần nghiên cứu thêm một số lý thuyết về xử lý ảnh có chất lượng không ổn định
Giải thuật xác định hướng nhìn của mắt từ ảnh mắt người dùng qua webCAM, đòi hỏi phải phân tích các đặc trưng và trích được những điểm đặc trưng hình học của mắt Bên cạnh đó, xây dựng mô hình tròng đen phù hợp và matching
mô hình với đặc trưng hình học của tròng đen Từ đó, ước lượng hướng nhìn của mắt dựa vào vị trí tương đối của tâm tròng đen so với các góc mắt
Để lập trình xây dựng hệ thống, ta chọn ngôn ngữ lập trình C++ Ta nghiên cứu lập trình ứng dụng trên máy tính cá nhân bằng Visual C++ để xây dựng chương trình ứng dụng thu ảnh người dùng qua webCAM, chạy các giải thuật xác định hướng nhìn của mắt, giao tiếp và điều khiển thiết bị ngoại vi
Ta nghiên cứu các phương pháp lưu trữ và thống kê dữ liệu hình ảnh thu từ webCAM và hình ảnh đã xác định được hướng nhìn để từ đó đánh giá độ chính xác của hệ thống Độ chính xác của hệ thống được đánh giá dựa trên tỉ lệ giữa số lượng ảnh mắt xác định đúng hướng nhìn và số lượng ảnh webCAM thu vào
Để kiểm chứng hoạt động của hệ thống dựa vào thực nghiệm, ta thiết kế mô hình xe lăn điện Từ đó, nghiên cứu áp dụng hệ thống xác định hướng nhìn của mắt
Trang 30để điều khiển hướng di chuyển của xe lăn thông qua hướng nhìn của mắt người điều khiển
Trang 31Hình 2.1: Một camera CCD chụp ảnh một cái bình
Trang 32Nếu một ảnh số có các giá trị mức xám kích thước byte 500 dòng và 500 cột, thì phải cần đến một mảng bộ nhớ ¼ triệu byte Đôi khi một camera CCD được gắn vào một board máy tính, bao gồm bộ nhớ cho ảnh và có thể điều khiển camera Những thiết kế mới hiện nay cho phép truyền thông số trực tiếp (chẳng hạn, sử dụng chuẩn IEEE 1394) Ngày nay, các nhà sản xuất camera chuyên nghiệp đưa ra những camera số có thể lưu trữ nhiều ảnh trên bộ nhớ bên trong camera; một số có một ổ đĩa dùng cho mục đích này Những ảnh này có thể được đưa vào máy tính xử lý bất
kỳ lúc nào
2.1.2 Camera video
Các camera video tạo hình ảnh dùng cho người bằng cách ghi lại chuỗi ảnh ở tốc độ 30 ảnh/giây, cho phép biểu diễn chuyển động của đối tượng theo thời gian bằng cách thêm vào các đặc trưng không gian trong các ảnh hay khung đơn lẻ Để cung cấp độ mịn, các chúng sử dụng 60 bán khung/giây: các bán khung này là tất cả các dòng ảnh lẻ và các dòng ảnh chẵn trong chuỗi luân phiên Một tín hiệu âm thanh cũng được mã hóa
Các camera video tạo hình ảnh dùng cho máy có thể ghi lại những ảnh ở một tốc độ thích hợp nào đó và không cần sử dụng kỹ thuật bán khung
Các khung của chuỗi video được tách ra bởi các bộ ghi và một số thủ thuật nén ảnh cũng được sử dụng để giảm lượng dữ liệu
2.1.3 WebCAM
WebCAM (web camera) là thiết bị ghi video được kết nối với máy tính hoặc mạng máy tính, thường sử dụng một cổng USB, wi-fi, hoặc được tích hợp bên trong một số loại laptop WebCAM được biết đến vì chi phí sản xuất thấp và linh hoạt, đó
là một dạng điện thoại hình ảnh có chi phí thấp nhất
Trang 33Các webCAM thường bao gồm một thấu kính, một cảm biến hình ảnh, và một số mạch điện tử hỗ trợ Có nhiều loại thấu kính khác nhau, thường gặp nhất trong những webCAM loại thông thường là một thấu kính plastic có thể vặn vào và
ra để đặt tiêu cự của camera Cũng có những thấu kính tiêu cự cố định, không điều chỉnh được Các cảm biến hình ảnh có thể là CMOS hay CCD
Phần lớn webCAM thông thường có khả năng cung cấp video độ phân giải VGA với tốc độ 30 khung/giây Nhiều thiết bị mới hơn có thể cung cấp video ở các
độ phân giải nhiều megapixel, và một số có thể chạy ở các tốc độ cao hơn Chẳng hạn, PlayStation Eye có thể tạo video 320x240 ở tốc độ 120 khung/giây
Những mạch điện tử hỗ trợ được dùng để đọc hình ảnh từ cảm biến và truyền
nó đến máy tính Thí dụ, webCAM trong Hình 2.3 sử dụng chip SN9C101 của Sonix để truyền hình ảnh của nó qua USB
Hình 2.3: Mạch điện hỗ trợ trong webCAM
Nhóm thiết bị video USB cho phép kết nối giữa webCAM và máy tính không cần cài đặt driver Microsoft Windows XP SP2, Linux và Mac OS X có sẵn các driver này và không yêu cầu thêm driver, tuy nhiên chúng thường được cài đặt
để có được những tính năng bổ sung
2.2 ẢNH SỐ
2.2.1 Khái niệm ảnh số
Một ảnh bao gồm một mảng các con số hai chiều Sắc thái màu hay mức xám được hiển thị đối với một phần tử ảnh (pixel) cho trước phụ thuộc vào con số được lưu trữ trong mảng dành cho pixel đó Dạng dữ liệu ảnh đơn giản nhất là trắng và đen Đó là một ảnh nhị phân vì mỗi pixel hoặc là 0 hoặc là 1
Trang 34Tiếp theo, dạng dữ liệu ảnh phức tạp hơn là mức xám, trong đó mỗi pixel lấy
một giá trị giữa 0 và một giá trị mức xám mà máy quét có thể ghi được Những ảnh
này thường xuất hiện giống như các ảnh đen trắng – chúng bao gồm trắng, đen và
sắc xám Hầu hết ảnh mức xám hiện nay có 256 sắc xám Con người có thể phân
biệt khoảng 40 sắc xám, do đó một ảnh 256 sắc xám “trông giống như một bức ảnh”
Dạng ảnh phức tạp nhất là ảnh màu Ảnh màu tương tự như ảnh xám ngoại
trừ rằng chúng có ba dải, hay kênh, tương ứng với các màu đỏ, xanh lá và xanh lam
Do đó, mỗi pixel có ba giá trị tương ứng với chúng Một máy quét màu sử dụng các
bộ lọc đỏ, xanh lá và xanh lam để tạo ra các giá trị này
Ảnh số thường có sẵn trên Internet, hoặc dùng máy quét và các camera số
Bức ảnh nào đó được trình bày trên Internet có thể download được đến máy tính và
thường ở định dạng JPEG (Joint Photographic Experts Group) Một số phần mềm
có thể chuyển đổi sang định dạng TIFF (Tagged Image File Format) hay BMP
(Bitmap Picture)
a) b) c)
Hình 2.4: a) Ảnh màu; b) Ảnh mức xám; c) Ảnh nhị phân
2.2.2 Biểu diễn ảnh
Thông tin chứa trong một ảnh có thể được biểu diễn theo nhiều cách khác
nhau Phổ biến nhất là biểu diễn trong không gian và biểu diễn dưới dạng sóng Các
cách biểu diễn đều hoàn toàn đầy đủ và tương đương, chúng có thể được chuyển đổi
quan lại với nhau Phép biến đổi giữa phép biểu diễn trong không gian và dạng
không gian vector được biết đến là phép biến đổi Fourier
Trang 352.2.2.1 Biểu diễn ảnh trong không gian
Ảnh biểu diễn trong không gian là một phân bố bức xạ trên một mặt phẵng
Về mặt toán học, sự phân bố này có thể được mô tả như một hàm liên tục của hai
biến không gian:
)(),(x1 x2 E x
Máy tính không thể biểu diễn các ảnh liên tục mà chỉ có thể xử lý trên các
mảng số Do đó, cần thiết phải biểu diễn ảnh dưới dạng các mảng điểm hai chiều
Một điểm trên lưới 2-D được gọi là pixel Một pixel biểu diễn sự bức xạ tại một vị
trí tương ứng trên lưới Trong trường hợp đơn giản nhất, các pixel được định vị trên
một lưới hình chữ nhất Vị trí của pixel được cho dưới dạng ký hiệu thông thường
của ma trận Chỉ số thứ nhất, m ký hiệu vị trí của dòng, chỉ số thứ hai, n là vị trí của
cột (Hình 2.5a) Nếu ảnh số chứa M x N pixel, tức là, nó được biểu diễn bởi một ma
trận M x N, chỉ số n chạy từ 0 đến N-1, và chỉ số m chạy từ 0 đến M-1 M cho biết
số dòng, N là số cột Tương ứng với ký hiệu ma trận, trục tung (trục x) chạy từ trên
xuống dưới và trục hoành (trục x) chạy từ trái sang phải Mỗi pixel không chỉ biểu
diễn một điểm trong ảnh mà còn là một vùng chữ nhật, một ô cơ bản của lưới
Hình 2.5: Biểu diễn ảnh số bằng các mảng điểm rời rạc trên một lưới chữ nhật:
a) Ảnh 2-D, b) Ảnh 3-D
Trang 36Trong không gian 3-D (và các không gian số chiều cao hơn) cũng được quan
tâm trong xử lý ảnh Trong các ảnh ba chiều một pixel được gọi là voxel, viết tắt của
volume element Trên một lưới chữ nhật, mỗu voxel biểu diễn giá trị mức xám trung
bình của một hình khối Vị trí của một voxel được cho bởi ba chỉ số Thứ nhất, k
biểu diễn chiều sâu, m là dòng và n là cột (Hình 2.5b)
2.2.2.2 Không gian vector
Trong phần trên, ta đã thảo luận xung quanh phép biểu diễn không gian của
các ảnh số Ta chưa đề cập đến vấn đề xem một ảnh như là từng pixel riêng biệt
Bây giờ ta xét một ảnh với nhiều ảnh cơ sở trong đó mỗi ảnh cơ sở là một pixel có
một giá trị của ảnh cơ sở trong khi tất cả các pixel còn lại bằng không Ta ký hiệu
một ảnh cơ sở tại dòng m, cột n bởi
P m n m n n
m
0
''
1: , ,' ',
Bất kỳ một ảnh vô hướng nào cũng có thể coi như được tạo thành từ các ảnh
1
0
, ,
M m
N n
n m n
m p g
G
trong đó, Gm,n biểu diễn giá trị mức xám tại vị trí (m, n)
Tích số của hai ảnh cơ sở bằng không nếu hai ảnh cơ sở khác nhau Tích vô
hướng của một ảnh cơ sở với chính nó là một Do đó, M x N ảnh cơ sở được chuyển
đổi thành một không gian vector M x N trên tập các số thực
Tương tự đối với các không gian vector hai chiều và ba chiều R2 và R3 đã
được biết đến giúp ta biết được lợi ích của phép biểu diễn ảnh như thế nào Một ảnh
M x N biểu diễn một điểm trong không gian vector M x N Nếu ta đổi hệ tọa độ, thì
ảnh vẫn như cũ nhưng hệ tọa độ của nó thay đổi Có nghĩa là ta có thể quan sát cùng
một mẫu thông tin từ một góc nhìn khác
Tóm lại, ta có thể rút ra hai kết luận quan trọng từ thực tế cơ bản này Thứ
nhất, tất cả các phép biểu diễn đều tương đương với nhau Mỗi cách đều cho một
Trang 37phép biểu diễn ảnh đầy đủ Thứ hai, các phép biến đổi hệ tọa độ thích hợp giúp ta chuyển đổi từ phép biểu diễn này sang phép biểu diễn khác và ngược lại
2.3 KHÔNG GIAN MÀU
Một số không gian màu hay mô hình màu đã được thừa nhận và mỗi không gian màu có một hệ tọa độ màu đặc trưng và mỗi điểm trong không gian màu chỉ biểu diễn một màu đặc trưng Mỗi mô hình màu có thể được dùng cho những ứng dụng đặc biệt
2.3.1 Không gian màu RGB
Những ảnh màu thông thường, được tạo ra từ một hệ thống ảnh số, được biểu diễn dưới dạng màu đỏ, xanh lá, xanh lam và thường được gọi là các ảnh RGB Chúng thường dùng đối với các màn hình màu, và các camera video Một ảnh màu RGB, được biểu diễn bởi các pixel R, G và B 8-bit có 2563 hay 16.777.216 màu
Hình 2.6: Không gian màu RGB
Một ảnh mức xám được cấu thành từ các pixel có mức xám khác nhau thay đổi từ 0 đến 255 Ta có thể coi toàn bộ ảnh là một mảng hai chiều, mà mỗi phần tử
có giá trị thay đổi từ 0 đến 255
Để chuyển ảnh màu RGB thành ảnh mức xám ta có thể thực hiện theo phép biến đổi sau:
Trang 38Y 0 , 3 0 , 59 0 , 11]
Ngoài ra, còn có một số không gian màu khác như CMY, HSV, HIS hay
LUV v.v
2.3.2 Không gian màu CMY
Mô hình màu thú vị khác sử dụng CMY (cyan – màu lục lam, megenta –
màu đỏ tươi, yellow – màu vàng và black – màu đen) và mô hình này được sử dụng
trong các máy in màu Hầu hết các thiết bị đầu ra bao gồm máy in hay máy copy
màu sử dụng mô hình màu CMY Cũng như các màu chính là đỏ, xanh lá và xanh
lam, các màu đỏ tươi, lục lam và vàng được pha tương ứng từ các màu đỏ, xanh lá
Y M C
111
trong đó R, G, B biểu diễn các giá trị màu được bình thường hóa trong khoảng từ 0
đến 1
Có thể dễ dàng kiểm tra từ trên rằng một bề mặt phủ màu lục lam không có
màu đỏ, hay một bề mặt được phủ màu đỏ tươi không có màu xanh lá Cũng cần
chú ý rằng nếu lượng các màu chính pha bằng nhau (thí dụ, màu lục lam, đỏ tươi và
vàng) tạo ra màu đen Do đó một hệ thống gồm bốn màu C, M, Y và B tạo thành
một mô hình bốn màu
Trang 392.3.3 Không gian màu NTSC hay YIQ
Trong không gian màu này, thông tin độ chói Y biểu diễn thông tin mức
xám, trong khi đó sắc thái (I) và độ bão hòa (Q) mang thông tin về màu Phép biến
đổi từ RGB sang YIQ là
Q I Y
312,0523,0211,0
322,0274,0596,0
114,0587,0299,0
Các phần tử của dòng đầu tiên khi được cộng lại trở thành 1 và các phần tử
trong hàng thứ hai và thứ ba có tổng là 0 Do đó, trong một ảnh mức xám, ở đó R =
G = B, các thành phần màu I và Q bằng không Không gian màu NTSC được dùng
trong truyền hình
2.3.4 Không gian màu YC b C r
Trong không gian màu này, Y là thành phần độ chói trong khi đó Cb và Cr
cung cấp thông tin màu Thông tin màu được chứa đựng trong hai thành phần màu
khác biệt Cb và Cr Không gian màu này được dùng trong video số Phép biến đổi từ
RGB sang YCbCr như sau:
C C Y
r
b
214,18786
,9300
,112
00,112203
,74797
,37
966,24553,128481
,65128
12816
Hình 2.8: Mối quan hệ giữa không gian màu YCbCr và RGB
Trang 402.3.5 Không gian màu HSV
Màu (color) là một thuộc tính của nhận thức thị giác và có thể được mô tả bằng nhiều tên màu như đỏ, xanh lá, vàng, trắng, xám, đen, v.v… Cũng như màu, sắc thái (hue) cũng là một thuộc tính của nhận thức con người và có thể được mô tả như đỏ, xanh lá, xanh lam, màu tía và vàng là các sắc thái chính hay trung gian của
sự phối hợp các sắc thái chính Mặc dù đen, trắng và xám được coi là màu, nhưng chúng không có sắc thái Từ đó ta có thể cho rằng có hai nhóm màu: (1) màu có sắc thái (chromatic) tức là, những màu sắc không bao gồm trắng, đen và xám và (2) màu không có sắc thái (achromatic) bao gồm, trắng, đen và xám
Không gian màu HSV hay HSL hay HIS là không gian màu mô tả các màu
mà con người nhận thức được HIS (hay HSV) là viết tắc cho sắc thái (H), độ bão hòa (S) và cường độ (I) (hoặc giá trị V)
Sắc thái được nói đến như một thuộc tính màu của ánh sáng Nó cũng có thể được hiểu là một thuộc tính của sự phản chiếu bề mặt hay sự truyền ánh sáng Thí
dụ, một chiếc xe màu xanh lam phản chiếu sắc thái xanh lam Hơn thế nữa, nó cũng
là một thuộc tính của nhận thức con người Sắc thái về bản chất là thành phần chromatic của nhận thức chúng ta có thể biết được là sắc thái yếu hay sắc thái mạnh
Sự đầy đủ màu sắc của một màu được mô tả bằng thành phần độ bão hòa Thí dụ, màu từ một nguồn sáng đơn sắc, thiết bị tạo ra những màu chỉ một bước sóng, là bão hòa ở mức cao, trong khi đó những màu gồm nhiều bước sóng khác nhau có sắc thái không đáng kể và độ bão hòa thấp Những màu xám không có sắc thái nào và do đó chúng có độ bão hòa bằng không hay không bão hòa Vì vậy, độ bão hòa là một đơn vị đo sự đầy đủ màu sắc hay sắc trắng trong màu
Độ chói sáng (L) hay cường độ (I) hay giá trị (V) về bản chất cung cấp một đơn vị đo độ rực rỡ của màu Nó cho biết lượng ánh sáng được phản chiếu từ một vật thể hay lượng ánh sáng được phát ra từ một vùng Nó tỉ lệ với năng lượng điện
từ được phát ra của vật thể Độ sáng (hay cường độ) giúp mắt con người nhận biết