GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Các khái niệm về việc xác định hướng nhìn của mắt
1.1.1 Cấu tạo và hoạt động của mắt
Mắt người là cơ quan thị giác chính, giúp chúng ta nhìn và quan sát thế giới xung quanh Nó thu nhận hình ảnh và màu sắc của sự vật, sau đó chuyển thông tin về não để xử lý và lưu trữ Dưới đây là các hình ảnh minh họa cấu tạo của mắt với các bộ phận quan trọng.
Hình 1.1 Cấu tạo bên ngoài của mắt
( Nguồn: http://www.matsaigon.com/wp-content/uploads/2017/11/cau-tao-mat.jpg )
Hình 1.2 Cấu tạo bên trong của mắt
( Nguồn: http://www.matsaigon.com/wp-content/uploads/2017/11/cau-tao-mat-4.jpg )
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Mắt có nhiều bộ phận cấu thành, nhưng để đảm bảo chức năng nhìn, cần chú ý đến giác mạc, thủy tinh thể và võng mạc.
Giác mạc là một màng trong suốt, dai và không có mạch máu, chiếm khoảng 1/5 phía trước của vỏ nhãn cầu Chiều dày của giác mạc ở trung tâm mỏng hơn so với vùng rìa.
-Mống mắt hay tròng đen (Iris): là vòng sắc tố bao quanh đồng tử, quyết định màu mắt (đen, nâu, xanh…).
Đồng tử, hay còn gọi là Pupil, là lỗ nhỏ màu đen nằm ở giữa mống mắt Nó có khả năng co lại hoặc giãn ra nhờ sự hoạt động của các cơ trong mống mắt, giúp điều chỉnh lượng ánh sáng đi vào mắt.
Thủy tinh thể, nằm sau mống mắt, là một cấu trúc trong suốt có chức năng như một thấu kính hội tụ Nó giúp tập trung ánh sáng vào võng mạc, từ đó tạo ra hình ảnh rõ nét, cho phép con người nhìn rõ cả xa lẫn gần.
Hình 1.3 Cấu trúc võng mạc
( Nguồn: https://wit-ecogreen.com.vn/img/tbvm.jpg )
Võng mạc là lớp màng bên trong đáy mắt, có chức năng tiếp nhận ánh sáng từ thủy tinh thể Tại trung tâm của võng mạc là hoàng điểm, nơi chứa các tế bào thị giác nhạy cảm nhất, giúp nhận diện nội dung và độ sắc nét của hình ảnh.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT sắc nét của hình ảnh Thông qua các dây thần kinh thị giác võng mạc sẽ chuyển năng lượng ánh sáng thành tín hiệu thị lực và gửi về trung khu phân tích ở não Võng mạc có nhiều lớp tế bào, đáng chú ý là lớp tế bào que, tế bào nón và lớp tế bào thần kinh cảm thụ Tế bào que, tế bào nón nhận biết hình ảnh, màu sắc Lớp tế bào biểu mô sắc tố võng mạc giúp nuôi dưỡng và bảo vệ tế bào que, tế bào nón trước tác động gây hại của tia cực tím, ánh sáng xanh và chất chuyển hóa gây hại võng mạc.
- Mạch máu võng mạc gồm động mạch và tĩnh mạch trung tâm võng mạc cung cấp chất dinh dưỡng giúp nuôi dưỡng mắt.
1.1.1.2 Hoạt động của mắt người
Để nhìn thấy một vật, mắt cần điều tiết để hình ảnh của vật thể rơi đúng vào điểm vàng Quá trình điều tiết này bao gồm hai loại điều tiết chính.
- Điều chỉnh lượng ánh sáng đi vào mắt bằng cách co giãn đồng tử Trong tối đồng tử giãn ra và ngoài sáng đồng tử sẽ co lại.
Cơ mi và thể mi điều chỉnh sự co giãn của thể thủy tinh, giúp hội tụ hình ảnh lên võng mạc Khi các cơ này nghỉ ngơi, chúng kéo dãn và làm phẳng thủy tinh thể, cho phép mắt nhìn thấy vật thể ở xa Ngược lại, khi nhìn gần, cơ mi co lại, làm cho thủy tinh thể dày lên, giúp mắt nhìn rõ hơn Tuy nhiên, cơ thể mi chỉ có khả năng co lại đến một giới hạn nhất định.
12 đi-ốp, nếu quá giới hạn này hình ảnh sẽ bị mờ.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Một đặc tính quan trọng của mắt là sự khúc xạ ánh sáng Khi ánh sáng di chuyển từ môi trường này sang môi trường khác với chiết suất khác nhau, nó sẽ bị lệch, trừ khi ánh sáng chiếu vuông góc với bề mặt tiếp giáp giữa hai môi trường.
Hiện tượng khúc xạ xảy ra khi tia sáng lệch hướng so với đường đi ban đầu Khi tia sáng đi vào mắt, nó sẽ bị khúc xạ tại bốn bề mặt tiếp giáp.
- (P1) giữa không khí và mặt trước giác mạc.
- (P2) giữa mặt sau giác mạc và thủy dịch.
- (P3) giữa thủy dịch và mặt trước thể thủy tinh.
- (P4) giữa mặt sau thể thủy tinh và dịch kính.
Khi ánh sáng chiếu vào đường cong giác mạc, một số tia phản xạ và một số tia khúc xạ Hình ảnh từ bốn chùm tia phản xạ P1, P2, P3, P4 được gọi là chùm ảnh Purkinje Tia khúc xạ đầu tiên P1, hay còn gọi là ảnh Purkinje đầu tiên, được xem như một tia phản chiếu (glint).
Hình 1.5 Chùm ảnh Purkinje trên mắt
( Nguồn: https://en.wikipedia.org/wiki/File:030608_Pupil.jpg )
1.1.2 Khái niệm về việc xác định hướng nhìn của mắt
Xác định hướng nhìn của mắt là quá trình ước lượng và xác định vị trí điểm nhìn trong không gian 3D, cũng như trục ảo của mắt Hướng nhìn này được thiết lập khi con người chú ý và tập trung vào một đối tượng cụ thể.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Hình 1.6 Xác định hướng nhìn của mắt
( Nguồn: http://www.informatik.uni-ulm.de/ni/staff/HNeumann_bisNov08/researchInterestsFacilities/iconHCI.png )
Trục ảo của mắt là đường thẳng nối giữa điểm vàng và điểm nút của mắt, trong đó điểm nút có các đặc điểm vật lý cụ thể như được minh họa trong Hình 1.7.
Hình 1.7 N, N' The front and rear nodal points of a thick lens
( Nguồn: https://en.wikipedia.org/wiki/File:Cardinal-points-2.svg )
Ánh sáng chiếu vào thấu kính tại điểm N và tạo với trục quang một góc θ, sau đó thoát ra khỏi thấu kính với cùng góc θ so với trục quang của mắt Hình 1.8 dưới đây giúp làm rõ hơn về trục ảo của mắt.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Hình 1.8 Sơ đồ trục ảo của mắt
Tổng quan về hệ thống xác định hướng nhìn của mắt và ứng dụng
1.2.1 Tổng quan về hệ thống xác định hướng nhìn của mắt
Cho đến thời điểm hiện tại, người ta thường sử dụng một trong ba hệ thống dưới đây để giám sát và xác định hướng nhìn của mắt:
Hệ thống giám sát mắt được thiết kế dưới dạng mũ chụp hoặc kính mắt, tích hợp các camera nhỏ, gương phản xạ, đèn hồng ngoại, cảm biến gyro và cảm biến gia tốc để đo đạc chuyển động và hoạt động của mắt.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Hình 1.10 Kính giám sát mắt của công ty Tobii
( Nguồn: https://imotions.com/wp-content/uploads/2016/02/eye-tracking-glasses-759x600.jpg https://www.bacharach.org/wp-content/uploads/2018/07/How-DoesEyetrackingWork_GlassesPro2.jpg )
Thiết kế nhóm 2 sử dụng phương pháp Electrooculography (EOG) để giám sát và đo đạc các hoạt động của mắt bằng cách đặt các điện cực xung quanh vùng mắt Hệ thống này cho phép theo dõi chính xác các chuyển động của mắt.
Hình 1.11 Sử dụng phương pháp EOG để giám sát hoạt động của mắt
( Nguồn: https://metrovision.fr/images/480x300/ES_03.jpg )
- Thiết kế nhóm 3: Chỉ sử dụng các camera độc lập hoặc các camera kết hợp với các nguồn sáng để giám sát các hoạt động của mắt.
Hình 1.12 Screen-Based Eye Tracking
( Nguồn: https://imotions.com/wp-content/uploads/2015/07/Image-RemoteEyeTrackinginaLab-300x269.jpg )
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Nhóm phương pháp thiết kế thứ 3 trong các hệ thống xác định hướng nhìn của mắt là nhóm mới nhất và được sử dụng phổ biến nhất hiện nay.
Hệ thống này hoạt động độc lập và không tiếp xúc trực tiếp với người được giám sát.
1.2.2 Hệ thống xác định hướng nhìn của mắt và ứng dụng
Mắt nhìn là một trong những giác quan quan trọng nhất của con người, và việc giám sát giác quan này giúp chúng ta thu thập nhiều thông tin về người được quan sát Dưới đây là những ứng dụng phổ biến của hệ thống xác định hướng nhìn của mắt.
Công nghệ theo dõi hướng nhìn của mắt người mở ra một phương thức tương tác mới giữa con người và thiết bị máy móc, cho phép điều khiển TV, điện thoại và máy tính bằng mắt Ngoài ra, công nghệ này còn hỗ trợ trong việc đánh giá tính hợp lý và tối ưu của các thiết kế web cùng giao diện người dùng (GUI).
Hình 1.13 Điều khiển TV bằng mắt
( Nguồn: https://i2.wp.com/www.techdigest.tv/haier-eye-control-2.jpg )
Hình 1.14 Tương tác với điện thoại bằng mắt nhìn
( Nguồn: https://imotions.com/wp-content/uploads/2015/07/alex_4263_Tobii_Glasses_670x600-300x269.jpg https://www.iabaustralia.com.au/images/easyblog_images/2355/eyetracking.png )
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Ứng dụng theo dõi hướng nhìn của mắt trong nghiên cứu thị trường giúp phân tích thị hiếu khách hàng một cách dễ dàng Dữ liệu thu thập từ công nghệ này cho phép các nhà nghiên cứu nhận diện rõ ràng mong muốn và hành vi lựa chọn sản phẩm của khách hàng Từ đó, họ có thể điều chỉnh sản phẩm và chiến lược marketing một cách hiệu quả hơn.
Hình 1.15 Quan sát hành vi lựa chọn sản phẩm của khách hàng thông qua hướng nhìn của mắt
( Nguồn: https://static1.squarespace.com/static/533368a4e4b0429a548a9e4d/t/55e85d56e4b0ae9da244361c/1441291611371/heatmap- eyetracking1?format00w )
- Ứng dụng trong tâm lý học và nghiên cứu hành vi của con người:
Các nhà tâm lý học có thể dự đoán cách suy nghĩ và phản ứng của con người thông qua ánh mắt, điều này cho thấy tầm quan trọng của việc quan sát các yếu tố kích thích từ môi trường bên ngoài.
+ Thông qua việc giám sát mắt nhìn, các bác sĩ có thể kiểm soát và dự đoán được tình trạng sức khỏe và tinh thần của bệnh nhân.
Theo dõi hướng nhìn của mắt giúp đánh giá hiệu quả luyện tập của vận động viên Bằng cách này, huấn luyện viên và bác sĩ có thể ghi nhận và phân tích chính xác hơn mọi hoạt động của vận động viên nhờ vào nguồn dữ liệu bổ sung này.
Tình hình nghiên cứu trong nước và thế giới
Kể từ những năm 2000, nghiên cứu về computer vision đã có những bước tiến vượt bậc, đặc biệt trong việc nhận dạng và giám sát hành vi con người Một trong những thành tựu nổi bật trong lĩnh vực này là khả năng xác định hướng nhìn của mắt, góp phần nâng cao hiệu quả trong các ứng dụng công nghệ hiện đại.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Nhiều thuật toán xử lý ảnh đã được phát triển để nhận diện khuôn mặt, với ứng dụng đầu tiên là xác định vị trí khuôn mặt trong hình ảnh từ các máy ảnh và điện thoại, bắt đầu từ khoảng năm 2000.
Hình 1.16 Xác định vị trí khuôn mặt khi chụp ảnh bằng điện thoại hoặc máy ảnh
(Nguồn: http://s2.media.ricoh-imaging.co.uk/en/digital-compact/optio-e90.html https://kosbr.github.io/2015/08/18/find-fragment.html )
Nghiên cứu gần đây cho thấy công nghệ computer vision có khả năng nhận diện chính xác thông tin con người trong hình ảnh Kết quả này đang được ứng dụng rộng rãi trong các hệ thống camera giám sát an ninh.
Hình 1.17 Hệ thống camera giám sát có khả năng nhận diện và truy vấn thông tin của người bị giám sát
( Nguồn: www.thestadiumbusiness.com/2017/06/30/nec-face-recognition-leads-way-stadium-security-trial/ )
Công nghệ giám sát hướng nhìn của mắt, như đã thể hiện trong các hình ảnh 1.13, 1.14 và 1.15, đang được ứng dụng rộng rãi trong nhiều lĩnh vực Điều này đã dẫn đến sự ra đời của nhiều công ty công nghệ chuyên về giám sát hoạt động và hướng nhìn của mắt, bao gồm các tên tuổi nổi bật như Tobii, Fujitsu, SMI, EyeTech, Smart Eye và EyeLink.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Hình 1.18 Công ty Fujitsu thực hiện demo một sản phẩm giám sát hướng nhìn của mắt
( Nguồn: https://youtu.be/ZItrzSuRso4 )
Hình 1.19 Giám sát hướng nhìn của mắt khi lái xe
( Nguồn: https://en.wikipedia.org/wiki/Eye_tracking )
Ngành công nghệ kỹ thuật cao tại Việt Nam vẫn chưa phát triển mạnh mẽ, dẫn đến các nghiên cứu về computer vision chỉ đạt kết quả khiêm tốn Hiện tại, các nghiên cứu chủ yếu tập trung vào nhận diện dấu vân tay và xử lý ảnh để đọc biển số xe Gần đây, có một số nghiên cứu đáng chú ý về điều khiển xe lăn bằng cử động mắt, do kỹ sư Nguyễn Hữu Cường tại Trường ĐH Cần Thơ thực hiện dưới sự hướng dẫn của PGS.TS Huỳnh Thái Hoàng từ Trường ĐH Bách khoa - ĐHQG TP.HCM.
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Mục tiêu và nhiệm vụ khi thực hiện luận văn
Mục tiêu của đề tài là phát triển một hệ thống xác định hướng nhìn của mắt, giúp theo dõi sự chú ý và tập trung của con người khi nhìn vào một đối tượng cụ thể.
1.4.2 Phạm vi và nhiệm vụ của đề tài
Với đề tài nghiên cứu đã đặt ra, nội dung chính của luận văn sẽ trình bày các vấn đề sau:
- Tìm hiểu, phân tích các phương pháp xác định vị trí khuôn mặt người và mắt người đã và đang được nghiên cứu trên thế giới.
- Tìm hiểu, nghiên cứu mô hình toán để đo đạc hướng nhìn của mắt.
- Áp dụng các mô hình toán và các phương pháp xử lý ảnh để xây dựng một hệ thống nhúng giám sát hướng nhìn của mắt.
- Phân tích, đánh giá các kết quả đạt được của nghiên cứu từ đó đưa ra hướng cải tiến, phát triển cho đề tài.
Giới thiệu tổng quát các chương
Chương 1: Giới thiệu tổng quan về các khái niệm định nghĩa có liên quan đến hệ thống xác định hướng nhìn của mắt.
Chương 2: Giới thiệu về các mô hình xác định hướng nhìn của mắt đã được công bố trong và ngoài nước Phân tích ưu và nhược điểm của các mô hình khác nhau để từ đó đưa ra lựa chọn và định hướng nghiên cứu cho luận văn.
Chưởng 3: Đưa ra mô hình toán và cách thức xác định hướng nhìn của mắt thông qua các dữ liệu đầu vào có được của bài toán.
Chương 4: Trình bày các lý thuyết, kiến thức nền tảng về xử lý ảnh sẽ áp dụng cho đề tài.
Chương 5: Trình bày cấu tạo, cách lắp đặt và cách thức hoạt động của mô hình xác định hướng nhìn của mắt.
Chương 6: Tiến hành thực nghiệm và đưa ra kết quả thực nghiệm để từ đó có thể đánh giá, nhận xét và đề xuất phương hướng phát triển cho đề tài.
CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Phân tích tổng quan các hệ thống xác định hướng nhìn của mắt
Như ở Chương 1 , phần Tổng quan về hệ thống xác định hướng nhìn của mắt đã có nêu qua một số hệ thống xác định hướng nhìn của mắt.
2.1.1 Hệ thống xác định hướng nhìn với các thiết bị camera gắn liền với người dùng
Hệ thống camera giám sát gắn liền với người dùng, thường thiết kế dưới dạng nón chụp hoặc kính đeo, cung cấp các thông số đo đạc và giám sát mắt nhanh chóng và chính xác hơn so với các phương pháp truyền thống Ngoài ra, hệ thống này còn cho phép dễ dàng gắn thêm các thiết bị hoặc cảm biến để theo dõi sự chuyển động đầu của người dùng.
Hình 2.1 Hệ thống camera gắn liền với người dùng
( Nguồn: https://eyegaze.com/wp-content/uploads/2015/05/Eye-Tracking1.jpg https://www.kent.ac.uk/psychology/research/facilities/EL2_1.JPG )
Hệ thống này có thiết kế phức tạp và chi phí cao, yêu cầu sử dụng các thuật toán phức tạp để xử lý dữ liệu đầu vào Người dùng cũng cần đeo các sản phẩm trong suốt quá trình sử dụng.
2.1.2 Hệ thống xác định hướng nhìn với các thiết bị điện cực đo đạc sự dịch chuyển của mắt
Hệ thống sử dụng điện cực để đo đạc và giám sát hoạt động của mắt giúp đơn giản hóa thiết kế và giảm giá thành sản phẩm.
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Hình 2.2 Xác định hướng nhìn của mắt bằng các điện cực
( Nguồn: https://neupsykey.com/wp-content/uploads/2016/07/B9781455712670000035_f03-03-9781455712670.jpg https://www.sciencedaily.com/images/2008/04/080428083418_1_540x360.jpg )
Mặc dù thiết kế này có nhiều ưu điểm, nhưng việc lắp đặt và hiệu chỉnh hệ thống lại gặp nhiều khó khăn và tốn thời gian Ngoài ra, việc xử lý nhiễu từ tín hiệu thu được và yêu cầu sản phẩm phải gắn chặt với da người dùng cũng là những hạn chế cần lưu ý.
2.1.3 Hệ thống xác định hướng nhìn với các thiết bị camera tách biệt và đặt cách xa người dùng
Hệ thống camera giám sát được thiết kế với cảm biến mắt ở khoảng cách xa người dùng, mang lại sự đơn giản và thoải mái khi sử dụng mà không cần phải đeo hay mang theo thiết bị nào Thuật toán và giải thuật áp dụng cho hệ thống cũng không quá phức tạp, tạo thêm ưu điểm cho nó Độ chính xác của hệ thống có thể được cải thiện bằng cách chọn camera có độ phân giải cao hơn hoặc tăng cường số lượng camera giám sát.
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Hệ thống này có khuyết điểm là chỉ hoạt động trong một không gian giới hạn đã được xác định trước Khi con người ra ngoài vùng giám sát của camera, hệ thống sẽ không còn khả năng hoạt động hiệu quả.
2.1.4 Yêu cầu chung cho hệ thống và đưa ra kết quả lựa chọn thiết kế tổng quan
Yêu cầu chung của luận văn là:
- Thiết kế một hệ thống giám sát hướng nhìn của mắt không bắt buộc người dùng phải đem theo hoặc đeo bất kỳ thiết bị nào.
- Chi phí thiết kế, lắp đặt cho hệ thống rẻ nhất có thể.
- Hạn chế việc calib lại hệ thống.
- Thiết kế hệ thống phải dễ dàng lắp đặt và vận hành.
Phương án thứ 3, xây dựng hệ thống xác định hướng nhìn với các thiết bị camera tách biệt và đặt cách xa người dùng, là lựa chọn phù hợp nhất với các tiêu chí đã nêu.
Các phương án thiết kế với hệ thống xác định hướng nhìn của mắt sử dụng
Thiết kế tổng quan cho hệ thống giám sát hướng nhìn của mắt được chọn ở mục 2.1 là lựa chọn phổ biến nhất hiện nay Để có thiết kế chi tiết hơn, người ta thường theo một trong hai hướng chủ đạo như được minh họa trong Hình 2.4.
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Hình 2.4 So sánh tổng quan giữa thiết kế không dùng và có dùng đèn hồng ngoại
( Nguồn: http://journal.jp.fujitsu.com/en/2014/09/09/01/img/index_img_1.jpg )
Các phân tích và so sánh chi tiết hơn cho từng phương án sẽ được trình bày cụ thể hơn qua các mục ngay dưới đây.
2.2.1 Hệ thống chỉ sử dụng một camera
Trong nghiên cứu về xác định hướng nhìn, một số công trình chỉ sử dụng một camera, như nghiên cứu của Chen J và Ji Q, đã áp dụng mô hình 3D của khuôn mặt và mắt để xác định hướng nhìn Tương tự, các nghiên cứu của kỹ sư Nguyễn Hữu Cường và PGS.TS Huỳnh Thái Hoàng đã thực hiện ước lượng hướng nhìn dựa trên các đặc trưng hình học của mắt.
Nếu chỉ sử dụng một camera, hệ thống thiết kế sẽ có được các ưu điểm sau:
Thiết kế hệ thống đơn giản giúp tối ưu kích thước và giảm giá thành sản phẩm, mang lại mức giá cạnh tranh hơn so với các thiết kế phức tạp khác.
- Sản phẩm sẽ dễ dàng lắp đặt và dễ sử dụng.
Tuy nhiên thiết kế này cũng có các nhược điểm:
- Độ chính xác của hệ thống bị ảnh hưởng nhiều nếu ánh sáng của môi trường bị thay đổi.
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Kết quả ước lượng hướng nhìn của mắt sẽ không chính xác khi người dùng di chuyển đầu, như xoay đầu hoặc không nhìn trực diện vào khu vực quan sát, cũng như trong trường hợp khuôn mặt bị che chắn hoặc biến dạng, do chỉ sử dụng các đặc trưng hình học như vị trí con ngươi, góc mắt và vị trí đỉnh mũi.
- Có thể phải thực hiện calib lại tất cả các thông số của hệ thống nếu hệ thống có thêm người dùng mới.
2.2.2 Hệ thống sử dụng một camera và một nguồn sáng
Công ty Fujitsu đã thực hiện nghiên cứu về thiết kế sản phẩm cho phép người dùng cuộn và phóng to màn hình bằng cách điều khiển bằng mắt Việc thêm một ràng buộc về nguồn sáng sẽ nâng cao độ chính xác trong việc ước lượng hướng nhìn của mắt.
Hình 2.5 How the Corneal Reflection Method Works
( Nguồn: http://www.fujitsu.com/global/Images/20121002-02b_tcm100-839130.jpg )
Như vậy nếu lắp thêm một nguồn sáng hồng ngoại, hệ thống sẽ có được các ưu điểm:
- Tăng cường độ chính xác cho việc ước lượng hướng nhìn của mắt.
- Giảm bớt ảnh hưởng của các nguồn sáng môi trường xung quanh đối với việc ước lượng hướng nhìn của mắt.
- Kết quả ước lượng hướng nhìn của mắt sẽ được cải thiện kể cả với các trường hợp người dùng không nhìn trực diện vào vật thể.
Tuy nhiên, lựa chọn này cũng có các khuyết điểm:
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
- Thiết kế và lắp đặt hệ thống sẽ phức tạp hơn.
- Việc calib cho hệ thống trở nên phức tạp hơn.
2.2.3 Hệ thống sử dụng một camera và hai nguồn sáng
Với thiết kế này có một số nghiên cứu đã được công bố như:
- Nghiên cứu của White K và các đồng nghiệp [3] đã cải tiến độ chính xác cho máy tính cá nhân được điều khiền bằng mắt.
Nghiên cứu của Guestrin E và Eizenman M đã phát triển các lý thuyết tổng quan nhằm ước lượng hướng nhìn của mắt Trong đó, họ giới thiệu thuật toán xác định hướng nhìn thông qua việc sử dụng camera và nguồn sáng.
- Morimoto C và các đồng nghiệp với nghiên cứu chi tiết cho mô hình một camera và hai nguồn sáng ở tài liệu [5].
- Kết quả xác định hướng nhìn của mắt được cải thiện một cách rõ rệt so với khi sử dụng 1 nguồn sáng.
- Ảnh hưởng của việc dịch chuyển đầu hay không nhìn vật thể một cách trực diện được giảm thiểu.
- Do dùng nguồn sáng hồng ngoại nên hệ thống ít bị ảnh hưởng bởi sự thay đổi của ánh sáng môi trường xung quanh.
- Có thể thực hiện calib hệ thống một cách độc lập với người dùng.
Nhược điểm của hệ thống cũng tương tự với trường hợp sử dụng một nguồn sáng:
- Tốn thêm chi phí khi lắp thêm nguồn sáng thứ hai.
- Thiết kế và lắp đặt hệ thống sẽ phức tạp hơn.
- Việc calib cho hệ thống trở nên phức tạp hơn
- Các sai số về mối liên hệ vị trí giữa các thiết bị sẽ dẫn đến sai số rất lớn cho việc ước lượng hướng nhìn của mắt.
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
2.2.4 Hệ thống sử dụng một camera và nhiều nguồn sáng
Trong trường hợp này, người ta thường kết hợp các thuật toán cho hệ thống khi có một hoặc hai nguồn sáng Ngoài ra, việc đề xuất các thuật toán và mô hình toán học mới cũng rất quan trọng, như nghiên cứu của Coutinho F và Morimoto C, họ đã sử dụng các tính toán hồi quy để xác định hướng nhìn của mắt Thiết kế này mang lại nhiều ưu điểm cho hệ thống.
- Độ chính xác của hệ thống sẽ tăng lên so với khi chỉ dùng một hoặc hai nguồn sáng.
- Có thể thực hiện calib hệ thống một cách độc lập với người dùng.
- Khi sử dụng quá nhiều nguồn sáng sẽ rất khó khăn để phân tách và xác định vị trí các đốm sáng trên mắt.
- Nếu dùng quá nhiều nguồn sáng sẽ ảnh hưởng đến sức khỏe của người dùng.
- Chi phí thiết kế hệ thống sẽ tăng lên.
2.2.5 Hệ thống sử dụng nhiều camera
Tương tự như trường hợp sử dụng một camera để giám sát hướng nhìn của mắt, với thiết kế này:
- Độ chính xác của hệ thống tăng lên so với khi chỉ sử dụng một camera.
- Có thể xây dựng được mô hình 3D cho khuôn mặt của người dùng, từ đó có thể ước lượng sự dịch chuyển, xoay đầu của người dùng.
Tuy nhiên nó cũng các có nhược điểm:
- Giá thành thiết kế hệ thống sẽ tăng lên khá nhiều trong khi độ chính xác của hệ thống được cải thiện không quá nhiều.
- Quá trình calib cho hệ thống khá phức tạp.
2.2.6 Hệ thống sử dụng nhiều camera và một nguồn sáng
Thiết kế này giống như việc sử dụng một camera kết hợp với một nguồn sáng, đồng thời có thể tích hợp các thuật toán để xây dựng mô hình 3D cho khuôn mặt nhằm xác định chính xác hơn.
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT hướng nhìn của mắt Tuy nhiên, kết quả đo đạc cho hệ thống không có nhiều cải thiện so với chi phí bỏ ra.
2.2.7 Hệ thống sử dụng nhiều camera và nhiều nguồn sáng
Với thiết kế này có các nghiên cứu đã được công bố như:
- Lý thuyết tổng quan về việc xác định hướng nhìn của mắt do Guestrin E và
Guestrin [7] đã thực hiện thí nghiệm về hệ thống xác định hướng nhìn sử dụng 2 camera và 4 nguồn sáng, đồng thời ghi lại các kết quả trong luận văn của mình.
- Arar N và Thiran J [8] đã tiến hành nghiên cứu với các mô hình thiết kế khác nhau và đưa ra các so sánh như bảng tóm tắt dưới đây.
TABLE V: Comparison of existing eye tracking systems In ”Cam(s)” column, * indicates that a pan-tilt unit is employed.
The "Calib." column specifies the need for explicit camera and scene geometry calibrations, with "fully" indicating that both are necessary, while "pre" signifies that the sensor is pre-calibrated In the "Accuracy" section, "SH" represents stable head scenarios and "MH" denotes moving head scenarios The results pertain to person-specific scenarios based on within-dataset evaluations, unless otherwise noted.
The "HP" column specifies if users' head poses were stabilized, such as with a chinrest Meanwhile, the "FoV" column illustrates the system's working volume through the focal length in millimeters (mm), indicating that a shorter focal length results in a wider field of view (FoV).
Hình 2.6 Comparison of existing eye tracking systems
( Nguồn: Tài liệu Robust Real-Time Multi-View Eye Tracking [8] )
Thông qua các nghiên cứu đã được công bố, có thể thấy rằng:
- Độ chính xác của hệ thống tăng lên nếu tăng cường số lượng camera và nguồn sáng một cách hợp lý.
Hệ thống sử dụng nhiều camera đồng thời kết hợp với các thuật toán xác định góc xoay của đầu, từ đó nâng cao độ chính xác trong việc ước lượng hướng nhìn của mắt.
CHƯƠNG 2: CÁC PHƯƠNG ÁN LỰA CHỌN CHO HỆ THỐNG XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Quá trình calib hệ thống có thể được thực hiện một cách độc lập, không phụ thuộc vào việc sử dụng của người dùng Điều này giúp giảm thiểu các thông số phụ thuộc vào người dùng, chẳng hạn như bán kính cong của giác mạc.
Ngoài các ưu điểm có được, thiết kế này cũng có các nhược điểm:
- Giá thành lắp đặt hệ thống sẽ tăng rất nhiều, đặc biệt là trường hợp tăng số lượng camera cho hệ thống.
Khi số lượng nguồn sáng tăng quá nhiều, độ chính xác của hệ thống đo đạc sẽ giảm sút Việc xác định vị trí các đốm sáng trở nên khó khăn, dẫn đến tình trạng chồng lấn giữa các đốm sáng trên mắt Hơn nữa, việc tăng cường nguồn sáng cũng có thể gây ảnh hưởng tiêu cực đến mắt của người sử dụng.
- Việc lắp đặt hệ thống phức tạp hơn và thời gian calib cho hệ thống cũng tăng lên.
2.3 Phương án thiết kế chi tiết cho luận văn
2.3.1 Phân tích lại sự thỏa mãn yêu cầu của các phương án thiết kế
MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Các giả thuyết ban đầu và quy ước cho mô hình toán
3.1.1 Các giả thuyết ban đầu
- Các nguồn sáng được xem như nguồn sáng điểm.
- Các camera theo mô hình camera pinhole.
- Mặt cong giác mạc được xem như mặt cầu.
- Tâm của mặt cong giác mạc, tâm đồng tử, tâm quay của mắt nằm trên trục quang của mắt.
- Tâm quang của mắt trùng với tâm mặt cong giác mạc.
Có thể xác định chính xác vị trí các nguồn sáng và thông số của camera, đồng thời tọa độ 2D của tâm đồng tử và các đốm sáng trên mắt cũng được xác định rõ ràng trên khung ảnh số.
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
3.1.2 Các ký hiệu dùng trong mô hình toán
Hình 3.1 Sơ đồ mối quan hệ giữa tia sáng, mắt và camera
Trong Hình 3.1, các ký hiệu được sử dụng bao gồm: l i - nguồn sáng thứ i, o j - tâm quang của camera thứ j, v j - ảnh của tâm đồng tử trên camera j, u ij - ảnh của nguồn sáng thứ i trên camera j, q ij - điểm phản xạ của nguồn sáng thứ i đối với camera j, r j - điểm khúc xạ trên bề mặt mắt của tia sáng từ tâm đồng tử vào camera j, p - tâm đồng tử, và c - tâm của đường cong giác mạc, cũng là tiêu điểm của mắt.
R– là bán kính cong của giác mạc
K – là khoảng cách từ tâm đường cong giác mạc c đến tâm đồng tử p
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
3.1.3 Các hệ trục tọa độ dùng trong mô hình toán
(a) Hệ tọa độ thực ; (b) Hệ tọa độ camera ; (c) Hệ tọa độ ảnh
Hình 3.2 Các hệ trục tọa độ trong mô hình toán
Hệ tọa độ thực là một hệ trục tọa độ Descartes bao gồm các trục X, Y, Z, trong đó mặt phẳng XY trùng với mặt phẳng màn hình, với gốc tọa độ đặt tại tâm màn hình và trục X nằm ngang Các tọa độ được tính theo đơn vị milimet (mm).
Hệ tọa độ camera là một hệ trục tọa độ Descartes bao gồm các trục x, y, z Mặt phẳng xy của hệ tọa độ trùng với mặt phẳng của cảm biến thu ảnh (CCD hoặc CMOS), trong khi trục z tương ứng với trục quang của camera Trục x được định hướng theo hàng của cảm biến, và các tọa độ được tính theo đơn vị mm.
Hệ tọa độ ảnh là một hệ trục tọa độ 2 chiều, bao gồm hai trục r và c, đại diện cho tọa độ hàng và cột của ảnh Các tọa độ này được tính bằng pixel, bắt đầu từ góc trên bên trái của bức ảnh.
Mô hình toán áp dụng cho thiết kế đã được lựa chọn
3.2.1 Các phương trình và tính khả thi của bài toán
Hình 3.3 Sơ đồ nguồn sáng và ảnh phản xạ của nguồn sáng trên camera
Có thể quan sát lại sự phản xạ của chùm tia sáng thứ nhất l 1 ở Hình 3.3 Do q 11 là điểm phản xạ của chùm tia l 1 trên bề mặt giác mạc nên:
‖ 11 − ‖ = ; (R là bán kính cong của giác mạc)
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Theo định luật phản xạ ánh sáng, góc tới và góc phản xạ sẽ bằng nhau, với tia tới, tia phản xạ và đường pháp tuyến đồng phẳng Do đó, vector tại điểm q11 vuông góc với bề mặt giác mạc.
- Điều kiện để các điểm 1 , 11 , 1 , đồng phẳng:
Vì tia phản xạ ( 1 − 11 ) đi qua tâm quang của camera nên ba điểm 11 , 1 và
11 sẽ cùng nằm trên một đường thẳng và ta có được biểu thức:
Tương tự với chùm sáng xuất phát từ nguồn sáng thứ hai l 2 , ta cũng có được các biểu thức:
‖ 21 − ‖ = ; (R là bán kính cong của giác mạc)
Hình 3.4 Sơ đồ ảnh thu được của tâm đồng tử p
Có thể quan sát lại Hình 3.4 , xem xét với K là khoảng cách giữa ảnh tâm đồng tử p và tâm cong giác mạc c, ta sẽ có phương trình:
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
Xem xét tia sáng đi từ p qua tâm quang của camera o 1 , giao với mặt phẳng ảnh của camera tại v 1 , như vậy:
Giả sử tọa độ thực của các điểm l1, l2, o1, u11, u21 và v1 đã được xác định, cùng với các thông số mắt R và K Chúng ta xem lại các phương trình từ hệ thống, bao gồm 7 biểu thức vô hướng và 3 biểu thức vector Mỗi biểu thức vector có thể chia thành 3 biểu thức vô hướng tương ứng với các trục tọa độ X, Y, Z trong hệ trục tọa độ thực Như vậy, tổng cộng có 16 phương trình.
Hình 3.5 Ý tưởng chính của mô hình toán nằm ở vectơ chỉ phương b
Trong 16 phương trình đã nêu, có 15 đại lượng vô hướng chưa biết, bao gồm tọa độ thực của 4 điểm q11, q21, p và c, với mỗi tọa độ điểm chứa 3 đại lượng tương ứng với các trục X, Y, Z Ngoài ra, còn có các hệ số vô hướng chưa biết k q11, k q12 và k p Điều này cho thấy bài toán có thể giải được Nếu giả sử hệ thống chỉ sử dụng một nguồn sáng, ta sẽ có những kết quả khác.
4 biểu thức vô hướng và 2 biểu thức vector Điều này tương ứng với việc hệ thống sẽ có
10 phương trình, nhưng lại có tới 11 đại lượng vô hướng chưa biết (q 11 , p, c, k q11 và k p ).
Do đó, với trường hợp chỉ sử dụng một nguồn sáng, ta sẽ không thể sử dụng mô hình toán này để áp dụng cho hệ thống.
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT
3.2.2 Giải các phương trình và tìm ra hướng nhìn của mắt
3.2.2.1 Giải các phương trình Ở các công thức (3.3) và (3.4) có nhắc đến các điểm l 1 , q 11 , o 1 , u 11 và c là đồng phẳng Tương tự như vậy ở các công thức (3.7) và (3.8) đã chứng minh các điểm điểm l 2 , q 21 , o 1 , u 21 và c là đồng phẳng Từ các thông tin này ta có thể suy ra o 1 và c cùng nằm trên giao tuyến của hai mặt phẳng vừa nêu trên Vectơ chỉ phương của đường giao tuyến này có thể được biểu diễn như sau:
Nếu b ≠ ⃗ 0, tâm của mặt cong giác mạc c có thể viết lại dưới dạng:
Hệ số dương b thể hiện khoảng cách giữa tâm mặt cong của giác mạc và tâm quang của camera Để đạt được điều kiện b ≠ ⃗ 0, có thể sắp xếp các nguồn sáng và camera theo hình chữ V.
Lấy phương trình (3.4) trừ đi phương trình (3.12) rồi thế vào phương trình (3.1) ta sẽ có biểu thức:
Công thức trên có thể được viết lại:
Từ phương trình (3.1) và (3.12), ta thấy rằng q11 phải nằm trên đường tròn có tâm c và bán kính R, đồng thời cũng nằm trên đường thẳng o1 u11 Giải phương trình bậc 2 theo biến k q11 trong phương trình (3.14) sẽ cho ra hai nghiệm, trong đó nghiệm âm sẽ được giữ lại vì nó cho phép xác định vị trí của q11 trên bề mặt giác mạc.
Biểu thức (3.15) được thay vào công thức (3.4) để biểu diễn q 11 như một hàm của biến _1 Sau đó, kết quả này sẽ được áp dụng vào biểu thức (3.2) để giải và tìm ra giá trị.
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT trị của _1 (Nhắc lại, tọa độ các điểm o 1 , l 1 đã biết trước Tọa độ c được biểu diễn thông qua k c như đã trình bày ở biểu thức (3.12)).
Tương tự, áp dụng cách tính toán này với các biểu thức (3.5) , (3.8) và (3.12) ta sẽ thu được k q21 :
Biểu thức (3.16) sẽ được thay vào (3.8) để biểu diễn q21 như một hàm của biến _2 Sau đó, kết quả này sẽ được sử dụng trong biểu thức (3.6) để giải và tìm giá trị của _2 Cuối cùng, qua các bước tính toán, chúng ta sẽ xác định được giá trị trung bình của _1 và _2.
Tương tự cách tính toán đã nêu, kết hợp các biểu thức (3.9) , (3.10) và (3.12) sẽ tìm được biểu thức tính k p theo k c như sau:
Với giá trị k c và b norm đã xác định từ bước tính toán trước, chúng ta có thể dễ dàng tính giá trị k p Từ đó, tọa độ của các điểm c và p cũng được xác định một cách chính xác.
3.2.2.2 Tìm ra hướng nhìn của mắt
Hình 3.6 Điểm nhìn của mắt
Xác định điểm nhìn của mắt là bước quan trọng, với g là giao điểm giữa trục ảo của mắt và màn hình Trục ảo của mắt là đường thẳng đi qua tâm quang và hố thị giác, lệch khoảng 5 độ so với trục quang Tâm quang di chuyển tương đối với tâm mặt cong giác mạc c, phụ thuộc vào sự điều tiết của mắt.
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT khoảng cách giữa chúng duy trì nhỏ hơn 1mm [11] Để đơn giản cho việc tính toán, ta có thể giả sử tâm quang của mắt trùng với c.
Hướng trục quang của mắt được biểu diễn thông qua các góc xoay θ eye và ϕ eye, trong đó θ eye là góc theo phương ngang (phương X) và ϕ eye là góc theo phương đứng (phương Y), như thể hiện trong Hình 3.7.
Hình 3.7 Mô hình trục quang của mắt
Dựa trên Hình 3.7 , ta có thể biểu diễn trục quang của mắt bằng phương trình sau: cos φ eye sin θ eye
Hướng của trục ảo được xác định bởi góc ngang (θ eye + α eye) và góc đứng (ϕ eye), trong đó α eye và β eye lần lượt là góc theo phương ngang và phương đứng từ trục ảo tới trục quang.
+ β eye ) Quan sát Hình 3.6 và Hình 3.7 , ta có thể xác định vị trí điểm g bằng phương trình:
Vì hệ trục tọa độ gốc của hệ thống gắn tại trung tâm của màn hình (xem lại Hình
3.2) nên g Z = 0 (tọa độ theo phương Z của g) và từ đó ta tính được:
Z cos(φ eye + β eye ) cos(θ eye + α Khi tính toán cần lưu ý thêm: β eye > 0, với mắt phải α eye < 0 và với mắt trái α eye > 0.
Sau khi xác định tọa độ của điểm c và p, trục quang của mắt sẽ được biểu diễn thông qua các góc xoay θ eye và φ eye theo công thức (3.18).
CHƯƠNG 3: MÔ HÌNH TOÁN ĐỂ XÁC ĐỊNH HƯỚNG NHÌN CỦA MẮT φ eye = sin −1 θ eye = sin −1
Khi có được giá trị θ eye và φ eye , điểm nhìn g có thể tìm được thông qua các biểu thức (3.19) và (3.20)
CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU 32 4.1 Cơ sở lý thuyết xử lý ảnh số
Giới thiệu về ảnh số
4.1.1.1 Ảnh số là gì? Ảnh số (“digital image” hay còn được biết đến như “raster image” hoặc
Hình ảnh bitmapped là tập hợp các pixel được sắp xếp theo hàng và cột xác định Mỗi pixel là phần tử nhỏ nhất trong bức ảnh số, chứa thông tin về độ sáng và màu sắc tại vị trí của nó.
Trên thức tế, tùy vào mục đích sử dụng, người ta sẽ sử dụng các loại ảnh số khác nhau như:
Ảnh màu là loại hình ảnh mà mỗi pixel được cấu thành từ 3 lớp màu khác nhau, cho phép thể hiện cường độ và độ sắc nét của ánh sáng Các kênh màu thường được sử dụng bao gồm hệ màu RGB, HSL/HSV, YCbCr, YUV, CIE và CMYK, nhưng phổ biến nhất vẫn là hệ màu RGB với 3 lớp màu đỏ, xanh lục và xanh lam để tạo ra màu sắc ánh sáng.
Hình 4.1 Ảnh số được cấu tạo bởi 3 lớp màu
( Nguồn: https://i.ytimg.com/vi/ZqUotba3V5Y/maxresdefault.jpg )
Bằng cách kết hợp ba màu cơ bản, chúng ta có thể tạo ra mọi màu sắc Nếu mỗi màu có 256 mức cường độ và mỗi pixel được lưu trữ trong 3 bytes (24 bits), chúng ta có khả năng tạo ra một dải màu phong phú và đa dạng.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Hình 4.2 Sự trộn phối các màu cơ bản
( Nguồn: https://zw098csf0g-flywheel.netdna-ssl.com/wp-content/uploads/2017/12/Depositphotos_78832566_s-2015.jpg )
Ảnh xám, hay hình ảnh đen trắng, là loại hình ảnh mà mỗi pixel chứa giá trị biểu thị mức xám tại vị trí tương ứng Mức xám được chia thành 256 cấp độ từ đen đến trắng, mặc dù mắt người chỉ có khả năng phân biệt khoảng 200 mức Điều này cho phép chuỗi 256 mức xám tạo ra một dải màu liên tục, giúp người xem nhận diện rõ ràng các sắc thái khác nhau trong ảnh.
Hình 4.3 Dải mức xám từ đen đến trắng trong ảnh xám
( Nguồn: http://rosettacode.org/mw/images/f/f1/GrayscalesR.png
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
- Ảnh nhị phân (binary image): là ảnh số mà mỗi pixel chỉ có thể chứa giá trị 0 hoặc
2 Có nghĩa là mỗi pixel chỉ có thể thể hiện được 2 màu sắc: màu trắng hoặc màu đen. Như vậy, trong một bức ảnh nhị phân, nếu màu đen được chọn làm màu nền, thì màu trắng sẽ là màu thể hiện vật thể và ngược lại.
Độ phân giải của ảnh số là chỉ số thể hiện mức độ chi tiết và thông tin trong bức ảnh Một bức ảnh số với độ phân giải cao sẽ chứa nhiều thông tin hơn, mang lại hình ảnh rõ nét và chi tiết hơn.
Hình 4.5 Các ảnh thể hiện chữ R có cùng kích thước với độ phân giải ảnh khác nhau
( Nguồn: https://en.wikipedia.org/wiki/Image_resolution#/media/File:Resolution_illustration.png ) Độ phân giải của một bức ảnh có thể được đo đạt bằng nhiều cách Trong đó định nghĩa thường được sử dụng nhiều nhất là việc đếm tổng số lượng pixel có trong một bức ảnh Con số này trên thực tế được biết đến như số lượng megapixels (lấy tổng số hàng pixels đem nhân với tổng số cột pixels rồi đem chia cho 1 triệu) hay số lượng pixels trên một đơn vị chiều dài hoặc một đơn vị diện tích (pixels/inch hoặc pixels/inch 2 ).
Ngoài ra còn có các cách đo đạc mức độ phân giải bổ sung cho bức ảnh số nhưSpatial resolution và Spectral resolution.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Giới thiệu về xử lý ảnh số
Xử lý ảnh là quá trình áp dụng các thuật toán lên ảnh số nhằm tạo ra bức ảnh mới theo yêu cầu hoặc trích xuất thông tin mong muốn từ ảnh gốc Quá trình này tương tự như một hệ thống phân phối, trong đó đầu vào là ảnh từ máy ảnh, camera, video hoặc ảnh số, và đầu ra là bức ảnh đã được chỉnh sửa hoặc các thuộc tính, thông tin liên quan đến ảnh đó.
Hệ thống xử lý ảnh cơ bản sẽ bao gồm 3 bước:
- Thu thập hình ảnh đầu vào bằng các máy quét quang học hoặc lấy trực tiếp từ các bức ảnh số.
Phân tích và xử lý hình ảnh bao gồm nén dữ liệu, tăng cường độ sắc nét và đánh dấu các điểm nổi bật Quá trình này có thể được chia thành ba cấp độ khác nhau.
Hình 4.6 Phân chia các cấp độ xử lý ảnh
Kết quả cuối cùng của quá trình xử lý ảnh có thể là một bức ảnh đã được chỉnh sửa hoặc là một tập hợp thông tin được trích xuất từ việc phân tích hình ảnh.
Mục đích của việc xử lý ảnh có thể chia ra thành 5 nhóm:
- Nhóm 1: Kiểm tra xem một vật thể nào đó có xuất hiện trong bức ảnh hay không.
- Nhóm 2: Tăng độ sắc nét, khôi phục lại các thông tin bị mất trên ảnh.
- Nhóm 3 Tìm kiếm các vùng đặc biệt của ảnh.
- Nhóm 4: Đo đạc kích thước các vật thể trong ảnh.
- Nhóm 5: Phân biệt và phát hiện các vật thể khác nhau trong ảnh.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Chuyển ảnh màu thành ảnh xám hoặc ảnh nhị phân
4.1.3.1 Chuyển ảnh màu thành ảnh xám
Tại mỗi pixel của ảnh số, người ta thường sử dụng 1 trong 3 cách sau đây để chuyển ảnh màu thành ảnh xám:
- Phương pháp lightness: lấy trung bình giá trị màu cao nhất và thấp nhất của pixel để tính ra giá trị mức xám I tại pixel đó.
- Phương pháp lấy giá trị trung bình: Lấy giá trị trung bình của 3 màu Red, Green, Blue của pixel để tính ra giá trị mức xám I tại pixel đó.
Phương pháp luminosity tính toán giá trị mức xám cho từng pixel bằng cách áp dụng trọng số cho các màu Đỏ, Xanh lá, và Xanh dương Những trọng số này được nghiên cứu kỹ lưỡng và phát triển theo từng dòng TV khác nhau, nhằm tối ưu hóa chất lượng hình ảnh.
TV analog đời cũ dùng hệ màu PAL hoặc NTSC để hiện thị ảnh màu trắng đen:
Mức xám I = 0.299R + 0.587G + 0.114B Công thức (4.3) cũng là công thức mặc định để chuyển ảnh màu sang ảnh xám trong các thư viện xử lý ảnh như OpenCV.
Với các dòng High-definition television (HDTV):
Mức xám I = 0.2126R + 0.7152G + 0.0722B Với HDR television để có được ảnh màu trắng đen:
Mức xám I được tính bằng công thức I = 0.2627R + 0.6780G + 0.0593B Sử dụng phương pháp lấy giá trị trung bình có thể dẫn đến ảnh xám đầu ra quá tối, trong khi phương pháp lightness lại làm giảm độ tương phản của ảnh trắng đen Do đó, phương pháp luminosity thường được ưa chuộng, vì nó giúp duy trì độ tương phản và độ sáng cho bức ảnh.
Trong một số trường hợp đặc biệt, ảnh xám đầu ra của cả ba phương pháp có thể rất giống nhau, khiến việc xác định phương pháp nào tốt hơn trở nên khó khăn.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
4.1.3.2 Chuyển ảnh màu sang ảnh nhị phân Để chuyển ảnh màu sang ảnh nhị phân, trước tiên ảnh màu sẽ được chuyển sang ảnh xám và sau đó ảnh xám này sẽ được chuyển đổi sang ảnh nhị phân.
4.1.3.3 Ảnh xám chuyển sang ảnh nhị phân
Việc chuyển đổi ảnh xám sang ảnh nhị phân được thực hiện thông qua việc xác định ngưỡng cường độ sáng, ký hiệu là T, cho từng điểm ảnh.
- Gọi I(x,y) là giá trị cường độ sáng tại điểm ảnh có tọa độ x, y.
- Gọi b(x,y) là giá trị pixel của ảnh nhị phân tại điểm ảnh có tọa độ x, y.
Các phương pháp lọc nhiễu và làm trơn ảnh
Trong xử lý ảnh số, việc lọc nhiễu và làm mịn ảnh thường sử dụng các mặt nạ số, hay còn gọi là kernel, mask, hoặc filter Những mặt nạ này là các ma trận 2D được trượt trên ma trận ảnh số để thực hiện các phép toán cần thiết Cách thức hoạt động của các mặt nạ này có thể được minh họa qua hình ảnh tương ứng.
Trong Hình 4.7, quá trình tính toán khi áp dụng mặt nạ 3x3 lên khung ảnh số được minh họa Khi dịch chuyển tâm của mặt nạ từ trái sang phải và từ trên xuống dưới, các phép tính toán sẽ được thực hiện, tạo ra ảnh mới.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU sau khi lọc Như phần bên phải Hình 4.7 là một ví dụ về cách tính toán giá trị cho một pixel của ảnh sau khi lọc.
Khi áp dụng mặt nạ lên khung ảnh số, chúng ta thường gặp phải một số vấn đề liên quan đến vùng rìa của ảnh Để khắc phục những tình huống này, có một số giải pháp được đề xuất.
Trong trường hợp 1, ảnh số trước và sau khi xử lý lọc nhiễu sẽ giữ nguyên kích thước Giá trị mỗi pixel trong ảnh đầu ra được tính bằng cách quét tâm của mặt nạ (kernel) trên toàn bộ khung ảnh số đầu vào và tổng hợp các cặp điểm tương ứng giữa mặt nạ và ảnh Để thực hiện các phép toán ở phần rìa của ảnh số, ta sẽ mở rộng ảnh đầu vào bằng cách thêm các pixel có giá trị 0, như vùng màu đỏ trong hình minh họa.
Hình 4.8 Ảnh số trước và sau xử lý lọc nhiễu có cùng kích thước
( Nguồn: https://2.bp.blogspot.com/_b1r1UJs_aVQ/ShJnoWlELxI/AAAAAAAAAA8/jQd-YniOsoM/s400/20090114081152591.jpg.jpg )
Trong trường hợp ảnh số có kích thước × (pixels) và mặt nạ kích thước × (pixels), kích thước ảnh đầu ra sẽ là ( + − 1) × ( + − 1) Giá trị mỗi pixel của ảnh đầu ra được tính bằng cách quét tuần tự từng pixel của mặt nạ kernel lên ảnh đầu vào, đồng thời tính tổng tích các cặp điểm tương ứng Khi quét, nếu có điểm trên mặt nạ kernel nằm ngoài vùng ảnh số, tích tại các điểm này sẽ được tính là 0.
Hình 4.9 Ảnh số sau xử lý lọc nhiễu có kích thước lớn hơn kích thước ảnh đầu vào
( Nguồn: http://4.bp.blogspot.com/_b1r1UJs_aVQ/ShJpnMFX63I/AAAAAAAAABM/toqowTrPnZI/s1600-h/20090114091639668.jpg )
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
- Trường hợp 3: Nếu ảnh số có kích thước là × , mặt nạ kernel kích thước là × thì ảnh đầu ra sẽ có kích thước là (
Giá trị của từng pixel trong ảnh đầu ra sẽ được tính toán như những trường hợp trước, nhưng với điều kiện là mặt nạ kernel trong quá trình quét luôn nằm hoàn toàn bên trong khuôn ảnh số đầu vào.
Hình 4.10 Ảnh số sau xử lý lọc nhiễu có kích thước nhỏ hơn kích thước ảnh đầu vào
( Nguồn: http://3.bp.blogspot.com/_b1r1UJs_aVQ/ShJqavR41yI/AAAAAAAAABc/dD410-NwLXI/s1600-h/20090114084801528.jpg )
Các công thức toán tổng quan về lọc nhiễu và làm trơn ảnh
Dựa trên ý tưởng và phương pháp lọc ảnh đã được trình bày, về mặt toán học, có hai phương pháp lọc ảnh chính được phân chia như sau.
- Lọc ảnh theo phương pháp Cross-correlation: Một ảnh số 2D f[i,j] được lọc bởi mặt nạ kernel 2D h[u,v] để tạo thành một ảnh mới g[i,j].
Biểu thức trên còn được gọi là phép toán cross-correlation và nó có thể viết gọn lại như sau:
Phép lọc ảnh theo phương pháp Convolution tương tự như cross-correlation, nhưng với đặc điểm là mặt nạ kernel của convolution được đối xứng theo cả hai phương ngang và dọc Điều này có nghĩa là phép lọc convolution thực chất là phép lọc cross-correlation, chỉ khác ở chỗ mặt nạ được lấy đối xứng trước khi áp dụng vào việc lọc ảnh Công thức của phép toán convolution có thể được viết lại một cách chính xác.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Công thức rút gọn của phép toán convolution:
Phép toán cross-correlation thường được sử dụng để tìm kiếm vùng ảnh tương tự với ảnh mẫu, trong khi phép toán convolution chủ yếu được áp dụng để lọc nhiễu và làm mờ ảnh số Nếu mặt nạ kernel được sử dụng đối xứng, thì hai phép toán này sẽ trở nên hoàn toàn giống nhau.
Với phép toán convolution, phép toán này có các đặc điểm nổi bật như sau:
Trong đó: f, g và h là các hàm tùy ý; a là hằng số.
Các phép toán áp dụng lên ảnh số thường được thực hiện thông qua việc sử dụng các thuật toán trên mặt nạ kernel Sau khi áp dụng các thuật toán này lên mặt nạ kernel, chúng ta có thể trượt nó trên ảnh số để thực hiện các tính toán cần thiết.
Gradient của ảnh số
Gradient trong ảnh số là một vector chỉ hướng thể hiện tốc độ thay đổi cường độ ánh sáng hoặc màu sắc Để xác định gradient tại một điểm cụ thể trong ảnh, ta sử dụng công thức nhất định.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Hình 4.11 Gradient của 1 điểm ảnh theo các hướng khác nhau
Hình 4.12 Ví dụ về gradient của ảnh theo lần lượt 2 phương x và y
( Nguồn: https://en.wikipedia.org/wiki/Image_gradient )
Hướng của gradient tại một điểm ảnh xác định bằng công thức:
= tan −1 ( Độ lớn của gradient tại một điểm ảnh được xác định bằng công thức:
Các công thức tổng quát được nêu ra là nền tảng để tính gradient trên ảnh số Để tính gradient cụ thể theo phương x hoặc y, thường áp dụng các công thức chuyên biệt.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Với giá trị x là tọa độ, hay vị trí của pixel theo phương x.
Tại các vùng biên của ảnh, người ta sẽ dùng forward difference để tính gradient, đồng thời lấy = 1 như giá trị mặc định.
Đối với các vùng ảnh nằm xa rìa, công thức central difference được sử dụng để tính gradient, với giá trị mặc định là 2 cho phép tính này Dưới đây là ví dụ cụ thể về việc tính gradient trên ảnh số với ảnh xám đầu vào.
Kết quả tính gradient cho từng điểm ảnh theo phương x
Hình 4.13 Ví dụ về cách tính gradient cho ảnh số
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Các phương pháp xác định vị trí khuôn mặt và mắt người
4.2.1 Tổng quan về các phương pháp xác định khuôn mặt người trong ảnh số Trong suốt hơn 50 năm phát triển của lĩnh vực xử lý ảnh (computer vision), con người đã đạt được rất nhiều thành tựu vĩ đại Mà trong đó mảng nghiên cứu không thể không kể đến đó là bài toán xác định vị trí khuôn mặt của con người (face detection) trong khung ảnh (ảnh kỹ thuật số).
Hiện nay, có nhiều phương pháp nhận dạng và xác định vị trí khuôn mặt người, có thể phân chia thành ba hướng tiếp cận chính.
Hướng tiếp cận dựa trên các đặc trưng không thay đổi của khuôn mặt người nhằm tìm kiếm các thuật toán hiệu quả để xác định và mô tả cấu trúc khuôn mặt Mục tiêu chính là phát triển các phương pháp nhận diện khuôn mặt dựa trên những đặc điểm cố định, từ đó nâng cao độ chính xác trong việc phân tích và nhận diện khuôn mặt.
Phương pháp khớp mẫu (template matching) là một cách tiếp cận hiệu quả trong việc xác định vị trí khuôn mặt Bằng cách sử dụng các mẫu chuẩn hoặc mẫu đặc trưng, phương pháp này giúp so sánh và phát hiện khuôn mặt một cách chính xác.
- 3 - Hướng tiếp cận máy học (machine learning): Người ta dùng một tập ảnh mẫu để huấn luyện máy tính nhận diện mặt người bằng các thuật toán khác nhau.
Dưới đây là các nghiên cứu nổi tiếng được nhiều người biết đến trong suốt tiến trình phát triển triển của lịch sử nghiên cứu.
Bảng 4.1 Các nghiên cứu xử lý ảnh nổi tiếng về việc nhận diện khuôn mặt người
Ngoài các nghiên cứu trong Bảng 4.1, còn nhiều nghiên cứu liên quan đến xác định vị trí và nhận dạng khuôn mặt người đã được công bố và ứng dụng Việc lựa chọn phương pháp nhận diện khuôn mặt phụ thuộc vào hiệu quả, mức độ phức tạp và tốc độ xử lý của từng phương pháp.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Trong bài luận văn này, tác giả sẽ trình bày cơ sở lý thuyết của phương pháp xác định vị trí mặt người do Vila và Jones phát triển, mà không thực hiện so sánh với các phương pháp nhận diện khác Phương pháp này cũng sẽ được áp dụng trong đề tài luận văn đã đăng ký.
4.2.2 Thuật toán nhận diện vị trí khuôn mặt người của Viola & Jones
4.2.2.1 Đặc trưng Haar-like Đặc trưng Haar-like (“Haar-like feature” hay “Haar feature”) là các đặc trưng trong ảnh kỹ thuật số dùng để nhận biết một vật thể nào đó Các đặc trưng Haar-like được Viola & Jones đặt tên và lấy ý tưởng dựa trên hoạt động của hàm Haar mà Papageorgiou đã ứng dụng trong nghiên cứu của mình [14].
Hình 4.14 Các đặc trưng Haar-like cơ bản áp vào khuôn mặt người
( Nguồn: https://docs.opencv.org/3.3.0/haar.png )
Đặc trưng Haar-like giống như một mặt nạ (convolution kernel) dùng để phát hiện các vùng đặc trưng trong ảnh, được tạo ra bằng cách kết hợp các hình chữ nhật đen và trắng theo một trật tự và kích thước nhất định Tất cả các pixel trong vùng hình chữ nhật màu đen sẽ có hệ số riêng.
1, và tất cả các pixel trong vùng hình chữ nhật màu trắng sẽ có hệ số là -1.
Áp dụng đặc trưng Haar-like vào ảnh, như ở Hình 4.14, cho phép chúng ta phân tích mức độ sáng khác nhau giữa vùng mắt và gò má của người đàn ông Mặt nạ thứ hai tiếp tục cung cấp thông tin về sự chênh lệch độ sáng giữa vùng mắt và sóng mũi, giúp hiểu rõ hơn về các đặc điểm khuôn mặt.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU Đây cũng là ý tưởng chủ đạo để Viola & Jones đưa ra giải thuật nhận diện khuôn mặt Khi so sánh độ chênh lệch về cường độ sáng thông qua các đặc trưng Haar-like với một ngưỡng so sánh cụ thể chúng ta có thể dự đoán được vùng ảnh này có chứa khuôn mặt người hay không.
Trong bài báo công bố vào năm 2001, Viola & Jones đưa ra 4 đặc trưng Haar-like cơ bản như sau:
Hình 4.15 Bốn đặc trưng Haar-like cơ bản được Viola & Jones công bố
Để nâng cao thuật toán do Viola & Jones công bố, năm 2002, Lienhart đã tổ chức và mở rộng các đặc trưng Haar-like cơ bản thành các nhóm đặc trưng cạnh, đặc trưng đường và đặc trưng tâm.
Hình 4.16 Các đặc trưng Haar-like cơ bản do Lienhart mở rộng và cải tiến
Các đặc trưng Haar-like được tính toán cho một ảnh cụ thể bằng công thức: f(x, y) = (Tổng các mức xám của các pixel trong vùng đen) – (Tổng các mức xám của các pixel trong vùng trắng).
Khi áp dụng đặc trưng Haar-like 24x24 pixels vào một vị trí cụ thể trên ảnh, ít nhất cần thực hiện 574 phép cộng và 1 phép trừ Nếu di chuyển đặc trưng này trên toàn bộ khung ảnh, số lượng phép tính sẽ tăng lên đáng kể, dẫn đến chi phí thời gian cao hơn.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
4.2.2.2 Ảnh tích phân - Integral image
Nhằm đáp ứng nhu cầu tính toán tổng mức xám tại các vùng ảnh khác nhau, Viola & Jones đã giới thiệu một khái niệm và phương pháp tính toán mới để giải quyết vấn đề này.
Khái niệm "integral image" đề cập đến một bức ảnh mới, trong đó tổng hợp tất cả các mức xám của các pixel trong một vùng ảnh hình chữ nhật, bắt đầu từ pixel (0,0) đến pixel có tọa độ (x,y).
Hình 4.17 Ví dụ về cách tính toán cho ảnh tích phân - integral image
Ví dụ như ở Hình 4.17 , ta tạm gọi ảnh xám là A, ảnh tích phân - integral image là
B Để tính giá trị mức xám tại pixel (1,2) của B, ta tính tổng mức xám các pixel của A như sau:
B_value (1,2) = A_value (0,0) + A_value (0,1) + A_value (0,2) + A_value (1,0) + A_value (1,1) + A_value (1,2) = 207 + 200 + 62 + 2 +10 + 186 = 667
Một các tổng quát, integral image có thể được thiết lập bằng công thức sau:
Phương pháp xác định vị trí của tâm đồng tử và các đốm sáng
Nhiều phương pháp đã được đề xuất để xác định vị trí của tâm đồng tử và các đốm sáng, nhưng phương pháp hiệu quả nhất cho đến nay là của Roberto Valenti và Theo Gevers [16].
4.3.1 Giới thiệu về đường isophote
Isophote trong ảnh là các đường cong nối liền những điểm có cường độ sáng giống nhau Những đường này không giao nhau, cho phép mô tả bức ảnh chỉ bằng các đường isophote Đặc biệt, hình dạng của các đường isophote không bị ảnh hưởng bởi góc quay hay sự thay đổi ánh sáng theo cách tuyến tính.
Do đó, các đường isophote có thể được sử dụng như một đặc tính cho việc phát hiện vật thể và tách hình ảnh.
Hình 4.22 Ví dụ về đường cong isophote
Để xác định các đường cong isophote trong ảnh số, mỗi điểm ảnh được gán một hệ trục tọa độ cục bộ, theo hướng thay đổi cường độ sáng mạnh nhất Hệ tọa độ này có hai trục { , } được gọi là hệ tọa độ đánh giá, với các vector được định nghĩa là ̂ ⊥ ̂, ̂ = ̂ = Các đường isophote và hình ảnh 3D thể hiện sự thay đổi cường độ sáng tại các điểm trên ảnh sẽ giúp phân tích sâu hơn về thông tin hình ảnh.
Với và là đạo hàm bậc nhất của hàm giá trị độ sáng (luminance function) L(x,y) tại điểm ảnh đang xét theo trục x và y tương ứng.
Từ các phân tích đánh giá phía trên, L v = 0, và suy ra ′ = 0
Tiếp tục lấy đạo hàm (4.29) theo v:
+2 ′+ ′ 2 + ′′ =0 Đặt = ′′, và với ′ = 0, đường cong isophote tìm được sẽ là:
Trong hệ tọa độ Descartes, công thức (4.31) trở thành:
Tâ m củ ac ác đư ờn gis op
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Đạo hàm L theo hướng của trục w được xác định là giá trị gradient của ảnh, trong khi đó, do độ sáng không thay đổi dọc theo các đường isophote, nên đạo hàm L theo hướng của trục v sẽ bằng 0.
Trong hệ trục tọa đánh giá, một đường isophote có thể được định nghĩa:
( , ( )) = (4.28) Và các đường cong của nó được định nghĩa bằng sự thay đổi ′′ của vector tiếp tuyến ′ Bằng phép lấy đạo hàm ẩn L(v,w(v)) theo v, ta có:
Từ biểu thức đường cong isophote, ta có thể tính bán kính cong và xác định tâm của đường cong Để làm điều này, ngoài bán kính cong, cần ước tính hướng của vector bán kính từ các giá trị gradient Hướng gradient chỉ ra phía có độ thay đổi cường độ sáng lớn nhất; nếu vùng ngoài sáng hơn vùng trong, gradient sẽ dương và ngược lại.
Giá trị độ lớn của gradient tại một điểm có thể biểu diễn bằng { ,
Bằng cách nhân giá trị gradient với nghịch đảo của biểu thức đường cong isophote, chúng ta có thể tạo ra một vector thay thế để ước lượng vị trí của tâm đường cong.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Các vector thay thế sẽ hướng vào tâm đường cong và được cộng dồn vào bản đồ phân bố tâm để xác định vị trí tốt nhất của tâm đường cong Do mỗi vector chỉ cung cấp ước tính sơ bộ, cần sử dụng bộ lọc Gaussian để xác định vị trí duy nhất của tâm đường cong tại mỗi cụm khối tâm đã được đề xuất.
Hình 4.23 Ví dụ về việc tìm tâm của các đường isophote
(a) Hướng của gradient; (b) Các vector thay thế chỉ vào tâm của đường cong; (c) Tâm được đánh giá bởi các vector ( Nguồn: Tài liệu [16] )
4.3.3 Xác định tâm đường isophote
Việc sử dụng mặt nạ Gaussian để xử lý ảnh giúp tăng cường đường isophote xung quanh biên của vật thể, tạo ra các đường isophote mới có tỷ lệ tương ứng với đường cũ Số lượng đường isophote mới có thể được quan sát rõ ràng trong quá trình này.
Không có đảm bảo rằng cường độ sáng của mọi đường biên của vật thể sẽ đồng nhất Khi cho phép mỗi đường isophote tự xác định tâm cong, việc tìm tâm cong chính xác trở nên khó khăn do hình dạng của các đường isophote không phản ánh đúng hình dạng vật thể Để khắc phục, chỉ những phần của đường isophote chạy dọc theo cạnh vật thể được sử dụng để xác định tâm cong, thông qua công thức tính toán đường cong biểu thị biên dạng của vật thể.
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU Đường cong curvedness ít bị thay đổi đối với các bề mặt phẳng rộng hoặc các cạnh thẳng Đường cong curvedness chỉ đáp ứng tốt với những nơi có mật độ các đường isophote lớn, đó chính là cạnh của vật thể Điều này có nghĩa là nếu chọn những phần của các đường isophote tại những nơi mà đường cong curvedness có giá trị lớn nhất, chúng sẽ đi theo biên của vật thể và cùng bầu chọn cho cùng một vùng tâm cong.
Hình 4.24 Ví dụ về đường isophote và đường cong curvedness
(a) Các đường isophote của một hình cầu ; (b) Đường cong curvedness của ảnh hình cầu ( Nguồn: Tài liệu [16] )
4.3.4 Cách xác định tâm đồng tử và tâm các đốm sáng Ý tưởng xuyên suốt để xác định vị trí tâm đồng tử hoặc tâm các đốm sáng là với mỗi một đường cong isophote sẽ tìm được một vector bán kính cong Mỗi vector bán kính cong sẽ chỉ ra vị trí tâm của đường cong đang xét Tổng hợp kết quả của tất cả các tâm cong sẽ tìm được vị trí của tâm đồng tử hoặc tâm đốm sáng Tuy nhiên để biết chính xác đó là tâm đồng tử hay tâm đốm sáng cần phải xét đến độ lớn của bán kính cong và độ chênh lệch cường độ sáng giữa các vùng ảnh bên trong và bên ngoài đường cong đang xét.
Hình 4.25 Ví dụ về các đường cong isophote bình chọn vị trí cho tâm đường tròn
CHƯƠNG 4: CƠ SỞ LÝ THUYẾT XỬ LÝ ẢNH ÁP DỤNG CHO NGHIÊN CỨU
Dấu của các đường isophote, hay hệ số k, phản ánh sự chênh lệch cường độ sáng giữa vùng bên ngoài và bên trong đường cong Nếu vùng ngoài sáng hơn vùng trong, k sẽ có dấu dương, ngược lại, nếu vùng trong sáng hơn, k sẽ có dấu âm Do đó, việc phân tích dấu của đường cong isophote giúp phân biệt rõ ràng giữa các vùng sáng và tối.
Dựa vào đặc tính sinh học của mắt, vùng tròng trắng sáng hơn tròng đen, giúp loại bỏ những tâm cong có giá trị isophote dương trong quá trình bầu chọn, từ đó xác định chính xác tâm đồng tử của mắt.
Các đốm sáng quanh tròng đen mắt thường có phần bên trong sáng hơn phần bên ngoài, do đó, các đường isophote được lựa chọn sẽ là những đường có dấu âm.
Thuật toán xác định vị trí tâm đồng tử và tâm các đốm sáng được thể hiện một cách chi tiết hơn ở Phụ lục B.
4.3.5 Thuật toán hỗ trợ cho việc xác định vị trí tâm đồng tử và tâm các đốm sáng Để xác định vị trí của tâm đồng tử và tâm các đốm sáng tốt hơn, vùng ảnh để phân tích vị trí của tâm đồng tử và các đốm sáng nên thu nhỏ lại Công việc này có thể thực hiện bằng thuật toán Hough Circle Transform.