1 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN ĐIỆN TỬ VIỄN THÔNG ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC Đề tài NHẬN DẠNG TRẠNG THÁI BUỒN NGỦ KHI LÁI XE SỬ DỤNG THUẬT TOÁN FACIAL LANDMARK TRÊN THIẾT BỊ NHÚNG RASPBERRY Sinh[.]
Trang 1VIỆN ĐIỆN TỬ VIỄN THÔNG
Trang 2VIỆN ĐIỆN TỬ VIỄN THÔNG
Trang 3(Dùng cho giảng viên hướng dẫn)
Giảng viên đánh giá:
Họ và tên Sinh viên: MSSV:………
Tên đồ án:
………
Chọn các mức điểm phù hợp cho sinh viên trình bày theo các tiêu chí dưới đây: Rất kém (1); Kém (2); Đạt (3); Giỏi (4); Xuất sắc (5) 3 Nhận xét thêm của Thầy/Cô (giảng viên hướng dẫn nhận xét về thái độ và tinh thần làm việc của sinh viên)
Ngày: / /201 Người nhận xét (Ký và ghi rõ họ tên)
Trang 4(Dùng cho cán bộ phản biện)
Giảng viên đánh giá:
Họ và tên Sinh viên: MSSV:………
Tên đồ án:
………
Chọn các mức điểm phù hợp cho sinh viên trình bày theo các tiêu chí dưới đây: Rất kém (1); Kém (2); Đạt (3); Giỏi (4); Xuất sắc (5)
Có sự kết hợp giữa lý thuyết và thực hành (20)
1
Nêu rõ tính cấp thiết và quan trọng của đề tài, các vấn đề và
các giả thuyết (bao gồm mục đích và tính phù hợp) cũng như
phạm vi ứng dụng của đồ án
1 2 3 4 5
2 Cập nhật kết quả nghiên cứu gần đây nhất (trong nước/quốc tế) 1 2 3 4 5
3 Nêu rõ và chi tiết phương pháp nghiên cứu/giải quyết vấn đề 1 2 3 4 5
4 Có kết quả mô phỏng/thưc nghiệm và trình bày rõ ràng kết quả
Có khả năng phân tích và đánh giá kết quả (15)
5
Kế hoạch làm việc rõ ràng bao gồm mục tiêu và phương pháp
thực hiện dựa trên kết quả nghiên cứu lý thuyết một cách có hệ
thống
1 2 3 4 5
6 Kết quả được trình bày một cách logic và dễ hiểu, tất cả kết
quả đều được phân tích và đánh giá thỏa đáng 1 2 3 4 5
7
Trong phần kết luận, tác giả chỉ rõ sự khác biệt (nếu có) giữa
kết quả đạt được và mục tiêu ban đầu đề ra đồng thời cung cấp
lập luận để đề xuất hướng giải quyết có thể thực hiện trong
tương lai
1 2 3 4 5
Kỹ năng viết (10)
8 Đồ án trình bày đúng mẫu quy định với cấu trúc các chương
logic và đẹp mắt (bảng biểu, hình ảnh rõ ràng, có tiêu đề, được
đánh số thứ tự và được giải thích hay đề cập đến trong đồ án,
1 2 3 4 5
Trang 5chương và kết luận chương, có liệt kê tài liệu tham khảo và có
trích dẫn đúng quy định
9 Kỹ năng viết xuất sắc (cấu trúc câu chuẩn, văn phong khoa
học, lập luận logic và có cơ sở, từ vựng sử dụng phù hợp v.v.) 1 2 3 4 5
Thành tựu nghiên cứu khoa học (5) (chọn 1 trong 3 trường hợp)
10a
Có bài báo khoa học được đăng hoặc chấp nhận đăng/đạt giải
SVNC khoa học giải 3 cấp Viện trở lên/các giải thưởng khoa
học (quốc tế/trong nước) từ giải 3 trở lên/ Có đăng ký bằng
phát minh sáng chế
5
10b
Được báo cáo tại hội đồng cấp Viện trong hội nghị sinh viên
nghiên cứu khoa học nhưng không đạt giải từ giải 3 trở
lên/Đạt giải khuyến khích trong các kỳ thi quốc gia và quốc tế
khác về chuyên ngành như TI contest
2
10c Không có thành tích về nghiên cứu khoa học 0
Điểm tổng quy đổi về thang 10
3 Nhận xét thêm của Thầy/Cô
Ngày: / /201 Người nhận xét
(Ký và ghi rõ họ tên)
Trang 6quan tâm lớn từ cộng đồng các nhà khoa học nghiên cứu về Thị giác máy tính trong thời gian gần đây Một hệ thống nhận dạng mặt có nhiều bước và mỗi bước lại là một lĩnh vực nghiên cứu với các cách tiếp cận khác nhau Việc ứng dụng việc nhận dạng vào các bài toán thực tế cũng là điều rất cần thiết, chính vì thế đề tài này sẽ đi vào tập trung nghiên cứu ứng dụng nhận dạng hình ảnh trong việc phát hiện buồn ngủ khi lái
xe Với số lượng tại nạn do tài xế buồn ngủ gây ra luôn ở mức cao thì việc áp dụng đề tài này vào thực tế với hi vọng giúp cho việc lái xe an được toàn hơn và làm giảm các
vụ tai nạn giao thông nghiêm trọng
Để hoàn thành tốt đồ án này,em xin được cảm ơn thầy GS.TS Nguyễn Đức
Thuận đã tạo điều kiện tốt nhất cũng như sự chỉ bảo tận tình của thầy đã giúp em hoàn
thành đồ án tốt nghiệp Tuy đợt thời gian làm đồ án không dài nhưng cũng để lại cho
em nhiều điều bổ ích, những kiến thức, kinh nghiệm thực tế Trong quá trình thực hiện
đồ án em cũng không tránh khỏi những thiều sót mong thầy bỏ qua
Em rất mong nhận được sự góp ý của thầy/cô về đề tài này, để em có thể hoàn thiện hơn nữa
Em xin chân thành cảm ơn!
Trang 7Sự bùng nổ của công nghệ AI đã tạo ra bước đột phá mới trong lĩnh vực nhận dạng mặt người Với mục đích ứng dụng công nghệ nhân dạng vào việc cảnh bảo buồn ngủ khi lái xe, chính vì thế em đã chọn đề tài “Nhận dạng trạng thái buồn ngủ khi lái xe sử dụng thuật toán Facial Landmark trên thiết bị nhúng Raspberry” Sau thời gian ngắn thực hiện đề tài, việc nhận dạng và cảnh bảo đã có thu được kết quả khả quan khi phát hiện và cảnh báo ngay lập tức
SUMMARY
Currently, indentification technology has developed and applied a lot in practice The explosion of AI technology has created a new breakthough in the field of human face recognition.For the purpose of applying the technology of identity to warn drownsiness while driving, that’s why I chose the topic “Dectection drownsiness when driving using the Facial Landmark algorithm on Raspberry embedded device” After a short period of implementation of the topic, detect and warning have yielded positive results when detecting and warning immediately
Trang 8Hình 1.2Quan hệ trong vùng lân cận giữa các điểm ảnh 9
Hình 2.1 Ảnh input và hai đạo hàm của nó 22
Hình 2 2Ảnh input và kết quả phát hiện và căn chỉnh ảnh mặt với HOG 24
Hình 2.3Các bước trong bộ lọc Retinal filter 25
Trang 9Từ viết tắt Từ tiếng anh Giải nghĩa
Trang 10LỜI NÓI ĐẦU 4
TÓM TẮT LUẬN VĂN 5
CÁC HÌNH VẼ SỬ DỤNG TRONG LUẬN VĂN 6
DANH SÁCH CÁC TỪ VIẾT TẮT 7
MỞ ĐẦU 3
CHƯƠNG 1: TỔNG QUAN VỀ XỬ LÝ ẢNH 5
1.1Tổng quan về xử lý ảnh 5
1.2Các quá trình xử lý ảnh 5
1.3 Ảnh và biểu diễn ảnh 7
1.4 Phạm vi ứng dụng của xử lý ảnh 10
1.5 Các loại tệp cơ bản trong xử lý ảnh 10
1.5.1 File ảnh IMG 10
1.5.2 File ảnh PCX 11
1.6 Một số vấn đề trong xử lý ảnh 13
1.6.1 Các hệ thống xử lý ảnh 13
1.6.2 Các hình thái của ảnh 14
1.7 Một số ứng dụng trong xử lý ảnh 15
1.8 Bài toán nhận dạng mặt người 16
1.8.1 Bài toán nhận dạng mặt người 16
1.8.2 Những khó khăn của nhận dạng khuôn mặt 16
1.8.3 Tầm quan trọng của bài toán nhận diện mặt người 17
1.8.4.Các ứng dụng đặc trưng của bài toán nhận diện mặt người 18
CHƯƠNG 2: XÂY DỰNG HỆ THỐNG NHẬN DẠNG TRẠNG THÁI BUỒN NGỦ 20
2.1: Phát hiện mặt người sử dụng đặc trưng HOG 20
2.2: Chuẩn hóa ánh sáng với bộ lọc Retinal filter 25
2.3: Phương pháp Facial Landmark 28
2.4: Phát hiện trạng thái nháy mắt dùng Facial Landmark 29
CHƯƠNG 3: XÂY DỰNG HỆ THỐNG 31
3.1: Thư viện OpenCV và dlib 31
3.1.1: Thư viện OpenCV 31
3.1.2: Thư viện dlib 35
Trang 113.2 Phần cứng 36
3.2.1 Raspberry 36
3.2.2 Module camera 36
CHƯƠNG 4: KẾT QUẢ 38
KẾT LUẬN CHUNG 40
TÀI LIỆU THAM KHẢO 41
Trang 12MỞ ĐẦU
a.Tổng quan về tình hình nghiên cứu thuộc lĩnh vực đề tài
Hiện nay các nghiên cứu nhận dạng khuôn mặt đã có những bước tiến lớn, điển hình như FaceID được Apple trang bị trên iphone X và mới đây là Bphone 3 cũng đã có Facial Landmark là một trong những công cụ làm được điều đấy, chính vì thế đề tài này
sẽ sử dụng thuật toán Facial Landmark để tạo các điểm mốc trên khuôn mặt, từ các điểm mốc sẽ nhận dạng vùng mắt trên khuôn mặt, qua đấy lấy được điểm đặc trưng trên mắt và đưa vào xử lý bài toán phát hiện buồn ngủ Để có thể phát hiện buồn ngủ thì việc đầu tiên
sẽ là nhận biết trạng thái nháy mắt, từ đó tính ra được thời gian nháy mắt mà có thể xác định được đó là nháy mắt bình thường hay là trạng thái buồn ngủ
b.Mục tiêu, đối tượng, phạm vi nghiên cứu
Mục tiêu của đề tài là xây dựng một hệ thống nhận dạng hoàn toàn tự động với dữ liệu đầu vào là các ảnh mặt người được nhận dạng bằng phương pháp HOG, một phương pháp trích chọn đặc trưng ảnh mặt có khả năng làm việc tốt với các ảnh bị mờ hay bị ảnh hưởng bởi ánh sáng, sau quá trình nhận diện và khoanh vùng khuôn mặt, bước tiếp theo
sẽ sử dụng Facial Landmark để xác định các điểm mốc trên khuôn mặt
Hệ thống sẽ gồm các module thực hiện: phát hiện vùng ảnh mặt, tiền xử lý, xác định các điểm landmark và nhận dạng trạng thái buồn ngủ
c.Phương pháp nghiên cứu, kết cấu của công trình nghiên cứu
Nhằm xây dựng một chương trình nhận dạng trạng thái buồn ngủ, đề tài thực hiện nghiên cứu các vấn đề sau:
+ Nghiên cứu kỹ thuật phát hiện ảnh mặt dựa trên đặc trưng HOG (Histogram of Oriented Gradients)
+ Nghiên cứu kỹ thuật tiền xử lý để chuẩn hóa ảnh mặt
+ Nghiên cứu áp dụng Facial Landmark cho bài toán nhận dạng trạng thái buồn
Trang 13+ Nghiên cứu thư viện mã nguồn mở OpenCV, dlib + Xây dựng chương trình
+Xây dựng các module phần cứng: Raspberry, camera …
Trang 14Cũng như xử lý dữ liệu bằng đồ hoạ, xử lý ảnh số là một lĩnh vực của tin học ứng dụng Xử lý dữ liệu bằng đồ họa đề cập đến những ảnh nhân tạo, các ảnh này được xem xét như là một cấu trúc dữ liệu và được tạo bởi các chương trình Xử lý ảnh số bao gồm các phương pháp và kỹ thuật biến đổi, để truyền tải hoặc mã hoá các ảnh tự nhiên Mục đích của xử lý ảnh gồm:
+ Biến đổi ảnh làm tăng chất lượng ảnh
+ Tự động nhận dạng ảnh, đoán nhận ảnh, đánh giá các nội dung của ảnh Nhận biết và đánh giá các nội dung của ảnh là sự phân tích một hình ảnh thành những phần có ý nghĩa để phân biệt đối tượng này với đối tượng khác, dựa vào đó ta có thể mô
tả cấu trúc của hình ảnh ban đầu Có thể liệt kê một số phương pháp nhận dạng cơ bản như nhận dạng ảnh của các đối tượng trên ảnh, tách cạnh, phân đoạn hình ảnh,… Kỹ thuật này được dùng nhiều trong y học (xử lý tế bào, nhiễm sắc thể), nhận dạng chữ trong văn bản
1.2Các quá trình xử lý ảnh
Hình 1.1 Các giai đoạn chính trong xử lý ảnh
Trang 15Thu nhận ảnh: Đây là công đoạn đầu tiên mang tính quyết định đối với quá trình XLA Ảnh đầu vào sẽ được thu nhận qua các thiết bị như camera, sensor, máy
scanner,v.v… và sau đó các tín hiệu này sẽ được số hóa Việc lựa chọn các thiết bị thu nhận ảnh sẽ phụ thuộc vào đặc tính của các đối tượng cần xử lý Các thông số quan trọng
ở bước này là độ phân giải, chất lượng màu, dung lượng bộ nhớ và tốc độ thu nhận ảnh của các thiết bị
Tiền xử lý: Ở bước này, ảnh sẽ đƣợc cải thiện về độ tương phản, khử nhiễu, khử bóng, khử độ lệch,v.v… với mục đích làm cho chất lượng ảnh trở lên tốt hơn nữa, chuẩn
bị cho các bước xử lý phức tạp hơn về sau trong quá trình XLA Quá trình này thường được thực hiện bởi các bộ lọc
Phân đoạn ảnh: phân đoạn ảnh là bước then chốt trong XLA Giai đoạn này phân tích ảnh thành những thành phần có cùng tính chất nào đó dựa theo biên hay các vùng liên thông Tiêu chuẩn để xác định các vùng liên thông có thể là cùng màu, cùng mức xám v.v… Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều phần tử khác nhau cấu tạo lên ảnh thô Vì lượng thông tin chứa trong ảnh rất lớn, trong khi đa số các ứng dụng chúng ta chỉ cần trích một vài đặc trưng nào đó, do vậy cần có một quá trình để giảm lượng thông tin khổng lồ đó Quá trình này bao gồm phân vùng ảnh và trích chọn đặc tính chủ yếu
Tách các đặc tính: Kết quả của bước phân đoạn ảnh thường được cho dưới dạng dữ liệu điểm ảnh thô, trong đó hàm chứa biên của một vùng ảnh, hoặc tập hợp tất cả các điểm ảnh thuộc về chính vùng ảnh đó Trong cả hai trường hợp, sự chuyển đổi dữ liệu thô này thành một dạng thích hợp hơn cho việc xử lý trong máy tính là rất cần thiết Để
chuyển đổi chúng, câu hỏi đầu tiên cần phải trả lời là nên biểu diễn một vùng ảnh dưới dạng biên hay dƣưới dạng một vùng hoàn chỉnh gồm tất cả những điểm ảnh thuộc về nó Biểu diễn dạng biên cho một vùng phù hợp với những ứng dụng chỉ quan tâm chủ yếu đến các đặc trưng hình dạng bên ngoài của đối tượng, ví dụ như các góc cạnh và điểm uốn trên biên chẳng hạn Biểu diễn dạng vùng lại thích hợp cho những ứng dụng khai thác các tính chất bên trong của đối tượng, ví dụ như vân ảnh hoặc cấu trúc xương của nó Sự chọn
Trang 16lựa cách biểu diễn thích hợp cho một vùng ảnh chỉ mới là một phần trong việc chuyển đổi
dữ liệu ảnh thô sang một dạng thích hợp hơn cho các xử lý về sau Chúng ta còn phải đưa
ra một phương pháp mô tả dữ liệu đã được chuyển đổi đó sao cho những tính chất cần quan tâm đến sẽ được làm nổi bật lên, thuận tiện cho việc xử lý chúng
Nhận dạng và giải thích: Đây là bước cuối cùng trong quá trình XLA Nhận dạng ảnh có thể được nhìn nhận một cách đơn giản là việc gán nhãn cho các đối tượng trong ảnh Ví dụ đối với nhận dạng chữ viết, các đối tượng trong ảnh cần nhận dạng là các mẫu chữ, ta cần tách riêng các mẫu chữ đó ra và tìm cách gán đúng các ký tự của bảng chữ cái tựơng ứng cho các mẫu chữ thu được trong ảnh Giải thích là công đoạn gán nghĩa cho một tập các đối tượng đã đƣợc nhận biết
Chúng ta cũng có thể thấy rằng, không phải bất kỳ một ứng dụng XLA nào cũng bắt buộc phải tuân theo tất cả các bước xử lý đã nêu ở trên, ví dụ như các ứng dụng chỉnh sửa ảnh nghệ thuật chỉ dừng lại ở bước tiền xử lý Một cách tổng quát thì những chức năng xử lý bao gồm cả nhận dạng và giải thích thường chỉ có mặt trong hệ thống phân tích ảnh tự động hoặc bán tự động, được dùng để rút trích ra những thông tin quan trọng
từ ảnh, ví dụ như các ứng dụng nhận dạng ký tự quang học, nhận dạng chữ viết tay v.v…
1.3 Ảnh và biểu diễn ảnh
Ảnh trong thực tế là một ảnh liên tục cả về không gian và giá trị độ sáng Để có thể
xử lý ảnh bằng máy tính thì cần thiết phải tiến hành số hóa ảnh Quá trình số hóa biến đổi các tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng tử hóa các thành phần giá trị mà về nguyên tắc bằng mắt thường không thể phân biệt được hai điểm liền kề nhau Các điểm như vậy được gọi là các pixel (Picture Element) hay các phần tử ảnh hoặc điểm ảnh Ở đây cần phân biệt khái niệm pixel hay đề cập đến trong các hệ thống đồ họa máy tính Để tránh nhầm lẫn ta gọi khái niệm pixel này là pixel thiết bị Khái niệm pixel thiết bị có thể xém xét như sau: khi ta quan sát màn hình (trong chế độ đồ họa), màn hình không liên tục mà gồm các điểm nhỏ, gọi là pixel Mỗi pixel gồm một tập tọa độ (x, y) và màu
Trang 17Như vậy mỗi ảnh là tập hợp các điểm ảnh Khi được số hóa nó thường được biểu diễn bởi mảng 2 chiều I(n,p): n là dòng và p là cột
Về mặt toán học có thể xem ảnh là một hàm hai biến f(x,y) với x, y là các biến tọa
độ Giá trị số ở điểm (x,y) tương ứng với giá trị xám hoặc độ sáng của ảnh (x là các cột còn y là các hàng) Giá trị của hàm ảnh f(x,y) được hạn chế trong phạm vi của các số nguyên dương
Với ảnh đen trắng mức xám của ảnh có thể được biểu diễn bởi một số như sau:
Trong đó 𝑆𝐵𝑊 () là đặc tính phổ của cảm biến được sử dụng và k là hệ số tỷ lệ xích Vì sự cảm nhận độ sáng có tầm quan trọng hàng đầu đối với ảnh đen trắng nên
𝑆𝐵𝑊() được chọn giống như là hiệu suất sáng tương đối Vì f biểu diễn công suất trên
đơn vị diện tích, nên nó bao giờ cũng không âm và hữu hạn
Trong đó 𝑓𝑚𝑎𝑥 là giá trị lớn nhất mà f đạt được Trong xử lý ảnh, f được chia thang
sao cho nó nằm trong một phạm vi thuận lợi nào đó Thông thường đối với ảnh xám, giá trị 𝑓𝑚𝑎𝑥 là 255 ( 28 =256) bởi vì mỗi phần tử ảnh được mã hóa bởi một byte Khi quan tâm đến ảnh màu ta có thể mô tả màu qua ba hàm số: thành phần màu đỏ qua R(x,y), thành phần màu lục qua G(x,y) và thành phần màu lam qua B(x,y) Bộ ba giá trị R, G, và
B nhận được từ:
Trang 18Ở đó 𝑆𝑅(),𝑆𝐺( ) và 𝑆𝐵( ) theo thứ tự là những đặc tính phổ của các cảm biến (bộ lọc) đỏ, lục và lam R, G, B cũng không âm và hữu hạn
Ảnh có thể được biểu diễn theo một trong hai mô hình: mô hình Vector hoặc mô hình Raster
Mô hình Vector: Ngoài mục đích tiết kiệm không gian lưu trữ, dễ dàng hiển thị và
in ấn, các ảnh biểu diễn theo mô hình vector còn có ưu điểm cho phép dễ dàng lựa chọn, sao chép, di chuyển, tìm kiếm…Theo những yêu cầu này thì kỹ thuật biểu diễn vector tỏ
ra ưu việt hơn Trong mô hình này, người ta sử dụng hướng vector của các điểm ảnh lân cận để mã hóa và tái tạo lại hình ảnh ban đầu Các ảnh vector đueợc thu nhận trực tiếp từ các thiết bị số hóa nhue Digitalize hoặc đƣợc chuyển đổi từ các ảnh Raster thông qua các chương trình vector hóa
Mô hình Raster: là mô hình biểu diễn ảnh thông dụng nhất hiện nay Ảnh được biểu diễn dưới dạng ma trận các điểm ảnh Tùy theo nhu cầu thực tế mà mỗi điểm ảnh có thể được biểu diễn bởi một hay nhiều bit Mô hình Raster thuận lợi cho việc thu nhận, hiển thị và in ấn Các ảnh được sử dụng trong phạm vi của đề tài này cũng là các ảnh được biểu diễn theo mô hình Raster
Khi xử lý các ảnh Raster chúng ta có thể quan tâm đến mối quan hệ trong vùng lân cận của các điểm ảnh Các điểm ảnh có thể xếp hàng trên một lưới (raster) hình vuông, lưới
hình lục giác hoặc theo một cách hoàn toàn ngẫu nhiên với nhau
Hình 1.1Quan hệ trong vùng lân cận giữa các điểm ảnh
Trang 19Cách sắp xếp theo hình vuông là được quan tâm đến nhiều nhất và có hai loại: điểm 4 láng giềng (4 liền kề) hoặc 8 láng giềng (8 liền kề) Với điểm 4 láng giềng, một điểm ảnh I(i, j) sẽ có điểm kế cận theo 2 hướng i và j; trong khi đó với điểm 8 láng giềng, điểm ảnh I(i, j) sẽ có 4 điểm kế cận theo 2 hướng i, j và 4 điểm kế cận theo hướng chéo
450 (Xem hình 1.2)
1.4 Phạm vi ứng dụng của xử lý ảnh
Xử lý ảnh đã đem lại nhiều ứng dụng trong nhiều lĩnh vực khác nhau: y học, khoa học hình hình sự, khí tượng thuỷ văn, quản lý, Quản lý là là một trong những ứng dụng quan trọng của xử lý ảnh Cùng với sự bùng nổ của kinh tế thị trường Khối lượng quản lý càng lớn, như quản lý hồ sơ, quản lý phiếu điều tra trong công tác thống kê, các câu hỏi trắc nghiệm Để thực hiện các công việc trên một cách chính xác, nhanh chóng và hiệu quả Xử lý ảnh và nhận dạng đã nghiên cứu và phát triển mạnh mẽ bài toán nhập liệu tự động
1.5 Các loại tệp cơ bản trong xử lý ảnh
Ảnh thu đựơc sau quá trình số hoá có nhiều loại khác nhau phụ thuộc vào kỹ thuật
số hoá ảnh và các ảnh thu nhận được có thể lưu trữ trên tệp để dùng cho việc xử lý các bước tiếp theo Sau đây là một số loại tệp cơ bản và thông dụng nhất hiện nay
+ 2 bytes chứa độ dài các mẫu tin Đó là độ dài của một dãy các bytes lặp lại một
số lần nào đó, số lần lặp này sẽ được lưu trong một file đếm Nhiều dãy giống nhau được lưu trong một bytes Đó chính là cách lưu trữ nén
+ 4 bytes tiếp theo mô tả kích cỡ của pixel
Trang 20+ 2 bytes tiếp mô tả số pixel trên một dòng
+ 2 bytes cuối cho biết số dòng trong ảnh
Các dòng giống nhau được nén thành một pack Có 4 loại pack sau:
+ Loại 1: Gói các dòng giống nhau.Quy cách gói tin này 0x00 0x00 0xFF Count 3 bytes đầu cho biết số các dãy giống nhau ,bytes cuối cho biết số các dòng giống nhau + Loại 2: Gói các dãy giống nhau Quy cách gói này 0x00 Count Bytes thứ hai cho số các dãy giống nhau được nén trong gói Độ dài cử dãy được ghi đầu file
+ Loại 3:Dãy các pixel không giống nhau, không lặp lại và không nén được Quy cách như sau: 0x80 Count Bytes thứ hai cho biết độ dài dãy các pixel không giống nhau, không nén được
+ Loại 4:Dãy các pixel giống nhau Tuỳ theo các bit cao của bytes đầu được bật hay tắt, nếu bit cao được bật(giá trị 1) thì đây là gói nén các bytes chỉ gồm bit 0, số các bytes được nén được tính bởi 7 bit thấp còn lại Nếu bit cao tắt (giá tri 0) thì đây là gói nén các bytes toàn bit 1 Số các bytes đƣợc nén đƣợc tính bởi 7 bit thấp còn lại Các của file IMG phong phú như vậy là do ảnh IMG là ảnh đen trắng nên chỉ cần 1 bit cho một pixel thay vì 4 hoặc 8 bit như đã nói ở trên toàn bộ ảnh chỉ có điểm sáng hoặc tối tương ứng với 1 hoặc 0 Tỷ lệ nén của file này là khá cao
1.5.2 File ảnh PCX
Định dạng ảnh PCX là một trong những định dạng ảnh cổ điển nhất Nó sử dụng phương pháp mã loạt dài RLE (Run-Length-Encoded) để nén dữ liệu ảnh Quá trình nén
và giải nén đywợc thực hiện trên từng dòng ảnh Thực tế, phywơng pháp giải nén PCX kém hiệu quả hơn so với kiểu IMG Tệp PCX gồm 3 phần: đầu tệp (header), dữ liệu ảnh
(image data) và bảng màu mở rộng
Header của tệp PCX có kích thước cố định gồm 128 byte và được phân bố như sau:
+ 1 byte : chỉ ra kiểu định dạng Nếu là kiểu PCX/PCC nó luôn có giá trị là 0Ah
Trang 21+ 1 byte: chỉ ra version sử dụng để nén ảnh, có thể có các giá trị sau:
- 0: version 2.5
- 2: version 2.8 với bảng màu
- 3: version 2.8 hay 3.0 không có bảng màu
- 5: version 3.0 có bảng màu
+ 1 byte: chỉ ra phương pháp mã hoá Nếu là 0 thì mã hoá theo phương pháp
BYTE PACKED, nếu không là phương pháp RLE
+ 1 byte: số bit cho một điểm ảnh plane
+ 1 word: toạ độ góc trái trên của ảnh Với kiểu PCX nó có giá trị là (0,0); còn PCC thì khác (0,0)
+ 1 word: toạ độ góc phải dưới
+ 1 word: kích thước bề rộng và bề cao ảnh
+ 1 word: số điểm ảnh + 1 word: độ phân giải màn hình
+ 1 word
+ 48 byte: chia thành 16 nhóm, mỗi nhóm 3 byte Mỗi nhóm này chứa thông tin về một thanh ghi màu Như vậy ta có 16 thanh ghi màu
+ 1 byte: không dùng đến và luôn đặt là 0
+1 byte: số bit plane mà ảnh sử dụng Với ảnh 16 màu, giá trị này là 4, với ảnh 256 màu (1 pixel/8 bit) thì số bit plane lại là 1
+ 1 byte: số bytes cho một dòng quét ảnh
+ 1 word: kiểu bảng màu
+ 58 byte: không dùng
Trang 22Tóm lại, định dạng ảnh PCX thường được dùng để lưu trữ ảnh vì thao tác đơn giản, cho phép nén và giải nén nhanh Tuy nhiên vì cấu trúc của nó cố định, nên trong một số trường hợp nó làm tăng kích thước lưu trữ Và cũng vì nhược điểm này mà một số ứng dụng lại sử dụng một kiểu định dạng khác mềm dẻo hơn: định dạng TIFF
Ngoài ra còn có một số kiểu định dạng khác như : JPG, PNG, BITMAP…
b Trích chọn đặc điểm :
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm
c Đối sánh, nhận dạng :
Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong nhiều ngành khoa học khác nhau Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó.Hệ thống nhận dạng tự động bao gồm
ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:
+ Thu nhận dữ liệu và tiền xử lý
+ Biểu diễn dữ liệu
Trang 23Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
+Đối sánh mẫu dựa trên các đặc trưng được trích chọn
+Phân loại thống kê
+Đối sánh cấu trúc
+Phân loại dựa trên mạng nơ-ron nhân tạo
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp
1 6.2 Các hình thái của ảnh
a.Chuyển ảnh màu thành ảnh xám
Đơn vị tế bào của ảnh số là pixel Tùy theo mỗi định dạng là ảnh màu hay ảnh xám
mà từng pixel có thông số khác nhau Đối với ảnh màu từng pixel sẽ mang thông tin của
ba màu cơ bản tạo ra bản màu khả kiến là Đỏ (R), Xanh lá (G) và Xanh biển (B) [Thomas 1892] Trong mỗi pixel của ảnh màu, ba màu cơ bản R, G và B được bố trí sát nhau và có cường độ sáng khác nhau Thông thường, mỗi màu cơ bản được biểu diễn bằng tám bit tương ứng 256 mức độ màu khác nhau Như vậy mỗi pixel chúng ta sẽ có 28x3=224 màu (khoảng 16.78 triệu màu) Đối với ảnh xám, thông thường mỗi pixel mang thông tin của
256 mức xám (tương ứng với tám bit) như vậy ảnh xám hoàn toàn có thể tái hiện đầy đủ cấu trúc của một ảnh màu tương ứng thông qua tám mặt phẳng bit theo độ xám
b.Lược đồ xám của ảnh (Histogram)
Lược đồ xám của một ảnh số có các mức xám trong khoảng [0,L−1] là một hàm rời rạc p(rk)=nk/n Trong đó nk là số pixel có mức xám thứ rk, n là tổng số pixel trong ảnh và k=0,1,2 L−1 Do đó P(rk) cho một xấp xỉ xác suất xảy ra mức xám rk Vẽ hàm
Trang 24này với tất cả các giá trị của k sẽ biểu diễn khái quát sự xuất hiện các mức xám của một ảnh Chúng ta cũng có thể thề hiện lược đồ mức xám của ảnh thông qua tần suất xuất hiện mỗi mức xám qua hệ tọa độ vuông góc xOy Trong đó, trục hoành biểu diễn số mức xám
từ 0 đến N (số bit của ảnh xám) Trục tung biểu diễn số pixel của mỗi mức xám
1.7 Một số ứng dụng trong xử lý ảnh
Như đã nói ở trên, các kỹ thuật xử lý ảnh trước đây chủ yếu được sử dụng để nâng cao chất lượng hình ảnh, chính xác hơn là tạo cảm giác về sự gia tăng chất lượng ảnh quang học trong mắt người quan sát Thời gian gần đây, phạm vi ứng dụng xử lý ảnh mở rộng không ngừng, có thể nói hiện không có lĩnh vực khoa học nào không sử dụng các thành tựu của công nghệ xử lý ảnh số
Trong y học các thuật toán xử lý ảnh cho phép biến đổi hình ảnh được tạo ra từ nguồn bức xạ X -ray hay nguồn bức xạ siêu âm thành hình ảnh quang học trên bề mặt film x-quang hoặc trực tiếp trên bề mặt màn hình hiển thị Hình ảnh các cơ quan chức năng của con người sau đó có thể được xử lý tiếp để nâng cao độ tương phản, lọc, tách các thành phần cần thiết (chụp cắt lớp) hoặc tạo ra hình ảnh trong không gian ba chiều (siêu âm 3 chiều)
Trong lĩnh vực địa chất, hình ảnh nhận được từ vệ tinh có thể được phân tích để xác định cấu trúc bề mặt trái đất Kỹ thuật làm nổi đường biên (image enhancement) và khôi phục hình ảnh (image restoration) cho phép nâng cao chất lượng ảnh vệ tinh và tạo
ra các bản đồ địa hình 3-D với độ chính xác cao
Trong ngành khí tượng học, ảnh nhận được từ hệ thống vệ tinh theo dõi thời tiết cũng được xử lý, nâng cao chất lượng và ghép hình để tạo ra ảnh bề mặt trái đất trên một vùng rộng lớn, qua đó có thể thực hiện việc dự báo thời tiết một cách chính xác hơn
Xử lý ảnh còn được sử dụng rộng rãi trong lĩnh vực hình sự và các hệ thống bảo mật hoặc kiểm soát truy cập: quá trình xử lý ảnh với mục đích nhận dạng vân tay hay khuôn mặt cho phép phát hiện nhanh các đối tương nghi vấn cũng như nâng cao hiệu quả
hệ thống bảo mật cá nhân cũng như kiểm soát ra vào Ngoài ra, có thể kể đến các ứng
Trang 25dụng quan trọng khác của kỹ thuật xử lý ảnh tĩnh cũng như ảnh động trong đời sống như
tự động nhận dạng, nhận dạng mục tiêu quân sự, máy nhìn công nghiệp trong các hệ thống điều khiển tự động, nén ảnh tĩnh, ảnh động để lưu và truyền trong mạng viễn thông v.v
1.8 Bài toán nhận dạng mặt người
1.8.1 Bài toán nhận dạng mặt người
Hệ thống nhận dạng mặt người là một hệ thống nhận vào là một ảnh hoặc một đoạn video (một chuỗi các ảnh) Qua xử lý tính toán hệ thống xác định được vị trí mặt người trong ảnh (nếu có) và xác định là người nào trong số những người hệ thống đã được biết (qua quá trình học) hoặc là người lạ
1.8.2 Những khó khăn của nhận dạng khuôn mặt
a Tư thế góc chụp : Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi vì góc chụp giữa camera và khuôn mặt.Chẳng hạn như : chụp thẳng, chụp xéo bên trái 450 hay xéo bên phải 450 ,chụp từ trên xuống, chụp từ dưới lên,v.v…) Với các tư thế khác nhau, các thành phần trên khuôn mặt như mắt, mũi, miệng có thể bị khuất một phần hoặc thậm chí khuất hết Khuôn mặt đang nhìn thẳng nhưng góc chụp của máy ảnh lại lệch nhiều so với hướng nhìn thẳng của khuôn mặt hoặc là lúc chụp ảnh mặt người quay nghiêng sang một bên nào đó nhiều đều là những khó khăn rất lớn trong bài toán nhận diện mặt người
b.Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt: Các đặc trưng như râu mép, râu hàm, mắt kính,v.v… có thể xuất hiện hoặc không Vấn đề này làm cho bài toán càng khó khăn hơn rất nhiều
c.Sự biểu cảm của khuôn mặt: Biểu cảm của khuôn mặt người có thể làm ảnh hưởng đáng kể lên các thông số của khuôn mặt Chẳng hạn,cùng một khuôn mặt một người, nhưng có thể sẽ rất khác khi họ cười hoặc sợ hãi…
d.Sự che khuất: Khuôn mặt có thể bị che khuất bởi các đối tượng khác hoặc các khuôn mặt khác