LUẬN VĂN THẠC SĨ Nghiên cứu, thiết kế hệ thống cơ điện tử thông minh ứng dụng công nghệ nhận dạng khuôn mặt và thuật toán học sâu trong việc điểm danh và đánh giá độ chuyên cần của sinh viên

TỔNG QUAN

Đặt vấn đề

Trong bối cảnh hội nhập, sự phát triển của khoa học kỹ thuật là cần thiết cho kỷ nguyên mới, trong đó ngành kỹ thuật cơ điện tử đóng vai trò quan trọng Trước đây, các hệ thống công nghệ chủ yếu dựa vào kết cấu cơ khí đơn giản kết hợp với mạch điện tử cơ bản, chỉ đáp ứng được những thao tác cơ bản Tuy nhiên, sự phát triển mạnh mẽ của ngành công nghiệp sản xuất yêu cầu công nghệ cao hơn, linh hoạt và thông minh hơn, chính vì vậy cơ điện tử đã ra đời để đáp ứng nhu cầu này.

Nền công nghiệp 4.0 đang mở ra cơ hội và thách thức lớn cho Việt Nam và thế giới, tích hợp các công nghệ tiên tiến nhằm nâng cao chất lượng cuộc sống Sự phát triển mạnh mẽ của công nghệ xử lý trong chuyển đổi số đã dẫn đến nhiều ứng dụng thực tiễn, như hệ thống cảnh báo khoảng cách an toàn trong giao thông "Real-Time Car Detection and Driving Safety Alarm System With Google Tensorflow Object Detection API" và hệ thống bãi đỗ xe tự động "License Plate Detection and Integral Intensity Projection for Automatic Finding the Vacant of Car Parking Space", giúp quản lý hiệu quả và tiết kiệm thời gian, chi phí.

Lĩnh vực Computer Vision đang trên đà phát triển mạnh mẽ nhờ vào sự đầu tư đáng kể và đã đạt được nhiều thành tựu quan trọng Quá trình chuyển đổi số hiện nay dựa trên nền tảng trí tuệ nhân tạo, góp phần nâng cao hiệu quả và ứng dụng trong nhiều lĩnh vực khác nhau.

Công nghệ nhận dạng khuôn mặt đang ngày càng phát triển, giúp giảm khối lượng công việc và nâng cao độ chính xác trong nhiều lĩnh vực, đặc biệt là an ninh và giám sát Nghiên cứu của Sadhna Sharma về "Template Matching Approach for Face Recognition System" đã cải thiện hệ thống an ninh cũ bằng cách sử dụng thuật toán Template matching để xác định các mẫu khuôn mặt Phương pháp này xác định các giá trị tương quan giữa ảnh đầu vào và mẫu chuẩn, nhưng gặp khó khăn khi tỷ lệ và tư thế thay đổi Một nghiên cứu khác của Sarma và Prasad đã phát triển hệ thống an ninh văn phòng sử dụng LABVIEW, tuy nhiên độ chính xác của phương pháp phân tích histogram vẫn còn hạn chế Đồng thời, N Dileep kumar và S Shanthi đã đề xuất hệ thống nhận diện khuôn mặt sử dụng Haar-cascade cho an ninh tòa nhà.

Hệ thống cổng tự động sử dụng kỹ thuật nhận diện khuôn mặt dựa trên thuật toán HAAR Cascade kết hợp với việc huấn luyện dữ liệu Đầu tiên, hình ảnh được chuyển đổi thành ảnh xám, sau đó các đặc trưng haar-like sẽ được quét qua toàn bộ bức ảnh Những khu vực có sự tương đồng cao với các đặc trưng này sẽ được đánh dấu Do đó, có nhiều khu vực trong hình ảnh có thể bị nhận diện nhầm là khuôn mặt Các hình ảnh không phù hợp sẽ được sử dụng để loại trừ những vùng này Vì vậy, trong quá trình huấn luyện một bộ nhận dạng, cần có một số lượng lớn hình ảnh sai để cải thiện độ chính xác.

Để nâng cao độ chính xác cho hệ thống an ninh, một nghiên cứu của nhóm Rajiv đã ứng dụng trí tuệ nhân tạo trong thiết kế hệ thống bảo mật dựa trên công nghệ nhận diện khuôn mặt và quản lý qua email Hệ thống này cho phép phát hiện đối tượng qua khuôn mặt và làn da với độ chính xác cao nhờ vào việc sử dụng deep learning và dữ liệu training chi tiết Tuy nhiên, một nhược điểm lớn là cần sự cho phép truy cập của chủ nhà qua email, điều này cần được cải thiện để tăng tính hiệu quả và ứng dụng thực tế của hệ thống.

Bài toán xác định mật độ đối tượng có ứng dụng quan trọng trong các lĩnh vực như an ninh, kiểm soát hành vi và giáo dục Do đó, việc nghiên cứu và phát triển, cũng như thử nghiệm để nâng cao độ chính xác của thuật toán là cần thiết Tác giả đã ứng dụng thuật toán này vào hệ thống điểm danh tự động nhằm kiểm nghiệm và đánh giá độ chính xác của nó.

Để xây dựng hệ thống tích hợp giải pháp xử lý dữ liệu và trích xuất thông tin phù hợp với từng vùng và tổ chức, tôi đề xuất áp dụng phương pháp điểm danh sinh trắc học vân tay và nhận diện khuôn mặt Hệ thống này sẽ được kiểm nghiệm và so sánh với các công bố trong lĩnh vực tương tự.

Nghiên cứu và thiết kế hệ thống cơ điện tử thông minh ứng dụng công nghệ nhận dạng khuôn mặt kết hợp với thuật toán học sâu nhằm mục đích điểm danh và đánh giá độ chuyên cần của sinh viên Hệ thống này không chỉ nâng cao tính chính xác trong việc nhận diện sinh viên mà còn tối ưu hóa quy trình quản lý điểm danh, góp phần cải thiện hiệu quả giáo dục.

Tổng quan mạng neural tích chập CNN

1.2.1 Giới thiệu mạng Neural Định nghĩa: Mạng Neural nhân tạo, Artificial Neural Network (ANN) là một mô hình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ Neural sinh học Nó được tạo nên từ một số lượng lớn các phần tử (Neural) kết nối với nhau thông qua các liên kết (trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể nào đó Một mạng Neural nhân tạo được cấu hình cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, ) thông qua một

4 quá trình học từ tập các mẫu huấn luyện Về bản chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các Neural

Hình 1.1: Cấu trúc mạng Neural

Các thành phần cơ bản của một Neural nhân tạo bao gồm:

- Tập các đầu vào: Là các tín hiệu vào (input signals) của Neural, các tín hiệu này thường được đưa vào dưới dạng một vector N chiều

Mỗi liên kết trong mạng nơ-ron được thể hiện bởi trọng số liên kết (synaptic weight), ký hiệu là wkj, thể hiện mối quan hệ giữa tín hiệu vào thứ j và nơ-ron k Các trọng số này thường được khởi tạo ngẫu nhiên khi bắt đầu mạng và được cập nhật liên tục trong suốt quá trình học của mạng.

- Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với trọng số liên kết của nó

- Ngưỡng (còn gọi là một độ lệch - bias): Ngưỡng này thường được đưa vào như một thành phần của hàm truyền

Hàm truyền (Transfer function) được sử dụng để giới hạn phạm vi đầu ra của mỗi Neural Hàm này nhận đầu vào từ kết quả của hàm tổng và ngưỡng, giúp điều chỉnh và tối ưu hóa quá trình học của mạng nơ-ron.

- Đầu ra: Là tín hiệu đầu ra của một Neural, với mỗi Neural sẽ có tối đa là một đầu ra

Xét về mặt toán học, cấu trúc của một Neural k, được mô tả bằng cặp biểu thức sau:

- x1, x2, , xp: là các tín hiệu vào

- (wk1, wk2, , wkp) là các trọng số liên kết của Neural thứ k

- yk là tín hiệu đầu ra của Neural

Neural nhân tạo tiếp nhận tín hiệu đầu vào, xử lý chúng bằng cách nhân với trọng số liên kết, sau đó tính tổng các tích và gửi kết quả đến hàm truyền, cuối cùng tạo ra tín hiệu đầu ra, là kết quả của hàm truyền.

1.2.2 Cấu trúc mạng Neural tích chập CNN

Understanding Convolutional Neural Networks (CNNs) is essential as they are key deep learning algorithms used for object and image recognition To effectively identify objects, CNN models undergo continuous training and testing to achieve optimal recognition results Each input image is processed by the computer as

Mảng pixel trong ảnh phụ thuộc vào độ phân giải và loại ảnh (màu hoặc đen trắng), dẫn đến số lượng layer và cách xử lý khác nhau Quá trình xử lý và huấn luyện của CNN bao gồm các lớp như Lớp tích chập (Convolutional), Lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit), Lớp lấy mẫu (Pooling) và Lớp kết nối đầy đủ (Fully-connected) Số lượng và cách sắp xếp các lớp này có thể thay đổi để tạo ra các mô hình huấn luyện phù hợp với từng bài toán cụ thể.

Hình 1.2: Cấu trúc mạng tích chập CNN

1.2.2.1 Lớp tích chập (Convolution layer) Đây là thành phần quan trọng nhất trong mạng CNN, cũng là nơi thể hiện tư tưởng xây dựng sự liên kết cục bộ thay vì kết nối toàn bộ các điểm ảnh Các liên kết cục bộ này được tính toán bằng phép tích chập giữa các giá trị điểm ảnh trong một vùng ảnh cục bộ với các bộ lọc – filters – có kích thước nhỏ

Hình 1.3: Nguyên lý bộ lọc tích chập

Bộ lọc 3x3 được sử dụng để quét từng vùng ảnh, tạo ra một bức ảnh mới có kích thước nhỏ hơn hoặc bằng ảnh đầu vào Kích thước của bức ảnh mới phụ thuộc vào các khoảng trắng được thêm vào viền bức ảnh gốc và được tính theo công thức cụ thể.

- O: kích thước ảnh đầu ra

- i: kích thước ảnh đầu vào

- p: kích thước khoảng trắng phía ngoài viền của ảnh gốc

- s: bước trượt của bộ lọc

Kết quả cuối cùng bước này sẽ cho ra output như thế nào? Bước convolution này để tìm đặc trưng ảnh như viền,…

Hình 1.4 Kết quả xử lý sau lớp tích chập

1.2.2.2 Lớp lấy mẫu( Pooling Layer)

Mục đích của pooling là giảm số hyperparameter cần tính toán, từ đó tiết kiệm thời gian và tránh overfitting Loại pooling phổ biến nhất là max pooling, trong đó giá trị lớn nhất trong một cửa sổ pooling được chọn Pooling hoạt động tương tự như convolution, sử dụng một cửa sổ trượt gọi là pooling window, trượt qua từng giá trị của ma trận dữ liệu đầu vào (thường là các feature map trong lớp convolutional) và chọn ra giá trị lớn nhất từ các giá trị trong cửa sổ trượt.

Hình 1.5: Xử lý Max Pooling

1.2.2.3 Lớp kết nối đầy đủ( Fully Connected module)

Trong mạng Neural, các đầu vào sẽ được kết nối với các nơ-ron khác thông qua trọng số cụ thể Qua quá trình xử lý từ các nơ-ron trung gian, mạng sẽ tìm ra kết quả đầu ra phù hợp Nếu kết quả chưa đạt tối ưu, mạng Neural sẽ tiếp tục điều chỉnh để cải thiện hiệu suất.

8 lan truyền ngược để tìm lại trọng số weight ở mỗi Neural sao cho kết quả đạt được là tối ưu

Sự ra đời của mạng CNN đã khắc phục những hạn chế của các mạng Neural nhân tạo truyền thống trong việc học thông tin từ ảnh Các mạng Feedforward Neural Network gặp khó khăn khi kích thước ảnh lớn, vì số lượng liên kết giữa các điểm ảnh và node tăng nhanh, dẫn đến khối lượng tính toán khổng lồ Hơn nữa, việc kết nối đầy đủ là không cần thiết, vì thông tin chủ yếu nằm ở sự phụ thuộc giữa các điểm ảnh gần nhau Mạng CNN với kiến trúc cải tiến cho phép xây dựng liên kết chỉ từ một phần cục bộ trong ảnh, giúp tối ưu hóa hiệu suất và giảm thiểu tính toán so với mạng nơ-ron truyền thẳng.

Thuật toán FaceNet

Thuật toán Facenet đã được các nhà khoa học phân tích và đánh giá, cho thấy độ chính xác cao và khả năng ứng dụng rộng rãi Nghiên cứu "Face Recognition Algorithm Bias: Performance Differences on Images of Children and Adults" của Nisha Srinivas, Karl Ricanek và Dana Michalski đã chứng minh tính hiệu quả của thuật toán trong việc phân tích sự khác biệt giữa trẻ em và người lớn Thuật toán có thể được huấn luyện từ nhiều nguồn dữ liệu khác nhau, giúp nâng cao độ chính xác và tính tiện lợi Để làm nổi bật ưu điểm của Facenet, Ivan William, De Rosal Ignatius Moses Setiadi và Eko Hari Rachmawanto đã thực hiện so sánh với các phương pháp khác.

9 với đề tài “Face Recognition using FaceNet (Survey,Performance Test, and Comparison)”[8] để thấy tính vượt trội về độ chính xác so với phương pháp PCA,…

FaceNet cung cấp khả năng nhúng thống nhất cho nhận dạng, xác minh và phân cụm khuôn mặt bằng cách ánh xạ hình ảnh khuôn mặt vào không gian Euclide, nơi khoảng cách giữa các điểm tương ứng với sự tương đồng giữa các khuôn mặt Mỗi hình ảnh khuôn mặt được biểu diễn dưới dạng vector, giúp quá trình nhận dạng và so sánh trở nên dễ dàng hơn Để xác định khuôn mặt, chúng ta cần tính toán độ giống và khác nhau giữa các khuôn mặt, và điều này được thực hiện thông qua việc tính khoảng cách giữa các vector.

Bài toán là chuyển đổi khung hình khuôn mặt thành vector sao cho khoảng cách giữa các vector của hai khuôn mặt tương tự gần nhau, trong khi các vector của hai khuôn mặt khác nhau phải có khoảng cách xa hơn Mô hình áp dụng trong trường hợp này là Triplet Loss.

Triplet là bộ ba thông số gồm một ảnh mặt của một người (query), một ảnh mặt khác của người đó (positive), và một ảnh mặt của người khác (negative) Việc huấn luyện mô hình với triplet cung cấp thông tin về mối quan hệ giữa các ảnh, giúp mô hình cải thiện độ chính xác và phù hợp hơn với bài toán nhận diện khuôn mặt.

Để mô hình của chúng ta hiểu và tạo ra các vector mong muốn trong quá trình huấn luyện, cần sử dụng bộ ba thông số một cách hiệu quả Hàm loss của mô hình sẽ được định nghĩa theo dạng nhất định để tối ưu hóa quá trình học.

- D là khoảng cách giữa 2 vector

Chúng ta đang tối ưu hóa mô hình để giảm thiểu khoảng cách giữa vector của hình ảnh truy vấn (f(pi)) và hình ảnh tích cực (f(pi+)), đồng thời tăng khoảng cách giữa hình ảnh truy vấn và hình ảnh tiêu cực Mục tiêu của chúng ta là giúp mô hình học được cách phân biệt rõ ràng giữa các hình ảnh tích cực và tiêu cực.

Để tính toán hàm Loss, chúng ta cần một bức ảnh x_i_a của một người tiến gần hơn đến các bức ảnh x_i_p (tích cực) của người đó trong bộ dữ liệu, so với các bức ảnh x_i_n (tiêu cực) của người khác, được thể hiện qua hệ số khoảng cách α.

Từ đó tính được hàm Loss:

Dataset huấn luyện được chia thành hai phần chính: phần dành cho quá trình pre-train và phần trích chọn đặc trưng của hệ thống Trong đó, tập dữ liệu Labeled Face in the Wild (LFW) được sử dụng, bao gồm hơn 13,000 ảnh mặt người đã được gán nhãn, được thu thập từ internet.

Phần thứ hai của bài viết tập trung vào việc thu thập dữ liệu training cho hệ thống nhận diện khuôn mặt trong phần mềm điểm danh Chúng tôi đã xây dựng một cơ sở dữ liệu bao gồm 150 ảnh của 150 người, được thu thập từ nhiều nguồn khác nhau Cụ thể, 50 ảnh đầu tiên được lấy từ website CyberExtruder, chuyên cung cấp giải pháp nhận diện khuôn mặt 50 ảnh tiếp theo được lấy từ trang UTKFace, với các khuôn mặt trực diện rất phù hợp cho việc training Cuối cùng, 50 ảnh còn lại là hình ảnh của học sinh và sinh viên được chụp từ điện thoại.

Hầu hết các khuôn mặt trong tập mẫu dữ liệu đều là khuôn mặt trực diện với mặt phẳng ảnh, cung cấp đầy đủ thông tin đặc trưng Một số khuôn mặt có góc quay nhẹ, nhưng vẫn đảm bảo tính nhận diện.

Kích thước chuẩn hóa cho mỗi mẫu trong tập huấn luyện là 30x30 pixels hoặc 32x32 pixels Việc lựa chọn kích thước ảnh chuẩn sẽ phụ thuộc vào đặc trưng xử lý của từng thuật toán mà chúng ta sử dụng.

Dữ liệu ảnh được biểu diễn bằng cường độ sáng tại các điểm ảnh ở vị trí X và Y, ký hiệu là I(x,y) Để phục vụ cho các thuật toán học nhận dạng, chúng ta có hai phương pháp tổ chức dữ liệu.

Bước đầu tiên là đọc từng dòng ảnh theo thứ tự từ trên xuống, với mỗi dòng ảnh được sắp xếp liên tục trên một mảng số thực một chiều Ví dụ, một bức ảnh có kích thước 30x30 pixel sẽ được chuyển đổi thành mảng vector một chiều trong máy tính, ký hiệu là X (X1, X2, , X900).

Bước 2: Đọc từng khối ảnh 8x32 pixel theo thứ tự, chồng lấp khối dưới một nửa chiều cao khối trên Từ mỗi khối 8x32, ta tách ra các khối con 8x8 liên tiếp và chọn 20 hệ số đặc trưng từ phép biến đổi miền tần số Mỗi khối 8x32 sẽ được lượng hoá thành một vector một chiều, do đó, mỗi khuôn mặt sẽ được biểu diễn trong máy tính thành chuỗi các vector một chiều liên tiếp.

Thuật toán MTCNN

Mục đích của công nghệ nhận diện khuôn mặt là phát hiện các đặc điểm như mắt, mũi và căn chỉnh khuôn mặt Tuy nhiên, việc này gặp nhiều thách thức do sự đa dạng về tư thế và ánh sáng Với sự phát triển của Deep Learning trên nền tảng MTCNN, chúng ta có khả năng nhận dạng và định vị chính xác khuôn mặt cùng các điểm quan trọng trên đó.

Thuật toán MTCNN đã được nhiều tác giả nghiên cứu để nâng cao độ chính xác trong việc phát hiện khuôn mặt, nổi bật là nghiên cứu của Rong Xie và Qingyu Zhang Trong công bố "A Method of Small Face Detection Based on CNN", nhóm tác giả đã so sánh MTCNN với các phương pháp khác, chứng minh sự ưu việt của nó trong việc phát hiện khuôn mặt nhỏ.

Hình 1.10: So sánh phương pháp MTCNN

Thuật toán MTCNN sử dụng mạng hiệu chuẩn để điều chỉnh khuôn mặt sau khi phát hiện, bao gồm nhiều mô hình với khả năng tính toán lớn nhưng bỏ qua các liên kết giữa các nội giới hạn hồi quy và vị trí khuôn mặt Là một thuật toán nhận diện khuôn mặt đa tác vụ, MTCNN thực hiện cả việc nhận diện khuôn mặt và các điểm đặc trưng của nó Phân tích so sánh cho thấy tốc độ xử lý dữ liệu của thuật toán MTCNN khá cao, đáp ứng tốt yêu cầu của hệ thống Nguyên lý hoạt động của MTCNN được minh họa như hình dưới đây.

Hình 1.11: Nguyên lý hoạt động MTCNN [9]

MTCNN hoạt động qua ba bước với ba mạng Neural riêng biệt: P-Net, R-Net và O-Net, mỗi bước thực hiện quá trình xử lý độc lập nhằm phát hiện khuôn mặt trong ảnh đầu vào một cách nhanh chóng và chính xác Đối với mỗi bức ảnh, thuật toán tạo ra nhiều bản sao với kích thước khác nhau, giúp cải thiện khả năng nhận diện Bài viết này sẽ phân tích chi tiết cấu tạo và nguyên lý hoạt động của từng mạng, từ đó cung cấp cái nhìn tổng quan về thuật toán MTCNN.

Hình 1.12: Quá trình xử lý mạng P-Net

Bước đầu tiên trong quy trình nhận diện khuôn mặt là xử lý P-Net, một thuật toán sử dụng kernel 12x12 để quét toàn bộ ảnh nhằm phát hiện các cửa sổ chứa khuôn mặt và các vectơ hồi quy tương ứng Sau đó, các cửa sổ này được hiệu chuẩn dựa trên các vectơ hồi quy đã thu được Cuối cùng, các cửa sổ chồng chéo tại một vùng sẽ được hợp nhất thông qua phương pháp NMS, từ đó tạo ra các cửa sổ tiềm năng có thể chứa khuôn mặt.

Hình 1.13: Ví dụ xử lý mạng P-Net

Bước 2: Quá trình xử lý R-Net Tất cả các cửa sổ chứa khuôn mặt từ tầng P-

Net sẽ được sàng lọc qua CNN R-Net nhằm loại bỏ nhiều cửa sổ không chứa khuôn mặt Tiếp theo, quá trình hiệu chuẩn sẽ được thực hiện bằng vector hồi quy, đồng thời hợp nhất các cửa sổ xếp chồng tại một khu vực cụ thể.

Hình 1.14: Quá trình xử lý mạng R-Net

Quá trình xử lý của mạng R-Net bắt đầu từ ảnh đã qua P-Net, trong đó thực hiện lọc để loại bỏ đáng kể các vùng không chứa khuôn mặt, mang lại ảnh sau xử lý rõ ràng và chính xác hơn.

Hình 1.15: Ví dụ xử lý mạng R-Net

Bước 3 trong quá trình xử lý O-Net sử dụng Mạng đầu ra (O-Net) với CNN chi tiết nhất để lọc kết quả và đánh dấu vị trí năm điểm chính trên khuôn mặt Sau khi qua tầng này, các cửa sổ chứa khuôn mặt sẽ là những khuôn mặt đã được phát hiện.

Hình 1.16: Quá trình xử lý O-Net

Sau khi xử lý, thuật toán cung cấp ba kết quả đầu ra chính: xác suất khuôn mặt nằm trong đường bao, tọa độ của đường bao khuôn mặt và tọa độ của các mốc quan trọng trên khuôn mặt như vị trí mắt, mũi và miệng.

CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP PHÂN TÍCH XỬ LÝ BÀI TOÁN

Tổng quan bài toán xác định mật độ đối tượng

Cuộc cách mạng công nghiệp 4.0 cùng sự phát triển mạnh mẽ về khoa học và công nghệ đã mang lại nhiều ứng dụng hiệu quả trong đời sống Một trong những thách thức quan trọng hiện nay là tìm kiếm phương pháp quản lý mật độ đối tượng, điều này đặc biệt cần thiết trong nhiều lĩnh vực xã hội Bài toán này không chỉ lớn mà còn khó, với tính ứng dụng thực tiễn cao, ảnh hưởng đến nhiều khía cạnh trong cuộc sống.

Bài toán an ninh và an toàn trong các tòa nhà, khu vực quan trọng, cơ quan, và xí nghiệp luôn là vấn đề cần được nghiên cứu sâu sắc Việc áp dụng công nghệ vào quản lý không chỉ giúp tăng cường giám sát an ninh mà còn giảm thiểu công việc và nhân công, do đó, việc triển khai công nghệ này là rất cần thiết và cần được thực hiện sớm.

Trong bối cảnh quản lý nhân công ngày càng phức tạp, việc áp dụng công nghệ vào bài toán chấm công và điểm danh nhân viên là giải pháp cần thiết để nâng cao tốc độ và độ chính xác Trước đây, quy trình chấm công tốn nhiều thời gian và công sức, nhưng với công nghệ hiện đại, khối lượng công việc này sẽ giảm đáng kể, giúp tối ưu hóa quy trình quản lý nhân sự.

- Bài toán quản lý giao thông, đô thị thông minh: Hầu hết với các phương pháp truyền thống để quản lý phương tiện, con người tham gia

Việc đảm bảo an toàn giao thông thường gặp khó khăn trong việc xử phạt vi phạm, nhưng với sự áp dụng công nghệ, quy trình này trở nên dễ dàng hơn rất nhiều.

Vấn đề an ninh an toàn tại các khu tập thể và tòa nhà doanh nghiệp từng là một thách thức lớn, đặc biệt trong việc quản lý ra vào và đội ngũ bảo vệ chưa đáp ứng đủ nhu cầu Gần đây, sự phát triển mạnh mẽ của các hệ thống giám sát an ninh và an toàn đã mang lại giải pháp hiệu quả, giúp nâng cao tính năng và công nghệ trong quản lý an ninh cho các tòa nhà và doanh nghiệp.

Gần đây, nhóm tác giả Fahim Faisal Syed và Akhter Hossain từ đại học Daffodil International đã công bố một nghiên cứu về việc áp dụng trí tuệ nhân tạo để cải thiện chất lượng hệ thống an ninh, với tiêu đề “Smart Security System Using Face Recognition on Raspberry Pi” trên IEEE papers Nghiên cứu sử dụng phương pháp Viola-Jones để phát hiện khuôn mặt và nhận diện người, với bộ kit Raspberry Pi làm bộ vi xử lý nhằm giảm chi phí và kích thước hệ thống Hệ thống cho phép cửa tự động mở khi nhận lệnh từ bộ xử lý, trong khi truy cập trái phép sẽ được ghi lại và gửi thông báo qua email cho chủ sở hữu Tuy nhiên, theo phân tích của Monali Chaudhari và các tác giả khác, mặc dù thuật toán Viola-Jones có tốc độ nhanh, nhưng độ chính xác của nó phụ thuộc nhiều vào ánh sáng và ngưỡng Do đó, nhiều nghiên cứu khác đã được thực hiện để nâng cao độ chính xác, như “Accuracy Enhancement of the Viola-Jones Algorithm for Thermal Face Detection” của Arwa M Basbrain, trong đó kết hợp ba tính năng HOG, LBP và Haar cùng với giai đoạn tiền xử lý nhằm cải thiện hiệu suất phát hiện khuôn mặt.

18 hiện cao hơn so với phương phápViola-Jones và cũng tăng gấp đôi tốc độ phát hiện

Nghiên cứu của nhóm tác giả Ratnawati Ibrahim và Zalhan Mohd Zin về “Hệ thống Nhận diện Khuôn mặt Tự động cho Ứng dụng Kiểm soát Truy cập Cửa Văn phòng” tập trung vào an ninh và an toàn cho các tòa nhà văn phòng Nghiên cứu phân tích ảnh hưởng của ba yếu tố chính: chiếu sáng, khoảng cách và định hướng khuôn mặt đến hiệu suất của thuật toán nhận diện khuôn mặt Kết quả cho thấy hệ thống đạt tỷ lệ nhận diện 78% khi khoảng cách giữa camera và đối tượng từ 40 cm đến 60 cm, với góc định hướng từ -20 đến +20 độ Độ chính xác là yếu tố quan trọng hàng đầu trong hệ thống an ninh, tiếp theo là phương pháp quản lý và xử lý dữ liệu thu thập Qua các bài báo đã công bố, có thể thấy lĩnh vực an ninh ngày càng được chú trọng và độ chính xác đang được cải thiện.

Hệ thống chấm công nhân viên và điểm danh học sinh đang được nghiên cứu để cải thiện hiệu quả quản lý dữ liệu lớn Việc quản lý thông tin chính xác là một thách thức, đặc biệt khi sử dụng phương pháp thủ công như thẻ RFID hoặc chấm công vân tay, mặc dù chúng có độ chính xác cao Tuy nhiên, những phương pháp này vẫn tồn tại nhiều hạn chế Gần đây, sự phát triển của công nghệ, đặc biệt là trí tuệ nhân tạo, đã mở ra cơ hội mới, cho phép các phương pháp chấm công được cải tiến hoặc kết hợp nhằm tăng cường độ chính xác cho hệ thống.

Trên thế giới, nhiều nghiên cứu đã được công bố trên các trang thông tin uy tín, trong đó có đề tài “Automated Attendance Marking and Management System by Facial Recognition Using Histogram” của nhóm tác giả Jenif D Souza W S, Jothi S, Chandrasekar A Bài báo này giới thiệu một phương pháp điểm danh học sinh bằng công nghệ nhận diện khuôn mặt, cho phép thực hiện việc điểm danh hoàn toàn tự động, thay thế cho phương pháp thủ công truyền thống.

Hệ thống điểm danh sử dụng camera cố định trong phòng để chụp ảnh và thu thập dữ liệu khuôn mặt, sau đó so sánh với cơ sở dữ liệu để xác định sự có mặt của học sinh Nếu học sinh bị đánh dấu vắng mặt, thông báo sẽ được gửi đến phụ huynh Phương pháp này áp dụng thuật toán Histogram, nhưng nghiên cứu của Priyanka Garg và Trisha Jain trong bài viết "A Comparative Study on Histogram Equalization and Cumulative Histogram Equalization" đã chỉ ra một số nhược điểm của phương pháp histogram.

- Phù hợp hơn với những ứng dụng thực hiện trên phần cứng

- Cần xử lý, hoạt động nhiều hơn vì nó là cần thiết để tạo cơ sở tích lũy dữ liệu

- Tính toán rất chậm, đòi hỏi một số lượng lớn thông số trên mỗi pixel

Để giải quyết vấn đề quản lý nhân viên hiệu quả, bài viết "Hệ thống điểm danh thông minh thời gian thực sử dụng kỹ thuật nhận dạng khuôn mặt" của nhóm tác giả Shreyak Sawhney, Karan Kacke, Samyak Jain đã đề xuất một mô hình tự động cho hệ thống quản lý nhân viên văn phòng Mô hình này áp dụng phân tích thành phần nguyên tắc (PCA) và mạng trí tuệ nhân tạo CNN để xác định danh tính và ID khuôn mặt bằng cách so sánh với cơ sở dữ liệu khuôn mặt của nhân viên Mặc dù hệ thống đã thành công trong việc nâng cao độ chính xác nhận dạng, nhưng vẫn tồn tại vấn đề nhận dạng giả mạo, khi khuôn mặt của một người có thể bị nhận diện từ ảnh hoặc video mà không cần có mặt thực tế Vấn đề then chốt là tìm ra giải pháp hiệu quả để khắc phục tình trạng giả mạo trong nhận dạng khuôn mặt.

Bài toán đô thị thông minh đang được chính phủ các quốc gia xem xét triển khai tại các thành phố lớn nhằm thúc đẩy sự phát triển xã hội, kỹ thuật, kinh tế và chính trị Việc áp dụng công nghệ dữ liệu lớn và trí tuệ nhân tạo trong các thành phố thông minh đóng vai trò quan trọng trong việc cải thiện chất lượng cuộc sống và tối ưu hóa quản lý đô thị.

Để cải thiện mức sống của công dân, các thành phố cần áp dụng 20 công nghệ trong các lĩnh vực như sức khỏe, giao thông, năng lượng, giáo dục, dịch vụ nước và quản lý chất thải Trong hệ thống giao thông, việc giám sát và quản lý lưu lượng truy cập địa phương là rất quan trọng để nâng cao dịch vụ vận chuyển công cộng Các thiết bị như camera và hệ thống thu thập dữ liệu video đang được lắp đặt tại các điểm kiểm tra chính của thành phố Tuy nhiên, sự gia tăng dữ liệu giao thông đang đặt ra thách thức cho khả năng quản lý hiệu quả Big data là một trong những công nghệ hứa hẹn có thể giúp giải quyết vấn đề này, và việc phân tích dữ liệu lớn là yếu tố then chốt cho sự thành công trong nhiều lĩnh vực Nhiều nghiên cứu về đô thị thông minh đã được công bố, trong đó có đề tài “Nghiên cứu và Phân tích các Ứng dụng Thông minh trong Bối cảnh Thành phố Thông minh”.

Nhóm tác giả Jally Sahoo và Mamata Rath đã nghiên cứu về thuật toán deep learning và big data nhằm nâng cao hiệu suất quản lý trong thành phố thông minh Bài báo cung cấp cái nhìn sâu sắc về việc ứng dụng các công nghệ như điện toán đám mây, hệ thống wireless, deep learning và big data để tạo ra mạng lưới ứng dụng hiệu quả Trong khi đó, nghiên cứu của Vishal Dattana và Kishu Gupta mang tên "A Probability based Model for Big Data Security in Smart City" đã trình bày một phương pháp quản lý hiệu quả để phát hiện rò rỉ dữ liệu, cả do cố ý và vô ý Nghiên cứu này sử dụng thuật toán Bigraph nhằm bảo vệ dữ liệu quan trọng bằng cách xác định các tác nhân gây ra rò rỉ dữ liệu.

Hình 2.1: Kiến trúc quản lý đô thị công bố bởi [18]

Nhận thức rằng việc xác định và quản lý mật độ đối tượng là rất quan trọng trong cuộc sống, tác giả sẽ tập trung vào việc phân tích và giải quyết các vấn đề còn tồn tại nhằm nâng cao độ chính xác Để kiểm nghiệm các thuật toán và phân tích kết quả, tác giả sẽ sử dụng hệ thống điểm danh cho học sinh và sinh viên như một ví dụ cụ thể.

Tổng quan hệ thống điểm danh sinh viên

Hệ thống điểm danh và quản lý sinh viên đã được cải tiến với việc áp dụng công nghệ hiện đại nhằm giảm tải công việc cho giảng viên Một ví dụ điển hình là đề tài “Fingerprint-Based Attendance Management System” của nhóm tác giả Akinduyite C.O, Adetunmbi A.O, Olabode O.O, Ibidunmoye E.O, trong đó công nghệ vân tay được ứng dụng để quản lý điểm danh tại các trường đại học Hệ thống này bao gồm hai quá trình chính: lấy vân tay và xác thực Trong quá trình đăng ký, dấu vân tay của người dùng được ghi lại và lưu trữ cùng với danh tính trong cơ sở dữ liệu Tuy nhiên, tác giả cũng chỉ ra một số khó khăn như việc không truy xuất được vân tay do xước hoặc môi trường ẩm ướt Để xử lý hiệu quả lượng dữ liệu lớn, tác giả đã kết hợp công nghệ điểm danh vân tay với xử lý hình ảnh và nhận diện khuôn mặt, giúp giảm khối lượng công việc và nâng cao độ chính xác cho hệ thống.

Hệ thống điểm danh tự động là một giải pháp tích hợp, cho phép thu thập, so sánh và đánh giá kết quả chuyên cần một cách hoàn toàn tự động Để đáp ứng nhu cầu sử dụng đa dạng và linh hoạt về kinh phí, hệ thống cung cấp nhiều phương thức thực hiện, bao gồm điểm danh qua nhận diện khuôn mặt, điểm danh bằng vân tay, hoặc kết hợp cả hai phương pháp nhằm nâng cao độ chính xác.

Phương pháp nhận diện khuôn mặt ngày càng được ưa chuộng, đặc biệt là việc sử dụng camera gắn trước cửa để phát hiện khuôn mặt và trích xuất danh tính Ưu điểm nổi bật của công nghệ này là độ chính xác cao, thời gian lấy mẫu nhanh chóng và khả năng phát hiện mà không cần tiếp xúc, khác với phương pháp quét vân tay.

Phương pháp chấm vân tay đang được áp dụng rộng rãi hiện nay, cho phép sinh viên điểm danh bằng cách so sánh dữ liệu vân tay đã ghi trước đó Ưu điểm của phương pháp này là tính nhanh chóng và độ chính xác cao Tuy nhiên, việc lấy vân tay có thể gặp khó khăn khi vân tay bị biến dạng do nước hoặc xước.

Hình 2.2: Tổng quan hệ thống điểm danh

Tùy theo mục đích sử dụng, hai phương pháp điểm danh có thể được áp dụng riêng lẻ hoặc kết hợp với nhau Hệ thống nổi bật với khả năng kết nối và truyền nhận dữ liệu lớn, cho phép thu thập thông tin từ nhiều lớp học khác nhau Cụ thể, dữ liệu vân tay tại lớp A và dữ liệu nhận diện khuôn mặt tại lớp B đều được đưa lên cơ sở dữ liệu tổng để xử lý Nhờ đó, người dùng có thể linh hoạt trong việc lựa chọn phương pháp và thiết bị, trong khi dữ liệu được tập trung quản lý một cách dễ dàng và hiệu quả.

Phân tích, cải tiến bài toán xác định mật độ đối tượng

Phân tích các bài báo đã công bố cho thấy, việc xây dựng một hệ thống an ninh và quản lý nhân sự hiệu quả cần ứng dụng công nghệ nhận diện khuôn mặt và thuật toán nhận diện chính xác Điều này rất quan trọng để đảm bảo độ chính xác theo yêu cầu, nhằm lựa chọn phương pháp ứng dụng đúng đắn.

Trong bài viết này, tác giả sẽ phân tích các phương pháp phổ biến hiện nay trong hệ thống quản lý mật độ đối tượng, đặc biệt là trên hệ thống điểm danh sinh viên.

Nghiên cứu về phương pháp xác định khuôn mặt đã tiến bộ từ ảnh xám đến ảnh màu Bài viết này sẽ tổng quát các hướng giải quyết chính cho bài toán nhận diện khuôn mặt, trong đó nhiều tác giả đã điều chỉnh một số chi tiết để đạt được kết quả mới Theo các nghiên cứu gần đây, có nhiều phương pháp hiệu quả trong việc nhận diện khuôn mặt và danh tính người.

Thuật toán nhận diện khuôn mặt truyền thống được chia thành hai loại: phương pháp tuyến tính và phi tuyến Các phương pháp tuyến tính như phân tích thành phần chính (PCA), phân tích thành phần độc lập (ICA) và phân tích phân biệt tuyến tính (LDA) đã cho kết quả xử lý tốt Tuy nhiên, sự thay đổi trong điều kiện chiếu sáng, biểu hiện khuôn mặt và các yếu tố khác có thể làm giảm hiệu quả của chúng Để khắc phục, các phương pháp phi tuyến như kernel LDA (KLDA) và nhúng tuyến tính cục bộ (LLE) đã được phát triển, sử dụng kỹ thuật kernel để ánh xạ hình ảnh khuôn mặt vào không gian có chiều cao hơn, từ đó cho phép áp dụng các phương pháp tuyến tính truyền thống.

Mạng Neural nhân tạo, kết hợp với hệ số ma trận không âm, được sử dụng để nhận diện khuôn mặt người, như đã trình bày trong tài liệu [25] Tác giả áp dụng mạng Neural phản hồi để học các đặc điểm khuôn mặt thông qua các số liệu khoảng cách khác nhau và tương quan chuẩn hóa Ngoài ra, một phương pháp mới dựa trên cây quyết định kết hợp các yếu tố của mạng Neural và thống kê cũng được đề xuất trong tài liệu [26], nhằm cải thiện khả năng nhận dạng hình ảnh khuôn mặt không trực diện.

- Phương pháp Gabor wavelet‐based: Phương pháp Gabor được áp dụng tại các vị trí cố định, tương ứng với các nút của lưới ô vuông được đặt

Bài viết trình bày về việc sử dụng 24 mô hình con của hình ảnh khuôn mặt, trong đó các đặc điểm Gabor được định nghĩa và trích xuất từ cùng một hàng của lưới ô vuông Những đặc điểm này được chiếu vào không gian kích thước thấp hơn thông qua phép biến đổi Karhunen-Loeve Để huấn luyện Parzen Window Classifier, các tính năng thu được được áp dụng thuật toán di truyền (GA) Quá trình khớp được thực hiện thông qua việc tổng hợp các phân loại, trong đó biểu đồ Histogram được đề xuất để tổng hợp các mẫu cục bộ, tạo ra biểu diễn hình ảnh khuôn mặt từ các mẫu Gabor đã học Phương pháp này cung cấp một cách tiếp cận học tập hiệu quả hơn so với việc sử dụng tính năng ghép biểu đồ đơn giản.

Phương pháp nhận diện khuôn mặt dựa trên mô tả hình ảnh học từ các bức ảnh mẫu, áp dụng kỹ thuật xác suất thống kê và máy học để xác định các đặc tính liên quan đến khuôn mặt Những đặc tính này được biểu diễn dưới dạng mô hình phân bố hoặc hàm biệt số, giúp phân biệt khuôn mặt với các đối tượng khác Để tăng hiệu quả tính toán và độ chính xác, bài toán giảm số chiều thường được thực hiện, trong đó các mẫu ảnh được chiếu vào không gian có số chiều thấp hơn Sau đó, một hàm biệt số, dựa trên các độ đo khoảng cách, được sử dụng để phân loại hoặc xây dựng mặt quyết định phi tuyến bằng mạng Neural đa tầng Ngoài ra, phương pháp SVM (Support Vector Machine) và các kỹ thuật kernel cũng được áp dụng để chiếu mẫu vào không gian có số chiều cao hơn, giúp phân loại hiệu quả giữa khuôn mặt và không phải khuôn mặt.

Bảng 2.1: So sánh các phương pháp nhận diện khuôn mặt

STT Phương pháp Ưu điểm Nhược điểm

Nhận diện khuôn mặt truyền thống

Tập trung vào sự đa dạng các cấu trúc cục bộ

Khoảng cách từ không gian mặt đến mặt phẳng của hình ảnh là trực giao, giúp chuyển đổi dễ dàng sang khoảng cách Mahalanobis với giải thích xác suất.

Phương pháp này có thể không nhận diện được khuôn mặt khi sự thay đổi lớn trong chiếu sáng

Tích hợp hệ số mạng Neural, có thể update để đạt độ chính xác cao

Phương pháp tiếp cận đơn giản hóa, tốc độ tính toán nhanh và đặc biệt có hiệu quả khi nhận diện một phần hoặc toàn bộ khuôn mặt

Nhược điểm chính của phương pháp này là yêu cầu số lượng lớn của mẫu trainning

Thể hiện được các đặc trưng mong muốn của các thuộc tính trực

Cách tiếp cận là tính toán chuyên sâu, không thực tế cho các ứng dụng thời gian thực Ngoài ra, tính

26 quan như định hướng không gian vị trí, tính chọn lọc,… năng Gabor rất nhạy cảm biến sáng

Nhận diện khuôn mặt dựa trên mô tả mang lại lợi ích nổi bật là sử dụng các đặc điểm riêng biệt để phân biệt danh tính của từng cá nhân Phương pháp này cho phép trích xuất thông tin một cách dễ dàng và đạt được độ chính xác cao trong việc phân loại.

Cách tiếp cận tính toán chuyên sâu trong giai đoạn trích xuất mô tả cần được đơn giản hóa để đảm bảo hiệu suất cho các ứng dụng thời gian thực.

Yêu cầu bài toán áp dụng vào hệ thống:

- Xử lý real-time với tốc độ tương đối ổn định

- Nhận diện không chỉ hướng trực diện

- Độ chính xác tương đối cao

- Ánh sáng ảnh hưởng không nhiều

→ Chọn phương pháp nhận dạng sử dụng mạng Neural

2.3.1 Thuật toán nhận dạng khuôn mặt sử dụng mạng Neural Để giải quyết bài toán liên quan deep learning nói chung và nhận diện khuôn mặt sử dụng mạng Neural nói riêng, khâu chuẩn bị dữ liệu trainning là hết sức quan trọng Như đã phân tích ở trên, phương pháp này cần một lượng data khá lớn để hệ thống có thể học được Sau khi đã học xong, quá trình nhận diện sẽ có thể tiến hành, độ chính xác của hệ thống càng cao khi lượng dữ liệu trainning càng lớn tuy nhiên thời gian trainning cũng lâu hơn Quá trình trainning dữ liệu, nhận diện được tóm tắt ngắn gọn như dưới đây:

Hình 2.3: Lưu đồ quá trình nhận diện khuôn mặt

2.3.2 Cách thức tổ chức và xử lý dữ liệu trainning

2.3.2.1 Gán nhãn, phát hiện biên và đặc trưng khuôn mặt

Bước 1: Tách biên vùng chứa khuôn mặt

Bước đầu tiên để giảm thiểu biến đổi trong ảnh khuôn mặt là tách biên các khuôn mặt ra khỏi nhau, giúp giảm các biến đổi về vị trí, hướng và tỷ lệ Việc tách biên được thực hiện trực tiếp từ ảnh, tạo ra không gian ảnh khuôn mặt tối thiểu Tuy nhiên, cường độ ảnh có thể thay đổi nhiều, khiến việc tách biên trở nên khó khăn Để khắc phục, chúng ta sử dụng phương pháp gán nhãn thủ công cho các mẫu khuôn mặt, bao gồm vị trí của hai mắt, đỉnh mũi, hai góc và trung tâm miệng.

Bước 2: Tách biên giữa các khuôn mặt

Sau bước đầu tiên, dữ liệu sẽ được sử dụng để phân tách các khuôn mặt khỏi nhau Quá trình này bắt đầu bằng việc định nghĩa tách biên giữa hai tập hợp điểm đặc trưng, thông qua các phép biến đổi như quay, thay đổi tỷ lệ và dịch chuyển, nhằm tối thiểu hóa tổng bình phương.

28 khoảng cách giữa từng cặp đặc trưng tương ứng Trong không gian hai chiều, một phép biến đổi toạ độ như vậy có thể được viết dưới dạng sau:

Khi có từ hai cặp điểm đặc trưng trở lên, hệ phương trình tuyến tính có thể được giải bằng phương pháp đảo ngược giả Trong đó, ma trận bên trái được ký hiệu là A, vector là T, và bên phải là B, từ đó ta có thể tìm ra lời giải.

Phép biến đổi T được xác định bởi công thức T = (A T A) -1 (A T B), nhằm tối thiểu hóa tổng bình phương chênh lệch giữa các tọa độ x’i, y’i và phiên bản đã biến đổi của xi, yi.

Bước 3: Tách biên tập các điểm đặc trưng

THIẾT KẾ HỆ THỐNG ĐIỀU KHIỂN

Tiêu đề	Nghiên cứu, thiết kế hệ thống cơ điện tử thông minh ứng dụng công nghệ nhận dạng khuôn mặt và thuật toán học sâu trong việc điểm danh và đánh giá độ chuyên cần của sinh viên
Tác giả	Nguyễn Duy Khánh
Người hướng dẫn	TS. Đặng Thái Việt
Trường học	Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành	Kỹ thuật Cơ Điện Tử
Thể loại	luận văn thạc sĩ
Năm xuất bản	2020
Thành phố	Hà Nội

Định dạng
Số trang	72
Dung lượng	2,1 MB