Trong đó, vấn đề nhận dạng cử chỉ tay người đóng một vai trò đặc biệt quan trọng trong việc xây dựng những ứng dụng thực tiễn giúp ích cho đời sống con người ví dụ như sử dụng cử chỉ tay
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN ĐIỆN TỬ - VIỄN THÔNG
ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
Đề tài:
NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY
TỪ CẢM BIẾN MANG HÌNH ẢNH
Sinh viên thực hiện: NGUYỄN VĂN THẮNG
Lớp KTĐTTT 07 – K61 Giảng viên hướng dẫn: PGS.TS TRẦN THỊ THANH HẢI
Hà Nội, 6-2021
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN ĐIỆN TỬ - VIỄN THÔNG
ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
Đề tài:
NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY
TỪ CẢM BIẾN MANG HÌNH ẢNH
Sinh viên thực hiện:
Giảng viên hướng dẫn: PGS.TS TRẦN THỊ THANH HẢI Cán bộ phản biện: ………
Hà Nội, 6-2021
Trang 4PHẦN MỞ ĐẦU
Bài toán nhận dạng hoạt động người đã thu hút sự quan tâm nghiên cứu của các nhà
khoa học trong hơn 3 thập kỷ qua Đây vẫn là một lĩnh vực nghiên cứu đầy tiềm năng bởi nó mở ra nhiều ứng dụng trong theo dõi giám sát, tương tác người máy hoặc giải trí Trong đó, vấn đề nhận dạng cử chỉ tay người đóng một vai trò đặc biệt quan trọng trong việc xây dựng những ứng dụng thực tiễn giúp ích cho đời sống con người (ví dụ như sử dụng cử chỉ tay để điều khiển thiết bị gia dụng) Do vậy, cần thiết kế một mô hình có thể phát hiện và nhận dạng cử chỉ tay tự động
1
Trang 5CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ TAY
NGƯỜI
1.1 Một số khái niệm
Cùng với sự tiến bộ của công nghệ, giao tiếp giữa con người với máy tính đang trở nên tự nhiên, đồng thời gần hơn với giao tiếp giữa con người với con người Một trong các phương pháp giao tiếp tự nhiên giữa người với người là dựa trên ngôn ngữ cơ thể,
cụ thể là cử chỉ của tay Xu hướng cho phép máy tính nhận dạng cử chỉ tay người theo thời gian thực đã xuất hiện trên một số sản phẩm thương mại như tivi thông minh Samsung, cảm biến Kinect cho máy chơi game Xbox360 của Microsoft, DepthSense của SoftKinect, camera Creative Interactive Gesture của Intel, tivi tích hợp nhận dạng khuôn mặt và bàn tay của hãng Omron, hay thiết bị của Leap Motion
1.2 Một số nghiên cứu liên quan về nhận dạng cử chỉ tay người
1.2.1 Hướng tiếp cận biểu diễn hoạt động dựa trên đặc trưng trích chọn được thiết kế bằng tay (hand-crafted features)
Đặc trưng thiết kế bằng tay (handcrafted feature) là các đặc trưng được thiết kế từ trước, nhằm đưa ra cấu trúc đặc trưng phù hợp nhất với từng đối tượng hoặc hoạt động Nhờ vậy mà các mô hình cải thiện được độ chính xác của mình Đây là công việc đòi hỏi sự sáng tạo và thời gian của các nhà khoa học dữ liệu
Các đặc trưng giúp cho việc chuyển đổi dữ liệu thô ban đầu thành tập các thuộc tính giúp biểu diễn dữ liệu tốt hơn, giúp tương thích với từng mô hình dự đoán cụ thể, cũng như cải thiện độ chính xác của mô hình hiện tại
Hình 1-1 Các bước xử lý trong hệ thống nhận dạng sử dụng đặc trưng trích chọn được
thiết kế bằng tay.
Hình 1 -1 minh họa hệ thống tổng quát sử dụng đặc trưng được thiết kế bằng tay
Sơ đồ này gồm 2 khối chính là:
- Khối trích chọn đặc trưng bằng tay: Nhận đầu vào là các pixel của ảnh và đưa ra các đặc trưng cho ảnh đó Đặc trưng ở khối này được chọn từ trước tùy theo yêu cầu bài toán và đặc điểm của từng dataset
2
Trang 6- Khối phân lớp: Là một bộ phân lớp được huấn luyện từ trước với đầu vào là các đặc trưng được xuất ra từ khối trích chọn đặc trưng và đưa ra nhãn lớp tương ứng
1.2.2 Hướng tiếp cận biểu diễn hoạt động dựa trên kỹ thuật học sâu
Kỹ thuật học sâu (Deep learning) là một thuật toán học máy được xây dựng dựa trên một số ý tưởng mô phỏng hệ thống não bộ của con người Nó biểu diễn dữ liệu thông qua nhiều tầng từ cụ thể đến trừu tượng qua đó trích rút được các đặc trưng có ý nghĩa trong nhận dạng đối tượng ảnh Thuật toán học sâu đã đạt được nhiều thành công trong bài toán xử lý ảnh hay nhận dạng giọng nói Khác với đặc trưng được thiết
kế bằng tay, kỹ thuật học sâu sẽ học các đặc trừng từ dữ liệu ảnh thô ban đầu
1.2.3 Nhận xét chung
Hướng biểu diễn dựa trên đặc trưng được trích xuất bằng tay cho kết quả khá tốt trên các tập dữ liệu nhỏ và có một số đặc điểm nhất định Tuy vậy trên thực tế, dữ liệu được thu nhận được ở các điều kiện khác nhau và đa dạng Cử chỉ tay người có thể bị che khuất bởi các vật thể phía trước hay dữ liệu nhận được ở trong các khung cảnh khác nhau Do đó, đối với cơ sở dữ liệu lớn thì việc sử dụng phương pháp này là khá khó khăn
1.3 Mục tiêu của đồ án
Trong ĐATN này em tập trung vào việc phân loại và nhận dạng các cử chỉ tĩnh của bàn tay, bằng cách thử nghiệm trên tập dữ liệu được thu thập gồm các ảnh tĩnh bàn tay của 10 đối tượng, thuộc 10 lớp hoạt động thu được từ cảm biến đeo ở cổ tay Trong chương 2 tiếp theo, em sẽ trình bày các lý thuyết cơ bản về mạng học sâu và mạng YOLOv5 Các mở rộng và triển khai cài đặt và thử nghiệm đánh giá mạng YOLOv5 trên dữ liệu cử chỉ tĩnh của bàn tay sẽ được trình bày trong chương 3
3
Trang 7CHƯƠNG 2 MẠNG NƠ RON TÍCH CHẬP CHO BÀI TOÁN
NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY
2.1 Giới thiệu chung về mạng nơ ron tích chập
2.1.1 Mạng nơ ron nhân tạo (artificial neural network)
Mạng nơ-ron nhân tạo được thiết kế dựa trên những nghiên cứu sinh học về bộ não người (Hình 2) Hình dưới miêu tả cấu trúc của một nơ-ron của bộ não người
Hình 2-2 Minh hoạ mạng nơ ron của người (từ Rob Fergus)
2.1.1.1 Cấu trúc mạng nơ ron
2.1.2 Mạng nơ ron tích chập
+ Chia sẻ trọng số (weight sharing)
+ Lấy mẫu (subsampling)
2.1.2.1 Cấu trúc mạng CNN
Hình 2-3 Cấu trúc đại diện của một mạng nơ ron tích chập Nguồn www.mathworks.com
4
Trang 82.1.2.2 Tính chất của mạng CNN
5
Trang 9CHƯƠNG 3 XÂY DỰNG MÔ HÌNH CNN NHẬN DẠNG CỬ
CHỈ TĨNH BÀN TAY
3.1 Sơ đồ khối tổng quát
Để hoàn thành việc nhận dạng cử chỉ tĩnh bàn tay sử dụng mô hình YOLOv5, cần thực hiện các bước sau:
Bước 1: Thu thập ảnh chứa ảnh cử chỉ tĩnh, tiến hành tiền xử lý và gán nhãn cho từng bức hình
Bước 2: Phân chia dữ liệu thành tập huấn luyện và tập kiểm tra
Bước 3: Huấn luyện mô hình sử dụng dữ liệu trong tập huấn luyện
Bước 4: So sánh và đánh giá các mô hình sử dụng tập kiểm tra
Hình 3-4 Sơ đồ khối quá trình thực hiện mô hình nhận dạng cử chỉ tĩnh bàn tay.
6
Trang 103.2 Thu thập CSDL cử chỉ tĩnh bàn tay từ cảm biến mang hình ảnh
3.2.1 Nhu cầu xây dựng CSDL
3.2.2 Kết quả thực nghiệm
3.2.2.1 Đánh giá định lượng trên tập validation
7
Trang 11CHƯƠNG 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
4.1 Kết luận
4.2 Hướng phát triển
8
Trang 12TÀI LIỆU THAM KHẢO
[1] https://github.com/ultralytics/yolov5, last accessed at 14:57 on June 24, 2021 [2] Qing Chen, El-Sawah A., Joslin C., et al (2005) A dynamic gesture interface
for virtualenvironments based on hidden markov models IEEE, 109–114, 109–
114
[3] Chen X and Koskela M (2013) Online RGB-D gesture recognition with
extreme learning machines ACM Press, 467–474, 467–474.
[4] Doan H.-G., Vu H., and Tran T.-H (2017) Dynamic hand gesture recognition
from cyclical hand pattern IEEE, 97–100, 97–100.
[5] Burges C.J.C (1998) A Tutorial on Support Vector Machines for Pattern
Recognition Data Min Knowl Discov, 2(2), 121–167.
[6]Gkioxari G., Girshick R., and Malik J (2015) Contextual Action Recognition with R*CNN IEEE, 1080–1088, 1080–1088.
[7] Cheron G., Laptev I., and Schmid C (2015) P-CNN: Pose-Based CNN
Features for Action Recognition IEEE, 3218–3226, 3218–3226.
[8] Simonyan K and Zisserman A Two-Stream Convolutional Networks for Action
Recognition in Videos 9.
[9] Ji S., Xu W., Yang M., et al (2013) 3D Convolutional Neural Networks for
Human Action Recognition IEEE Trans Pattern Anal Mach Intell, 35(1), 221–
231
[10] Bishop C.M (2006), Pattern recognition and machine learning, Springer,
New York
[11] Becker S and Lecun Y (1989) Improving the convergence of back-propagation learning with second-order methods Proc 1988 Connect Models Summer Sch San
Mateo
[12] Brox T., Bruhn A., Papenberg N., et al (2004) High Accuracy Optical Flow
Estimation Based on a Theory for Warping Computer Vision - ECCV 2004.
Springer Berlin Heidelberg, Berlin, Heidelberg, 25–36
[13] https://github.com/AlexeyAB/darknet, last accessed at 22:35 on June 17, 2021 [14]https://www.kaggle.com/phamdinhkhanh/convolutional-neural-network-p1,
last accessed at 15:31 on June 14, 2021
9
Trang 13[15] https://blog.roboflow.com/yolov5-improvements-and-evaluation/, last accessed
at 17:31 on June 18, 2021
10