1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỒ án tốt NGHIỆP đại học đề tài NHẬN DẠNG cử CHỈ TĨNH bàn TAY từ cảm BIẾN MANG HÌNH ẢNH

13 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 374,7 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong đó, vấn đề nhận dạng cử chỉ tay người đóng một vai trò đặc biệt quan trọng trong việc xây dựng những ứng dụng thực tiễn giúp ích cho đời sống con người ví dụ như sử dụng cử chỉ tay

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN ĐIỆN TỬ - VIỄN THÔNG

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC

Đề tài:

NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY

TỪ CẢM BIẾN MANG HÌNH ẢNH

Sinh viên thực hiện: NGUYỄN VĂN THẮNG

Lớp KTĐTTT 07 – K61 Giảng viên hướng dẫn: PGS.TS TRẦN THỊ THANH HẢI

Hà Nội, 6-2021

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN ĐIỆN TỬ - VIỄN THÔNG

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC

Đề tài:

NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY

TỪ CẢM BIẾN MANG HÌNH ẢNH

Sinh viên thực hiện:

Giảng viên hướng dẫn: PGS.TS TRẦN THỊ THANH HẢI Cán bộ phản biện: ………

Hà Nội, 6-2021

Trang 4

PHẦN MỞ ĐẦU

Bài toán nhận dạng hoạt động người đã thu hút sự quan tâm nghiên cứu của các nhà

khoa học trong hơn 3 thập kỷ qua Đây vẫn là một lĩnh vực nghiên cứu đầy tiềm năng bởi nó mở ra nhiều ứng dụng trong theo dõi giám sát, tương tác người máy hoặc giải trí Trong đó, vấn đề nhận dạng cử chỉ tay người đóng một vai trò đặc biệt quan trọng trong việc xây dựng những ứng dụng thực tiễn giúp ích cho đời sống con người (ví dụ như sử dụng cử chỉ tay để điều khiển thiết bị gia dụng) Do vậy, cần thiết kế một mô hình có thể phát hiện và nhận dạng cử chỉ tay tự động

1

Trang 5

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG CỬ CHỈ TAY

NGƯỜI

1.1 Một số khái niệm

Cùng với sự tiến bộ của công nghệ, giao tiếp giữa con người với máy tính đang trở nên tự nhiên, đồng thời gần hơn với giao tiếp giữa con người với con người Một trong các phương pháp giao tiếp tự nhiên giữa người với người là dựa trên ngôn ngữ cơ thể,

cụ thể là cử chỉ của tay Xu hướng cho phép máy tính nhận dạng cử chỉ tay người theo thời gian thực đã xuất hiện trên một số sản phẩm thương mại như tivi thông minh Samsung, cảm biến Kinect cho máy chơi game Xbox360 của Microsoft, DepthSense của SoftKinect, camera Creative Interactive Gesture của Intel, tivi tích hợp nhận dạng khuôn mặt và bàn tay của hãng Omron, hay thiết bị của Leap Motion

1.2 Một số nghiên cứu liên quan về nhận dạng cử chỉ tay người

1.2.1 Hướng tiếp cận biểu diễn hoạt động dựa trên đặc trưng trích chọn được thiết kế bằng tay (hand-crafted features)

Đặc trưng thiết kế bằng tay (handcrafted feature) là các đặc trưng được thiết kế từ trước, nhằm đưa ra cấu trúc đặc trưng phù hợp nhất với từng đối tượng hoặc hoạt động Nhờ vậy mà các mô hình cải thiện được độ chính xác của mình Đây là công việc đòi hỏi sự sáng tạo và thời gian của các nhà khoa học dữ liệu

Các đặc trưng giúp cho việc chuyển đổi dữ liệu thô ban đầu thành tập các thuộc tính giúp biểu diễn dữ liệu tốt hơn, giúp tương thích với từng mô hình dự đoán cụ thể, cũng như cải thiện độ chính xác của mô hình hiện tại

Hình 1-1 Các bước xử lý trong hệ thống nhận dạng sử dụng đặc trưng trích chọn được

thiết kế bằng tay.

Hình 1 -1 minh họa hệ thống tổng quát sử dụng đặc trưng được thiết kế bằng tay

Sơ đồ này gồm 2 khối chính là:

- Khối trích chọn đặc trưng bằng tay: Nhận đầu vào là các pixel của ảnh và đưa ra các đặc trưng cho ảnh đó Đặc trưng ở khối này được chọn từ trước tùy theo yêu cầu bài toán và đặc điểm của từng dataset

2

Trang 6

- Khối phân lớp: Là một bộ phân lớp được huấn luyện từ trước với đầu vào là các đặc trưng được xuất ra từ khối trích chọn đặc trưng và đưa ra nhãn lớp tương ứng

1.2.2 Hướng tiếp cận biểu diễn hoạt động dựa trên kỹ thuật học sâu

Kỹ thuật học sâu (Deep learning) là một thuật toán học máy được xây dựng dựa trên một số ý tưởng mô phỏng hệ thống não bộ của con người Nó biểu diễn dữ liệu thông qua nhiều tầng từ cụ thể đến trừu tượng qua đó trích rút được các đặc trưng có ý nghĩa trong nhận dạng đối tượng ảnh Thuật toán học sâu đã đạt được nhiều thành công trong bài toán xử lý ảnh hay nhận dạng giọng nói Khác với đặc trưng được thiết

kế bằng tay, kỹ thuật học sâu sẽ học các đặc trừng từ dữ liệu ảnh thô ban đầu

1.2.3 Nhận xét chung

Hướng biểu diễn dựa trên đặc trưng được trích xuất bằng tay cho kết quả khá tốt trên các tập dữ liệu nhỏ và có một số đặc điểm nhất định Tuy vậy trên thực tế, dữ liệu được thu nhận được ở các điều kiện khác nhau và đa dạng Cử chỉ tay người có thể bị che khuất bởi các vật thể phía trước hay dữ liệu nhận được ở trong các khung cảnh khác nhau Do đó, đối với cơ sở dữ liệu lớn thì việc sử dụng phương pháp này là khá khó khăn

1.3 Mục tiêu của đồ án

Trong ĐATN này em tập trung vào việc phân loại và nhận dạng các cử chỉ tĩnh của bàn tay, bằng cách thử nghiệm trên tập dữ liệu được thu thập gồm các ảnh tĩnh bàn tay của 10 đối tượng, thuộc 10 lớp hoạt động thu được từ cảm biến đeo ở cổ tay Trong chương 2 tiếp theo, em sẽ trình bày các lý thuyết cơ bản về mạng học sâu và mạng YOLOv5 Các mở rộng và triển khai cài đặt và thử nghiệm đánh giá mạng YOLOv5 trên dữ liệu cử chỉ tĩnh của bàn tay sẽ được trình bày trong chương 3

3

Trang 7

CHƯƠNG 2 MẠNG NƠ RON TÍCH CHẬP CHO BÀI TOÁN

NHẬN DẠNG CỬ CHỈ TĨNH BÀN TAY

2.1 Giới thiệu chung về mạng nơ ron tích chập

2.1.1 Mạng nơ ron nhân tạo (artificial neural network)

Mạng nơ-ron nhân tạo được thiết kế dựa trên những nghiên cứu sinh học về bộ não người (Hình 2) Hình dưới miêu tả cấu trúc của một nơ-ron của bộ não người

Hình 2-2 Minh hoạ mạng nơ ron của người (từ Rob Fergus)

2.1.1.1 Cấu trúc mạng nơ ron

2.1.2 Mạng nơ ron tích chập

+ Chia sẻ trọng số (weight sharing)

+ Lấy mẫu (subsampling)

2.1.2.1 Cấu trúc mạng CNN

Hình 2-3 Cấu trúc đại diện của một mạng nơ ron tích chập Nguồn www.mathworks.com

4

Trang 8

2.1.2.2 Tính chất của mạng CNN

5

Trang 9

CHƯƠNG 3 XÂY DỰNG MÔ HÌNH CNN NHẬN DẠNG CỬ

CHỈ TĨNH BÀN TAY

3.1 Sơ đồ khối tổng quát

Để hoàn thành việc nhận dạng cử chỉ tĩnh bàn tay sử dụng mô hình YOLOv5, cần thực hiện các bước sau:

Bước 1: Thu thập ảnh chứa ảnh cử chỉ tĩnh, tiến hành tiền xử lý và gán nhãn cho từng bức hình

Bước 2: Phân chia dữ liệu thành tập huấn luyện và tập kiểm tra

Bước 3: Huấn luyện mô hình sử dụng dữ liệu trong tập huấn luyện

Bước 4: So sánh và đánh giá các mô hình sử dụng tập kiểm tra

Hình 3-4 Sơ đồ khối quá trình thực hiện mô hình nhận dạng cử chỉ tĩnh bàn tay.

6

Trang 10

3.2 Thu thập CSDL cử chỉ tĩnh bàn tay từ cảm biến mang hình ảnh

3.2.1 Nhu cầu xây dựng CSDL

3.2.2 Kết quả thực nghiệm

3.2.2.1 Đánh giá định lượng trên tập validation

7

Trang 11

CHƯƠNG 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1 Kết luận

4.2 Hướng phát triển

8

Trang 12

TÀI LIỆU THAM KHẢO

[1] https://github.com/ultralytics/yolov5, last accessed at 14:57 on June 24, 2021 [2] Qing Chen, El-Sawah A., Joslin C., et al (2005) A dynamic gesture interface

for virtualenvironments based on hidden markov models IEEE, 109–114, 109–

114

[3] Chen X and Koskela M (2013) Online RGB-D gesture recognition with

extreme learning machines ACM Press, 467–474, 467–474.

[4] Doan H.-G., Vu H., and Tran T.-H (2017) Dynamic hand gesture recognition

from cyclical hand pattern IEEE, 97–100, 97–100.

[5] Burges C.J.C (1998) A Tutorial on Support Vector Machines for Pattern

Recognition Data Min Knowl Discov, 2(2), 121–167.

[6]Gkioxari G., Girshick R., and Malik J (2015) Contextual Action Recognition with R*CNN IEEE, 1080–1088, 1080–1088.

[7] Cheron G., Laptev I., and Schmid C (2015) P-CNN: Pose-Based CNN

Features for Action Recognition IEEE, 3218–3226, 3218–3226.

[8] Simonyan K and Zisserman A Two-Stream Convolutional Networks for Action

Recognition in Videos 9.

[9] Ji S., Xu W., Yang M., et al (2013) 3D Convolutional Neural Networks for

Human Action Recognition IEEE Trans Pattern Anal Mach Intell, 35(1), 221–

231

[10] Bishop C.M (2006), Pattern recognition and machine learning, Springer,

New York

[11] Becker S and Lecun Y (1989) Improving the convergence of back-propagation learning with second-order methods Proc 1988 Connect Models Summer Sch San

Mateo

[12] Brox T., Bruhn A., Papenberg N., et al (2004) High Accuracy Optical Flow

Estimation Based on a Theory for Warping Computer Vision - ECCV 2004.

Springer Berlin Heidelberg, Berlin, Heidelberg, 25–36

[13] https://github.com/AlexeyAB/darknet, last accessed at 22:35 on June 17, 2021 [14]https://www.kaggle.com/phamdinhkhanh/convolutional-neural-network-p1,

last accessed at 15:31 on June 14, 2021

9

Trang 13

[15] https://blog.roboflow.com/yolov5-improvements-and-evaluation/, last accessed

at 17:31 on June 18, 2021

10

Ngày đăng: 21/03/2022, 18:25

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Qing Chen, El-Sawah A., Joslin C., et al. (2005). A dynamic gesture interface for virtualenvironments based on hidden markov models. IEEE, 109–114, 109–114 Sách, tạp chí
Tiêu đề: A dynamic gesture interfacefor virtualenvironments based on hidden markov models
Tác giả: Qing Chen, El-Sawah A., Joslin C., et al
Năm: 2005
[3] Chen X. and Koskela M. (2013). Online RGB-D gesture recognition with extreme learning machines. ACM Press, 467–474, 467–474 Sách, tạp chí
Tiêu đề: Online RGB-D gesture recognition withextreme learning machines
Tác giả: Chen X. and Koskela M
Năm: 2013
[4] Doan H.-G., Vu H., and Tran T.-H. (2017). Dynamic hand gesture recognition from cyclical hand pattern. IEEE, 97–100, 97–100 Sách, tạp chí
Tiêu đề: Dynamic hand gesture recognitionfrom cyclical hand pattern
Tác giả: Doan H.-G., Vu H., and Tran T.-H
Năm: 2017
[5] Burges C.J.C. (1998). A Tutorial on Support Vector Machines for Pattern Recognition. Data Min Knowl Discov, 2(2), 121–167 Sách, tạp chí
Tiêu đề: A Tutorial on Support Vector Machines for PatternRecognition. Data Min Knowl Discov
Tác giả: Burges C.J.C
Năm: 1998
[6] Gkioxari G., Girshick R., and Malik J. (2015). Contextual Action Recognition with R*CNN. IEEE, 1080–1088, 1080–1088 Sách, tạp chí
Tiêu đề: Gkioxari G., Girshick R., and Malik J. (2015). "Contextual Action Recognitionwith R*CNN
Tác giả: Gkioxari G., Girshick R., and Malik J
Năm: 2015
[7] Cheron G., Laptev I., and Schmid C. (2015). P-CNN: Pose-Based CNN Features for Action Recognition. IEEE, 3218–3226, 3218–3226 Sách, tạp chí
Tiêu đề: P-CNN: Pose-Based CNNFeatures for Action Recognition
Tác giả: Cheron G., Laptev I., and Schmid C
Năm: 2015
[8] Simonyan K. and Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos. 9 Sách, tạp chí
Tiêu đề: Two-Stream Convolutional Networks for ActionRecognition in Videos
[9] Ji S., Xu W., Yang M., et al. (2013). 3D Convolutional Neural Networks for Human Action Recognition. IEEE Trans Pattern Anal Mach Intell, 35(1), 221–231 Sách, tạp chí
Tiêu đề: IEEE Trans Pattern Anal Mach Intell
Tác giả: Ji S., Xu W., Yang M., et al
Năm: 2013
[10] Bishop C.M. (2006), Pattern recognition and machine learning, Springer, New York Sách, tạp chí
Tiêu đề: Pattern recognition and machine learning
Tác giả: Bishop C.M
Năm: 2006
[12] Brox T., Bruhn A., Papenberg N., et al. (2004). High Accuracy Optical Flow Estimation Based on a Theory for Warping. Computer Vision - ECCV 2004.Springer Berlin Heidelberg, Berlin, Heidelberg, 25–36 Sách, tạp chí
Tiêu đề: Computer Vision - ECCV 2004
Tác giả: Brox T., Bruhn A., Papenberg N., et al
Năm: 2004
[11] Becker S. and Lecun Y. (1989). Improving the convergence of back- propagation learning with second-order methods. Proc 1988 Connect Models Summer Sch SanMateo Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w