Từ ứng dụng nhận diện phát triển thành ứng dụng vẽ hình ảnh bằng cử chỉ kết hợp nhận diện hình ảnh bằng cử chỉ.. Giới thiệu về tensorflow 1 Tuần 1 Xác định đề tài nghiên cứu 2 Tuần
LÝ DO CHỌN ĐỀ ĐỀ TÀI
Hiện nay, sự phát triển của khoa học kỹ thuật đã mở rộng khả năng giao tiếp của con người, cho phép chúng ta kết nối với nhau nhiều hơn và xa hơn Trong số các hình thức giao tiếp, cử chỉ đóng vai trò quan trọng như một phương thức giao tiếp phi ngôn ngữ, truyền tải thông điệp thông qua các hành động nhìn thấy được của cơ thể mà không cần sử dụng âm thanh.
Cử chỉ là những hành động thay thế hoặc kết hợp với ngôn ngữ nói, bao gồm chuyển động của bàn tay, khuôn mặt và các bộ phận khác của cơ thể.
Sự phát triển không ngừng của công nghệ trí tuệ nhân tạo đã mang lại những tiến bộ vượt bậc trong việc nhận dạng cử chỉ Hiện nay, nhiều chức năng ứng dụng trên các thiết bị thông minh đã được cải thiện nhờ vào công nghệ này.
Hệ thống Điều khiển bằng cử chỉ của BMW cho phép người lái tùy chỉnh bảng điều khiển trung tâm chỉ với 5 động tác tay đơn giản.
Hình 1: Hệ thống BMW Gesture Control
(Nguồn: https://www.bimmer-tech.net/products-bmw-gesture-control-retrofit)
Nếu xung quanh chúng ta có những thiết bị thông minh có thể vận hành máy móc chỉ bằng những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.
Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Ý nghĩa khoa học
Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính tiến gần đến hiệu suất của con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này sẽ nâng cao khả năng tương tác giữa máy móc và con người, đồng thời giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng cầu nối phong phú hơn giữa hai bên.
Ý nghĩa thực tiễn
Nghiên cứu này cung cấp cơ sở cho việc phát triển máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi cần tìm kiếm một thứ gì đó mà không thể nhớ rõ, chúng ta chỉ cần vẽ hình ảnh của nó, và máy tính sẽ xử lý để giúp chúng ta Hơn nữa, công nghệ này còn cho phép điều khiển các thiết bị xung quanh bằng những cử chỉ đơn giản.
KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
Chương 1: cơ sở lý thuyết
1.3 Tổng quan về xử lý ảnh
1.5 Transfer learning và data augmentatio
Chương 2: áp dụng vào nhận diện hình ảnh bằng cử chỉ
2.2 Vẽ hình ảnh bằng thủ ngữ
2.3 Áp dụng cho bài toán nhận diện hình vẽ bằng cử chỉ
2.4 Ứng dụng nhận diện hình ảnh vẽ bằng cử chỉ
DANH MỤC TÀI LIỆU THAM KHẢO
STT Thời gian Công việc Ghi chú
1 Tuần 1 Xác định đề tài nghiên cứu
2 Tuần 2 Tìm hiểu đề tài và bắt đầu nghiên cứu
3 Tuần 3 Tìm hiểu về bài toán nhận diện hình ảnh
4 Tuần 4 Tìm hiểu kiến thức về xử lý ảnh
5 Tuần 5 Tìm hiểu kiến thức về mạng thần kinh nhân tạo, học sâu
6 Tuần 6 Chuẩn bị môi trường làm việc
7 Tuần 7 Chuẩn bị ứng dụng vẽ hình ảnh bằng cử đã xây dựng từ trước
8 Tuần 8 Tiến hành thu thập các hình vẽ bằng kỹ thuật data augmentation
9 Tuần 9 Tiến hành huấn luyện mô hình nhận diện hình vẽ
10 Tuần 10 Chỉnh sửa các tham số, tăng số lượng dữ liệu, tiếp tục huấn luyện mô hình
11 Tuần 11 Áp dụng mô hình nhận diện hình vẽ vào ứng dụng vẽ hình ảnh bằng cử chỉ
12 Tuần 12 Kiểm tra hiệu năng thực tế của ứng dụng
14 Tuần 14 Tinh chỉnh ứng dụng, sửa và viết báo cáo
15 Tuần 15 Hoàn thành project và báo cáo
TP HCM, ngày tháng năm 2022
Nguyễn Đức Thuận Ý kiến của giáo viên hướng dẫn
(Ký và ghi rõ họ tên)
DANH MỤC CÁC TỪ VIẾT TẮT 3
1 LÝ DO CHỌN ĐỀ ĐỀ TÀI 5
2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 6
3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU 6
5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 7
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 8
1.1.1 Giới thiệu sơ lược về Neural Network 8
1.2.1 Mạng Neural tích chập (CNN) 13
1.2.1.1 Mạng neural tích chập là gì? 13
1.2.1.3 Ý nghĩa của phép tích chập 16
1.2.2 Cấu trúc mạng neural tích chập 17
1.2.2.1 Tầng tích chập (Convolutional Layer) 17
1.2.2.2 Tầng tổng hợp (Pooling layer) 20
1.2.2.3 Tầng kết nối đầy đủ (Fully connected layer) 22
1.2.2.4 Tóm tắt mô hình của mạng neural tích chập 23
1.3 TỔNG QUAN VỀ XỬ LÝ ẢNH 24
1.3.5 Chuyển hệ màu của ảnh 28
1.4.1 Thuật toán tối ưu là gì? 28
1.4.2 Giới thiệu thuật toán Adam 28
1.4.3 Nguyên tắc hoạt động của Adam 29
1.4.5 Ưu và nhược điểm của thuật toán Adam 30
1.5 TRANSFER LEARNING VÀ DATA AUGMENTATION 31
1.5.3 Một vài phương pháp cơ bản của data augmentation 33
CHƯƠNG 2: ÁP DỤNG VÀO NHẬN DIỆN HÌNH ẢNH BẰNG CỬ CHỈ 36
2.1.2 Sơ lược về Tensorflow api 38
2.2 VẼ HÌNH ẢNH BẰNG THỦ NGỮ 39
2.2.2 Bài toán nhận diện thủ ngữ 40
2.2.3 Ứng dụng vẽ hình ảnh bằng cử chỉ 41
2.3 ÁP DỤNG CHO BÀI TOÁN NHẬN DIỆN HÌNH VẼ BẰNG CỬ CHỈ 46
2.3.2 Tổ chức môi trường làm việc 46
2.3.3.1 Tập dữ liệu Quickdraw_bitmap 48
2.4 ỨNG DỤNG NHẬN DIỆN HÌNH ẢNH VẼ BẰNG CỬ CHỈ 53
2.4.1 Áp dụng mô hình đã huấn luyện vào ứng dụng 53
2.4.3 Đánh giá hiệu năng thực tế của mô hình 56
2.4.4 Đánh giá vai trò của thuật toán Adam trong huấn luyện mô hình nhận diện hình ảnh 60
DANH MỤC TÀI LIỆU THAM KHẢO 64
Hình 1: Hệ thống BMW Gesture Control 5
Hình 2: Hình ảnh cấu trúc của Neuron thần kinh 8
Hình 3: Cấu trúc neuron nhân tạo 9
Hình 4: các thành phần của neuron nhân tạo 9
Hình 5: Cấu trúc đơn giản Neuron Network 11
Hình 6: Cấu trúc Deep Learning 12
Hình 7: So sánh hiệu suất của deep learning với các thuật toán học máy khác13 Hình 8: Mô hình mạng neural tích chập 13
Hình 9: Tích chập phần tử đầu tiên của X và F 14
Hình 10: Kết quả tích chập X và F 14
Hình 12: Vùng đệm kết hợp với bước sải (padding = 1, stride = 2) 15
Hình 13: Các kernal và ý nghĩa cúa nó trong xử lý ảnh 16
Hình 14: Kết quả tích chập của X và F 17
Hình 15: Áp dụng phương pháp tích chập trên ảnh màu với k=3 17
Hình 16: Tensor X, W 3 chiều được viết dưới dạng 3 matrix 18
Hình 17: Phép tính tích chập trong trên ảnh màu 19
Hình 18: Tóm tắt cấu trúc của tầng tích chập 20
Hình 19: Đầu ra của tầng tích chập 20
Hình 20: Pooling làm giảm chiều (width, height) nhưng không giảm dept 21
Hình 22: Cách thực hiện flatening 23
Hình 23: Mô hình mạng neural tích chập 23
Hình 25: Thông số RGB của một màu 24
Hình 26: Ảnh màu trong thực tế 25
Hình 27: Chi tiết về thuộc tính của hình ảnh được biểu diễn trên mày tính 26
Hình 28: Mô tả các hoạt động của xử lý ảnh màu 27
Hình 29: Minh họa cho thuật toán Adam 29
Hình 30: Công thức của thuật toán Adam 29
Hình 31: So sánh sự hội tụ của các thuật toán 30
Hình 32: So sánh hiệu suất các thuật toán tối ưu 31
Hình 33: So sánh giữa Machine Learning truyền thống và Transfer Learning 32
Hình 34: Các phương pháp data augmentation (1) 33
Hình 35: Các phương pháp data augmentation (2) 34
Hình 36: Các phương pháp data augmentation (3) 35
Hình 37: biểu đồ luồng dữ liệu tính toán 36
Hình 39: các API của Tensorflow 37
Hình 40: các ngôn ngữ hỗ trợ tensorflow api 38
Hình 41: Các mô hình tensorflow 2 dectection model zoo 39
Hình 42: Ứng dụng vẽ hình ảnh bằng thủ ngữ 40
Hình 43: 2 loại hình thủ ngữ được sử dụng trong ứng dụng vẽ hình ảnh bằng thủ ngữ 40
Hình 44: Tracking và nhận biết thủ ngữ 42
Hình 45: Vẽ hình tròn bằng thủ ngữ 43
Hình 47: Vẽ con mèo bằng thủ ngữ 44
Hình 48: thực nghiệm ở tốc độ 25-26 cm/s 45
Hình 49: thực nghiệm ở tốc độ 29-30 cm/s 45
Hình 50: Boot Ubuntu lên USB 47
Hình 52: tập dữ liệu Quickdraw_bitmap 48
Hình 53: Tải tệp dữ liệu quickdraw_bitmap 49
Hình 54: Dữ liệu đã được đánh nhãn 49
Hình 55: Chia dữ liệu thành 2 tệp train và validation 50
Hình 56: các label được sử dụng trong huấn luyện 51
Hình 57: Huấn luyện và đánh giá mô hình 52
Hình 58: Tensorboard của mô hình 53
Hình 61: Nhận diện ngôi sao 55
Hình 62: Workflow của ứng dụng 56
Hình 63: test ứng dụng trong thực tế 57
Hình 64: Vẽ và nhận diện ngôi sao 58
Hình 65: Vẽ và nhận diện cái quần 59
Hình 66: Vẽ và nhận diện quả táo 59
Hình 67: Vẽ và nhận diện chiếc lá 60
Hình 68: GPU được sử dụng 61
DANH MỤC BẢNG Bảng 1: Hàm truyền 10
Bảng 2: kết quả test thực tế 57
DANH MỤC CÁC TỪ VIẾT TẮT
AI Trí tuệ (Trí thông minh) nhân tạo: Artificial Intelligence
API iao diện lập trình ứng dụng: Application Programming
Interface CNN Mạng nơ ron tích chập: convolutional neural network
DL Học sâu: Deep Learning
GPU Đơn vị xử lý đồ họa: Graphics Processing Unit
IoT Mạng lưới kết nối vạn vật: Internet-of-Things
ML Máy học = Học máy: Machine Learning
ROI Vùng quan tâm trong xử lý ảnh: Region of Interest
SSD Thuật toán Singer Shot Detetor
Dự đoán hình ảnh và nhận diện cử chỉ là hai lĩnh vực nghiên cứu quan trọng trong nhiều năm qua Khi kết hợp chúng, việc dự đoán hình ảnh thông qua cử chỉ có thể được áp dụng rộng rãi, đặc biệt khi nhiều giải pháp công nghệ hiện nay đã tích hợp chức năng điều khiển bằng cử chỉ Tuy nhiên, các ứng dụng nhận diện hình ảnh vẽ bằng thủ ngữ vẫn còn hạn chế và chưa phổ biến do tính ứng dụng chưa cao Một trong những thách thức lớn là sự khác biệt giữa việc vẽ bằng thủ ngữ và việc vẽ trên giấy hoặc bằng các thiết bị như chuột hay bảng vẽ Bài báo cáo này sẽ trình bày giải pháp cho vấn đề này, sử dụng phương pháp học sâu với thuật toán tối ưu Adam để huấn luyện mô hình trên một bộ dữ liệu lớn về hình vẽ đã được đánh nhãn, nhằm tối ưu hóa quá trình nhận diện hình ảnh và phát triển ứng dụng dự đoán hình ảnh vẽ bằng cử chỉ.
1 LÝ DO CHỌN ĐỀ ĐỀ TÀI
Hiện nay, sự phát triển của khoa học kỹ thuật đã mở rộng khả năng giao tiếp của con người, cho phép chúng ta kết nối với nhau nhiều hơn và xa hơn Trong số các hình thức giao tiếp, cử chỉ đóng vai trò quan trọng như một phương thức giao tiếp phi ngôn ngữ, truyền tải thông điệp thông qua các hành động nhìn thấy được của cơ thể mà không cần sử dụng âm thanh.
Cử chỉ là những hành động thay thế hoặc kết hợp với ngôn ngữ nói, bao gồm chuyển động của bàn tay, khuôn mặt và các bộ phận khác của cơ thể.
Sự phát triển không ngừng của công nghệ trí tuệ nhân tạo đã mang lại những tiến bộ vượt bậc trong việc nhận dạng cử chỉ Hiện nay, nhiều chức năng ứng dụng trên các thiết bị thông minh đã được cải thiện nhờ vào công nghệ này.
Hệ thống Điều khiển bằng cử chỉ của BMW cho phép người lái tùy chỉnh bảng điều khiển trung tâm chỉ với 5 động tác tay đơn giản.
Hình 1: Hệ thống BMW Gesture Control
(Nguồn: https://www.bimmer-tech.net/products-bmw-gesture-control-retrofit)
Nếu xung quanh chúng ta là những thiết bị thông minh có thể vận hành máy móc chỉ qua những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.
2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính gần như đạt được hiệu suất tương đương với con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này không chỉ nâng cao khả năng tương tác giữa máy móc và con người mà còn giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng một cầu nối phong phú hơn giữa hai bên.
Kết quả nghiên cứu cho thấy máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi cần tìm kiếm một thứ gì đó mà không thể nhớ, chúng ta chỉ cần vẽ hình ảnh của nó, và máy tính sẽ xử lý để giúp chúng ta Hơn nữa, công nghệ này còn cho phép điều khiển máy móc xung quanh bằng những cử chỉ đơn giản.
3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU
Từ thực trạng trên đòi hỏi mục tiêu đặt ra:
- Tìm hiểu nghiên cứu về thị giác máy tính, về các phương pháp học sâu
- Giao tiếp với máy tính thông qua các phương thức thủ ngữ (cử chỉ)
- Huấn luyện mô hình nhận diện hình vẽ cho máy tính
- Cài đặt ứng dụng nhận diện thủ ngữ để máy tính nhận diện cử chỉ
- Từ ứng dụng nhận diện phát triển thành ứng dụng vẽ hình ảnh bằng cử chỉ kết hợp nhận diện hình ảnh bằng cử chỉ
Nhiệm vụ đặt ra khi nghiên cứu về đề tài là:
- Tìm hiểu về Deep Learning
- Tìm hiểu về Thị giác máy tính
- Tìm hiểu các thuật toán tối ưu
- Tìm hiểu về bài toán nhận dạng nét vẽ bằng cử chỉ
Bài toán đặt ra là hiện thực hóa mô hình nhận diện hình ảnh từ thủ ngữ, cụ thể là cử chỉ của bàn tay con người Hai loại thủ ngữ chính được sử dụng trong nghiên cứu này là Open (mở bàn tay) và Close (đóng bàn tay).
Bàn tay đóng vai trò đại diện cho đầu bút trong quá trình vẽ Khi bàn tay ở trạng thái đóng, máy tính sẽ theo dõi hướng di chuyển của bàn tay để tạo ra hình vẽ Ngược lại, khi bàn tay mở, máy tính sẽ ngừng theo dõi chuyển động, biểu thị cho hành động ngưng vẽ.
Từ hình vẽ được vẽ bằng thủ ngữ, máy tính sẽ nhận diện và đưa ra dự đoán về hình ảnh được vẽ
Nguồn dữ liệu để huấn luyện mô hình được thu thập từ internet, với hơn 50 triệu bản vẽ đã được đánh nhãn Máy tính sẽ học từ mô hình tối ưu nhất để đưa ra dự đoán chính xác nhất.
5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
Xây dựng một ứng dụng với khả năng đọc và nhận diện hình ảnh được vẽ bằng cử chỉ Hình vẽ sẽ được thực hiện bằng tay
Máy tính có khả năng nhận diện bàn tay và theo dõi đường đi của nó để tạo ra hình vẽ cụ thể Dựa trên hình vẽ này, máy tính sẽ thực hiện nhận diện thông qua bộ dữ liệu đã được học từ các thuật toán nhận diện, từ đó đưa ra dự đoán gần như chính xác về hình ảnh đã được vẽ.
CƠ SỞ LÝ THUYẾT
TỔNG QUAN VỀ XỬ LÝ ẢNH
1.5 Transfer learning và data augmentatio
Chương 2: áp dụng vào nhận diện hình ảnh bằng cử chỉ
2.2 Vẽ hình ảnh bằng thủ ngữ
2.3 Áp dụng cho bài toán nhận diện hình vẽ bằng cử chỉ
2.4 Ứng dụng nhận diện hình ảnh vẽ bằng cử chỉ
DANH MỤC TÀI LIỆU THAM KHẢO
STT Thời gian Công việc Ghi chú
1 Tuần 1 Xác định đề tài nghiên cứu
2 Tuần 2 Tìm hiểu đề tài và bắt đầu nghiên cứu
3 Tuần 3 Tìm hiểu về bài toán nhận diện hình ảnh
4 Tuần 4 Tìm hiểu kiến thức về xử lý ảnh
5 Tuần 5 Tìm hiểu kiến thức về mạng thần kinh nhân tạo, học sâu
6 Tuần 6 Chuẩn bị môi trường làm việc
7 Tuần 7 Chuẩn bị ứng dụng vẽ hình ảnh bằng cử đã xây dựng từ trước
8 Tuần 8 Tiến hành thu thập các hình vẽ bằng kỹ thuật data augmentation
9 Tuần 9 Tiến hành huấn luyện mô hình nhận diện hình vẽ
10 Tuần 10 Chỉnh sửa các tham số, tăng số lượng dữ liệu, tiếp tục huấn luyện mô hình
11 Tuần 11 Áp dụng mô hình nhận diện hình vẽ vào ứng dụng vẽ hình ảnh bằng cử chỉ
12 Tuần 12 Kiểm tra hiệu năng thực tế của ứng dụng
14 Tuần 14 Tinh chỉnh ứng dụng, sửa và viết báo cáo
15 Tuần 15 Hoàn thành project và báo cáo
TP HCM, ngày tháng năm 2022
Nguyễn Đức Thuận Ý kiến của giáo viên hướng dẫn
(Ký và ghi rõ họ tên)
DANH MỤC CÁC TỪ VIẾT TẮT 3
1 LÝ DO CHỌN ĐỀ ĐỀ TÀI 5
2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 6
3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU 6
5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 7
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 8
1.1.1 Giới thiệu sơ lược về Neural Network 8
1.2.1 Mạng Neural tích chập (CNN) 13
1.2.1.1 Mạng neural tích chập là gì? 13
1.2.1.3 Ý nghĩa của phép tích chập 16
1.2.2 Cấu trúc mạng neural tích chập 17
1.2.2.1 Tầng tích chập (Convolutional Layer) 17
1.2.2.2 Tầng tổng hợp (Pooling layer) 20
1.2.2.3 Tầng kết nối đầy đủ (Fully connected layer) 22
1.2.2.4 Tóm tắt mô hình của mạng neural tích chập 23
1.3 TỔNG QUAN VỀ XỬ LÝ ẢNH 24
1.3.5 Chuyển hệ màu của ảnh 28
1.4.1 Thuật toán tối ưu là gì? 28
1.4.2 Giới thiệu thuật toán Adam 28
1.4.3 Nguyên tắc hoạt động của Adam 29
1.4.5 Ưu và nhược điểm của thuật toán Adam 30
1.5 TRANSFER LEARNING VÀ DATA AUGMENTATION 31
1.5.3 Một vài phương pháp cơ bản của data augmentation 33
CHƯƠNG 2: ÁP DỤNG VÀO NHẬN DIỆN HÌNH ẢNH BẰNG CỬ CHỈ 36
2.1.2 Sơ lược về Tensorflow api 38
2.2 VẼ HÌNH ẢNH BẰNG THỦ NGỮ 39
2.2.2 Bài toán nhận diện thủ ngữ 40
2.2.3 Ứng dụng vẽ hình ảnh bằng cử chỉ 41
2.3 ÁP DỤNG CHO BÀI TOÁN NHẬN DIỆN HÌNH VẼ BẰNG CỬ CHỈ 46
2.3.2 Tổ chức môi trường làm việc 46
2.3.3.1 Tập dữ liệu Quickdraw_bitmap 48
2.4 ỨNG DỤNG NHẬN DIỆN HÌNH ẢNH VẼ BẰNG CỬ CHỈ 53
2.4.1 Áp dụng mô hình đã huấn luyện vào ứng dụng 53
2.4.3 Đánh giá hiệu năng thực tế của mô hình 56
2.4.4 Đánh giá vai trò của thuật toán Adam trong huấn luyện mô hình nhận diện hình ảnh 60
DANH MỤC TÀI LIỆU THAM KHẢO 64
Hình 1: Hệ thống BMW Gesture Control 5
Hình 2: Hình ảnh cấu trúc của Neuron thần kinh 8
Hình 3: Cấu trúc neuron nhân tạo 9
Hình 4: các thành phần của neuron nhân tạo 9
Hình 5: Cấu trúc đơn giản Neuron Network 11
Hình 6: Cấu trúc Deep Learning 12
Hình 7: So sánh hiệu suất của deep learning với các thuật toán học máy khác13 Hình 8: Mô hình mạng neural tích chập 13
Hình 9: Tích chập phần tử đầu tiên của X và F 14
Hình 10: Kết quả tích chập X và F 14
Hình 12: Vùng đệm kết hợp với bước sải (padding = 1, stride = 2) 15
Hình 13: Các kernal và ý nghĩa cúa nó trong xử lý ảnh 16
Hình 14: Kết quả tích chập của X và F 17
Hình 15: Áp dụng phương pháp tích chập trên ảnh màu với k=3 17
Hình 16: Tensor X, W 3 chiều được viết dưới dạng 3 matrix 18
Hình 17: Phép tính tích chập trong trên ảnh màu 19
Hình 18: Tóm tắt cấu trúc của tầng tích chập 20
Hình 19: Đầu ra của tầng tích chập 20
Hình 20: Pooling làm giảm chiều (width, height) nhưng không giảm dept 21
Hình 22: Cách thực hiện flatening 23
Hình 23: Mô hình mạng neural tích chập 23
Hình 25: Thông số RGB của một màu 24
Hình 26: Ảnh màu trong thực tế 25
Hình 27: Chi tiết về thuộc tính của hình ảnh được biểu diễn trên mày tính 26
Hình 28: Mô tả các hoạt động của xử lý ảnh màu 27
Hình 29: Minh họa cho thuật toán Adam 29
Hình 30: Công thức của thuật toán Adam 29
Hình 31: So sánh sự hội tụ của các thuật toán 30
Hình 32: So sánh hiệu suất các thuật toán tối ưu 31
Hình 33: So sánh giữa Machine Learning truyền thống và Transfer Learning 32
Hình 34: Các phương pháp data augmentation (1) 33
Hình 35: Các phương pháp data augmentation (2) 34
Hình 36: Các phương pháp data augmentation (3) 35
Hình 37: biểu đồ luồng dữ liệu tính toán 36
Hình 39: các API của Tensorflow 37
Hình 40: các ngôn ngữ hỗ trợ tensorflow api 38
Hình 41: Các mô hình tensorflow 2 dectection model zoo 39
Hình 42: Ứng dụng vẽ hình ảnh bằng thủ ngữ 40
Hình 43: 2 loại hình thủ ngữ được sử dụng trong ứng dụng vẽ hình ảnh bằng thủ ngữ 40
Hình 44: Tracking và nhận biết thủ ngữ 42
Hình 45: Vẽ hình tròn bằng thủ ngữ 43
Hình 47: Vẽ con mèo bằng thủ ngữ 44
Hình 48: thực nghiệm ở tốc độ 25-26 cm/s 45
Hình 49: thực nghiệm ở tốc độ 29-30 cm/s 45
Hình 50: Boot Ubuntu lên USB 47
Hình 52: tập dữ liệu Quickdraw_bitmap 48
Hình 53: Tải tệp dữ liệu quickdraw_bitmap 49
Hình 54: Dữ liệu đã được đánh nhãn 49
Hình 55: Chia dữ liệu thành 2 tệp train và validation 50
Hình 56: các label được sử dụng trong huấn luyện 51
Hình 57: Huấn luyện và đánh giá mô hình 52
Hình 58: Tensorboard của mô hình 53
Hình 61: Nhận diện ngôi sao 55
Hình 62: Workflow của ứng dụng 56
Hình 63: test ứng dụng trong thực tế 57
Hình 64: Vẽ và nhận diện ngôi sao 58
Hình 65: Vẽ và nhận diện cái quần 59
Hình 66: Vẽ và nhận diện quả táo 59
Hình 67: Vẽ và nhận diện chiếc lá 60
Hình 68: GPU được sử dụng 61
DANH MỤC BẢNG Bảng 1: Hàm truyền 10
Bảng 2: kết quả test thực tế 57
DANH MỤC CÁC TỪ VIẾT TẮT
AI Trí tuệ (Trí thông minh) nhân tạo: Artificial Intelligence
API iao diện lập trình ứng dụng: Application Programming
Interface CNN Mạng nơ ron tích chập: convolutional neural network
DL Học sâu: Deep Learning
GPU Đơn vị xử lý đồ họa: Graphics Processing Unit
IoT Mạng lưới kết nối vạn vật: Internet-of-Things
ML Máy học = Học máy: Machine Learning
ROI Vùng quan tâm trong xử lý ảnh: Region of Interest
SSD Thuật toán Singer Shot Detetor
Dự đoán hình ảnh và nhận diện cử chỉ là hai bài toán đã được nghiên cứu trong nhiều năm Khi kết hợp chúng, việc dự đoán hình ảnh vẽ bằng cử chỉ có thể được áp dụng rộng rãi, đặc biệt khi nhiều giải pháp công nghệ hiện nay đã tích hợp chức năng điều khiển bằng cử chỉ Tuy nhiên, các ứng dụng nhận diện hình ảnh vẽ bằng thủ ngữ vẫn còn hạn chế và chưa phổ biến do tính ứng dụng chưa cao Một trong những thách thức lớn là việc vẽ bằng thủ ngữ khác biệt so với vẽ trên giấy hay sử dụng chuột, bảng vẽ Bài báo cáo này sẽ trình bày giải pháp cho bài toán này, sử dụng phương pháp học sâu với thuật toán tối ưu Adam để huấn luyện mô hình trên một bộ dữ liệu lớn về hình vẽ đã được đánh nhãn, từ đó xây dựng ứng dụng dự đoán hình ảnh vẽ bằng cử chỉ.
1 LÝ DO CHỌN ĐỀ ĐỀ TÀI
Hiện nay, sự phát triển của khoa học kỹ thuật đã mở rộng khả năng giao tiếp của con người, cho phép chúng ta kết nối với nhau nhiều hơn và xa hơn Trong số các hình thức giao tiếp, cử chỉ đóng vai trò quan trọng như một phương thức giao tiếp phi ngôn ngữ, truyền tải thông điệp thông qua các hành động nhìn thấy được của cơ thể mà không cần sử dụng âm thanh.
Cử chỉ là những hành động thay thế hoặc kết hợp với ngôn ngữ nói, bao gồm chuyển động của bàn tay, khuôn mặt và các bộ phận khác của cơ thể.
Sự phát triển không ngừng của công nghệ trí tuệ nhân tạo đã mang lại những tiến bộ vượt bậc trong việc nhận dạng cử chỉ Hiện nay, nhiều chức năng ứng dụng trên các thiết bị thông minh đã được cải thiện nhờ vào công nghệ này.
Hệ thống Điều khiển bằng cử chỉ của BMW cho phép người lái tùy chỉnh bảng điều khiển trung tâm chỉ với 5 động tác tay đơn giản.
Hình 1: Hệ thống BMW Gesture Control
(Nguồn: https://www.bimmer-tech.net/products-bmw-gesture-control-retrofit)
Nếu xung quanh chúng ta là những thiết bị thông minh có thể vận hành máy móc chỉ bằng những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.
2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính gần như đạt được hiệu suất tương đương với con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này không chỉ nâng cao khả năng tương tác giữa máy móc và con người mà còn giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng một cầu nối phong phú hơn giữa hai bên.
Nghiên cứu này cung cấp cơ sở cho việc phát triển máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi cần tìm kiếm một thứ gì đó mà không thể nhớ rõ, chúng ta chỉ cần vẽ hình ảnh của nó, và máy tính sẽ xử lý để giúp chúng ta Hơn nữa, công nghệ này còn cho phép điều khiển máy móc xung quanh bằng những cử chỉ đơn giản.
3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU
Từ thực trạng trên đòi hỏi mục tiêu đặt ra:
- Tìm hiểu nghiên cứu về thị giác máy tính, về các phương pháp học sâu
- Giao tiếp với máy tính thông qua các phương thức thủ ngữ (cử chỉ)
- Huấn luyện mô hình nhận diện hình vẽ cho máy tính
- Cài đặt ứng dụng nhận diện thủ ngữ để máy tính nhận diện cử chỉ
- Từ ứng dụng nhận diện phát triển thành ứng dụng vẽ hình ảnh bằng cử chỉ kết hợp nhận diện hình ảnh bằng cử chỉ
Nhiệm vụ đặt ra khi nghiên cứu về đề tài là:
- Tìm hiểu về Deep Learning
- Tìm hiểu về Thị giác máy tính
- Tìm hiểu các thuật toán tối ưu
- Tìm hiểu về bài toán nhận dạng nét vẽ bằng cử chỉ
Bài toán đặt ra là hiện thực hóa mô hình nhận diện hình ảnh từ thủ ngữ, cụ thể là các cử chỉ của bàn tay con người Hai loại thủ ngữ chính được sử dụng trong nghiên cứu này là thủ ngữ mở (Open) và thủ ngữ đóng (Close).
Bàn tay đóng vai trò đại diện cho đầu bút trong quá trình vẽ Khi bàn tay ở trạng thái đóng, máy tính sẽ theo dõi hướng di chuyển của bàn tay để tạo ra hình vẽ Ngược lại, khi bàn tay mở, máy tính sẽ ngừng theo dõi chuyển động, biểu thị cho hành động ngưng vẽ.
Từ hình vẽ được vẽ bằng thủ ngữ, máy tính sẽ nhận diện và đưa ra dự đoán về hình ảnh được vẽ
Nguồn dữ liệu để huấn luyện mô hình được thu thập từ internet, với hơn 50 triệu bản vẽ đã được đánh nhãn Máy tính sẽ học từ mô hình tối ưu nhất để đưa ra dự đoán chính xác nhất.
5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
Xây dựng một ứng dụng với khả năng đọc và nhận diện hình ảnh được vẽ bằng cử chỉ Hình vẽ sẽ được thực hiện bằng tay
Máy tính sử dụng công nghệ nhận diện bàn tay để theo dõi chuyển động và tạo ra hình vẽ cụ thể Dựa trên hình vẽ này, máy tính áp dụng các thuật toán đã học để nhận diện và đưa ra dự đoán chính xác về hình ảnh được vẽ.
PHẦN NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 NEURAL NETWORK
1.1.1 Giới thiệu sơ lược về Neural Network
Neuron là đơn vị cơ bản của hệ thống thần kinh con người và là thành phần quan trọng nhất của não Chúng có cấu trúc độc đáo và hình dạng khác biệt so với các loại tế bào khác.
Mỗi neuron được cấu tạo từ phần nhân (soma) chứa nhân tế bào, cùng với các tín hiệu đầu vào qua sợi nhánh (dendrites) và tín hiệu đầu ra qua sợi trục (axon) kết nối với các neuron khác.
Hình 2: Hình ảnh cấu trúc của Neuron thần kinh
(Nguồn: https://efacd.tistory.com/49)
Cảm hứng từ hoạt động của neuron thần kinh, các nhà khoa học đã phát triển mô hình mạng neuron nhân tạo (Neural Network) nhằm mô phỏng hệ thần kinh của con người, cho phép máy tính học hỏi giống như con người.
TRANSFER LEARNING VÀ DATA AUGMENTATION
Chương 2: áp dụng vào nhận diện hình ảnh bằng cử chỉ
2.2 Vẽ hình ảnh bằng thủ ngữ
2.3 Áp dụng cho bài toán nhận diện hình vẽ bằng cử chỉ
2.4 Ứng dụng nhận diện hình ảnh vẽ bằng cử chỉ
DANH MỤC TÀI LIỆU THAM KHẢO
STT Thời gian Công việc Ghi chú
1 Tuần 1 Xác định đề tài nghiên cứu
2 Tuần 2 Tìm hiểu đề tài và bắt đầu nghiên cứu
3 Tuần 3 Tìm hiểu về bài toán nhận diện hình ảnh
4 Tuần 4 Tìm hiểu kiến thức về xử lý ảnh
5 Tuần 5 Tìm hiểu kiến thức về mạng thần kinh nhân tạo, học sâu
6 Tuần 6 Chuẩn bị môi trường làm việc
7 Tuần 7 Chuẩn bị ứng dụng vẽ hình ảnh bằng cử đã xây dựng từ trước
8 Tuần 8 Tiến hành thu thập các hình vẽ bằng kỹ thuật data augmentation
9 Tuần 9 Tiến hành huấn luyện mô hình nhận diện hình vẽ
10 Tuần 10 Chỉnh sửa các tham số, tăng số lượng dữ liệu, tiếp tục huấn luyện mô hình
11 Tuần 11 Áp dụng mô hình nhận diện hình vẽ vào ứng dụng vẽ hình ảnh bằng cử chỉ
12 Tuần 12 Kiểm tra hiệu năng thực tế của ứng dụng
14 Tuần 14 Tinh chỉnh ứng dụng, sửa và viết báo cáo
15 Tuần 15 Hoàn thành project và báo cáo
TP HCM, ngày tháng năm 2022
Nguyễn Đức Thuận Ý kiến của giáo viên hướng dẫn
(Ký và ghi rõ họ tên)
DANH MỤC CÁC TỪ VIẾT TẮT 3
1 LÝ DO CHỌN ĐỀ ĐỀ TÀI 5
2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 6
3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU 6
5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 7
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 8
1.1.1 Giới thiệu sơ lược về Neural Network 8
1.2.1 Mạng Neural tích chập (CNN) 13
1.2.1.1 Mạng neural tích chập là gì? 13
1.2.1.3 Ý nghĩa của phép tích chập 16
1.2.2 Cấu trúc mạng neural tích chập 17
1.2.2.1 Tầng tích chập (Convolutional Layer) 17
1.2.2.2 Tầng tổng hợp (Pooling layer) 20
1.2.2.3 Tầng kết nối đầy đủ (Fully connected layer) 22
1.2.2.4 Tóm tắt mô hình của mạng neural tích chập 23
1.3 TỔNG QUAN VỀ XỬ LÝ ẢNH 24
1.3.5 Chuyển hệ màu của ảnh 28
1.4.1 Thuật toán tối ưu là gì? 28
1.4.2 Giới thiệu thuật toán Adam 28
1.4.3 Nguyên tắc hoạt động của Adam 29
1.4.5 Ưu và nhược điểm của thuật toán Adam 30
1.5 TRANSFER LEARNING VÀ DATA AUGMENTATION 31
1.5.3 Một vài phương pháp cơ bản của data augmentation 33
CHƯƠNG 2: ÁP DỤNG VÀO NHẬN DIỆN HÌNH ẢNH BẰNG CỬ CHỈ 36
2.1.2 Sơ lược về Tensorflow api 38
2.2 VẼ HÌNH ẢNH BẰNG THỦ NGỮ 39
2.2.2 Bài toán nhận diện thủ ngữ 40
2.2.3 Ứng dụng vẽ hình ảnh bằng cử chỉ 41
2.3 ÁP DỤNG CHO BÀI TOÁN NHẬN DIỆN HÌNH VẼ BẰNG CỬ CHỈ 46
2.3.2 Tổ chức môi trường làm việc 46
2.3.3.1 Tập dữ liệu Quickdraw_bitmap 48
2.4 ỨNG DỤNG NHẬN DIỆN HÌNH ẢNH VẼ BẰNG CỬ CHỈ 53
2.4.1 Áp dụng mô hình đã huấn luyện vào ứng dụng 53
2.4.3 Đánh giá hiệu năng thực tế của mô hình 56
2.4.4 Đánh giá vai trò của thuật toán Adam trong huấn luyện mô hình nhận diện hình ảnh 60
DANH MỤC TÀI LIỆU THAM KHẢO 64
Hình 1: Hệ thống BMW Gesture Control 5
Hình 2: Hình ảnh cấu trúc của Neuron thần kinh 8
Hình 3: Cấu trúc neuron nhân tạo 9
Hình 4: các thành phần của neuron nhân tạo 9
Hình 5: Cấu trúc đơn giản Neuron Network 11
Hình 6: Cấu trúc Deep Learning 12
Hình 7: So sánh hiệu suất của deep learning với các thuật toán học máy khác13 Hình 8: Mô hình mạng neural tích chập 13
Hình 9: Tích chập phần tử đầu tiên của X và F 14
Hình 10: Kết quả tích chập X và F 14
Hình 12: Vùng đệm kết hợp với bước sải (padding = 1, stride = 2) 15
Hình 13: Các kernal và ý nghĩa cúa nó trong xử lý ảnh 16
Hình 14: Kết quả tích chập của X và F 17
Hình 15: Áp dụng phương pháp tích chập trên ảnh màu với k=3 17
Hình 16: Tensor X, W 3 chiều được viết dưới dạng 3 matrix 18
Hình 17: Phép tính tích chập trong trên ảnh màu 19
Hình 18: Tóm tắt cấu trúc của tầng tích chập 20
Hình 19: Đầu ra của tầng tích chập 20
Hình 20: Pooling làm giảm chiều (width, height) nhưng không giảm dept 21
Hình 22: Cách thực hiện flatening 23
Hình 23: Mô hình mạng neural tích chập 23
Hình 25: Thông số RGB của một màu 24
Hình 26: Ảnh màu trong thực tế 25
Hình 27: Chi tiết về thuộc tính của hình ảnh được biểu diễn trên mày tính 26
Hình 28: Mô tả các hoạt động của xử lý ảnh màu 27
Hình 29: Minh họa cho thuật toán Adam 29
Hình 30: Công thức của thuật toán Adam 29
Hình 31: So sánh sự hội tụ của các thuật toán 30
Hình 32: So sánh hiệu suất các thuật toán tối ưu 31
Hình 33: So sánh giữa Machine Learning truyền thống và Transfer Learning 32
Hình 34: Các phương pháp data augmentation (1) 33
Hình 35: Các phương pháp data augmentation (2) 34
Hình 36: Các phương pháp data augmentation (3) 35
Hình 37: biểu đồ luồng dữ liệu tính toán 36
Hình 39: các API của Tensorflow 37
Hình 40: các ngôn ngữ hỗ trợ tensorflow api 38
Hình 41: Các mô hình tensorflow 2 dectection model zoo 39
Hình 42: Ứng dụng vẽ hình ảnh bằng thủ ngữ 40
Hình 43: 2 loại hình thủ ngữ được sử dụng trong ứng dụng vẽ hình ảnh bằng thủ ngữ 40
Hình 44: Tracking và nhận biết thủ ngữ 42
Hình 45: Vẽ hình tròn bằng thủ ngữ 43
Hình 47: Vẽ con mèo bằng thủ ngữ 44
Hình 48: thực nghiệm ở tốc độ 25-26 cm/s 45
Hình 49: thực nghiệm ở tốc độ 29-30 cm/s 45
Hình 50: Boot Ubuntu lên USB 47
Hình 52: tập dữ liệu Quickdraw_bitmap 48
Hình 53: Tải tệp dữ liệu quickdraw_bitmap 49
Hình 54: Dữ liệu đã được đánh nhãn 49
Hình 55: Chia dữ liệu thành 2 tệp train và validation 50
Hình 56: các label được sử dụng trong huấn luyện 51
Hình 57: Huấn luyện và đánh giá mô hình 52
Hình 58: Tensorboard của mô hình 53
Hình 61: Nhận diện ngôi sao 55
Hình 62: Workflow của ứng dụng 56
Hình 63: test ứng dụng trong thực tế 57
Hình 64: Vẽ và nhận diện ngôi sao 58
Hình 65: Vẽ và nhận diện cái quần 59
Hình 66: Vẽ và nhận diện quả táo 59
Hình 67: Vẽ và nhận diện chiếc lá 60
Hình 68: GPU được sử dụng 61
DANH MỤC BẢNG Bảng 1: Hàm truyền 10
Bảng 2: kết quả test thực tế 57
DANH MỤC CÁC TỪ VIẾT TẮT
AI Trí tuệ (Trí thông minh) nhân tạo: Artificial Intelligence
API iao diện lập trình ứng dụng: Application Programming
Interface CNN Mạng nơ ron tích chập: convolutional neural network
DL Học sâu: Deep Learning
GPU Đơn vị xử lý đồ họa: Graphics Processing Unit
IoT Mạng lưới kết nối vạn vật: Internet-of-Things
ML Máy học = Học máy: Machine Learning
ROI Vùng quan tâm trong xử lý ảnh: Region of Interest
SSD Thuật toán Singer Shot Detetor
Dự đoán hình ảnh và nhận diện cử chỉ là hai lĩnh vực nghiên cứu quan trọng trong nhiều năm qua Khi kết hợp chúng, việc dự đoán hình ảnh qua cử chỉ có thể được áp dụng rộng rãi, đặc biệt khi nhiều giải pháp công nghệ hiện nay đã tích hợp chức năng điều khiển bằng cử chỉ Tuy nhiên, các ứng dụng nhận diện hình ảnh vẽ bằng thủ ngữ vẫn còn hạn chế và chưa phổ biến do tính ứng dụng chưa cao Một trong những thách thức lớn là sự khác biệt giữa việc vẽ bằng thủ ngữ và việc vẽ trên giấy hoặc bằng các thiết bị như chuột hay bảng vẽ Bài báo cáo này sẽ trình bày giải pháp cho vấn đề này, sử dụng phương pháp học sâu và thuật toán tối ưu Adam để huấn luyện mô hình trên một bộ dữ liệu lớn về hình vẽ đã được đánh nhãn, nhằm tối ưu hóa quá trình nhận diện hình ảnh và phát triển ứng dụng dự đoán hình ảnh vẽ bằng cử chỉ.
1 LÝ DO CHỌN ĐỀ ĐỀ TÀI
Hiện nay, sự phát triển của khoa học kỹ thuật đã giúp con người giao tiếp nhiều hơn và xa hơn Trong các hình thức giao tiếp, cử chỉ đóng vai trò quan trọng như một phương thức giao tiếp phi ngôn ngữ, truyền tải thông điệp thông qua các hành động nhìn thấy được của cơ thể mà không cần sử dụng âm thanh.
Những hành động này thay thế cho ngôn ngữ nói hoặc kết hợp với nhau, bao gồm cử chỉ như chuyển động của bàn tay, khuôn mặt và các bộ phận khác của cơ thể.
Sự phát triển không ngừng của công nghệ trí tuệ nhân tạo đã mang lại những tiến bộ vượt bậc trong việc nhận dạng cử chỉ Hiện nay, nhiều chức năng ứng dụng trên các thiết bị thông minh đã được cải thiện nhờ vào công nghệ này.
Hệ thống Điều khiển bằng cử chỉ của BMW cho phép người lái tùy chỉnh bảng điều khiển trung tâm chỉ với 5 động tác tay đơn giản.
Hình 1: Hệ thống BMW Gesture Control
(Nguồn: https://www.bimmer-tech.net/products-bmw-gesture-control-retrofit)
Nếu xung quanh chúng ta là những thiết bị thông minh có thể vận hành máy móc chỉ qua những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.
2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN
Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính tiến gần đến hiệu suất của con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này không chỉ nâng cao khả năng tương tác giữa máy móc và con người mà còn giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng cầu nối phong phú hơn giữa hai bên.
Kết quả nghiên cứu cho thấy máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi chúng ta quên một thứ gì đó, chỉ cần vẽ hình ảnh của nó, máy tính sẽ xử lý và giúp chúng ta tìm ra Hơn nữa, công nghệ này còn cho phép điều khiển máy móc xung quanh bằng những cử chỉ đơn giản.
3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU
Từ thực trạng trên đòi hỏi mục tiêu đặt ra:
- Tìm hiểu nghiên cứu về thị giác máy tính, về các phương pháp học sâu
- Giao tiếp với máy tính thông qua các phương thức thủ ngữ (cử chỉ)
- Huấn luyện mô hình nhận diện hình vẽ cho máy tính
- Cài đặt ứng dụng nhận diện thủ ngữ để máy tính nhận diện cử chỉ
- Từ ứng dụng nhận diện phát triển thành ứng dụng vẽ hình ảnh bằng cử chỉ kết hợp nhận diện hình ảnh bằng cử chỉ
Nhiệm vụ đặt ra khi nghiên cứu về đề tài là:
- Tìm hiểu về Deep Learning
- Tìm hiểu về Thị giác máy tính
- Tìm hiểu các thuật toán tối ưu
- Tìm hiểu về bài toán nhận dạng nét vẽ bằng cử chỉ
Bài toán đặt ra là hiện thực hóa mô hình nhận diện hình ảnh thông qua thủ ngữ, cụ thể là các cử chỉ của bàn tay con người Hai loại thủ ngữ chính được sử dụng trong nghiên cứu này là Open (mở bàn tay) và Close (đóng bàn tay).
Bàn tay đóng vai trò đại diện cho đầu bút trong quá trình vẽ Khi bàn tay ở trạng thái đóng (Close), máy tính sẽ theo dõi hướng di chuyển của bàn tay để tạo ra hình vẽ Ngược lại, khi bàn tay mở (Open), máy tính sẽ ngừng theo dõi chuyển động, biểu thị cho hành động ngưng vẽ.
Từ hình vẽ được vẽ bằng thủ ngữ, máy tính sẽ nhận diện và đưa ra dự đoán về hình ảnh được vẽ
Nguồn dữ liệu để huấn luyện mô hình được thu thập từ internet, với hơn 50 triệu bản vẽ đã được đánh nhãn Máy tính sẽ học từ mô hình tối ưu nhất để đưa ra dự đoán chính xác nhất.
5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
Xây dựng một ứng dụng với khả năng đọc và nhận diện hình ảnh được vẽ bằng cử chỉ Hình vẽ sẽ được thực hiện bằng tay
Máy tính sử dụng công nghệ nhận diện bàn tay để theo dõi chuyển động và tạo ra hình vẽ cụ thể Dựa trên hình vẽ này, máy tính áp dụng các thuật toán đã học để nhận diện và đưa ra dự đoán chính xác về hình ảnh đã được vẽ.
PHẦN NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 NEURAL NETWORK
1.1.1 Giới thiệu sơ lược về Neural Network
Neuron là đơn vị cơ bản cấu tạo nên hệ thống thần kinh của con người và là thành phần quan trọng nhất của não Chúng có cấu trúc độc đáo và hình dạng khác biệt so với các loại tế bào khác.
Mỗi neuron được cấu tạo từ phần nhân (soma) chứa nhân tế bào, cùng với các tín hiệu đầu vào qua sợi nhánh (dendrites) và tín hiệu đầu ra qua sợi trục (axon) kết nối với các neuron khác.
Hình 2: Hình ảnh cấu trúc của Neuron thần kinh
(Nguồn: https://efacd.tistory.com/49)
Dựa trên hoạt động của neuron thần kinh, các nhà khoa học đã phát triển mô hình mạng neuron nhân tạo (Neural Network) nhằm mô phỏng hệ thần kinh của con người, từ đó giúp máy tính có khả năng học hỏi giống như con người.