Tìm hiểu học sâu và xây dựng ứng dụng dự đoán hình ảnh được vẽ bằng cử chỉ

Từ ứng dụng nhận diện phát triển thành ứng dụng vẽ hình ảnh bằng cử chỉ kết hợp nhận diện hình ảnh bằng cử chỉ.. Giới thiệu về tensorflow 1 Tuần 1 Xác định đề tài nghiên cứu 2 Tuần

LÝ DO CHỌN ĐỀ ĐỀ TÀI

Hiện nay, sự phát triển của khoa học kỹ thuật đã mở rộng khả năng giao tiếp của con người, cho phép chúng ta kết nối với nhau nhiều hơn và xa hơn Trong số các hình thức giao tiếp, cử chỉ đóng vai trò quan trọng như một phương thức giao tiếp phi ngôn ngữ, truyền tải thông điệp thông qua các hành động nhìn thấy được của cơ thể mà không cần sử dụng âm thanh.

Cử chỉ là những hành động thay thế hoặc kết hợp với ngôn ngữ nói, bao gồm chuyển động của bàn tay, khuôn mặt và các bộ phận khác của cơ thể.

Sự phát triển không ngừng của công nghệ trí tuệ nhân tạo đã mang lại những tiến bộ vượt bậc trong việc nhận dạng cử chỉ Hiện nay, nhiều chức năng ứng dụng trên các thiết bị thông minh đã được cải thiện nhờ vào công nghệ này.

Hệ thống Điều khiển bằng cử chỉ của BMW cho phép người lái tùy chỉnh bảng điều khiển trung tâm chỉ với 5 động tác tay đơn giản.

Hình 1: Hệ thống BMW Gesture Control

(Nguồn: https://www.bimmer-tech.net/products-bmw-gesture-control-retrofit)

Nếu xung quanh chúng ta có những thiết bị thông minh có thể vận hành máy móc chỉ bằng những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.

Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN

Ý nghĩa khoa học

Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính tiến gần đến hiệu suất của con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này sẽ nâng cao khả năng tương tác giữa máy móc và con người, đồng thời giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng cầu nối phong phú hơn giữa hai bên.

Ý nghĩa thực tiễn

Nghiên cứu này cung cấp cơ sở cho việc phát triển máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi cần tìm kiếm một thứ gì đó mà không thể nhớ rõ, chúng ta chỉ cần vẽ hình ảnh của nó, và máy tính sẽ xử lý để giúp chúng ta Hơn nữa, công nghệ này còn cho phép điều khiển các thiết bị xung quanh bằng những cử chỉ đơn giản.

KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC

Chương 1: cơ sở lý thuyết

1.3 Tổng quan về xử lý ảnh

1.5 Transfer learning và data augmentatio

Chương 2: áp dụng vào nhận diện hình ảnh bằng cử chỉ

2.2 Vẽ hình ảnh bằng thủ ngữ

2.3 Áp dụng cho bài toán nhận diện hình vẽ bằng cử chỉ

2.4 Ứng dụng nhận diện hình ảnh vẽ bằng cử chỉ

DANH MỤC TÀI LIỆU THAM KHẢO

STT Thời gian Công việc Ghi chú

1 Tuần 1 Xác định đề tài nghiên cứu

2 Tuần 2 Tìm hiểu đề tài và bắt đầu nghiên cứu

3 Tuần 3 Tìm hiểu về bài toán nhận diện hình ảnh

4 Tuần 4 Tìm hiểu kiến thức về xử lý ảnh

5 Tuần 5 Tìm hiểu kiến thức về mạng thần kinh nhân tạo, học sâu

6 Tuần 6 Chuẩn bị môi trường làm việc

7 Tuần 7 Chuẩn bị ứng dụng vẽ hình ảnh bằng cử đã xây dựng từ trước

8 Tuần 8 Tiến hành thu thập các hình vẽ bằng kỹ thuật data augmentation

9 Tuần 9 Tiến hành huấn luyện mô hình nhận diện hình vẽ

10 Tuần 10 Chỉnh sửa các tham số, tăng số lượng dữ liệu, tiếp tục huấn luyện mô hình

11 Tuần 11 Áp dụng mô hình nhận diện hình vẽ vào ứng dụng vẽ hình ảnh bằng cử chỉ

12 Tuần 12 Kiểm tra hiệu năng thực tế của ứng dụng

14 Tuần 14 Tinh chỉnh ứng dụng, sửa và viết báo cáo

15 Tuần 15 Hoàn thành project và báo cáo

TP HCM, ngày tháng năm 2022

Nguyễn Đức Thuận Ý kiến của giáo viên hướng dẫn

(Ký và ghi rõ họ tên)

DANH MỤC CÁC TỪ VIẾT TẮT 3

1 LÝ DO CHỌN ĐỀ ĐỀ TÀI 5

2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN 6

3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU 6

5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC 7

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 8

1.1.1 Giới thiệu sơ lược về Neural Network 8

1.2.1 Mạng Neural tích chập (CNN) 13

1.2.1.1 Mạng neural tích chập là gì? 13

1.2.1.3 Ý nghĩa của phép tích chập 16

1.2.2 Cấu trúc mạng neural tích chập 17

1.2.2.1 Tầng tích chập (Convolutional Layer) 17

1.2.2.2 Tầng tổng hợp (Pooling layer) 20

1.2.2.3 Tầng kết nối đầy đủ (Fully connected layer) 22

1.2.2.4 Tóm tắt mô hình của mạng neural tích chập 23

1.3 TỔNG QUAN VỀ XỬ LÝ ẢNH 24

1.3.5 Chuyển hệ màu của ảnh 28

1.4.1 Thuật toán tối ưu là gì? 28

1.4.2 Giới thiệu thuật toán Adam 28

1.4.3 Nguyên tắc hoạt động của Adam 29

1.4.5 Ưu và nhược điểm của thuật toán Adam 30

1.5 TRANSFER LEARNING VÀ DATA AUGMENTATION 31

1.5.3 Một vài phương pháp cơ bản của data augmentation 33

CHƯƠNG 2: ÁP DỤNG VÀO NHẬN DIỆN HÌNH ẢNH BẰNG CỬ CHỈ 36

2.1.2 Sơ lược về Tensorflow api 38

2.2 VẼ HÌNH ẢNH BẰNG THỦ NGỮ 39

2.2.2 Bài toán nhận diện thủ ngữ 40

2.2.3 Ứng dụng vẽ hình ảnh bằng cử chỉ 41

2.3 ÁP DỤNG CHO BÀI TOÁN NHẬN DIỆN HÌNH VẼ BẰNG CỬ CHỈ 46

2.3.2 Tổ chức môi trường làm việc 46

2.3.3.1 Tập dữ liệu Quickdraw_bitmap 48

2.4 ỨNG DỤNG NHẬN DIỆN HÌNH ẢNH VẼ BẰNG CỬ CHỈ 53

2.4.1 Áp dụng mô hình đã huấn luyện vào ứng dụng 53

2.4.3 Đánh giá hiệu năng thực tế của mô hình 56

2.4.4 Đánh giá vai trò của thuật toán Adam trong huấn luyện mô hình nhận diện hình ảnh 60

DANH MỤC TÀI LIỆU THAM KHẢO 64

Hình 1: Hệ thống BMW Gesture Control 5

Hình 2: Hình ảnh cấu trúc của Neuron thần kinh 8

Hình 3: Cấu trúc neuron nhân tạo 9

Hình 4: các thành phần của neuron nhân tạo 9

Hình 5: Cấu trúc đơn giản Neuron Network 11

Hình 6: Cấu trúc Deep Learning 12

Hình 7: So sánh hiệu suất của deep learning với các thuật toán học máy khác13 Hình 8: Mô hình mạng neural tích chập 13

Hình 9: Tích chập phần tử đầu tiên của X và F 14

Hình 10: Kết quả tích chập X và F 14

Hình 12: Vùng đệm kết hợp với bước sải (padding = 1, stride = 2) 15

Hình 13: Các kernal và ý nghĩa cúa nó trong xử lý ảnh 16

Hình 14: Kết quả tích chập của X và F 17

Hình 15: Áp dụng phương pháp tích chập trên ảnh màu với k=3 17

Hình 16: Tensor X, W 3 chiều được viết dưới dạng 3 matrix 18

Hình 17: Phép tính tích chập trong trên ảnh màu 19

Hình 18: Tóm tắt cấu trúc của tầng tích chập 20

Hình 19: Đầu ra của tầng tích chập 20

Hình 20: Pooling làm giảm chiều (width, height) nhưng không giảm dept 21

Hình 22: Cách thực hiện flatening 23

Hình 23: Mô hình mạng neural tích chập 23

Hình 25: Thông số RGB của một màu 24

Hình 26: Ảnh màu trong thực tế 25

Hình 27: Chi tiết về thuộc tính của hình ảnh được biểu diễn trên mày tính 26

Hình 28: Mô tả các hoạt động của xử lý ảnh màu 27

Hình 29: Minh họa cho thuật toán Adam 29

Hình 30: Công thức của thuật toán Adam 29

Hình 31: So sánh sự hội tụ của các thuật toán 30

Hình 32: So sánh hiệu suất các thuật toán tối ưu 31

Hình 33: So sánh giữa Machine Learning truyền thống và Transfer Learning 32

Hình 34: Các phương pháp data augmentation (1) 33

Hình 37: biểu đồ luồng dữ liệu tính toán 36

Hình 39: các API của Tensorflow 37

Hình 40: các ngôn ngữ hỗ trợ tensorflow api 38

Hình 41: Các mô hình tensorflow 2 dectection model zoo 39

Hình 42: Ứng dụng vẽ hình ảnh bằng thủ ngữ 40

Hình 43: 2 loại hình thủ ngữ được sử dụng trong ứng dụng vẽ hình ảnh bằng thủ ngữ 40

Hình 44: Tracking và nhận biết thủ ngữ 42

Hình 45: Vẽ hình tròn bằng thủ ngữ 43

Hình 47: Vẽ con mèo bằng thủ ngữ 44

Hình 48: thực nghiệm ở tốc độ 25-26 cm/s 45

Hình 50: Boot Ubuntu lên USB 47

Hình 52: tập dữ liệu Quickdraw_bitmap 48

Hình 53: Tải tệp dữ liệu quickdraw_bitmap 49

Hình 54: Dữ liệu đã được đánh nhãn 49

Hình 55: Chia dữ liệu thành 2 tệp train và validation 50

Hình 56: các label được sử dụng trong huấn luyện 51

Hình 57: Huấn luyện và đánh giá mô hình 52

Hình 58: Tensorboard của mô hình 53

Hình 61: Nhận diện ngôi sao 55

Hình 62: Workflow của ứng dụng 56

Hình 63: test ứng dụng trong thực tế 57

Hình 64: Vẽ và nhận diện ngôi sao 58

Hình 65: Vẽ và nhận diện cái quần 59

Hình 66: Vẽ và nhận diện quả táo 59

Hình 67: Vẽ và nhận diện chiếc lá 60

Hình 68: GPU được sử dụng 61

DANH MỤC BẢNG Bảng 1: Hàm truyền 10

Bảng 2: kết quả test thực tế 57

DANH MỤC CÁC TỪ VIẾT TẮT

AI Trí tuệ (Trí thông minh) nhân tạo: Artificial Intelligence

API iao diện lập trình ứng dụng: Application Programming

Interface CNN Mạng nơ ron tích chập: convolutional neural network

DL Học sâu: Deep Learning

GPU Đơn vị xử lý đồ họa: Graphics Processing Unit

IoT Mạng lưới kết nối vạn vật: Internet-of-Things

ML Máy học = Học máy: Machine Learning

ROI Vùng quan tâm trong xử lý ảnh: Region of Interest

SSD Thuật toán Singer Shot Detetor

Dự đoán hình ảnh và nhận diện cử chỉ là hai lĩnh vực nghiên cứu quan trọng trong nhiều năm qua Khi kết hợp chúng, việc dự đoán hình ảnh thông qua cử chỉ có thể được áp dụng rộng rãi, đặc biệt khi nhiều giải pháp công nghệ hiện nay đã tích hợp chức năng điều khiển bằng cử chỉ Tuy nhiên, các ứng dụng nhận diện hình ảnh vẽ bằng thủ ngữ vẫn còn hạn chế và chưa phổ biến do tính ứng dụng chưa cao Một trong những thách thức lớn là sự khác biệt giữa việc vẽ bằng thủ ngữ và việc vẽ trên giấy hoặc bằng các thiết bị như chuột hay bảng vẽ Bài báo cáo này sẽ trình bày giải pháp cho vấn đề này, sử dụng phương pháp học sâu với thuật toán tối ưu Adam để huấn luyện mô hình trên một bộ dữ liệu lớn về hình vẽ đã được đánh nhãn, nhằm tối ưu hóa quá trình nhận diện hình ảnh và phát triển ứng dụng dự đoán hình ảnh vẽ bằng cử chỉ.

1 LÝ DO CHỌN ĐỀ ĐỀ TÀI

Nếu xung quanh chúng ta là những thiết bị thông minh có thể vận hành máy móc chỉ qua những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.

2 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN

Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính gần như đạt được hiệu suất tương đương với con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này không chỉ nâng cao khả năng tương tác giữa máy móc và con người mà còn giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng một cầu nối phong phú hơn giữa hai bên.

Kết quả nghiên cứu cho thấy máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi cần tìm kiếm một thứ gì đó mà không thể nhớ, chúng ta chỉ cần vẽ hình ảnh của nó, và máy tính sẽ xử lý để giúp chúng ta Hơn nữa, công nghệ này còn cho phép điều khiển máy móc xung quanh bằng những cử chỉ đơn giản.

3 MỤC TIÊU VÀ NHIỆM VỤ CỦA NGHIÊN CỨU

Từ thực trạng trên đòi hỏi mục tiêu đặt ra:

- Tìm hiểu nghiên cứu về thị giác máy tính, về các phương pháp học sâu

- Giao tiếp với máy tính thông qua các phương thức thủ ngữ (cử chỉ)

- Huấn luyện mô hình nhận diện hình vẽ cho máy tính

- Cài đặt ứng dụng nhận diện thủ ngữ để máy tính nhận diện cử chỉ

- Từ ứng dụng nhận diện phát triển thành ứng dụng vẽ hình ảnh bằng cử chỉ kết hợp nhận diện hình ảnh bằng cử chỉ

Nhiệm vụ đặt ra khi nghiên cứu về đề tài là:

- Tìm hiểu về Deep Learning

- Tìm hiểu về Thị giác máy tính

- Tìm hiểu các thuật toán tối ưu

- Tìm hiểu về bài toán nhận dạng nét vẽ bằng cử chỉ

Bài toán đặt ra là hiện thực hóa mô hình nhận diện hình ảnh từ thủ ngữ, cụ thể là cử chỉ của bàn tay con người Hai loại thủ ngữ chính được sử dụng trong nghiên cứu này là Open (mở bàn tay) và Close (đóng bàn tay).

Bàn tay đóng vai trò đại diện cho đầu bút trong quá trình vẽ Khi bàn tay ở trạng thái đóng, máy tính sẽ theo dõi hướng di chuyển của bàn tay để tạo ra hình vẽ Ngược lại, khi bàn tay mở, máy tính sẽ ngừng theo dõi chuyển động, biểu thị cho hành động ngưng vẽ.

Từ hình vẽ được vẽ bằng thủ ngữ, máy tính sẽ nhận diện và đưa ra dự đoán về hình ảnh được vẽ

Nguồn dữ liệu để huấn luyện mô hình được thu thập từ internet, với hơn 50 triệu bản vẽ đã được đánh nhãn Máy tính sẽ học từ mô hình tối ưu nhất để đưa ra dự đoán chính xác nhất.

5 KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC

Xây dựng một ứng dụng với khả năng đọc và nhận diện hình ảnh được vẽ bằng cử chỉ Hình vẽ sẽ được thực hiện bằng tay

Máy tính có khả năng nhận diện bàn tay và theo dõi đường đi của nó để tạo ra hình vẽ cụ thể Dựa trên hình vẽ này, máy tính sẽ thực hiện nhận diện thông qua bộ dữ liệu đã được học từ các thuật toán nhận diện, từ đó đưa ra dự đoán gần như chính xác về hình ảnh đã được vẽ.

CƠ SỞ LÝ THUYẾT

TỔNG QUAN VỀ XỬ LÝ ẢNH

1.5 Transfer learning và data augmentatio

Dự đoán hình ảnh và nhận diện cử chỉ là hai bài toán đã được nghiên cứu trong nhiều năm Khi kết hợp chúng, việc dự đoán hình ảnh vẽ bằng cử chỉ có thể được áp dụng rộng rãi, đặc biệt khi nhiều giải pháp công nghệ hiện nay đã tích hợp chức năng điều khiển bằng cử chỉ Tuy nhiên, các ứng dụng nhận diện hình ảnh vẽ bằng thủ ngữ vẫn còn hạn chế và chưa phổ biến do tính ứng dụng chưa cao Một trong những thách thức lớn là việc vẽ bằng thủ ngữ khác biệt so với vẽ trên giấy hay sử dụng chuột, bảng vẽ Bài báo cáo này sẽ trình bày giải pháp cho bài toán này, sử dụng phương pháp học sâu với thuật toán tối ưu Adam để huấn luyện mô hình trên một bộ dữ liệu lớn về hình vẽ đã được đánh nhãn, từ đó xây dựng ứng dụng dự đoán hình ảnh vẽ bằng cử chỉ.

Nếu xung quanh chúng ta là những thiết bị thông minh có thể vận hành máy móc chỉ bằng những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.

Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính gần như đạt được hiệu suất tương đương với con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này không chỉ nâng cao khả năng tương tác giữa máy móc và con người mà còn giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng một cầu nối phong phú hơn giữa hai bên.

Nghiên cứu này cung cấp cơ sở cho việc phát triển máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi cần tìm kiếm một thứ gì đó mà không thể nhớ rõ, chúng ta chỉ cần vẽ hình ảnh của nó, và máy tính sẽ xử lý để giúp chúng ta Hơn nữa, công nghệ này còn cho phép điều khiển máy móc xung quanh bằng những cử chỉ đơn giản.

Bài toán đặt ra là hiện thực hóa mô hình nhận diện hình ảnh từ thủ ngữ, cụ thể là các cử chỉ của bàn tay con người Hai loại thủ ngữ chính được sử dụng trong nghiên cứu này là thủ ngữ mở (Open) và thủ ngữ đóng (Close).

Bàn tay đóng vai trò đại diện cho đầu bút trong quá trình vẽ Khi bàn tay ở trạng thái đóng, máy tính sẽ theo dõi hướng di chuyển của bàn tay để tạo ra hình vẽ Ngược lại, khi bàn tay mở, máy tính sẽ ngừng theo dõi chuyển động, biểu thị cho hành động ngưng vẽ.

Máy tính sử dụng công nghệ nhận diện bàn tay để theo dõi chuyển động và tạo ra hình vẽ cụ thể Dựa trên hình vẽ này, máy tính áp dụng các thuật toán đã học để nhận diện và đưa ra dự đoán chính xác về hình ảnh được vẽ.

PHẦN NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 NEURAL NETWORK

1.1.1 Giới thiệu sơ lược về Neural Network

Neuron là đơn vị cơ bản của hệ thống thần kinh con người và là thành phần quan trọng nhất của não Chúng có cấu trúc độc đáo và hình dạng khác biệt so với các loại tế bào khác.

Mỗi neuron được cấu tạo từ phần nhân (soma) chứa nhân tế bào, cùng với các tín hiệu đầu vào qua sợi nhánh (dendrites) và tín hiệu đầu ra qua sợi trục (axon) kết nối với các neuron khác.

Hình 2: Hình ảnh cấu trúc của Neuron thần kinh

(Nguồn: https://efacd.tistory.com/49)

Cảm hứng từ hoạt động của neuron thần kinh, các nhà khoa học đã phát triển mô hình mạng neuron nhân tạo (Neural Network) nhằm mô phỏng hệ thần kinh của con người, cho phép máy tính học hỏi giống như con người.

TRANSFER LEARNING VÀ DATA AUGMENTATION

Dự đoán hình ảnh và nhận diện cử chỉ là hai lĩnh vực nghiên cứu quan trọng trong nhiều năm qua Khi kết hợp chúng, việc dự đoán hình ảnh qua cử chỉ có thể được áp dụng rộng rãi, đặc biệt khi nhiều giải pháp công nghệ hiện nay đã tích hợp chức năng điều khiển bằng cử chỉ Tuy nhiên, các ứng dụng nhận diện hình ảnh vẽ bằng thủ ngữ vẫn còn hạn chế và chưa phổ biến do tính ứng dụng chưa cao Một trong những thách thức lớn là sự khác biệt giữa việc vẽ bằng thủ ngữ và việc vẽ trên giấy hoặc bằng các thiết bị như chuột hay bảng vẽ Bài báo cáo này sẽ trình bày giải pháp cho vấn đề này, sử dụng phương pháp học sâu và thuật toán tối ưu Adam để huấn luyện mô hình trên một bộ dữ liệu lớn về hình vẽ đã được đánh nhãn, nhằm tối ưu hóa quá trình nhận diện hình ảnh và phát triển ứng dụng dự đoán hình ảnh vẽ bằng cử chỉ.

Hiện nay, sự phát triển của khoa học kỹ thuật đã giúp con người giao tiếp nhiều hơn và xa hơn Trong các hình thức giao tiếp, cử chỉ đóng vai trò quan trọng như một phương thức giao tiếp phi ngôn ngữ, truyền tải thông điệp thông qua các hành động nhìn thấy được của cơ thể mà không cần sử dụng âm thanh.

Những hành động này thay thế cho ngôn ngữ nói hoặc kết hợp với nhau, bao gồm cử chỉ như chuyển động của bàn tay, khuôn mặt và các bộ phận khác của cơ thể.

Nếu xung quanh chúng ta là những thiết bị thông minh có thể vận hành máy móc chỉ qua những cử chỉ đơn giản, cuộc sống sẽ trở nên dễ dàng hơn rất nhiều Đó là lý do chúng tôi chọn đề tài này để thực hiện.

Trong những năm gần đây, nghiên cứu về AI và Machine Learning đã đạt được nhiều thành công đáng kể, cho phép máy tính tiến gần đến hiệu suất của con người trong các lĩnh vực như nhận dạng khuôn mặt, giọng nói, ngôn ngữ và cử chỉ Thành công này không chỉ nâng cao khả năng tương tác giữa máy móc và con người mà còn giúp máy tính hiểu ngôn ngữ cơ thể, từ đó xây dựng cầu nối phong phú hơn giữa hai bên.

Kết quả nghiên cứu cho thấy máy tính có khả năng học và hiểu ngôn ngữ cơ thể của con người thông qua các thuật toán nhận diện Điều này mở ra cơ hội phát triển nhiều tính năng phục vụ nhu cầu hàng ngày của chúng ta Chẳng hạn, khi chúng ta quên một thứ gì đó, chỉ cần vẽ hình ảnh của nó, máy tính sẽ xử lý và giúp chúng ta tìm ra Hơn nữa, công nghệ này còn cho phép điều khiển máy móc xung quanh bằng những cử chỉ đơn giản.

Bài toán đặt ra là hiện thực hóa mô hình nhận diện hình ảnh thông qua thủ ngữ, cụ thể là các cử chỉ của bàn tay con người Hai loại thủ ngữ chính được sử dụng trong nghiên cứu này là Open (mở bàn tay) và Close (đóng bàn tay).

Bàn tay đóng vai trò đại diện cho đầu bút trong quá trình vẽ Khi bàn tay ở trạng thái đóng (Close), máy tính sẽ theo dõi hướng di chuyển của bàn tay để tạo ra hình vẽ Ngược lại, khi bàn tay mở (Open), máy tính sẽ ngừng theo dõi chuyển động, biểu thị cho hành động ngưng vẽ.

Máy tính sử dụng công nghệ nhận diện bàn tay để theo dõi chuyển động và tạo ra hình vẽ cụ thể Dựa trên hình vẽ này, máy tính áp dụng các thuật toán đã học để nhận diện và đưa ra dự đoán chính xác về hình ảnh đã được vẽ.

PHẦN NỘI DUNG CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 1.1 NEURAL NETWORK

1.1.1 Giới thiệu sơ lược về Neural Network

Neuron là đơn vị cơ bản cấu tạo nên hệ thống thần kinh của con người và là thành phần quan trọng nhất của não Chúng có cấu trúc độc đáo và hình dạng khác biệt so với các loại tế bào khác.

Mỗi neuron được cấu tạo từ phần nhân (soma) chứa nhân tế bào, cùng với các tín hiệu đầu vào qua sợi nhánh (dendrites) và tín hiệu đầu ra qua sợi trục (axon) kết nối với các neuron khác.

Hình 2: Hình ảnh cấu trúc của Neuron thần kinh

(Nguồn: https://efacd.tistory.com/49)

Dựa trên hoạt động của neuron thần kinh, các nhà khoa học đã phát triển mô hình mạng neuron nhân tạo (Neural Network) nhằm mô phỏng hệ thần kinh của con người, từ đó giúp máy tính có khả năng học hỏi giống như con người.

ÁP DỤNG VÀO NHẬN DIỆN HÌNH ẢNH BẰNG CỬ CHỈ

Tiêu đề	Tìm hiểu học sâu và xây dựng ứng dụng dự đoán hình ảnh được vẽ bằng cử chỉ
Tác giả	Nguyễn Đức Thuận
Người hướng dẫn	TS Trần Nhật Quang
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Kỹ Thuật Dữ Liệu
Thể loại	Đề tài
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	78
Dung lượng	7,65 MB