Ưu điểm của phòng thay đồ thông minh và gương tương tác là rõ ràng, nhưng cho đến nay các nhà bán lẻ không sử dụng chúng một cách tích cực.. Các khái niệm cơ bản liên quan đến xử lý ảnh
Trang 1THÀNH PHỐ HỒ CHÍ MINH
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ KỸ THUẬT CƠ ĐIỆN TỬ
GVHD: TS BÙI HÀ ĐỨC
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HỒ CHÍ MINH
KHOA ĐÀO TẠO CHẤT LƯỢNG CAO
PHẠM THỊ THANH THỦY 17146199
Khóa: 2017-2021
Ngành: CNKT CƠ ĐIỆN TỬ
GVHD: TS BÙI HÀ ĐỨC
Trang 3TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do – Hạnh phúc
KHOA ĐÀO TẠO CHẤT LƯỢNG CAO
NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
Giảng viên hướng dẫn: TS Bùi Hà Đức
1 Tên đề tài:
Thiết kế và điều khiển hệ thống gương tương tác thông minh
2 Các số liệu, tài liệu ban đầu:
- Cơ sở lý thuyết
- Camera 3D
3 Nội dung chính của đồ án:
- Nghiên cứu cơ sở lý thuyết xử lý ảnh 3D
- Xây dựng mô hình phần cứng của hệ thống gương tương tác thông minh
7 Ngôn ngữ trình bày: Bản báo cáo: Tiếng Anh Tiếng Việt
Trình bày bảo vệ: Tiếng Anh Tiếng Việt
TRƯỞNG KHOA TRƯỞNG NGÀNH GIẢNG VIÊN HƯỚNG DẪN
(Ký, ghi rõ họ tên) (Ký, ghi rõ họ tên) (Ký, ghi rõ họ tên)
Trang 4TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do – Hạnh phúc
KHOA ĐÀO TẠO CHẤT LƯỢNG CAO
Bộ môn: Cơ điện tử
PHIẾU NHẬN XÉT ĐỒ ÁN TỐT NGHIỆP
(Dành cho giảng viên hướng dẫn)
Tên đề tài: Thiết kế và điều khiển hệ thống gương tương tác thông minh
Ngành đào tạo: Công nghệ kỹ thuật Cơ điện tử
Họ và tên GV hướng dẫn: TS Bùi Hà Đức
Ý KIẾN NHẬN XÉT
1 Nhận xét về tinh thần, thái độ làm việc của sinh viên (không đánh máy)
2 Nhận xét về kết quả thực hiện của ĐATN (không đánh máy) 2.1 Kết cấu, cách thức trình bày ĐATN:
Trang 5
2.2 Nội dung đồ án: (Cơ sở lý luận, tính thực tiễn và khả năng ứng dụng của đồ án, các hướng nghiên cứu có thể tiếp tục phát triển)
2.3 Kết quả đạt được:
2.4 Những tồn tại (nếu có):
Trang 6
Đúng format với đầy đủ cả hình thức và nội dung của
các mục
10
Mục tiêu, nhiệm vụ, tổng quan của đề tài 10
Tính cấp thiết của đề tài 10
Khả năng ứng dụng kiến thức toán học, khoa học và kỹ
thuật, khoa học xã hội…
5
Khả năng thực hiện/phân tích/tổng hợp/đánh giá 10
Khả năng thiết kế chế tạo một hệ thống, thành phần,
hoặc quy trình đáp ứng yêu cầu đưa ra với những ràng
buộc thực tế
15
Khả năng cải tiến và phát triển 15
Khả năng sử dụng công cụ kỹ thuật, phần mềm chuyên
Trang 7TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP HCM CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do – Hạnh phúc
KHOA ĐÀO TẠO CHẤT LƯỢNG CAO
Bộ môn: Cơ điện tử
PHIẾU NHẬN XÉT ĐỒ ÁN TỐT NGHIỆP
(Dành cho giảng viên phản biện)
Tên đề tài: Thiết kế và điều khiển hệ thống gương tương tác thông minh
Ngành đào tạo: Công nghệ kỹ thuật Cơ điện tử
Họ và tên GV phản biện: (Mã GV)
Ý KIẾN NHẬN XÉT 1 Nhận xét về tinh thần, thái độ làm việc của sinh viên (không đánh máy)
2 Nội dung đồ án: (Cơ sở lý luận, tính thực tiễn và khả năng ứng dụng của đồ án, các hướng nghiên cứu có thể tiếp tục phát triển)
Trang 8
3 Kết quả đạt được:
4 Những thiếu sót và tồn tại của ĐATN:
5 Câu hỏi:
Trang 9
Đúng format với đầy đủ cả hình thức và nội dung của
các mục
10
Mục tiêu, nhiệm vụ, tổng quan của đề tài 10
Tính cấp thiết của đề tài 10
Khả năng ứng dụng kiến thức toán học, khoa học và kỹ
thuật, khoa học xã hội…
5
Khả năng thực hiện/phân tích/tổng hợp/đánh giá 10
Khả năng thiết kế chế tạo một hệ thống, thành phần,
hoặc quy trình đáp ứng yêu cầu đưa ra với những ràng
buộc thực tế
15
Khả năng cải tiến và phát triển 15
Khả năng sử dụng công cụ kỹ thuật, phần mềm chuyên
Trang 10i
LỜI CAM ĐOAN
Chúng em xin cam đoan rằng đề tài “Thiết kế và điều khiển gương tương tác thông minh” là công trình nghiên cứu của bản thân Những phần có sử dụng tài liệu tham khảo có trong đồ án đã được liệt kê và nêu rõ ra tại phần tài liệu tham khảo Đồng thời những số liệu hay kết quả trình bày trong đồ án đều mang tính chất trung thực, không sao chép, đạo nhái
Nếu như sai chúng em xin chịu hoàn toàn trách nhiệm và chịu tất cả các kỷ luật của bộ môn cũng như nhà trường đề ra.
Người thực hiện Nguyễn Gia Bảo Phạm Thị Thanh Thủy Nguyễn Thị Hải Yến
Trang 11ii
LỜI CẢM ƠN
Chúng em xin bày tỏ lòng biết ơn sâu sắc nhất tới thầy Bùi Hà Đức đã tận tình hướng dẫn và giúp đỡ chúng em trong suốt quá trình làm đồ án Với sự chỉ bảo của thầy, chúng em đã có những định hướng tốt trong công việc triển khai và thực hiện các yêu cầu trong quá trình làm đồ án môn học
Xin chân thành cảm ơn sự dạy bảo và giúp đỡ của các thầy giáo, cô giáo Khoa
Cơ khí chế tạo máy, Khoa Đào tạo Chất Lượng Cao – Trường Đại học Sư phạm
kỹ thuật TPHCM đã trang bị những kiến thức cơ bản để em có thể hoàn thành tốt đồ án này
Bên cạnh đó, chúng em xin cảm ơn sự hỗ trợ và giúp đỡ của bạn bè trong thời gian học tập và trong quy trình hoàn thành đồ án này
Chúng em xin cảm ơn Ban Giám hiệu nhà trường, Bộ môn cơ điện tử, các phòng ban của nhà trường đã tạo điều kiện tốt nhất cho em trong quá trình học tập và làm đồ án
Xin chân thành cảm ơn!
Trang 12iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
LỜI NÓI ĐẦU v
DANH MỤC CÁC TỪ VIẾT TẮT vi
DANH SÁCH BẢNG BIỂU vii
DANH SÁCH BIỂU ĐỒ VÀ HÌNH ẢNH viii
CHƯƠNG 1: TỔNG QUAN 1
1.1.Giới thiệu chung 1
1.2.Đặt vấn đề 2
1.3.Mục tiêu đề tài 3
1.4.Giới hạn đề tài 4
1.5.Kết cấu đề tài 4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 6
2.1.Thực tế ảo 6
2.2.Hệ thống gương tương tác thông minh .6
2.3.Xử lý ảnh 2D 9
2.4.Xử lý ảnh 3D 17
2.5.Thuật toán Machine Learning ( Support Vector Machines) 33
CHƯƠNG 3: XÂY DỰNG PHẦN CỨNG 37
3.1.Không gian tương tác 37
3.2.Camera Intel Realsense D455 41
3.3.Board nhúng 42
3.4.Môi trường 43
CHƯƠNG 4: XỬ LÝ DỮ LIỆU 45
Trang 13iv
4.1.Calibration (hiệu chỉnh máy ảnh) 46
4.2.Xử lý dữ liệu ảnh 2D 54
4.3.Nhận diện chuyển động 57
4.4.Xử lý ảnh 3d 64
4.5.Tính kích thước cơ thể 74
CHƯƠNG 5: TẠO GIAO DIỆN NGƯỜI DÙNG 85
5.1.Tổng quan về Website 85
5.2.Thành phần cơ bản của giao diện của hệ thống gương tương tác .85
5.3.Các trang của giao diện .87
CHƯƠNG 6: KẾT LUẬN, NHẬN XÉT VÀ HƯỚNG PHÁT TRIỂN 91
6.1.Kết quả thu được 91
6.2.Nhận xét 91
6.3.Hướng phát triển 92
KẾT LUẬN 93
TÀI LIỆU THAM KHẢO 94
PHỤ LỤC 96
Phụ lục A: Code 96
Phụ lục B: Bản vẽ 132
Trang 14v
LỜI NÓI ĐẦU
Rất nhiều khách hàng đã lựa chọn đến các cửa hàng để mua quần áo thay vì mua sắm trên internet Lý do rất đơn giản: họ có thể thử món đồ mình thích và trả tiền khi chắc chắn món đồ đó vừa vặn Theo nghiên cứu năm 2016 của Body Labs được công
bố vào năm 2016, 76% người mua thử quần áo và 91% người mua thử giày trước khi mua Và thường thì khách rời cửa hàng mà không mua vì họ không thể thử đồ một cách thoải mái như việc hạn chế số lượng có thể thử, đợi chờ tới lượt mình thử đồ, hay việc phải đi qua đi lại quá nhiều với những trang phục đầy màu sắc Thêm vào
đó là việc thay đổi giữa các bộ đồ quá là phiền phức, nếu gặp phải trang phục cầu kỳ thì rất mất thời gian để thay nó Nói chung có vô số những lý do làm khách hàng nản lòng và đôi khi biến việc mua sắm yêu thích trở thành nỗi khổ
Để giải quyết những khuyết điểm trên “gương tương tác thông minh” được xây dựng và phát triển Hệ thống gương tương tác thông minh bao gồm hai camera độ sâu Intel Realsense D455 chụp hai nửa cơ thể người từ hai bên Gương tương tác là sản phẩm của sự xử lý ảnh 3D, để lấy được dữ liệu ảnh, cần thực hiện điều chỉnh các thông số nội của camera Dữ liệu 3D được lấy theo thời gian thực kết hợp lọc - khử nhiễu là công tác chuẩn bị cho dữ liệu đầu vào, được thực hiện một cách cẩn thận, để đảm bảo độ chính xác cho quá trình xử lý tiếp theo Tiếp đến là các thuật toán xử lý ảnh chuyên sâu kết hợp với phân tích dữ liệu đầu vào để tìm ra phương pháp khử nền
và ngoại vật xung quanh cơ thể để có được mảng dữ liệu chỉ có thân hình người Sau
đó qua các quá trình xử lý như ghép hai nửa cơ thể từ hai camera thành một, nhận diện các khớp để tính được số đo cơ thể bao gồm vòng một, vòng hai và vòng ba Cuối cùng sẽ có một trang web hiển thị hình ảnh của người dùng bao gồm kích thước
cơ thể và các thông tin cơ bản Hệ thống nhận diện động tác của người dùng thông qua các hành động của tay phải như gạt sang hai bên Sau đó hiển thị sự tương tác của người dùng lên web bằng việc thay đổi các hình ảnh trên giao diện
Sau khoảng thời gian làm đồ án, nhóm đã hoàn thành quy trình xử lý dữ liệu hình ảnh giúp nhận diện được người dùng, hỗ trợ tương tác giữa gương và khách hàng
Trang 15vi
DANH MỤC CÁC TỪ VIẾT TẮT
VR: Virtual Reality
PCAP: Projective Capacitive
FRID: Radio Frequency Identification
Two Dimensional: 2D
Three Dimensional: 3D
Time-of-Flight: ToF
Iterative closest point: ICP
Support Vector Machines: SVM
Radial Basis Function: RBF
Convolution Neural Network: CNN
Part Affinity fields: PAFs
RGB: Red Green Blue
EMA: Exponential Moving Average
CSS: Cascading Style Sheets
JS: JavaScript
PHP: Hypertext Preprocessor
SQL: Structured Query Language
RDBMS: Relational Database Management System
Trang 16vii
DANH SÁCH BẢNG BIỂU
Bảng 4-1 Kết quả thực nghiệm nhận diện chuyển động 63
Bảng 4-2 Thực nghiệm công thức tính vòng 1 79
Bảng 4-3 Bảng thực nghiệm công thức tính vòng 2 81
Bảng 4-4 Thực nghiệm hệ số x 82
Bảng 4-5 Thực nghiệm công thức tính vòng 3 83
Trang 17viii
DANH SÁCH BIỂU ĐỒ VÀ HÌNH ẢNH
Biểu đồ 1-1 Biểu đồ quy mô thị trường ảo theo thành phần từ 2015-2025 (tỷ đô) 1
Hình 2-1 Interactive Mirror của Prestop 7
Hình 2-2 Magic Mirror của H&M 8
Hình 2-3 Ảnh 2D 9
Hình 2-4 Khớp xương của người 11
Hình 2-5 Tỷ lệ cơ bản của con người 12
Hình 2-6 Tỷ lệ cơ thể con người so với chiều cao của đầu 13
Hình 2-7 Motion capture system 14
Hình 2-8 Tracking 18 khớp của cơ thể 16
Hình 2-9 Ảnh 3D 19
Hình 2-10 Ảnh độ sâu 20
Hình 2-11 Ảnh của vật qua camera 22
Hình 2-12 Point cloud 23
Hình 2-13 Edge-Preserving filter 24
Hình 2-14 Trong môi trường thiếu ánh sánh và ánh sáng vừa đủ 25
Hình 2-15 Ghép 2 point cloud bằng ICP 27
Hình 2-16 Thuật toán KDTree 28
Hình 2-17 Tìm kiếm các điểm gần nhất 29
Hình 2-18 Thuật toán RANSAC 31
Hình 2-19 Các mặt phẳng phân tách 34
Hình 2-20 Mặt phẳng phân tách tốt nhất 35
Hình 3-1 Trường nhìn của máy ảnh 37
Trang 18ix
Hình 3-2 Độ cao lắp đặt màn hình 38
Hình 3-3 Sơ đồ khoảng cách ngắn nhất từ máy ảnh đến vị trí đứng 39
Hình 3-4 Sơ đồ khoảng cách ngắn nhất từ màn hình đến vị trí đứng 39
Hình 3-5 Sơ đồ khoảng cách từ màn hình đến vị trí đứng là 1,5m 40
Hình 3-6 Kết quả thiết kế 40
Hình 3-7 Camera Intel Realsense D455 41
Hình 3-8 Nguyên lí hoạt động camera D455 42
Hình 3-9 NVIDIA Jetson Nano Developer Kit 43
Hình 3-10 Ảnh hưởng tia laser và đèn flash tới camera 44
Hình 4-1 Hiệu chỉnh máy ảnh 46
Hình 4-2 Mục tiêu dùng để hiệu chỉnh 48
Hình 4-3 Giai đoạn chỉnh lưu mục tiêu 49
Hình 4-4 Giai đoạn chỉnh lưu mục tiêu (tiếp tục) 50
Hình 4-5 Giai đoạn chỉnh lưu mục tiêu (tiếp tục) 51
Hình 4-6 Giai đoạn hiệu chỉnh động quy mô 15 tấm 52
Hình 4-7 Hoàn thành quá trình hiệu chỉnh động 53
Hình 4-8 Trước và sau khi calib 53
Hình 4-9 Các bước xử lý để xây dựng khung xương của người trong video 55
Hình 4-10 18 khớp chính của cơ thể được xác định 56
Hình 4-11 Tọa độ (x,y) 18 khớp của cơ thể 57
Hình 4-12 Skeleton bao gồm toa độ các khớp trong không gian xyz 59
Hình 4-13 Quá trình thu thập dữ liệu động tác 60
Hình 4-14 Nguyên lý đưa dữ liệu vào hệ thống 61
Hình 4-15 Kết quả nhận diện chuyển động khi gạt phải 62
Trang 19x
Hình 4-16 Smooth Alpha bằng 0.25 và 1 65
Hình 4-17 Smooth Delta bằng 50 và 100 65
Hình 4-18 Hole filling 66
Hình 4-19 Bộ lọc temporal với alpha = 0,5 và delta = 20 66
Hình 4-20 Trước và sau khi áp hold filling chế độ nearest_from_around 67
Hình 4-21 Vị trí các camera 67
Hình 4-22 Ảnh độ sâu được mã hóa màu 67
Hình 4-23 Point cloud đối tượng máy ảnh thu được 68
Hình 4-24 Point cloud sau khi cắt 69
Hình 4-25 Point cloud sau khi tách nền 69
Hình 4-26 Vị trí lắp đặt 2 máy ảnh 70
Hình 4-27 Sau khi xoay point cloud 71
Hình 4-28 Point cloud sau khi tiến hành ghép 72
Hình 4-29 Downsample với voxel là 0,05 73
Hình 4-30 Lọc nhiễu với esp = 0,05 và min_points = 25 74
Hình 4-31 Dựa và các khớp để xác định các vòng 75
Hình 4-32 Cắt lấy đường cong 3 vòng bề dày 0,02 cm 76
Hình 4-33 Kết quả biên dạng của 3 vòng 77
Hình 4-34 Ước lượng biên dạng sau vòng 1 78
Hình 4-35 Ước lượng biên dạng sau vòng 2 80
Hình 4-36 Chiều cáo cơ thể theo point cloud 84
Hình 5-1 Kết cấu cơ bản để hình thành giao diện 85
Hình 5-2 Trang information 88
Hình 5-3 Trang show skeleton và point cloud 89
Trang 20xi
Hình 5-4 Database 90Hình 5-5 Trang tương tác 90
Trang 211
CHƯƠNG 1: TỔNG QUAN
1.1 Giới thiệu chung
Các nhà tiếp thị luôn tìm kiếm con đường ngắn nhất từ sản phẩm đến tâm trí của người tiêu dùng, giúp họ lựa chọn sản phẩm phù hợp nhất Với sự phát triển của cuộc cách mạng công nghiệp lần thứ tư, và sự phát triển của nền công nghiệp 4.0, quá trình
số hóa các ngành công nghiệp vẫn đang không ngừng thay đổi cả thế giới Gương thực tế ảo tương tác đã xuất hiện trên thị trường Nó cho phép người tiêu dùng xem kết quả mua hàng của họ trước khi thực hiện thanh toán
Quy mô thị trường gương ảo toàn cầu được định giá 3,64 tỷ USD vào năm 2018
và dự kiến sẽ đạt tốc độ CAGR là 25,6% từ năm 2019 đến năm 2025 Các yếu tố như
dễ dàng thử quần áo trong phòng thay đồ ảo tại các cửa hàng, tăng cường chú trọng
vệ sinh đối với mỹ phẩm và các mặt hàng bán lẻ khác, việc dùng thử ảo sản phẩm trên các nền tảng thương mại điện tử trước khi mua được kỳ vọng sẽ thúc đẩy tăng trưởng thị trường Hơn nữa, sự ra đời của máy quét cơ thể đa cảm biến đã cách mạng hóa trải nghiệm mua sắm bằng các nền tảng trực tuyến Sự phát triển của kênh thương mại điện tử được kỳ vọng sẽ tạo ra tiềm năng tăng trưởng lớn cho các nhà cung cấp giải pháp gương ảo
Biểu đồ 1-1 Biểu đồ quy mô thị trường ảo theo thành phần từ 2015-2025 (tỷ đô)
Trang 222
Một số lĩnh vực ứng dụng gương tương tác:
- Gợi ý kiểu tóc mới trong salon
- Trang điểm ảo
- Sử dụng một chiếc gương ảo để quảng cáo thương hiệu hoặc hiển thị sản phẩm và các thông tin cần thiết khác
- Thu thập và phân tích dữ liệu
- Quản lý quần áo
- Trong tổ chức sự kiện
Gương luôn là một phần quan trọng trong cuộc sống của chúng ta Gương tương tác thổi luồng sinh khí mới vào ngành bán lẻ hiện đại, tăng chuyển đổi, cho phép bạn thu thập dữ liệu và phân tích cùng lúc với doanh số bán hàng - mà không cần đầu tư thêm ngân sách cũng như thêm nhân viên
Công nghệ tương tác giúp cải thiện hiệu quả của dịch vụ bằng cách tránh những sai lầm từ yếu tố con người Nhà nghiên cứu xu hướng bán lẻ Paco Underhill cho biết 71% khách hàng tìm đến gương tương tác không rời cửa hàng mà không mua hàng
Sử dụng gương tương tác trong quảng cáo, PR, tiếp thị và ngành sự kiện giúp tiết kiệm thời gian của khách hàng và tăng mức độ trung thành của sản phẩm bởi vì người dùng luôn nhìn thấy sản phẩm khiến họ cảm thấy chân thực và thoải mái
Trong đồ án này, nhóm lựa chọn “Thiết kế và điều khiển hệ thống gương tương tác thông minh” nhằm phục vụ cho ngành thời trang Định hướng sau này phát triển
và mở rộng cho các ngành khác
1.2 Đặt vấn đề
Trong một khảo sát được thực hiện mới đây của Nielsen Việt Nam và Infocus Mekong Mobile Panel, 25% số người được hỏi cho biết đã tăng cường mua sắm online và giảm các hoạt động mua sắm trực tiếp Còn theo nghiên cứu của Worldpanel, mua sắm trực tuyến hiện nay đang chiếm ưu thế và bùng nổ ấn tượng Nhiều người mua sắm trực tuyến hơn so với bình thường, đóng góp vào mức tăng
Trang 233
trưởng 3 chữ số chỉ trong một tháng kể từ khi có thông báo chính thức về dịch bệnh
ở Việt Nam[1] Điều này đang ảnh hưởng rất nhiều đến việc kinh doanh của các shop
thời trang offline, đặc biệt là các cửa hàng hay chuỗi cửa hàng nhỏ và vừa
Ngày nay, sự lựa chọn đa dạng là không đủ để các cửa hàng vẫn thu hút và nổi tiếng Các cửa hàng đang cố gắng thu hút sự quan tâm của khách hàng tiềm năng và khuyến khích họ đến thường xuyên Các chương trình tri ân khách hàng, bán hàng, hành động tiếp thị hoặc thậm chí phát triển năng lực của nhân viên là không đủ Đôi khi không thể tránh khỏi việc làm một cái gì đó sáng tạo hơn để đánh bại đối thủ Đó
là lý do tại sao cần tạo ra một chiếc gương tương tác
Với việc chỉ cần tương tác với gương và có thể “thử đồ online” thì sản phẩm hoàn toàn có khả năng giải quyết được các vấn đề mà chúng ta gặp phải vì lý do dịch bệnh Thậm chí việc đưa sản phẩm vào sử dụng thực tế còn có thể tiết kiệm được rất nhiều chi phí cũng như sức lao động phải bỏ ra cho việc dựng các buồng thử đồ trực tiếp, dọn dẹp sau khi khách thử đồ và đặc biệt là hạn chế việc phải chờ đợi quá lâu trong trường hợp cửa hàng đông khách
Ngoài ra, sự phát triển về mặt sâu hơn sau này có thể hướng đến việc tích hợp các công nghệ hiện đại hơn để nâng cấp sản phẩm như kết nối online với hệ thống sản phẩm của các nhãn hiệu thời trang, tích hợp chức năng kiểm tra sức khỏe và tình trạng cơ thể của người sử dụng, Khách hàng có thể mua về sử dụng riêng trong gia đình để giảm bớt thời gian mua sắm không cần thiết
Ưu điểm của phòng thay đồ thông minh và gương tương tác là rõ ràng, nhưng cho đến nay các nhà bán lẻ không sử dụng chúng một cách tích cực Đó là vấn đề về những rủi ro tài chính dường như cao liên quan đến những đổi mới công nghệ
1.3 Mục tiêu đề tài
- Nghiên cứu cơ sở lý thuyết xử lý ảnh 3D
- Xây dựng mô hình phần cứng của hệ thống gương tương tác thông minh
- Thu thập và xử lý dữ liệu ảnh 3D
Trang 24- Thu thập hình ảnh dữ liệu 2D và 3D
- Xử lý dữ liệu 3D thu được point cloud cơ thể người hoàn chỉnh
- Nhận diện chuyển động của người
- Tạo giao diện tương tác giữa người dùng và hệ thống
1.5 Kết cấu đề tài
Trong báo cáo luận văn này gồm có sáu chương
Chương 1: Giới thiệu chung
Giới thiệu về tổng quan về thị trường gương ảo, tính ứng dụng của gương ảo trong thực tế hiện nay Giới thiệu sơ lược về cơ chế hoạt động của sản phẩm “gương tương tác thông minh”
Chương 2: Cơ sở lý thuyết
Tìm hiểu về các dòng gương tương tác trên thị trường và so sánh các sản phẩm đó Các khái niệm cơ bản liên quan đến xử lý ảnh và thuật toán sử dụng để xây dựng hệ thống xử lý hình ảnh 3D của gương tương tác thông minh
Chương 3: Xây dựng phần cứng
Thiết kế hệ thống phòng thay đồ nhỏ có gương tương tác, bên cạnh đó tìm hiểu về các module cần có và ảnh hưởng môi trường đến máy ảnh
Chương 4: Xử lý dữ liệu
Trang 255
Áp dụng các thuật toán đã tìm hiểu để xây dựng phần mềm xử lý dữ liệu thu được từ máy ảnh, các phương pháp xử lý dữ liệu như thế nào
Chương 5: Tạo giao diện người dùng
Tìm hiểu về trang web và tạo dựng thành công giao diện tương tác giữa người và gương Cho thấy sự thay đổi trong chuyển động của cơ thể để người dùng biết hơn
về nguyên lý hoạt động của hệ thống
Chương 6: Kết quả, nhận xét và hướng phát triển
Đánh giá kết quả thu được và đưa ra hướng phát triển cho gương trong lĩnh vực thời trang và có thể tiến xa hơn trong các lĩnh vực công nghiệp khác
Trang 26tế hỗn hợp Hiện tại các hệ thống thực tế ảo tiêu chuẩn sử dụng tai nghe thực tế
ảo hoặc môi trường nhiều dự án để tạo ra hình ảnh thực tế, âm thanh và các cảm giác khác mô phỏng sự hiện diện vật lý của người dùng trong môi trường ảo
Một người sử dụng thiết bị thực tế ảo có thể nhìn xung quanh thế giới nhân tạo, di chuyển xung quanh và tương tác với các tính năng hoặc vật phẩm ảo Hiệu ứng thường được tạo ra bởi các tai nghe VR bao gồm màn hình gắn trên đầu với màn hình nhỏ trước mắt, nhưng cũng có thể được tạo thông qua các phòng được thiết kế đặc biệt với nhiều màn hình lớn Thực tế ảo thường kết hợp phản hồi thính giác và video, nhưng cũng có thể cho phép các loại phản hồi cảm giác và lực khác thông qua công nghệ haptic
Một phương pháp mà thực tế ảo có thể được nhận ra là thực tế ảo dựa trên mô phỏng Ví dụ, trình mô phỏng lái xe mang lại cho người lái trên xe cảm giác thực sự lái một chiếc xe thực tế bằng cách dự đoán chuyển động của xe do đầu vào lái xe và đưa lại tín hiệu hình ảnh, chuyển động và âm thanh tương ứng cho người lái xe Với thực tế ảo dựa trên hình ảnh đại diện, mọi người có thể tham gia vào môi trường ảo dưới dạng video thực cũng như hình đại diện Người ta có thể tham gia vào môi trường ảo phân tán 3D dưới dạng hình đại diện thông thường hoặc video thực Người dùng có thể chọn loại tham gia riêng dựa trên khả năng của hệ thống
2.2 Hệ thống gương tương tác thông minh
Gương tương tác là một sản phẩm mới được ra mắt gần đây, được hỗ trợ bằng hệ thống thông minh giúp người dùng tương tác trực tiếp với gương mà không thông
Trang 277
qua bất kì phân đoạn trung gian nào Sản phẩm này đang được nghiên cứu và phát triển theo chiều thương mại hóa Hiện nay trên thị trường đã xuất hiện nhiều dòng sản phẩm gương tương tác (hoặc các dạng gương thông minh có hỗ trợ tương tác trực tiếp với người dùng thông qua các thiết bị điện tử khác)
Interactive Mirror của Prestop là một trong những dòng sản phẩm gương tương tác nổi bật trên thị trường hiện nay Prestop Interactive Mirror được thiết kế với màn hình cảm ứng PCAP (Projective Capacitive) kết hợp với camera RGB và bộ nhận dạng FRID (Nhận dạng qua tần số vô tuyến) giúp dễ dàng nhận biết đối tượng cần tương tác Tuy nhiên, do sử dụng sóng vô tuyến nên Interactive Mirror rất dễ bị ảnh hưởng trong môi trường nhiều kim loại dẫn đến nhận dạng nhầm hoặc không nhận dạng được người dùng Với việc sử dụng camera 2D trong xử lý hình ảnh nên gương không thể lấy được kích thước của cơ thể nên chỉ có thể giúp chọn lựa mẫu mã sản phẩm mà không thể tính được kích thước sản phẩm phù hợp với người dùng
Hình 2-1 Interactive Mirror của Prestop
Một dòng sản phẩm gương tương tác khác cũng hay được nhắc đến là Magic Mirror của H&M, đây là sản phẩm do H&M collab với Ombori, Microsoft và Visual Art Gương được trang bị một chiếc camera độ sâu (nằm phía trên), và
Trang 288
phần mềm trợ lý giọng nói Microsoft Azure, với bộ xửa lý được hỗ trợ bởi cộng nghệ trí tuệ nhân tạo (AI), giúp người dùng có thể tương tác và duyệt qua tất cả các tính năng chỉ bằng giọng nói Tuy nhiên, cũng vì thế mà Magic Mirror yêu cầu một môi không gian không được quá ồn
Hình 2-2 Magic Mirror của H&M
Có thể thấy trong hầu hết các hệ thống gương tương tác hiện nay đều đang
sử dụng 1 camera - tín hiệu đầu vào một luồng duy nhất, giúp tối ưu tốc độ thu
của mỗi sản phẩm nhưng nhìn chung thì công nghệ xử lý ảnh đều đang được tận dụng
lý hình ảnh 2D hay 3D sau đó sẽ được dựa trên dữ liệu đầu vào của từng loại camera RGB hay độ sâu
Trang 299
2.3 Xử lý ảnh 2D
Ảnh 2D (Two Dimensional) thường được thấy các thiết bị quang học, chẳng hạng như máy ảnh kính thiên văn, kính hiển vi hoặc cũng có thể nhìn thấy ảnh 2D qua sự phản chiếu hình ảnh của vật thể trên mặt nước
Hình 2-3 Ảnh 2D
Trong hệ thống biểu diễn ảnh màu, một màu thường được mô tả bằng ba thành phần là đỏ, lục và lam (RGB) với các giá trị khác nhau, kết hợp tạo thành giá trị màu của một điểm ảnh, từ đó giúp hiển thị hình ảnh gần giống với màu thực tế của đối tượng
Trang 3010
2.3.2 Đặc điểm ảnh 2D
Ảnh 2D có nền tảng phát triển từ rất lâu, với lợi thế là lượng dữ liệu ảnh không lớn nên chỉ cần bộ xử lý với tốc độ vừa phải, nên công nghệ ảnh 2D vẫn còn được sử dụng rộng rãi cho đến ngày nay
Tuy nhiên, chất lượng ảnh 2D dễ bị ảnh hưởng bởi môi trường xung quanh, chủ yếu là do ảnh hưởng đến ánh sáng đi vào cảm biến của máy ảnh như ánh sáng sáng quá mạnh hoặc quá yếu; ánh sáng bị cản trở bơi hơi nước, khối Mặt khác, ảnh 2D cũng rất khó để xác định kích thước của vật thể, cũng như khoảng cách và vị trí trong không gian Chính vì thế, người ta đã phát triển ảnh 3D với mục đích loại đi những nhược điểm của ảnh 2D đồng thời giúp ảnh trở nên "thật" hơn
2.3.3 Tỷ lệ cơ thể người và khung xương
Hệ thống xương tạo hình dáng cho cơ thể Nếu không có hệ thống xương, cơ thể
sẽ giống như một bộ giấy không có khung cứng Bản thân xương nâng đỡ trọng lượng của cơ thể và cấu tạo của chúng bảo vệ các cơ quan quan trọng
Khớp xương là một cấu trúc đặc biệt, nó có cấu tạo phức tạp, đa dạng có nhiệm vụ nâng đỡ và hỗ trợ chuyển động linh hoạt của con người Khớp xương hoặc bề mặt khớp là nơi kết nối các xương trong cơ thể để tạo thành một hệ thống xương tổng thể Các khớp có nhiệm vụ hỗ trợ các chuyển động khác nhau của cơ thể
Trang 3111
Hình 2-4 Khớp xương của người
Tỷ lệ cơ thể có thể được coi là hình dạng cơ thể thẳng đứng của bạn Khi chúng ta nói về tỷ lệ cơ thể, chúng ta đang nói về "số đo" của bạn từ đầu đến chân
Trang 3212
Hình 2-5 Tỷ lệ cơ bản của con người
Phép đo (chiều cao nam lý tưởng = 8 phần đầu) được thiết lập trong thời kỳ Phục hưng để lý tưởng hoá hình dáng của con người Rõ ràng là rất ít người thực sự có chiều cao bằng 8 đầu người (ngay cả với người Bắc Âu, họ là nền tảng cho mô hình này, họ rất gần chiều cao 7 đầu người), nhưng đây vẫn là hình mẫu tốt nhất để bắt đầu, vì nó dễ nắm bắt hơn để căn chỉnh Cơ thể được chia nhỏ thành các số đo bằng nhau sau đây:
- Đỉnh đầu đến cằm
- Từ cằm đến giữa ngực
- Giữa ngực đến thắt lưng
- Thắt lưng đến xương chậu
- Xương chậu đến giữa đùi
Trang 3313
- Giữa đùi đến đầu gối
- Đầu gối đến giữa bắp chân
Hình 2-6 Tỷ lệ cơ thể con người so với chiều cao của đầu
2.3.4 Skeleton tracking
Phát hiện khung xương
Hiện nay, một số phương pháp mô hình hóa cơ thể người tiêu chuẩn đang được nghiên cứu và áp dụng như phương pháp quan sát bằng mắt thường dựa trên nền tảng
sử dụng các điểm đánh dấu (marker) gắn vào đối tượng quan sát, phương pháp tự động không cần sử dụng dấu (markerless)
Phương pháp sử dụng đánh dấu hồng ngoại từ lâu đã được sử dụng trong các hệ thống motion capture, chẳng hạn như hệ thống OptiTrack, sử dụng để phát hiện và phân tích chuyển động của cơ thể và được sử dụng rộng rãi trong các kỹ thuật biểu
Trang 3414
diễn, phim và y học Có hai loại marker trong hệ thống motion capture: passive và active Passive phản xạ tia hồng ngoại từ một nguồn cố định gắn trên máy ảnh, trong khi active là nguồn trực tiếp Máy ảnh chụp ảnh hồng ngoại từ điểm đánh dấu và sử dụng các thuật toán để xác định vị trí và giám sát vị trí của các đối tượng
Đối với các camera chụp ảnh trong phạm vi ánh sáng nhìn thấy, có thể sử dụng marker được cấu hình đặc biệt tại các vị trí và đối tượng cần theo dõi để thuật toán
xử lý có thể dễ dàng phân biệt và định vị chúng Phương pháp này thường được sử dụng để giám sát và lập bản đồ cho các robot tự động
Hình 2-7 Motion capture system
Nhìn chung, hệ thống này cung cấp kết quả mô hình chuyển động của con người với độ chính xác cao, nhưng yêu cầu xử lý nhiều từ con người và công cụ hỗ trợ cực
kỳ đắt đỏ do cần một hệ thống chỉnh sửa phức tạp Mặt khác, việc dán các marker vào đối tượng phải làm mẫu sẽ tạo cảm giác khó chịu cho đối tượng, nhất là khi đối tượng đòi hỏi sự linh hoạt và tiện lợi Ngoài ra, việc dán các marker vào cơ thể người
và mô hình hóa chuyển động của họ là một vấn bất khả thi khi áp dụng vào thực tế
và chỉ phù hợp với các trường hợp thực nghiệm Do đó, phương pháp tự động không marker được tập trung vào nghiên cứu và phát triển
Trang 3515
Phương pháp markerless tracking, không cần đánh dấu, thường sử dụng mô hình 3D đã biết của đối tượng được theo dõi và khớp mô hình 3D này với hình ảnh 2D thu được Theo dõi không đánh dấu được sử dụng với máy ảnh độ sâu trường ảnh, chẳng hạn như Kinect, Intel Realsense, để chụp trực tiếp hình dạng 3D của một đối tượng,
về cơ bản là sử dụng công nghệ lập bản đồ 3D (3D mapping), sau đó phân tích đối tượng một cách riêng biệt với môi trường để theo dõi Ưu điểm lớn của markerless tracking là rẻ và thuận tiện cho người sử dụng, tuy nhiên thuật toán tính toán và că chỉnh rất phức tạp Hiện nay các thử nghiệm sử dụng markerless tracking vẫn không đảm bảo hoạt động chính xác cao như phương pháp dùng marker theo thời gian thực khi theo dõi nhiều đối tượng.[2]
Tuy nhiên, do những ưu điểm của phương pháp markerless tracking, phần dưới đây sẽ trình bày một phương pháp tự động mô hình hóa cơ thể người dựa trên thuật toán "Openpos" - Skeleton Tracking SDK by Cubemos
Skeleton tracking
Skeleton Tracking SDK là phần mềm được thiết kế để cung cấp khả năng theo dõi
bộ xương 2D/ 3D dựa trên deep learning cho các ứng dụng dành cho phần cứng nhúng Tính năng này là theo dõi bộ xương 3D/ 2D có thể được tích hợp trong khoảng
3 phút, điều này có thể hữu ích cho việc xác định hành động.[3]
Skeleton tracking SDK ước tính tư thế người 2D / 3D nhanh chóng và chính xác cao, cho phép theo dõi 18 khớp đồng thời Nhờ các thuật toán AI, tính năng theo dõi này khả dụng cho tối đa 5 người trong một cảnh
- Chạy trên Windows và Linux bằng C, C ++, C # và Python
- The cubemos Skeleton Tracking SDK hoạt động tốt với các máy ảnh độ sâu dòng D400, đặc biệt là trong các ứng dụng ngoài trời
- Không cần GPU chuyên dụng: Hiệu suất thời gian thực cho các luồng video trên
phần cứng cao cấp
Nói một cách đơn giản, theo dõi bộ xương sử dụng các cảm biến, thường là máy
ảnh hoặc máy ảnh độ sâu, để theo dõi chuyển động của con người Hệ thống theo dõi
Trang 3616
bộ xương thường sử dụng máy ảnh độ sâu để có kết quả thời gian thực mạnh mẽ nhất
Hình 2-8 Tracking 18 khớp của cơ thể
Máy ảnh phân biệt con người với nền, sau đó xác định vị trí của một số đặc điểm hoặc khớp, chẳng hạn như vai, đầu gối, khuỷu tay và bàn tay Một số hệ thống cũng
có thể theo dõi bàn tay hoặc cử chỉ cụ thể, mặc dù điều này không đúng với tất cả các
hệ thống theo dõi bộ xương Trong khi di chuyển, khoảng cách giữa một số khớp với nhau là không hề thay đổi (ví dụ như khớp cánh tay và khuỷu tay, khớp hông và đầu gối, ) gọi là kích thước cứng Do mỗi người (mỗi khung xương) có kích thước khác nhau nhưng thường tương đồng về tỉ lệ mỗi cặp kích thước cứng trên từng cơ thể Do
Trang 3717
đó việc phát hiện từng khớp bước đầu đơn giản là chỉ ra những điểm đáp ứng được
cả hai yếu tố trên Khi các khớp đó được xác định, phần mềm sẽ kết nối chúng thành một bộ xương hình người và theo dõi vị trí của chúng theo thời gian thực Sau đó, dữ liệu này có thể được sử dụng để thúc đẩy các màn hình tương tác, trò chơi, trải nghiệm
VR hoặc AR hoặc bất kỳ tích hợp độc đáo nào khác
2.4 Xử lý ảnh 3D
2.4.1 Khái niệm ảnh 3D
Thuật ngữ 3D đang ngày càng phổ biến nhưng không ít người thắc mắc 3D
là gì? Tại sao lại có hình ảnh 3D? 3D (Three Dimensional) là không gian 3 chiều Các vật thể trong không gian 3 chiều được đặc trưng bởi 3 thông số là chiều rộng, chiều cao và chiều sâu Con người chúng ta sống trong không gian vật chất, bằng thị giác của mình, chúng ta nhận thức được các vật thể xung quanh chúng ta là các hình khối, tức là hình ảnh 3 chiều - 3D
Khác với ảnh 2D, ảnh không gian 3D không phải là tập hợp các điểm ảnh chứa giá trị màu, mà chứa giá trị độ sâu của tất cả các điểm trong không gian
ba chiều xây dựng lên đối tượng, ta còn gọi là đám mây điểm (point cloud) Từ
đó ta có thể thu thập các thông tin mà hình ảnh 2D không thể cung cấp cho chúng ta như khoảng cách, kích thước, hình dạng, biên dạng và vị trí của đối tượng Ảnh độ sâu có thể được thu thập từ các thiết bị như máy scan 3D, camera 3D…
2.4.2 Đặc điểm ảnh 3D
Camera 3D ra đời loại bỏ đi những mặt hạn chế của camera 2D, đồng thời mang lại những ưu điểm vượt trội so với các loại máy ảnh trước đó Máy ảnh 3D ít bị ảnh hưởng bởi môi trường xung quanh Ảnh 3D thu được từ máy ảnh
có thể xây dựng được đám mây điểm (Point Cloud) trong không gian ba chiều
Trang 3818
Vật thể 3D được tạo thành từ những giọt nhỏ, tinh thể, nước, hoặc các hóa chất khác nhau Tương tự, một đám mây điểm là một số lượng lớn các điểm dữ liệu nhỏ tồn tại trong ba chiều Vì vậy, các đám mây điểm mà máy ảnh 3D chụp
là một tập hợp chính xác như việc xây dựng một đối tượng hoặc không gian
Nó được lưu trong hình thức của một số lượng rất lớn các điểm bao gồm cả bề mặt của một đối tượng Và một đám mây điểm cũng sẽ xác định rõ được vị trí của vật thể đối tượng so với máy ảnh
Ngoài những ưu điểm vượt trội, camera 3D vẫn còn bị hạn chế khi làm việc trong môi trường có điều kiện khắc nghiệt như cường độ ánh sáng quá cao chiếu trực tiếp vào camera, trong không gian làm việc có các vật thể trong suốt, gương làm nhiễu tín hiệu của máy ảnh Lượng ánh sáng hồng ngoại xung quanh (ví dụ như ánh sáng mặt trời), có thể làm quá mức công suất của máy chiếu hồng ngoại.Khi đó, việc sử dụng bộ lọc chặn khả kiến sẽ chỉ hoạt động trong phạm vi gần, nơi máy chiếu sáng hơn ánh sáng hồng ngoại xung quanh
Tuy nhiên chúng ta có thể dễ dàng khắc phục những mặt hạn chế của camera 3D bằng cách xây dựng môi trường và các điều kiện ánh sáng, để máy ảnh có thể hoạt động một cách tối ưu nhất
Dựa vào những ưu - nhược điểm trên, nếu tạo ra môi trường phòng kín đặc biệt, ta có thể thu được ảnh 3D với chất lượng tốt nhất, từ đó thu được đám mây điểm và tính toán các kích thước, thể tích tương đối giống với các số thực tế đo được Khai thác vào ưu điểm vượt trội của camera 3D, khi được đáp ứng điều kiện môi trường, ta có thể biết được chính xác các kích thước của cơ thể người,
từ đó đưa ra những lựa chọn phù hợp với từng người ứng với từng chỉ số đo được Đồ án môn học hệ thống cơ điện tử đã lấy được thông số nội của camera, lấy ảnh độ sâu và vẽ thành đám mây điểm, khử nhiễu và tạo bề mặt lưới từ các điểm ảnh đã qua lọc
Trang 3919
2.4.3 Công nghệ lấy ảnh 3D
Công nghệ 3D được xây dựng dựa theo nguyên lý sự tạo ảnh 3 chiều từ hai mắt, sự chìm hay nổi của một vật phụ thuộc vào cách nhìn người quan sát Chẳng hạn khi nhìn hai hình ảnh của một vật sát cạnh nhau, nếu như mắt trái nhìn vào ảnh bên phải còn mắt phải nhìn vào ảnh bên trái, thì ta sẽ cảm tưởng như vật đó đang nổi ra khỏi khung hình Và ngược lại thì vật đó sẽ "lõm" xuống Nắm được nguyên lý trên, người ta lấy 2 ảnh từ hai góc nhìn khác nhau tương ứng với hoạt động của hai con mắt Những hình ảnh này khi qua bộ xử lý trung tâm, chúng sẽ chập lại tạo thành những hình ảnh không gian ba chiều Từ đó người ta đã phát triển camera 3D với mục đích lấy hình ảnh không gian ba chiều thuận tiện và tôt hơn
Hình 2-9 Ảnh 3D
Máy ảnh 3D hoạt động dựa trên nguyên lí tính toán thời gian đi máy ảnh đến vật thể và quay về máy ảnh của ánh sáng Máy sẽ phát ra tia lazer tương ứng với từng điểm ảnh đến vật thể để tính khoảng cách Sau đó ta sẽ thu được một tệp rất nhiều giá trị sắp xếp thành một mảng với nhiều kích thước như 640x480, 840x480 hoặc 1280x720 , đó là các độ phân giải mà ảnh 3D được lưu trữ
Trang 4020
2.4.4 Mục đích sử dụng ảnh 3D trong đồ án này
Gương là một vật thể có bề mặt phản xạ khá tốt, nghĩa là bề mặt nhẵn đủ để có thể phản xạ lại và tạo thành ảnh Hình thái hết sức sơ khai của chiếc gương có lẽ là mặt
hồ nước yên tĩnh, mặt đá bóng nhoáng hoặc nước trong các thùng chứa Gương cho ảnh 2D, người bình thường khi nhìn vào gương sẽ thấy ảnh có không gian chiều sâu (3D) như khi nhìn vật ở ngoài thực
Với mục tiêu thiết kế chiếc gương tích hợp xử lý ảnh để mô phỏng hình dáng cơ thể một cách chân thực và gần gũi với người dùng, cần sử dụng đến công nghệ hình ảnh 3D kết hợp thuật toán giúp cho việc xử lý trong thời gian thực một cách hiệu quả 2.4.5 Ảnh độ sâu, point-cloud
ra giá trị trực tiếp theo đơn vị vật lý, chẳng hạn như mét