(TIỂU LUẬN) đồ án tốt NGHIỆP phát triển mô hình học máy phát hiện và định vị vật thể ứng dụng trong điều khiển cánh tay robot

Trong đồ án này em sẽ tập trung đi vào xử lý bài toán được ứng dụng trong cách tay robot với mục đích phân loại và định vị vật thể đối với những vật có đường biên phức tạp, khó gắp.. Dẫu

TỔ NG QUAN V Ề ĐỀ TÀI

T ổ ng quan v ề cánh tay robot

Cánh tay robot là một loại cơ cấu cơ học được lập trình để hoạt động tương tự như cánh tay người, giúp nâng cao hiệu quả trong các quy trình sản xuất công nghiệp Các liên kết của cánh tay robot được kết nối bằng các khớp, cho phép chuyển động quay và dịch chuyển tịnh tiến linh hoạt Ưu điểm nổi bật của cánh tay robot là thiết kế linh hoạt, thao tác nhanh nhẹn, chính xác và khả năng hoàn thiện các chi tiết nhỏ nhất của sản phẩm Nó thường được sử dụng trong các quy trình công nghiệp do con người vận hành để nâng cao năng suất và độ chính xác trong sản xuất.

Cánh tay robot đang thực hiện nhiều nhiệm vụ khác nhau trong quy trình sản xuất, thể hiện ứng dụng đa dạng của robot công nghiệp Tùy thuộc vào ngành nghề và loại công việc, chúng ta có thể sử dụng các loại robot phù hợp để nâng cao hiệu quả và năng suất Các ngành công nghiệp như sản xuất, chế biến, và lắp ráp đều có thể tận dụng robot công nghiệp để tối ưu hóa quy trình và giảm thiểu công lao động thủ công việc ứng dụng robot trong hệ thống sản xuất ngày càng mở rộng, mang lại lợi ích về chất lượng, độ chính xác và giảm thiểu rủi ro.

Trong tự động hóa công nghiệp, robot đóng vai trò quan trọng trong việc tham gia trực tiếp vào quá trình sản xuất và lắp ráp các linh kiện, máy móc của sản phẩm Chúng hoạt động một cách trơn tru, đảm bảo độ chính xác cao và không cần sự giám sát của con người, giúp nâng cao hiệu quả và giảm thiểu sai sót trong quá trình sản xuất.

Hình 2 Robot l ắ p ráp th ự c hi ệ n công vi ệ c trong m ộ t dây chuy ề n s ả n xu ấ t t ự độ ng [2]

Trong ngành hóa thực phẩm, robot công nghiệp đóng vai trò chính trong dây chuyền phân loại sản phẩm nhờ ứng dụng công nghệ thị giác máy tính Chúng có khả năng nhận diện chính xác từng loại sản phẩm bằng cách so sánh hình ảnh và đọc mã vạch thông minh, giúp nâng cao hiệu quả và độ chính xác trong quá trình phân loại Bên cạnh đó, robot có thể hoạt động hiệu quả trong các điều kiện môi trường khác nhau như hóa chất hoặc nhiệt độ cao, không bị ảnh hưởng bởi môi trường làm việc nhiệt độ hoặc các yếu tố hóa học.

Trong lĩnh vực lắp ráp và gia công cơ khí, cánh tay robot hỗ trợ con người thực hiện các công việc nguy hiểm như hàn điện, hàn hồ quang, lắp đặt linh kiện, gia công, mài… giúp đảm bảo an toàn tối đa cho người lao động Robot công nghiệp không mệt mỏi hay mất tập trung, từ đó duy trì hiệu quả công việc vượt trội Sử dụng cobot còn giúp doanh nghiệp tối ưu chi phí nhân công, đồng thời duy trì quy trình sản xuất trơn tru và hiệu quả cao.

Ứ ng d ụ ng c ủ a th ị giác máy trong h ệ robot

Công nghệ thị giác máy tính là kỹ thuật tự động hóa các công việc của hệ thống thị giác con người, bao gồm thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhận dạng hình ảnh từ thế giới thực Thị giác máy tính giúp chuyển đổi dữ liệu đa chiều thành các thông tin số hoặc biểu tượng, hỗ trợ đưa ra các quyết định chính xác Các ứng dụng phổ biến của thị giác máy hiện nay bao gồm trong ngành an ninh, y tế, công nghiệp, tự động hóa và xe tự lái.

Trong những năm gần đây, nhờ vào sự phát triển của khả năng tính toán trên các thiết bị phần cứng, ngành thị giác máy đã trở nên phổ biến và được ứng dụng rộng rãi trong các ngành sản xuất tự động cũng như các thiết bị thông minh Sự tăng trưởng về dữ liệu và sự tiến bộ của trí tuệ nhân tạo đã thúc đẩy sự phát triển của thị giác máy, mang lại độ chính xác cao hơn rất nhiều so với các phương pháp tự động khác.

Trước đây, các phương pháp xử lý ảnh truyền thống đã được ứng dụng trong các hệ Robot và mang lại kết quả tích cực Tuy nhiên, nhờ vào sự phát triển vượt bậc của trí tuệ nhân tạo trong những năm gần đây, thị giác máy đang trở thành xu hướng hàng đầu trong các hệ Robot và ngành công nghiệp sản xuất tự động Các ứng dụng phổ biến của thị giác máy khi tích hợp vào Robot bao gồm nhận diện đối tượng, kiểm tra chất lượng, lập bản đồ môi trường và điều khiển tự động, góp phần nâng cao hiệu suất và độ chính xác trong quá trình sản xuất.

❖ Phát hiện đối tượng nhanh và chính xác

❖ Đo lường kích thước vật thể

❖ Phát hiện lỗ hổng, khuyết tật sản phẩm

Hình 3 Robot định vị và lắp ráp phôi trên băng tải tự động [3]

Bài toán phát hi ệ n và phân lo ạ i s ả n ph ẩ m

Trong các nhà máy và xưởng sản xuất, hệ thống tự động hóa với cánh tay robot thường được sử dụng để phân loại sản phẩm một cách hiệu quả Hệ thống phân loại sản phẩm là giải pháp công nghiệp thay thế con người trong quá trình phân loại dựa trên các đặc tính do người sử dụng quy định, giúp nâng cao năng suất và chính xác Bài toán phân loại sản phẩm thường nhằm đạt hai mục đích chính: tối ưu hóa quy trình sản xuất và đảm bảo chất lượng sản phẩm.

❖ Phân loại 2 hay nhiều loại sản phẩm khác nhau

❖ Phân loại sản phẩm lỗi, khuyết tật với sản phẩm thường

Hình 4 H ệ th ố ng phân lo ạ i rác th ả i tái ch ế (bên trái) [4] và h ệ th ố ng phát hi ệ n s ả n ph ẩ m l ỗ i (bên ph ả i) [5]

Việc phân loại sản phẩm thường dựa vào các thông tin như mã vạch, màu sắc và hình dạng đường bao Các phương pháp phân loại truyền thống hoạt động tốt trên các loại sản phẩm có đặc điểm riêng biệt về hình dáng, kích thước hoặc màu sắc, nhưng lại thiếu chính xác khi các sản phẩm có đặc điểm tương tự Trong những năm gần đây, trí tuệ nhân tạo, đặc biệt là mạng học sâu, đã trở thành xu hướng phổ biến trong hệ thống robot phân loại nhờ khả năng đạt độ chính xác cao và khả năng tổng quát hóa tốt các bài toán phân loại Việc ứng dụng trí tuệ nhân tạo giúp giảm thiểu chi phí thiết kế hệ thống phân loại, đặc biệt cho các sản phẩm đặc thù riêng biệt.

Bài toán l ắp ráp và đóng gói sả n ph ẩ m

Ứng dụng phổ biến của cánh tay robot trong tự động hóa công nghiệp là thực hiện các công việc lắp ráp và đóng gói sản phẩm, giúp nâng cao hiệu suất và giảm thiểu sai sót Robot thường gắp và đặt sản phẩm vào khay, bao, túi hoặc thùng carton, cũng như đưa các phôi gia công vào khuôn mẫu để gia công chính xác Để thực hiện các thao tác này đúng tiêu chuẩn, robot cần có khả năng định vị chính xác vật thể, đảm bảo quá trình lắp ráp và đóng gói diễn ra thuận lợi và hiệu quả.

Các phương pháp định vị vật thể phổ biến được áp dụng hiện nay có thể kểđến như:

• Định vị vật thể có sẵn trong 1 khung cốđịnh:

Hình 5 trình bày về phương pháp định vị vật thể có sẵn trong một khuôn mẫu (template) có sẵn Phương pháp này mang lại ưu điểm nổi bật là độ chính xác cao trong việc xác định vị trí của vật thể Đặc biệt, chỉ cần sử dụng các phương pháp xử lý ảnh hoặc quét laser thông thường để nhận diện và xác định vị trí của vật thể trong khuôn mẫu.

Hệ robot có nhược điểm là chỉ có thể gắp những vật theo chiều đã định sẵn trong vùng làm việc, do đó không thể xử lý các vật bị xoay, nghiêng hoặc đặt sai vị trí, gây ra sai số trong quá trình thao tác Các bài toán này đòi hỏi phải thiết kế hệ thống riêng phù hợp với từng loại vật thể để đảm bảo hiệu quả và chính xác cao hơn.

Định vị vật thể bằng các phương pháp 3D sử dụng mô hình học máy dựa trên dữ liệu ảnh và độ sâu giúp xác định chính xác vị trí và hướng gắp Các kỹ thuật này cho phép dự đoán hướng gắp tối ưu, nâng cao hiệu quả trong các ứng dụng tự động hóa và robotics Áp dụng mô hình học máy trong định vị 3D cải thiện khả năng xác định vật thể trong môi trường phức tạp, từ đó tối ưu hóa quá trình thao tác và xử lý vật liệu.

Hình 6 mô tả phương pháp định vị vật thể bằng cách xác định hướng gắp và các điểm cần gắp trong không gian 3 chiều [33] Phương pháp này có ưu điểm vượt trội là có thể gắp được tất cả các loại vật thể với các hình dạng đường biên khác nhau trong không gian Ngoài ra, nó cũng cho phép thực hiện gắp với đa dạng các hướng gắp khác nhau, nâng cao tính linh hoạt và hiệu quả trong quá trình thao tác.

Nhược điểm của hệ thống sử dụng dữ liệu không gian 3 chiều là phức tạp do phải xử lý ảnh 3D và thông tin chiều sâu từ các cảm biến như camera độ sâu hoặc laser Điều này làm cho hệ thống trở nên khó khăn hơn trong quá trình thu thập, xử lý và phân tích dữ liệu, đòi hỏi phần cứng và phần mềm chuyên dụng để đảm bảo hiệu quả hoạt động.

Bùi Việt Hoàng nhận định rằng việc thu thập và xử lý dữ liệu tạp hơn gây khó khăn trong đảm bảo độ chính xác, bởi phụ thuộc vào cảm biến độ sâu Dữ liệu 3D chứa nhiều thông tin hơn, tuy nhiên, việc đào tạo mô hình xử lý dữ liệu này tốn chi phí cao và chưa chắc đáp ứng được yêu cầu xử lý trong thời gian thực.

Định vị vật thể bằng các phương pháp sử dụng ảnh 2D là kỹ thuật xác định vị trí chính xác của vật thể trong hình ảnh Vị trí gắp của vật chính được xác định là tâm của vật thể đã được phát hiện trong ảnh, giúp đảm bảo quá trình xử lý chính xác hơn Phương pháp này thường sử dụng kỹ thuật cắt hình chữ nhật (bounding box) để bao quanh vật thể, từ đó xác định rõ ràng vị trí và kích thước của đối tượng trong ảnh 2D.

Hình 7 trình bày phương pháp định vị vật thể bằng các kỹ thuật học máy sử dụng ảnh 2D [33] Ưu điểm chính của phương pháp này là khả năng phát hiện vật nhanh chóng và chính xác, phù hợp cho các ứng dụng yêu cầu xử lý trong thời gian thực Đồng thời, phương pháp này còn thích hợp với điều kiện sản xuất trong thực tế, giúp nâng cao hiệu quả và độ tin cậy trong quá trình nhận dạng và định vị vật thể.

Nhược điểm của phương pháp này là chỉ phù hợp với các vật có hình dạng đơn giản và đối xứng Đối với các vật thể phức tạp yêu cầu lắp ghép theo nhiều chiều khác nhau, dễ dẫn đến sai sót do khó khăn trong việc xử lý chính xác Ngoài ra, các bài toán chỉ sử dụng thông tin hai chiều hạn chế về tính đa dạng trong hướng gắp, làm giảm hiệu quả trong các ứng dụng phức tạp.

Robot lắp ráp và đóng gói sản phẩm thường được ứng dụng trong các ngành hóa mỹ phẩm, thực phẩm, chế tạo máy, ô tô nhằm nâng cao hiệu quả và giảm thiểu nhân công Để thực hiện nhiệm vụ này, hệ robot cần có khả năng định vị chính xác vị trí của sản phẩm, nhưng hiện nay chủ yếu phù hợp với các sản phẩm đã có vị trí cố định hoặc có hình dạng đối xứng, dễ định vị Các sản phẩm có hình dáng phức tạp, không đối xứng và bề mặt không phẳng đặt ra thách thức lớn cho việc thiết kế hệ thống định vị, gây tăng chi phí và độ phức tạp của hệ thống Trong nhiều nhà máy, quá trình đóng gói và lắp ráp vẫn còn phụ thuộc lớn vào nhân công và chưa thể tự động hóa hoàn toàn, hạn chế tối đa khả năng tối ưu hóa quy trình sản xuất.

Hình 8 Robot th ự c hi ệ n công vi ệ c l ắ p ráp trong dây chuy ề n s ả n xu ấ t t ự độ ng [6]

Hình 9 Dây chuyền đóng gói bánh kẹo chưa được tự động hóa hoàn toàn [7]

T ổ ng k ế t

Để nâng cao năng suất dây chuyền công nghệ, giảm giá thành sản phẩm và cải thiện chất lượng, việc ứng dụng tự động hóa linh hoạt thay thế các dây chuyền cố định ngày càng trở nên phổ biến Xu hướng sử dụng robot để thay thế con người trong sản xuất và lắp ráp là điều tất yếu, giúp tăng hiệu quả và giảm nhân công Mặc dù các hệ robot tự động đang được tích hợp rộng rãi, vẫn cần sự hỗ trợ của con người do các hệ thống này có đặc thù riêng, không mang tính ứng dụng chung.

Trong những năm gần đây, trí tuệ nhân tạo đã phát triển mạnh mẽ, mang lại nhiều ứng dụng và giải pháp sáng tạo trong nhiều ngành nghề khác nhau Mặc dù đã có sự tổng quát hóa cao trong các lĩnh vực, nhưng ứng dụng của AI trong robot và sản xuất tự động vẫn còn tiềm năng lớn chưa được khai thác hết Đây là một lĩnh vực đầy triển vọng, hứa hẹn mang lại bước đột phá trong tương lai gần.

Dựa trên các nhu cầu thực tế đã khảo sát, đề tài này tập trung ứng dụng trí tuệ nhân tạo trong robot để giải quyết bài toán phân loại và định vị vật thể Phương pháp chính được sử dụng là định vị các điểm quan trọng (keypoint) của vật, nhằm nâng cao độ chính xác trong nhận dạng và xác định vị trí của các vật thể trong môi trường Ứng dụng này góp phần cải thiện khả năng vận hành tự động của robot, phù hợp với các yêu cầu thực tế đã khảo sát.

Mục tiêu sau khi thực hiện đề tài:

• Xây dựng mô hình trí tuệ nhân tạo có thể phân loại và định vị vật thể

• Giải quyết vấn đề về việc gắp các vật thểcó hình dáng đường biên phức tạp, không đối xứng, khó gắp

• Xây dựng hệ thống robot có khảnăng phân loại, đóng gói, lắp ráp

CƠ SỞ LÝ THUY Ế T

H ọ c máy, h ọ c sâu

Trong những năm gần đây, trí tuệ nhân tạo (AI) đã trở nên phổ biến và ứng dụng rộng rãi trong nhiều lĩnh vực của cuộc sống AI là công nghệ sử dụng kỹ thuật số có khả năng thực hiện các nhiệm vụ thường cần đến trí thông minh của con người Đặc trưng nổi bật của AI là khả năng “tự học”, cho phép máy tính tự phán đoán và phân tích dữ liệu mới mà không cần sự trợ giúp của con người Công nghệ AI còn có khả năng xử lý lượng dữ liệu khổng lồ với tốc độ nhanh, góp phần thúc đẩy sự phát triển của các ngành công nghiệp và cải thiện hiệu quả công việc.

Trí tuệ nhân tạo có nhiều hướng nghiên cứu, trong đó học máy (Machine learning - ML) là một trong những hướng phổ biến nhất giúp máy móc dựa trên kiến thức môi trường để rút ra nguyên lý phục vụ quá trình ra quyết định Phương pháp ML đa dạng và phổ biến nhất trong lĩnh vực thị giác máy tính là học sâu (Deep learning - DL), mang lại hiệu quả cao trong nhận diện và xử lý hình ảnh.

Hình 10 Các khái ni ệm cơ bả n trong trí tu ệ nhân t ạ o [8]

Học máy là thành phần quan trọng của trí tuệ nhân tạo, giúp máy móc "học" từ dữ liệu môi trường và thực hiện các hành động phù hợp Để đạt được mục tiêu này, các nhà khoa học đã phát triển nhiều giải thuật khác nhau, chia thành ba nhóm chính Các thuật toán học máy bao gồm các phương pháp giúp máy học và cải thiện hiệu suất dựa trên dữ liệu đầu vào Nhóm giải thuật này đóng vai trò then chốt trong việc ứng dụng trí tuệ nhân tạo vào thực tế, từ đó tối ưu hóa các hoạt động và quyết định của máy móc.

❖ Học có giám sát - Supervised-learning

❖ Học không giám sát - Unsupervised-learning

❖ Học tăng cường - Reinforcement learning

Học sâu là phương pháp học máy dựa trên mô phỏng hoạt động của bộ não con người trong việc xử lý dữ liệu Phương pháp này giúp xây dựng các mô hình ra quyết định chính xác và hiệu quả hơn Học sâu ngày càng được ứng dụng rộng rãi trong các lĩnh vực công nghệ, nhằm cải thiện khả năng phân tích dữ liệu phức tạp.

Nhờ sự bùng nổ của dữ liệu lớn (Big Data), các tập đoàn lớn và mạng xã hội đã tạo ra kho dữ liệu khổng lồ phục vụ cho các ứng dụng trí tuệ nhân tạo Đồng thời, sự phát triển mạnh mẽ của phần cứng như GPU, FPGA với hiệu năng tính toán cao đã thúc đẩy sự tiến bộ đáng kể trong lĩnh vực học sâu (Deep Learning) Những yếu tố này đã trở thành những bước đột phá công nghệ trí tuệ nhân tạo trong thập kỷ qua, mở ra nhiều cơ hội mới cho các ứng dụng công nghệ tiên tiến.

Học sâu là một công nghệ tiên tiến có nhiều ứng dụng phổ biến như nhận diện hình ảnh, trợ lý ảo và chatbot, góp phần tối ưu hóa các hoạt động trong cuộc sống hàng ngày Mạng nơ-ron sâu có khả năng xử lý hiệu quả dữ liệu hình ảnh, âm thanh và văn bản, đồng thời dễ dàng cập nhật mô hình với dữ liệu mới để duy trì độ chính xác Các kiến trúc của mô hình học sâu, gồm số lượng và cấu trúc từng tầng, được điều chỉnh phù hợp với nhiều bài toán khác nhau, mang lại kết quả chính xác cao Đây là phương pháp mới nhất trong các lĩnh vực như thị giác máy tính và xử lý ngôn ngữ tự nhiên, giúp các hệ thống thông minh hoạt động hiệu quả hơn.

Học sâu có nhược điểm lớn nhất là yêu cầu một lượng dữ liệu rất lớn để đào tạo, làm tăng chi phí và thời gian thực hiện Chi phí đào tạo mạng neural cao do việc thu thập và xử lý lượng dữ liệu lớn cũng là một thách thức đáng kể Ngoài ra, quá trình đào tạo mạng neural gặp khó khăn, dễ gây ra hiện tượng suy giảm hiệu quả của mạng, đòi hỏi thời gian và công sức cải thiện đáng kể.

2.1.1 Các khái niệm cơ bản

Các bài toán trong học sâu nói chung có thể chia thành 2 lớp bài toán chính: Phân loại (Classification) và Hồi quy (Regression)

❖ Bài toán Hồi quy (Regression):

Bài toán hồi quy (Regression) nhằm xây dựng mô hình có khả năng dự đoán kết quả dựa trên các đầu vào cho trước Trong đó, hồi quy tuyến tính (Linear Regression) là thuật toán phân tích mối quan hệ giữa biến phụ thuộc Y và một hoặc nhiều biến độc lập X, giúp dự đoán chính xác dựa trên các yếu tố đầu vào Mô hình hồi quy tuyến tính có dạng cụ thể để mô tả mối quan hệ này, hỗ trợ tối ưu hóa dự đoán và đưa ra các quyết định chính xác trong phân tích dữ liệu.

Mục tiêu của bài toán là tìm tập các trọng số W phù hợp thông qua quá trình huấn luyện, giúp mô hình F(x) = W.X dự đoán giá trị gần nhất với kết quả thực tế Y Quá trình này đảm bảo mô hình học máy có khả năng phân tích và dự đoán chính xác dựa trên dữ liệu đầu vào X Việc tối ưu các trọng số W sẽ nâng cao hiệu quả của mô hình trong các ứng dụng thực tế, đáp ứng yêu cầu về độ chính xác và tin cậy.

Dự đoán giá căn nhà dựa trên các đặc điểm như diện tích x1 m², số phòng ngủ x2 và khoảng cách đến trung tâm thành phố x3 km là một bài toán hồi quy Với tập dữ liệu gồm 100 căn nhà cùng thông tin về các đặc điểm này, cần xác định tập trọng số w=[w1,w2,w3] để xây dựng mô hình dự đoán chính xác Mô hình dự đoán giá nhà có dạng tuyến tính: Giá = w1 * x1 + w2 * x2 + w3 * x3 + giúp định lượng tác động của từng yếu tố đến giá trị căn nhà Việc tối ưu hóa các trọng số này đảm bảo mô hình có khả năng dự đoán chính xác giá nhà trong thực tế.

𝑦 = 𝑤 1 𝑥 1 + 𝑤 2 𝑥 2 + 𝑤 3 𝑥 3 Trên thực tế, bài toán hồi quy thường được sử dụng để dựđoán tọa độcác điểm trên một bức ảnh, dự đoán vị trí của vật thể trong ảnh,…

❖ Bài toán Phân loại (Classification):

Bài toán phân loại giúp tạo ra mô hình có khả năng phân các đầu vào thành các lớp riêng biệt dựa trên đặc điểm chung Thường sử dụng mạng neural nhiều lớp, gọi là Multi-Layer Perceptron, để mô phỏng hoạt động của bộ não con người trong việc phân loại dữ liệu Mục tiêu của bài toán phân loại là tìm tập trọng số w = [w1, w2, , wn] sau quá trình huấn luyện để xây dựng mô hình chính xác Đảm bảo các yếu tố này tối ưu hóa hiệu suất phân loại và đáp ứng các yêu cầu cụ thể của bài toán.

Trong mô hình học máy, hàm 𝑦 = 𝑓(𝑥) = 𝜎(𝑤 ᴛ 𝑥) được sử dụng để phân loại dữ liệu Nhãn y đại diện cho tên gọi của các lớp (class) đã được phân dựa trên đầu vào x Hàm kích hoạt phi tuyến 𝜎(𝑤 ᴛ 𝑥) giúp mục đích phân loại đầu vào x vào một nhãn y cụ thể một cách chính xác hơn.

Ví dụ về bài toán phân loại hình ảnh là sử dụng hai tập dữ liệu gồm ảnh chó và ảnh mèo để huấn luyện mô hình xác định chính xác loại hình ảnh Mô hình sau quá trình huấn luyện sẽ có khả năng phân lớp đúng các dữ liệu mới, giúp phân biệt giữa ảnh chó và mèo một cách chính xác Đây là ví dụ điển hình về ứng dụng của học máy trong thị giác máy tính và phân tích hình ảnh, đồng thời phù hợp với các chiến lược tối ưu hóa SEO liên quan đến trí tuệ nhân tạo và nhận diện hình ảnh.

- Một số khái niệm cần chú ý:

Hàm mất mát (Loss Function) thể hiện độ lệch giữa giá trị dự đoán 𝑦̂ và giá trị thực y, giúp đo lường độ chính xác của mô hình Mục tiêu của các thuật toán học máy và học sâu là tối thiểu hóa giá trị của hàm mất mát sau quá trình huấn luyện, nhằm điều chỉnh các trọng số w = [w1, w2, , wn] của mô hình để dự đoán ngày càng chính xác hơn Quá trình huấn luyện nhằm tối ưu các trọng số này, giúp giảm thiểu sai lệch e giữa giá trị dự đoán và thực tế.

Gọi L(w) là hàm mất mát của mô hình, để sai sốđạt nhỏ nhất, ta cần tìm:

Huấn luyện mô hình học sâu bắt đầu bằng việc khởi tạo ngẫu nhiên bộ tham số w0=[w10,w20,…,w n0], sau đó dự đoán trên tập dữ liệu huấn luyện và tính toán hàm mất mát Quá trình cập nhật bộ tham số w sau mỗi vòng lặp nhằm giảm thiểu hàm mất mát bằng các phương pháp tối ưu Quá trình này được lặp lại qua nhiều vòng (epoch) đến khi hàm mất mát 𝐿(𝒘𝒎) đạt mức nhỏ nhất, đạt điểm tối ưu và mô hình được coi là đã được huấn luyện thành công.

Tối ưu hàm mất mát:

Bài toán phát hi ệ n v ậ t th ể (object detection)

Phát hiện vật thể hay nhận dạng đối tượng (Object detection) là nhiệm vụ thị giác máy tính liên quan đến việc xác định vị trí và nhận diện các đối tượng trong ảnh kỹ thuật số Công nghệ này được ứng dụng rộng rãi trong các lĩnh vực như phát hiện khuôn mặt, nhận diện xe cộ, đếm người đi bộ, hệ thống bảo mật và xe tự lái Có nhiều phương pháp nhận diện đối tượng khác nhau phù hợp với nhiều ứng dụng thực tế đa dạng.

Về phần tiếp cận mô hình, thuật toán nhận dạng đối tượng có thểđược phân loại thành 2 dạng chính: One-stage và Two-stage Method

Phương pháp nhận dạng đối tượng chia làm hai giai đoạn chính: giai đoạn đầu tiên là phát hiện các vật thể trong ảnh, còn giai đoạn thứ hai là phân loại các vật thể đã được xác định Các mô hình phổ biến của phương pháp hai giai đoạn bao gồm RCNN, Fast RCNN và Faster RCNN, đều mang lại hiệu quả cao trong nhiệm vụ nhận dạng hình ảnh.

Hình 21 Hình ảnh mô tả mô hình RCNN, một mô hình đại diện cho phương pháp Two-stage

Hình 21 trình bày luồng xử lý của mô hình RCNN, gồm các bước chính của phương pháp hai giai đoạn (two-stage) Trong giai đoạn đầu, R-CNN sử dụng thuật toán selective search để trích xuất khoảng 2000 vùng đề xuất, những vùng có khả năng chứa vật thể Sau đó, các vùng đề xuất này được đưa qua mô hình CNN để phân loại thành các lớp khác nhau, giúp xác định chính xác vật thể trong ảnh Các cải tiến của Fast R-CNN và Faster R-CNN trong phương pháp đề xuất vùng giúp tăng tốc độ và độ chính xác của quá trình phát hiện, nhưng về cơ bản, phương pháp two-stage vẫn thực hiện phát hiện và phân loại vật thể ở hai bước riêng biệt Điều này dẫn đến độ chính xác cao nhưng tốc độ xử lý vẫn còn chậm so với các phương pháp một giai đoạn (single-stage).

Phương pháp này khác biệt so với phương pháp hai giai đoạn, không phân chia rõ ràng các bước, mà đồng thời thực hiện cả việc phát hiện vật thể (tìm bounding box) và phân loại vật thể (classification) Điều này giúp tiết kiệm thời gian và nâng cao hiệu quả trong các hệ thống nhận diện hình ảnh và Object Detection.

Hình 22 Phương pháp One-stage tìm kiếm và phát hiện vật thể cũng như phân loại chúng chỉ trong một thuật toán [19]

Các mô hình phổ biến của phương pháp One-stage như YOLO và SSD nổi bật với ưu điểm tốc độ xử lý nhanh, khả năng chạy trong thời gian thực (real-time) Tuy nhiên, so với các phương pháp hai bước (two-stage), độ chính xác của các mô hình One-stage thường thấp hơn, phản ánh sự cân bằng giữa tốc độ và độ chính xác trong các ứng dụng phát hiện đối tượng.

Trong các phương pháp đánh giá bài toán nhận dạng vật thể, độ chính xác trung bình và chỉ số AP (Average Precision) là những phương pháp phổ biến nhất Chỉ số AP giúp đo lường hiệu quả của mô hình nhận dạng vật thể dựa trên khả năng dự đoán chính xác và độ bao phủ của các đối tượng trong ảnh Việc sử dụng các chỉ số này giúp các nhà nghiên cứu và kỹ sư đánh giá chính xác hơn về hiệu suất của hệ thống nhận dạng vật thể, từ đó tối ưu hóa các mô hình và cải thiện kết quả.

Precision thể hiện độ tin cậy của mô hình dự đoán, đo lường tỷ lệ phần trăm các điểm dự đoán đúng trong số những điểm được phân loại là positive Đây là chỉ số cho biết độ chính xác của mô hình, với Precision cao nghĩa là phần lớn các điểm được xác định là positive đều chính xác Trong đó, Precision cao đồng nghĩa với việc mô hình có khả năng phân loại chính xác các điểm positive, giúp nâng cao độ tin cậy của dự đoán.

Recall đo độ nhạy của mô hình, thể hiện tỷ lệ điểm true positive trong tổng số điểm thực sự là positive Khi Recall càng cao, khả năng bỏ sót các điểm positive sẽ càng thấp, giúp mô hình bắt được nhiều trường hợp positive hơn Đây là chỉ số quan trọng trong việc đánh giá khả năng nhận diện đúng các điểm positive của mô hình.

Một mô hình phân loại tốt phải là một mô hình có cảPrecision và Recall đều cao

Có hai cách đo chất lượng của bộ phân loại dựa vào Precision và Recall: Precision-Recall curve và F-score

IoU là chỉ số đo lường mức độ giao nhau giữa hai vùng được nhận diện, giúp xác định phần nào của vùng dự đoán phù hợp với ground truth thực tế Trong các bộ dữ liệu, chúng ta thường đặt một ngưỡng IoU nhất định để phân loại dự đoán là true positive hay false positive, đảm bảo độ chính xác của hệ thống nhận diện.

Precision Recall Curve & Average Precision

Trong quá trình đánh giá mô hình nhận diện, ta so sánh kết quả dự đoán với đáp án thực tế (ground truth) Các kết quả dự đoán có chỉ số IoU lớn hơn ngưỡng xác định từ 0 đến 1 được xem là True Positive, trong khi những kết quả còn lại là False Positive Việc này giúp xây dựng các đường cong Precision-Recall (PR Curve), mô tả mối quan hệ giữa độ chính xác và độ nhạy của mô hình tại các ngưỡng khác nhau, từ đó đánh giá hiệu quả của mô hình một cách toàn diện.

Hình 24 Precision Recall Curve – đườ ng bi ể u di ễ n m ố i quan h ệ gi ữ a Precision và Recall [20]

Giá trị AP (Average Precision) thể hiện diện tích dưới đường Precision-Recall Curve, phản ánh hiệu suất của mô hình Một giá trị AP cao cho thấy mô hình đạt được độ chính xác (Precision) và khả năng phát hiện (Recall) cao, chứng tỏ khả năng học tốt của mô hình Ngược lại, giá trị AP thấp cho thấy mô hình còn nhiều hạn chế trong việc giữ độ chính xác và khả năng phát hiện các đối tượng.

SVTH: Bùi Việt Hoàng 22 mAP (mean Average Precision)

Trong các bài toán phân loại, mỗi lớp thường có một giá trị AP riêng biệt, phản ánh độ chính xác của mô hình đối với lớp đó M Kingdom AP là cách đo lường hiệu quả của mô hình cho từng lớp cụ thể, trong khi mAP (mean Average Precision) được tính bằng trung bình cộng các giá trị AP của tất cả các lớp Việc sử dụng mAP giúp đánh giá tổng thể hiệu suất của mô hình phân loại một cách chính xác và toàn diện.

Bài toán đị nh v ị điể m (keypoint detection)

Bài toán định vị điểm (Keypoint/Landmark detection) là tập hợp các nhiệm vụ thị giác máy tính nhằm dự đoán vị trí hoặc tọa độ của một vật thể trong ảnh Trong thực tế, định vị điểm thường được ứng dụng trong nhận diện khuôn mặt (Face Recognition), nơi nó giúp trích xuất các điểm neo trên khuôn mặt (Facial Landmark Detection) để nâng cao độ chính xác của hệ thống nhận diện.

Hình 25 Mô hình định vị các điểm neo của khuôn mặt [21]

Point localization is essential for pose estimation, which is crucial for a variety of applications including human-machine interaction, action recognition, augmented reality, animation and gaming, and robotics This technology enables accurate detection of human positions and movements, facilitating more immersive and responsive interactive experiences Pose estimation enhances the efficiency and effectiveness of these applications, driving innovation across multiple industries.

Hình 26 Ước tính tư thế (Pose Estimation) hỗ trợ cho việc tập thể thao [22]

Trong bài toán định vị điểm, thuật toán hồi quy được sử dụng chủ yếu để dự đoán các điểm trên ảnh một cách chính xác Hiện nay, các phương pháp mới đã được phát triển nhằm nâng cao độ chính xác của kết quả dự đoán, trong đó sử dụng bản đồ nhiệt (Heatmap) để xác định vùng có khả năng chứa điểm cần đoán Áp dụng công nghệ bản đồ nhiệt giúp tăng độ chính xác trong quá trình định vị và cải thiện hiệu quả của các thuật toán dự đoán điểm trên ảnh.

Hình 27 Phương pháp sử d ụ ng b ản đồ nhi ệt giúp tăng độ chính xác cho d ự đoán điể m [23]

Các phương pháp đánh giá bài toán định vị điểm:

PCK (Percentage of Correct Keypoints)

Trong bài toán định vị điểm, điểm dự đoán được xem là chính xác nếu khoảng cách giữa điểm dự đoán và kết quả thực tế nhỏ hơn một ngưỡng cho phép do người huấn luyện mô hình đặt ra Ngược lại, điểm đó được coi là dự đoán sai Chỉ số PCK thể hiện tỷ lệ các điểm dự đoán đúng, được tính dựa trên tỷ lệ phần trăm số điểm dự đoán nằm trong ngưỡng cho phép so với tổng số điểm kiểm tra.

∑ 𝑎𝑙𝑙 𝑘𝑒𝑦𝑝𝑜𝑖𝑛𝑡𝑠 PCK biểu diễn cho sốđiểm dựđoán đúng trên tổng sốđiểm được dựđoán

Sai sốbình phương trung bình (mean Square Error - MSE)

MSE, hay còn gọi là giá trị sai số bình phương trung bình, là đo lường mức độ lỗi của một mô hình dự đoán Việc xác định chính xác phần lỗi do mô hình gây ra và phần lỗi do yếu tố ngẫu nhiên là rất khó khăn MSE thể hiện trung bình của các chênh lệch bình phương giữa các giá trị dự đoán và các giá trị quan sát thực tế, giúp đánh giá độ chính xác của mô hình dự đoán một cách khách quan.

Trong đó: 𝑦̃ 𝑖 là vịtrí điểm của vật thể trên thực tế

𝑦 𝑖 là vịtrí điểm của mô hình dựđoán

Các m ạng xương số ng ph ổ bi ế n trong mô hình h ọ c sâu

Trong quá trình phát triển, các kiến trúc mạng phổ biến thường được sử dụng làm mô hình tiền huấn luyện (pre-train model) để trích xuất đặc trưng cho các bài toán thị giác máy Các mô hình pre-train này thường được thiết kế thêm các lớp phía sau để tạo thành mạng học sâu hoàn chỉnh phù hợp với bài toán cụ thể, như phân loại hoặc hồi quy Các mạng pre-train còn gọi là mạng xương sống (backbone network hoặc base network), là các kiến trúc sẵn có mà người thiết kế lựa chọn phù hợp với nhiệm vụ cần thực hiện, sau đó bổ sung các lớp để đáp ứng yêu cầu của dự án.

Hình 28 Kiến trúc chung của một mô hình học sâu gồm 2 phần: backbone network và các additional layers [24]

Một số mạng backbone phổ biến được sử dụng hiện nay:

ResNet (Residual Network) được giới thiệu vào năm 2015 và nhanh chóng nổi bật khi đạt vị trí dẫn đầu tại cuộc thi ILSVRC 2015 với tỷ lệ lỗi top 5 chỉ 3.57% Không chỉ dừng lại ở đó, ResNet còn đứng đầu các cuộc thi uy tín khác như ILSVRC và COCO 2015, với thành tích xuất sắc trong các lĩnh vực như ImageNet Detection, ImageNet Localization, COCO Detection và COCO Segmentation Hiện nay, đã có nhiều biến thể của kiến trúc ResNet với các số lớp đa dạng như ResNet-18, ResNet-34, ResNet-50, ResNet-101, giúp tăng cường khả năng và ứng dụng trong các bài toán thị giác máy tính.

34, ResNet-50, ResNet-101, ResNet-152, Với tên là ResNet theo sau là một số chỉ kiến trúc ResNet với số lớp nhất định

Mạng ResNet (R) là một mạng CNN được thiết kế để vận hành với hàng trăm hoặc hàng nghìn lớp chập Tuy nhiên, khi xây dựng mạng CNN có nhiều lớp chập, hiện tượng Vanishing Gradient thường xảy ra, gây cản trở quá trình học tập của mạng Để khắc phục vấn đề này, ResNet sử dụng kiến trúc residual giúp duy trì tín hiệu truyền qua các lớp sâu, nâng cao hiệu quả huấn luyện và độ chính xác của mô hình.

Vanishing Gradient là vấn đề phổ biến trong quá trình huấn luyện mạng nơ-ron nhiều lớp, khiến giá trị đạo hàm trở nên rất nhỏ tại các lớp đầu tiên Điều này làm giảm hiệu quả của quá trình cập nhật trọng số, gây cản trở việc huấn luyện mạng neural sâu Khi giá trị đạo hàm trở nên vô cùng nhỏ, thông tin phản hồi trong quá trình lan truyền ngược bị mất mát, ảnh hưởng tiêu cực đến hiệu suất học của mạng.

ResNet đề xuất giải pháp sử dụng kết nối "tắt" đồng nhất để truyền qua một hoặc nhiều lớp, giúp giảm thiểu vấn đề mất mút thông tin trong mạng sâu Mỗi khối này được gọi là Residual Block, cho phép mô hình học các hàm residual để cải thiện độ chính xác Các Residual Block trong ResNet giúp tăng khả năng học của mạng sâu một cách hiệu quả, như minh họa trong hình 29 Công nghệ này đã trở thành một bước đột phá trong lĩnh vực thị giác máy tính và nhận dạng hình ảnh, nâng cao hiệu suất của các mô hình deep learning.

Hình 29 Ki ế n trúc c ủ a 1 kh ố i Residual Block trong m ạ ng Resnet [25]

Kiến trúc của mạng resnet được biểu diễn ở hình 30 sau:

Hình 30 Ki ến trúc đầy đủ c ủ a Resnet [24]

Trong đó: Khối CONV BLOCK có dạng:

Hình 31.Ki ế n trúc kh ố i Conv block [24]

Khối ID BLOCK có dạng:

Hình 32 Kiến trúc khối Identity block [24]

MobileNet do đội ngũ Google phát triển, sử dụng kỹ thuật tích chập đặc biệt mang tên DSC (Depthwise Separable Convolution) nhằm giảm kích thước mô hình và độ phức tạp tính toán Chính nhờ vậy, MobileNet thường phù hợp cho các ứng dụng thị giác máy trên thiết bị nhỏ gọn như điện thoại thông minh và thiết bị nhúng Để hiểu rõ về DSC, cần nắm rõ cách hoạt động của tích chập 2 chiều thông thường, vốn tính toán trên toàn bộ chiều sâu (channel) của hình ảnh hoặc dữ liệu.

Do đó số lượng tham số của mô hình sẽgia tăng đáng kể phụ thuộc vào độ sâu của layer trước đó.

Hình 33 minh họa cách tính số lượng tham số trong tích chập 2 chiều thông thường Với đầu vào có kích thước chiều cao × chiều rộng × số kênh (channels), tích chập thông thường cần k×k×c tham số để xử lý toàn bộ chiều sâu của lớp Mỗi bộ lọc tạo ra một ma trận output kích thước chiều cao′ × chiều rộng′ × 1 Khi áp dụng c′ bộ lọc khác nhau, đầu ra sẽ có kích thước chiều cao′ × chiều rộng′ × c′, trong đó các ma trận output được ghép nối theo chiều sâu Tổng số tham số cần để thực hiện tích chập thông thường là c′ × k×k × c Trong khi đó, phương pháp tích chập sâu (Depthwise Separable Convolution - DSC) kết hợp tích chập chiều sâu và tích chập điểm, giúp giảm đáng kể số lượng tham số cần thiết.

Hình 34 Cách tính tích chập của phương pháp tích chập chiều sâu (Depthwise Convolution) [24]

Tích chập chiều sâu (Depthwise Convolution) chia khối tensor đầu vào 3D thành các lát cắt theo chiều sâu để thực hiện tích chập trên từng lát cắt riêng biệt Phương pháp này giúp giảm số lượng phép tính, tối ưu hóa hiệu suất xử lý trong các mô hình deep learning Ứng dụng của tích chập chiều sâu rất phổ biến trong các kiến trúc mạng nơ-ron như MobileNet, nhờ khả năng duy trì thông tin quan trọng đồng thời giảm thiểu độ phức tạp tính toán Nhờ đó, nó góp phần nâng cao hiệu quả và hiệu suất của các hệ thống nhận diện hình ảnh, xử lý video và các ứng dụng trí tuệ nhân tạo khác.

Để giảm thiểu khối lượng tính toán, phép tích chập tiêu chuẩn yêu cầu thực hiện k×k×c phép tính để tạo ra một điểm pixel trên đầu ra, trong khi phép tích chập chiều sâu tách biệt chỉ cần thực hiện k×k phép tính, giúp tối ưu hiệu quả xử lý và giảm tải cho hệ thống.

❖ Giảm thiếu sốlượng tham số : Ở tích chập chiều sâu cần sử dụng k×k×c tham số Số lượng này ít hơn gấp c′ lần so với tích chập chiều sâu thông thường

Tích chập điểm (Pointwise Convolution) giúp thay đổi độ sâu của đầu ra từ c sang c′ bằng cách sử dụng bộ lọc kích thước 1×1×c Phương pháp này giữ nguyên kích thước về chiều dài và chiều rộng của dữ liệu, chỉ điều chỉnh chiều sâu, hỗ trợ tối ưu hóa mô hình học sâu một cách hiệu quả.

Hình 35 Cách tính tích chập điểm (Pointwise Convolution) [24]

Kết quảsau cùng thu được là một output có kích thước h′×w′×c′ Sốlượng tham số cần áp dụng ở trường hợp này là c′×c

Qua quá trình nghiên cứu, các nhà khoa học đã tính được tỷ lệ các phép tính giữa tích chập thông thường và tích chập chiều sâu là:

Kiến trúc của mạng Mobilenet:

Có thể thấy mô hình có 30 lớp với các đặc điểm sau:

Lớp 1: Convolution layer với stride bằng 2

Lớp 4: Depthwise layer với stride bằng 2 (khác với bước 2, dw lớp 2 có stride size bằng 1)

Lớp 30: Softmax, dùng để phân lớp

Nhờ những ưu điểm nổi bật, MobileNet thường được sử dụng trong các thiết bị nhúng và các thiết bị có phần cứng hạn chế Hiện nay, MobileNet đã được nâng cấp với hai phiên bản mới là MobileNet V2 và V3, nhằm cải thiện hiệu suất và tối ưu hóa cho các ứng dụng cần tiết kiệm tài nguyên.

Multi-task Learning

Multi-task Learning là 1 giải pháp trong học máy có mục đích là thực hiện nhiều nhiệm vụ trên cùng 1 mô hình

Hình 37 Cách hoạt động của Multi-task Learning [27]

Các phương pháp học máy truyền thống thường giải quyết một nhiệm vụ bằng một mô hình duy nhất, dễ bỏ lỡ thông tin liên quan từ các nhiệm vụ khác Multi Task Learning giúp các nhiệm vụ chia sẻ đặc trưng dữ liệu, tăng khả năng tổng quát của mô hình trên nhiệm vụ chính Nhờ đó, mô hình học máy có thể thực hiện tốt hơn nhờ khai thác kiến thức liên kết giữa các nhiệm vụ liên quan.

Khi dự đoán giá một căn nhà dựa trên các đặc điểm như diện tích, số phòng, số tầng, và vị trí gần các trung tâm thương mại, việc mở rộng thêm các nhiệm vụ như xác định căn nhà thuộc vùng nội thành hay ngoại thành, hoặc là biệt thự hay chung cư, sẽ cung cấp nhiều thông tin hữu ích giúp nâng cao độ chính xác của dự đoán giá nhà.

Lợi ích của Multi-task Learning:

Tiết kiệm tài nguyên tính toán là lợi ích quan trọng, bởi vì không cần thiết phải huấn luyện một mô hình riêng cho từng nhiệm vụ Thay vào đó, có thể sử dụng một mô hình tích hợp nhiều nhiệm vụ khác nhau, tối ưu hóa quá trình đào tạo và giảm đáng kể tiêu thụ tài nguyên hệ thống.

Mô hình Multitask Learning mang lại kết quả chính xác cao hơn so với việc huấn luyện từng mô hình riêng lẻ, nhờ vào khả năng các nhiệm vụ hỗ trợ lẫn nhau Điều này giúp cải thiện hiệu suất và nâng cao độ chính xác của hệ thống.

Những đặc trưng tốt được học từ những nhiệm vụ này sẽ giúp ích phân loại nhiệm vụ khác

Bài toán độ ng h ọc ngượ c

Hiện nay, các hệ thống ứng dụng học sâu và trí tuệ nhân tạo đang được triển khai rộng rãi trong nhiều lĩnh vực khác nhau Việc tích hợp trí tuệ nhân tạo vào hệ thống robot là một lĩnh vực mới có rất nhiều tiềm năng để phát triển Ứng dụng trí tuệ nhân tạo trong hệ robot dự đoán sẽ tạo ra những đột phá lớn trong tự động hóa sản xuất Điều này giúp giảm thiểu lực lượng lao động cần thiết trong nhiều ngành nghề, góp phần nâng cao hiệu quả và độ chính xác trong hoạt động sản xuất.

Sau khi hoàn thành các nhiệm vụ của thị giác máy như phân loại và định vị, bước tiếp theo là tính toán các phương trình động học để điều khiển robot chính xác Điều khiển cánh tay robot chủ yếu bao gồm điều khiển các động cơ theo các góc quay (biến khớp) để đưa điểm cuối của cánh tay đến vị trí đã định trước Để làm được điều này, cần giải bài toán động học ngược, giúp xác định các góc quay của các khớp khi đã biết vị trí của điểm tác động cuối cùng Việc này dựa trên việc mô hình hóa hình học sâu để định vị chính xác vật thể cần gắp.

Các bước để giải bài toán động học ngược:

Bước 1: Dựng hệ trục tọa độ của robot theo phương pháp Denavit-Hartenberg

❖ Trục z(i-1) là trục của khớp (i) nối khâu (i-1) với khâu (i)

❖ Trục x(i-1) là đường vuông góc chung của hai trục z(i-2) và z(i-1), hướng từ z(i-2) sang z(i-1), gốc O(i-1) là giao điểm z(i-1) với x(i-1)

❖ Trục y(i-1) được chọn sao cho hệ trục tọa độ là thuận

Hình 38 Quy tắc xây dựng hệ trục tọa độ cho robot của phương pháp Denavit Hartenberg [28]

Bước 2: Lập bảng thông số D-H và tính các ma trận biến đổi tọa độ thuần nhất

Bảng D-H là bảng chứa các thông tin về robot sau khi đã lựa chọn hệ trục tọa độ theo phương pháp Denavit-Hartenberg Nó cung cấp dữ liệu cần thiết để tính các ma trận biến đổi tọa độ thuần nhất giữa các khâu trong liên kết của robot Các ma trận này có kích thước 4x4, dùng để biến đổi vector vị trí thuần từ khâu (i-1) sang khâu (i), hỗ trợ trong quá trình xác định vị trí và hướng của các bộ phận robot một cách chính xác.

Trong bài viết, tác giả Bùi Việt Hoàng giới thiệu phương pháp chuyển đổi điểm từ hệ tọa độ này sang hệ tọa độ khác bằng cách sử dụng ma trận biến đổi thuần nhất Hình 39 mô tả rõ ràng nội dung của bảng D-H cùng với quy trình tính toán ma trận biến đổi, giúp người đọc hiểu sâu hơn về kỹ thuật chuyển đổi tọa độ trong không gian Đây là bước quan trọng trong các ứng dụng đồ họa máy tính và xử lý hình học, đòi hỏi các phép tính chính xác và hệ thống hóa để đảm bảo kết quả đúng đắn.

Hình 39 Hệ robot (bên phải) được xây dựng theo quy tắc Denavit Hartenberg và bảng D-H (bên trái), ma tr ậ n bi ến đổ i t ọa độ thu ầ n nh ấ t t ừ h ệ (i-1) sang h ệ (i) [28]

Trong bước 3, bạn cần tìm tọa độ biến khớp bằng cách giải phương trình động học ngược, dựa trên điểm cuối đã được xác định chính xác bằng mô hình học sâu Việc này giúp xác định chính xác vị trí của biến khớp trong hệ thống cơ khí, đảm bảo hoạt động chính xác và hiệu quả Áp dụng kỹ thuật giải phương trình động học ngược là bước quan trọng để điều chỉnh và tối ưu hóa quá trình điều khiển robot hoặc cơ cấu cơ khí sau khi đã có điểm cuối đã định vị chính xác.

Sau khi xác định các ma trận biến đổi tọa độ thuần nhất từ hệ (i-1) sang hệ (i), ta có thể biểu diễn phép biến đổi tọa độ thuần nhất từ hệ R0 sang hệ Rnđ Quá trình này giúp hiểu rõ cách các hệ tọa độ liên kết và chuyển đổi qua các bước, đảm bảo tính chính xác trong các phép biến đổi không gian Việc tính toán các ma trận biến đổi này là bước quan trọng để thực hiện các chuyển đổi hệ tọa độ một cách hiệu quả và chính xác trong các ứng dụng kỹ thuật và công nghệ.

Ma trận biến đổi tọa độ thuần nhất còn có thể viết dưới dạng:

Trong đó 𝐴 𝑛 0 là ma tr ậ n quay t ừ h ệ R 0 sang R n có d ạ ng 3x3

Điểm 𝑟𝑂𝑛0 là tọa độ gốc của hệ tọa độ Rn, với 𝑟𝑂𝑛0 = [𝑥, 𝑦, 𝑧]𝐓 đã biết trước Nhiệm vụ của bài toán động học ngược là xác định các biến khớp theo ba tọa độ x, y, z dựa trên vị trí đã biết này nhằm kiểm soát chính xác chuyển động của hệ thống.

Ngoài ra, phương pháp hình học có thể giải bài toán động học ngược sau khi xây dựng hệ tọa độ ban đầu bằng phép chiếu từ hệ tọa độ (i) về hệ tọa độ (i-1) Điều này giúp dễ dàng xác định các biến khớp của hệ thống robot, tối ưu hóa quá trình phân tích và điều khiển robot một cách hiệu quả.

CÁC BƯỚ C TRI ỂN KHAI ĐỀ TÀI

Thi ế t l ập các điề u ki ệ n làm vi ệ c

Xác định yêu cầu của bài toán:

Xây dựng mô hình học sâu có khảnăng nhận dạng và định vị vật thể và ứng dụng vào trong hệ có sử dụng cánh tay robot

Trong việc định vị vật thể có hình dáng đường biên phức tạp và khó gắp, đặc biệt là những vật không đối xứng hoặc có đường biên phức tạp, việc xác định chính xác vị trí và hướng của vật là rất quan trọng Giải quyết các bài toán này giúp đảm bảo việc gắp đúng hướng và đúng vị trí, góp phần nâng cao hiệu quả trong các quy trình lắp ráp và đóng gói, phục vụ tốt hơn các yêu cầu của ngành công nghiệp chế tạo.

Giải quyết các bài toán phân loại vật thể dựa trên các đặc trưng như màu sắc đang trở nên quan trọng trong lĩnh vực xử lý ảnh, đặc biệt khi các phương pháp truyền thống không phù hợp hoặc không mang lại kết quả chính xác Công nghệ mới giúp phân biệt các vật thể có cùng đặc điểm như màu sắc một cách hiệu quả, nâng cao độ chính xác trong nhận diện và phân loại vật thể Các phương pháp xử lý ảnh hiện đại mở ra cơ hội áp dụng rộng rãi trong các ứng dụng như thị giác máy tính, tự động hóa và robot công nghiệp.

❖ Xây dựng phương pháp thực hiện 2 nhiệm vụ trên trong cùng một mô hình học sâu

Các công việc cần thực hiện:

❖ Lựa chọn robot, hệ camera, thiết kế hệ thị giác máy kết hợp robot một cách hoàn chỉnh

❖ Thiết kế vật mẫu để chứng minh giải thuật

❖ Xây dựng luồng xử lý (pipeline), giải thuật điều khiển của robot

❖ Lựa chọn mô hình, chỉnh sửa và thiết kế lại cho phù hợp với yêu cầu bài toán, huấn luyện mô hình

❖ Giải bài toán động học ngược

❖ Ghép luồng và xử lý trên robot thật

❖ Xử lý các vấn đề trên thực tế

❖ Đánh giá kết quảđạt được

Thi ế t k ế h ệ th ố ng robot

Sử dụng Robot Yahboom Dofbot 5 bậc tự do, mô tảnhư hình 40

Hình 40 Hình ảnh của robot Yahboom Dofbot 5 bậc tự do [29]

❖ Bộ xử lý các thuật toán AI: Máy tính nhúng Jetson Nano

Jetson Nano là máy tính nhúng do NVIDIA phát triển, đem lại nền tảng mạnh mẽ cho các ứng dụng học máy Vừa nhỏ gọn lại tích hợp GPU mạnh mẽ, sản phẩm này lý tưởng cho các dự án xử lý trung tâm và triển khai các thuật toán trí tuệ nhân tạo.

❖ Mạch điều khiển động cơ: Arduino UNO, máy tính nhúng Jetson Nano đã được tích hợp sẵn các thư viện, API để giao tiếp với vi điều khiển

❖ Mô hình cơ khí của robot:

Hình 41 Mô hình động học của robot

B ả ng 1 B ả ng thông s ố c ủ a robot Yahboom 5 b ậ c t ự do

Chiều dài tay kẹp (ở tầm tối đa) 11 cm

Chiều dài từ gốc tọa độđến đế robot 8 cm

Sử dụng camera Cimsum Document Scanner, mô tảnhư hình 39:

Hình 42 Camera Cimsum [30] Ưu điểm:

❖ Góc camera từ trên xuống, không bịthay đổi góc nhìn khi robot di chuyển

❖ Khoảng cách từ camera đến đế có thể điều chỉnh linh hoạt, có thể tạo ra góc nhìn rộng hơn hay hẹp đi tùy vào mục đích sử dụng

❖ Hỗ trợ hệ thống chiếu sáng (ilumination) giúp cho hệ thống có được ánh sáng ổn định

❖ Có sử dụng đèn led

❖ Độ phân giải tối đa 2560 x 1440 pixels

Hệ thống robot sau khi hoàn thiện được mô tảnhư hình[40]:

Hình 43 Hệ thống robot – thị giác máy trên thực tế

Thiết kế vật mẫu phục vụ cho bài toán phân loại và định vị vật thể:

❖ Vật mẫu có hình dáng không đối xứng, có chung 1 sốđặc trưng khác nhau

❖ Vật mẫu có thiết kế và tải trọng phù hợp với robot

❖ Thiết kế vật mẫu bằng phần mềm solidwork và in 3D để chế tạo vật mẫu

Hình 44 Kích thước mẫu thứ nhất

Hình 45 Kích thước mẫu vật thứ hai

Xây d ự ng mô hình hu ấ n luy ệ n

3.3.1 Lựa chọn và thiết kế mô hình

Chọn các mô hình định vị vật thể nhẹ, có khả năng xử lý nhanh để đảm bảo đáp ứng trong các ứng dụng thời gian thực Việc ưu tiên những mô hình có tốc độ xử lý cao giúp nâng cao hiệu suất và độ chính xác trong nhận diện và định vị vật thể Các mô hình này phù hợp để triển khai trong các hệ thống yêu cầu phản hồi nhanh, từ đó tối ưu hóa trải nghiệm người dùng và hiệu quả hoạt động.

Mô hình được lựa chọn: Retinaface:

Mô hình RetinaFace là một công cụ mạnh mẽ trong việc phát hiện và định vị các điểm trên khuôn mặt người, giúp cải thiện độ chính xác trong các ứng dụng nhận diện khuôn mặt Ngoài ra, mô hình này còn được ứng dụng linh hoạt trong hệ thống robot để định vị các đối tượng, từ đó hỗ trợ lập kế hoạch gắp vật (grasp planning) hiệu quả hơn Việc tích hợp RetinaFace vào các hệ thống robot không những nâng cao khả năng nhận dạng mà còn tối ưu hóa quá trình tương tác và thao tác với các vật thể trong môi trường thực tế.

Hình 46 Mô hình retinaface với khả năng phát hiện và định vị khuôn mặt [31]

Mô hình RetinaFace sử dụng mạng xương sống Mobilenet, một mạng nhẹ, giảm thiểu lượng tính toán nhưng vẫn đảm bảo độ chính xác cao, phù hợp cho các hệ thống có tài nguyên hạn chế như máy tính nhúng Ứng dụng của mô hình này bao gồm phân loại và định vị vật thể một cách hiệu quả, nâng cao khả năng nhận diện khuôn mặt trong các thiết bị có cấu hình giới hạn.

Kiến trúc của mô hình Retinaface:

Hình 47 Kiến trúc của mô hình Retinaface [31]

Kiến trúc của mô hình RetinaFace vẫn giữ nguyên về cơ bản, đảm bảo hiệu quả trong việc phát hiện và phân loại khuôn mặt Để ứng dụng mô hình vào bài toán phân loại và định vị vật thể, cần thực hiện các bước như tinh chỉnh các lớp đầu ra phù hợp với mục tiêu cụ thể, chuẩn bị dữ liệu huấn luyện đa dạng và chất lượng cao, cũng như tối ưu các tham số mô hình để nâng cao độ chính xác Ngoài ra, việc tích hợp các kỹ thuật làm mịn kết quả và kiểm soát độ trễ cũng rất quan trọng để đảm bảo mô hình hoạt động hiệu quả trong thực tế.

❖ Chỉnh sửa lại đầu ra sốđiểm cần định vị

❖ Chỉnh sửa đầu ra để mô hình có thể phân loại được các vật thểở các lớp khác nhau

❖ Chỉnh sửa lại hàm mất mát (hàm loss) để mô hình có thể học được nhiều nhiệm vụ cùng lúc (Multi-task Learning)

Sau khi hoàn thành các công việc trên, tiến hành chuẩn bị dữ liệu và huấn luyện mô hình

Sử dụng hệ camera đã chuẩn bị sẵn để chụp các ảnh liên tiếp của các vật thểđược đưa vào vùng làm việc

Chụp ảnh với điều kiện độ sáng khác nhau, khoảng cách khác nhau để cho dữ liệu đa dạng hơn

Hình 48 Hình ảnh dữ liệu được thu thập qua camera

Tiền xử lý dữ liệu:

Lọc những ảnh bị mờ, nhòe, không rõ vật thể

Sử dụng tool labelme để gán nhãn cho 2 class khác nhau và định vị các điểm cần thiết phục vụ cho việc gắp vật

Hình 49 Thực hiện gán nhãn cho vật thể

Với mỗi vật thể sẽ gán 6 điểm keypoint để có thể định vị và xác định được hình dạng của vật

Phân chia tập dữ liệu huấn luyện:

Sau khi thu thập dữ liệu, tiền xử lý và tạo nhãn, phân chia dữ liệu thành 2 tập huấn luyện (train) và kiểm tra (test):

Chuẩn hóa dữ liệu đầu vào:

Hình 50 Chuyển dữ liệu về đúng định dạng để có thể huấn luyện mô hình

Mỗi vật thể sẽ chứa những thông tin sau đây:

Trong đó : 𝑥 1 ,𝑦 1 đến 𝑥 6 , 𝑦 6 là tọa độcác điểm cần định vị của vậ thể, label là nhãn mà vật thểđó cần phần loại

- Tinh chỉnh các siêu tham số của mô hình:

Hình 51 Tinh chỉnh các tham số trong file cấu hình

Một vài siêu tham số, thông tin cần chú ý:

❖ Mạng xương sống (backbone): Mobilenet

❖ Tốc độ học (learning rate): 0.01

❖ Phương pháp tối ưu (optimizer): Stochastic Gradient Descent

❖ Hàm mục tiêu: Multi-task loss bao gồm:

• Hàm mục tiêu cho dựđoán bounding box (Bounding box regression): Smooth L1 (loss_bbox)

• Hàm mục tiêu cho định vịđiểm (Landmark regression): Smooth L1 (loss_landm)

• Hàm mục tiêu cho phân loại vật thể (Classification): Cross Entropy (loss_cls) Công thức tính hàm mục tiêu của mô hình:

Trong đó các hệ số 𝛼, 𝛽, 𝛾 được chọn trong quá trình thực nghiệm Sau quá trình thực nghiệm ta có: 𝛼 = 2, 𝛽 = 1 , 𝛾 = 1

Gi ải bài toán độ ng h ọc ngượ c

Dựng hệ trục tọa độ cho robot bằng phương pháp Denavit-Hartenberg (đã nêu ở chương 2), ta được hệ trục như hình[47]:

Hình 52 Thi ế t l ậ p h ệ tr ụ c t ọa độ cho robot b ằng phương pháp Denavit Hartenberg Trong đó: 𝑞 = [𝑞1, 𝑞2, 𝑞3, 𝑞4, 𝑞5] 𝑇 là các biến khớp của hệ robot

Lên kế hoạch gắp cho robot là bước quan trọng để đảm bảo robot có thể gắp đúng vị trí của vật và đặt vào đúng chỗ trong quá trình lắp ráp Hướng gắp của tay kẹp cần phải vuông góc với mặt phẳng chứa vật, giúp tăng độ chính xác trong thao tác Điều này đảm bảo khâu thứ 4 của robot luôn vuông góc với mặt phẳng, tối ưu hóa quá trình tự động hóa và nâng cao hiệu quả làm việc.

Hình 53 Lên k ế ho ạ ch g ắ p cho robot

Khi xác định chính xác các điểm nhờ vào mô hình học sâu, có thể tính toán góc quay của tay kẹp để nắm giữ vật ở vị trí tối ưu Nhờ vào mô hình học sâu, chúng ta còn có khả năng xác định góc 𝑞5 một cách chính xác, đảm bảo quá trình kẹp vật diễn ra hiệu quả và chính xác hơn Việc ứng dụng công nghệ học sâu trong định vị giúp nâng cao độ chính xác trong điều chỉnh góc quay của tay kẹp, từ đó tối ưu hoá quá trình thao tác và nâng cao năng suất sản xuất.

Hình 54 Biến khớp q5 được suy ra khi mô hình học sâu dự đoán được các điểm từ p1 đến p6

Như vậy, bài toán chỉ cần phải tính góc xoay cho 4 biến khớp 𝑞 = [𝑞1, 𝑞2, 𝑞3, 𝑞4] 𝑇 với điều kiện ràng buộc là khâu thứ 4 luôn vuông góc với mặt phẳng gắp

Giải bài toán động học ngược

Lập bảng DH cho hệ robot:

Bảng 2 Bảng DH của robot khâu θ i di ai α i

Ma trận biến đổi tọa độ thuần nhất từ hệ (i-1) sang hệ (i) có dạng:

Ma trận biến đổi tọa độ thuần nhất từ hệ 0 sang hệ 4 có dạng:

Sau khi xác định tọa độ của vật cần gắp, được biểu diễn bởi vector 𝑝 = [𝑥, 𝑦, 𝑧]𝑇, ta đã biết chính xác vị trí của vật cần nâng Để thực hiện quá trình gắp chính xác, cần giải hệ phương trình với các điều kiện ràng buộc phù hợp, đảm bảo robot di chuyển chính xác đến vị trí đã định Việc giải hệ phương trình này giúp xác định các tham số cần thiết cho quá trình điều khiển robot, từ đó nâng cao hiệu quả và độ chính xác trong quá trình gắp vật.

Giải hệphương trình (1), (2), (3) và điều kiện ràng buộc khâu 4 luôn vuông góc với mặt phẳng gắp (hay song song với trục 𝑧 0 ), ta được:

Giới hạn không gian làm việc:

Trong bài toán gắp vật trên mặt phẳng cố định với chiều cao z không đổi, không gian làm việc của robot bị giới hạn trong hình vành khăn bao quanh robot Điều kiện thực tế xác định rõ vùng hoạt động của robot để đảm bảo quá trình gắp và vận chuyển vật chính xác Việc giới hạn không gian làm việc giúp tối ưu hoá hiệu quả thao tác và tránh gây va chạm trong quá trình thực hiện nhiệm vụ.

Dựa vào các điều kiện trên có thể tìm ra vùng làm việc của robot trong khoảng [𝑟 𝑚𝑖𝑛 , 𝑟 𝑚𝑎𝑥 ]:

Hình 55 Vùng làm vi ệ c c ủ a robot đượ c gi ớ i h ạ n trong kho ả ng [𝑟 𝑚𝑖𝑛 ,𝑟 𝑚𝑎𝑥 ]

Hình 56 Thiết lập vùng làm việc cho robot

Sau khi tính toán, vùng làm việc của robot nằm trong khoảng [𝑟 𝑚𝑖𝑛 , 𝑟 𝑚𝑎𝑥 ] [82.6, 148.0] 𝑚𝑚

Điề u khi ể n robot

Robot được điều khiển bằng vi điều khiển Arduino, giao tiếp với máy tính nhúng Jetson Nano bằng chuẩn giao tiếp I2C

I2C là giao thức truyền dữ liệu giữa bộ xử lý trung tâm và nhiều IC trên cùng một bo mạch thông qua chỉ hai đường truyền tín hiệu Nhờ tính đơn giản của nó, I2C được ứng dụng phổ biến trong giao tiếp giữa vi điều khiển và các cảm biến, thiết bị hiển thị, thiết bị IoT, EEPROMs, và nhiều thiết bị khác Giao thức này giúp giảm thiểu số lượng dây dẫn cần thiết, tiết kiệm không gian và dễ dàng tích hợp trong các dự án điện tử I2C là lựa chọn lý tưởng cho các hệ thống yêu cầu truyền dữ liệu tốc độ thấp đến trung bình, đồng thời đảm bảo khả năng mở rộng linh hoạt.

Các thiết bị kết nối với bus I2C được phân loại thành thiết bị Chủ (Master) và Thiết bị Tớ (Slave) Trong một hệ thống I2C, chỉ có duy nhất một thiết bị Master hoạt động tại một thời điểm, đảm nhận vai trò điều khiển tín hiệu đồng hồ SCL và quyết định các hoạt động truyền dữ liệu trên đường SDA Điều này giúp duy trì tính đồng bộ và ổn định cho toàn bộ giao tiếp trên bus I2C.

Tất cả các thiết bị tuân thủ hướng dẫn từ thiết bị Master đều hoạt động ở chế độ Slave Để phân biệt các thiết bị Slave kết nối chung trên cùng một bus I2C, mỗi thiết bị được gán một địa chỉ vật lý 7-bit cố định Việc này giúp dễ dàng quản lý và liên lạc chính xác giữa Master và các Slave trong hệ thống I2C.

Hình 57 Phương thức giao tiếp I2C [34]

Trong giao tiếp I2C, khi thiết bị Master muốn truyền hoặc nhận dữ liệu từ thiết bị Slave, nó xác định chính xác địa chỉ của thiết bị Slave trên đường SDA, đảm bảo truyền dữ liệu đúng đích Quá trình này giúp giao tiếp hiệu quả giữa thiết bị Master và thiết bị Slave cụ thể, tối ưu hóa hoạt động của hệ thống.

Các khớp của robot sử dụng các động cơ servo nối vào vi điều khiển Arduino, được điều khiển sau khi máy tính nhúng Jetson Nano gửi tín hiệu Động cơ servo là loại động cơ một chiều đơn giản có cảm biến phản hồi vị trí bằng biến trở, giúp so sánh vị trí thực tế với vị trí mục tiêu Bộ điều khiển dựa vào sai lệch này để điều chỉnh vị trí thực tế phù hợp với yêu cầu, mang lại khả năng điều khiển tốc độ cao và chính xác đến từng độ, tùy thuộc vào cảm biến phản hồi vị trí Phương pháp điều khiển động cơ servo phổ biến là sử dụng điều chế xung PWM, cho phép điều chỉnh góc quay của động cơ đến vị trí mong muốn của người dùng.

Phương pháp điều xung PWM (Pulse Width Modulation) là kỹ thuật điều chỉnh điện áp ra tải bằng cách thay đổi độ rộng của chuỗi xung vuông Phương pháp này dựa trên nguyên lý điều chế, giúp điều chỉnh điện áp đầu ra một cách chính xác và hiệu quả PWM là công cụ phổ biến trong điều khiển điện tử, giúp tối ưu hóa hiệu suất và tiết kiệm năng lượng trong các ứng dụng như biến tần, nguồn cấp và điều khiển động cơ.

PWM (Pulse Width Modulation) được ứng dụng phổ biến trong điều khiển động cơ và các bộ nguồn áp, giúp điều chỉnh tốc độ và cường độ dòng điện hiệu quả Công nghệ này cho phép kiểm soát độ nhanh chậm của động cơ một cách chính xác, nâng cao hiệu suất hoạt động của hệ thống Ngoài ra, PWM còn được sử dụng để duy trì sự ổn định tốc độ của động cơ, giúp đảm bảo hoạt động liên tục và ổn định trong các ứng dụng kỹ thuật.

Hình 58 Điề u ch ế xung PWM [35] Ứng dụng điều chếxung PWM vào điều khiển động cơ servo:

Hình 59 Điề u ch ế xung PWM để điề u ch ỉ nh góc quay c ủa động cơ servo [36]

Ví dụ, độ rộng xung 1 ms tương ứng với góc quay của động cơ là 0 độ, trong khi độ rộng 1,5 ms tương ứng với góc quay 90 độ và 2 ms tương ứng với góc quay 180 độ Góc quay của động cơ có thể khác nhau tùy thuộc vào loại và thương hiệu của động cơ Công thức tính góc quay dựa trên độ rộng xung giúp điều khiển chính xác các loại động cơ servo trong các ứng dụng tự động hóa Hiểu rõ mối liên hệ giữa độ rộng xung và góc quay đảm bảo việc điều chỉnh động cơ đạt hiệu quả cao nhất.

SVTH Bùi Việt Hoàng đề cập đến bài toán động học ngược, nhấn mạnh rằng chỉ cần điều chế xung với độ rộng phù hợp để điều chỉnh góc quay của động cơ servo đến vị trí mong muốn.

Tri ể n khai thu ậ t toán trên robot th ật và đánh giá

Thiết lập luồng xử lý cho robot:

Hình 60 Lu ồ ng x ử lý c ủ a h ệ th ố ng robot

Giải quyết các vấn đề trên thực tế:

❖ Ghép luồng xử lý tạo thành 1 chương trình hoàn chỉnh

Hình 61 Tình tr ạ ng g ặ p ph ải đố i v ớ i các v ậ t th ể đặ t ở góc

Trong quá trình định vị vật thể không nằm chính diện trên bàn làm việc, các hình chiếu cạnh gây nhiễu và làm sai lệch góc nhìn chuẩn, dẫn đến việc gán nhãn điểm 2D gặp khó khăn Điều này làm tăng khả năng sai số trong xác định vị trí chính xác của các điểm trên vật thể thực tế.

Cách tinh chỉnh lại: Xây dựng 1 hàm hiệu chuẩn cho các vật dựa vào biến thiên khoảng cách so với tâm của hình ảnh

Chúng tôi tiến hành đo lại sai số giữa các điểm thực tế và tọa độ được chụp bằng camera trên 50 điểm dữ liệu khác nhau Sai số này được phân tích và biểu diễn rõ ràng qua các biểu đồ đồ thị giúp đánh giá mức độ chính xác của hệ thống đo đạc Các bước kiểm tra này nhằm đảm bảo độ chính xác của dữ liệu, góp phần nâng cao chất lượng và tin cậy của quá trình đo đạc bằng camera.

Bảng 3 trình bày dữ liệu về hệ tọa độ của các điểm đo đạc thực tế và điểm đo đạc bằng camera, đơn vị tính là millimeter (mm) Các điểm này gồm các tọa độ x̂ dự đoán và tọa độ x thực tế, cùng với các tọa độ ŷ dự đoán và tọa độ y thực tế, giúp xác định chính xác độ lệch giữa dữ liệu dự đoán và thực tế Những thông tin này đóng vai trò quan trọng trong việc phân tích độ chính xác của phương pháp đo đạc bằng camera so với dữ liệu thực tế, góp phần nâng cao hiệu quả trong các nghiên cứu và ứng dụng thực tế.

Hình 62 Đo lường sai số theo phương x theo khoảng cách của vật đến gốc tọa độ

Hình 57 thể hiện sai số theo phương x dựa trên khoảng cách từ vật đến gốc tọa độ sau khi đo đạc và tính toán, được biểu diễn trên đồ thị dựa trên các số liệu có sẵn Các vật có tọa độ nằm chính giữa camera (khoảng 150-200mm) cho sai số thấp nhất, cho thấy sai số phân bố theo dạng tuyến tính Điều này cho phép nội suy phương trình hiệu chuẩn nhằm giảm thiểu sai số của camera, nâng cao độ chính xác trong quá trình đo đạc và phân tích hình ảnh.

Hình 63 Đườ ng bi ể u di ễ n hàm n ội suy dùng để hi ệ u chu ẩn để gi ả m sai s ố đo đạ c theo phương x

Hình 63 biểu diễn hàm nội suy dùng để hiệu chuẩn sai sốtheo phương x, tương tự ta có sai sốtheo phương y được biểu diễn như hình 64:

Hình 64 Đường biển diễn hàm nội suy dùng để hiệu chuẩn để giảm sai số đo đạc theo phương y

Dựa trên bảng số liệu đã thu thập sau quá trình đo đạc thực tế, chúng tôi đã xác định hàm nội suy theo phương x và phương y cho hệ đo đạc sử dụng camera Các hàm này giúp tối ưu hóa độ chính xác trong việc xử lý dữ liệu hình ảnh, đảm bảo tính nhất quán và độ tin cậy của hệ thống đo đạc Việc xây dựng hàm nội suy phù hợp là yếu tố then chốt để cải thiện hiệu quả và hiệu suất của các phép đo bằng camera trong các ứng dụng thực tiễn.

𝑐𝑎𝑙𝑖 𝑏 𝑦 (𝑦) = 0.0296𝑦 − 3.0871 Áp dụng hàm hiệu chuẩn vào đểxác định lại phép đo tọa độ sử dụng camera

Hình 65 Đồ thị biểu diễn phân phối sai số theo phương x sau khi hiệu chuẩn

Hình 66 Đồ th ị bi ể u di ễ n phân ph ố i sai s ố theo phương y sau khi hiệ u chu ẩ n

Nhận xét: Sau khi hiệu chuẩn, phân phối sai sốđã tiến gần hơn đến vị trí gốc tọa độ Sai sốtrung bình trước và sau khi hiệu chuẩn:

Dựa vào công thức trên, ta có bảng thông số:

B ả ng 4 B ả ng k ế t qu ả sai s ố hi ệ u chu ẩn, đơn vị milimet (mm)

Sai số Theo phương x Theo phương y Sai số tổng

Dựa vào luồng xửlý đã được thiết lập, thực hiện các đánh giá cho đề tài:

Một vài kết quả của mô hình học sâu:

Hình 67 trình bày kết quả của mô hình học sâu đã được huấn luyện và đánh giá trên tập dữ liệu kiểm tra Hệ thống phát hiện vật thể đạt được độ chính xác cao, thể hiện khả năng nhận diện chính xác các đối tượng trong ảnh Đánh giá này khẳng định hiệu quả của mô hình trong việc phát hiện vật thể, góp phần nâng cao hiệu suất trong các ứng dụng thị giác máy tính.

Sử dụng phương pháp đánh giá Average Precision (đã trình bày ở chương 2), ta được bảng sau:

B ả ng 5 B ả ng s ố li ệ u k ế t qu ả đánh giá theo phương pháp Average Precision

AP0.5 AP0.6 AP0.7 AP0.8 AP0.9 AP0.95 AP mAP

AP0.5 thể hiện độ chính xác của bounding box đo bằng chỉ số IoU giữa dự đoán của mô hình và kết quả thực tế (ground truth) Khi ngưỡng IoU > 0.5, kết quả được coi là đúng, còn ngược lại thì không Đây là một tiêu chuẩn quan trọng để đánh giá hiệu quả của các mô hình phát hiện đối tượng trong thị trường AI.

Dù hai vật thể có cùng màu sắc, nhưng sự khác biệt về hình dạng và kích thước giúp việc phân loại trở nên dễ dàng hơn Hệ robot thường hoạt động trong điều kiện ánh sáng và nền tĩnh, điều này cải thiện độ chính xác trong việc xác định bounding box Đánh giá về độ chính xác của mô hình định vị điểm cho thấy hệ thống hoạt động hiệu quả trong môi trường cố định, đem lại kết quả đáng tin cậy.

Sử dụng phương pháp đánh giá Percentage of Correct Keypoints, đánh giá trên các ngưỡng sai số khác nhau:

B ả ng 6 B ảng đánh giá sai số theo phương pháp PCK

Ngoài ra, còn có thểđánh giá sai số trung bình:

Trong đó: 𝑦 𝑖 là điểm được gán nhãn trên thực tế (groud truth)

𝑦̌ 𝑖 là điểm mà mô hình dựđoán.

Chỉ số sai số chủ yếu nằm trong khoảng nhỏ hơn 2 mm, chiếm 77,18% tổng các trường hợp, cho thấy mô hình đạt độ chính xác cao trong định vị điểm Sai số trung bình khoảng 1,1 mm phù hợp làm tiêu chuẩn chấp nhận cho các ứng dụng định vị, lắp ghép và phân loại vật thể có hình dạng phức tạp Với độ chính xác này, mô hình có thể ứng dụng hiệu quả trong các bài toán gắp, phân loại vật thể mà không đòi hỏi độ chính xác quá cao Đánh giá tốc độ (runtime) của mô hình cho thấy khả năng vận hành nhanh, phù hợp với các ứng dụng thực tế cần xử lý nhanh chóng.

Mô hình chạy trên máy tính nhúng Jetson Nano, thời gian xử lý 1 ảnh của mô hình

Thời gian xử lý của mô hình khoảng 0,04 đến 0,05 giây, tương đương với khả năng xử lý 20 đến 25 khung hình mỗi giây, đáp ứng điều kiện hoạt động trong thời gian thực Điều này là phù hợp vì mắt người chỉ có thể theo dõi khoảng 15 khung hình trên giây, đảm bảo mô hình có hiệu suất ổn định và phù hợp cho các ứng dụng yêu cầu phản hồi nhanh.

Hệ thống hoạt động phù hợp với các thiết bị nhúng có phần cứng hạn chế, đảm bảo khả năng xử lý tại biên tốt và hoạt động trong thời gian thực Việc tối ưu luồng xử lý là yếu tố quan trọng để toàn bộ hệ thống vận hành ổn định và đáp ứng nhu cầu thực tế một cách hiệu quả Đánh giá sai số của hệ thống cho thấy mức độ chính xác và tin cậy của các kết quả thu được, góp phần nâng cao hiệu suất và khả năng ứng dụng trong các tình huống thực tế.

Sai số của mô hình định vịđiểm: 𝑒 𝑙𝑎𝑛𝑑𝑚 = 1,1 𝑚𝑚

Sai số của camera sau khi đã hiệu chuẩn: 𝑒 𝑐𝑎𝑙𝑖𝑏 ≤ 1,31 𝑚𝑚

Sai số chế tạo của robot (thông số do nhà sản xuất cung cấp): 𝑒 𝑟𝑜𝑏𝑜𝑡 ≤ 0,5 𝑚𝑚 Sai số lắp ghép hệ thống: 𝑒𝑎𝑠𝑚 ≤ 1 𝑚𝑚

Sai số tổng thể của hệ thống:

Sai số 𝑒 ≤ 3,91 mm được xem là mức độ sai số chấp nhận được để sử dụng trong các hệ thống phân loại và đóng gói sản phẩm, cũng như các hệ lắp ráp có độ hở cao Tuy nhiên, để đáp ứng các yêu cầu cao hơn trong các hệ thống lắp ráp chất lượng cao, cần tiếp tục cải tiến và nâng cấp hệ thống hiện tại.

KẾ T LU Ậ N

Tiêu đề	Phát triển mô hình học máy phát hiện và định vị vật thể ứng dụng trong điều khiển cánh tay robot
Tác giả	Bùi Việt Hoàng
Người hướng dẫn	TS. Nguyễn Xuân Hạ
Trường học	Trường Đại học Bách khoa Hà Nội
Chuyên ngành	Cơ Điện Tử
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	69
Dung lượng	3,1 MB