1. Trang chủ
  2. » Luận Văn - Báo Cáo

(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ

78 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ
Tác giả Lưu Mạnh Sơn
Người hướng dẫn PGS.TS. Nguyễn Trường Thịnh
Trường học Trường Đại học Bách khoa Thành phố Hồ Chí Minh
Chuyên ngành Kỹ thuật Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2017
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 78
Dung lượng 3,66 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 4 BIA SAU A4.pdf (p.89)

Nội dung

(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ(Luận văn thạc sĩ) Nghiên cứu phương thức giao tiếp giữa người và máy dựa trên công nghệ điện toán đám mây, sử dụng trong robot dịch vụ

Giao tiếp giữa người và máy

Nhu cầu thị trường về robot ngày càng tăng cao, bao gồm robot vận chuyển, giám sát và giúp việc, đồng thời ý tưởng về robot cá nhân và trợ lý robot đã nhận được sự quan tâm lâu dài Robot được sản xuất rộng rãi trên toàn cầu và mở bán phổ biến, tuy nhiên để robot thực hiện các nhiệm vụ mới một cách hiệu quả và an toàn, cần phát triển các công nghệ kỹ thuật tiên tiến và người dùng phải được huấn luyện đầy đủ.

Trong giao tiếp giữa người và máy, hai đặc tính quan trọng là người dùng muốn có khả năng cấu hình và dạy cho robot khi cần thiết, đồng thời họ cũng muốn giám sát và theo dõi phản hồi của robot Trong mọi trường hợp, người dùng không trực tiếp vận hành robot mà mong muốn nó hoàn thành các nhiệm vụ theo yêu cầu Vì vậy, việc xác định rõ robot sẽ làm gì và không nên làm gì là yếu tố then chốt trong quá trình giao tiếp người-máy Giao tiếp này liên quan mật thiết đến hai khía cạnh chính để đảm bảo hiệu quả và chính xác trong quá trình hoạt động.

Người dùng cần được cung cấp phương thức dễ dàng để dạy robot, đảm bảo họ có thể truyền tải yêu cầu của mình đến chương trình hoạt động của robot một cách chính xác.

Hai là, phải có phản hồi đến người dùng những thông tin cần tiết để họ có thể hiểu các ảnh hưởng đến robot khi được yêu cầu mới

Vấn đề trong giao tiếp giữa người và máy

Giao tiếp hiệu quả mang lại nhiều lợi ích, phụ thuộc vào khả năng hiểu và truyền đạt giữa người dùng và robot Giao tiếp giống như quá trình giữa người dạy và người học, trong đó người học (thường là robot) cần hiểu rõ thông tin từ người dạy để có thể thay đổi và phát triển Để đạt được mục tiêu cải thiện kỹ năng giao tiếp và tối ưu hóa quá trình học tập, cần chú trọng đến việc truyền tải thông tin chính xác và rõ ràng, đồng thời xây dựng mối quan hệ hiểu biết giữa các bên.

Mục đích chính của giao tiếp là trao đổi thông tin trong suốt quá trình giao tiếp Ngoài ra, cần xem xét mục đích của thông tin được trao đổi để đảm bảo hiệu quả truyền đạt Đồng thời, mức độ trừu tượng của thông tin cũng đóng vai trò quan trọng trong việc truyền tải ý nghĩa chính xác.

Phương thức giao tiếp cũng rất quan trọng Nghĩa là cách thức mà thông tin có thể trao đổi, có thể là hành động, cử chỉ, giải thích…

Chiều của giao tiếp chúng ta cũng quan tâm đến chiều của dòng thông tin từ người dùng đến robot hay ngược lại, hoặc cả hai chiều

Trong quá trình giao tiếp giữa người và robot, việc xác định rõ các yếu tố quan trọng như các thông số kỹ thuật, lệnh chấp hành và phương thức giám sát là điều thiết yếu để đảm bảo hiệu quả và chính xác Giao tiếp để lập trình và giám sát robot cần thực hiện một cách rõ ràng và chính xác từ trước, giúp tránh các lỗi phát sinh và nâng cao hiệu suất hoạt động Việc xác định các vấn đề một cách cụ thể và sớm hơn trong quá trình giao tiếp sẽ giúp tối ưu hóa quá trình vận hành của robot và giảm thiểu rủi ro trong hoạt động.

Dữ liệu lớn – Big Data

Khái niệm về dữ liệu lớn

Dữ liệu lớn (Big Data) là khái niệm chỉ bộ dữ liệu lớn hoặc phức tạp, vượt quá khả năng xử lý của các phương pháp truyền thống Các ứng dụng liên quan đến Big Data yêu cầu các công cụ và công nghệ tiên tiến để phân tích và khai thác giá trị từ khối lượng dữ liệu khổng lồ này Trong thời đại số, việc hiểu và áp dụng Big Data trở thành yếu tố then chốt để nâng cao hiệu quả hoạt động và đưa ra quyết định chính xác.

Theo Gartner, dữ liệu lớn gồm các nguồn thông tin có đặc điểm chung như khối lượng lớn, tốc độ xử lý nhanh và đa dạng về định dạng Những đặc điểm này đòi hỏi các công cụ và công nghệ mới để thu thập, xử lý và phân tích hiệu quả Dữ liệu lớn giúp doanh nghiệp đưa ra quyết định nhanh chóng và chính xác nhờ vào khả năng khai thác thông tin từ khối lượng dữ liệu khổng lồ Vì vậy, việc ứng dụng dữ liệu lớn ngày càng trở nên thiết yếu trong các chiến lược kinh doanh hiện đại.

7 muốn khai thác được đòi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối ưu hóa quy trình.

Nguồn hình thành và phương pháp khai thác, quản lý dữ liệu lớn

Qua thống kê và tổng hợp, dữ liệu lớn được hình thành chủ yếu từ 6 nguồn:

Dữ liệu hành chính phát sinh từ các chương trình quản lý của tổ chức, có thể thuộc các lĩnh vực chính phủ hoặc phi chính phủ Ví dụ điển hình bao gồm hồ sơ y tế điện tử tại bệnh viện, hồ sơ bảo hiểm và hồ sơ ngân hàng Những loại dữ liệu này đóng vai trò quan trọng trong quản lý và tối ưu hóa dịch vụ hành chính, đồng thời hỗ trợ các tổ chức nâng cao hiệu quả hoạt động Việc quản lý dữ liệu hành chính đảm bảo tính chính xác, bảo mật và thuận tiện trong truy xuất thông tin, góp phần nâng cao trải nghiệm người dùng và thúc đẩy phát triển bền vững của tổ chức.

Dữ liệu thương mại phát sinh từ các giao dịch giữa hai thực thể, bao gồm các giao dịch thẻ tín dụng, giao dịch trực tuyến và giao dịch qua thiết bị di động Những dữ liệu này cung cấp thông tin quan trọng về hoạt động mua bán, giúp doanh nghiệp phân tích hành vi khách hàng và tối ưu hóa chiến lược kinh doanh Việc thu thập và xử lý dữ liệu giao dịch là yếu tố then chốt để nâng cao trải nghiệm khách hàng và thúc đẩy tăng trưởng doanh số.

- Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tinh, cảm biến đường, cảm biến khí hậu

- Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ điện thoại di động, GPS

- Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịch vụ hay thông tin khác), đọc các trang mạng trực tuyến

- Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên các phương tiện thông tin xã hội

Phương pháp khai thác và quản lý dữ liệu lớn hiện nay được thiết kế phù hợp dựa trên nguồn hình thành dữ liệu Mỗi nguồn dữ liệu lớn đòi hỏi các phương pháp khác nhau để khai thác và quản lý hiệu quả Hiện nay, phần lớn các tổ chức trên thế giới đều sử dụng hệ sinh thái Hadoop như là giải pháp tối ưu cho công tác xử lý và quản lý dữ liệu lớn, giúp nâng cao hiệu quả và tối ưu hóa hoạt động phân tích dữ liệu.

Đặc trưng của dữ liệu lớn

Dữ liệu lớn có 5 đặc trưng cơ bản như sau:

Khối lượng dữ liệu (Volume) là đặc điểm nổi bật nhất của dữ liệu lớn, thể hiện qua khối lượng dữ liệu cực kỳ lớn Kích thước của Big Data ngày càng tăng, từ vài chục terabyte đến hàng petabyte (1 petabyte = 1024 terabyte) chỉ trong một tập dữ liệu duy nhất Trong khi dữ liệu truyền thống thường được lưu trữ trên các thiết bị đĩa mềm hoặc đĩa cứng, thì dữ liệu lớn yêu cầu các công nghệ lưu trữ tiên tiến như đám mây để đáp ứng khả năng lưu trữ dữ liệu khổng lồ.

Tốc độ có thể hiểu theo 2 khía cạnh:

- Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon)

Dữ liệu được xử lý nhanh ở mức thời gian thực (real-time) nghĩa là dữ liệu được xử lý ngay tức thì sau khi phát sinh, tính bằng mili giây, giúp các ứng dụng trong lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự và Y tế – Sức khỏe hoạt động hiệu quả hơn nhờ công nghệ xử lý dữ liệu lớn Hiện nay, hơn 80% dữ liệu sinh ra là phi cấu trúc như tài liệu, hình ảnh, video, bài hát và dữ liệu từ cảm biến vật lý hoặc thiết bị y tế, đòi hỏi các giải pháp Big Data liên kết và phân tích đa dạng loại dữ liệu để đưa ra insights chính xác Công nghệ Big Data còn giúp đảm bảo độ tin cậy và chính xác của dữ liệu, góp phần nâng cao hiệu quả và độ tin cậy trong quá trình ra quyết định.

Một trong những thách thức lớn của dữ liệu lớn chính là đảm bảo độ tin cậy và chính xác của thông tin Với xu hướng phát triển mạnh mẽ của truyền thông xã hội (Social Media), việc xác thực dữ liệu trở nên phức tạp hơn bao giờ hết, đòi hỏi các công cụ và phương pháp phân tích chuyên sâu để kiểm soát chất lượng dữ liệu Độ tin cậy của dữ liệu ảnh hưởng trực tiếp đến các quyết định kinh doanh và phân tích dự báo, do đó việc đảm bảo độ chính xác là yếu tố then chốt trong quản lý dữ liệu lớn.

Trong thời đại mạng xã hội ngày nay, sự gia tăng mạnh mẽ của tính tương tác và chia sẻ của người dùng trên các nền tảng di động khiến việc xác định độ tin cậy và chính xác của dữ liệu trở nên phức tạp hơn Bài toán phân tích, loại bỏ dữ liệu thiếu chính xác và nhiễu đang trở thành yếu tố quan trọng đối với lĩnh vực Big Data.

Giá trị của dữ liệu lớn là yếu tố quan trọng hàng đầu khi triển khai dự án, bởi vì xác định rõ lợi ích mang lại giúp quyết định có nên đầu tư vào dữ liệu lớn hay không Nếu dữ liệu lớn chỉ mang lại lợi ích nhỏ, chẳng hạn như 1%, thì việc phát triển không đáng hoặc cần xem xét lại chiến lược Kết quả dự báo chính xác từ dữ liệu lớn phản ánh rõ nét giá trị thực sự của nó, ví dụ như dữ liệu y tế giúp dự đoán sức khỏe chính xác hơn, qua đó giảm chi phí điều trị và các chi phí y tế liên quan.

Sự khác biệt giữa dữ liệu lớn với dữ liệu truyền thống

Dữ liệu lớn khác biệt so với dữ liệu truyền thống như kho dữ liệu (Data Warehouse) ở bốn điểm chính: dữ liệu lớn hơn về khối lượng, đa dạng về loại hình và nguồn gốc, khả năng truy vấn dữ liệu nhanh chóng hơn, đồng thời đảm bảo độ chính xác cao hơn trong phân tích và ra quyết định.

Dữ liệu lớn mang lại sự đa dạng trong phân tích, giúp chúng ta không còn phải lo lắng về định dạng hay kiểu dữ liệu như khi khai thác dữ liệu có cấu trúc truyền thống Thay vào đó, các doanh nghiệp nên tập trung vào giá trị mà dữ liệu mang lại, đảm bảo nó phù hợp với nhu cầu công việc hiện tại và định hướng phát triển tương lai Việc này giúp nâng cao hiệu quả ra quyết định dựa trên dữ liệu, thúc đẩy sự phát triển bền vững của doanh nghiệp trong kỷ nguyên số.

Công nghệ lưu trữ đám mây hiện nay giúp giải quyết bài toán lưu trữ dữ liệu lớn một cách hiệu quả và linh hoạt hơn Với khả năng mở rộng không giới hạn, lưu trữ đám mây đáp ứng nhu cầu dữ liệu ngày càng tăng, giảm thiểu các vấn đề về giới hạn dung lượng và chi phí đầu tư ban đầu Nhờ đó, doanh nghiệp và cá nhân dễ dàng quản lý và mở rộng kho lưu trữ mà không cần lo lắng về quá trình bảo trì phức tạp của hệ thống truyền thống Công nghệ này không chỉ tối ưu hoá chi phí mà còn nâng cao độ tin cậy và bảo mật cho dữ liệu của bạn.

Mây cung cấp giải pháp phân phối lưu trữ dữ liệu phân tán hiệu quả, cho phép kết hợp các dữ liệu phân tán lại với nhau một cách chính xác Công nghệ này giúp xử lý dữ liệu nhanh chóng trong thời gian thực, đảm bảo hiệu suất cao cho các doanh nghiệp và hệ thống yêu cầu xử lý dữ liệu lớn.

Truy vấn dữ liệu nhanh hơn giúp xử lý dữ liệu lớn được cập nhật liên tục, giảm thiểu thời gian chờ đợi để có thông tin mới nhất Trong khi đó, kho dữ liệu truyền thống thường cập nhật định kỳ, gây ra tình trạng không theo dõi thường xuyên và dẫn đến lỗi cấu trúc truy vấn Điều này làm giảm khả năng tìm kiếm chính xác và đáp ứng yêu cầu của người dùng trong thời gian thực.

Dữ liệu lớn mang lại độ chính xác cao hơn nhờ vào quá trình kiểm định chặt chẽ các dữ liệu được thu thập từ nhiều nguồn, đảm bảo tính khách quan và đáng tin cậy Việc xác nhận dữ liệu trong hệ thống lớn thường diễn ra trên một số lượng lớn thông tin, giúp giảm thiểu tối đa ảnh hưởng của con người và nâng cao độ chính xác của kết quả Nhờ đó, người dùng có thể yên tâm về chất lượng và độ tin cậy của dữ liệu lớn trong các ứng dụng khác nhau.

Tổng quan về điện toán đám mây

Điện toán đám mây là công nghệ dựa trên mạng Internet sử dụng các dịch vụ tính toán và lưu trữ được cung cấp qua mạng, giúp người dùng truy cập dễ dàng mà không cần phải có kiến thức kỹ thuật phức tạp Đây là hình thức điện toán trong đó các tài nguyên như máy chủ, lưu trữ dữ liệu và ứng dụng được cung cấp như dịch vụ trực tuyến, tối ưu hoá việc vận hành và quản lý.

Cloud architecture encompasses key components such as the Cloud Platform, which provides the foundational environment for deploying and managing applications Cloud Services enable scalable and flexible solutions tailored to various business needs Cloud Infrastructure offers the essential hardware and networking resources that support cloud operations, while Cloud Storage ensures reliable and secure data management and backups Together, these elements form a comprehensive cloud ecosystem that drives digital transformation and enhances operational efficiency.

Cloud computing comprises essential components such as applications, clients, infrastructure, platforms, services, and storage solutions These elements work together to deliver scalable and flexible computing resources Understanding these core parts is crucial for leveraging cloud technology effectively Incorporating cloud infrastructure enhances business agility, efficiency, and data management capabilities.

Điện toán đám mây ra đời giúp các ứng dụng giảm sự phụ thuộc vào cơ sở hạ tầng truyền thống, mang lại sự linh hoạt và tối ưu hóa chi phí Người dùng chỉ trả tiền dựa trên mức độ sử dụng thực tế, phù hợp với nhu cầu của từng cá nhân và doanh nghiệp Điều này giúp nâng cao hiệu quả vận hành và giảm thiểu lãng phí tài nguyên công nghệ.

Dữ liệu được lưu trữ trên đám mây thay vì máy tính cá nhân, giúp việc xử lý và chỉnh sửa dữ liệu diễn ra hoàn toàn trên nền tảng đám mây Sự độc lập về thiết bị và vị trí cho phép người dùng truy cập dữ liệu mọi lúc, mọi nơi qua bất kỳ thiết bị nào có kết nối Internet Chi phí sử dụng dịch vụ đám mây được tính dựa trên mức độ sử dụng hoặc theo nhu cầu của khách hàng, mang lại sự linh hoạt và phù hợp với từng tổ chức.

 Ưu điểm và nhược điểm

Điện toán đám mây mang lại lợi ích lớn trong việc truy cập dữ liệu toàn cầu, giúp người dùng dễ dàng tiếp cận thông tin từ khắp nơi trên thế giới Một ưu điểm nổi bật của điện toán đám mây là tính độc lập thiết bị, cho phép người dùng truy cập dữ liệu từ bất kỳ máy tính hoặc thiết bị nào, miễn là thiết bị đó được kết nối với mạng Internet.

Một trong những nhược điểm của dịch vụ đám mây là thiết bị người dùng cần phải được kết nối internet để truy cập và sử dụng các tiện ích mà đám mây cung cấp Nếu không có kết nối mạng, người dùng sẽ không thể truy cập vào bất kỳ dữ liệu nào, gây ảnh hưởng đến khả năng làm việc và lưu trữ dữ liệu quan trọng.

Nhận dạng giọng nói

Giới thiệu

Con người luôn cố gắng giao tiếp với các vật thể bằng ngôn ngữ tự nhiên, đây là một phần không thể thiếu của cuộc sống Giao tiếp không chỉ giúp chia sẻ và xây dựng kiến thức mà còn truyền đạt giá trị từ thế hệ này sang thế hệ khác Giọng nói đóng vai trò quan trọng như một công cụ truyền thông và biểu tượng của nhận dạng cũng như ủy quyền, góp phần xác định danh tính cá nhân Các khái niệm về nhận dạng giọng nói xuất phát từ sự sáng tạo và trí tưởng tượng của con người, đã ngày càng được sử dụng phổ biến trong nhiều lĩnh vực.

Trong một số bộ phim và chương trình truyền hình, các hệ thống an ninh xuyên suốt thể hiện sự tiến bộ của công nghệ và khả năng nhận dạng lời nói Sự kết hợp giữa trí tưởng tượng về hệ thống an toàn, kỹ thuật số cao cấp và kiến thức toán học đã thúc đẩy sự phát triển của các công nghệ mới, biến các hệ thống bảo mật này trở nên thực tế và dễ dàng ứng dụng trong đời sống hàng ngày.

Tiếng nói là hình thức giao tiếp cơ bản nhất của con người, bao gồm nhiều loại thông tin như nội dung lời nói (từ và ngôn ngữ), cảm xúc, giới tính và đặc điểm người nói Quá trình nhận dạng người nói nhằm trích xuất, mô tả và xác định danh tính dựa trên các đặc trưng đặc biệt của tiếng nói, giúp nâng cao hiệu quả trong các lĩnh vực như xác thực người dùng và phân tích hành vi.

Hệ thống phát âm của con người

Tiếng nói của con người được tạo ra từ các phần khác nhau của miệng, tạo ra sự thay đổi áp suất không khí ngoài miệng Những thay đổi này sau đó được ghi lại dưới dạng sóng kỹ thuật số, chứa đựng toàn bộ thông tin của lời nói Các tín hiệu lời nói được tạo ra theo cách tương tự, và vì chúng ta có thể ghi lại các dạng sóng âm thanh, điều này khiến việc tóm tắt thông tin trở nên dễ dàng hơn Tuy nhiên, để trừu tượng hóa thông tin từ các dạng sóng này đòi hỏi các thủ tục phức tạp và khó hiểu hơn nhiều.

Hình dạng vật lý của ống âm thanh của mỗi người là khác nhau, gây ra sự đa dạng trong cách phát âm Tín hiệu giọng nói không luôn luôn chính xác về tần số và thuộc tính âm thanh, đặc biệt khi phát ra cùng một từ nhiều lần Ngoài ra, môi trường nói chuyện, ngôn ngữ địa phương, cũng như sự khác biệt về chiều dài phát âm giữa nam, nữ và trẻ em góp phần tạo nên sự thay đổi trong giọng nói, khiến việc hiểu các tín hiệu lời nói trở nên khó khăn hơn.

Một số đặc điểm trong giọng nói của con người có thể được mô phỏng theo toán học để dự đoán từ ngữ từ giọng nói đó, tuy nhiên, quá trình này đòi hỏi nhiều thời gian và công sức để thực hiện hiệu quả.

Không khí là yếu tố thiết yếu để tạo ra âm thanh, bởi vì hầu hết hoạt động phát âm của con người đều liên quan đến quá trình thở Âm thanh được hình thành nhờ sự cản trở của không khí trong các cơ quan của hệ hô hấp như dây thanh quản, khoang thanh quản, khoang mũi, lưỡi, răng, môi và vòm miệng Giọng nói có khả năng thay đổi áp suất không khí, từ đó tạo ra các dạng sóng âm khác nhau Sự rung động của áp suất không khí này được tiếp nhận qua không khí và sau đó được xử lý bởi các cơ quan trong tai và não bộ để tạo thành âm thanh chúng ta nghe thấy.

- Pharynx: yết hầu (cổ họng)

- Larynx opening into Pharynx: đoạn thanh quản mở từ yết hầu

Hình 2-1 thể hiện hình cắt ngang của ống âm thanh, cơ quan chính tạo ra giọng nói thông qua sự cộng hưởng phụ thuộc vào hình dạng của miệng Vị trí và hình dạng của các cơ quan trong ống âm thanh xác định phát âm của các âm vị, và đặc điểm này được sử dụng để nhận dạng giọng nói Mỗi giọng nói có những đặc điểm cơ bản thường gặp trong các ngôn ngữ, trong đó âm vị là đơn vị nhỏ nhất của ngữ âm, được hình thành bởi nguyên âm và phụ âm Các âm vị có thể là nhị trùng hoặc đơn âm, được tạo ra qua sự phối hợp chuyển động của các cơ quan trong ống âm thanh Phụ âm sát (fricatives) yêu cầu sự ma sát của lưỡi với vòm miệng hoặc răng trên với môi dưới, trong khi các âm bật hơi (plosive) hình thành từ sự kết hợp của im lặng, bật và ma sát, hít vào, tạo nên các âm tắc và âm tắt sát (affricate) đặc trưng trong ngôn ngữ.

Trong quá trình phát âm, không có sự khác biệt rõ rệt giữa các âm vị, đặc biệt là các nguyên âm Tuy nhiên, sự thay đổi về động lực của miệng trong khi nói khiến tốc độ phát âm của từng người khác nhau, từ chậm đến nhanh Độ dài của một âm vị phụ thuộc vào nhiều yếu tố như tốc độ nói, độ dài của âm vị, nhấn âm tiết và giọng điệu của từ được phát âm.

Biểu diễn tiếng nói - đặc trưng tiếng nói

Việc thu nhận tiếng nói thời gian thực và khuếch đại thường được thực hiện thông qua bộ ADC (Analog-Digital Converter), với các thông số quan trọng như số bit cho mỗi mẫu (thường từ 8 đến 16 bit) và tần số lấy mẫu (phổ biến từ 8KHz đến 16KHz) Những yếu tố này ảnh hưởng lớn đến hiệu năng, độ phức tạp trong thiết kế cũng như kết quả nhận dạng của hệ thống nhúng.

Hệ thống đo và điều khiển trong công nghiệp thường hoạt động trong môi trường nhiều nhiễu, gây ảnh hưởng đến chất lượng tín hiệu Vì vậy, cần có bộ kiểm soát âm lượng của tín hiệu thu vào để đảm bảo độ chính xác và ổn định của quá trình điều khiển Việc kiểm soát này giúp giảm nhiễu và tối ưu hóa hiệu suất hệ thống trong các ứng dụng công nghiệp.

Trích chọn đặc trưng

Bộ trích đặc trưng nhằm tham số hoá tín hiệu tiếng nói thành chuỗi vector đặc trưng, chứa thông tin quan trọng về âm thanh của câu nói Trong bất kỳ hệ thống nhận dạng tiếng nói nào, các đặc trưng ngữ âm cần đảm bảo các tính chất cơ bản để đảm bảo hiệu quả nhận dạng chính xác.

- Có khả năng phân biệt tốt các tiếng nói có phát âm giống nhau

- Cho phép xây dựng các mô hình thống kê mà không đòi hỏi quá nhiều dữ liệu huấn luyện

- Có tính bất biến đối với các giọng nói khác nhau, cũng như môi trường thu âm

Tín hiệu Tiếng nói Chia Frame Frames FFT Power

Spectrum Áp dụng Mel Filter Banks

Hình 2-2: Các bước rút trích đặc trưng MFCC từ tín hiệu âm thanh [8]

Trong lĩnh vực nhận dạng tiếng nói, một đặc trưng lý tưởng có đầy đủ cả ba tính chất quan trọng thường không tồn tại trong thực tế Tuy nhiên, các đặc trưng phổ biến và hiệu quả nhất hiện nay để xây dựng hệ thống nhận dạng là MFCC (Mel-Frequency Cepstral Coefficients) và LSP (Line Spectral Pairs), giúp cải thiện độ chính xác và độ tin cậy của các ứng dụng xử lý tiếng nói.

Các hệ nhận dạng tiếng nói thường chia tín hiệu thành các đoạn ngắn 5-15 ms, gọi là khung (frame), để trích xuất đặc trưng Mỗi khung sẽ thể hiện dưới dạng một vector, tạo thành dãy vector phản ánh toàn bộ tín hiệu âm thanh Phương pháp MFCC dựa trên đặc điểm cảm thụ tần số âm của tai người, tuyến tính với tần số dưới 1kHz và phi tuyến với tần số trên 1kHz theo thang tần số mel Do đó, nhiều hệ thống nhận dạng tiếng nói sử dụng MFCC như một đặc trưng chính Quá trình tính MFCC được thực hiện theo sơ đồ rõ ràng, góp phần nâng cao hiệu quả trong nhận dạng giọng nói.

Hình 2-3: Chi tiết bước trích chọn MFCC

Hiện nay, ngoài các đặc trưng MFCC và các đặc trưng truyền thống như LPC, PLP, người ta còn sử dụng nhiều đặc trưng khác như Wavelet, chiều Fractal, Tiger và các đặc trưng siêu đoạn tính như F0, formant nhằm nâng cao độ chính xác trong nhận dạng âm thanh Việc bổ sung các đặc trưng này giúp cải thiện chất lượng nhận dạng bằng cách khai thác các đặc điểm đặc trưng quan trọng của tín hiệu âm thanh Các đặc trưng mới này đóng vai trò quan trọng trong việc nâng cao hiệu quả của các hệ thống nhận dạng, giúp các mô hình phân tích và phân loại âm thanh chính xác hơn.

- Bền vững với tiếng nói nhiễu

- Hạn chế nhược điểm của các biến đổi dựa trên FFT

- Đặc thù ngữ âm và ngôn ngữ

Chuẩn hóa đặc trưng MFCC dựa trên tần số cơ bản F0 giúp giảm sự phụ thuộc của hệ thống nhận dạng vào người nói, nâng cao độ chính xác trong nhận dạng giọng nói Quá trình này tối ưu hóa khả năng phân biệt các đặc trưng âm thanh, góp phần cải thiện chất lượng và độ chính xác của hệ thống nhận dạng tiếng nói Việc chuẩn hóa dựa trên F0 không những giúp hệ thống trở nên ổn định hơn mà còn giảm thiểu ảnh hưởng của biến đổi cá nhân, từ đó tăng cường khả năng nhận dạng chính xác và tin cậy hơn trong các ứng dụng thực tế.

Hình 2-5: MFCC đã biến đổi

MFCC chuẩn trở nên phổ biến nhờ vào đặc điểm đơn giản và truyền thống của nó, đồng thời độc lập với ngôn ngữ và đã xuất hiện sớm trong các nghiên cứu về nhận dạng tiếng nói.

Phương pháp nhận dạng tiếng nói

Một nhược điểm chính của mô hình HMM là khả năng mô hình hóa âm thanh hạn chế, dẫn đến hệ thống dựa trên mạng HMM dễ bị nhận dạng nhầm các nhiễu cộng thêm trong quá trình xử lý Điều này góp phần làm tăng tỷ lệ lỗi nhận dạng, đặc biệt là các lỗi chèn do nhiễu gây ra, ảnh hưởng đến độ chính xác của hệ thống nhận dạng âm thanh.

17 nhận dạng dùng HMM là khá cao khi chúng phải làm việc với các phát âm có nhiều nhiễu Độ chính xác nhận dạng ở mức câu thường thấp

Các hệ thống nhận dạng dựa trên mạng nơ-ron đạt được độ chính xác cao trong nhận dạng âm vị và từ rời rạc Tuy nhiên, chúng gặp khó khăn trong nhận dạng tiếng nói liên tục do mô hình mạng nơ-ron thiếu khả năng mô hình hóa tốt sự biến thiên thời gian của tín hiệu tiếng nói Đây là một điểm hạn chế chính khiến các mạng nơ-ron còn chưa thành công trong lĩnh vực này.

Ngược lại, ANN có khả năng phân lớp mạnh và mô hình âm thanh tốt, giúp hệ thống nhận dạng chính xác hơn Khi kết hợp HMM và ANN trong mô hình lai, các nhiễu cộng có thể được phát hiện một cách hiệu quả, tránh gây nhầm lẫn với các âm vị khác Hệ thống HMM/ANN có tỷ lệ lỗi nhận dạng do lỗi chèn thấp hơn, có khả năng chịu đựng tốt hơn các tác động của nhiễu và âm thanh đan xen trong tiếng nói Nhờ đó, hệ thống này đạt độ chính xác nhận dạng câu cao hơn so với hệ thống CD-HMM thông thường.

Hình 2-6: Mô hình mạng lai ghép HMM/ANN

Hiện nay, các nhà nghiên cứu đã phát triển các hệ nhận dạng lai ghép giữa mạng neuron và mô hình Markov ẩn (HMM/ANN) nhằm khắc phục nhược điểm của từng phương pháp Những hệ thống này tận dụng khả năng phân lớp mạnh mẽ của mạng neuron và khả năng mô hình hóa thông tin tối ưu của mô hình Markov ẩn Mục tiêu của các nghiên cứu này là nâng cao độ chính xác và hiệu quả trong nhận dạng tín hiệu, đồng thời giảm thiểu hạn chế của từng phương pháp riêng lẻ.

18 thời gian của mô hình Markov ẩn Xác suất để mô hình ở trạng thái S i vào thời điểm t chính là đầu ra mong đợi của mạng nơ ron.

Các mô hình nhận dạng

Hầu hết các hệ thống nhận dạng giọng nói hiện nay đều dựa trên các mô hình thống kê, sử dụng xác suất và các hàm toán học để xác định đầu ra phù hợp dựa trên tín hiệu lời nói Các mô hình này phân tích một lượng lớn dữ liệu thử nghiệm để tính toán các đặc trưng quan trọng của giọng nói, giúp cải thiện độ chính xác và hiệu quả của hệ thống nhận dạng.

Mô hình thống kê âm thanh sử dụng mô hình Hidden Markov để mô phỏng các mẫu âm thanh Các tham số của mô hình này được điều chỉnh dựa trên tín hiệu thoại và cấu trúc âm thanh (acoustic topology) Để chuyển đổi dạng sóng lời nói thành các thông số tính toán, người ta sử dụng các kỹ thuật như hệ số cepstral tần số Mel (MFCC), giúp trích xuất các đặc trưng quan trọng của âm thanh Quá trình nhận dạng liên quan đến việc tìm kiếm chuỗi xác suất cao nhất từ một mô hình có sẵn, kết quả là từ ngữ có khả năng xuất hiện lớn nhất sẽ được coi là lời nói thực sự.

Mô hình Hidden Markov Model

Mô hình Hidden Markov Model (HMM) được sử dụng để dự đoán và phân tích chuỗi thời gian dựa trên xác suất, giúp xác định các trạng thái ẩn trong dữ liệu HMM thích hợp với các ứng dụng cần dự đoán chuỗi dữ liệu liên tục, như dự báo thị trường chứng khoán hoặc phân tích ngôn ngữ tự nhiên Bất cứ khi nào một chuỗi thời gian xuất hiện, HMM có khả năng xác định các mẫu và xu hướng tiềm ẩn nhằm nâng cao độ chính xác của dự đoán Áp dụng HMM giúp cải thiện quá trình phân tích dữ liệu thời gian theo hướng có căn cứ và có khả năng dự báo chính xác hơn.

HMM (Mô hình Markov ẩn) dễ dàng được áp dụng trong nhiều lĩnh vực khác nhau Hầu hết các hệ thống thông minh hiện nay đều sử dụng HMM để cải thiện hiệu suất và độ chính xác Các lĩnh vực nổi bật như Robotics, Y học, Tài chính, dịch máy và nhận dạng giọng nói đều dựa vào HMM để phát triển các ứng dụng tiên tiến Áp dụng HMM giúp các hệ thống này xử lý dữ liệu phức tạp một cách hiệu quả và linh hoạt hơn.

Trong xác suất, hai sự kiện được xem là độc lập khi kết quả của sự kiện đầu tiên không ảnh hưởng đến kết quả của sự kiện thứ hai, và ngược lại Ngược lại, các sự kiện phụ thuộc là những sự kiện mà kết quả của chúng chịu ảnh hưởng từ các sự kiện khác Markov đã phát minh ra chu trình ngẫu nhiên gọi là Chuỗi Markov, một mô hình quan trọng trong lĩnh vực xác suất và thống kê, thể hiện quá trình chuyển đổi trạng thái dựa trên trạng thái hiện tại mà không cần nhớ các quá trình trước đó.

Mô hình Markov là một hệ thống trong đó mỗi giai đoạn phụ thuộc vào một số lượng cố định các giai đoạn trước đó Chuỗi Markov First Order là dạng phổ biến và đơn giản nhất của mô hình này, trong đó giai đoạn hiện tại chỉ phụ thuộc vào giai đoạn ngay trước đó Điều này có nghĩa là giai đoạn hiện tại đủ để dự đoán các điều kiện trong tương lai theo xác suất, mà không cần xem xét các quá khứ xa hơn Mô hình Markov được ứng dụng rộng rãi trong phân tích chuỗi thời gian và dự báo hệ thống phức tạp trong nhiều lĩnh vực khác nhau.

Hình 2-9 Minh họa chuỗi Markov với hai giai đoạn với xác suất chuyển đổi aij

Hình 2-8 minh họa chuỗi Markov thể hiện xác suất chuyển đổi của thời tiết, giúp hiểu rõ cách các trạng thái thời tiết liên tiếp nhau dựa trên xác suất chuyển đổi Trong ví dụ này, phân bố ban đầu (π) đóng vai trò quan trọng trong việc xác định xác suất của các trạng thái đầu tiên trong quá trình dự đoán thời tiết Xác suất ban đầu cho các trạng thái khác nhau có thể được tính toán dựa trên dữ liệu thực tế hoặc các giả định ban đầu, giúp mô hình hóa quá trình chuyển đổi của thời tiết một cách chính xác Việc xác định đúng phân bố ban đầu là yếu tố quan trọng để dự đoán chính xác các trạng thái tiếp theo trong chuỗi Markov.

Thì xác suất của ba ngày nắng kế tiếp có thể được tính toán theo công thức dưới đây

P(có nắng, có nắng, có nắng) = πi x (0.8) = 0.3584 (2.2)

Chuỗi Markov là một quá trình xác định, trong đó các sự kiện quan sát được mô tả bằng xác suất Ứng dụng thực tế của các mô hình này thường gặp phải các tình huống không thể xác định rõ ràng Hidden Markov Model (HMM) là một phần mở rộng tự nhiên của chuỗi Markov, trong đó các giai đoạn bên trong được giữ kín và các biểu tượng hoặc chứng cứ quan sát được xuất phát từ các trạng thái ẩn này Các ký hiệu quan sát chính là các biến ngẫu nhiên, và hàm xác suất mô tả các trạng thái nội tại không quan sát HMM đã được giới thiệu lần đầu bởi L.E Baum và Petrie vào cuối năm 1966, và ngày nay, mô hình này được ứng dụng rộng rãi trong nhận diện giọng nói và các lĩnh vực trí tuệ nhân tạo khác.

Một mô hình Markov ẩn được đặc trưng bởi các thành phần cơ bản sau :

N, số trạng thái (state) trong mô hình Markov Các trạng thái thường được ký hiệu bằng S= {S 1 , S 2 , S 3 , } và trạng thái của mô hình tại thời điểm t được kí hiệu là q t , M là số ký hiệu quan sát (observation symbol), đây là kích thước của bảng từ vựng của mô hình Các ký hiệu quan sát được biểu diễn bằng V= {v 1 , v 2 , }, A = {a ij } là xác suất chuyển trạng thái (state transition probability distribution) Trong đó a ij là xác suất để trạng thái j xuất hiện tại thời điểm t+1 khi trạng thái i đã xuất hiện tại thời điểm t a ij = P(q t+1 = S j | q t = S i ) (2.3)

B={b j (k)} xác suất phát xạ quan sát trong mỗi trạng thái (observation symbol probability distribution in state), b j (k) là xác suất của quan sát v k tại trạng thái j tại thời điểm t

(2.5) π = { π1 , π 2 , , π N } xác suất trạng thái khởi đầu (initial state distribution), πi là xác suất để trạng thái i được chọn tại thời điểm khởi đầu t=1: πi =P(q 1 =S i )

Với các giá trị thích hợp A, B, π, M, N, một mô hình Markov ẩn được dùng để sinh ra một dãy các quan sát:

Trong đó O i lấy một trong các giá trị trong V Hoạt động của HMM được mô tả như sau:

Chọn một trạng thái khởi đầu q 1 tương ứng với xác suất trạng thái khởi đầu π Gán t=1

Chọn O i = v k tương ứng với xác suất quan sát tại trạng thái S i : b i (k)

Chuyển sang trạng thái mới q t+1 = S j tương ứng với xác suất chuyển trạng thái a ij Gán t=t+1 và quay lại lại bước 3) nếu t 0 là hệ số thay đổi độ tương phản, hệ số thay đổi độ sáng của ảnh

Trong đó, là ảnh ban đầu, là ảnh sau khi hiệu chỉnh Độ sáng cao Histogram

Hình 2-22: Tăng độ sáng và giản đồ histogram

Hình 2-23: Giảm độ sáng và giản đồ histogram Độ tương phản cao Histogram

Hình 2-24: Tăng độ tương phản và giản đồ histogram Độ tương phản thấp Histogram

Hình 2-25: Giảm độ tương phản và giản đồ histogram

Biểu đồ histogram phản ánh rõ ràng rằng khi điều chỉnh độ sáng, giá trị của histogram sẽ dịch sang trái hoặc phải, thể hiện sự tăng hoặc giảm độ sáng của hình ảnh Đồng thời, việc thay đổi độ tương phản sẽ khiến các giá trị trong histogram phân bổ rộng hơn ra hai biên hoặc thu lại về giữa, giúp làm nổi bật hoặc làm mềm các chi tiết trong hình ảnh Đây là các kỹ thuật chỉnh sửa quan trọng để cải thiện chất lượng hình ảnh dựa trên biểu đồ histogram.

Phát hiện biên trong ảnh là quá trình xác định các đường biên giới hoặc đường bao (contour) thể hiện sự thay đổi đáng kể các tính chất vật lý như cường độ, màu sắc hoặc kết cấu bề mặt Việc này giúp phân biệt các vùng khác nhau trong ảnh, đóng vai trò quan trọng trong nhận dạng và phân đoạn ảnh Phát hiện biên là bước quan trọng trong xử lý ảnh để nâng cao khả năng phân tích hình ảnh một cách chính xác và hiệu quả.

Các phương pháp phát hiện biên cơ bản như Gradient, Roberts, Sobel và Canny đều được sử dụng trong xử lý ảnh Trong đó, phương pháp Sobel và Canny là hai kỹ thuật phổ biến nhất nhờ độ chính xác và khả năng phát hiện biên rõ ràng Các công cụ này giúp nâng cao khả năng nhận diện biên cạnh trong ảnh gốc, hỗ trợ cho các ứng dụng như nhận diện đối tượng và phân tích hình ảnh.

Hình 2-26: Tách biên bằng phương pháp Sobel và Canny

Phương pháp Canny được thực hiện qua 5 bước:

1- Tìm gradient: Làm mờ ảnh để loại nhiễu Sử dụng bộ lọc Gaussian để loại bỏ nhiễu tần số cao cùng mặt nạ cuộn 5x5

Trong đó, là ảnh đang xét, ( , ) là hàm gaussian với mặt nạ cuộn

2- Tính độ lớn gradient: Biên được phát hiện thông qua sự thay đổi lớn gradient

3- Xác định hướng của các điểm biên:

4- Phát hiện các điểm cực đại địa phương

5- Liên kết các điểm biên.

Các ứng dụng cơ bản của công nghệ xử lý ảnh số

 Trong y học: Sử dụng phổ biến trong chụp cộng hưởng từ MRI, quét biên dạng, làm rõ nét biên dạng, ảnh X quang…

 Nhận dạng: Công nghệ xử lý ảnh được sử dụng rộng rải trong việc nhận dạng dấu vân tay, nhận dạng chữ viết, nhận dạng khuôn mặt…

 Trong công nghiệp sản xuất: Phân loại sản phẩm, theo dõi sản phẩm, hệ thống…với độ tin cậy cao

Robot sử dụng công nghệ xử lý tiên tiến để tạo ra hệ thống có khả năng tương tác linh hoạt với môi trường xung quanh Công nghệ này giúp robot thực hiện các nhiệm vụ như thị giác con người, nâng cao khả năng nhận diện và phản ứng trong các tình huống đa dạng Nhờ vào khả năng xử lý mạnh mẽ, robot ngày càng trở nên thông minh và phù hợp hơn với nhiều ứng dụng khác nhau trong cuộc sống hàng ngày.

Camera calibration

Về mặt hình học, mô hình này bao gồm một mặt phẳng ảnh và một tâm điểm

C nằm trên mặt phẳng tiêu cự

Một đặc điểm quan trọng của mô hình này là tất cả các điểm ảnh trên mặt phẳng ảnh đều tạo thành các điểm qua sẽ nằm trên cùng một đường thẳng, thể hiện tính đồng tâm của quang học Điểm này còn gọi là tâm quang, nằm trên trục quang—a đường thẳng vuông góc với mặt phẳng ảnh, được gọi là trục quang Điểm chính là điểm nằm chính giữa của hệ thống quang học, đóng vai trò trung tâm trong mô hình này, giúp xác định chính xác các vị trí và hướng của các tia sáng đi qua hệ thống quang.

Lý thuyết camera calibration sử dụng mô hình pinhole

Gọi ( , , , ) là hệ tọa độ camera, ( , , , ) là hệ tọa độ của các điểm ảnh

Thay mặt phẳng ban đầu bằng một mặt phẳng khác nằm phía bên kia mặt phẳng ban đầu giữ nguyên tính chất hình học Trong hệ tọa độ mới, mỗi điểm (x, y) sẽ có tọa độ 3D thành (x, y, z), đảm bảo sự chuyển đổi này không làm thay đổi các tính chất của hình học Điều này giúp việc phân tích và chứng minh các đặc điểm hình học trở nên dễ dàng hơn trong hệ tọa độ mới.

Hình 2-28: Hình biểu diễn một mặt phẳng khác mặt phẳng ảnh

Trong phép chiếu hình học, tất cả các điểm nằm trên một đường thẳng vuông góc với mặt phẳng chiếu sẽ được phản chiếu thành một điểm duy nhất trên mặt phẳng đó Do đó, với bất kỳ điểm nào ( , , ), khi chiếu xuống mặt phẳng ( , ), tỷ lệ ( , , ) cũng chỉ cho kết quả là một điểm duy nhất Từ lập luận này cùng với công thức (3.1), ta có thể rút ra các kết luận liên quan đến đặc tính của phép chiếu trong hình học không gian.

Phương trình (3.2) có thể được viết lại như sau:

(2.35) gọi là ma trận chiếu phối cảnh

Như vậy với mỗi một điểm ( , , )và một điểm ảnh tương ứng ( , )ta có thể viết lại :

Trong thực tế, một đối tượng thật có thể được biểu diễn bằng một hệ tọa độ 3D bất kỳ, không nhất thiết phải là hệ tọa độ camera Để thực hiện các phép tính trên các hệ tọa độ này một cách dễ dàng, ta thường chuyển đổi chúng về hệ tọa độ camera Quá trình chuyển đổi này bao gồm việc áp dụng phép quay và phép tịnh tiến để biến đổi điểm từ hệ tọa độ ban đầu sang hệ tọa độ camera, giúp thuận tiện cho các phân tích và xử lý hình ảnh.

Ma trận và vector mô tả hướng, vị trí tương đối giữa hệ tọa độ camera và hệ tọa độ thực tế, đóng vai trò quan trọng trong quá trình xác định vị trí và hướng của camera trong không gian Ma trận chứa ba phép quay theo các trục (x, y, z), giúp điều chỉnh hướng nhìn của camera một cách chính xác, trong khi vector chứa ba phép tịnh tiến, xác định vị trí tương đối của camera so với hệ tọa độ thực tế Các thông số này được gọi là thông số ngoại của camera, là yếu tố quan trọng để đảm bảo chính xác trong các ứng dụng liên quan đến xử lý hình ảnh và computer vision.

Trong thực tế, tâm của ảnh không phải lúc nào cũng là điểm chính của hình ảnh, và tỷ lệ theo các trục u, v cũng không luôn nhất quán Người ta sử dụng ma trận K để mô tả các sai lệch này, giúp xác định chính xác hơn vị trí của các điểm trong không gian hình ảnh Mối quan hệ giữa một điểm trong thực tế (MW) và một điểm ảnh (MI) có thể được thể hiện qua công thức chứa ma trận K, mang lại độ chính xác trong xử lý hình ảnh và thị giác máy tính.

Trong hệ tọa độ ảnh, tỷ lệ dọc theo hai trục là yếu tố quan trọng ảnh hưởng đến độ chính xác của hình ảnh Điểm chính của hệ tọa độ ảnh, còn gọi là gốc tọa độ, nằm ở vị trí xác định tham chiếu để đo lường các điểm trong hình Góc thể hiện độ méo giữa hai trục của ảnh, giúp đánh giá mức độ biến dạng hoặc sai lệch hình ảnh so với trạng thái lý tưởng Nếu trong ảnh lý tưởng, hai trục vuông góc với nhau thì góc này bằng 0, đảm bảo sự chính xác của góc vuông trong hệ thống tọa độ.

Hình 2-30: Tương quan của ảnh lý tưởng và thực tế

Việc xác định mối quan hệ giữa các điểm ảnh và điểm thực tế bên ngoài giúp ta có thể tái tạo các điểm 3D chính xác từ hình ảnh thu được Tuy nhiên, bước quan trọng đầu tiên là xác định các thông số của camera, gồm 5 thông số nội và 6 thông số ngoại Quá trình này gọi là hiệu chỉnh camera (camera calibration) Vì mỗi loại camera có ống kính và vị trí khác nhau, nên không có một bộ thông số chung nào phù hợp cho tất cả các loại camera; chúng cần được tùy chỉnh riêng cho từng thiết bị.

Nhận diện hình ảnh của Google

Hình 2-31: Nhận diện hình ảnh và chữ viết của Google vision

Google đã ra mắt phiên bản beta mới của ứng dụng trên đám mây, mang đến khả năng nhận diện khuôn mặt, dấu hiệu, mốc, đối tượng, văn bản và cảm xúc trong cùng một hình ảnh Đây là bước tiến đáng chú ý trong công nghệ phân tích hình ảnh, giúp người dùng dễ dàng nhận diện và hiểu nội dung trong ảnh một cách chính xác hơn Phiên bản mới nâng cao khả năng xử lý dữ liệu hình ảnh, tối ưu hóa trải nghiệm người dùng và hỗ trợ các ứng dụng đòi hỏi phân tích sâu hình ảnh trên nền tảng đám mây của Google.

Google Cloud Vision API là công cụ mạnh mẽ được hỗ trợ bởi các công nghệ tiên tiến tương tự như các nền tảng tìm kiếm hàng đầu của Google API này giúp các nhà phát triển và người dùng dễ dàng phân tích và sắp xếp hình ảnh dựa trên nhiều tiêu chí khác nhau Với khả năng nhận diện đa dạng đối tượng và nội dung trong ảnh, Google Cloud Vision API nâng cao hiệu quả quản lý hình ảnh cho các dự án công nghệ.

Vision API của Google có khả năng nhận diện và chọn ra các đối tượng trong hình ảnh, từ văn bản trên biển hiệu đến thức ăn trên đĩa hoặc khuôn mặt trong đám đông Công nghệ tìm kiếm an toàn của Google tích hợp vào các API giúp xác định nội dung không phù hợp trong hình ảnh hoặc lọc các hình ảnh dựa trên chủ đề, đảm bảo an toàn và phù hợp cho người dùng.

API có tính năng nhận diện khuôn mặt và cảm xúc, giúp xác định hình ảnh hiển thị cảm xúc nhất định một cách chính xác Nền tảng điện toán đám mây của Google có khả năng phát hiện cảm xúc như sợ hãi dễ dàng, mang lại giải pháp hiệu quả cho các ứng dụng phân tích hình ảnh Điều này cho thấy công nghệ AI của Google không chỉ nhận diện hình ảnh mà còn hiểu được tâm trạng người dùng thông qua cảm xúc thể hiện trên khuôn mặt.

43 taco hoặc một con cá vàng Các API này của Google được sử dụng chủ yếu dành cho việc phát triển sản phẩm

Công nghệ nhận diện hình ảnh đang mở ra cơ hội đột phá cho các ứng dụng tìm kiếm hình ảnh, cho phép xác định thương hiệu quần áo chỉ bằng cách chụp ảnh người nộm Ngoài ra, nó còn có khả năng liệt kê chính xác mô hình của xe hơi hoặc máy tính khi đăng bán trực tuyến chỉ bằng cách tải lên hình ảnh Ứng dụng này giúp quá trình tìm kiếm và xác định sản phẩm trở nên nhanh chóng, chính xác hơn, mang lại trải nghiệm tối ưu cho người dùng.

Google đã đề xuất nhiều ứng dụng tiềm năng cho Vision API, bao gồm hỗ trợ các trang web trong việc lưu trữ hình ảnh có bản quyền hoặc phản cảm, cũng như giúp các hệ thống máy tính nhận diện chính xác các đối tượng hoặc khuôn mặt xuất hiện trong hình ảnh.

Các nhà phát triển có thể bắt đầu sử dụng Google Cloud Vision API từ đầu năm 2016 và được miễn phí 1.000 lượt sử dụng cho mỗi tính năng hàng tháng, giúp dễ dàng tích hợp công nghệ phân tích hình ảnh vào các ứng dụng của mình Những người cần bộ lọc hình ảnh nâng cao có thể phải trả từ $0,60 đến $5 mỗi tháng cho mỗi tính năng, tùy thuộc vào mức độ sử dụng, mang lại khả năng tùy chỉnh và tối ưu hóa phù hợp với nhu cầu của doanh nghiệp.

TÍNH TOÁN VÀ THIẾT KẾ

Nguyên lý hoạt động của hệ thống

Hệ thống phục vụ trong khu vực được thiết kế để cung cấp thông tin cho khách hàng khi cần hỗ trợ Hệ thống gồm màn hình hiển thị, camera và micro để nhận yêu cầu của khách, giúp quá trình cung cấp dịch vụ trở nên thuận tiện và nhanh chóng Khách hàng có thể nói trực tiếp hoặc ghi địa chỉ mong muốn đến, sau đó hệ thống sẽ xử lý và cung cấp các thông tin cần thiết như thời tiết, thời gian và địa điểm Điều này giúp nâng cao trải nghiệm khách hàng và tối ưu hóa hoạt động dịch vụ trong khu vực.

Phương thức hoạt động của bộ xử lý trung tâm

Sau khi đón tiếp khách và nhận được thông tin yêu cầu hỗ trợ thì có hai phương thức xử lý thông tin như sau:

Hệ thống gồm các robot độc lập với bộ xử lý ngoại tuyến, không sử dụng điện toán đám mây

- Do không phụ thuộc vào tốc độ kết nối với máy chủ, nên bộ xứ lý thông tin nhanh

- Khả năng tùy biến của hệ thống cao, do người lập trình quyết định Nhược điểm:

Do robot phải xử lý thông tin ngoại tuyến và lưu trữ dữ liệu trực tiếp trên thiết bị, nên yêu cầu cao về khả năng lưu trữ lớn và tốc độ xử lý nhanh Điều này đảm bảo robot hoạt động hiệu quả và chính xác trong quá trình thực hiện nhiệm vụ Việc trang bị bộ nhớ dung lượng lớn và khả năng xử lý nhanh giúp robot quản lý dữ liệu một cách tối ưu và giảm thiểu thời gian phản hồi Các yêu cầu này là yếu tố then chốt để nâng cao hiệu suất hoạt động của robot trong các ứng dụng công nghiệp và tự động hóa.

- Cở sở dữ liệu của hệ thống do người dùng riêng lẽ phát triển, không được kết nối với nhau nên khả năng cập nhật hạn chế

Hình 3-2: Robot đang phục vụ tại các quán ăn

Hệ thống xử lý của robot được kết nối trực tuyến, giúp đảm bảo truyền tải dữ liệu nhanh chóng và hiệu quả Robot hoạt động như một thiết bị ngoại vi, thực hiện chức năng thu thập và tiền xử lý dữ liệu quan trọng trong quá trình vận hành Các thông tin thu thập được sẽ gửi về điện toán đám mây để xử lý, tối ưu hóa khả năng phân tích và ra quyết định tự động.

Hình 3-3: minh họa cho một trạm robot đang phục vụ khách Ưu điểm:

- Hệ thống xử lý của robot được giảm nhẹ rất nhiều do chỉ thu thập thông tin và phản hồi thông tin đến người dùng

- Cơ sở dữ liệu của điện toán đám mây rất đa dạng và phong phú, nên có thể xử lý được nhiều đối tượng khác nhau

- Cơ sở dữ liệu được phát triển và kế thừa nên khả năng mở rộng cao Hệ thống được cải tiến theo thời gian

- Với điện toán đám mây khả năng phát triển theo mạng robot và dễ dàng trao đổi thông tin giữa các robot với nhau

- Nhược điểm lớn nhất của hệ thộng xử lý trực tuyến là phụ thuộc nhiều vào đường truyền Internet tại nơi lắp đặt

- Do được phát triển bởi bên thứ ba nên khả năng tùy biến còn hạn chế, phụ thuộc vào giao thức bên nhà cung cấp.

Bộ xử lý nhúng

Điện toán đám mây, được phát triển bởi Google, mang lại khả năng hỗ trợ mạnh mẽ cho các thiết bị di động chạy hệ điều hành Android Điều này giúp việc truy cập và quản lý dữ liệu trở nên dễ dàng hơn trên các thiết bị di động, tạo điều kiện thuận lợi cho người dùng trong công việc hàng ngày Với sự tích hợp của điện toán đám mây, các thiết bị Android có thể tận dụng tối đa nền tảng lưu trữ đám mây để nâng cao hiệu suất làm việc và trải nghiệm người dùng.

47 hiện nay đã được thiết kế sản phẩm hoàn chỉnh Các nhà phát triển chỉ tập trung phát triển phần mềm ứng dụng

Bên cạnh những thuận lợi, việc thiết kế các hệ thống đặc thù gặp nhiều khó khăn do không thể can thiệp vào phần cứng Tuy nhiên, công nghệ chế tạo mạch điện hiện nay giúp dễ dàng xây dựng các hệ thống giao tiếp dựa trên mạch xử lý nhúng, hỗ trợ tốc độ xử lý cao và đa dạng phương thức liên lạc Các hệ thống nhúng cho phép kiểm soát phần cứng linh hoạt, dễ dàng tích hợp vào các hệ thống tổng thể.

Sơ đồ tổng quát hệ thống

Với phương thức đã chọn hệ thống nhúng và phương thức xử lý trực tuyến nên hệ thống được tổng quát như sau

Hình 3-4: Sơ đồ khối tổng quát hệ thống

- Khối nguồn gồm các nguồn cấp cho toàn bộ hệ thống

Mạch chủ tích hợp Raspberry Pi 3 nhận dữ liệu từ camera, micro, GPS và các cảm biến khác để xử lý thông qua nền tảng điện toán đám mây Google Sau đó, hệ thống hiển thị kết quả trên màn hình, đảm bảo quá trình truyền tải và xử lý dữ liệu diễn ra chính xác và hiệu quả Việc sử dụng Raspberry Pi 3 giúp giảm thiểu thời gian xử lý và tối ưu hóa khả năng tương tác của hệ thống vật lý và đám mây.

- Khối hiển thị là màn hình LCD 7inch và các led hiển thị khác, dùng để hiển thị các thông giao tiếp với người dùng

GPS Thân robot Điện toán đám mây Google

- Khối camera, micro được tích hợp chung trong camera logitech C270, dùng để nhận giọng nói và hình ảnh của người dùng để đưa về mạch chủ.

Lưu đồ giải thuật

Quá trình giao tiếp và hỗ trợ người dùng được mô tả theo lưu đồ sau.

Hình 3-5: Lưu đồ giải thuật xử lý của hệ thống

Hệ điều hành nhân Linux

Linux là một hệ điều hành mã nguồn mở, nổi bật với nhân kernel – phần cốt lõi quản lý tài nguyên phần cứng và phần mềm của hệ thống Hệ điều hành Linux còn đi kèm với một bộ sưu tập các ứng dụng người dùng, bao gồm thư viện, trình quản lý cửa sổ và các phần mềm tiện ích, mang lại sự linh hoạt và tùy biến cao cho người dùng.

Hình 3-6: Cấu trúc tổng quát của một hệ thống Linux [4]

Sơ đồ thể hiện các thành phần quan trọng của kiến trúc Linux, trong đó tầng cuối cùng đóng vai trò là tập hợp mã kiến trúc giúp hệ điều hành Linux tương thích và hỗ trợ đa nền tảng phần cứng như ARM, PowerPC và các kiến trúc khác, nâng cao khả năng mở rộng và linh hoạt cho hệ thống.

Hình 3-7: Giao diện hệ điều hành Ubuntu Desktop 10.04 nhân Linux

Linux nổi bật với tính di động cao nhờ hệ thống con trình điều khiển hỗ trợ động các mô-đun nạp vào hệ thống mà không làm ảnh hưởng đến hiệu suất Điều này giúp hệ thống Linux trở nên linh hoạt và dễ mở rộng, phù hợp cho các môi trường yêu cầu tính modul và tối ưu hiệu năng.

Các ưu điểm nổi bật của Linux

Linux là hệ điều hành mã nguồn mở linh hoạt và dễ tùy chỉnh, cho phép người dùng sửa đổi theo ý thích mà không cần sự đồng ý của bên thứ ba, khác biệt hoàn toàn so với Windows Nhờ vào cộng đồng phát triển lớn mạnh, việc tìm kiếm và sử dụng các phiên bản Linux phù hợp với nhu cầu cá nhân trở nên dễ dàng hơn bao giờ hết Tính linh hoạt của Linux còn thể hiện qua khả năng tương thích cao với nhiều môi trường và hệ thống khác nhau Đặc biệt, Linux có hệ thống phân quyền rõ ràng, chỉ "root" mới có quyền cài đặt và thay đổi hệ thống, trong khi các người dùng bình thường có thể tạm thời nâng quyền "root" để thực hiện các thao tác cần thiết Điều này giúp hệ thống hoạt động ổn định, giảm thiểu rủi ro gây lỗi hoặc sự cố hệ thống.

Tính chất "mở" của Linux là yếu tố tạo nên sự an toàn cao cho hệ điều hành này Khi một lỗ hổng bảo mật được phát hiện, cộng đồng mã nguồn mở nhanh chóng phối hợp sửa chữa, thường chỉ trong vòng 24 giờ đã có bản vá lỗi mới Đặc điểm này giúp Linux duy trì tính bảo mật và ổn định vượt trội so với nhiều hệ điều hành khác.

Linux hoạt động mạnh mẽ trên nhiều hệ thống phần cứng khác nhau, từ Intel 486 đến các máy Pentium mới nhất Hệ điều hành này đảm bảo tính ổn định cao dù được phát hành qua nhiều phiên bản bởi các nhà phân phối khác nhau Linux còn phù hợp với nhiều cấu hình phần cứng, từ những máy có RAM chỉ 4MB đến các hệ thống có cấu hình cực kỳ mạnh mẽ, mang lại sự linh hoạt và đáng tin cậy cho người dùng.

Hệ thống nhúng là các hệ thống tự trị được tích hợp bên trong môi trường hoặc hệ thống mẹ, có khả năng hoạt động độc lập và thực hiện các nhiệm vụ đặc thù Chúng đóng vai trò quan trọng trong việc tối ưu hóa hiệu suất và tự động hóa các quy trình trong nhiều lĩnh vực Với đặc điểm tích hợp, hệ thống nhúng giúp nâng cao khả năng điều khiển, giám sát và truyền dữ liệu một cách hiệu quả.

Hệ thống nhúng bao gồm cả phần cứng và phần mềm, được thiết kế để phục vụ các bài toán chuyên dụng trong nhiều lĩnh vực như công nghiệp, tự động hóa điều khiển, quan trắc và truyền tin Đặc điểm nổi bật của các hệ thống này là hoạt động ổn định, đảm bảo hiệu suất cao, đồng thời có tính năng tự động hóa cao giúp tối ưu hóa quá trình vận hành và giám sát các hệ thống trong công nghiệp.

Hệ thống nhúng được thiết kế để thực hiện các chức năng chuyên biệt, khác với máy tính đa năng như máy tính cá nhân Chúng thường thực hiện một hoặc vài chức năng cụ thể đi kèm yêu cầu đặc thù, sử dụng phần cứng và thiết bị chuyên dụng không có trong máy tính đa năng Vì tập trung vào nhiệm vụ nhất định, các nhà thiết kế có thể tối ưu hóa hệ thống để giảm thiểu kích thước và chi phí sản xuất Hệ thống nhúng thường được sản xuất hàng loạt với số lượng lớn để đáp ứng nhu cầu thị trường.

Hệ thống nhúng đa dạng với nhiều chủng loại, từ các thiết bị cầm tay nhỏ gọn như đồng hồ kỹ thuật số và máy nghe nhạc MP3 đến các hệ thống lớn như đèn giao thông, bộ kiểm soát trong nhà máy hoặc hệ thống kiểm soát năng lượng hạt nhân Các hệ thống này có thể đơn giản chỉ gồm một vi điều khiển hoặc phức tạp với nhiều thiết bị ngoại vi, mạng lưới và thành phần tích hợp trong một vỏ máy lớn.

Hình 3-8: Một số thiết bị sử dụng hệ thống nhúng [4]

THỰC NGHIỆM VÀ KẾT QUẢ

Ngày đăng: 08/12/2022, 20:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Campbell, “Speaker Recognition: A Tutorial”, Proceedings of the IEEE, vol. 85, no. 9, 1997 Sách, tạp chí
Tiêu đề: Speaker Recognition: A Tutorial
Tác giả: Campbell
Nhà XB: Proceedings of the IEEE
Năm: 1997
[2] Campbell, J. P., Reynolds, D. A., and Dunn, R. B., “Fusing High- and Low-Level Features for Speaker Recognition”, In Proc. Eurospeech in Geneva, Switzerland, ISCA, 2003, pp. 2665-2668 Sách, tạp chí
Tiêu đề: Fusing High- and Low-Level Features for Speaker Recognition
Tác giả: Campbell, J. P., Reynolds, D. A., Dunn, R. B
Nhà XB: Eurospeech Proceedings
Năm: 2003
[3] Chen, K., Dahong, X., and Huisheng, C.(1996): “Speaker Identification Using Time-Delay HMEs”, China International Journal of Neural Systems, vol. 7, no.1, 1996 Sách, tạp chí
Tiêu đề: Speaker Identification Using Time-Delay HMEs
Tác giả: Chen, K., Dahong, X., Huisheng, C
Nhà XB: China International Journal of Neural Systems
Năm: 1996
[4] David Chappell & Associates, Introducing the Azure Services Platform. An easy look at Windows Azure Services Platform, 2008 Sách, tạp chí
Tiêu đề: Introducing the Azure Services Platform. An easy look at Windows Azure Services Platform
Tác giả: David Chappell & Associates
Năm: 2008
[5] Fisusi, A., “Development of a Text-Independent Speaker Identification System”, An MSc Thesis submitted to the Department of Electronic and Electrical Engineering, Obafemi Awolowo University, Ile-Ife, Nigeria, 2007, 101p Sách, tạp chí
Tiêu đề: Development of a Text-Independent Speaker Identification System
Tác giả: Fisusi, A
Nhà XB: Obafemi Awolowo University
Năm: 2007
[6] Forsberg M. Why is Speech Recognition Difficult, Department of Computing Science, Chalmers University of Technology, 24 February 2003 Sách, tạp chí
Tiêu đề: Why is Speech Recognition Difficult
Tác giả: Forsberg, M
Nhà XB: Department of Computing Science, Chalmers University of Technology
Năm: 2003
[7] Gish, H., and Schmit, “Text-Independent Speaker Identification”,IEEE, Signal Processing Magazine,1994 Sách, tạp chí
Tiêu đề: Text-Independent Speaker Identification
Tác giả: Gish, H., Schmit
Nhà XB: IEEE Signal Processing Magazine
Năm: 1994
[8] Janaki Prasad Koirala, Identity Verification with Speech Recognition. Helsinki Metropolia University of Applied Sciences, 2013 Sách, tạp chí
Tiêu đề: Identity Verification with Speech Recognition
Tác giả: Janaki Prasad Koirala
Nhà XB: Helsinki Metropolia University of Applied Sciences
Năm: 2013
[9] John D. Cook. (2009, August) The Endeavour, http://www.johndcook.com/ blog/2009/08/24/algorithms-convert-color-grayscale/ Sách, tạp chí
Tiêu đề: Algorithms to convert color to grayscale
Tác giả: John D. Cook
Nhà XB: The Endeavour
Năm: 2009
[10] Judith Hurwitz, Robin Bloor, Marcia Kaufman, Cloud Computing for Dummies, Wiley Publishing, Inc Sách, tạp chí
Tiêu đề: Cloud Computing for Dummies
Tác giả: Judith Hurwitz, Robin Bloor, Marcia Kaufman
Nhà XB: Wiley Publishing, Inc
[12] Pan, Y. and Waibel, A., “The Effects of the Room Acoustics on MFCC Speech Parameter,” International Conference on 51 African Journal of Information and Communication Technology, Vol. 3, No. 2, June 2007 Spoken Language Processing 2000 (ICSLP 2000) Sách, tạp chí
Tiêu đề: The Effects of the Room Acoustics on MFCC Speech Parameter
Tác giả: Pan, Y., Waibel, A
Năm: 2007
[14] Phan Vân Hoàn, “Giáo trình vi xử lý nâng cao”, Đại Học Sư Phạm Kỹ Thuật Tp.HCM, 2015 Sách, tạp chí
Tiêu đề: Giáo trình vi xử lý nâng cao
Tác giả: Phan Vân Hoàn
Nhà XB: Đại Học Sư Phạm Kỹ Thuật Tp.HCM
Năm: 2015
[15] Reynolds, D. A., “An Overview of Automatic Speaker Recognition Technology”, Proceedings of the IEEE International Conference on Acoustics,Speech, and Signal Processing, vol. 4, 2002 Sách, tạp chí
Tiêu đề: An Overview of Automatic Speaker Recognition Technology”, "Proceedings of the IEEE International Conference on Acoustics,Speech, and Signal Processing
[16] Zilca, R.D., Navratil, J. and Ramaswamy,N. “Syncpitch: A pseudo pitch synchronous algorithm for speaker recognitio”, Proceedings of EUROSPEECH, 2003 Sách, tạp chí
Tiêu đề: Syncpitch: A pseudo pitch synchronous algorithm for speaker recognitio”

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm