bao cao mau potx

Cách thức thu thông tin: Bằng các sensor cảm biến Sensor: Một thiết bị phản ứng với một kích thích vật lý nhiệt, ánh sáng, âm thanh, áp lực, từ tính hoặc chuyển động cụ thể và truyền xun

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

VIỆN ĐIỆN

BÁO CÁO NHẬP MÔN ĐIỆN CHỦ ĐỀ: PERCEPTIVE COMPUTING

Nhóm sinh viên:

Nguyễn Văn Tới Bùi Đức Thịnh Lều Như Tình

Lê Khắc Trường

Giáo viên hướng dẫn:

TS Nguyễn Hoàng Nam

11/2011

Trang 2

MỤC LỤC

Trang 3

Viết tắt

Trang 4

Hình vẽ

Trang 5

Bảng

Trang 6

Lời mở đầu

Trang 7

Perceptive computing

(Nhận thức máy tính):

Là một lĩnh vực mới để kết hợp nhận thức và thị giác, tầm nhìn và trực

quan Nó là một mô phỏng tính toán của con người cái nhìn sâu sắc hay trực giác trong phân tích dữ liệu lớn, giải quyết vấn đề và học tập Nhận thức của con người có thể nắm bắt các mô hình phức tạp, các mối quan hệ và các ngoại

lệ trong một bộ dữ liệu

Nhận thức máy tính là một lĩnh mới để kết hợp nhận thức thị giác, tầm

nhìn và trực quan

Nó là một mô phỏng tính toán cái nhìn sâu sắc hay trực giác trong phân tích dữ liệu lớn, giải quyết vấn đề và học tập của con người Nhận thức của con người có thể nắm bắt các mô hình phức tạp, các mối quan hệ và các ngoại

lệ trong một bộ dữ liệu

Nhận thức máy tính là một cách để tóm tắt, tách rời dữ liệu vào bộ phận quan trọng và thông qua bản tóm tắt thông tin cho các cơ quan quyết định Tuy nhiên, nhiều thuật toán "trực quan" không thể mở rộng

Trong nhiều trường hợp, chúng ta phải thỏa hiệp các yếu tố như:

tính chính xác, quy mô và tốc độ, hoặc sử dụng triệt để phương pháp tiếp cận như chiều nén, ngẫu nhiên, v v

Đây là một dự án theo định hướng khóa học tiên tiến Mục tiêu của lớp học là phát triển các thuật toán có tầm nhìn mới để giải quyết các vấn đề thế giới thực

Trang 8

Cách thức thu thông tin: Bằng các sensor (cảm biến)

Sensor: Một thiết bị phản ứng với một kích thích vật lý (nhiệt, ánh sáng,

âm thanh, áp lực, từ tính hoặc chuyển động cụ thể) và truyền xung (như đối với đo lường hoặc một hoạt động điều khiển)

Cảm biến là một thiết bị có chức năng thu nhận và đáp ứng tín hiệu Cảm biến đo những thay đổi rất nhỏ nên có sự nhạy cảm cao

Vd: Cảm biến quang điện (Photoelectric sensors), cảm biến tiệm cận (Proximity sensors), cảm biến áp suất (Pressure sensors), cảm biến phát hiện bằng siêu âm (Ultrasonic sensors) …

Nhận dạng giọng nói

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn

vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói

Trang 9

Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm

Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng

Các cách tiếp cận nhận dạng tiếng nói bằng thống kê bao gồm: sử dụng mô hình Markov ẩn, mạng nơ-ron, sử dụng cơ sở tri thức, v.v

Trang 10

Khu vực hoạt động: room, building, district…

Quản lý: computer + wireless network

Phân tích các tín hiệu liên tục → Quyết định, điều khiển: Alarms, vocal answer…

Xây dựng mạng cảm biến

Trang 11

Các dự án về “cảm quan máy tính”

Trên thế giới có một số các dự án nghiên cứu về “cảm quan máy tính” và ứng dụng trong công nghệ kĩ thuật

 BlueEyes (IBM Almaden Computer Science Research Lab)

 Mutilmodal Interfaces (The Human Technology Interfaces Lab,

Washington University)

 Cognitive Computing Chips (IBM Research & Some Universitys)

Trang 12

DỰ ÁN BLUEEYES

Mục đích, đặ điểm dự án:

 Sử dụng công nghệ thân thiện, không gây khó chịu.

 Trích xuất, xử lý các thông tin quan trọng từ các dấu hiệu và cử chỉ của người sử dụng.

 Những tín hiệu được phân tích để xác định vật lí của người sử dụng, trạng thái cảm xúc hoặc thông tin.

 Chú ý đến môi trường – môi trường người sử dụng và bối cảnh nhận thức.

Một số đối tượng nghiên cứu:

 Hệ thống cảm biến

 Camera – Hệ thống thu nhận hình ảnh.

 Mic – Hệ thống thu nhận âm thanh.

 Điều khiển

Các thuộc tính nhận dạng:

 Bằng giọng nói.

 Bằng cử chỉ.

 Trạng thái sinh lý của đối tượng.

 Sự chuyển động vật thể trong không gian.

Các thành phần, đối tượng trong nghiên cứu:

 Sử dụng chuột cảm ứng

 Người sử dụng

 Biểu hiện nhận dạng khuân mặt

Trang 13

 Magic

 Nhận diện đối tượng

Chuột cảm ứng

Các tính năng:

 Đơn giản chỉ cần bằng cách chạm vào hoặc sử dụng chuột thông thường máy tính sẽ có thể

để xác định trạng thái cảm xúc của con người

 Các trạng thái cảm xúc sau đó có thể liên quan đến nhiệm vụ người dùng đang làm trên máy tính.

 Theo thời gian, một mô hình người sử dụng có thể được xây dựng và máy tính có thể thích ứng với người sử dụng để tạo ra một môi trường lam việc tốt hơn.

Hoạt động

 IR – Nhịp tim

 GSR – Galvanic da đáp ứng

 GSA – Tổng soma cuối

Hình ảnh người sử dụng

Quá trình làm việc:

 IR, GSA và GSR đầu vào vào một loạt các phân tích chức năng phân biệt và xử lý.

 Kết quả là tương quan với một trạng thái cảm xúc.

 Do đó, một hệ thống đã được thiết lập trạng thái sinh lí của người dùng và các hành động

có liên quan.

Trang 14

Biểu hiện nhận dạng khuân mặt

 Đánh giá cảm xúc bằng cách sử dụng hình ảnh của người đó.

 Trạng thái đơn giản như lo lắng và hạnh phúc có thể được đánh giá một cách dễ dàng

 Các trạng thái phức tạp vẫn còn đang được nghiên cứu

MAGIC (Hướng dẫn thâu tóm với kiểm soát Gaze)

 Sử dụng ánh mắt theo dõi để nhận thức khu vực của người sử dụng quan tâm.

 Con trỏ chuột di chuyển đến khu vực của màn hình mà người dùng đang nhìn.

 Tuy nhiên nút chuột được sử dụng để lựa chọn vị trí của mắt là không chính xác.

Người sử dụng:

 Đặt các thiết bị máy tính liên lạc với nhu cầu thông tin của người dùng khi họ thay đổi.

 Có thể suy ra loại thông tin cần thiết cho người dùng tại một thời điểm cụ thể và cung cấp nó.

 Thu thập dữ liệu thông minh và khai thác dữ liệu.

Xác định vị trí

 Phát hiện nhanh chóng, mạnh mẽ.

 Sử dụng hồng ngoại (IR) ghép nối các nguồn sáng theo thời gian.

 Có thể được sử dụng để theo dõi người dùng tại một điểm.

 Phát hiện lệnh điều khiển của người dung bằng cử chỉ của mắt.

Giao diện đa phương thức

 Phát triển thư viện phần mềm kết hợp đa phương thức đầu vào vào giao diện máy tính của con người.

 Cho phép con người tương tác với máy tính một sự pha trộn trực quan bằng giọng nói, cử chỉ, ánh mắt, lời nói và chuyển động cơ thể.

Các dự án

 Thông minh đàm thoại Avatar

 HMRS (hệ thống nhận dạng chuyển động tay)

Đàm thoại qua khuân mặt

Trang 15

Mục đích

Phát triển hệ thống các mô đun và phân tích cú pháp tự nhiên dể nhận dạng các trạng thái cảm xúc

từ đầu vào.

Thông tin được sử dụng để thiết lập các biểu hiện của khuân mặt.

Nhận dạng giọng nói

Nhận dạng tiếng nói là một quá trình nhận dạng mẫu, với mục đích là phân lớp (classify) thông tin đầu vào là tín hiệu tiếng nói thành một dãy tuần tự các mẫu đã được học trước đó và lưu trữ trong bộ nhớ Các mẫu là các đơn

vị nhận dạng, chúng có thể là các từ, hoặc các âm vị Nếu các mẫu này là bất biến và không thay đổi thì công việc nhận dạng tiếng nói trở nên đơn giản bằng cách so sánh dữ liệu tiếng nói cần nhận dạng với các mẫu đã được học và lưu trữ trong bộ nhớ Khó khăn cơ bản của nhận dạng tiếng nói đó là tiếng nói luôn biến thiên theo thời gian và có sự khác biệt lớn giữa tiếng nói của những người nói khác nhau, tốc độ nói, ngữ cảnh và môi trường âm học khác nhau Xác định những thông tin biến thiên nào của tiếng nói là có ích và những thông tin nào là không có ích đối với nhận dạng tiếng nói là rất quan trọng Đây là một nhiệm vụ rất khó khăn mà ngay cả với các kỹ thuật xác suất thống kê mạnh cũng khó khăn trong việc tổng quát hoá từ các mẫu tiếng nói những biến thiên quan trọng cần thiết trong nhận dạng tiếng nói

Các nghiên cứu về nhận dạng tiếng nói dựa trên ba nguyên tắc cơ bản: Tín hiệu tiếng nói được biểu diễn chính xác bởi các giá trị phổ trong một khung thời gian ngắn (short-term amplitude spectrum) Nhờ vậy ta có thể trích ra các đặc điểm tiếng nói từ những khoảng thời gian ngắn và dùng các đặc điểm này làm dữ liệu để nhận dạng tiếng nói

Trang 16

Nội dung của tiếng nói được biểu diễn dưới dạng chữ viết, là một dãy các ký hiệu ngữ âm Do đó ý nghĩa của một phát âm được bảo toàn khi chúng ta phiên âm phát âm thành dãy các ký hiệu ngữ âm

Nhận dạng tiếng nói là một quá trình nhận thức Thông tin về ngữ nghĩa (semantics) và suy đoán (pragmatics) có giá trị trong quá trình nhận dạng tiếng nói, nhất là khi thông tin về âm học là không rõ ràng

Các cách tiếp cận nhận dạng tiếng nói bằng thống kê bao gồm: sử dụng mô hình Markov ẩn, mạng nơ-ron, sử dụng cơ sở tri thức, v.v

Multimodal Interfaces

Dự án này liên quan đến sự phát triển của thư viện phần mềm để kết hợp đa phương thức đầu vào vào giao diện máy tính của con người

Các thư viện kết hợp ngôn ngữ tự nhiên và kỹ thuật trí tuệ nhân tạo để cho phép máy tính tương tác của con người với một sự pha trộn trực quan bằng giọng nói, cử chỉ, ánh mắt, lời nói và chuyển động cơ thể

Thiết kế giao diện sẽ có thể sử dụng phần mềm này cho cả hai sự hiểu biết trình độ cao và thấp của các đầu vào đa phương thức và thế hệ của các phản ứng thích hợp

Trang 17

Tài liệu tham khảo

Trang 18

Phụ lục

Định dạng
Số trang	18
Dung lượng	606,5 KB