Những tư tưởng cạnh tranh của các hệ chuyên gia trong quá trình phát triển ?

Một phần của tài liệu ĐỒ ÁN CƠ SỞ Tìm hiểu Deep Learning và ứng dụng Camera an ninh thông minh (Trang 40 - 51)

Chương II Hệ thống phân tích, định nghĩa một vật thể, khái quát hình ảnh có thể giúp định nghĩa vật thể

4. Những tư tưởng cạnh tranh của các hệ chuyên gia trong quá trình phát triển ?

Năm 1970 và 1980, hệ chuyên gia đầu tiên có tên là MYCIN được phát

dữ liệu và quy tắc từ các chuyên gia y học về bệnh truyền nhiễm, cũng như các triệu chứng và bệnh án từ bệnh nhân. Sau đó nhập chúng vào máy tính và lập trình bằng logic để suy luận, kết q uả là không thành công và đội ngũ phát triển đã gặp khó khăn trong việc thu nhập dữ liệu và quy tắc từ các chuyên gia (Đặc biệt là những lĩnh vực phức tạp). Các nhà chuẩn đoán không phụ thuộc vào quy tắc mà tiến hình nhận dạng mẫu dựa trên kinh nghiệm – thứ mà máy tính rất khó để mã hóa và hệ thống phải được cập nhật nhật liên tục khi dữ liệu mới đưa vào và quy tắc cũ trở nên lỗi thời.

Quá trình đó sẽ mất rất nhiều thời gian cho mỗi bệnh nhân và sẽ không thể đáp ứng thời gian được cho những bác sĩ bận rộn.

Năm 1984, Douglas Lenat bắt đầu một dự án có tên là “CYC” để mã hóa các giác quan cơ bản – nó đã là một ý tưởng được kì vọng nhưng vào thời điểm đó thật sự là một ác mộng. Chúng ta có thể nhận thức được thế giới bằng giác quan nhưng để có thể xác định được thế giới và cách thức hoạt động của nó đều hầu như dựa vào kinh nghiệm.

2 2 Minh Họa

Các nhà nghiên cứu đã thử nghiệm nhiều các tiếp cận khác nhau trong những thập niên đầu của trí tuệ nhân tạo. Song những các tiếp cận của họ không đáp ứng vào thực tế. Họ không chỉ đánh giá thấp sự phức tạp của các vấn đề trong thế giới thực mà còn đề xuất những giải pháp có quy mô tệ. Những người tiên phong trong lĩnh vực trí tuệ nhân tạo đã cố gắng viết các chương trình máy tính với chứ năng như trí thông minh của con người những lại không quan tâm đến cách thức não bộ đạt được hành vi thông minh.

Thập niên 1980, măc dù đã có them nhiều kiến thức về não bộ và những hiểu biết về sinh học. Nhưng các nhà nghiêm cứu trí tuệ nhân tạo lại không mấy quan tâm đến não bộ.

Ngày nay với sự nghiên cứu phát triển, những người có xu hướng chủ đạo đã đặt niềm tin và tiến vào tiếp cận trí tuệ nhân tạo bằng cách lấy cảm hứng từ nguyên lý sinh học của não bộ và gọi tên như “Mạng Neural”,

“Chủ nghĩa kết nối”, “Xử lý phân tán song song” – và những phương pháp này đã có thể giải quyết đưuọc các vấn đề mà AI đang gặp phải khó khăn tưởng chừng như không thể vượt qua.

B. Cách thức hoạt động.

a. Nguyên tắc về hình ảnh.

Pixel

Pixel là một khối màu nhỏ trong hình ảnh. Mọi hình ảnh đều được bao gồm bởi mạng lưới pixel và không có một đơn vị đo hình ảnh nào có thể tốt hơn Pixel. Hầu hết các pixel được đại diện bằng hai cách :

 Thanh độ xám(Grayscale) : Là một giá trị vô hướng giữa 0 (đen) và 255 (trắng). Nếu giá trị gần đến 0 sẽ trở nên tối hơn và các giá trị gần 255 sẽ sáng hơn.

 Màu sắc(Color) : Thường được đại diện cho các mô hình màu RGB (Red/Green/Blue). Mỗi màu của RGB có thể được xác định trong phạm vi [0,255], tại đây 0 tồn tại một đại diện nào và 255 chứng minh mình đại diện cho tất cả. Chỉ cần các giá trị pixel nằm trong mảng [0,255], chúng ta có thể sử dụng số nguyên không dấu (8-bit) để biểu thị cường độ của chúng.

Như trong việc xây dựng một “Mạng Neural”, để có thể chuyển đổi một hình ảnh sang dạng dấu chấm động (point data type) chúng ta có thể xử lý bằng cách dùng phép trừ và chia tỷ lệ.

Mỗi màu được thêm vào càng nhiều, điểm ảnh càng trở nên sáng hơn và gần với màu trắng hơn. Chúng ta có thể kết hợp đỏ và xanh lá để tạo ra vàng, kết hợp đỏ và xanh sẽ tạo ra hồng hay thậm chí kết hợp cả ba màu : đỏ, vàng, xanh để tạo ra màu trắng.

Chúng ta cũng có thể khái niệm một hình

ảnh RGB như ma trận độc lập với chiều rộng (W), chiều cao (H). Bên cạnh đó, chúng ta cũng có thể thu được một mảng đa chiều có dạng W x H x D – D là độ sâu của hình ảnh.

Tọa độ hình ảnh

Một hình ảnh được biểu diễn dưới dạng một lưới các pixel hay như một hình vẽ đồ thị. Ở hình vẽ đồ thị điểm gốc (0,0) sẽ tương ứng với điểm kết thúc phía trên bên trái của hình ảnh.

Ở hình bên là một ví dụ hình vẽ đồ thị, với hình chữ nhật là một phần của hình vẽ đồ thị.

Tỉ lệ khung ảnh

Tỉ lệ khung ảnh là tỉ lệ của chiều cao và chiều rộng của hình ảnh. Dựa vào số

2 3 Bảng màu pixel

2 4 Tọa độ hình ảnh

16:9 được sử dụng nhiều nhất. Khi thay đổi tỉ lệ của một hình ảnh, phải luôn lưu ý đến chiều rộng và chiều cao nếu không muốn hình ảnh bị nén hay phân tán.

2 5 Tỉ lệ khung ảnh

Hầu hết các mạng Neural và các mạng Neural liên kết được áp dụng cho nhiệm vụ phân loại hình ảnh đều giả định có một đầu vào có kích thước cố định (tức kích thước của tất cả hình ảnh truyền qua mạng phải giống nhau).

b. Phân loại hình ảnh

Để hiểu nội dung của một hình ảnh, chúng ta phải phân loại hình ảnh áp dụng, thực hiện nhiệm vụ

sử dụng thị giác máy tính và các thuật toán học máy để rút ra ý nghĩa từ hình ảnh. Hành động này có thể đơn giản như gán nhãn cho nội dung hình ảnh chứa, hoặc nâng cao như diễn giải nội dung

của hình ảnh và trả về một câu mà con người có thể đọc được.

Thế nào là phân loại hình ảnh?

Phân loại hình ảnh là nhiệm vụ gán nhãn cho một hình ảnh từ một tập hợp các danh mục( loại hình ảnh) được xác định từ trước. Tức nhiệm vụ của chúng ta là phân tích một hình ảnh đầu vào và trả về một nhãn phân biệt hình ảnh đó ( Các nhãn đã được xác định. VD: Chó, mèo ,..)

Nhận biết vật thể.

Nếu đưa ra hai hình ảnh của hai vật thể riêng biệt, ví dụ như chó và mèo. Ta có thể dễ dàng xác định và chắc chắc 100% nhưng với máy tính thì khác, thứ nó nhìn thấy chỉ là hai ma trận pixel lớn.

2 6 Minh họa phân loại hình ảnh

2 7 Phân loại hình ảnh giữa chó và mèo

Vậy làm cách nào để chúng ta mã hóa tất cả thông tin này theo cách mà máy tính có thể hiểu được? Câu trả lời chính là áp dụng tính năng trích xuất để định lượng nội dung của hình ảnh. Tính năng trích xuất là quy trình lấy hình ảnh đầu vào, áp dụng thuật toán và thu được vectơ đặc trưng (tức danh sách các số) trong các định lượng hình ảnh.

Bên cạnh đó, chúng ta vẫn còn phải giải quyết một vấn đề nan giải hơn, đó là những yếu tố biến đối. Đó có thể là sự thay đổi góc nhìn (viewpoint variation), hình ảnh đó có thể được định hướng/xoay chiều trong nhiều kích thước liên quan đến các đối tượng đã được xác định. Hay là những sự thay đổi quy mô, chẳng hạn như một cái ghế, sẽ có cái cao, thấp, to nhỏ nhưng về định nghĩa nó vẫn được gọi là một chiếc ghế. Hay thậm chí chúng sẽ càng trông khác biệt hơn nếu được chụp xa hoặc gần.

2 8 Khó khăn trong việc nhận diện vật thể

Và nhiệm vụ của chúng ta là phải “dạy” cho máy tính phân biệt tất cả các biến thể này một cách chính xác.

Phương pháp tối ưu nào cho việc phân loại hình ảnh với các yếu tố biến đổi?

Hệ thống thị giác máy tính, phân loại hình ảnh và Deep Learning được triển khai trong thế giới thực để đưa ra các giả định và cân nhắc cẩn thận trước khi một dòng mã được viết.

Nếu chúng ta sử dụng phương pháp tiếp cận quá rộng, chẳng hạn như “Tôi muốn phân loại và phát hiện mọi đối tượng trong nhà bếp của tôi ”, (nơi có thể có hàng trăm đối tượng) thì hệ thống phân loại của chúng ta không có khả năng hoạt động tốt trừ khi chúng ta có nhiều năm kinh nghiệm xây dựng bộ phân loại hình ảnh – và ngay cả khi đó, không có gì đảm bảo cho sự thành công của dự án.

Nhưng nếu chúng ta định hình vấn đề của mình và thu hẹp phạm vi, chẳng hạn như “Tôi muốn nhận ra chỉ lò vi sóng và tủ lạnh ”, thì hệ thống của chúng ta có nhiều khả năng chính xác và hoạt động tốt hơn, đặc biệt nếu đây là lần đầu chúng ta làm việc với phân loại hình ảnh và Deep Learning.

Vậy điểm mấu chốt chính là luôn xem xét phạm vi của bộ phân loại hình ảnh.

Deep Learning và Mạng Neural đã chứng tỏ sự phát triển đáng kể và sức mạnh phân loại dưới nhiều hình thức khó khăn, việc của chúng ta là phải giữ cho dự án của mình chặt chẽ và được xác định rõ ràng nhất có thể.

2 9 Sự đa dạng của vật thể

Tập dữ liệu điểm chuẩn trên thực tế cho các thuật toán phân loại hình ảnh, bao gồm 1.000 đối tượng mà chúng ta gặp phải trong cuộc sống hàng ngày - và tập dữ liệu này vẫn đang được các nhà nghiên cứu tích cực sử dụng khi cố gắng thúc đẩy tính tiên tiến nhất cho việc học sâu về phía trước.

Các bước tiếp cận hệ thống phân tích, định nghĩa một vật thể, khái quát hình ảnh có thể giúp định nghĩa một vật thể.

Bước 1: Thu nhập dữ liệu

Thành phần đầu tiên của việc xây dựng mạng Deep Learning là thu thập tập dữ liệu. Dữ liệu ở đây có thể là các hình ảnh cũng như các nhãn được liên kết với mỗi hình ảnh. Những nhãn này sẽ đến từ một nhóm danh mục hữu hạn. VD:

Chó, Mèo, Chuột, …

Số lượng hình ảnh cho mỗi danh mục phải gần như đồng đều (tức là

cùng số lượng ví dụ cho mỗi danh mục). Nếu chúng ta có gấp đôi số lượng hình ảnh con mèo so với hình ảnh con chó và số lượng hình ảnh con chuột gấp năm lần hình ảnh con mèo, khi đó trình phân loại của chúng ta sẽ trở thành tự thiên về việc trang bị quá nhiều vào các danh mục được đại diện.

Mất cân bằng là một vấn đề phổ biến trong Machine Learning và tồn tại một số cách để vượt qua nó.

Bước 2: Tách tập dữ liệu

Bây giờ chúng ta đã có tập dữ liệu ban đầu, chúng ta cần chia nó thành hai phần:

Tập huấn luyện (The Trainning Test): sử dụng để "tìm hiểu" từng danh mục trông như thế nào bằng cách tạo dự đoán trên dữ liệu đầu vào và sau đó tự sửa khi dự đoán sai. Sau trình phân loại đã được đào tạo, chúng ta có thể đánh giá việc thực hiện trên một tập hợp thử nghiệm.

Tập thử nghiệm (The Testing Test): Nếu chúng sử dụng bộ thử nghiệm của mình như một phần của dữ liệu huấn luyện, thì bộ phân loại của chúng ta có một lợi thế không công bằng vì nó đã nhìn thấy các ví dụ thử nghiệm trước đó và "học hỏi" từ chúng. Thay vào đó, chúng phải giữ tập thử nghiệm này hoàn toàn tách biệt với quá trình huấn luyện và sử dụng nó chỉ để đánh giá mạng (Network)

2.10 Ví dụ về phân chia giữa tập huyến luyện và tập thử nghiệm

Bước 3: Huấn luyện các mạng (Network)

Với tập hình ảnh huấn luyện, giờ đây chúng ta có thể đào tạo mạng của mình.

Mục tiêu ở đây là để mạng của chúng ta tìm hiểu cách nhận ra từng danh mục trong dữ liệu được gắn nhãn. Khi một mô hình mắc lỗi, nó học hỏi từ sai lầm này và cải thiện bản thân.

Vậy, việc “học” thực tế hoạt động như thế nào? - Chúng ta áp dụng một dạng giảm dần độ dốc và nghiên cứu sâu hơn về lĩnh vực huấn luyện mạng.

Bước 4: Đánh giá

Chúng ta cần đánh giá mạng lưới được đào tạo của mình. Đối với mỗi hình ảnh trong bộ thử nghiệm, chúng ta sẽ trình bày chúng vào mạng và yêu cầu nó dự đoán nhãn của hình ảnh đó là gì. Sau đó chúng ta lập bảng dự đoán của mô hình cho một hình ảnh trong tập thử nghiệm.

Một phần của tài liệu ĐỒ ÁN CƠ SỞ Tìm hiểu Deep Learning và ứng dụng Camera an ninh thông minh (Trang 40 - 51)

Tải bản đầy đủ (DOCX)

(60 trang)
w