kl le minh hai 810026d

Giai đoạn tiếp theo là phát hiện các đặc tính như biên, phân vùng ảnh, trích chọn các đặc tính, v.v...Cuối cùng, tuỳ theo mục đích của ứng dụng, sẽ là giai đoạn nhận dạng, phân lớp hay c

LÝ THUYẾT XỬ LÝ ẢNH

Tổng quan về một hệ thống xử lý ảnh

Để hình dung cấu hình một hệ thống xử lý ảnh – dù là hệ thống xử lý ảnh chuyên dụng hay phục vụ cho nghiên cứu và đào tạo – trước hết ta xem xét các bước cơ bản của quá trình xử lý ảnh Những bước này gồm tiền xử lý nhằm làm sạch và chuẩn hóa hình ảnh, lọc nhiễu và cân bằng ánh sáng, trích xuất và phân tích đặc trưng, xử lý và tối ưu hóa tín hiệu, sau đó là đánh giá kết quả và hiệu suất của hệ thống Hiểu rõ chu trình xử lý ảnh giúp thiết kế và triển khai hệ thống tối ưu cho các ứng dụng thực tiễn như nghiên cứu khoa học, đào tạo và ứng dụng công nghiệp.

Quá trình thu nhận ảnh bắt đầu từ nguồn tín hiệu hình, có thể từ camera analog (loại ống CCIR) hoặc camera số hóa dựa trên CCD (Charge Coupled Device); ảnh cũng có thể được thu từ vệ tinh qua các cảm biến và từ ảnh hoặc tranh được quét bằng scanner Tiếp theo là quá trình số hóa (Digitalizer), biến đổi tín hiệu tương tự thành tín hiệu rời rạc bằng lấy mẫu và lượng hoá, trước khi chuyển sang các giai đoạn xử lý, phân tích hoặc lưu trữ.

Quá trình phân tích ảnh là một chuỗi bước liên tiếp nhằm tối ưu chất lượng và rút trích thông tin có ích từ hình ảnh Đầu tiên là công đoạn tăng cường và khôi phục ảnh để nâng cao chất lượng và làm nổi bật các đặc tính quan trọng, khắc phục suy giảm do chất lượng thiết bị thu nhận, nguồn sáng hoặc nhiễu, từ đó đưa ảnh về trạng thái gần với nguyên bản trước khi bị biến dạng Giai đoạn tiếp theo tập trung vào phát hiện các đặc trưng như biên cạnh, phân vùng ảnh và trích xuất đặc tính nhằm chuẩn hóa dữ liệu đầu vào cho các bước xử lý tiếp theo Cuối cùng, tùy theo mục đích ứng dụng, quá trình có thể chuyển sang nhận dạng, phân lớp hoặc các quyết định khác Các giai đoạn chính của xử lý ảnh có thể được mô tả minh họa trong hình 1.1.

Hình 1.1: Các giai đoạn chính trong xử lý ảnh

Với các giai đoạn trên, một hệ thống xử lý ảnh (cấu trúc phần cứng theo chức năng) gồm các thành phần tối thiểu như Hình

Trong hệ thống xử lý ảnh, camera được xem như mắt của hệ thống Có hai loại camera phổ biến là camera ống theo chuẩn CCIR và camera CCD Camera ống CCIR quét ảnh ở tần số 1/25 và mỗi ảnh gồm 625 dòng Camera CCD chứa các photodiode để chuyển đổi cường độ sáng tại từng điểm ảnh thành dữ liệu tương ứng với một pixel Như vậy, ảnh là tập hợp các điểm ảnh và số điểm ảnh tạo nên ảnh được gọi là độ phân giải.

Bộ xử lý tương tự (analog processor), bộ phận này thực hiện các chức năng sau:

- Chọn camera thích hợp nếu hệ thống có nhiều camera

- Chọn màn hình hiển thị tín hiệu

- Thu nhận tín hiệu video thu nhận bởi bộ số hoá (digitalizer) Thực hiện lấy mẫu và mã hoá

- Tiền xử lý ảnh khi thu nhận: dùng kỹ thuật bảng tra (Look Up Table - LUT)

Bộ xử lý ảnh số gồm nhiều bộ xử lý chuyên dụng, đảm nhận các nhiệm vụ như xử lý lọc, trích chọn đường bao và nhị phân hoá ảnh Các bộ xử lý này làm việc với tốc độ 1/25 giây, giúp tối ưu quá trình xử lý ảnh và nâng cao hiệu quả cho các ứng dụng nhận diện, phân tích và hiểu nội dung hình ảnh.

 Máy chủ đóng vai trò điều khiển các thành phần miêu tả ở trên

Bộ nhớ ngoài lưu trữ dữ liệu ảnh và các kiểu dữ liệu khác để có thể chuyển giao cho các quá trình khác Ví dụ, một ảnh đen trắng kích thước 512 x 512 với 256 mức xám sẽ chiếm 256 KB bộ nhớ Cùng kích thước, một ảnh màu sẽ có dung lượng tăng gấp 3 lần do cần lưu trữ ba kênh màu (R, G, B) Điều này cho thấy sự khác biệt về dung lượng giữa ảnh đen trắng và ảnh màu và tác động của nó đến việc quản lý bộ nhớ cũng như hiệu suất truyền tải dữ liệu.

Các vấn đề cơ bản trong xử lý ảnh

1.2.1 Pixel (picture element – phần tử ảnh): Ảnh trong thực tế là một ảnh liên tục về không gian và về giá trị độ sáng Để có thể xử lý ảnh bằng máy tính cần thiết phải tiến hành số hoá ảnh Trong quá trình số hoá, người ta biến đổi tín hiệu liên tục sang tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc hóa về không gian) và lượng hoá thành phần giá trị mà thể về nguyên tắc bằng mắt thường không phân biệt được hai điểm kề nhau Trong quá trình này, người ta sử dụng khái niệm Picture element mà ta quen gọi hay viết là Pixel - phần tử ảnh ở đây cũng cần phân biệt khái niệm pixel hay đề cập đến trong các hệ thống đồ hoạ máy tính Để tránh nhầm lẫn ta tạm gọi khái niệm pixel này là pixel thiết bị Khái niệm pixel thiết bị có thể xem xét như sau: khi ta quan sát màn hình (trong chế độ đồ hoạ), màn hình không liên tục mà gồm nhiều điểm nhỏ, gọi là pixel Mỗi pixel gồm một cặp toạ độ x, y và màu

Cặp tọa độ x và y tạo nên độ phân giải (resolution) của hình ảnh hoặc nội dung hiển thị trên màn hình Trong màn hình máy tính có nhiều loại độ phân giải khác nhau, ví dụ CGA có 320 x 200 và VGA có 640 x 350, cho thấy mức chi tiết và kích thước hiển thị có thể khác nhau tùy từng chuẩn màn hình.

Trong xử lý ảnh, một ảnh là tập hợp các điểm ảnh (pixel) Khi được số hóa, ảnh thường được biểu diễn dưới dạng mảng hai chiều I(n, p) với n hàng và p cột, tức là ảnh có n x p pixel Người ta ký hiệu I(x, y) để chỉ một pixel tại vị trí hàng x và cột y Thông thường, n và p được xem như các tham số của kích thước ảnh, và trong một số trường hợp n bằng p và bằng 256 Mỗi pixel có thể được lưu trữ với độ sâu màu 1, 4, 8 hoặc 24 bit.

Sau đây là một pixel và pixel lân cận của nó:

Một pixel p tại tọa độ (x,y) có tập lân cận theo bốn hướng lên xuống trái phải được ký hiệu là N4(p), gồm các pixel P2, P7, P4 và P5, mỗi lân cận cách p một đơn vị theo hướng tương ứng Khi (x,y) nằm ở mép màn hình, một số pixel lân cận của p có thể nằm ở ngoài hình ảnh.

Ngoài 4 pixel lân cận của p theo chiều dọc và chiều ngang, xung quanh p còn có 4 pixel chéo góc có các tọa độ tương ứng là: P1, P8, P3, P6(tập các pixel này được ký hiệu là ND(p)

Trong xử lý ảnh, N8(p) là tập hợp gồm tám pixel lân cận của điểm p, tức là vùng lân cận 8-neighborhood bao quanh p ở mọi hướng Tập hợp này cho biết các pixel xung quanh p và có thể bao gồm một số pixel nằm ngoài biên hình ảnh khi (x,y) ở mép của ảnh.

Mức xám là giá trị số đại diện cho cường độ sáng của mỗi điểm ảnh sau quá trình lượng hóa Trong mã hóa cổ điển, người ta thường dùng 16, 32 hoặc 64 mức, và 256 mức được xem là phổ biến nhất nhờ các lý do kỹ thuật Với 256 mức, mỗi pixel được mã hóa bằng 8 bit, tương ứng với các giá trị từ 0 đến 255.

1.2.3 Tín hiệu số và biểu diễn ảnh số:

Trong phân tích hàm, một hàm hai biến thực hoặc phức có thể được xem như một ảnh Ảnh hai chiều trong không gian được biểu diễn bởi một tập hợp các ma trận cơ sở gọi là ảnh cơ sở Theo quan niệm này, một tín hiệu hai chiều liên tục trong không gian được gọi là ảnh liên tục trong không gian số thực, ký hiệu là f(x,y); giá trị của f(x,y) là một hàm liên tục trên miền (-∞, ∞)×(-∞, ∞).

Các tín hiệu liên tục theo thời gian qua quá trình số hóa ta thu được tín hiệu rời rạc (gọi là tín hiệu số)

Ảnh số được hiểu là kết quả xử lý bằng máy tính từ một ảnh liên tục qua quá trình số hóa (lấy mẫu và lượng hóa) Giá trị cường độ sáng của mỗi điểm ảnh (x,y) được ký hiệu là I[x,y], còn được gọi là mức xám Vì vậy I[x,y] mang giá trị rời rạc và được xem là một số nguyên I[x,y] ∈ {0,1,…,L-1}, trong đó L là mức xám tối đa dùng để biểu diễn Để giảm độ phức tạp tính toán, các giá trị của (m,n) thường chọn là hữu hạn, thường chọn là 512, còn L chọn là 256 Ảnh có nhiều mức xám được gọi là ảnh đa mức xám; ảnh có 2 giá trị mức xám 0 và 1 gọi là ảnh nhị phân.

Trong cách biểu diễn này, ảnh số chính là một phần của tín hiệu số tồn tại trong không gian hai chiều Phương pháp biểu diễn phổ biến nhất cho ảnh số là dùng một bảng hai chiều, được gọi thông dụng là ma trận ảnh hoặc bản đồ ảnh, trong đó mỗi phần tử của ma trận đại diện cho một pixel Ma trận ảnh cho phép lưu trữ và xử lý thông tin hình ảnh một cách hiệu quả, đồng thời là khung nền cho các thuật toán xử lý ảnh và thị giác máy tính.

1.2.4 Khái quát về hệ thống xử lý tín hiệu số:

Trong lĩnh vực xử lý tín hiệu, hệ thống số là một hệ thống tiếp nhận tín hiệu số ở đầu vào, xử lý tín hiệu theo một quy trình cụ thể và cho ra một tín hiệu số ở đầu ra Vì ảnh số là một phần của tín hiệu số, hệ thống xử lý ảnh số có những đặc thù riêng, khác với hệ thống số thông thường và bổ sung một số tính chất đặc trưng.

Giả sử tín hiệu số đầu vào là X(m,n), tín hiệu số đầu ra là Y(m,n) và đặc trưng của hệ thống được ký hiệu là H, ta có thể biểu diễn mối quan hệ giữa đầu vào và đầu ra của hệ thống số bằng một biểu thức hình thức Với hệ thống tuyến tính và bất biến theo không gian, Y(m,n) được xác định bằng phép tích chập giữa X và H: Y(m,n) = Σ_p Σ_q X(m−p, n−q) H(p,q) H đại diện cho cách thức hệ thống ảnh hưởng lên từng điểm của tín hiệu đầu vào để tạo ra giá trị tại vị trí (m,n) của tín hiệu đầu ra; đây là đặc trưng quan trọng giúp phân tích, thiết kế và tối ưu hóa hệ thống số cho các ứng dụng như xử lý ảnh, lọc tín hiệu và khử nhiễu.

Phần lớn các hệ thống số là tuyến tính và bất biến, trong xử lý tín hiệu số thường có 2 cách tiếp cận khác nhau:

Biên độ của tín hiệu được lấy mẫu và lượng hóa theo một quy chuẩn, cho phép tín hiệu được biểu diễn bởi một hàm liên tục theo thời gian Đây là tiếp cận theo không gian thực Cách tiếp cận thứ hai là theo miền tần số của tín hiệu: trước tiên tín hiệu được biến đổi sang miền tần số bằng các phép biến đổi, chẳng hạn như phép biến đổi Fourier; sau đó tiến hành xử lý trên miền tần số và cuối cùng dùng biến đổi ngược để đưa tín hiệu đã xử lý về miền thời gian thực.

Thí dụ như tín hiệu thu nhận là tiếng còi ô tô Ta có thể tiếp cận theo 2 cách khác nhau:

- Lấy mẫu biên độ tín hiệu nhiều lần trong một chu kỳ và được xấp xỉ của tín hiệu là một hàm liên tục theo thời gian

- Phân tích tín hiệu theo độ cao của âm thanh hay tần số của âm thanh và lưu trữ biên độ của mỗi tấn số

Hai cách tiếp cận trên cho ta 2 kỹ thuật cơ bản được dùng trong xử lý ảnh :

- Tác động trực tiếp lên điểm ảnh: tích chập, lọc số và các toán tử điểm

- Biểu diễn ảnh sang một không gian khác bằng các biến đổi, xử lý và biến đổi ngược lại

1.2.5 Các toán tử không gian (spatial operators):

Các toán tử không gian phổ biến bao gồm toán tử tuyến tính, tích chập và lọc, được dùng để cải thiện chất lượng ảnh và làm thuận tiện cho các bước biến đổi và xử lý sau này Mục đích chính của những toán tử này là tối ưu hóa ảnh, hỗ trợ các tác vụ tăng cường và nâng cao chất lượng ảnh, đồng thời phục vụ cho các ứng dụng như dò biên và trích xuất đặc tính của ảnh.

Phần lớn các hệ thống xử lý ảnh có thể được mô hình hóa như một hệ thống tuyến tính hai chiều Gọi x(m,n) là tín hiệu vào và y(m,n) là tín hiệu ra tương ứng của hệ thống, và hệ thống hai chiều được mô tả bằng công thức y(m,n) = H * x(m,n) (1.1), nơi H đại diện cho kernel hoặc hàm truyền xác định cách tín hiệu đầu vào được biến đổi thành tín hiệu đầu ra Mô hình hóa này giúp phân tích và thiết kế các bước xử lý ảnh như lọc, biến đổi và nâng cao chất lượng ảnh dựa trên mối quan hệ tuyến tính giữa x và y.

Các kỹ thuật phân đoạn ảnh

Bước đầu tiên trong quá trình phân tích ảnh là phân đoạn ảnh, nhằm tách biệt các thành phần cấu thành hoặc các đối tượng cần quan tâm khỏi ảnh; đây là một trong những nhiệm vụ khó khăn nhất và có vai trò rất lớn đối với sự thành công của việc phân tích ảnh Phân đoạn ảnh tĩnh cơ bản dựa vào hai đặc tính của các miền: sự không liên tục (thay đổi đột ngột về đặc tính dẫn đến biên giữa các miền) và tính tương đồng (không tương đồng hoặc tương đồng giữa các miền để mở rộng, hợp nhất hoặc phân chia miền) Ngoài ra, còn có kỹ thuật phân đoạn dựa trên giá trị mức xám hay phân đoạn dựa vào ngưỡng được sử dụng phổ biến Đối với ảnh động, đặc tính chuyển động của đối tượng được sử dụng rất hiệu quả cho việc phân đoạn.

Một số phương pháp phân đoạn ảnh sẽ được trình bày trong phần dưới đây:

1.3.1 Phân đoạn dựa trên đường biên :

Một phương pháp phân đoạn dựa trên biên gồm các bước chính: trước tiên biên của các miền được phát hiện bằng các phép lọc cạnh như Prewitt hoặc Sobel và được ngưỡng hóa để xác định biên; sau đó các đường biên này được xử lý để loại bỏ biên không mong muốn và nối các đoạn biên bị đứt bằng các kỹ thuật như phép biến đổi Hough và các phương pháp liên kết biên; cuối cùng các miền nằm bên trong biên được lấp đầy để tạo ra các vùng phân đoạn hoàn chỉnh.

Ngoài ra, còn có các phương pháp phân đoạn ảnh dựa trên biên khác được áp dụng như: phương pháp Watershed, phương pháp Sneke,…

Hình 1.7: Minh họa việc phân đoạn dựa trên biên (a): ảnh gốc (b): ảnh sau khi tách biên

(c): ảnh với đối tượng cần quan tâm đã được lấp đầy

Watershed hay phân đoạn watershed có thể hiểu đơn giản là biên của các đối tượng như những đập ngăn nước, nước tích lũy trong các vùng trũng và dâng đến mức cao nhất có thể, từ đó hình thành các miền tương ứng với các hồ chứa nước Thông thường, quá trình phân đoạn watershed cần thêm các bước tiền xử lý và hậu xử lý Tiền xử lý là các thao tác nối biên để có được các đường biên kín; hậu xử lý là loại bỏ các đường biên dư thừa do nhược điểm của phương pháp này thường khiến phân chia thành quá nhiều đoạn (oversegmentation) so với số đối tượng Một trong những phương pháp phổ biến để giảm dư thừa là hợp nhất các miền tương đồng Một đặc điểm của watershed là không làm xuất hiện lỗ trong mỗi đoạn.

(a): ả nh g ố c (b): nh ững đập ngăn nướ c và thung l ũng tương ứ ng

(c): k ế t qu ả vi ệc phân đoạ n

Hình 1.8: Minh họa phương pháp phân đoạn watershed

1.3.2 Phân đoạn dựa trên miền :

Trong phương pháp phân đoạn này, sự tương đồng hoặc sự khác biệt của một số đặc tính ở các miền kề nhau và các pixel kề nhau được dùng làm cơ sở cho việc mở rộng miền, hợp nhất hoặc phân chia miền Việc đánh giá độ tương đồng giữa các vùng liền kề giúp xác định cách thức mở rộng hay thu hẹp vùng, từ đó quyết định xem các miền nên được ghép nối hay tách rời để tối ưu hóa quá trình phân đoạn ảnh.

Phương pháp mở rộng miền từ các pixel ban đầu (miền hạt nhân) bằng cách xem xét các pixel lân cận và hợp nhất chúng với miền hạt nhân nếu có sự tương đồng về đặc trưng; quá trình này tiếp tục cho đến khi không còn pixel lân cận nào phù hợp, từ đó hình thành một vùng phân đoạn hoàn chỉnh.

Trong phương pháp này, hai miền kề nhau được ghép lại khi chúng thỏa một trong hai điều kiện: đặc tính của hai miền tương đồng, cho thấy sự nhất quán về đặc trưng và cấu trúc; hoặc biên giới giữa chúng không rõ ràng, quá mờ nhạt và có nhiều đoạn đứt gãy, khiến việc phân tách khó xác định Việc ghép dựa trên hai tiêu chí này giúp tối ưu hóa quá trình phân đoạn, tăng tính liên kết giữa các miền và giảm sai lệch khi làm việc với dữ liệu hình ảnh hoặc dữ liệu không gian.

Phương pháp này là phân tích quadtree, ngược với phương pháp hợp nhất miền: một vùng sẽ được chia thành các vùng con khi các đặc tính không đồng nhất Phương pháp phổ biến hiện nay là phân tích quadtree: một vùng sẽ được chia thành 4 phần nếu có sự khác biệt về mức xám giữa các vùng con, và các vùng con tiếp tục được chia thành 4 phần nếu vẫn còn không đồng nhất về mức xám cho đến khi các vùng con trở nên tương đồng về mức xám và quá trình dừng lại.

Hình 1.9: Minh họa việc phân tích quadtree

1.3.3 Phân Đoạn Dựa Trên Ngưỡng :

Phương pháp phân đoạn dựa trên ngưỡng là một kỹ thuật phổ biến trong xử lý ảnh, cho phép phân tách các vùng đặc trưng dựa trên mức sáng Với phương pháp này, một toán tử lấy ngưỡng g được định nghĩa để ánh xạ thang giá trị mức xám thành hai giá trị nhị phân 0 và 1, từ đó tạo ra ảnh nhị phân phản ánh sự khác biệt độ sáng giữa các vùng và thuận tiện cho các bước tiền xử lý tiếp theo như nhận diện đối tượng hoặc phân tích đặc trưng.

0 ≥ với v là giá trị mức xám, t là ngưỡng

Hình dưới đây minh họa phương pháp phân đoạn này

(a): ảnh gốc (b): histogram (c): ảnh nhị phân

Phương pháp phân đoạn dựa trên ngưỡng là một cách hiệu quả để tách các đối tượng có giá trị mức xám khác với nền trong ảnh Khi các đối tượng không chồng chập lên nhau, việc phân đoạn trở nên dễ dàng và cho kết quả chính xác Với ảnh có nhiều đối tượng có mức xám khác nhau, có thể dùng nhiều ngưỡng để phân đoạn: các pixel có giá trị mức xám nhỏ hơn ngưỡng thứ nhất thuộc đoạn 0, các pixel có giá trị nằm giữa ngưỡng thứ nhất và thứ hai thuộc đoạn 1, và cứ tiếp tục như vậy cho các ngưỡng tiếp theo; nếu dùng n ngưỡng thì toán tử ngưỡng được định nghĩa để gán nhãn các pixel theo các đoạn tương ứng.

Như vậy sau khi lấy ngưỡng, ảnh được phân thành n+1 đoạn

Hình 1.11: Minh họa việc phân đoạn với nhiều mức ngưỡng

(a): ảnh gốc, (b): histogram và 3 ngưỡng được chọn (c): kết quả phân đoạn theo 3 khoảng giá trị mức xám

Histogram là công cụ phổ biến trong xử lý ảnh để xác định giá trị ngưỡng nhằm phân đoạn ảnh Giá trị ngưỡng có thể được tính bằng giá trị trung bình mức xám giữa hai đỉnh liên tiếp trên histogram, hoặc bằng giá trị mức xám tại vị trí có histogram nhỏ nhất giữa hai đỉnh liên tiếp Việc chọn ngưỡng phù hợp giúp tối ưu hóa phân đoạn ảnh và làm nổi bật các đặc trưng quan trọng của hình ảnh, đồng thời tăng độ nhạy với biến đổi sáng và giảm nhiễu trong quá trình tiền xử lý.

1.3.4 Phân Đoạn Dựa Vào Chuyển Động:

Phương pháp phân đoạn dựa vào sự chuyển động của đối tượng áp dụng rất hiệu quả trong việc phân đoạn ảnh động

Việc phát hiện sự khác biệt giữa 2 frame và tại thời điểm và được thực hiện bằng cách so sánh từng pixel giữa hai frame

Việc so sánh sẽ cho thấy sự sai biệt tại các miền ở cạnh trước và cạnh sau của đối tượng chuyển động, trong khi các miền khác không có sự khác biệt Ở đây, ảnh hưởng của nhiễu chưa được xét đến trong phân tích Nếu nhiễu xuất hiện, mỗi frame trước khi đưa vào khâu xử lý này cần được lọc loại bỏ nhiễu nhằm nâng cao độ chính xác của kết quả.

Hình 1.12: Minh họa việc phát hiện chuyển động

(a): Frame tại thời điểm t i (b): Frame tại thời điểm t j (c): Ảnh sai biệt

Thiết lập ảnh tham chiếu cho chuỗi ảnh động giúp loại bỏ các thành phần tĩnh và chỉ giữ lại nhiễu và đối tượng chuyển động Nhiễu trong ảnh có thể được xử lý bằng các bộ lọc nhiễu Một ảnh tham chiếu chỉ chứa các thành phần tĩnh được xây dựng từ frame đầu tiên của chuỗi, xem như ảnh tham chiếu ban đầu Khi một phần không phải là tĩnh di chuyển khỏi vị trí của nó so với ảnh tham chiếu, phần nền trong frame hiện tại được sao chép vào đúng vị trí đó để tạo ảnh tham chiếu Khi tất cả các đối tượng trong chuỗi di chuyển ra khỏi vị trí ban đầu, ảnh tham chiếu còn lại chỉ là thành phần tĩnh (background).

TỔNG QUAN VỀ NHẬN DẠNG

Không gian biểu diễn đối tượng, không gian diễn dịch

2.1.1 Không gian biểu diễn đối tượng :

Đối tượng khi quan sát hoặc thu thập thường được biểu diễn bằng tập hợp các đặc trưng hay đặc tính Trong xử lý ảnh, sau khi ảnh được tăng cường để nâng cao chất lượng, quá trình phân vùng và trích xuất đặc trưng được biểu diễn bằng các đặc trưng như biên, miền đồng nhất và những đặc trưng khác Người ta phân các đặc trưng này thành các loại chính gồm đặc trưng tô pô (topology), đặc trưng hình học và đặc trưng chức năng Việc biểu diễn ảnh bằng đặc trưng nào phụ thuộc vào ứng dụng tiếp theo; ở đây ta trình bày một cách hình thức để biểu diễn các đối tượng Giả sử đối tượng được mô tả bằng một vector đặc trưng, cho phép so sánh và nhận diện dựa trên khoảng cách giữa các vectơ, từ đó phục vụ cho các nhiệm vụ như nhận diện, phân loại hoặc nhận diện đối tượng trong ảnh.

X (ảnh, chữ viết, dấu vân tay, v ,v) được biểu diễn bởi n thành phần (n đặc trưng):

X = {x 1 , x 2 , , x n }; mỗi xi biểu diễn một đặc tính Không gian biểu diễn đối tượng thường gọi tắt là không gian đối tượng X được định nghĩa:

X = {X 1 , X 2 , , X m } trong đó mỗi Xi biểu diễn một đối tượng Không gian này có thể là vô hạn Để tiện xem xét chúng ta chỉ xét tập X là hữu hạn

Không gian diễn dịch là tập hợp các tên gọi của đối tượng Kết thúc quá trình nhận dạng, ta xác định được tên gọi của các đối tượng trong tập không gian đối tượng, hay nói cách khác là ta đã nhận dạng được các đối tượng đó Về mặt hình thức, ký hiệu Ω được dùng để chỉ tập tên đối tượng, tức là tập tên gọi của đối tượng.

 = {w 1 , w 2 , ,w k } với wi, i = 1, 2, , k là tên các đối tượng

Quá trình nhận dạng đối tượng f là một ánh xạ f: X → Ω, trong đó f chứa các quy tắc nhằm ánh xạ mỗi phần tử của X sang một phần tử của Ω Nếu tập các quy tắc và danh sách nhãn lớp đối tượng được biết trước, như trong nhận dạng chữ viết với 26 lớp từ A đến Z, được gọi là nhận dạng có giám sát Trong khi đó, nhận dạng không có giám sát mô tả trường hợp mà không có nhãn hoặc quy tắc được biết trước, khiến quá trình nhận dạng khó khăn hơn.

Mô hình và bản chất của quá trình nhận dạng

Việc lựa chọn một quá trình nhận dạng liên quan mật thiết đến kiểu mô tả được sử dụng để đặc tả đối tượng Trong nhận dạng, các phương pháp thường được phân chia thành nhóm dựa trên nguyên lý xử lý và dạng dữ liệu, điển hình là nhận dạng dựa trên đặc trưng và nhận dạng dựa trên mô hình hoặc kiến thức trước Sự phân chia này ảnh hưởng đến cách thu thập và biểu diễn dữ liệu, cách trích xuất đặc trưng, cũng như hiệu quả nhận diện trong các ngữ cảnh khác nhau.

 Họ mô tả theo tham số

 Họ mô tả theo cấu trúc

Việc lựa chọn cách mô tả sẽ quyết định hình thức và cách biểu diễn của đối tượng dưới dạng mô hình Vì vậy, có hai loại mô hình chính được sử dụng là mô hình tham số và mô hình cấu trúc, mỗi loại có đặc trưng riêng và ứng dụng khác nhau tùy vào mục tiêu phân tích.

Trong mô hình này, một đối tượng được đặc tả bằng một véctơ, mỗi phần tử mô tả một đặc tính của đối tượng Khi làm việc với các đặc trưng chức năng, người ta dùng các hàm cơ sở trực giao để biểu diễn chúng, do đó ảnh được biểu diễn dưới dạng một chuỗi các hàm trực giao Giả sử C là đường bao của ảnh và C(i,j) là điểm thứ i trên đường bao, i = 1, 2, , N (đường bao có N điểm).

1 là toạ độ tâm điểm Như vậy, moment trung tâm bậc p, q của đường bao là:

Véc-tơ tham số trong trường hợp này chính là các moment μij với i = 1, 2, , p và j = 1, 2, , q Trong số các đặc trưng hình học, người ta hay sử dụng chu tuyến, đường bao, diện tích và tỉ lệ T = 4πS/p^2, với S là diện tích, p là chu tuyến.

Việc chọn phương pháp biểu diễn làm đơn giản hóa quá trình xây dựng hệ thống Tuy nhiên, việc xác định đặc trưng phù hợp phụ thuộc hoàn toàn vào ứng dụng cụ thể Ví dụ, trong nhận dạng chữ, các tham số được xem như các dấu hiệu hay đặc trưng của chữ cái, và lựa chọn những đặc trưng đó sẽ ảnh hưởng lớn đến hiệu suất nhận diện.

- số điểm chạc ba, chạc tư,

- số điểm kết thúc chẳng hạn với chữ t có 4 điểm kết thúc, 1 điểm chạc tư,

Phương pháp này dựa trên mô tả đối tượng bằng một tập hợp khái niệm biểu thị các đối tượng cơ sở trong ngôn ngữ tự nhiên, ví dụ các dạng nguyên thủy như đoạn thẳng, cung, và các yếu tố hình học khác; một hình chữ nhật có thể được định nghĩa bằng bốn đoạn thẳng vuông góc với nhau Trong khuôn khổ mô hình, bộ ký hiệu kết thúc Vt và bộ ký hiệu không kết thúc Vn được dùng để biểu diễn đối tượng và quá trình xây dựng, đồng thời tập các quy luật sản xuất P mô tả cách ghép các đối tượng phức tạp từ các đối tượng đơn giản hoặc từ các đối tượng nguyên thủy (tập Vt) Theo cách tiếp cận này, cấu trúc một dạng được xem là kết quả của việc áp dụng các quy luật sản xuất theo những nguyên tắc xác định bắt đầu từ dạng gốc, và ở mức hình thức, mô hình này tương đương với một văn phạm G = (Vt, Vn, P, S).

- V t là bộ ký hiệu kết thúc,

- V n là bộ ký hiệu không kết thúc,

- S là dạng (ký hiệu bắt đầu)

Ví dụ này mô tả đối tượng nhà gồm hai thành phần là mái và tường Mái được định nghĩa là một tam giác ba cạnh, mỗi cạnh là một đoạn thẳng; tường lại là một hình chữ nhật gồm bốn cạnh vuông góc với nhau Toàn bộ cấu trúc được trình bày thông qua một mô hình mô tả dựa trên văn phạm sinh, như được chỉ ra trong hình 1.1 dưới đây.

Hình 2.1: Mô hình cấu trúc của một đối tượng nhà

2.2.2 Bản chất của quá trình nhận dạng:

Quá trình nhận dạng gồm 3 giai đoạn chính:

 Lựa chọn mô hình biểu diễn đối tượng

 Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học

Khi mô hình biểu diễn đối tượng đã được xác định, có thể là định lượng (mô hình tham số) hay định tính (mô hình cấu trúc), quá trình nhận dạng chuyển sang giai đoạn học Học là giai đoạn rất quan trọng Thao tác học nhằm cải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp

Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đối tượng vào một lớp hay nói một cách khác gán cho đối tượng một tên

 Học có giám sát (supervised learning):

Kỹ thuật phân loại dựa trên kiến thức trước đó, hay học có giám sát, dùng một thư viện mẫu chuẩn để nhận dạng đối tượng Đối tượng cần nhận dạng được so sánh với các mẫu chuẩn nhằm xác định nó thuộc lớp nào Trong ảnh viễn thám, mục tiêu là phân biệt cánh đồng lúa, rừng và vùng đất hoang dựa trên mô tả về các đối tượng đó Vấn đề chủ yếu là thiết kế một hệ thống có khả năng đối sánh đối tượng trong ảnh với các mẫu chuẩn và quyết định gán nó vào một lớp thích hợp Quá trình đối sánh được thực hiện nhờ các thủ tục ra quyết định dựa trên một công cụ gọi là hàm phân lớp hoặc hàm ra quyết định, và phần sau sẽ trình bày chi tiết về chúng.

 Học không có giám sát (unsupervised learning):

Kỹ thuật học không giám sát cần tự xác định số lớp và các tham số đặc trưng cho từng lớp Do không có giám sát nên việc xác định số lớp và đặc trưng là rất khó, bởi cả hai đều chưa biết trước Phương pháp này tìm mọi cách gộp nhóm có thể và chọn lựa phương án tối ưu nhất Bắt đầu từ tập dữ liệu, hệ thống thực hiện nhiều thủ tục xử lý khác nhau để phân lớp và dần nâng cấp phương pháp để đạt được một phương án phân lớp hiệu quả.

Nhìn chung, dù là mô hình nào và kỹ thuật nhận dạng ra sao, một hệ thống nhận dạng có thể tóm tắt theo sơ đồ sau:

Hình 2.2: Sơ đồ tổng quát một hệ nhận dạng.

Nhận dạng dựa trên phân hoạch không gian

Trong kỹ thuật nhận dạng này, các đối tượng được xem là các đối tượng định lượng và được biểu diễn bằng một véc-tơ nhiều chiều Trước tiên, ta xem xét các khái niệm cơ bản như phân hoạch không gian và hàm phân biệt để xây dựng nền tảng cho quá trình nhận diện Sau đó, bài toán được đi vào các kỹ thuật nhận diện cụ thể nhằm xử lý và phân loại các đối tượng một cách hiệu quả.

Giả sử không gian đối tượng X được định nghĩa: X = {Xi, i=1, 2, ,m}, X i là một véctơ Người ta nói P là một phân hoạch của không gian X thành các lớp Ci, C i

Trong bài toán phân loại, trường hợp lý tưởng là tập X có thể được tách biệt hoàn toàn Tuy nhiên thực tế cho thấy không gian biểu diễn thường không cho phép tách rời đầy đủ, và việc phân loại phải dựa trên một ánh xạ f: X → P, trong đó P là tập nhãn lớp Công cụ để xây dựng ánh xạ này là các hàm phân biệt (discriminant functions), đóng vai trò chủ đạo trong việc xác định ranh giới và quyết định nhãn cho mỗi mẫu.

2.3.2 Hàm phân lớp hay hàm ra quyết định Để phân đối tượng vào các lớp, ta phải xác định số lớp và ranh giới giữa các lớp đó Hàm phân lớp hay hàm phân biệt là một công cụ rất quan trọng Gọi {gi} là lớp các hàm phân lớp Lớp hàm này được định nghĩa như sau:

Nếu  i  k, gk(X) > g i (X) thì ta quyết định X  lớp k

Để phân biệt k lớp, ta cần k-1 hàm phân biệt Hàm phân biệt của một lớp thường là hàm tuyến tính, biểu diễn dưới dạng g(X) = W0 + W1 X1 + W2 X2 + + Wk Xk, trong đó W0 là bias và W1, W2, , Wk là các trọng số liên kết với các đầu vào X1, X2, , Xk.

- W i là các trọng số gán cho các thành phần Xi

- W 0 là trọng số để viết cho gọn

Trong trường hợp g là tuyến tính, người ta nói là việc phân lớp là tuyến tính hay siêu phẳng (hyperplan)

Các hàm phân biệt thường được xây dựng dựa trên khái niệm khoảng cách hay dựa vào xác suất có điều kiện

Lẽ tự nhiên, khoảng cách là một công cụ rất tốt để xác định xem đối tượng có

Quá trình phân cụm dựa trên khoảng cách giữa các đối tượng được quyết định bởi một ngưỡng τ Khi khoảng cách nhỏ hơn τ, ta xem hai đối tượng là giống nhau và ghép chúng vào cùng một lớp Ngược lại, khi khoảng cách lớn hơn τ, chúng được cho là khác nhau và được tách thành hai lớp riêng biệt.

Trong một số trường hợp, người ta dựa vào xác suất có điều kiện để phân lớp cho đối tượng Lý thuyết xác suất có điều kiện do Bayes nghiên cứu và phát triển, cho phép chúng ta áp dụng các khái niệm này để phân biệt đối tượng dựa trên các đặc trưng quan sát được Bằng cách tính xác suất hậu nghiệm từ dữ liệu quan sát, phương pháp Bayes giúp ước lượng xác suất một đối tượng thuộc từng lớp và quyết định phân lớp dựa trên xác suất cao nhất, mang lại nền tảng toán học vững chắc cho phân loại và được ứng dụng rộng rãi trong máy học và ra quyết định dựa trên dữ liệu.

Gọi: P(X/C i ) là xác suất để có X biết rằng có xuất hiện lớp Ci

P(C i /X) là xác suất có điều kiện để X thuộc lớp Ci với X là đối tượng nhận dạng, C i là các lớp đối tượng

Quá trình học cho phép ta xác định P(X|Ci) và nhờ công thức Bayes về xác suất có điều kiện, có thể áp dụng cho điều kiện nhiều biến, từ đó ta tính được P(Ci|X) theo công thức: P(Ci|X) = [P(X|Ci) P(Ci)] / P(X); trong trường hợp có nhiều biến X1, X2, , Xn, công thức mở rộng là P(Ci|X1, ,Xn) = [P(X1, ,Xn|Ci) P(Ci)] / P(X1, ,Xn).

Nếu P (Ci /X) > P (C k /X) với i # k thì X  Ci Tuỳ theo các phương pháp nhận dạng khác nhau, hàm phân biệt sẽ có các dạng khác nhau

Nếu các đối tượng nhận dạng tuân theo luật phân bố Gauss, mà hàm mật độ sác xuất cho bởi:

Phương pháp ra quyết định dựa trên lý thuyết Bayes được nhiều lĩnh vực ứng dụng để đưa ra dự đoán và quyết định Lý thuyết Bayes là một nhánh của thống kê, vì vậy các phương pháp nhận dạng dựa trên lý thuyết Bayes được xem là phương pháp thống kê.

- Cho không gian đối tượng X = {Xl, l=1, 2, , L}, với Xl= {x 1 , x 2 , , x p }

- Cho không gian diễn dịch  = {C1, C2, , C r }, r là số lớp

Quy tắc Bayes phát biểu như sau:

Trong bài toán nhận dạng, X thuộc Omega được gán cho lớp C_k khi P(C_k|X) > P(C_l|X) với mọi l khác k, l = 1, 2, , r Trường hợp lý tưởng là nhận dạng luôn đúng, tức là sai số bằng 0 Tuy nhiên trên thực tế luôn có sai số ε trong quá trình nhận dạng Vấn đề then chốt là xây dựng một quy tắc nhận dạng có sai số ε nhỏ nhất để tối ưu độ chính xác và độ tin cậy của hệ thống.

Phương pháp ra quyết định với  tối thiểu

Chúng ta xác định X thuộc tập C_k nhờ xác suất P(C_k|X) Với sai số có thể xảy ra, sai số được tính bằng 1 − P(C_k|X) Để đánh giá sai số trung bình một cách có hệ thống, người ta xây dựng một ma trận xác suất giữa các trạng thái C_k và các giá trị X, từ đó ước lượng sai số và đánh giá chất lượng nhận diện X trong tập C_k.

L (r,r) giả thiết là có n lớp

Ma trận L được định nghĩa như sau: k,j

Với: k j: Tồn tại sai số k = j: Không có sai số

Như vậy, sai số trung bình của sự phân lớp sẽ là:

 Để sai số là nhỏ nhất ta cần có r k là min Từ công thức 2.1 và 2.2 ta có: r k (X) = 

1 , ( / )P(C j ) (2.3) Vậy, quy tắc ra quyết định dựa trên lý thuyết Bayes có tính đến sai số được phát biểu như sau:

Trường hợp đặc biệt với 2 lớp C1 và C 2 , ta dễ dàng có:

Giả sử thêm rằng xác suất phân bố là đều (P (C1) = P (C 2 ), sai số là như nhau ta có:

2.3.4 Một số thuật toán nhận dạng tiêu biểu trong tự học

Trong thực tế, có nhiều thuật toán học không có thầy được áp dụng cho nhận dạng và phân cụm dữ liệu Ở bài viết này, chúng ta xem xét ba thuật toán được sử dụng phổ biến: thuật toán nhận dạng dựa trên khoảng cách lớn nhất, thuật toán K-means (K-mean) và thuật toán ISODATA Ba phương pháp này thể hiện một chuỗi bước tiến, từ thuật toán này sang thuật toán khác, với các cải tiến nhằm nâng cao hiệu suất nhận diện và phân cụm dữ liệu mà không cần dữ liệu được gắn nhãn.

2.3.4.1 Thuật toán dựa vào khoảng cách lớn nhất:

Cho một tập m đối tượng, ta xác định khoảng cách giữa các đối tượng và tìm khoảng cách lớn nhất ứng với phần tử xa nhất, từ đó hình thành lớp mới Quá trình phân lớp được thực hiện dần dần dựa trên việc xác định khoảng cách giữa các đối tượng và các lớp hiện có, từ đó xây dựng cấu trúc phân lớp ngày càng chi tiết.

- Chọn hạt nhân ban đầu: giả sử X 1  C 1 gọi là lớp g 1 Gọi Z 1 là phần tử trung tâm của g1

- Tính tất cả các khoảng cách D j1 = D(X j ,Z 1 ) với j =1, 2, , m

- Tìm D k1 = max j D j1 X k là phần tử xa nhất của nhóm g1 như vậy Xk là phần tử trung tâm của lớp mới g2, kí hiệu Z2

- Tính các khoảng cách Dj1, D j2

<  d1 kết thúc thuật toán Phân lớp xong

- Nếu không, sẽ tạo nên nhóm thứ ba Gọi X k là phần tử trung tâm của g 3, kí hiệu Z3

- Tính d3 = (D 12 + D 13 + D 23 )/3 với  là ngưỡng cho trớc và D13 = D(Z 1 ,Z 3 ), D 23 = D(Z 2 ,Z 3 )

Quá trình cứ lặp lại như vậy cho đến khi phân xong Kết quả là ta thu được các lớp với các đại diện là Z1, Z 2 , , Z m

2.3.4.2 Thuật toán K trung bình (giả sử có K lớp g):

Khác với thuật toán ở trên, ta xét K phần tử đầu tiên trong không gian đối tượng, hay nói một cách khác ta cố định K lớp Hàm để đánh giá là hàm khoảng cách Euclid, cho phép đo lường mức độ tương đồng giữa các đối tượng bằng cách tính khoảng cách Euclid giữa chúng trong không gian biểu diễn.

J_k là hàm chỉ tiêu cho lớp C_k Việc phân vùng cho k hạt nhân đầu tiên được thực hiện theo nguyên tắc tối thiểu hóa khoảng cách giữa các tâm phân vùng và các điểm dữ liệu Ở đây, ta dùng phương pháp đạo hàm để tính toán cực tiểu của J_k và tìm giá trị tối ưu cho các tham số thuộc lớp C_k.

 với Z k là biến Ta dễ dàng có (2.4) min khi:

Công thức 1.5 là giá trị trung bình của lớp Ck và điều này lý giải tên của phương pháp

 Chọn Nc phần tử (giả thiết có Nc lớp) của tập T Gọi các phần tử trung tâm của các lớp đó là: X1, X 2 , , X Nc và ký hiệu là Z1, Z 2 , , Z Nc

X  Ck nếu D (X,Zk) = Min D(X,Zj) (1) , j =1, , Nc (1) là lần lặp thứ nhất Tính tất cả Zk theo công thức 7.10

Tiếp tục như vậy cho đến bước q

= Z k (q) thuật toán kết thúc, nếu không ta tiếp tục thực hiện phân lớp

ISODATA, viết tắt của Iterative Self-Organizing Data Analysis, là một thuật toán phân cụm dữ liệu có độ linh hoạt cao, không yêu cầu cố định trước số lượng cụm Thuật toán hoạt động theo chu trình lặp đi lặp lại và cho phép điều chỉnh số lượng, kích thước và hình dạng của các cụm dựa trên các tiêu chí thống kê và khoảng cách giữa các điểm dữ liệu Các bước của ISODATA thường bắt đầu từ sự khởi tạo các cụm, tiếp tục bằng việc đánh giá chất lượng cụm và áp dụng các thao tác tách hoặc gộp cụm, mở rộng hay thu hẹp phạm vi xử lý để phù hợp với dữ liệu, và lặp lại cho đến khi đạt hội tụ hoặc đạt ngưỡng sai số cho phép.

Nhận dạng theo cấu trúc

Ngoài các biểu diễn định lượng đã trình bày, còn có nhiều đối tượng mang tính định tính, quan tâm đến dạng và mối quan hệ giữa chúng Giả thiết mỗi đối tượng được biểu diễn bằng một chuỗi ký tự, trong đó các đặc tính được mã hóa bằng cùng một tập ký tự Phương pháp nhận dạng được sử dụng là nhận dạng lôgíc, dựa trên hàm phân biệt là hàm Boolean, với cách nhận diện là so sánh các từ có cùng độ dài.

Trong bài toán này, mỗi ký hiệu được gán một hàm phân biệt ga(x), gb(x), gc(x) ứng với các ký tự a, b, c Để hình dung, ta xem từ "abc" được biểu diễn bằng một dãy X = {x1, x2, x3, x4} Ta tính các hàm ứng với 4 ký tự và cộng lại theo thứ tự: ga(x1) + gb(x2) + gc(x3) + gc(x4) Kết quả tổng này phản ánh đóng góp của từng ký hiệu trong chuỗi X và có thể dùng cho các mục đích mã hóa ký tự hoặc phân tích chuỗi dựa trên sự phân biệt của các hàm ga, gb, gc.

Trong mô hình này, các phép cộng được thực hiện dưới dạng phép toán OR Dựa trên giá trị cực đại của hàm phân biệt, ta quyết định X có thuộc lớp các từ 'abc' hay không Theo cách tiếp cận này, đối tượng được xem như một câu tương ứng, từ đó liên kết dữ liệu và nhãn một cách trực quan và hiệu quả cho quá trình nhận diện.

2.4.2 Phương pháp ra quyết định dựa vào cấu trúc:

Quy trình phân loại và nhận dạng được chia thành hai giai đoạn: Giai đoạn đầu tập trung xác định các quy tắc xây dựng của ngôn ngữ, tương đương với việc nghiên cứu văn phạm của một ngôn ngữ chính thống; Giai đoạn thứ hai, khi đã xác định được văn phạm, xem xét tập hợp các dạng sinh ra từ các cấu trúc đó, và nếu một dạng thuộc tập này thì được coi là đã hoàn tất phân loại Tuy nhiên, văn phạm là một vấn đề lớn, và trong nhận dạng cấu trúc chúng ta chỉ có thể khai thác được một phần rất nhỏ của nó.

Như trên đã nói, mô hình cấu trúc tương đương một văn phạm G:G = {Vn, V t ,

P, S} Có rất nhiều kiểu văn phạm khác nhau từ chính tắc, phi ngữ cảnh, Độc giả quan tâm xin xem các tài liệu về lý thuyết ngôn ngữ hình thức hay ô tô mát ở đây, xin giới thiệu một ngôn ngữ có thể được áp dụng trong nhận dạng cấu trúc: đó là ngôn ngữ PLD (Picture Language Description)

Đối tượng cần nhận dạng theo phương pháp này được biểu diễn bằng một câu trong ngôn ngữ L(G) Thao tác phân lớp là quá trình xem xét xem câu đó có thuộc văn phạm L(G) hay không, tức là có được sinh ra bởi các quy tắc của văn phạm G hay không Do vậy, phân lớp theo cách tiếp cận cấu trúc đòi hỏi phải xác định các đặc trưng và cấu trúc cú pháp của câu, nhằm khẳng định liệu đối tượng có tuân thủ đúng các quy tắc của văn phạm G hay không.

- Tập Vt chung cho mọi đối tượng

- Các quy tắc sinh P để sản sinh ra một câu và chúng khác nhau đối với mỗi lớp

- Quá trình học với các câu biểu diễn các đối tượng mẫu l nhằm xác định văn phạmG

- Quá trình ra quyết định: xác định một đối tượng X được biểu diễn bởi một câu l x Nếu lx nhận biết bởi ngôn ngữ L (Gx) thì ta nói rằng X Ck

Nói cách khác, quyết định phân lớp dựa vào phân tích cú pháp và biểu diễn của văn phạm Giống như phân tích cú pháp ngôn ngữ, có thể thực hiện phân tích theo hai chiều: từ trên xuống dưới và từ dưới lên Việc nhận dạng theo cấu trúc cũng có thể được thực hiện theo các phương pháp tương tự dựa trên các nguyên lý của văn phạm.

Việc nhận dạng dựa theo cấu trúc là một ý tưởng và dẫu sao cũng cần được nghiên cứu thêm.

Tổng quan về mạng neural networks

2.5.1 Bộ não và nơron sinh học:

Các nhà nghiên cứu sinh học thần kinh cho biết nơ-ron là đơn vị cơ bản đảm nhận các chức năng xử lý trong hệ thần kinh, gồm não, tủy sống và các dây thần kinh Mỗi nơ-ron có soma (thân tế bào), một đầu là sợi trục axon và một hệ thống dendrite dạng cây nhận tín hiệu từ các nơ-ron khác Dây thần kinh vào hình thành một lưới dendritic dày quanh thân tế bào, chiếm khoảng 0,25 mm²; sợi axon dài có thể từ 1 cm đến hàng mét và mang tín hiệu ra khỏi tế bào Đường kính của nhân tế bào thường khoảng 10^-4 m Sợi axon có thể phân nhánh thành dạng cây để kết nối với các dây thần kinh vào hoặc trực tiếp với thân nơ-ron khác thông qua khớp nối (synapse) Thông thường mỗi nơ-ron có thể có từ vài chục đến hàng trăm ngàn khớp nối liên kết với các nơ-ron khác Ước tính lưới các nhánh axon và các khớp nối có thể bao phủ khoảng 90% diện tích bề mặt của nơ-ron.

Các tín hiệu truyền trong các dây thần kinh vào và ra của nơ-ron là tín hiệu điện, bắt nguồn từ phản ứng tế bào và sự giải phóng các chất truyền tin tại khớp nối synapse; các chất này làm tăng hoặc giảm điện thế màng của nơ-ron nhận, quyết định xem có sinh ra xung điện hay không Khi điện thế đạt ngưỡng, xung điện được phát ra và lan dọc theo trục của nơ-ron tới các synapse khác, nơi các chất truyền tin lại được giải phóng để tác động lên nơ-ron tiếp theo Có hai loại khớp nối chính là khớp nối kích thích (excitatory) và khớp nối ức chế (inhibitory).

Phát hiện quan trọng nhất trong lĩnh vực nghiên cứu não bộ cho thấy liên kết khớp thần kinh có tính mềm dẻo, có thể biến động và chỉnh sửa theo thời gian tùy thuộc vào các dạng kích thích khác nhau Các nơ ron có khả năng sinh liên kết mới với các nơ ron khác, và đôi khi mạng lưới neuron có thể di trú từ vùng này sang vùng khác trong não Những tính chất này được xem là nền tảng cơ bản để giải thích cơ chế học của não người, bởi chúng cho phép não ghi nhớ và thích nghi dựa trên tái cấu trúc mạng lưới thần kinh theo kinh nghiệm.

Phần lớn quá trình xử lý thông tin diễn ra trên vỏ não Toàn bộ vỏ não được bao phủ bởi mạng các đơn vị cơ sở hình thùng tròn, có đường kính khoảng 0,5 mm và chiều cao khoảng 4 mm; mỗi đơn vị chứa khoảng 2000 nơ-ron Mỗi vùng não có chức năng nhất định, và điều đáng chú ý là dù các nơ-ron có cơ chế làm việc tương đối đơn giản, mạng lưới liên kết giữa chúng có khả năng tính toán, suy nghĩ, ghi nhớ và điều khiển các hoạt động của hệ thần kinh.

Có thể điểm qua những chức năng cơ bản của bộ não như sau:

Bộ nhớ được tổ chức thành các bó thông tin và cho phép truy cập theo nội dung, thay vì theo vị trí lưu trữ Hệ thống cho phép truy xuất dữ liệu dựa trên giá trị của các thuộc tính của đối tượng, giúp tìm kiếm và lấy thông tin một cách nhanh chóng và chính xác.

Bộ não có khả năng tổng quát hoá và truy xuất tri thức cũng như các mối liên hệ chung giữa các đối tượng tương ứng với một khái niệm chung Khi gặp thông tin mới, não bộ nhận diện các đặc điểm tương đồng, tổng hợp kinh nghiệm và gợi ý các liên kết liên quan để hình thành một khái niệm trung gian, từ đó giúp chúng ta hiểu và dự đoán các hiện tượng trong thế giới xung quanh.

Trí não có khả năng dung thứ sai lệch bằng cách điều chỉnh hoặc tiếp tục hoạt động ngay khi thông tin bị thiếu hoặc không chính xác Ngoài ra não còn có thể phát hiện và phục hồi các thông tin bị mất dựa trên sự tương đồng giữa các đối tượng.

Não bộ có khả năng lão hóa và suy giảm theo thời gian, nhưng vẫn có thể duy trì hoạt động ngay cả khi gặp trục trặc ở các vùng não do bệnh lý hoặc chấn thương, hoặc khi tiếp nhận những thông tin hoàn toàn mới Não có thể thích nghi và tái tổ chức chức năng để tiếp tục làm việc hiệu quả, ngay cả trong hoàn cảnh thách thức.

-Bộ não có khả năng học

So sánh khả năng làm việc của bộ não và máy tính

Máy tính Bộ não người Đơn vị tính toán Bộ xử lý trung tâm với 10B mạch logic cơ sở

Bộ nhớ 10 9 bit RAM 10 11 nơ ron

10 10 bit bộ nhớ ngoài với 10 14 khớp nối thần kinh

Thời gian xử lý 10 -8 giây 10 -3 giây

Thông lượng 10 9 bit/giây 10 14 bit/giây

Cập nhật thông tin 10 5 bit/giây 10 14 nơ ron /giây

Rõ ràng bộ não người có thể lưu trữ lượng thông tin lớn hơn bộ nhớ của máy tính hiện đại; tuy nhiên điều này không phải vĩnh viễn khi não tiến hóa chậm còn công nghệ vi điện tử tiến bộ nhanh khiến bộ nhớ máy tính được nâng cấp liên tục Sự khác biệt về lưu trữ trở nên thứ yếu so với tốc độ tính toán và khả năng xử lý song song Các bộ vi xử lý có thể thực hiện tới 10^8 lệnh mỗi giây, trong khi mạng nơ-ron xử lý chậm hơn và cần vài mili giây để kích hoạt một nơ-ron Tuy nhiên, não có thể kích hoạt đồng thời hầu như cùng lúc rất nhiều nơ-ron và liên kết, còn máy tính hiện đại vẫn hạn chế ở mức độ song song Việc chạy một mạng nơ-ron nhân tạo trên máy tính sẽ tốn hàng trăm lệnh máy để kiểm tra xem một nơ-ron có được kích hoạt hay không, với chi phí khoảng 10^-6 giây cho mỗi nơ-ron Do đó, dù bộ vi xử lý có thể tính toán nhanh hơn hàng triệu lần so với các nơ-ron não, nhưng xét trên tổng thể não bộ lại tính toán nhanh hơn hàng tỷ lần nhờ khả năng xử lý song song và mạng liên kết phức tạp của nó.

Mạng nơ-ron nhân tạo mang ý nghĩa thực tiễn đáng kể, cho phép tạo ra các thiết bị kết hợp khả năng xử lý song song cao của não với tốc độ tính toán lớn của máy tính Tuy nhiên, vẫn còn một khoảng thời gian dài để các mạng này có thể mô phỏng được các hành vi sáng tạo của não người Chẳng hạn, não có thể nhận diện khuôn mặt người quen chỉ trong chưa đầy 1 giây, trong khi một máy tính tuần tự phải thực hiện hàng tỷ phép tính và mất khoảng 10 giây để làm cùng thao tác, và chất lượng nhận diện lại kém hơn nhiều khi thông tin không chính xác hoặc không đầy đủ.

Hình 2.3: Cấu tạo nơ ron sinh học

2.5.2 Mô hình mạng nơ ron nhân tạo:

Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) hay MNR gồm các nút xử lý (nơ-ron) được liên kết với nhau bằng các liên kết nơ-ron có trọng số Trọng số trên mỗi liên kết thể hiện đặc tính kích hoạt hoặc ức chế giữa các nơ-ron Những trọng số này đóng vai trò lưu trữ thông tin dài hạn trong mạng nơ-ron và quá trình huấn luyện cập nhật chúng khi có thêm dữ liệu mẫu học Nhiệm vụ của quá trình học là điều chỉnh các trọng số sao cho đầu ra của mạng mô phỏng chính xác nhất với môi trường và bài toán đang xem xét. -**Support Pollinations.AI:**🌸 **Quảng cáo** 🌸 Sử dụng [Pollinations.AI](https://pollinations.ai/redirect/kofi) để tối ưu nội dung SEO về mạng nơ-ron nhân tạo nhanh chóng và hiệu quả!

Trong mạng, một số nơ ron được nối với môi trường bên ngoài như các đầu ra, đầu vào

2.5.2.1 Mô hình nơ ron nhân tạo:

Hình2.4: Mô hình nơ ron nhân tạo

Hình 2.5: Minh họa Neuron với một ngõ vào (a) Neuron không có trọng số Bias (b) Neuron có trọng số Bias

Hình (a) là một neuron có 1 ngõ vào p, ngõ ra a quan hệ với ngõ vào p và trọng số w theo biểu thức: ở đây là hàm truyền f

Hình (b) minh hoạ một neuron có hai ngõ vào: một ngõ vào chính p và một ngõ vào bias có tín hiệu cố định bằng 1 Trọng số cho ngõ vào p được ký hiệu là w, còn trọng số của ngõ bias được ký hiệu là b; với ngõ bias có giá trị đầu vào là 1, tổng trước kích hoạt là w · p + b Đầu ra a của neuron phụ thuộc vào ngõ vào p, các trọng số w và b, và được mô tả bởi hàm kích hoạt f, theo biểu thức: a = f(w p + b).

Mỗi nơ ron trong một mạng neural được nối với các nơ ron khác và nhận các tín hiệu s_j từ chúng với các trọng số w_j Tổng các tín hiệu đầu vào có trọng số được tính bằng công thức Σ_j w_j s_j, đây là giá trị tổng hợp mà nơ ron nhận được trước khi kích hoạt Giá trị này sau đó được đưa vào một hàm kích hoạt để tạo ra đầu ra của nơ ron, và quá trình này là nền tảng cho việc học và nhận diện mẫu trong các hệ thống trí tuệ nhân tạo.

Trong nơ-ron nhân tạo, Net được tính bằng Net = Σ w_j s_j, được xem là thành phần tuyến tính của nơ-ron Hàm kích hoạt g (còn gọi là hàm chuyển) đóng vai trò biến đổi từ Net sang tín hiệu đầu ra, với công thức out = g(Net) Đây là thành phần phi tuyến của nơ-ron Có 3 dạng hàm kích hoạt thường được dùng trong thực tế.

Hàm dạng bước step (x) = 1 nếu x  0 hoặc step (x) = 1 nếu x  

Hàm dấu sign(x) = 1 nếu x  0 hoặc sign (x) = 1 nếu x  

Trong mạng nơ-ron, hàm sigmoid với ngưỡng θ đóng vai trò tăng tính thích nghi và khả năng tính toán của hệ thống Sử dụng ký hiệu vectơ S = (s1, , sn) cho vectơ tín hiệu đầu vào và vectơ trọng số W = (w1, , wn), Net được tính bằng SW và đầu ra được xác định bởi out = g(Net).

Trường hợp xét ngưỡng , ta dùng biểu diễn véctơ mới S'=( s1, ,s n , ), W'=( W1, ,

Khả năng biểu diễn của nơ ron:

GIỚI THIỆU CHƯƠNG TRÌNH VÀ MÔ PHỎNG

Tiêu đề	Nhận Dạng Cử Động Bàn Tay
Tác giả	Lê Minh Hải
Người hướng dẫn	Ths. Hoàng Mạnh Hà
Trường học	Trường Đại Học Tôn Đức Thắng
Chuyên ngành	Không rõ
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	2009
Thành phố	TPHCM

Định dạng
Số trang	92
Dung lượng	1,63 MB