Giả sử gọi là góc nghiêng tổng thể của kí tự , điểm ảnh đối tượng px,y trong hệ toạ độ mới sẽ có toạ độ mới là px’,y’ trong hệ toạ độ mới với : Để tính góc nghiêng tổng thể ta phải t
Tổng quan
Giới thiệu bài tốn
Nhận dạng kí tự, đặc biệt kí tự viết tay là bài tốn có nhiều ứng dụng thực tế
Máy tính tự động xử lý và nhận dạng các biểu mẫu, phiếu điều tra giúp tiết kiệm thời gian, công sức và các chi phí liên quan đến nhập dữ liệu Công nghệ này tăng hiệu quả trong công tác xử lý dữ liệu, giảm thiểu sai sót và nâng cao năng suất Áp dụng đó mang lại lợi ích lớn cho các doanh nghiệp, tổ chức cần xử lý lượng lớn biểu mẫu một cách chính xác và nhanh chóng.
Hiện nay, với sự tiến bộ về lý thuyết và công nghệ, có nhiều hướng tiếp cận để giải quyết vấn đề nhận dạng ký tự, bao gồm các phương pháp dựa trên cấu trúc, logic mờ, giải thuật di truyền, mô hình xác suất thống kê và mạng nơ ron Trong số đó, mô hình mạng nơ ron đặc biệt thu hút sự chú ý nhờ khả năng tổng hợp hiệu quả và sự phát triển nhanh chóng của tốc độ xử lý máy tính.
Hiện nay, trên thế giới có nhiều chương trình nhận dạng chữ viết (bao gồm chữ in và chữ viết tay) hỗ trợ nhiều ngôn ngữ như tiếng Anh, Nga, và các ngôn ngữ khác, điển hình như OMNIPAGE, READ-WRITE, WORD-SCAN Tại Việt Nam, cũng có nhiều hệ thống nhận dạng chữ viết nổi bật như WORC của công ty 3C, VIET-IN của công ty SEATIC, VNDOCR của Viện Công Nghệ Thông Tin, Image Scan của Trung Tâm Tự Động Hóa Thiết Kế, và hệ WINGIS của công ty DolfSoft Các công nghệ này góp phần nâng cao hiệu quả xử lý dữ liệu chữ viết trong nước.
Các sản phẩm phần mềm nhận dạng văn bản Tiếng Việt chữ in của Việt Nam đã đạt được nhiều thành công và được sử dụng rộng rãi trong các cơ quan nhà nước, đặc biệt là phần mềm VNDOCR Trong khi đó, công nghệ nhận dạng ký tự viết tay vẫn đang trong quá trình nghiên cứu và phát triển nhằm phục vụ các nhu cầu đa dạng, như đọc và xử lý các biểu mẫu, hố đơn, phiếu điều tra…
Mục tiêu của đề án là nghiên cứu phương pháp nhận dạng ảnh ký tự viết tay không trực tuyến (off-line) và ứng dụng kết quả trong xử lý phiếu đăng ký môn học tại Trường Đại Học Thủy Sản Nha Trang Đề án tập trung vào thử nghiệm xây dựng chương trình nhận dạng ký tự viết tay sử dụng mạng nơ-ron, dựa trên tập mẫu ký tự được mã hóa bằng đặc trưng của đường biên Đây là giải pháp nhằm nâng cao hiệu quả tự động nhận diện ký tự chữ viết tay, góp phần hiện đại hóa công tác xử lý dữ liệu đăng ký của trường.
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
Cấu trúc nội dung của đồ án
Nội dung của đồ án được chia làm 4 phần:
Phần I: Giới thiệu tổng quan và cơ sở lý thuyết tiền xử lí ảnh kí tự, gồm
Chương 1: Giới thiệu tổng quan
Chương 2: Giới thiệu cơ sở lí thuyết tiền xử lí ảnh kí tự
Chương 3: Giới thiệu cách xác định đặc trưng của kí tự
Phần II: Giới thiệu các mô hình nhận dạng, gồm 2 chương
Chương 1: Giới thiệu một số kĩ thuật phân lớp: đối sánh, sử dụng hàm thế, phương pháp LDA
Chương 2: Giới thiệu mô hình mạng nơ ron cho bài tốn nhậ n dạng
Phần III: Giới thiệu một số ứng dụng và đánh giá kết luận gồm 4 chương
Chương 1: Giới thiệu ứng dụng kĩ thuật tách liên thông cho việc tách liên thông kí tự trong văn bản
Chương 2: Xây dựng, đánh giá chương trình nhận dạng kí tự viết tay
Chương 3: Đưa kết quả vào ứng dụng xây dựng chương trình xử lí phiếu đăng kí môn học cho sinh viên ở trường Đại học Thuỷ Sản Nha Trang
Chương 4: Đánh giá kết luận và nêu hướng phát triển của đề tài
Phần IV : Phụ lục giới thiệu giao diện chương trình.
Cơ sở lý thuyết tiền xử lý ảnh kí tự
Lọc mịn ảnh
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
Lọc mịn ảnh có tác dụng hạn chế ảnh nhiễu muối tiêu.
Nhị phân ảnh
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
Tiêu chuẩn xác định ngưỡng thường sử dụng nhất là sử dụng sai số bình phương trung bình giữa giá trị mẫu v và mức tái thiết r(v) (ký hiệu MSE)
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
Do r(v)=rj là hằng số trong đoạn [vj , vj+1]
Với p(v) cho trước và số mức tái thiết L cố định, các mức quyết định vj (j= 1…L-1) và các mức tái thiết rj (j=0 L-1) được xác định nhằm tối thiểu hàm sai số trung bình bình phương (MSE) Quá trình này đảm bảo tối ưu hóa các mức quyết định và mức tái thiết để đạt được độ chính xác cao nhất trong mô hình dự đoán Việc tối thiểu hóa MSE giúp nâng cao hiệu suất của hệ thống dự báo và cải thiện chất lượng dữ liệu đầu ra Các phương pháp tối ưu này dựa trên nguyên tắc xác định rõ các phân mức trong quá trình tái thiết, từ đó đảm bảo sự cân đối và chính xác của toàn bộ mô hình dự đoán.
Tuy nhiên, không có cách giải quyết dưới dạng khép kín nào tồn tại trừ khi chấp nhận một số phép xấp xỉ
Bây giờ ta xem xét trường hợp ngoại lệ nhưng quan trọng với L=2 Đó là trường hợp nhị phân hố ảnh Khi đó MSE trở thành:
Giả sử p(v) có thể ước lượng từ histogram dựa trên các giá trị v0 và v2 tương ứng với v_min và v_max Các tham số còn lại cần xác định gồm r0, r1 và v1, trong đó v1 được gọi là ngưỡng nhị phân hố Hơn nữa, r0(v1) và r1(v1) được tối ưu hóa để đạt MSE cực tiểu, dựa trên một giá trị cho trước của vj; các giá trị này đơn giản là trung bình trong các đoạn tương ứng.
Như vậy đủ để biến đổi v1 từ v0 đến v2 MSE được tính bằng cách thay r0 và r1 bằng r0(v1) và r1(v1) tương ứng và chọn vl
* sao cho MSE là cực tiểu
Otsu đề xuất một phương pháp phân lớp đơn giản hơn dựa trên phân tích biệt số, giúp giảm thiểu sai số trong quá trình tính toán Trong công thức của phương pháp này, Mean Squared Error (MSE) tương đương với phương sai lớp trong σW, mô tả sự phân tán của dữ liệu trong từng lớp Phương pháp của Otsu nhằm tối ưu hóa ngưỡng phân lớp để nâng cao hiệu quả phân đoạn ảnh một cách tối ưu nhất.
2(v1) được bổ sung vào phương sai lớp giữa
B (v1), ta được tồn bộ biến đổi T ( độc lập v1) Như vậy, thay vì cực tiểu MSE, giải thuật của Otsu cực đại phương sai giữa lớp:
Biểu thức có thể đơn giản thành :
Trong xử lý ảnh, ngoài các tiêu chuẩn lượng hố như mật độ và độ sáng, còn có các tiêu chuẩn khác như entropy để đo độ phức tạp của hình ảnh dựa trên histogram mức xám Histogram có thể được tính từ toàn bộ ảnh hoặc từ các vùng lân cận địa phương xung quanh khu vực đang xét, giúp cải thiện độ chính xác trong phân tích đặc trưng hình ảnh Các tiêu chuẩn này đóng vai trò quan trọng trong việc nâng cao hiệu quả của các kỹ thuật xử lý và phân loại ảnh dựa trên đặc trưng histogram.
Đánh nhãn thành phần liên thông
Liên thông trong ký tự đề cập đến tập hợp các điểm ảnh liền nhau tạo thành ký tự trong hình ảnh, giúp xác định và phân đoạn các ký tự một cách chính xác Mục tiêu của thuật toán liên thông là lọc ra các ký tự có trong ảnh bằng cách phân biệt các điểm ảnh liền kề, từ đó cải thiện hiệu quả nhận dạng ký tự quang học (OCR) Phương pháp này giúp xử lý ảnh rõ ràng hơn và tăng độ chính xác của quá trình nhận diện ký tự, phù hợp với các yêu cầu của các hệ thống xử lý hình ảnh hiện đại.
1 Tách liên thông bằng kĩ thuật đệ quy : Để tách liên thông ta nghĩ ngay đến kỹ thuật đệ quy cấp 8 (tại mỗi bước chúng ta có tối đa 8 lựa chọn tiếp theo)
Quy ước : Điểm (x, y) : cho biết giá trị điểm tại toạ độ (x, y)
=1 màu chữ =0 màu nền Height : Chiều cao ảnh Width : Chiều rộng ảnh
Ta có giải thuật như sau:
// Đưa tất cả các điểm liên thông với Điểm(x,y) vào liên thông t Procedure Chonvao((x,y) :điểm, t :liênthông)
If (Điểm(x, y)=1) AND (NOT đã_xét[x,y]) then Begin
Đã_xét[x, y] :=True ; For i :=x-1 to x+1 do For j:= y-1 to y+1 do
End ; // Ta có thủ tục tách liên thông đệ quy như sau : Procedure TáchLiênThôngĐQ(VAR LT: Danh_Sách_Liên_Thông) Begin
T:= t:=
For j:=1 to Height do For i:=1 to Width do đã_xét[i, j]:se;
For j:=1 to Height do For i:=1 to Width do
If (Điểm(x, y)=1) AND( NOT Đã_xét[i, j]) then Begin
Thêm _liên_thông_vào_Danh_Sách(T, t) ; t := ; End ; End;
Thuật toán này chỉ mang tính chất minh họa cho khái niệm tách liên thông, nhằm giúp người đọc hiểu rõ về bản chất của quá trình này Tuy nhiên, chúng tôi không sử dụng thuật toán này để cài đặt trong thực tế do chi phí đệ quy quá cao và tốc độ thực hiện không phù hợp với yêu cầu của hệ thống.
2 Giải thuật cải tiến: Để gán nhãn cho thành phần liên thông ta có thể duyệt theo từng đường chạy Kỹ thuật này gán cho mỗi thành phần liên thông của ảnh nhị phân một nhãn riêng biệt Nhãn thường là các số tự nhiên bắt đầu từ một đến tổng số các thành phần liên thông trong ảnh input
Giải thuật phát biểu như sau:
Quét ảnh từ trái sang phải và từ trên xuống dưới để xác định các đường chạy liên tục của pixel đen trong hình ảnh Trong hàng đầu tiên, chỉ có pixel đen xuất hiện, và mỗi đoạn liên tục của pixel đen này được gán một nhãn duy nhất để dễ dàng phân biệt Phương pháp này giúp tối ưu hóa quá trình phân tích hình ảnh, đặc biệt trong các ứng dụng phân loại và nhận diện đối tượng dựa trên màu sắc và cấu trúc.
Trong quá trình xử lý ảnh, mỗi pixel đen ở dòng tiếp theo sẽ được xem xét dựa trên các pixel lân cận trên dòng trước đó và bên trái (hình vẽ a) Nếu bất kỳ pixel lân cận nào đã được gán nhãn, nhãn tương tự sẽ được áp dụng cho pixel đen hiện tại, giúp duy trì sự thống nhất của nhãn trong ảnh Nếu không có pixel lân cận nào đã được gán nhãn hoặc các nhãn này chưa phù hợp, nhãn mới sẽ được chọn từ danh sách nhãn còn trống Quá trình này được lặp lại cho đến khi toàn bộ các dòng của ảnh được xử lý, đảm bảo phân vùng chính xác và hiệu quả của ảnh đen trắng.
Sau khi hoàn thành quá trình này, một thành phần liên thông có thể chứa các pixel với các nhãn khác nhau, vì khi xem xét lân cận của pixel đen, các pixel hàng xóm như pixel “?” trong hình c và các pixel lân cận trong dòng trước có thể được gán nhãn riêng biệt Việc xác định và ghi lại các tình huống như vậy là rất cần thiết để đảm bảo chính xác trong xử lý hình ảnh.
P P P L ? các nhãn” và gán lại các nhãn chưa sử dụng Để minh hoạ ta có các hình biểu diễn sau:
Hình a lân cận của “?” P= dòng trước; L=lân cận trái
Chỉnh nghiêng
Chỉnh nghiêng ảnh là một phép biến đổi tuyến tính của toạ độ điểm ảnh
Để xử lý ảnh chính xác, trước tiên cần xác định góc nghiêng tổng thể của đối tượng Sau đó, ta điều chỉnh vị trí điểm ảnh của đối tượng theo phương ngang dựa trên giá trị góc nghiêng này và tọa độ y của điểm đó Việc này giúp nâng cao khả năng nhận diện và xử lý hình ảnh trong các ứng dụng thị giác máy tính, đồng thời tối ưu hóa hiệu quả của các thuật toán liên quan.
Trong quá trình chuyển gốc tọa độ về trọng tâm ảnh, góc nghiêng của ký tự được ước lượng dựa trên góc từ trục tung Góc này hướng về phía bên trái được quy ước là giá trị dương, trong khi hướng về phía bên phải được quy ước là giá trị âm Quy trình này giúp xác định chính xác hơn vị trí và góc của ký tự trong phân tích ảnh.
Hình b Aûnh ban đầu Hình c Tiến trình gán nhãn
Hình d Sau khi quét đầy đủ Hình e Kết quả sau cùng
Góc nghiêng tổng thể của kí tự thể hiện hướng trung bình của các điểm ảnh thuộc đối tượng, nằm trong khoảng từ –45 độ đến 45 độ theo quy ước tính góc trên Những điểm ảnh có hướng nằm trong khoảng từ –45 độ đến 45 độ được xem là phần của đối tượng, trong khi các điểm ảnh có hướng ngoài phạm vi này không được tính vào phân tích góc nghiêng Điều này giúp xác định chính xác hơn đặc điểm hình dạng và hướng của kí tự trong quá trình nhận diện.
Gọi α là góc nghiêng tổng thể của ký tự, điểm ảnh đối tượng p(x,y) trong hệ toạ độ mới sẽ có toạ độ p(x’,y’) Để xác định góc nghiêng tổng thể, ta cần tính hướng của các điểm ảnh đối tượng, được xác định nhờ vào vectơ gradient tại từng điểm Độ lớn của vectơ gradient tại điểm ảnh (x, y) được tính bằng công thức phù hợp để đo mức độ biến đổi cường độ sáng tại điểm đó, giúp xác định chính xác hướng và góc nghiêng của ký tự trong ảnh.
Hướng của vectơ gradient tại(x,y) được tính bởi:
G x và G y là kết quả xoắn (convolve) với nhân Sobel Sx và S y :
Hình Các nhân của bộ lọc Sobel
Chú ý đến góc tính theo gradient tại mỗi điểm ảnh của đối tượng, được đo bằng góc so với trục x Các điểm ảnh được xem xét là những điểm có hướng của vectơ gradient nằm trong khoảng [45°, 135°] hoặc [-135°, -45°], giúp xác định chính xác các đặc trưng hướng của đối tượng dựa trên góc gradient.
Chuẩn kích thước
Chuẩn kích thước ảnh kí tự về một kích thước cố định và phóng sát bốn biên của ảnh
Phóng ảnh là thực hiện phép biến đổi sau:
Trong quá trình phóng to ảnh, (x, y) đại diện cho toạ độ điểm ảnh sau khi phóng, trong khi sx và sy lần lượt là tỷ lệ phóng theo trục x và y Hàm fx(x, y) thể hiện giá trị điểm ảnh kết quả tại toạ độ (x, y), phản ánh quá trình thay đổi kích thước ảnh một cách chính xác Quá trình này giúp duy trì chất lượng hình ảnh sau khi phóng lớn, đảm bảo các giá trị điểm ảnh phù hợp với tỷ lệ mới Việc xác định đúng tỷ lệ phóng sx, sy cũng như giá trị điểm ảnh fx(x, y) là yếu tố quan trọng để đảm bảo kết quả ảnh sau phóng rõ nét và chân thực.
0 1 0 trạng này, ta thực hiện một số xử lý bằng phép đóng morphology:
Lấp khoảng trống ảnh bằng phép đóng
Giả sử A và B là hai tập trong không gian Z 2 , aЄ A thì a=(a1, a2) Phép dịch chuyển của tập A đối với x=(x1, x2) ký hiệu(A)x , được định nghĩa
Phép phản chiếu của tập B, ký hiệu B * , được định nghĩa:
Phép bù của một tập A, ký hiệu A c , được định nghĩa:
Hiệu của hai tập hợp A và B, ký hiệu A-B, được định nghĩa:
Giả sử A, B là hai tập thuộc Z 2 , là tập hợp rỗng, phép giãn của A đối với
B, ký hiệu AB, được định nghĩa:
Tập B thường được gọi là thành phần cấu trúc
Giả sử A, B là hai tập thuộc Z 2 , phép co của A đối với B, ký hiệu AB được định nghĩa:
Giả sử A, B là hai tập thuộc Z 2 , phép đóng của A đối với B, ký hiệu AB được định nghĩa:
Tức phép đóng là phép do thực hiện phép mở rồi thực hiện phép đóng lên kết quả vừa có
Phép đóng có tác dụng làm đầy những khoảng nhỏ (tuỳ thuộc vào thành phần cấu trúc B) thường xảy ra trên đường biên
Thành phần cấu trúc thường được sử dụng là thành phần cấu trúc đối xứng có gốc (0, 0) là ở tâm như hình:
Do ảnh có độ phân giải 300 dpi và chữ có bụng viết nghiêng, quá trình phóng ảnh gây ra hiện tượng phần bụng bị dính lại sau khi thực hiện phép giãn và co Phép giãn đồng thời làm dãn hai điểm ảnh theo cả chiều ngang và chiều dọc, dẫn đến lỗi này Để khắc phục, ta sử dụng hai thành phần cấu trúc không đối xứng và thực hiện phép đóng hai lần trên các thành phần này, giúp hạn chế tác động của phép giãn chỉ về một phía.
Các thành phần cấu trúc không đối xứng.
Lấy đường biên và làm trơn đường biên
Biên của ảnh được thiết lập bằng cách nhân chập ảnh với phần tử có cấu trúc:
2 Dò biên và mã hố đường biên:
Ta có giải thuật dò tìm biên như sau:
Bước 1: Quét ảnh đến khi gặp điểm ảnh đen Gọi nó là pixel 1 Bước 2: Lặp
Nếu ” điểm ảnh hiện thời là đen “ thì “dò ngược”
Ngược lại “sang phải” đến khi “gặp pixel 1”
3 Xác định hướng của điểm biên (Freeman code):
Các hướng được quy ước như sau:
Với hướng quy ước trên, đường biên được mã hố như sau:
Làm trơn đường biên là quá trình duyệt theo đường biên chính xác để đảm bảo mịn màng Nếu hiệu số hướng giữa hai điểm liên tiếp trên đường biên lớn hơn 1, có thể thực hiện hiệu chỉnh để đường biên trở nên trơn tru hơn Mục tiêu là tạo ra đường biên có hiệu số hướng bằng 1 giữa các điểm liên tiếp, giúp đạt độ chính xác và mượt mà cho bản vẽ hoặc phân tích địa chất.
Theo mã hướng Freeman, hiệu số hướng của 2 điểm liên tiếp nhau trên đường biên được định nghĩa :
Goi c i là mã hướng tại điểm biên đang xét pi , c i+1 làmã hướng của điểm kế tiếp trên đường biên pi+1 Đặt d=ci+1-ci và Dabs=|d| nếu |d|4
Ta có các trường hợp sau: a dabs1 : Điểm biên trơn b dabs=2 và c i chẵn, ci+1 chẵn : bỏ pi+1 và thay hướng pi như sau:
Dabs=2 và ci chẵn , ci+1 chẵn c dabs=2 và c i lẻ , ci+1 lẻ : Bỏ pi+1 và thay hướng pi như hình
Dabs=2 và ci lẻ, ci+1 lẻ d dabs=3 , c i chẵn, ci+1 lẻ e dabs=3, c i lẻ, ci+1 chẵn
Minh hoạ ảnh kí tự sau quá trình tiền xử lý
Aûnh ban đầu Ảnh qua tiền xử lý
Rút đặc trưng
Giới thiệu đặc trưng hướng
Hướng các điểm trên đường biên của ký tự mô tả khá đầy đủ về đặc trưng của ký tự, trong đó hướng của các điểm ảnh trên biên được xác định là yếu tố chính Việc chọn đặc trưng để nâng cao độ chính xác trong nhận dạng ký tự rất khó khăn, đòi hỏi thời gian phân tích kỹ lưỡng và ảnh hưởng lớn đến kết quả cuối cùng Do sự biến dạng lớn trong chữ viết tay, người ta thường chia ô trên ảnh và trích xuất đặc trưng từ từng ô, tuy nhiên việc chọn các ô không bị chồng lấp nhằm đảm bảo độ chính xác vẫn gặp nhiều thách thức.
Chia ô
Aûnh kí tự sau khi tiền xử lý kích thước được chuẩn về mn điểm ảnh, ảnh được chia nhỏ thành các ô vuông nhỏ kích thước 88 điểm ảnh như hình:
Hình minh hoạ cách chia ô kí tự
Gom 4 ô kích thước 8x8 thành ô kích thước 16x16, và các ô kích thước 16x16 này được phủ lên nhau một nữa theo hai hướng ngang và dọc Trên mỗi ô kích thước 16x16 sẽ rút đặc trưng theo 4 hướng (0 0 , 45 0 , 90 0 ,135 0 ) Mỗi ô này được chia làm 4 phần theo điểm tâm của ô, phần trung tâm A có kích thước 4x4 điểm ảnh, phần B có kích thước 8x8 điểm ảnh trừ đi phần A, phần C có kích thước 12x12 điểm ảnh trừ đi phần B và A, và phần D là phần còn lại của ô có kích thước 16x16 trừ đi phần C, B và A
Ta có hình minh hoạ các phần A, B, C, D trong mỗi ô vuông 16x16
A n m Đặc trọng số vùng A, B, C và D tương ứng là 4, 3, 2, và 1 Gọi xj là một loại đặc trưng, xj được tính cho một ô kích thước 16x16 như sau:
Đặc trưng hướng của đường biên
Aûnh để rút đặc trưng này là ảnh chỉ chứa các đường biên rõ nét Với mỗi ảnh kích thước 16x16 điểm ảnh, quá trình trích xuất đặc trưng bao gồm việc xác định 4 đặc trưng xj (j=1, 2, 3, 4), trong đó x1 thể hiện số điểm biên có hướng 0° hoặc 180°, còn x2 phản ánh số điểm biên có hướng khác Các đặc trưng này được tính theo công thức đã đề cập, giúp phân biệt các đặc điểm quan trọng của hình ảnh dựa trên các đường biên.
45 0 (hay -135 0 ), x3 là số điểm có hướng 90 0 (hay –90 0 ) và x4 là số điểm có hướng
Như vậy ảnh kí tự sẽ được mô tả dưới dạng :
Trong đó n=k*4 , với k là tổng số ô vuông 16x16 xếp chồng lên nhau
CÁC MÔ HÌNH NHẬN DẠNG x j =4x j (A) +3x j (B) +2x j (C) + x j (D)
CHƯƠNG I GIỚI THIỆU CÁC MÔ HÌNH PHÂN LỚP, NHẬN DẠNG
I Khái quát tình hình nghiên cứu, ứng dụng lý thuyết nhận dạng:
Lý thuyết nhận dạng là lĩnh vực khoa học mới phát triển, đã đạt nhiều thành tựu đáng kể về lý luận và ứng dụng thực tiễn Nó chứng minh khả năng của máy tính điện tử trong việc mô hình hóa các chức năng phức tạp của trí tuệ con người.
Cho đến nay cơ sở tốn học của lý thuyết nhận dạng được xây dựng và phát triển đồng thời theo các hướng chính sau đây:
- Lý thuyết thống kê nhận dạng
- Lý thuyết cấu trúc về nhận dạng
- Lý thuyết đại số về nhận dạng
Mỗi lý thuyết nói trên đều có mục đích, đối tượng nghiên cứu và phương pháp giải quyết vấn đề khác nhau
Lý thuyết thống kê về nhận dạng là một nhánh phát triển từ thống kê toán học, ứng dụng các phương pháp cơ bản để nghiên cứu các vấn đề nhận dạng có yếu tố ngẫu nhiên và lượng thông tin đủ lớn Các công trình đầu tiên tại phương Tây theo hướng này được thực hiện bởi Sebestyen, trong khi gần đây, các nhà thống kê Liên Xô Vapnhic và Trecvonenkix đã xuất bản các tài liệu khá đầy đủ về lĩnh vực này, góp phần mở rộng kiến thức trong lĩnh vực lý thuyết thống kê nhận dạng.
Lý thuyết cấu trúc về nhận dạng vẫn chưa được xây dựng hoàn chỉnh, và các nghiên cứu tập trung vào các đối tượng có thể xem như tập hợp các đối tượng sơ cấp liên kết với nhau qua các liên kết chuẩn Các công trình về tượng và thuật toán nhận dạng cho thấy triển vọng của một lý thuyết đại số về nhận dạng đang hình thành ngày càng rõ nét, mở ra hướng đi mới trong lĩnh vực này.
Trong bối cảnh nhu cầu cấp thiết phải giải quyết các vấn đề thực tiễn trong hoạt động sản xuất và nghiên cứu khoa học kỹ thuật hiện đại, việc ứng dụng các kỹ thuật tin học mới, đặc biệt là máy tính điện tử, ngày càng trở nên phổ biến Nhiều chuyên gia từ các lĩnh vực khác nhau đã đề xuất và áp dụng các mô hình nhận dạng dựa trên phân tích thực nghiệm, theo phương pháp heuristic để nâng cao hiệu quả và độ chính xác trong quá trình xử lý dữ liệu.
Song song với việc xây dựng cơ sở lý thuyết nhận dạng, các hoạt động nghiên cứu ứng dụng lý thuyết này diễn ra sôi động và rộng khắp trên nhiều lĩnh vực khác nhau tại nhiều quốc gia trên thế giới, góp phần thúc đẩy sự phát triển công nghệ nhận dạng và nâng cao hiệu quả ứng dụng trong thực tiễn.
II Một số khái niệm về nhận dạng:
Một biểu diễn là giá đỡ (cái mang) thông tin, thường biểu diễn dưới dạng sau:
Mỗi xi biểu diễn kết quả của một phép đo Tập hợp các biểu diễn xác định
X được gọi là không gian biểu diễn Ví dụ không gian vectơ
Giải thích một biểu diễn nghĩa là cho một kết quả chẳng hạn một cái tên
Giả sử: ta có tập hợp các tên là:
Không gian giải thích là một tập thoả các luật, thao tác nào đấy
Một định danh là một ánh xạ của không gian biểu diễn vào không gian giải thích
Mục đích của nhận dạng là thực hiện phép ánh xạ để xác định các mẫu hoặc đặc điểm trong dữ liệu đầu vào Thuật toán nhận dạng giúp tìm ra phương pháp phù hợp để thực hiện quá trình này trên tập dữ liệu X, góp phần nâng cao hiệu quả và độ chính xác của hệ thống Các thuật toán nhận dạng đóng vai trò quan trọng trong việc tự động phân loại và nhận diện các đối tượng, thông tin trong dữ liệu phức tạp.
Dữ liệu cho bài tốn nhận dạng thường được biểu diễn qua tập mẫu học T với
T=(xq, ) là tập các cặp (dữ liệu - tên)
3 Độ đồng dạng và dị dạng:
Hai chỉ số thường được sử dụng để xây dựng dựa trên mối quan hệ thứ tự giữa các cặp đối tượng, trong đó đặc biệt khoảng cách giữa hai đối tượng là một chỉ số dị dạng Chỉ số này thỏa mãn ba tiên đề cơ bản, giúp đảm bảo tính hợp lệ và khả năng ứng dụng trong các lĩnh vực phân tích dữ liệu và xác định mối quan hệ giữa các đối tượng Việc hiểu rõ các chỉ số này là cốt lõi để xây dựng các mô hình hệ thống dựa trên thứ tự và khoảng cách, từ đó nâng cao độ chính xác của các phân tích khoa học.
Các hàm đặc trưng quan sát giúp xác định mối quan hệ gần thứ tự giữa một đối tượng X và các khái niệm Ai Cụ thể, với mọi chỉ số i, j, ta có thể thiết lập quan hệ so sánh: (X, Ai) (X, Aj), dựa trên một khoảng cách đối tượng, ký hiệu là D(X, A) Điều này cho phép đánh giá mức độ tương đồng hoặc khác biệt giữa đối tượng và các khái niệm liên quan, hỗ trợ trong các phân tích dữ liệu và xây dựng mô hình AI hiệu quả hơn.
Để phân lớp hoặc xác định danh tính của X, có thể sử dụng thông tin này để đưa ra quyết định chính xác Trong đó, Ci là lớp phân hoạch tương ứng với khái niệm đại diện Ai, và X được gán vào lớp Ci nhất định khi khoảng cách D(X, Ai) nhỏ nhất Điều này giúp tối ưu quá trình phân loại và định danh dựa trên dữ liệu hiện có.
III Một số thuật tốn phân lớp:
Có nhiều giải pháp phân lớp, trong thời gian qua em đã tìm hiểu và thử nghiệm một số giải pháp sau:
1 Xếp lớp khoảng cách cực tiểu:
Giả thiết là mỗi lớp mẫu được biểu diễn bằng một vectơ đơn (hoặc trung bình)
Trong phân loại mẫu, Nj là số vectơ mẫu từ lớp j, M là số lớp cần phân biệt, và tổng các vectơ này đóng vai trò quan trọng trong việc xác định lớp của các mẫu mới Để xác định lớp của một vectơ mẫu x chưa biết, phương pháp đơn giản nhất là gán nó cho lớp có khoảng cách Euclid gần nhất với x, giúp giảm thiểu tính toán và nâng cao hiệu quả phân loại Việc sử dụng khoảng cách Euclid để đánh giá độ gần giúp cải thiện độ chính xác và tối ưu hóa quá trình phân loại trong hệ thống nhận dạng mẫu.
Trong đó a =(a T a ) 1/2 là dạng Euclid Sau đó ta chỉ định x cho lớp j nếu
Dji(x) chính là khoảng cách ngắn nhất trong biểu diễn, giúp tối ưu hóa các phép tính và thể hiện dữ liệu một cách hiệu quả Khoảng cách này được định nghĩa dựa trên đánh giá bằng hàm số, giúp xác định chính xác mức độ tương đồng giữa các điểm dữ liệu Việc xác định khoảng cách ngắn nhất này đóng vai trò quan trọng trong nhiều ứng dụng, như phân cụm dữ liệu và học máy Tối ưu hóa khoảng cách này giúp nâng cao hiệu suất của các thuật toán xử lý dữ liệu, mang lại kết quả chính xác và nhanh chóng hơn.
Và chỉ định x cho lớp j, nếu dj(x) cho giá trị số lớn nhất
Phương pháp nhận dạng theo hàm thế được ứng dụng nhiều trong thực tiễn
Việc sử dụng hàm thế được được xuất phát từ nghĩa thế điện trong trường điện từ:
Trong không gian có điện tích q tại điểm A, điện trường xung quanh nó không ngừng tác động theo mọi hướng Tại điểm M trong không gian, thế gây ra bởi điện tích q được tính dựa trên các yếu tố như độ lớn của điện tích q, khoảng cách r từ M đến q, và hằng số điện môi Các dạng hàm thế thường dùng trong thuật toán nhận dạng giúp mô tả chính xác mối quan hệ giữa điện tích và điện thế trong không gian Việc hiểu rõ các công thức này là nền tảng để phân tích điện trường và các ứng dụng liên quan.
Ở đây , C1, C 2 là các hằng số cho trước (S, S ’ ) là khoảng cách S và S ’ (=0, 1, 2 )
Cách tính thế đối với mỗi lớp: mj:số mẫu của Kj
Ta có luật quyết định:
Chú ý : Việc tính thế đối với mỗi lớp, có thể bổ sung trọng số mẫu (St) :
Nếu chọn là hàm khoảng cách Euclid thì giải thuật hàm thế này gần giống với cách xếp lớp theo khoảng cách cực tiểu
3 Phương pháp LDA (Linear Discriminant Analysis):
Phương pháp LDA (Linear Discriminant Analysis) cho trường hợp phân biệt hai lớp giúp tìm ra một phương chiếu tối ưu để phân tách rõ ràng các mẫu thuộc hai lớp khác nhau Trong quá trình này, LDA tìm kiếm một trục chiếu tốt nhất nhằm phân biệt các mẫu trong tập dữ liệu một cách rõ ràng và đạt hiệu quả cao Giả sử chúng ta có một tập gồm n mẫu học X, trong đó các mẫu là các vectơ cột có chiều d, LDA sử dụng các đặc trưng này để xác định hướng phân tách tối ưu giữa hai lớp dữ liệu.
Trong đó n1 mẫu thuộc về lớp C1 và nằm trong tập con X1, n 2 mẫu thuộc về lớp C2 và nằm trong tập con X2
Trong bài toán phân biệt hai lớp C1 và C2, ta sử dụng vectơ d chiều w để biểu diễn hình chiếu của vectơ x lên phương w, qua tích vô hướng y = w^T x Mục tiêu chính là tìm kiếm phương chiếu w tối ưu nhằm giảm độ chệch phân biệt giữa các mẫu thuộc hai lớp, từ đó giảm số chiều của vectơ đặc trưng xuống còn một chiều Việc này giúp nâng cao khả năng phân tách dữ liệu, đồng thời tối ưu hoá quá trình phân loại trong không gian đặc trưng.
Ta gọi mi, i=1, 2 là trị trung bình của các mẫu tương ứng với 2 lớp C1 và
Và tương ứng là trung bình của các mẫu được chiếu lên phương w:
Trong đó y là hình chiếu của x lên w Yi là tập các hình chiếu của các x