Nguyễn Thị Hoàng Lan Trình bày: Nhóm 13 Hoàng Văn Hải Nguyễn Văn Dũng Trần Đình Phương Lớp: CH12BMTT Tìm hiểu ứng dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng Tìm hiểu ứ
Trang 1ĐẠI HỌC BÁCH KHOA
TÊN ĐỀ TÀI: (ĐỀ 13)
Hà Nội, tháng 12 năm 2012
GVHD: PGS.TS Nguyễn Thị Hoàng Lan Trình bày: Nhóm 13
Hoàng Văn Hải Nguyễn Văn Dũng Trần Đình Phương Lớp: CH12BMTT
Tìm hiểu ứng dụng phương pháp nhận dạng
cấu trúc văn phạm trong nhận dạng
Tìm hiểu ứng dụng phương pháp nhận dạng
cấu trúc văn phạm trong nhận dạng
Trang 2 TÌM HIỂU ỨNG DỤNG PHƯƠNG PHÁP NHẬN DẠNG CẤU TRÚC VĂN PHẠM
PHƯƠNG THỨC NHẬN DẠNG ĐỒ THỊ VÀ NHẬN DẠNG CHUỖI
Trang 3GIỚI THIỆU
Được sự phân công, nhóm thực hiện đề tài: Tìm hiểu ứng
dụng phương pháp nhận dạng cấu trúc văn phạm trong nhận dạng (nhận dạng chữ,…) và so sánh chất lượng và hiệu năng với phương pháp khác để nhận dạng chữ (Đề
13)
Điều kiện thời gian, khả năng còn nhiều hạn chế, nội dung tiểu luận là một lĩnh vực tri thức rộng lớn, đa dạng và rất phức tạp nên không tránh khỏi những sai sót và khiếm khuyết Rất mong nhận được sự góp ý, phê bình, đánh giá
để nhóm chúng tôi rút kinh nghiệm và hoàn thiện tốt hơn trong thời gian tới
Xin cảm ơn chân thành đến PGS.TS Nguyễn Thị Hoàng Lan
đã giảng dạy kiến thức, cung cấp tài liệu, định hướng và hướng dẫn chúng tôi
Trang 4 1 Phương thức cấu trúc văn phạm
2 Ngôn ngữ hình thức
3 Nhận dạng sử dụng cấu trúc văn phạm
4 Ngôn ngữ mô tả hình ảnh (PDL) sử dụng trong
nhận dạng cấu trúc văn phạm
Trang 5PHƯƠNG PHÁP NHẬN DẠNG CẤU TRÚC VĂN PHẠM
Phương thức cấu trúc văn phạm
Ngữ pháp cung cấp mô hình được chi tiết hóa làm nền tảng cho việc tạo
ra tuần tự ký tự trong chuỗi.
Bài toán nhận dạng, chúng tôi đưa ra một câu (một chuỗi có quy tắc) và ngữ pháp (các bộ quy tắc), và xác định xem câu có được tạo ra bởi văn phạm này không.
Một ngữ pháp bao gồm bốn thành phần:
• Các ký tự: Mỗi câu bao gồm một chuỗi ký tự (hay biểu tượng nguyên thủy, biểu tượng kết thúc) từ bảng chữ cái.
• Các biến: Là (ký hiệu) biểu tượng không kết thúc (hoặc biểu tượng trung gian, biểu tượng nội bộ).
• Biểu tượng gốc: Là một biến đặc biệt, là gốc cho tất cả các chuỗi.
• Luật sinh: là các quy tắc sinh (hoặc viết lại quy tắc) để xác định chuyển đổi một tập hợp các biến và biểu tượng vào các biến và biểu tượng khác.
Trang 6 Ngôn ngữ hình thức
Bằng cách áp đặt một số quy tắc hạn chế trên các luật sinh, Noam Chomsky đề nghị một hệ thống phân loại các văn phạm dựa vào tính chất các luật sinh Hệ thống này cho phép xây dựng các bộ nhận dạng hiệu quả
và tương thích với từng loại văn phạm Ta có 4 loại văn phạm như sau:
Loại 0: (Văn phạm phi ngữ cảnh hay không hạn chế): Văn phạm
không cần thỏa mãn bất kỳ ràng buộc trên các luật sinh hay quy tắc nào.
Loại 1:(văn phạm cảm ngữ cảnh CSG): Nếu văn phạm G có luật sinh
dạng αIβ Iβ β → αIβ xββ Trong đó αIβ ,β là một chuỗi bất kỳ chứa biến trung gian hoặc biểu tượng kết thúc, Iβ là biến trung gian, x là biến trung gian hoặc
biểu tượng kết thúc.
Loại 2: (văn phạm phi ngữ cảnh CFG): Nếu văn phạm G có luật sinh
dạng A α với A là một biến trung gian và α là một chuỗi ký hiệu kết thúc → hoặc biến trung gian V ∈ V T
Loại 3: (văn phạm chính quy RG): Nếu văn phạm G có luật sinh dạng
tuyến tính: αIβ z → β hoặc αIβ → βz hoặc αIβ z với → αIβ ,β là các biến trung gian
và z là chuỗi ký hiệu kết thúc (có thể là rỗng).
Trang 7PHƯƠNG PHÁP NHẬN DẠNG CẤU TRÚC VĂN PHẠM
Nhận dạng sử dụng cấu trúc văn phạm
Giả sử có một câu x được tạo bởi ngôn ngữ c có các mẫu hoặc lớp
khác nhau Câu x được phân loại theo ngữ pháp đã sinh nó, x là một
thành viên của ngôn ngữ L(Gi ).
Phân tích cú pháp là quá trinh xử lý ngược, cho x cụ thể, tìm một dẫn xuất trong G, dẫn đến x.
Phân tích cú pháp từ dưới lên bắt đầu với câu x, và tìm cách đơn giản
nó, coi nó là biểu tượng gốc Phương pháp tiếp cận cơ bản là sử dụng các luật sinh trở về trước, tức là tìm viết lại quy tắc bên phải của chuỗi hiện tại, và thay thế nó với một phân khúc.
Phân tích cú pháp từ trên xuống bắt đầu với nút gốc và liên tục áp dụng luật sinh để tìm gốc của câu x Từ đó xác định được quy tắc sinh.
Trang 8Ngôn ngữ mô tả hình ảnh sử dụng nhận dạng cấu trúc văn
phạm
Sử dụng ngôn ngữ mô tả hình ảnh (PDL) để nhận dạng cấu trúc văn phạm
Ngôn ngữ mô tả hình ảnh (PDL) là một cách thức đầu tiên để mô tả các mẫu hình ảnh sử dụng ngôn ngữ hình thức.
Các ký hiệu (biểu tượng) kết thúc: {t, b, u, o, s, *, - , +}; + đại diện cho 2 vector nối đuôi nhau, * đại diện cho 2 vector cùng điểm bắt đầu, và - đại diện đảo ngược vector H đại diện cho cuối vector
và T đại diện cho đầu vector
Trang 9Phương pháp suy luận
- Là phương pháp học từ các mẫu có sẵn
- Dữ liệu huấn luyện H có thể bao gồm mẫu tích cực S+ và mẫu tiêu cực S-, có nghĩa là, H = {S+, S-}.Mục đích là để học một ngữ pháp G learn để mẫu trong S+ thuộc về ngôn ngữ được xác định bởi ngữ pháp, và các mẫu trong S- thì không
Glearn(0) = {VN(0), VT(0), P(0), S (0)}
- Một điểm yếu của phương pháp này là đặc điểm kỹ thuật của quy tắc chỉnh sửa cho P, VN, VT là khó khăn.Hơn nữa, nếu các quy định là không duy nhất, số lượng Glearn ngữ
pháp có thể phát triển nhanh chóng
Trang 11 Ví dụ Xem xét văn phạm G = (VN, VT, P, S), trong đó VN = {S, T},
P={S T, T T I, S S+T, T I} → → ∗I, S→S+T, T→I} → →
Trang 12 • Phân tích cú pháp bắt đầu từ những kí tự gốc.
chuỗi x được phân tích.
của x tương ứng với nó.
với X1’X2’ Xn’ mới
với mức độ cao hơn và một phân rã mới được thực hiện.
Trang 13Phương pháp bottom-up
có thể là rất lớn.
không thể phân rã có thể bắt đầu với một số biểu tượng phân rã khác.
cấp độ thấp hơn và quy tắc sản xuất thay thế được lựa chọn
Trang 14 - Một đồ thị có hướng có thể được sử dụng để đại diện cho phụ thuộc phức tạp hơn giữa các nguyên thủy (biểu tượng) hơn bằng cách sử dụng các chuỗi biểu tượng một chiều.Như vậy, so sánh các mẫu đại diện sử dụng đồ thị có thể được nhìn thấy trong một cảm giác như là một sự tổng quát so sánh các chuỗi biểu tượng
- Xem đỉnh N của một đồ thị G = {N, R} (khác nhau) biểu tượng và R cạnh giữa chúng phản ánh (khác nhau) quan hệ giữa chúng (được gọi là thuộc tính đồ thị)
- Hai hướng tiếp cận để so sánh giữa các đồ thị:
Vectơ tính năng được xây dựng cho các biểu đồ và các vectơ được so sánh
Trang 15 Số lượng các phép toán tối thiểu cần thiết để sửa đổi một đồ thị khác được sử dụng như một biện pháp thay thế
• Chèn và loại bỏ các đỉnh
• Kết hợp và chia tách các đỉnh
• Thay đổi loại của các đỉnh
• Chèn và loại bỏ các cạnh
• Thay đổi các loại của cạnh
- Những khó khăn trong trường hợp đầu là lựa chọn các tính năng và số liệu phù hợp, cách tiếp cận thứ hai được tính toán
Trang 16 [3] Richard O Duda, Peter E Hart, David G Stork
(2001) Pattern classification (2nd edition), Wiley
[4] Structural and Syntactic Pattern Recognition Selim
Aksoy, Department of Computer Engineering Bilkent University, 2008