Các văn bản giấy trong các thư viện truyền thống dần được thay thế bởi cáctài liệu dạng tệp số, lưu trữ trong ổ cứng máy tính với nhiều định dạng như: .doc,.pdf... Trong quá trình số hóa, có rất nhiều văn bản viết tay lâu năm như: di chúccủa chủ tịch Hồ Chí Minh, bản thảo tập thơ viết tay Hoa Lúa của Thi sĩ Hữu Loan...với mong muốn giữ trọn giá trị nguyên văn của các tác phẩm này và khai thác đượcgiá trị nội dung, lưu trữ sao cho phù hợp với nhu cầu lập chỉ mục và tìm kiếm làmột thách thức lớn đặt ra. Trước mắt người ta chỉ có thể lưu giữ các ảnh thông quaviệc scan từng trang tài liệu. Nói một cách khác, đó là quá trình thủ công sao chépy văn từ tài liệu giấy vào máy tính được thực hiện bởi bàn tay con người. Vì vậy,nguồn tài nguyên bỏ ra về thời gian và tiền bạc để thực hiện công việc này là rấtđắt đỏ.Trong nghiên cứu này, đề xuất sử dụng một phương pháp tiếp cận; đó là đánhdấu từ Word Spotting trong tài liệu tiếng Việt viết tay. Đầu tiên, phải chuyển tấtcả hình ảnh văn bản viết tay về dạng nhị phân (trắng và đen) bằng phương phápphân ngưỡng với giá trị ngưỡng thích hợp. Tiếp đến, bằng các bộ lọc đơn giản nhưlọc trung vị 20 để khữ các nhiễu muối tiêu, các vết bẩn và vết mực mờ 33 34.Dựa vào độ đo của giải thuật Dynamic Time Warping mà phân cụm với số kcụm(tùy chọn) với phương thức gom cụm kmedoids. Kết quả của quá trình gom cụm,sẽ nhận được kcụm tượng trưng cho k mẫu unigram từ; giá trị trọng tâm centroidscủa mỗi mẫu sẽ được sử dụng cho quá trình so khớp (matching) của các nghiêncứu sau đó.
Trang 1LỜI CAM ĐOAN Tôi xin cam đoan Luận văn Thạc sĩ Công nghệ Thông tin đề tài “Nghiên cứu
về đánh dấu văn bản chữ viết tay tiếng Việt với giải thuật Dynamic Time Warping” được hoàn thành trên kết quả nghiên cứu của bản thân Các công việc
nghiên cứu và nội dung thực hiện trong luận văn chưa từng được nộp để lấy bằng cấp từ một trường hay một tổ chức nào; ngoại trừ phần cơ sở lý thuyết và các kết quả từ các giáo trình, báo cáo khoa học được tôi tham khảo, ghi rõ trong phần tài liệu tham khảo của luận văn
C ần Thơ, ngày 27 tháng 10 năm 2017
Học viên thực hiện
(Ký và ghi rõ h ọ tên)
NGÔ GIANG THANH
Trang 2LỜI CẢM ƠN
Trong quá trình học tập, nghiên cứu và thực hiện luận văn Cao học, em đã nhận được sự giúp đỡ rất nhiệt tình từ quý thầy cô, bạn bè và gia đình Em xin bày
tỏ lòng biết ơn sâu sắc tới:
Hai thầy hướng dẫn PGS TS Trần Cao Đệ và TS Lê Văn Lâm, các thầy không chỉ hướng dẫn em nghiên cứu tận tâm mà còn giúp đỡ em rất nhiệt tình trong mọi việc Chính điều đó đã tạo niềm tin, động lực cho em có thể hoàn thành
đề tài nghiên cứu của mình
Các thầy cô trong Khoa Công nghệ Thông tin và Truyền thông, trường Đại học Cần Thơ, trong hơn 2 năm qua các thầy cô đã truyền đạt rất nhiều kiến thức
và kinh nghiệm quý giá giúp em trưởng thành hơn trong cuộc sống, cũng như trong học tập và nghiên cứu
Con cũng xin cảm ơn cha mẹ là nguồn động lực luôn động viên, khích lệ mỗi khi con gặp khó khăn Luôn là chỗ vựa vững chắc cho con đứng lên mỗi khi con vấp ngã Mình cảm ơn những người bạn thân đã luôn giúp đỡ, ủng hộ và bên cạnh mình trong suốt thời gian khi mình gặp phải khó khăn
Một lần nữa xin kính chúc quý mọi người luôn dồi dào sức khỏe, thành công trong công việc và cuộc sống
Trang 3MỤC LỤC
Trang
CHƯƠNG 1 TỔNG QUAN 1
1.1 Lý do chọn đề tài 1
1.2 Các vấn đề liên quan 1
Các hệ thống đã có hiện tại 2
Kỹ thuật đánh dấu từ - Word Spotting 3
Mô hình tổng quan của nghiên cứu 4
1.3 Đối tượng và phạm vi nghiên cứu 6
Đối tượng nghiên cứu 6
Phạm vi nghiên cứu 6
1.4 Mục tiêu của đề tài 6
1.5 Phạm vi đề tài 7
1.6 Ý nghĩa thực tiễn của đề tài nghiên cứu 7
1.7 Phương pháp nghiên cứu 8
1.8 Cấu trúc luận văn 9
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 10
2.1 Xử lý ảnh là gì? 10
2.2 Thu nhận và biểu diễn ảnh 11
Các thiết bị thu nhận ảnh 11
Mô hình lưu trữ Raster 11
Một số khái niệm cơ bản 12
2.3 Nhiễu và khữ nhiễu 13
2.4 Một số phép toán logic trên ảnh 14
Trang 4Phép toán NOT 14
Phép toán AND 14
Phép toán OR 14
2.5 Phân ngưỡng 15
Phân ngưỡng cơ bản 15
Nhị phân Otsu 15
2.6 Phép cuộn và mẫu 17
2.7 Bộ lọc Gaussian 18
2.8 Bộ lọc trung vị 18
Định nghĩa và mệnh đề 19
Kỹ thuật lọc trung vị 19
2.9 Các phép toán xử lý hình thái học 20
Phép toán Dilation 20
Phép toán Erosion 21
Phép toán Gradient 22
2.10 Gom cụm dữ liệu 22
Gom cụm là gì? 22
Chuẩn hóa dữ liệu 23
Phương pháp phân hoạch 24
Cách thức đánh giá kết quả gom cụm 25
2.11 Thư viện OpenCV 25
Tổng quan 25
OpenCV 3.x và ngôn ngữ C++ trên Visual Studio 2015 26
Các thuộc tính và phương thức 27
Trang 52.12 Ngôn ngữ R và R Studio 32
Vài nét về R và R Studio 32
Thư viện gom cụm dữ liệu 33
2.13 Đặc điểm của tiếng Việt và mô hình unigram 33
Đặc điểm của tiếng Việt 33
Mô hình từ đơn 34
2.14 Trích chọn đặc trưng 35
Tổng quan 35
Projection Profile 36
Word Profile 36
2.15 Euclidean Distance Mapping 37
Công thức tính khoảng cách 37
Giải thuật EDM 38
2.16 Dynamic Time Warping 38
Vài nét về Dynamic Time Warping 38
Lược tả về kỹ thuật về DTW 39
Cận dưới Lemire 41
2.17 Kết luận chương 43
CHƯƠNG 3 NỘI DUNG NGHIÊN CỨU 45
3.1 Tiền xử lý – Preprocessing 45
Mô hình tiền xử lý hình ảnh 45
Giải thuật tách dòng 47
Giải thuật tách từ 58
Giải thuật chuẩn hóa từ 61
Trang 63.2 Gom cụm dữ liệu 65
Các chiến lược đề xuất 65
Cách thức lưu trữ dữ liệu đặc trưng 66
Kiểm chứng tốc độ tính toán của DTW 66
3.3 Các module xây dựng 67
3.4 Kết luận chương 68
CHƯƠNG 4 CÁC THỰC NGHIỆM VÀ ĐÁNH GIÁ 69
4.1 Cách thức thu thập và nội dung của dữ liệu 69
Đặc điểm của tập dữ liệu dùng để kiểm chứng 69
Nội dung trang viết tay 69
4.2 Các thực nghiệm và đánh giá 70
Giải thuật phân tách đoạn và tách từ 70
Giải thuật chuẩn hóa từ 75
Quá trình gom cụm dữ liệu 79
Cải tiến tốc độ tính toán DTW 85
4.3 Kết luận chương 86
CHƯƠNG 5 KẾT LUẬN VÀ KIẾN NGHỊ 90
5.1 Kết quả đạt được 90
5.2 Các hạn chế và hướng phát triển 90
TÀI LIỆU THAM KHẢO 93
PHỤ LỤC 96
Trang 7DANH MỤC BẢNG
Trang
Bảng 2.1: Giải thuật k-medoids 24
Bảng 2.2: Liệt kê các phương thức cơ bản nhập xuất trong OpenCV 28
Bảng 2.3: Liệt kê các phương thức logic và dilation trong OpenCV 30
Bảng 2.4: Liệt kê các phương thức khác trong OpenCV 31
Bảng 2.5: Giải thuật LB_Improved Nearest-Neighbor 42
Bảng 3.1: Input/Output giải thuật tiền xử lý hình ảnh 46
Bảng 3.2: Input/Output giải thuật khởi tạo và làm mượt y-projection 47
Bảng 3.3: Input/Output giải thuật xác định thung lũng 52
Bảng 3.4: Input/Output giải thuật kẽ dòng 54
Bảng 3.5: Input/Output giải thuật tách từ 59
Bảng 3.6: Giải thuật ước lượng giá trị AST 62
Bảng 3.7: Giải thuật loại bỏ đường gạch ngang 62
Bảng 3.8: Giải thuật phát hiện đường Baseline 63
Bảng 3.9: Giải thuật xóa đường gạch dưới 64
Bảng 3.10: Giải thuật tính giá trị CoM 65
Bảng 3.11: Mô tả sơ lược chức năng các modules được xây dựng 67
Bảng 4.1: Kết quả tách dòng và từ trên tập dữ liệu 73
Bảng 4.2: Một số trường hợp tách từ bị lỗi 75
Bảng 4.3: Kết quả thực nghiệm module chuẩn hóa từ 77
Bảng 4.4: Một số trường hợp gặp phải khi chuẩn hóa từ 78
Bảng 4.5: Danh sách top 12 từ được viết nhiều nhất trong tập dữ liệu 79
Bảng 4.6: Kết quả khi gom cụm với đặc trưng Projection Profile 80
Trang 8Bảng 4.7: Kết quả khi gom cụm với đặc trưng Word Profile 81
Bảng 4.8: Kết quả gom cụm với k là số cụm tùy chọn trên dữ liệu tác giả 1 82
Bảng 4.9: Kết quả gom cụm với k là số cụm tùy chọn trên dữ liệu tác giả 2 82
Bảng 4.10: Kết quả gom cụm trên dữ liệu tác giả 1 và 2 với FastDTW 83
Bảng 4.11: Thời gian tính toán (giây) khi so sánh từng đôi trên dữ liệu 85
Bảng 4.12: Số lần gọi tới hàm DTW 85
Trang 9DANH MỤC HÌNH ẢNH
Trang
Hình 1.1: Mô hình tổng quan của nghiên cứu 5
Hình 1.2: Minh họa mục tiêu đạt được của nghiên cứu 7
Hình 2.1: Quá trình xử lý ảnh 10
Hình 2.2: Sơ đồ tổng quát của một hệ thống xử lý ảnh 10
Hình 2.3: Ma trận dữ liệu của mô hình Raster 12
Hình 2.4: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 12
Hình 2.5: Ví dụ về giá trị mức xám của các điểm ảnh trong ảnh số 13
Hình 2.6: Ví dụ về khữ nhiễu trong ảnh số 13
Hình 2.7: Phép toán NOT ảnh 14
Hình 2.8: Phép toán AND hai ảnh 14
Hình 2.9: Phép toán OR 15
Hình 2.10: Ví dụ về phương pháp nhị phân Otsu 16
Hình 2.11: Lọc nhiễu bằng bộ lọc trung vị 19
Hình 2.12: Các cấu trúc nối kết được sử dụng thông dụng 21
Hình 2.13: Ví dụ cách tính Dilation 21
Hình 2.14: Ví dụ cách tính Erosion 21
Hình 2.15: Xử lý Gradient với bộ phần tử liên thông 3x3 gồm 4 nối kết 22
Hình 2.16: Gom cụm dữ liệu 23
Hình 2.17: Logo nhận diện thư viện OpenCV 26
Hình 2.18: Ví dụ về unigram trong chữ viết Tay 34
Hình 2.19: Từ và đặc trưng Projection Profile 36
Hình 2.20: Upper Word đã được trích chọn và chuẩn hóa 37
Trang 10Hình 2.21: Lower Word đã được trích chọn và chuẩn hóa 37
Hình 2.22: Ví dụ về phương pháp so khớp EDM 38
Hình 2.23: Minh họa về cách thức so khớp của giải thuật DTW 39
Hình 2.24: Các ràng buộc trong Dynamic Time Warping 40
Hình 2.25: Minh họa các đường U(x) và L(x) được tạo ra từ chuỗi x 41
Hình 2.26: Minh họa các bước tính LB_Improved 43
Hình 3.1: Các bước trong giai đoạn tiền xử lý văn bản viết tay 45
Hình 3.2: Lưu đồ các bước tiền xử lý đối với hình ảnh tiếng Việt viết tay 46
Hình 3.3: Lưu đồ giải thuật bước khởi tạo và làm mượt cho y-projection 48
Hình 3.4: Minh họa về khởi tạo y-projection cho đoạn văn bản viết tay 49
Hình 3.5: Minh họa về y-projection và MAF y-projection 50
Hình 3.6: Minh họa định nghĩa thung lũng trong y-projection 50
Hình 3.7: Lưu đồ giải thuật xác định thung lũng 51
Hình 3.8: Lưu đồ giải thuật hàm identify_valley 52
Hình 3.9: Minh họa về giải thuật nối kết thung lũng 53
Hình 3.10: Sơ lược các bước kẽ dòng 54
Hình 3.11: Lưu đồ giải thuật lấy thành phần liên thông 56
Hình 3.12: Minh họa về giải thuật lấy phần liên thông 57
Hình 3.13: Thành phần liên thông trên và dưới 57
Hình 3.14: Minh họa trường hợp kẽ dòng khi chạm 58
Hình 3.15: Minh họa kết quả tách chữ 58
Hình 3.16: Lưu đồ giải thuật tách từ 60
Hình 3.17: Các thành phần trong một từ 61
Hình 3.18: Các giải thuật trong chuẩn hóa unigram từ 61
Trang 11Hình 4.1: Đặc điểm chữ viết tay giữa hai tác giả 69
Hình 4.2: Giao diện module tiền xử lý khữ nhiễu và phân ngưỡng 71
Hình 4.3: Giao diện module tách đoạn 71
Hình 4.4: Minh họa kết quả quá trình khữ nhiễu 72
Hình 4.5: Trường hợp tách đúng và tách sai dòng 72
Hình 4.6: Một trang sau khi tách dòng 74
Hình 4.7: Giao diện module chuẩn hóa từ 76
Hình 4.8: Số từ chuẩn hóa đúng trên các tập Dataset trong các lần thực hiện 77
Hình 4.9: Tốc độ tính toán giữa các độ đo khi gom cụm 83
Hình 4.10: So sánh thông số entropy giữa các độ đo 84
Hình 4.11: Thời gian tính toán giữa DTW và Lemire LB 86
Hình 4.12: Mô hình đánh dấu từ đề xuất xây dựng 88
Hình 4.13: Mô hình tra cứu và so khớp với chữ ký tay 89
Trang 12DANH MỤC TỪ VIẾT TẮT
1 API
Application Programming Interface
Giao diện/giao thức cung cấp khả năng truy xuất đến các hàm/thư viện đã được cài đặt trước đó
2 AST
Average Stroke Thickness
Giá trị trung bình dùng để xác định độ rộng của đường gạch ngang trong từ
Device Independent Bitmap
Cấu trúc lưu trữ tập tin đồ họa kiểu bitmap, tên tiếng Anh là Windows Bitmap
6 DLL
Dynamic Linked Libraries
Thư viện liên kết động, có tính khả chuyển cao; là một thành phần được liên kết sử dụng trong nhiều
phần mềm
7 DTW
Dynamic Time Warping
Tên một giải thuật so khớp, một độ đo được sử dụng trong nghiên cứu này
8 EDM
Euclidean Distance Mapping
Tên một giải thuật so khớp dựa trên khoảng cách
Euclid, xem chi tiết tại [23]
9 IDE Integrated Development Environment
Trang 13Là một phần mềm cung cấp cho các lập trình viên một môi trường tích hợp, bao gồm nhiều công cụ khác nhau
10 IPP
Intel’s Integrated Performance Primitives
Một dạng thư viện tối ưu các phép toán/thuật toán xử
lý ảnh trong OpenCV với các chip Intel
11 OCR
Optical Character Recognition
Hướng tiếp cận trong nhận dạng chữ viết tay; nhận dạng ký tự quang học
12 OOP Object-Oriented Programming
Lập trình hướng đối tượng
13 PAM
Partitioning Around Medoids
Một giải thuật gom cụm theo phương pháp phân
hoạch, tên gọi khác của k-medoids
14 RAM
Random Access Memory
Bộ nhớ khả biến cho phép truy xuất đọc-ghi ngẫu
nhiên của máy tính
15 SC Shape Content matching
Tên một giải thuật so khớp, xem chi tiết tại [4]
16 SLH Scott and Longuet Higgins
Tên một giải thuật so khớp, xem chi tiết tại [23]
17 SSD the Sum of Squared Differences
Tên một giải thuật so khớp, xem chi tiết tại [23]
Trang 14ABSTRACT
In the sector of processing images of Vietnamese handwritten text, the technique
of Optical Character Recognition is replaced with Word Spotting, which is presented in this thesis Word Spotting is not a separated processing algorithm that
it is a sequential one; including many operations basing on digital images such as: images clarification, line/word segmentation, normalization, featured extraction, matching and clustering Clarification is known as reducing noise image (impulse noise) and improving image quality (blurred ink, stains) Next is the process of transferring text images into black and white images (binary) those are processable Word segmentation is the defining the location where the content has phrases to be used; processing is based on y-projection (line segmentation), x-projection (word segmentation), combined with valleys and peaks - finding manipulation in order to determine the splitting lines Next, standardized operation
is detection and elimination the arising noises in the process of writing the text, such as: dashes, italic words by using the AST and CoM values Finally, the characteristics of Word Profile (includes upper and lower word) and Projection Profile will be extracted and clustered with Dynamic Time Warping and Euclid distances by k-medoids/PAM algorithm In the experiments, the data of 17 handwritten pages including 2693 words by two persons with the same content were collected As a result, the accuracy of line segmentation is 97% and word segmentation is 84% Beside that, the normalized algorithm is effective with low skew words In short, the 2693 unigrams were clustered into 80 partitions (k) with DTW distance’s entropy value better (lower) than Euclid distance Especially, the computational time is clearly improved when we combined FastDTW and Lemire Lower bound with Vietnamese handwritting features
Keywords: Pre-processing of handwritten text, word segmentation, normalization
word, Dynamic Time Warping, word spotting, word profile, projection profile, time series clustering k-medoids, Lemire lower bound
Trang 15TÓM TẮT
Trong lĩnh vực xử lý hình ảnh văn bản tiếng Việt viết tay, ngoài phương pháp nhận dạng ký tự quang học, thì kỹ thuật đánh dấu từ sẽ là nội dung được trình bày trong nghiên cứu Đánh dấu từ không phải là một giải thuật xử lý rời rạc, mà đó là một quá trình tuần tự; bao gồm nhiều thao tác xử lý dựa trên ảnh số như: Làm rõ ảnh, phân tách dòng/từ, chuẩn hóa, trích chọn đặc trưng, tính toán so khớp và gom cụm Làm rõ ảnh là việc làm giảm độ nhiễu (impulse noise) và cải thiện chất lượng ảnh (mực bị mờ, vết bẩn) Song song với đó là thao tác phân ngưỡng hình ảnh văn bản thành dạng ảnh mức xám, với giá trị trắng và đen có thể xử lý được Phân tách từ ngữ là việc xác định khoảng vùng tọa độ, mà ở đó có chứa nội dung cụm từ cần sử dụng; việc xử lý dựa vào phép chiếu y-projection (tách dòng), x-projection (tách unigram từ), kết hợp với thao tác tìm các đỉnh và thung lũng để xác định đường phân cách Tiếp đến, thao tác chuẩn hóa là phát hiện và loại bỏ các nhiễu phát sinh trong quá trình viết văn bản đó có thể là: đường gạch ngang, chữ bị nghiêng bằng các giá trị AST và CoM Cuối cùng, các đặc trưng Word Profile (bao gồm upper
và lower word) và Projection Profile sẽ được trích chọn; đó cũng là dữ liệu đầu vào của quá trình gom cụm k-medoids với độ đo Dynamic Time Warping và Euclid Trong phần thực nghiệm, tiến hành thu thập dữ liệu 17 bản viết tay với
2693 từ của 2 tác giả về cùng một nội dung Lần lượt kiểm chứng thực nghiệm với các giải thuật tiền xử lý, tách dòng, tách từ, chuẩn hóa và gom cụm Kết quả của quá trình tách dòng đạt 97% trong khi tách từ đạt 85% Quá trình chuẩn hóa giải quyết tốt trên các từ có độ nghiêng (skew) nhỏ Cuối cùng, khi tiến hành gom cụm với 2693 unigram từ vào 80 mẫu với DTW đạt kết quả tốt hơn so với độ đo Euclid Đặc biệt, tốc độ tính toán khi kết hợp giữa kỹ thuật tính cận dưới Lemire với FastDTW đã được cải thiện rõ rệt
Các từ khóa: tiền xử lý chữ viết tay, phân tách từ, chuẩn hóa, dynamic time
warping, word spotting, word profile, projection profile, k-medoids, c ận dưới
Lemire
Trang 16CHƯƠNG 1 TỔNG QUAN 1.1 Lý do chọn đề tài
Các văn bản giấy trong các thư viện truyền thống dần được thay thế bởi các tài liệu dạng tệp số, lưu trữ trong ổ cứng máy tính với nhiều định dạng như: doc, pdf Trong quá trình số hóa, có rất nhiều văn bản viết tay lâu năm như: di chúc của chủ tịch Hồ Chí Minh, bản thảo tập thơ viết tay Hoa Lúa của Thi sĩ Hữu Loan với mong muốn giữ trọn giá trị nguyên văn của các tác phẩm này và khai thác được giá trị nội dung, lưu trữ sao cho phù hợp với nhu cầu lập chỉ mục và tìm kiếm là một thách thức lớn đặt ra Trước mắt người ta chỉ có thể lưu giữ các ảnh thông qua việc scan từng trang tài liệu Nói một cách khác, đó là quá trình thủ công sao chép
y văn từ tài liệu giấy vào máy tính được thực hiện bởi bàn tay con người Vì vậy, nguồn tài nguyên bỏ ra về thời gian và tiền bạc để thực hiện công việc này là rất đắt đỏ
Trong nghiên cứu này, đề xuất sử dụng một phương pháp tiếp cận; đó là đánh dấu từ - Word Spotting trong tài liệu tiếng Việt viết tay Đầu tiên, phải chuyển tất
cả hình ảnh văn bản viết tay về dạng nhị phân (trắng và đen) bằng phương pháp phân ngưỡng với giá trị ngưỡng thích hợp Tiếp đến, bằng các bộ lọc đơn giản như
lọc trung vị [20] để khữ các nhiễu muối tiêu, các vết bẩn và vết mực mờ [33] [34]
Dựa vào độ đo của giải thuật Dynamic Time Warping mà phân cụm với số k-cụm (tùy chọn) với phương thức gom cụm k-medoids Kết quả của quá trình gom cụm,
sẽ nhận được k-cụm tượng trưng cho k mẫu unigram từ; giá trị trọng tâm centroids của mỗi mẫu sẽ được sử dụng cho quá trình so khớp (matching) của các nghiên cứu sau đó
1.2 Các vấn đề liên quan
Người ta đã bắt đầu nghiên cứu về lĩnh vực nhận dạng chữ viết tay trước đây khá lâu Nhiều nghiên cứu trong báo cáo khoa học về chủ đề này cũng đã được công bố trong các hội thảo; nhiều ứng dụng có liên quan cũng đã được xuất bản rộng rãi dưới dạng mã nguồn mở hoặc bản quyền thương mại Nhìn chung, có hai
Trang 17hướng tiếp cận phổ biến khi đề cập đến vấn đề xử lý văn bản viết tay là Optical
Character Recognition và Word Spotting
Hiện nay có rất nhiều phần mềm thương mại và tự do về OCR Một trong số
đó phải kể đến ứng dụng FreeOCR1 Đây là một phần mềm mã nguồn mở dựa trên nền tảng mã nguồn mở Tesseract-OCR2 do Google tài trợ Ưu điểm của phần mềm này là nhận dạng các ký tự hình ảnh hoặc tập tin PDF, hỗ trợ một số định dạng ảnh như: TIF, BMP, JPG, PNG Loại bỏ được các thành phần không phải văn bản (hình ảnh, bảng tính) Xử lý riêng lẻ các trang đối với tài liệu nhiều trang Khuyết điểm
là không hỗ trợ nhận dạng văn bản chữ viết tay Ngoài ra, VnDOCR3 là phần mềm thương mại do Phòng nhận dạng và Công nghệ Tri thức – Viện Công nghệ Thông tin nghiên cứu và phát triển Ưu điểm nổi bật của ứng dụng này là có thể trực tiếp nhận dạng tài liệu quét qua máy scanner mà không cần lưu trữ trung gian dưới dạng hình ảnh Khuyết điểm của phần mềm là chỉ làm việc trên tài liệu chữ in Đối với các văn bản hình ảnh dạng chữ in thì cho kết quả rất cao trên 90% Tuy nhiên, khó khăn và hạn chế chung của hướng tiếp cận này là chất lượng hình ảnh, font chữ đặc biệt và chữ viết tay cho ra kết quả không khả quan Đặc biệt, với ngôn ngữ tiếng Việt thì tỉ lệ chính xác không cao so với các ngôn ngữ khác (tiếng Anh) Do sự xuất hiện của các dấu giọng (huyền, sắc, hỏi, ngã, nặng) chỉ các thanh của âm tiếng Việt
1 Xem thêm tại: http://www.freeocr.net/
2 Xem thêm tại: https://github.com/tesseract-ocr
3 Xem thêm tại: http://www.vndocr.com/home/Products.asp?ProductID=2
Trang 18Một nghiên cứu khác của Tomai [6] đã thể hiện sự khó khăn của phương
pháp nhận diện tài liệu viết tay cổ Mục tiêu của họ trong nghiên cứu này là sinh
ra một ánh xạ biểu diễn cặp từ – từ giữa hình ảnh văn bản viết tay và một bản chép lại thủ công của văn bản đó Hiệu suất của việc nhận diện khá thấp Rõ ràng phương pháp OCR không thích hợp cho việc nhận diện các tài liệu viết tay
Tóm lại, các báo cáo nghiên cứu hướng đến cách giải quyết xử lý văn bản viết tay cho một ngôn ngữ đặc trưng (đa phần là tiếng Anh) Trong khi đó, nghiên cứu về đặc trưng của ngôn ngữ viết tay tiếng Việt còn khá ít Một trong số đó, phải
kể đến nghiên cứu [29] của nhóm tác giả Phạm Anh Phương, Ngô Quốc Tạo,
Lương Chi Mai về các thức chọn đặc trưng Wavelet Haar kết hợp với SVM4 trong chữ viết tay tiếng Việt Trong bài báo của họ, đã đề xuất được một phương pháp theo hướng OCR, nhận dạng chữ viết tay tiếng Việt là nhận dạng dấu với chữ cái riêng nhau Tuy nhiên, nghiên cứu chỉ dừng lại ở mức nhận dạng mà không nêu cụ thể các phương pháp tiền xử lý văn bản trước đó
Kỹ thuật đánh dấu từ - Word Spotting
Thay vì kì vọng chuyển tất cả từ ngữ trong văn bản viết tay sang chữ đánh máy, tức là toàn bộ nội dung viết tay thành một dạng kí tự sửa đổi được như mã Unicode, UTF-8, ASCII Người ta chấp nhận việc chỉ tìm một từ khóa nào đó xem có trong tài liệu hay không Vấn đề này dẫn tới việc tìm kiếm (search) một mẫu (pattern) như một từ khóa trong văn bản viết tay ở dạng tài liệu ảnh quét
Người đề xuất ra hướng tiếp cận này là Manmatha trong nghiên cứu [26] năm 1996
Báo cáo khoa học của nhóm này đã trình bày sơ bộ các kĩ thuật so khớp và phương thức cắt tỉa5, giúp loại bỏ các thành phần không phù hợp cho việc so khớp và giữ lại những đặc trưng cơ bản của một từ Dữ liệu thực nghiệm được gồm 10 trang
lấy trong tập tài liệu của George Washington tại [24]
4 Viết tắt của Support Vector Machine là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy
Trang 19Sự đổi khác trong cách tiếp cận này là không hướng đến việc nhận diện từng
ký tự chữ cái rời rạc, thay vào đó phân tách các từ/cụm từ và so khớp sự tương đồng với mẫu tìm kiếm theo đặc trưng tiêu biểu của bản thân nó Đây là một kỹ thuật mới được đánh giá là dễ và hiệu quả hơn kỹ thuật OCR, trong lĩnh vực xử lý văn bản viết tay
Mô hình t ổng quan của nghiên cứu
Để giải quyết bài toán đặt ra thì có rất nhiều công đoạn và thao tác phải thực hiện Tuy nhiên có một số vấn đề chính cần giải quyết là:
Vấn đề tiền xử lý văn bản viết tay, khi gặp các trường hợp hình ảnh văn bản sau giai đoạn số hóa (scan hoặc chụp) bị phát sinh nhiễu (nhiễu muối tiêu), cũng như vết mực của chữ viết bị mờ hoặc các vết bẩn xuất hiện trong các trang tài liệu lâu năm Bằng các phép lọc và phân ngưỡng cơ bản trong xử lý hình ảnh, nghiên cứu sẽ chỉ ra một quy tắc xử lý chung khi gặp các trường hợp nêu trên
Vấn đề tách dòng, khi văn bản viết với độ nghiêng vừa phải, trong trường hợp hai dòng chạm nhau và trường hợp có một dòng nào đó trong văn bản không xuất hiện từ cực trái ảnh đến cực phải ảnh Các trường hợp này sẽ được giải quyết bằng phương pháp chia ảnh thành các cột và thực hiện đếm số lượng điểm ảnh theo chiều dọc kết hợp với việc xác định thành phần liên thông
Vấn đề tách từ, các từ và cụm từ được viết liên tục với nhau gây khó khăn và nhầm lẫn trong quá trình tách Hơn thế nữa, sự đa dạng trong cách viết như: Cỡ chữ, khoảng cách giữa các từ cũng ảnh hưởng đến việc tách chính xác Để giải quyết vấn đề này, nghiên cứu sử dụng phương pháp đếm số lượng điểm ảnh theo chiều ngang kết hợp với các thông tin về phân bố và tính liên tục của các điểm ảnh đen để tìm ra điểm phân tách từ hợp lý
Vấn đề trích chọn đặc trưng, Word Profile và Projection Profile là hai dạng đặc trưng chính sẽ được sử dụng trong nghiên cứu Hai đặc trưng này dựa trên hình thái của từ nên sẽ rất nhạy cảm; sự nhạy cảm này thể hiện rõ ở sự sai lệch về
Trang 20nghiêng - skew6 của từ Vì vậy, đòi hỏi thêm một quá trình chuẩn hóa xoay
nghiêng cho các unigram từ Phép biến đổi Hough và nghiên cứu [5] có phải chăng
là sự lựa chọn thích hợp! Trong nghiên cứu này, sử dụng các giá trị AST và CoM
tại [5] đóng vai trò là các giá trị xác định đường gạch ngang và độ nghiêng (skew)
của từ
Vấn đề so khớp độ tương đồng, So với các giải thuật so khớp như XOR, SSD7, SLH8, EDM9 [23], SC10 [4], CORR [35], thì Dynamic Time Warping đã tỏ
ra vượt trội về mặt hiệu quả [32] [33] [34] Tuy vậy, có một điểm cần lưu ý về tốc
độ tính toán, cũng như kích thước của dữ liệu đầu vào của giải thuật
Hình 1.1: Mô hình tổng quan của nghiên cứu
6 Slant chỉ độ nghiêng đặc trưng của người viết, Skew chỉ độ nghiêng toàn cục của từ đó xuất hiện khi số hóa hoặc do thói quen viết của người đó
7 Viết tắt của từ the Sum of Squared Differences
8 Viết tắt của từ Scott and Longuet Higgins
9 Viết tắt của từ Euclidean Distance Mapping
Tiền xử lý
Phân tách theo dòng, từ
Rút trích đặc trưng
unigram
Tính toán độ đương đồng DTW, EDM Gom cụm với PAM
So sánh và đánh giá kết quả
Trang 211.3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu
Đối tượng nghiên cứu chính của đề tài là các văn bản viết tay tiếng Việt, các văn bản này đã được số hóa bằng các phương pháp (scan hoặc chụp) Bên cạnh đó, trong quá trình thực nghiệm kiểm chứng, nghiên cứu sẽ sử dụng các kiểu chữ viết tay trên mẫu giấy A4 (chất lượng tốt và xấu) Mẫu chữ viết bằng các loại viết mực (đen, xanh) nét đậm (dày) hoặc nét thanh (mỏng)
Đối với các mẫu giấy kẽ dòng vở học sinh (Ô li), nghiên cứu này sẽ không
đề cập sử dụng Tuy vậy, nghiên cứu vẫn sẽ đề xuất cách xử lý cho dạng mẫu giấy trong phần hướng phát triển tại chương Kết luận và Kiến nghị
Ph ạm vi nghiên cứu
Đề tài sẽ nghiên cứu các vấn đề nằm trong phạm vi sau:
- Lý thuyết về xử lý ảnh, cũng như các thao tác chuẩn hóa và phân tách từ ngữ trên đối tượng ảnh số
- Tìm hiểu về các đặc trưng Word Profile và Projection Profile
- Tìm hiểu, cài đặt và sử dụng giải thuật Dynamic Time Warping, FastDTW, cận dưới Lemire
- Tìm hiểu về gom cụm với giải thuật k-medoids/PAM
- Tìm hiểu và sử dụng thư viện OpenCV C++ trên nền tảng IDE Microsoft Visual Studio 2015, ngôn ngữ R và các thư viện trên nền tảng R-studio
1.4 Mục tiêu của đề tài
Nghiên cứu này là một giai đoạn trong quá trình xử lý các văn bản viết tay tiếng Việt trong thư viện số Kết quả đạt được của nghiên cứu sẽ hỗ trợ cho việc đánh nhãn các nhóm từ giống nhau trong tài liệu của một tác giả - Hình 1.2, từ đó
sẽ hỗ trợ việc chỉ mục nội dung trên các văn bản chữ viết tay Nhằm rút ngắn thời gian cho việc chuyển thủ công từ tài liệu viết tay (ảnh số) sang văn bản chữ có thể chỉnh sửa được
Trang 22Hình 1.2: Minh họa mục tiêu đạt được của nghiên cứu
1.5 Phạm vi đề tài
Xây dựng được các modules, thực hiện được các chức năng trong mỗi giai
đoạn trên Hình 1.1 Cụ thể, bao gồm các modules như sau:
- Module tiền xử lý hình ảnh
- Module phân tách dòng và từ
- Module trích chọn đặc trưng
- Module gom k-cụm, hàm cải tiến tốc độ DTW (FastDTW)
Quá trình cài đặt trên nền tảng Windows, sẽ sử dụng thư viện OpenCV C++
hỗ trợ liên kết động với các tệp DLL trên Microsoft Visual C++ và lập trình trên
IDE hỗ trợ soạn thảo và thực thi Microsoft Visual Studio 2015 Ngoài ra, R và R
Studio cũng là công cụ hỗ trợ cho quá trình thực hiện gom cụm tự động và kết xuất
các mẫu
1.6 Ý nghĩa thực tiễn của đề tài nghiên cứu
Kết quả của nghiên cứu này sẽ là minh chứng cho sự hiệu quả của hướng
nghiên cứu về nhận dạng chữ viết tay với hướng tiếp cận Word Spotting Từ đó,
tiếp tục thực hiện nghiên cứu các ứng dụng chuyên sâu hơn về đánh dấu chữ viết
tay để cải tiến độ chính xác khi phân tách và so khớp ngôn ngữ tiếng Việt viết tay
Nghiên cứu được kỳ vọng sẽ hỗ trợ cho việc xây dựng được một ứng dụng
sử dụng trong thư viện số chuyên hỗ trợ người dùng tìm kiếm và lập chỉ mục trên
Xử lý
Trang 23các tài liệu viết tay (cùng tác giả) Góp phần cải tiến hiệu quả khi xử lý các tài liệu viết tay lâu năm cũng như các văn bản viết tay nói chung
1.7 Phương pháp nghiên cứu
Đề tài áp dụng cả ba phương pháp nghiên cứu đó là: Nghiên cứu lý thuyết, phương pháp điều tra và phương pháp thực nghiệm
Ph ương pháp nghiên cứu lý thuyết:
- Nghiên cứu về các thuật toán xử lý ảnh số
- Nghiên cứu về thuật toán phân tách dòng và từ
- Nghiên cứu về thuật toán phát hiện và chuẩn hóa từ khi bị nghiêng
- Tìm hiểu về các đặc trưng Word Profile và Projection Profile
- Nghiên cứu về giải thuật Dynamic Time Warping và cách cải thiện tốc độ
Ph ương pháp điều tra
- Đề xuất các bước xử lý đối với một trang văn bản hình ảnh viết tay
- Đề xuất cách cải tiến tốc độ, hiệu quả của quá trình phân tách dòng và từ
- Đề xuất các chiến lược gom cụm với các giá trị k-cụm hợp lý
Ph ương pháp thực nghiệm:
- Thu thập cáctrang văn bản viết tay của cùng một người (hoặc nhiều người)
về một nội dung, số hóa và lưu thông tin các trang văn bản dưới dạng hình ảnh định dạng JPG
- Chạy, ghi nhận và đánh giá quá trình khữ nhiễu trên các trang ảnh số
- Chạy, ghi nhận và đánh giá quá trình phân đoạn/từ trên các trang ảnh số
- Chạy, ghi nhận và đánh giá quá trình chuẩn hóa như xóa dòng gạch ngang
và nghiêng (skew)
- Gom cụm với k-medoids dựa trên độ đo DTW, EDM và đánh giá độ hiệu quả của gom cụm
Trang 24- Chạy, ghi nhận và đánh giá về thời gian tính toán; so sánh tốc độ giữa FastDTW và phương pháp cải tiến với cận dưới Lemire
1.8 Cấu trúc luận văn
Nội dung phần báo cáo nghiên cứu được phân chia và trình bày thành các chương với bố cục như sau:
- Chương 1: Trình bày lý do chọn đề tài, mục đích, các đối tượng và phạm
vi, ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài
- Chương 2: Cơ sở lý thuyết
- Chương 3: Nội dung nghiên cứu
- Chương 4: Các thực nghiệm và đánh giá
- Chương 5: Kết luận và kiến nghị
Trang 25CHƯƠNG 2
CƠ SỞ LÝ THUYẾT 2.1 Xử lý ảnh là gì?
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là
một ảnh “tốt hơn” hoặc một kết luận [10]
Hình 2.1: Quá trình xử lý ảnh 11
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P (c1, c2 , cn) Do
đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều
Hình 2.2: Sơ đồ tổng quát của một hệ thống xử lý ảnh 12
11 Hình ảnh được tham khảo tại [10]
12 Hình ảnh được tham khảo tại [10]
Trang 262.2 Thu nhận và biểu diễn ảnh
Các thi ết bị thu nhận ảnh
Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này
có thể cho ảnh đen trắng hoặc màu sắc Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thông dụng là Raster và Vector
Các thiết bị thu nhận ảnh thông thường Raster là camera các thiết bị thu nhận ảnh thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi từ ảnh Raster Nhìn chung các hệ thống thu nhận ảnh thực hiện một quá trình:
• Cảm biến: biến đổi năng lượng quang học thành năng lượng điện
• Tổng hợp năng lượng điện thành ảnh
Trong nghiên cứu này, sử dụng cách biểu diễn ảnh theo dạng Raster Nói cách khác, khi nhắc đến ma trận, điểm ảnh, dữ liệu đầu vào, dữ liệu đầu ra của các phép lọc, khữ nhiễu đều là ảnh số được biểu diễn dưới dạng Raster
Mô hình l ưu trữ Raster
Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm hai mục đích:
• Tiết kiệm bộ nhớ
• Giảm thời gian xử lý
Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in
ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu
sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải
Mô hình Raster (Hình 2.3) là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh) Thường thu nhận qua các thiết bị như camera, scanner Tuỳ theo yêu cầu thực tế mà mỗi điểm ảnh được
biểu diễn qua một hay nhiều bit [10]
Trang 27Hình 2.3: Ma trận dữ liệu của mô hình Raster
Mô hình Raster thuận lợi cho hiển thị và in ấn Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra Một thuận lợi cho việc hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB13 làm trung gian.Hình 2.4thể hiện quy trình chung để hiển thị ảnh Raster thông qua DIB
Hình 2.4: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 14
M ột số khái niệm cơ bản
* Ảnh và điểm ảnh:
Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại một toạ độ trong
không gian của đối tượng và ảnh được xem như là một tập hợp các điểm ảnh [10]
* M ức xám, màu
Là số các giá trị có thể có của các điểm ảnh của ảnh (xem Hình 2.5)
13 Viết tắt của từ Device Independent Bitmap
14 Hình ảnh được tham khảo tại [10]
Trang 28Hình 2.5: Ví dụ về giá trị mức xám của các điểm ảnh trong ảnh số 2.3 Nhiễu và khữ nhiễu
Trong quá trình thu nhận và biểu diễn ảnh như đã trình bày tại 2.2 có thể sẽ xuất hiện nhiễu; nhiễu bao gồm nhiễu hệ thống và nhiễu ngẫu nhiên Nhiễu là những chi tiết không mong muốn xuất hiện và làm giảm chất lượng bức ảnh Khữ nhiễu là quá trình áp dụng các giải thuật (bộ lọc) hoặc phép biến đổi để loại bỏ
những chi tiết “thừa” đó (ví dụ Hình 2.6) [30]
a) Ảnh bị nhiễu muối tiêu (tỉ lệ 7%)
b) K ết quả sau khi áp dụng bộ lọc trung vị (median) với mask 3x3
Hình 2.6: Ví dụ về khữ nhiễu trong ảnh số
Đối với nhiễu hệ thống là nhiễu có quy luật có thể khữ bằng các phép biến đổi Nhiễu ngẫu nhiên là vết bẩn không rõ nguyên nhân, khắc phục bằng các phép lọc
Trang 292.4 Một số phép toán logic trên ảnh
Khi nói về ảnh nhị phân, ngầm hiểu rằng phần nội dung màu trắng (foreground) là các tập điểm ảnh (pixels) giá trị 1 và phần nền màu đen (background) có giá trị là 0 Khi đó các thành phần tương ứng với thao tác hợp (union), giao (intersection), và phần bù (complement) sẽ tương ứng với các phép
toán logic OR, AND, NOT [30]
Khi thực hiện AND hai ảnh có cùng kích thước, kết quả của phép toán AND
là một ảnh với các điểm ảnh (foreground) là phần nhỏ nhất (giao) của hai vùng nội dung (foreground) hai ảnh nguồn như Hình 2.8
Hình 2.8: Phép toán AND hai ảnh
Phép toán OR
Khi thực hiện OR hai ảnh có cùng kích thước, kết quả của phép toán OR là một ảnh với các điểm ảnh (foreground) là phần lớn nhất (hợp) của hai vùng nội dung (foreground) hai ảnh nguồn như Hình 2.9
Trang 30Hình 2.9: Phép toán OR 2.5 Phân ngưỡng
Chuyển ảnh màu (hoặc ảnh xám) về ảnh nhị phân (ảnh trắng đen) hữu ích cho việc phân vùng ảnh muốn cô lập một vùng đối tượng từ ảnh nền Ở đây, đối tượng muốn cô lập là các dòng chữ viết tay trên mỗi trang Chỉ với hai mức trắng (giá trị tại mỗi điểm bằng 255) và đen (giá trị tại mỗi điểm bằng 0)
Phân ng ưỡng cơ bản
Giá trị tại một điểm ảnh trong ảnh số phụ thuộc vào ngưỡng θ và được xác định bởi công thức sau:
ượ ạ (2.1)
Ưu điểm: Đơn giản trong việc cài đặt và sử dụng
Khuy ết điểm: Ngưỡng θ là giá trị toàn cục (global value) dùng để phân
ngưỡng cho toàn ảnh số; là một giá trị nhạy cảm, hay nói cách khác phải xác định giá trị ngưỡng θ một cách thủ công và khó khăn
Nh ị phân Otsu
Như đã trình bày ở phần 2.5.1 việc xác định giá trị ngưỡng θ là rất khó trong từng điều kiện mức sáng khác nhau của hình ảnh Nhị phân Otsu (Otsu’s
Binarization) là một lựa chọn để giải quyết vấn đề này [28] [30]
Một cách ngắn gọn, phương pháp nhị phân Otsu xác định ngưỡng θ một cách
tự động thông qua lược đồ histogram của ảnh Đặc biệt, đối với các ảnh có histogram kiểu bimodal; bimodal là hình dạng lược đồ có hai đỉnh riêng biệt, phương pháp nhị phân Otsu tỏ ra rất hiệu quả (xem Hình 2.10)
Trang 31Hình 2.10: Ví dụ về phương pháp nhị phân Otsu 15
Hình ảnh trước khi được nhị phân Otsu đã được qua xử lý bởi bộ lọc Gaussian
để có thể thu được lược đồ histogram kiểu bimodal Bên dưới là công thức tìm ngưỡng t của phương pháp nhị phân Otsu
Trang 32Tính theo công thức 2.2
Trang 337 ⊗ D =
8999
Trong quá trình thực hiện phép cuộn (hay tích chập mặt nạ) có một số thao tác ra ngoài ảnh, dẫn đến ảnh thu được có kích thước nhỏ hơn Ảnh thực hiện theo công thức (2.3) và (2.4) chỉ sai khác nhau 1 phép dịch chuyển Để đơn giản, cần hiểu phép cuộn thực hiện theo công thức (2.3)
2.8 Bộ lọc trung vị
Ảnh số được tạo ra sau khi qua máy thu như máy ảnh, scanner thường xuất hiện nhiễu như (Hình 2.11 - a) Để loại bỏ nhiễu có nhiều phương pháp khác nhau Trong phạm vi nghiên cứu này, trình bày phương pháp khữ nhiễu bằng bộ lọc trung
vị - Median
16 Hạ thông hay còn gọi là thông thấp Tiếng anh: Low-pass filter
Trang 34a) Ảnh xuất hiện nhiễu muối tiêu b) Sau khi l ọc nhiễu bằng lọc trung vị
Hình 2.11: Lọc nhiễu bằng bộ lọc trung vị
Bộ lọc trung vị - Median là bộ lọc không tuyến tính vì vậy bộ lọc này không
sử dụng tích chập (Convolution) Về ý tưởng, bộ lọc trung vị đi tìm thành phần “ở
gi ữa” cửa sổ W Bộ lọc này tuy đơn giản nhưng tỏ ra rất hiệu quả trong việc lọc nhiễu muối tiêu so với bộ lọc trung bình – Mean và bộ lọc Gaussian [20]
Giả sử có ảnh I, ngưỡng θ, cửa sổ W(P) và điểm ảnh P
Khi đó kỹ thuật lọc trung vị phụ thuộc không gian bao gồm các bước cơ bản
sau [10]:
+ Bước 1: Tìm trung vị
Z7| ∈ \"] → ^_`"
+ Bước 2: Gán giá trị
Trang 35a = a | a − bTca| d bTca ượ ạ (2.6)
Trong phần này, trình bày lý thuyết 2 phép toán xử lý hình thái học cơ bản là
phép toán Dilation và phép Erosion Dựa trên cơ sở lý thuyết [10] [30] Hai phép toán trên là cơ sở để trình bày thêm phép toán xử lý hình thái Gradient [30] Đây
là một phép toán xử lý hình thái giúp ích cho giai đoạn tiền xử lý cũng sẽ được trình bày tại 3.1
Trang 36Hình 2.12: Các cấu trúc nối kết được sử dụng thông dụng
Hình 2.13 cho thấy ảnh sau khi Dilation luôn có xu hướng mở rộng thành phần liên thông, theo nguyên tắc dựa trên mặt nạ B Trong trường hợp này việc tính Dilation có thể được gọi là mở rộng thành phần liên thông trong A với 4 nối kết là B Ngoài ra, có nhiều định nghĩa khác nhau của B nhưng thường là 4 nối kết hoặc 8 nối kết - Hình 2.12
Hình 2.14: Ví dụ cách tính Erosion
Trang 37Gom cụm dữ liệu được sử dụng trong rất nhiều lĩnh vực như: Tiền xử lý dữ liệu (data preprocessing), nhận dạng mẫu (pattern recognition), xử lý ảnh (image processing) … Trong nghiên cứu này, sử dụng gom cụm dữ liệu là một cách để nhận dạng mẫu (pattern recognition) chưa được gán nhãn Cụ thể hơn, khi các đối tượng từ ngữ viết tay sau khi được phân tách riêng biệt (mục 3.1.2 và 3.1.3 ) và trích chọn đặc trưng (theo mục 2.14.2 và 2.14.3 ) sẽ được gom cụm theo hệ số k (tùy thuộc vào từng chiến lược trình bày tại 3.2.1 ) với các độ đo DTW và EDM
Từ đó có thể kết luận được hiệu quả của giải thuật DTW nói riêng cũng như quá trình gom cụm nói chung
Trang 38a) Ví d ụ về gom cụm dữ liệu
b) Mô t ả quá trình gom cụm dữ liệu 17
Hình 2.16: Gom cụm dữ liệu
Chu ẩn hóa dữ liệu
Dữ liệu dùng cho quá trình gom cụm thường rất đa dạng và phức tạp Cụ thể trong nghiên cứu này, sử dụng kiểu dữ liệu dạng dãy thời gian (time series) một chiều; đây là kiểu dữ liệu được trích chọn từ các đặc trưng Projection Profile và Word Profile Do đó, độ dài của dữ liệu là hoàn toàn khác nhau Công thức ( 2.10) được sử dụng để chuẩn hóa kiểu dữ liệu nêu trên về cùng độ dài Công thức tính mean, như sau:
Xw =1Y Hw H)w ⋯ HKw Công thức tính mean absolute deviation:
17 Được tham khảo tại R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on
Trang 39yw =Y |H1 w+ Xwz|H)w+ Xwz ⋯ |HKw+ Xw|
Công thức chuẩn hóa z-score:
{o =o 56o
|o ( 2.10)
Ph ương pháp phân hoạch
Phân hoạch (partitioning) là tạo ra các phân hoạch được đánh giá theo một tiêu chí nào đó Trong phương pháp phân hoạch có hai giải thuật phổ biến đó là k-mean và k-medoids hay còn gọi là PAM
Gi ải thuật k-medoids/PAM 18 :
Thay vì chọn giá trị trung bình làm giá trị của nhóm, thì giải thuật k-medoids chọn đối tượng nào đó nằm gần trung tâm nhóm nhất, ý tưởng của giải thuật k-medoids được trình bày tại Bảng 2.1
Bảng 2.1: Giải thuật k-medoids
Input: Tập danh sách dữ liệu và giá trị k-cụm
B1: Chọn ngẫu nhiên k đối tượng trọng tâm ngẫu nhiên của nhóm
B2: Gán từng đối tượng còn lại vào nhóm có trọng tâm cụm gần nó nhất B3: Chọn một đối tượng bất kỳ Hoán đổi với trọng tâm của nhóm Nếu chất lượng (theo một độ đo nào đó) các nhóm tăng lên thì quay lại B2 Ngược lại tiếp tục thực hiện B3 cho đến khi không còn thay đổi
Ouput: Tập danh sách k-cụm, danh sách trọng tâm của k-cụm
Đánh giá giải thuật k-medoids/PAM và k-mean
Thuật toán PAM hiệu quả hơn so với k-means, khi có mặt dữ liệu nhiễu cá biệt Nhiều ý kiến cho rằng giải thuật này chạy nhanh với tập dữ liệu nhỏ và tốn
18 Viết tắt của từ Partitioning Around Medoids, một giải thuật gom cụm theo phương pháp phân hoạch
Trang 40thời gian khi với tập dữ liệu lớn Tuy vậy, trong nghiên cứu [2] cho thấy thời gian
tính toán giữa k-mean và k-medoids là như nhau kể cả với các tập dữ liệu lớn
Cách th ức đánh giá kết quả gom cụm
Có rất nhiều độ đo đánh giá ngoại (external validation measures) [18], một
trong số đó Entropy được sử dụng phổ biến để so sánh hiệu quả giữa các chiến lược gom cụm Giá trị Entropy nhỏ hơn phản ánh chất lượng gom cụm tốt hơn
- Partition P: kết quả gom cụm trên n đối tượng
- Partition C: các cụm thật sự của n đối tượng
- nij = |Pi∩Cj|: số đối tượng trong Pi từ Cj, với Pi là phần tử cụm thứ i trong Partition P và Cj là phần tử cụm thứ j trong Partition C
Từ đó, Entropy được tính theo công thức, như sau:
~Y I = − ! Y%!YY%L
% L
OpenCV (logo Hình 2.17) [15] là thư viện mã nguồn mở về thị giác máy tính
(Computer vision); được cài đặt bằng ngôn ngữ lập trình C++; được xây dựng bởi Itsee, phòng nghiên cứu Willow Garage của tập đoàn Intel Corporation OpenCV
... trung bình làm giá trị nhóm, giải thuật k-medoids chọn đối tượng nằm gần trung tâm nhóm nhất, ý tưởng giải thuật k-medoids trình bày Bảng 2.1Bảng 2.1: Giải thuật k-medoids
Input:... k-cụm
Đánh giá giải thuật k-medoids/PAM k-mean
Thuật tốn PAM hiệu so với k-means, có mặt liệu nhiễu cá biệt Nhiều ý kiến cho giải thuật chạy nhanh với tập liệu nhỏ tốn... gian với tập liệu lớn Tuy vậy, nghiên cứu [2] cho thấy thời gian
tính tốn k-mean k-medoids kể với tập liệu lớn
Cách th ức đánh giá kết gom cụm
Có nhiều độ đo đánh