Nghiên cứu về đánh dấu văn bản chữ viết tay tiếng Việt với giải thuật Dynamic Time Warping

Các văn bản giấy trong các thư viện truyền thống dần được thay thế bởi cáctài liệu dạng tệp số, lưu trữ trong ổ cứng máy tính với nhiều định dạng như: .doc,.pdf... Trong quá trình số hóa, có rất nhiều văn bản viết tay lâu năm như: di chúccủa chủ tịch Hồ Chí Minh, bản thảo tập thơ viết tay Hoa Lúa của Thi sĩ Hữu Loan...với mong muốn giữ trọn giá trị nguyên văn của các tác phẩm này và khai thác đượcgiá trị nội dung, lưu trữ sao cho phù hợp với nhu cầu lập chỉ mục và tìm kiếm làmột thách thức lớn đặt ra. Trước mắt người ta chỉ có thể lưu giữ các ảnh thông quaviệc scan từng trang tài liệu. Nói một cách khác, đó là quá trình thủ công sao chépy văn từ tài liệu giấy vào máy tính được thực hiện bởi bàn tay con người. Vì vậy,nguồn tài nguyên bỏ ra về thời gian và tiền bạc để thực hiện công việc này là rấtđắt đỏ.Trong nghiên cứu này, đề xuất sử dụng một phương pháp tiếp cận; đó là đánhdấu từ Word Spotting trong tài liệu tiếng Việt viết tay. Đầu tiên, phải chuyển tấtcả hình ảnh văn bản viết tay về dạng nhị phân (trắng và đen) bằng phương phápphân ngưỡng với giá trị ngưỡng thích hợp. Tiếp đến, bằng các bộ lọc đơn giản nhưlọc trung vị 20 để khữ các nhiễu muối tiêu, các vết bẩn và vết mực mờ 33 34.Dựa vào độ đo của giải thuật Dynamic Time Warping mà phân cụm với số kcụm(tùy chọn) với phương thức gom cụm kmedoids. Kết quả của quá trình gom cụm,sẽ nhận được kcụm tượng trưng cho k mẫu unigram từ; giá trị trọng tâm centroidscủa mỗi mẫu sẽ được sử dụng cho quá trình so khớp (matching) của các nghiêncứu sau đó.

Trang 1

LỜI CAM ĐOAN Tôi xin cam đoan Luận văn Thạc sĩ Công nghệ Thông tin đề tài “Nghiên cứu

về đánh dấu văn bản chữ viết tay tiếng Việt với giải thuật Dynamic Time Warping” được hoàn thành trên kết quả nghiên cứu của bản thân Các công việc

nghiên cứu và nội dung thực hiện trong luận văn chưa từng được nộp để lấy bằng cấp từ một trường hay một tổ chức nào; ngoại trừ phần cơ sở lý thuyết và các kết quả từ các giáo trình, báo cáo khoa học được tôi tham khảo, ghi rõ trong phần tài liệu tham khảo của luận văn

C ần Thơ, ngày 27 tháng 10 năm 2017

Học viên thực hiện

(Ký và ghi rõ h ọ tên)

NGÔ GIANG THANH

Trang 2

LỜI CẢM ƠN

Trong quá trình học tập, nghiên cứu và thực hiện luận văn Cao học, em đã nhận được sự giúp đỡ rất nhiệt tình từ quý thầy cô, bạn bè và gia đình Em xin bày

tỏ lòng biết ơn sâu sắc tới:

Hai thầy hướng dẫn PGS TS Trần Cao Đệ và TS Lê Văn Lâm, các thầy không chỉ hướng dẫn em nghiên cứu tận tâm mà còn giúp đỡ em rất nhiệt tình trong mọi việc Chính điều đó đã tạo niềm tin, động lực cho em có thể hoàn thành

đề tài nghiên cứu của mình

Các thầy cô trong Khoa Công nghệ Thông tin và Truyền thông, trường Đại học Cần Thơ, trong hơn 2 năm qua các thầy cô đã truyền đạt rất nhiều kiến thức

và kinh nghiệm quý giá giúp em trưởng thành hơn trong cuộc sống, cũng như trong học tập và nghiên cứu

Con cũng xin cảm ơn cha mẹ là nguồn động lực luôn động viên, khích lệ mỗi khi con gặp khó khăn Luôn là chỗ vựa vững chắc cho con đứng lên mỗi khi con vấp ngã Mình cảm ơn những người bạn thân đã luôn giúp đỡ, ủng hộ và bên cạnh mình trong suốt thời gian khi mình gặp phải khó khăn

Một lần nữa xin kính chúc quý mọi người luôn dồi dào sức khỏe, thành công trong công việc và cuộc sống

Trang 3

MỤC LỤC

Trang

CHƯƠNG 1 TỔNG QUAN 1

1.1 Lý do chọn đề tài 1

1.2 Các vấn đề liên quan 1

Các hệ thống đã có hiện tại 2

Kỹ thuật đánh dấu từ - Word Spotting 3

Mô hình tổng quan của nghiên cứu 4

1.3 Đối tượng và phạm vi nghiên cứu 6

Đối tượng nghiên cứu 6

Phạm vi nghiên cứu 6

1.4 Mục tiêu của đề tài 6

1.5 Phạm vi đề tài 7

1.6 Ý nghĩa thực tiễn của đề tài nghiên cứu 7

1.7 Phương pháp nghiên cứu 8

1.8 Cấu trúc luận văn 9

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 10

2.1 Xử lý ảnh là gì? 10

2.2 Thu nhận và biểu diễn ảnh 11

Các thiết bị thu nhận ảnh 11

Mô hình lưu trữ Raster 11

Một số khái niệm cơ bản 12

2.3 Nhiễu và khữ nhiễu 13

2.4 Một số phép toán logic trên ảnh 14

Trang 4

Phép toán NOT 14

Phép toán AND 14

Phép toán OR 14

2.5 Phân ngưỡng 15

Phân ngưỡng cơ bản 15

Nhị phân Otsu 15

2.6 Phép cuộn và mẫu 17

2.7 Bộ lọc Gaussian 18

2.8 Bộ lọc trung vị 18

Định nghĩa và mệnh đề 19

Kỹ thuật lọc trung vị 19

2.9 Các phép toán xử lý hình thái học 20

Phép toán Dilation 20

Phép toán Erosion 21

Phép toán Gradient 22

2.10 Gom cụm dữ liệu 22

Gom cụm là gì? 22

Chuẩn hóa dữ liệu 23

Phương pháp phân hoạch 24

Cách thức đánh giá kết quả gom cụm 25

2.11 Thư viện OpenCV 25

Tổng quan 25

OpenCV 3.x và ngôn ngữ C++ trên Visual Studio 2015 26

Các thuộc tính và phương thức 27

Trang 5

2.12 Ngôn ngữ R và R Studio 32

Vài nét về R và R Studio 32

Thư viện gom cụm dữ liệu 33

2.13 Đặc điểm của tiếng Việt và mô hình unigram 33

Đặc điểm của tiếng Việt 33

Mô hình từ đơn 34

2.14 Trích chọn đặc trưng 35

Tổng quan 35

Projection Profile 36

Word Profile 36

2.15 Euclidean Distance Mapping 37

Công thức tính khoảng cách 37

Giải thuật EDM 38

2.16 Dynamic Time Warping 38

Vài nét về Dynamic Time Warping 38

Lược tả về kỹ thuật về DTW 39

Cận dưới Lemire 41

2.17 Kết luận chương 43

CHƯƠNG 3 NỘI DUNG NGHIÊN CỨU 45

3.1 Tiền xử lý – Preprocessing 45

Mô hình tiền xử lý hình ảnh 45

Giải thuật tách dòng 47

Giải thuật tách từ 58

Giải thuật chuẩn hóa từ 61

Trang 6

3.2 Gom cụm dữ liệu 65

Các chiến lược đề xuất 65

Cách thức lưu trữ dữ liệu đặc trưng 66

Kiểm chứng tốc độ tính toán của DTW 66

3.3 Các module xây dựng 67

CHƯƠNG 4 CÁC THỰC NGHIỆM VÀ ĐÁNH GIÁ 69

4.1 Cách thức thu thập và nội dung của dữ liệu 69

Đặc điểm của tập dữ liệu dùng để kiểm chứng 69

Nội dung trang viết tay 69

4.2 Các thực nghiệm và đánh giá 70

Giải thuật phân tách đoạn và tách từ 70

Giải thuật chuẩn hóa từ 75

Quá trình gom cụm dữ liệu 79

Cải tiến tốc độ tính toán DTW 85

CHƯƠNG 5 KẾT LUẬN VÀ KIẾN NGHỊ 90

5.1 Kết quả đạt được 90

5.2 Các hạn chế và hướng phát triển 90

TÀI LIỆU THAM KHẢO 93

PHỤ LỤC 96

Trang 7

DANH MỤC BẢNG

Trang

Bảng 2.1: Giải thuật k-medoids 24

Bảng 2.2: Liệt kê các phương thức cơ bản nhập xuất trong OpenCV 28

Bảng 2.3: Liệt kê các phương thức logic và dilation trong OpenCV 30

Bảng 2.4: Liệt kê các phương thức khác trong OpenCV 31

Bảng 2.5: Giải thuật LB_Improved Nearest-Neighbor 42

Bảng 3.1: Input/Output giải thuật tiền xử lý hình ảnh 46

Bảng 3.2: Input/Output giải thuật khởi tạo và làm mượt y-projection 47

Bảng 3.3: Input/Output giải thuật xác định thung lũng 52

Bảng 3.4: Input/Output giải thuật kẽ dòng 54

Bảng 3.5: Input/Output giải thuật tách từ 59

Bảng 3.6: Giải thuật ước lượng giá trị AST 62

Bảng 3.7: Giải thuật loại bỏ đường gạch ngang 62

Bảng 3.8: Giải thuật phát hiện đường Baseline 63

Bảng 3.9: Giải thuật xóa đường gạch dưới 64

Bảng 3.10: Giải thuật tính giá trị CoM 65

Bảng 3.11: Mô tả sơ lược chức năng các modules được xây dựng 67

Bảng 4.1: Kết quả tách dòng và từ trên tập dữ liệu 73

Bảng 4.2: Một số trường hợp tách từ bị lỗi 75

Bảng 4.3: Kết quả thực nghiệm module chuẩn hóa từ 77

Bảng 4.4: Một số trường hợp gặp phải khi chuẩn hóa từ 78

Bảng 4.5: Danh sách top 12 từ được viết nhiều nhất trong tập dữ liệu 79

Bảng 4.6: Kết quả khi gom cụm với đặc trưng Projection Profile 80

Trang 8

Bảng 4.7: Kết quả khi gom cụm với đặc trưng Word Profile 81

Bảng 4.8: Kết quả gom cụm với k là số cụm tùy chọn trên dữ liệu tác giả 1 82

Bảng 4.9: Kết quả gom cụm với k là số cụm tùy chọn trên dữ liệu tác giả 2 82

Bảng 4.10: Kết quả gom cụm trên dữ liệu tác giả 1 và 2 với FastDTW 83

Bảng 4.11: Thời gian tính toán (giây) khi so sánh từng đôi trên dữ liệu 85

Bảng 4.12: Số lần gọi tới hàm DTW 85

Trang 9

DANH MỤC HÌNH ẢNH

Trang

Hình 1.1: Mô hình tổng quan của nghiên cứu 5

Hình 1.2: Minh họa mục tiêu đạt được của nghiên cứu 7

Hình 2.1: Quá trình xử lý ảnh 10

Hình 2.2: Sơ đồ tổng quát của một hệ thống xử lý ảnh 10

Hình 2.3: Ma trận dữ liệu của mô hình Raster 12

Hình 2.4: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 12

Hình 2.5: Ví dụ về giá trị mức xám của các điểm ảnh trong ảnh số 13

Hình 2.6: Ví dụ về khữ nhiễu trong ảnh số 13

Hình 2.7: Phép toán NOT ảnh 14

Hình 2.8: Phép toán AND hai ảnh 14

Hình 2.9: Phép toán OR 15

Hình 2.10: Ví dụ về phương pháp nhị phân Otsu 16

Hình 2.11: Lọc nhiễu bằng bộ lọc trung vị 19

Hình 2.12: Các cấu trúc nối kết được sử dụng thông dụng 21

Hình 2.13: Ví dụ cách tính Dilation 21

Hình 2.14: Ví dụ cách tính Erosion 21

Hình 2.15: Xử lý Gradient với bộ phần tử liên thông 3x3 gồm 4 nối kết 22

Hình 2.16: Gom cụm dữ liệu 23

Hình 2.17: Logo nhận diện thư viện OpenCV 26

Hình 2.18: Ví dụ về unigram trong chữ viết Tay 34

Hình 2.19: Từ và đặc trưng Projection Profile 36

Hình 2.20: Upper Word đã được trích chọn và chuẩn hóa 37

Trang 10

Hình 2.21: Lower Word đã được trích chọn và chuẩn hóa 37

Hình 2.22: Ví dụ về phương pháp so khớp EDM 38

Hình 2.23: Minh họa về cách thức so khớp của giải thuật DTW 39

Hình 2.24: Các ràng buộc trong Dynamic Time Warping 40

Hình 2.25: Minh họa các đường U(x) và L(x) được tạo ra từ chuỗi x 41

Hình 2.26: Minh họa các bước tính LB_Improved 43

Hình 3.1: Các bước trong giai đoạn tiền xử lý văn bản viết tay 45

Hình 3.2: Lưu đồ các bước tiền xử lý đối với hình ảnh tiếng Việt viết tay 46

Hình 3.3: Lưu đồ giải thuật bước khởi tạo và làm mượt cho y-projection 48

Hình 3.4: Minh họa về khởi tạo y-projection cho đoạn văn bản viết tay 49

Hình 3.5: Minh họa về y-projection và MAF y-projection 50

Hình 3.6: Minh họa định nghĩa thung lũng trong y-projection 50

Hình 3.7: Lưu đồ giải thuật xác định thung lũng 51

Hình 3.8: Lưu đồ giải thuật hàm identify_valley 52

Hình 3.9: Minh họa về giải thuật nối kết thung lũng 53

Hình 3.10: Sơ lược các bước kẽ dòng 54

Hình 3.11: Lưu đồ giải thuật lấy thành phần liên thông 56

Hình 3.12: Minh họa về giải thuật lấy phần liên thông 57

Hình 3.13: Thành phần liên thông trên và dưới 57

Hình 3.14: Minh họa trường hợp kẽ dòng khi chạm 58

Hình 3.15: Minh họa kết quả tách chữ 58

Hình 3.16: Lưu đồ giải thuật tách từ 60

Hình 3.17: Các thành phần trong một từ 61

Hình 3.18: Các giải thuật trong chuẩn hóa unigram từ 61

Trang 11

Hình 4.1: Đặc điểm chữ viết tay giữa hai tác giả 69

Hình 4.2: Giao diện module tiền xử lý khữ nhiễu và phân ngưỡng 71

Hình 4.3: Giao diện module tách đoạn 71

Hình 4.4: Minh họa kết quả quá trình khữ nhiễu 72

Hình 4.5: Trường hợp tách đúng và tách sai dòng 72

Hình 4.6: Một trang sau khi tách dòng 74

Hình 4.7: Giao diện module chuẩn hóa từ 76

Hình 4.8: Số từ chuẩn hóa đúng trên các tập Dataset trong các lần thực hiện 77

Hình 4.9: Tốc độ tính toán giữa các độ đo khi gom cụm 83

Hình 4.10: So sánh thông số entropy giữa các độ đo 84

Hình 4.11: Thời gian tính toán giữa DTW và Lemire LB 86

Hình 4.12: Mô hình đánh dấu từ đề xuất xây dựng 88

Hình 4.13: Mô hình tra cứu và so khớp với chữ ký tay 89

Trang 12

DANH MỤC TỪ VIẾT TẮT

1 API

Application Programming Interface

Giao diện/giao thức cung cấp khả năng truy xuất đến các hàm/thư viện đã được cài đặt trước đó

2 AST

Average Stroke Thickness

Giá trị trung bình dùng để xác định độ rộng của đường gạch ngang trong từ

Device Independent Bitmap

Cấu trúc lưu trữ tập tin đồ họa kiểu bitmap, tên tiếng Anh là Windows Bitmap

6 DLL

Dynamic Linked Libraries

Thư viện liên kết động, có tính khả chuyển cao; là một thành phần được liên kết sử dụng trong nhiều

phần mềm

7 DTW

Dynamic Time Warping

Tên một giải thuật so khớp, một độ đo được sử dụng trong nghiên cứu này

8 EDM

Euclidean Distance Mapping

Tên một giải thuật so khớp dựa trên khoảng cách

Euclid, xem chi tiết tại [23]

9 IDE Integrated Development Environment

Trang 13

Là một phần mềm cung cấp cho các lập trình viên một môi trường tích hợp, bao gồm nhiều công cụ khác nhau

10 IPP

Intel’s Integrated Performance Primitives

Một dạng thư viện tối ưu các phép toán/thuật toán xử

lý ảnh trong OpenCV với các chip Intel

11 OCR

Optical Character Recognition

Hướng tiếp cận trong nhận dạng chữ viết tay; nhận dạng ký tự quang học

12 OOP Object-Oriented Programming

Lập trình hướng đối tượng

13 PAM

Partitioning Around Medoids

Một giải thuật gom cụm theo phương pháp phân

hoạch, tên gọi khác của k-medoids

14 RAM

Random Access Memory

Bộ nhớ khả biến cho phép truy xuất đọc-ghi ngẫu

nhiên của máy tính

15 SC Shape Content matching

Tên một giải thuật so khớp, xem chi tiết tại [4]

16 SLH Scott and Longuet Higgins

17 SSD the Sum of Squared Differences

Trang 14

ABSTRACT

In the sector of processing images of Vietnamese handwritten text, the technique

of Optical Character Recognition is replaced with Word Spotting, which is presented in this thesis Word Spotting is not a separated processing algorithm that

it is a sequential one; including many operations basing on digital images such as: images clarification, line/word segmentation, normalization, featured extraction, matching and clustering Clarification is known as reducing noise image (impulse noise) and improving image quality (blurred ink, stains) Next is the process of transferring text images into black and white images (binary) those are processable Word segmentation is the defining the location where the content has phrases to be used; processing is based on y-projection (line segmentation), x-projection (word segmentation), combined with valleys and peaks - finding manipulation in order to determine the splitting lines Next, standardized operation

is detection and elimination the arising noises in the process of writing the text, such as: dashes, italic words by using the AST and CoM values Finally, the characteristics of Word Profile (includes upper and lower word) and Projection Profile will be extracted and clustered with Dynamic Time Warping and Euclid distances by k-medoids/PAM algorithm In the experiments, the data of 17 handwritten pages including 2693 words by two persons with the same content were collected As a result, the accuracy of line segmentation is 97% and word segmentation is 84% Beside that, the normalized algorithm is effective with low skew words In short, the 2693 unigrams were clustered into 80 partitions (k) with DTW distance’s entropy value better (lower) than Euclid distance Especially, the computational time is clearly improved when we combined FastDTW and Lemire Lower bound with Vietnamese handwritting features

Keywords: Pre-processing of handwritten text, word segmentation, normalization

word, Dynamic Time Warping, word spotting, word profile, projection profile, time series clustering k-medoids, Lemire lower bound

Trang 15

TÓM TẮT

Trong lĩnh vực xử lý hình ảnh văn bản tiếng Việt viết tay, ngoài phương pháp nhận dạng ký tự quang học, thì kỹ thuật đánh dấu từ sẽ là nội dung được trình bày trong nghiên cứu Đánh dấu từ không phải là một giải thuật xử lý rời rạc, mà đó là một quá trình tuần tự; bao gồm nhiều thao tác xử lý dựa trên ảnh số như: Làm rõ ảnh, phân tách dòng/từ, chuẩn hóa, trích chọn đặc trưng, tính toán so khớp và gom cụm Làm rõ ảnh là việc làm giảm độ nhiễu (impulse noise) và cải thiện chất lượng ảnh (mực bị mờ, vết bẩn) Song song với đó là thao tác phân ngưỡng hình ảnh văn bản thành dạng ảnh mức xám, với giá trị trắng và đen có thể xử lý được Phân tách từ ngữ là việc xác định khoảng vùng tọa độ, mà ở đó có chứa nội dung cụm từ cần sử dụng; việc xử lý dựa vào phép chiếu y-projection (tách dòng), x-projection (tách unigram từ), kết hợp với thao tác tìm các đỉnh và thung lũng để xác định đường phân cách Tiếp đến, thao tác chuẩn hóa là phát hiện và loại bỏ các nhiễu phát sinh trong quá trình viết văn bản đó có thể là: đường gạch ngang, chữ bị nghiêng bằng các giá trị AST và CoM Cuối cùng, các đặc trưng Word Profile (bao gồm upper

và lower word) và Projection Profile sẽ được trích chọn; đó cũng là dữ liệu đầu vào của quá trình gom cụm k-medoids với độ đo Dynamic Time Warping và Euclid Trong phần thực nghiệm, tiến hành thu thập dữ liệu 17 bản viết tay với

2693 từ của 2 tác giả về cùng một nội dung Lần lượt kiểm chứng thực nghiệm với các giải thuật tiền xử lý, tách dòng, tách từ, chuẩn hóa và gom cụm Kết quả của quá trình tách dòng đạt 97% trong khi tách từ đạt 85% Quá trình chuẩn hóa giải quyết tốt trên các từ có độ nghiêng (skew) nhỏ Cuối cùng, khi tiến hành gom cụm với 2693 unigram từ vào 80 mẫu với DTW đạt kết quả tốt hơn so với độ đo Euclid Đặc biệt, tốc độ tính toán khi kết hợp giữa kỹ thuật tính cận dưới Lemire với FastDTW đã được cải thiện rõ rệt

Các từ khóa: tiền xử lý chữ viết tay, phân tách từ, chuẩn hóa, dynamic time

warping, word spotting, word profile, projection profile, k-medoids, c ận dưới

Lemire

Trang 16

CHƯƠNG 1 TỔNG QUAN 1.1 Lý do chọn đề tài

Các văn bản giấy trong các thư viện truyền thống dần được thay thế bởi các tài liệu dạng tệp số, lưu trữ trong ổ cứng máy tính với nhiều định dạng như: doc, pdf Trong quá trình số hóa, có rất nhiều văn bản viết tay lâu năm như: di chúc của chủ tịch Hồ Chí Minh, bản thảo tập thơ viết tay Hoa Lúa của Thi sĩ Hữu Loan với mong muốn giữ trọn giá trị nguyên văn của các tác phẩm này và khai thác được giá trị nội dung, lưu trữ sao cho phù hợp với nhu cầu lập chỉ mục và tìm kiếm là một thách thức lớn đặt ra Trước mắt người ta chỉ có thể lưu giữ các ảnh thông qua việc scan từng trang tài liệu Nói một cách khác, đó là quá trình thủ công sao chép

y văn từ tài liệu giấy vào máy tính được thực hiện bởi bàn tay con người Vì vậy, nguồn tài nguyên bỏ ra về thời gian và tiền bạc để thực hiện công việc này là rất đắt đỏ

Trong nghiên cứu này, đề xuất sử dụng một phương pháp tiếp cận; đó là đánh dấu từ - Word Spotting trong tài liệu tiếng Việt viết tay Đầu tiên, phải chuyển tất

cả hình ảnh văn bản viết tay về dạng nhị phân (trắng và đen) bằng phương pháp phân ngưỡng với giá trị ngưỡng thích hợp Tiếp đến, bằng các bộ lọc đơn giản như

lọc trung vị [20] để khữ các nhiễu muối tiêu, các vết bẩn và vết mực mờ [33] [34]

Dựa vào độ đo của giải thuật Dynamic Time Warping mà phân cụm với số k-cụm (tùy chọn) với phương thức gom cụm k-medoids Kết quả của quá trình gom cụm,

sẽ nhận được k-cụm tượng trưng cho k mẫu unigram từ; giá trị trọng tâm centroids của mỗi mẫu sẽ được sử dụng cho quá trình so khớp (matching) của các nghiên cứu sau đó

1.2 Các vấn đề liên quan

Người ta đã bắt đầu nghiên cứu về lĩnh vực nhận dạng chữ viết tay trước đây khá lâu Nhiều nghiên cứu trong báo cáo khoa học về chủ đề này cũng đã được công bố trong các hội thảo; nhiều ứng dụng có liên quan cũng đã được xuất bản rộng rãi dưới dạng mã nguồn mở hoặc bản quyền thương mại Nhìn chung, có hai

Trang 17

hướng tiếp cận phổ biến khi đề cập đến vấn đề xử lý văn bản viết tay là Optical

Character Recognition và Word Spotting

Hiện nay có rất nhiều phần mềm thương mại và tự do về OCR Một trong số

đó phải kể đến ứng dụng FreeOCR1 Đây là một phần mềm mã nguồn mở dựa trên nền tảng mã nguồn mở Tesseract-OCR2 do Google tài trợ Ưu điểm của phần mềm này là nhận dạng các ký tự hình ảnh hoặc tập tin PDF, hỗ trợ một số định dạng ảnh như: TIF, BMP, JPG, PNG Loại bỏ được các thành phần không phải văn bản (hình ảnh, bảng tính) Xử lý riêng lẻ các trang đối với tài liệu nhiều trang Khuyết điểm

là không hỗ trợ nhận dạng văn bản chữ viết tay Ngoài ra, VnDOCR3 là phần mềm thương mại do Phòng nhận dạng và Công nghệ Tri thức – Viện Công nghệ Thông tin nghiên cứu và phát triển Ưu điểm nổi bật của ứng dụng này là có thể trực tiếp nhận dạng tài liệu quét qua máy scanner mà không cần lưu trữ trung gian dưới dạng hình ảnh Khuyết điểm của phần mềm là chỉ làm việc trên tài liệu chữ in Đối với các văn bản hình ảnh dạng chữ in thì cho kết quả rất cao trên 90% Tuy nhiên, khó khăn và hạn chế chung của hướng tiếp cận này là chất lượng hình ảnh, font chữ đặc biệt và chữ viết tay cho ra kết quả không khả quan Đặc biệt, với ngôn ngữ tiếng Việt thì tỉ lệ chính xác không cao so với các ngôn ngữ khác (tiếng Anh) Do sự xuất hiện của các dấu giọng (huyền, sắc, hỏi, ngã, nặng) chỉ các thanh của âm tiếng Việt

1 Xem thêm tại: http://www.freeocr.net/

2 Xem thêm tại: https://github.com/tesseract-ocr

3 Xem thêm tại: http://www.vndocr.com/home/Products.asp?ProductID=2

Trang 18

Một nghiên cứu khác của Tomai [6] đã thể hiện sự khó khăn của phương

pháp nhận diện tài liệu viết tay cổ Mục tiêu của họ trong nghiên cứu này là sinh

ra một ánh xạ biểu diễn cặp từ – từ giữa hình ảnh văn bản viết tay và một bản chép lại thủ công của văn bản đó Hiệu suất của việc nhận diện khá thấp Rõ ràng phương pháp OCR không thích hợp cho việc nhận diện các tài liệu viết tay

Tóm lại, các báo cáo nghiên cứu hướng đến cách giải quyết xử lý văn bản viết tay cho một ngôn ngữ đặc trưng (đa phần là tiếng Anh) Trong khi đó, nghiên cứu về đặc trưng của ngôn ngữ viết tay tiếng Việt còn khá ít Một trong số đó, phải

kể đến nghiên cứu [29] của nhóm tác giả Phạm Anh Phương, Ngô Quốc Tạo,

Lương Chi Mai về các thức chọn đặc trưng Wavelet Haar kết hợp với SVM4 trong chữ viết tay tiếng Việt Trong bài báo của họ, đã đề xuất được một phương pháp theo hướng OCR, nhận dạng chữ viết tay tiếng Việt là nhận dạng dấu với chữ cái riêng nhau Tuy nhiên, nghiên cứu chỉ dừng lại ở mức nhận dạng mà không nêu cụ thể các phương pháp tiền xử lý văn bản trước đó

Kỹ thuật đánh dấu từ - Word Spotting

Thay vì kì vọng chuyển tất cả từ ngữ trong văn bản viết tay sang chữ đánh máy, tức là toàn bộ nội dung viết tay thành một dạng kí tự sửa đổi được như mã Unicode, UTF-8, ASCII Người ta chấp nhận việc chỉ tìm một từ khóa nào đó xem có trong tài liệu hay không Vấn đề này dẫn tới việc tìm kiếm (search) một mẫu (pattern) như một từ khóa trong văn bản viết tay ở dạng tài liệu ảnh quét

Người đề xuất ra hướng tiếp cận này là Manmatha trong nghiên cứu [26] năm 1996

Báo cáo khoa học của nhóm này đã trình bày sơ bộ các kĩ thuật so khớp và phương thức cắt tỉa5, giúp loại bỏ các thành phần không phù hợp cho việc so khớp và giữ lại những đặc trưng cơ bản của một từ Dữ liệu thực nghiệm được gồm 10 trang

lấy trong tập tài liệu của George Washington tại [24]

4 Viết tắt của Support Vector Machine là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy

Trang 19

Sự đổi khác trong cách tiếp cận này là không hướng đến việc nhận diện từng

ký tự chữ cái rời rạc, thay vào đó phân tách các từ/cụm từ và so khớp sự tương đồng với mẫu tìm kiếm theo đặc trưng tiêu biểu của bản thân nó Đây là một kỹ thuật mới được đánh giá là dễ và hiệu quả hơn kỹ thuật OCR, trong lĩnh vực xử lý văn bản viết tay

Mô hình t ổng quan của nghiên cứu

Để giải quyết bài toán đặt ra thì có rất nhiều công đoạn và thao tác phải thực hiện Tuy nhiên có một số vấn đề chính cần giải quyết là:

Vấn đề tiền xử lý văn bản viết tay, khi gặp các trường hợp hình ảnh văn bản sau giai đoạn số hóa (scan hoặc chụp) bị phát sinh nhiễu (nhiễu muối tiêu), cũng như vết mực của chữ viết bị mờ hoặc các vết bẩn xuất hiện trong các trang tài liệu lâu năm Bằng các phép lọc và phân ngưỡng cơ bản trong xử lý hình ảnh, nghiên cứu sẽ chỉ ra một quy tắc xử lý chung khi gặp các trường hợp nêu trên

Vấn đề tách dòng, khi văn bản viết với độ nghiêng vừa phải, trong trường hợp hai dòng chạm nhau và trường hợp có một dòng nào đó trong văn bản không xuất hiện từ cực trái ảnh đến cực phải ảnh Các trường hợp này sẽ được giải quyết bằng phương pháp chia ảnh thành các cột và thực hiện đếm số lượng điểm ảnh theo chiều dọc kết hợp với việc xác định thành phần liên thông

Vấn đề tách từ, các từ và cụm từ được viết liên tục với nhau gây khó khăn và nhầm lẫn trong quá trình tách Hơn thế nữa, sự đa dạng trong cách viết như: Cỡ chữ, khoảng cách giữa các từ cũng ảnh hưởng đến việc tách chính xác Để giải quyết vấn đề này, nghiên cứu sử dụng phương pháp đếm số lượng điểm ảnh theo chiều ngang kết hợp với các thông tin về phân bố và tính liên tục của các điểm ảnh đen để tìm ra điểm phân tách từ hợp lý

Vấn đề trích chọn đặc trưng, Word Profile và Projection Profile là hai dạng đặc trưng chính sẽ được sử dụng trong nghiên cứu Hai đặc trưng này dựa trên hình thái của từ nên sẽ rất nhạy cảm; sự nhạy cảm này thể hiện rõ ở sự sai lệch về

Trang 20

nghiêng - skew6 của từ Vì vậy, đòi hỏi thêm một quá trình chuẩn hóa xoay

nghiêng cho các unigram từ Phép biến đổi Hough và nghiên cứu [5] có phải chăng

là sự lựa chọn thích hợp! Trong nghiên cứu này, sử dụng các giá trị AST và CoM

tại [5] đóng vai trò là các giá trị xác định đường gạch ngang và độ nghiêng (skew)

của từ

Vấn đề so khớp độ tương đồng, So với các giải thuật so khớp như XOR, SSD7, SLH8, EDM9 [23], SC10 [4], CORR [35], thì Dynamic Time Warping đã tỏ

ra vượt trội về mặt hiệu quả [32] [33] [34] Tuy vậy, có một điểm cần lưu ý về tốc

độ tính toán, cũng như kích thước của dữ liệu đầu vào của giải thuật

Hình 1.1: Mô hình tổng quan của nghiên cứu

6 Slant chỉ độ nghiêng đặc trưng của người viết, Skew chỉ độ nghiêng toàn cục của từ đó xuất hiện khi số hóa hoặc do thói quen viết của người đó

7 Viết tắt của từ the Sum of Squared Differences

8 Viết tắt của từ Scott and Longuet Higgins

9 Viết tắt của từ Euclidean Distance Mapping

Tiền xử lý

Phân tách theo dòng, từ

Rút trích đặc trưng

unigram

Tính toán độ đương đồng DTW, EDM Gom cụm với PAM

So sánh và đánh giá kết quả

Trang 21

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu

Đối tượng nghiên cứu chính của đề tài là các văn bản viết tay tiếng Việt, các văn bản này đã được số hóa bằng các phương pháp (scan hoặc chụp) Bên cạnh đó, trong quá trình thực nghiệm kiểm chứng, nghiên cứu sẽ sử dụng các kiểu chữ viết tay trên mẫu giấy A4 (chất lượng tốt và xấu) Mẫu chữ viết bằng các loại viết mực (đen, xanh) nét đậm (dày) hoặc nét thanh (mỏng)

Đối với các mẫu giấy kẽ dòng vở học sinh (Ô li), nghiên cứu này sẽ không

đề cập sử dụng Tuy vậy, nghiên cứu vẫn sẽ đề xuất cách xử lý cho dạng mẫu giấy trong phần hướng phát triển tại chương Kết luận và Kiến nghị

Ph ạm vi nghiên cứu

Đề tài sẽ nghiên cứu các vấn đề nằm trong phạm vi sau:

- Lý thuyết về xử lý ảnh, cũng như các thao tác chuẩn hóa và phân tách từ ngữ trên đối tượng ảnh số

- Tìm hiểu về các đặc trưng Word Profile và Projection Profile

- Tìm hiểu, cài đặt và sử dụng giải thuật Dynamic Time Warping, FastDTW, cận dưới Lemire

- Tìm hiểu về gom cụm với giải thuật k-medoids/PAM

- Tìm hiểu và sử dụng thư viện OpenCV C++ trên nền tảng IDE Microsoft Visual Studio 2015, ngôn ngữ R và các thư viện trên nền tảng R-studio

1.4 Mục tiêu của đề tài

Nghiên cứu này là một giai đoạn trong quá trình xử lý các văn bản viết tay tiếng Việt trong thư viện số Kết quả đạt được của nghiên cứu sẽ hỗ trợ cho việc đánh nhãn các nhóm từ giống nhau trong tài liệu của một tác giả - Hình 1.2, từ đó

sẽ hỗ trợ việc chỉ mục nội dung trên các văn bản chữ viết tay Nhằm rút ngắn thời gian cho việc chuyển thủ công từ tài liệu viết tay (ảnh số) sang văn bản chữ có thể chỉnh sửa được

Trang 22

Hình 1.2: Minh họa mục tiêu đạt được của nghiên cứu

1.5 Phạm vi đề tài

Xây dựng được các modules, thực hiện được các chức năng trong mỗi giai

đoạn trên Hình 1.1 Cụ thể, bao gồm các modules như sau:

- Module tiền xử lý hình ảnh

- Module phân tách dòng và từ

- Module trích chọn đặc trưng

- Module gom k-cụm, hàm cải tiến tốc độ DTW (FastDTW)

Quá trình cài đặt trên nền tảng Windows, sẽ sử dụng thư viện OpenCV C++

hỗ trợ liên kết động với các tệp DLL trên Microsoft Visual C++ và lập trình trên

IDE hỗ trợ soạn thảo và thực thi Microsoft Visual Studio 2015 Ngoài ra, R và R

Studio cũng là công cụ hỗ trợ cho quá trình thực hiện gom cụm tự động và kết xuất

các mẫu

1.6 Ý nghĩa thực tiễn của đề tài nghiên cứu

Kết quả của nghiên cứu này sẽ là minh chứng cho sự hiệu quả của hướng

nghiên cứu về nhận dạng chữ viết tay với hướng tiếp cận Word Spotting Từ đó,

tiếp tục thực hiện nghiên cứu các ứng dụng chuyên sâu hơn về đánh dấu chữ viết

tay để cải tiến độ chính xác khi phân tách và so khớp ngôn ngữ tiếng Việt viết tay

Nghiên cứu được kỳ vọng sẽ hỗ trợ cho việc xây dựng được một ứng dụng

sử dụng trong thư viện số chuyên hỗ trợ người dùng tìm kiếm và lập chỉ mục trên

Xử lý

Trang 23

các tài liệu viết tay (cùng tác giả) Góp phần cải tiến hiệu quả khi xử lý các tài liệu viết tay lâu năm cũng như các văn bản viết tay nói chung

1.7 Phương pháp nghiên cứu

Đề tài áp dụng cả ba phương pháp nghiên cứu đó là: Nghiên cứu lý thuyết, phương pháp điều tra và phương pháp thực nghiệm

Ph ương pháp nghiên cứu lý thuyết:

- Nghiên cứu về các thuật toán xử lý ảnh số

- Nghiên cứu về thuật toán phân tách dòng và từ

- Nghiên cứu về thuật toán phát hiện và chuẩn hóa từ khi bị nghiêng

- Tìm hiểu về các đặc trưng Word Profile và Projection Profile

- Nghiên cứu về giải thuật Dynamic Time Warping và cách cải thiện tốc độ

Ph ương pháp điều tra

- Đề xuất các bước xử lý đối với một trang văn bản hình ảnh viết tay

- Đề xuất cách cải tiến tốc độ, hiệu quả của quá trình phân tách dòng và từ

- Đề xuất các chiến lược gom cụm với các giá trị k-cụm hợp lý

Ph ương pháp thực nghiệm:

- Thu thập cáctrang văn bản viết tay của cùng một người (hoặc nhiều người)

về một nội dung, số hóa và lưu thông tin các trang văn bản dưới dạng hình ảnh định dạng JPG

- Chạy, ghi nhận và đánh giá quá trình khữ nhiễu trên các trang ảnh số

- Chạy, ghi nhận và đánh giá quá trình phân đoạn/từ trên các trang ảnh số

- Chạy, ghi nhận và đánh giá quá trình chuẩn hóa như xóa dòng gạch ngang

và nghiêng (skew)

- Gom cụm với k-medoids dựa trên độ đo DTW, EDM và đánh giá độ hiệu quả của gom cụm

Trang 24

- Chạy, ghi nhận và đánh giá về thời gian tính toán; so sánh tốc độ giữa FastDTW và phương pháp cải tiến với cận dưới Lemire

1.8 Cấu trúc luận văn

Nội dung phần báo cáo nghiên cứu được phân chia và trình bày thành các chương với bố cục như sau:

- Chương 1: Trình bày lý do chọn đề tài, mục đích, các đối tượng và phạm

vi, ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài

- Chương 2: Cơ sở lý thuyết

- Chương 3: Nội dung nghiên cứu

- Chương 4: Các thực nghiệm và đánh giá

- Chương 5: Kết luận và kiến nghị

Trang 25

CHƯƠNG 2

CƠ SỞ LÝ THUYẾT 2.1 Xử lý ảnh là gì?

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy

Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là

một ảnh “tốt hơn” hoặc một kết luận [10]

Hình 2.1: Quá trình xử lý ảnh 11

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P (c1, c2 , cn) Do

đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều

Hình 2.2: Sơ đồ tổng quát của một hệ thống xử lý ảnh 12

11 Hình ảnh được tham khảo tại [10]

Trang 26

2.2 Thu nhận và biểu diễn ảnh

Các thi ết bị thu nhận ảnh

Các thiết bị thu nhận ảnh bao gồm camera, scanner các thiết bị thu nhận này

có thể cho ảnh đen trắng hoặc màu sắc Các thiết bị thu nhận ảnh có hai loại chính ứng với hai loại ảnh thông dụng là Raster và Vector

Các thiết bị thu nhận ảnh thông thường Raster là camera các thiết bị thu nhận ảnh thông thường Vector là sensor hoặc bàn số hoá Digitalizer hoặc được chuyển đổi từ ảnh Raster Nhìn chung các hệ thống thu nhận ảnh thực hiện một quá trình:

• Cảm biến: biến đổi năng lượng quang học thành năng lượng điện

• Tổng hợp năng lượng điện thành ảnh

Trong nghiên cứu này, sử dụng cách biểu diễn ảnh theo dạng Raster Nói cách khác, khi nhắc đến ma trận, điểm ảnh, dữ liệu đầu vào, dữ liệu đầu ra của các phép lọc, khữ nhiễu đều là ảnh số được biểu diễn dưới dạng Raster

Mô hình l ưu trữ Raster

Ảnh trên máy tính là kết quả thu nhận theo các phương pháp số hoá được nhúng trong các thiết bị kỹ thuật khác nhau Quá trình lưu trữ ảnh nhằm hai mục đích:

• Tiết kiệm bộ nhớ

• Giảm thời gian xử lý

Việc lưu trữ thông tin trong bộ nhớ có ảnh hưởng rất lớn đến việc hiển thị, in

ấn và xử lý ảnh được xem như là một tập hợp các điểm với cùng kích thước nếu

sử dụng càng nhiều điểm ảnh thì bức ảnh càng đẹp, càng mịn và càng thể hiện rõ hơn chi tiết của ảnh người ta gọi đặc điểm này là độ phân giải

Mô hình Raster (Hình 2.3) là cách biểu diễn ảnh thông dụng nhất hiện nay, ảnh được biểu diễn dưới dạng ma trận các điểm (điểm ảnh) Thường thu nhận qua các thiết bị như camera, scanner Tuỳ theo yêu cầu thực tế mà mỗi điểm ảnh được

biểu diễn qua một hay nhiều bit [10]

Trang 27

Hình 2.3: Ma trận dữ liệu của mô hình Raster

Mô hình Raster thuận lợi cho hiển thị và in ấn Ngày nay công nghệ phần cứng cung cấp những thiết bị thu nhận ảnh Raster phù hợp với tốc độ nhanh và chất lượng cao cho cả đầu vào và đầu ra Một thuận lợi cho việc hiển thị trong môi trường Windows là Microsoft đưa ra khuôn dạng ảnh DIB13 làm trung gian.Hình 2.4thể hiện quy trình chung để hiển thị ảnh Raster thông qua DIB

Hình 2.4: Quá trình hiển thị và chỉnh sửa, lưu trữ ảnh thông qua DIB 14

M ột số khái niệm cơ bản

* Ảnh và điểm ảnh:

Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại một toạ độ trong

không gian của đối tượng và ảnh được xem như là một tập hợp các điểm ảnh [10]

* M ức xám, màu

Là số các giá trị có thể có của các điểm ảnh của ảnh (xem Hình 2.5)

13 Viết tắt của từ Device Independent Bitmap

Trang 28

Hình 2.5: Ví dụ về giá trị mức xám của các điểm ảnh trong ảnh số 2.3 Nhiễu và khữ nhiễu

Trong quá trình thu nhận và biểu diễn ảnh như đã trình bày tại 2.2 có thể sẽ xuất hiện nhiễu; nhiễu bao gồm nhiễu hệ thống và nhiễu ngẫu nhiên Nhiễu là những chi tiết không mong muốn xuất hiện và làm giảm chất lượng bức ảnh Khữ nhiễu là quá trình áp dụng các giải thuật (bộ lọc) hoặc phép biến đổi để loại bỏ

những chi tiết “thừa” đó (ví dụ Hình 2.6) [30]

a) Ảnh bị nhiễu muối tiêu (tỉ lệ 7%)

b) K ết quả sau khi áp dụng bộ lọc trung vị (median) với mask 3x3

Hình 2.6: Ví dụ về khữ nhiễu trong ảnh số

Đối với nhiễu hệ thống là nhiễu có quy luật có thể khữ bằng các phép biến đổi Nhiễu ngẫu nhiên là vết bẩn không rõ nguyên nhân, khắc phục bằng các phép lọc

Trang 29

2.4 Một số phép toán logic trên ảnh

Khi nói về ảnh nhị phân, ngầm hiểu rằng phần nội dung màu trắng (foreground) là các tập điểm ảnh (pixels) giá trị 1 và phần nền màu đen (background) có giá trị là 0 Khi đó các thành phần tương ứng với thao tác hợp (union), giao (intersection), và phần bù (complement) sẽ tương ứng với các phép

toán logic OR, AND, NOT [30]

Khi thực hiện AND hai ảnh có cùng kích thước, kết quả của phép toán AND

là một ảnh với các điểm ảnh (foreground) là phần nhỏ nhất (giao) của hai vùng nội dung (foreground) hai ảnh nguồn như Hình 2.8

Hình 2.8: Phép toán AND hai ảnh

Phép toán OR

Khi thực hiện OR hai ảnh có cùng kích thước, kết quả của phép toán OR là một ảnh với các điểm ảnh (foreground) là phần lớn nhất (hợp) của hai vùng nội dung (foreground) hai ảnh nguồn như Hình 2.9

Trang 30

Hình 2.9: Phép toán OR 2.5 Phân ngưỡng

Chuyển ảnh màu (hoặc ảnh xám) về ảnh nhị phân (ảnh trắng đen) hữu ích cho việc phân vùng ảnh muốn cô lập một vùng đối tượng từ ảnh nền Ở đây, đối tượng muốn cô lập là các dòng chữ viết tay trên mỗi trang Chỉ với hai mức trắng (giá trị tại mỗi điểm bằng 255) và đen (giá trị tại mỗi điểm bằng 0)

Phân ng ưỡng cơ bản

Giá trị tại một điểm ảnh trong ảnh số phụ thuộc vào ngưỡng θ và được xác định bởi công thức sau:

ượ ạ (2.1)

Ưu điểm: Đơn giản trong việc cài đặt và sử dụng

Khuy ết điểm: Ngưỡng θ là giá trị toàn cục (global value) dùng để phân

ngưỡng cho toàn ảnh số; là một giá trị nhạy cảm, hay nói cách khác phải xác định giá trị ngưỡng θ một cách thủ công và khó khăn

Nh ị phân Otsu

Như đã trình bày ở phần 2.5.1 việc xác định giá trị ngưỡng θ là rất khó trong từng điều kiện mức sáng khác nhau của hình ảnh Nhị phân Otsu (Otsu’s

Binarization) là một lựa chọn để giải quyết vấn đề này [28] [30]

Một cách ngắn gọn, phương pháp nhị phân Otsu xác định ngưỡng θ một cách

tự động thông qua lược đồ histogram của ảnh Đặc biệt, đối với các ảnh có histogram kiểu bimodal; bimodal là hình dạng lược đồ có hai đỉnh riêng biệt, phương pháp nhị phân Otsu tỏ ra rất hiệu quả (xem Hình 2.10)

Trang 31

Hình 2.10: Ví dụ về phương pháp nhị phân Otsu 15

Hình ảnh trước khi được nhị phân Otsu đã được qua xử lý bởi bộ lọc Gaussian

để có thể thu được lược đồ histogram kiểu bimodal Bên dưới là công thức tìm ngưỡng t của phương pháp nhị phân Otsu

Trang 32

Tính theo công thức 2.2

Trang 33

7 ⊗ D =

8999

Trong quá trình thực hiện phép cuộn (hay tích chập mặt nạ) có một số thao tác ra ngoài ảnh, dẫn đến ảnh thu được có kích thước nhỏ hơn Ảnh thực hiện theo công thức (2.3) và (2.4) chỉ sai khác nhau 1 phép dịch chuyển Để đơn giản, cần hiểu phép cuộn thực hiện theo công thức (2.3)

2.8 Bộ lọc trung vị

Ảnh số được tạo ra sau khi qua máy thu như máy ảnh, scanner thường xuất hiện nhiễu như (Hình 2.11 - a) Để loại bỏ nhiễu có nhiều phương pháp khác nhau Trong phạm vi nghiên cứu này, trình bày phương pháp khữ nhiễu bằng bộ lọc trung

vị - Median

16 Hạ thông hay còn gọi là thông thấp Tiếng anh: Low-pass filter

Trang 34

a) Ảnh xuất hiện nhiễu muối tiêu b) Sau khi l ọc nhiễu bằng lọc trung vị

Hình 2.11: Lọc nhiễu bằng bộ lọc trung vị

Bộ lọc trung vị - Median là bộ lọc không tuyến tính vì vậy bộ lọc này không

sử dụng tích chập (Convolution) Về ý tưởng, bộ lọc trung vị đi tìm thành phần “ở

gi ữa” cửa sổ W Bộ lọc này tuy đơn giản nhưng tỏ ra rất hiệu quả trong việc lọc nhiễu muối tiêu so với bộ lọc trung bình – Mean và bộ lọc Gaussian [20]

Giả sử có ảnh I, ngưỡng θ, cửa sổ W(P) và điểm ảnh P

Khi đó kỹ thuật lọc trung vị phụ thuộc không gian bao gồm các bước cơ bản

sau [10]:

+ Bước 1: Tìm trung vị

Z7| ∈ \"] → ^_`"

+ Bước 2: Gán giá trị

Trang 35

a = a | a − bTca| d bTca ượ ạ (2.6)

Trong phần này, trình bày lý thuyết 2 phép toán xử lý hình thái học cơ bản là

phép toán Dilation và phép Erosion Dựa trên cơ sở lý thuyết [10] [30] Hai phép toán trên là cơ sở để trình bày thêm phép toán xử lý hình thái Gradient [30] Đây

là một phép toán xử lý hình thái giúp ích cho giai đoạn tiền xử lý cũng sẽ được trình bày tại 3.1

Trang 36

Hình 2.12: Các cấu trúc nối kết được sử dụng thông dụng

Hình 2.13 cho thấy ảnh sau khi Dilation luôn có xu hướng mở rộng thành phần liên thông, theo nguyên tắc dựa trên mặt nạ B Trong trường hợp này việc tính Dilation có thể được gọi là mở rộng thành phần liên thông trong A với 4 nối kết là B Ngoài ra, có nhiều định nghĩa khác nhau của B nhưng thường là 4 nối kết hoặc 8 nối kết - Hình 2.12

Hình 2.14: Ví dụ cách tính Erosion

Trang 37

Gom cụm dữ liệu được sử dụng trong rất nhiều lĩnh vực như: Tiền xử lý dữ liệu (data preprocessing), nhận dạng mẫu (pattern recognition), xử lý ảnh (image processing) … Trong nghiên cứu này, sử dụng gom cụm dữ liệu là một cách để nhận dạng mẫu (pattern recognition) chưa được gán nhãn Cụ thể hơn, khi các đối tượng từ ngữ viết tay sau khi được phân tách riêng biệt (mục 3.1.2 và 3.1.3 ) và trích chọn đặc trưng (theo mục 2.14.2 và 2.14.3 ) sẽ được gom cụm theo hệ số k (tùy thuộc vào từng chiến lược trình bày tại 3.2.1 ) với các độ đo DTW và EDM

Từ đó có thể kết luận được hiệu quả của giải thuật DTW nói riêng cũng như quá trình gom cụm nói chung

Trang 38

a) Ví d ụ về gom cụm dữ liệu

b) Mô t ả quá trình gom cụm dữ liệu 17

Hình 2.16: Gom cụm dữ liệu

Chu ẩn hóa dữ liệu

Dữ liệu dùng cho quá trình gom cụm thường rất đa dạng và phức tạp Cụ thể trong nghiên cứu này, sử dụng kiểu dữ liệu dạng dãy thời gian (time series) một chiều; đây là kiểu dữ liệu được trích chọn từ các đặc trưng Projection Profile và Word Profile Do đó, độ dài của dữ liệu là hoàn toàn khác nhau Công thức ( 2.10) được sử dụng để chuẩn hóa kiểu dữ liệu nêu trên về cùng độ dài Công thức tính mean, như sau:

Xw =1Y Hw H)w ⋯ HKw Công thức tính mean absolute deviation:

17 Được tham khảo tại R Xu, D Wunsch II Survey of Clustering Algorithms IEEE Transactions on

Trang 39

yw =Y |H1 w+ Xwz|H)w+ Xwz ⋯ |HKw+ Xw|

Công thức chuẩn hóa z-score:

{o =o 56o

|o ( 2.10)

Ph ương pháp phân hoạch

Phân hoạch (partitioning) là tạo ra các phân hoạch được đánh giá theo một tiêu chí nào đó Trong phương pháp phân hoạch có hai giải thuật phổ biến đó là k-mean và k-medoids hay còn gọi là PAM

Gi ải thuật k-medoids/PAM 18 :

Thay vì chọn giá trị trung bình làm giá trị của nhóm, thì giải thuật k-medoids chọn đối tượng nào đó nằm gần trung tâm nhóm nhất, ý tưởng của giải thuật k-medoids được trình bày tại Bảng 2.1

Bảng 2.1: Giải thuật k-medoids

Input: Tập danh sách dữ liệu và giá trị k-cụm

B1: Chọn ngẫu nhiên k đối tượng trọng tâm ngẫu nhiên của nhóm

B2: Gán từng đối tượng còn lại vào nhóm có trọng tâm cụm gần nó nhất B3: Chọn một đối tượng bất kỳ Hoán đổi với trọng tâm của nhóm Nếu chất lượng (theo một độ đo nào đó) các nhóm tăng lên thì quay lại B2 Ngược lại tiếp tục thực hiện B3 cho đến khi không còn thay đổi

Ouput: Tập danh sách k-cụm, danh sách trọng tâm của k-cụm

Đánh giá giải thuật k-medoids/PAM và k-mean

Thuật toán PAM hiệu quả hơn so với k-means, khi có mặt dữ liệu nhiễu cá biệt Nhiều ý kiến cho rằng giải thuật này chạy nhanh với tập dữ liệu nhỏ và tốn

18 Viết tắt của từ Partitioning Around Medoids, một giải thuật gom cụm theo phương pháp phân hoạch

Trang 40

thời gian khi với tập dữ liệu lớn Tuy vậy, trong nghiên cứu [2] cho thấy thời gian

tính toán giữa k-mean và k-medoids là như nhau kể cả với các tập dữ liệu lớn

Cách th ức đánh giá kết quả gom cụm

Có rất nhiều độ đo đánh giá ngoại (external validation measures) [18], một

trong số đó Entropy được sử dụng phổ biến để so sánh hiệu quả giữa các chiến lược gom cụm Giá trị Entropy nhỏ hơn phản ánh chất lượng gom cụm tốt hơn

- Partition P: kết quả gom cụm trên n đối tượng

- Partition C: các cụm thật sự của n đối tượng

- nij = |Pi∩Cj|: số đối tượng trong Pi từ Cj, với Pi là phần tử cụm thứ i trong Partition P và Cj là phần tử cụm thứ j trong Partition C

Từ đó, Entropy được tính theo công thức, như sau:

~Y I = − ! Y%!YY%L

% L

OpenCV (logo Hình 2.17) [15] là thư viện mã nguồn mở về thị giác máy tính

(Computer vision); được cài đặt bằng ngôn ngữ lập trình C++; được xây dựng bởi Itsee, phòng nghiên cứu Willow Garage của tập đoàn Intel Corporation OpenCV

Bảng 2.1: Giải thuật k-medoids

Input:... k-cụm

Đánh giá giải thuật k-medoids/PAM k-mean

Thuật tốn PAM hiệu so với k-means, có mặt liệu nhiễu cá biệt Nhiều ý kiến cho giải thuật chạy nhanh với tập liệu nhỏ tốn... gian với tập liệu lớn Tuy vậy, nghiên cứu [2] cho thấy thời gian

tính tốn k-mean k-medoids kể với tập liệu lớn

Cách th ức đánh giá kết gom cụm

Có nhiều độ đo đánh

Định dạng
Số trang	111
Dung lượng	7,05 MB