Phần mềm đã nhận được Giải thường Sáng tao Khoa hoc và Công nghệ Việt Nam năm 2002 - Nhận dạng chữ viết tay do TS Nguyễn Việt Hà chù tri tại Bộ môn CNPM sừ dung mạng neuron hai lớp Sinh
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
NHẬN DẠNG CÁC FORM TÀI LIỆU
( Báo cáo tổng hợp đề tài nghiên cứu khoa học cấp Đ H Q G H N )
Trang 2THÔNG TIN CHUNG
Chủ trì đề tài: Đặng Việt Dũng
Các cộng sự: ThS Đào Kiến Quốc, Đào Thanh Khiết, Nguyễn Thanh Phúc, Nguyễn Thu Trang, Đinh Văn Phương
Nội dung: Nghiên cứu giải pháp “đọc” tự động các phiếu bằng nhận dạng ảnh Công việc
cụ thể gồm: tách vùng nhập liệu trên form tài liệu, quản trị cẩu trúc form
Trang 3MỤC LỤC
BẢNG CÁC THUẬT N G Ữ VÀ TỪ VIẾT T Ắ T 5
DANH SÁCH NHỮNG NGƯỜI THAM GIA THỰC HIỆN ĐẺ T À I 5
DANH MỤC CÁC HÌNH V Ẽ 6
DANH MỤC CÁC BẢNG SÓ L IỆ U 7
TÓM TẮT NHỮ NG K ẾT QUẢ CHÍNH CÙA ĐÊ T À I 8
CHƯƠNG 1 GIỚI TH IỆU 10
11 Đặt vấn đề 10
1 2 Mục tiêu nghiên cứu và ý nghĩa cùa đe tài 11
] 3 NỘI dung nghiên c ử u 11
1 4 Cấu trúc của báo cáo 11
CHƯƠNG 2 TÒ CHỨC THỰC HIỆN 13
2 1 Phương pháp nghiên cứu: 13
2.2 Phân công trách nh iệm : 13
CHƯƠNG 3 NỘI DƯNG NGHIÊN c ử u 14 •
3.1 Hệ thống nhâp dữ liệu tư động vào máy tính băng nhận dang quans hoc 14 3.2 Tiền xử lý ảnh áp dung cho hệ thống nhận dạng fo rm 15
3.2.1 Thuật toán lọc nhiễu và nhi phân hoà 15
3.2.1.1 Giới thiệu 15
3.2.1.2 Mô tả thuât toán 15
3.2 1.3 Loai bò đường biên 17
3.2 1 4 Kết luân 19
3 2.2 Thuảt toán khử n g h iêng 19
Trung tâm Nghiên cứu và Phát triến Công nghệ Phần mểm, Trường Đợi học Công nghệ ĐHQGHN
Trang 43.3.1 Mô tả thuật toán xác định vùng nhận dạng dựa trên xác định các đường
th ẳ n g 25
3.3.11 Thuật toán xác định đường thẳng 25
3.3.1.1 Biện pháp khấc phục việc xác định các đường thẳng mờ hoặc đứt đoạn 27 3.3.2 Đối chiếu các đường thẳng xác định được V Ớ I Form m ẫu 28
3.3.2 1 Phương pháp đối chiểu các đường thẳng 28
3.3.2.2 Ước lượng về khoảng cách và kích thước : 29
3.3 3 Thuật toán tim đường tương ứng giữa ảnh mẫu và ảnh scan 30
3.3.4 Tách vùng nhập dừ liệu trên ảnh scan 32
3 4 ứ n g dụng quản trị form tài liệu vào bài toán nhận dang form 34
3 5 Xây dựng các mô đun phần mềm thừ n ghiệm 37
3.5.1 Mô đun phần mềm tách vùng trên fo rm 37
Thực nghiệm ]: Xác đinh các đường thẳng 39
Thực nghiệm 2: Tỉm cặp các đường thẳng giữa ảnh scan VỚI ảnh mẫu 40
Thực nghiệm 3: Xác định các vùng cẩn nhận dang 40
3.5.2 Mô đun phần mềm quản trị form tài liệ u 42
CHƯƠNG 4 TÓM TẢT KÉT QUÀ NGHIÊN c ứ u 46
a Sản phẩm khoa h ọ c 46
b Kểt quả ứng dụn g 46
c Kết quà đào t a o 46
d Kết quả nâns cao tiềm lưc khoa hoc 46
CHƯƠNG 5 KÉT LƯ ÁN VÀ KIÊN N G H Ị 47
5 1 Kết luân 47 5.2 Một sổ kiến ngh? 47
TÀI LIÊU THAM KHẢO 48 PHU LỰ C 50 Phụ lục 1 Các bài báo vả báo cáo khoa h o c 50
Trung tâm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trường Đại học Công nghệ, ĐHQGHN
Trang 5Trung tâm Nghiên cứit vò Phát triển Công nghệ Phán mềm Trường Đại học Câng nghệ ĐHQGHN
Phụ lục 2 Bìa các luận vãn và khóa luận tổt ng h iệp 50
Trang 6Trung tâm Nghiên cứu và Phát triển Công nghệ Phần mềm Tnrờng Đại học Công nghệ, ĐHQGHN
BÀNG CÁC THUẬT NGỮ VÀ TỪ VIÉT TÂT
NC&PT Nghiên cứu và Phát triển
• J.vị;; Đào Thanh Khiết CN Trung tâm NC&PT CNPM
Trang 7Trung tăm Nghiên cửu và Phát triển Công nghệ Phởn mềm Trưởng Đại học Cõng nghệ ĐHQGHN
DANH MỤC CÁC HÌNH VẼ
Hình 1: Sơ đồ hệ thổng nhập dữ liệu tự đ ộ n g 14Hình 2: (a) Ảnh scan; (b) Anh sau lần lọc thứ nhất, (c) Ảnh sau lẩn lọc cuối cùn°, (d) Ảnh sau khi nhị phân h ó a 17Hình 3: (a) Anh scan có đường viền màu đen, (b) Anh sau khi được lọc nhiễu 18Hình 4: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng V Ớ I một c ụ m 19Hình 5: (a)ảnh với góc nghiêng bang không, (b) đồ thị của phép chiếu ngang trên ảnh (a) 20Hình 6: (a) Ảnh với góc nghiêng 5°, (b) Đồ thị cùa phép chiếu ngang trên ảnh (a) 21Hình 7: (a) Ảnh scan, (b) Ảnh sau khi chỉnh xác góc nghiêng 23Hình 8: (a) Ảnh sau khi tiền xử l ý , 26(b) Ảnh sau khi lọc các black run ngẳn theo chiều ngang (c) Anh sau khi hợp cách black run dài theo chiều ngang, (d) Ảnh sau khi loc các black ran ngắn theo chiêu thẳng đứng (e) Ảnh sau khi hợp các black run dài theo chiều thẳng đứng (f) Các đường thang xác đinh được trên ả n h 26Hình 9: (a) Đường thẳng mờ và bị đứt doan (b) Đường thang xác đmh đươc khi tính đến mât
đ ộ 27Hình 10: Xác đinh nhầm đường thẳng do phân bố không đều trên đ ư ờ n g 27Hừih 11 Chia đường thẳng thành các đoan ngắn rồi tinh mật đỏ Ưẽn các đoan này 28Hình 12: (a) Ảnh mẫu, (b) Đinh nohĩa các vùng nhâp dừ liệu trên ảnh mẫu, (c) Anh scan sau khi tiền xử lý; (d) Kết quá tách vùng trên ảnh scan 34Hình 13: Mầu form có cấu trú c 35
Hình 15: (a) Ảnh mẫu, (b) Kết quả thu đươc sau khi phân vùng 41Hình 16: Giao diện c h ín h 43Hình 17: Mầu dữ liêu 43
Trang 8Trung tởm Nghiên cứu và Phát triển Cóng nghệ Phân mềm Truừng Đại học Công nghệ ĐHQGHN
DANH MỤC CÁC BÀNG s ổ LIỆU
Trang 9Trung tâm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trườỉig Đại học Công nghệ ĐHQGHN
TÓM TÂT NHỮNG KÉT QUÀ CHÍNH CỦA ĐẺ TÀI
(a2) 01 báo cáo tại hôi thảo khoa hoc quốc 212 FAIR
(a3) Báo cáo tổng hợp đề tài
b Kết quả phục vụ thưc tế (các sản phẩm côns nahé khả năng áp duns thưc tế)
( b l ) Mô đun phần mềm tách vùng trên form
(b2) Mô đun phần mềm quản tri form
c Kết quà đào tạo (số lượng sinh viên, hoc viên cao hoc nghiên cứu sinh lảm việc iron*,
đề tài)
03 khóa luân tốt nohiêp của sinh viên đươc hoan thanh
d Kết quả nâng cao tiềm lưc khoa hoc (nâng cao trinh đô cán bô và tăns cưono trana thic;
bị cho đơn vị)
( d l ) Qua thưc hiên đẻ tai, cán bô cùa Trung tám đươc nâng cao ban lĩnh nshiẽn cứu
triển khai ứng dung Đăc biêt lá chù tri đê tai là mỏt cán bô trẻ, lẩn đâu tiên chủtri m ột đề tài nshiên cứu cẩp Đại hoc Quốc sia Hà nôi
Bào cào tỏng họp đề tài "Nhón dạng các form tàỉ liệu
8
Trang 10Trung tâm Nghiên cứu và Phát triến Công nghệ Phản mểm, Trường Đại học Công nghệ ĐHQGHN
(d2) Qua thực hiện đề tài, Trung tâm Công nghệ Phần mềm đã tích lũy thêm đươc
đó là nhận dạng các form tài liệu
e Tinh hình sử dụng kinh phí
- đã sử dụng hết kinh phí được cấp (28 triệu VND)
- đã chi các khoản như sau:
(triệu đồng)
(Thiết bị tích hợp V Ớ I các hệ thống điện thoại được mua
từ một nguồn kinh phí nghiên cửu khác)
0
X Á C N H Ặ N C ơ Q U A N CHỦ Q U Ả N
Trang 11Trung tâm Nghiên cửu và Phát triển Công nghệ Phản mềm, Trường Đại học Công nghệ ĐHQGHN
CHƯƠNG 1 GIỚI THIỆU
1.1 Đặt vấn đề
Trong những năm qua, tại Trung tâm'Nghiên cửu và Phát triển Công nghệ Phẩn mềm và
Bộ môn Công nghệ đã thực hiện nhiều đề tài theo hướng nhận dạna tài liệu Một số kết quả
đẵ thực hiện được bao gồm:
- Xây dựng hệ nhận dang các phiếu thi trấc nahiệm và xây dưng phần mềm tồ chức thi ứẳc nghiệm bằng nhận dạng quang học do Đào Kiến Quốc và các chủ tri Phần mềm
đã nhận được Giải thường Sáng tao Khoa hoc và Công nghệ Việt Nam năm 2002
- Nhận dạng chữ viết tay do TS Nguyễn Việt Hà chù tri tại Bộ môn CNPM sừ dung mạng neuron hai lớp Sinh viên Nsuvễn Minh Ánh, Trần Trí Hoài, Lê Việt Cường đã tham gia nghiên cứu Kcl quả đal đươc rất khả quan với việc có thể đoc chữ viết tay tiếng Việt với độ chính xác lên tới 93%
Rất nhiều hệ thống thông tin có vấn đề nhâp dữ liệu từ nguồn tài liêu trên giấy Chẳng
han, nhập điểm từ c á c bàng điêm của sinh, nhảp phiếu đăng ký thi vào đai hoc (hàng van
phiếu mồi năm), tờ khai ờ các trurm tâm dịch vu hành chính, nhân dans địa chì trên phong bi
để cỏ thể chia thư tư động Nêu co một phương tiện chup ảnh tài liệu sau đó phân tích ảnh, nhận dạng và cập nhật vào CSDL thi có thê lảm hiệu quả tăns gâp vài chuc lẩn
Tại Viên CNTT thuôc Truns tâm Khoa hoc và Công nghê Quốc sia cũng đã thực hiện nhiều đề tài nhận dang và đã cỏ những kết quả xuât săc vê nhận dạna tài ]]ệu như đã đươc hiện thực trong phần mềm VnDOCR Tuy nhiên phân mêm này chi nhân dang chữ m, trong khi đó hầu hết các phiếu đăng ký thi chi có chừ viêt tay Hơn nữa việc nhân dans môt tai liêu dừng ờ mức sinh ra môt tài liệu (dưới dans rtf) còn nhân dang form còn có môt đãc điểm
khác là thông tin nhân dang đươc 0' mỗi vùn ° cản đưọc hên kêt VỚI môt trường nào đó cùa cơ
sờ dừ liệu để cập nhât dữ liệu tự đông Vi thê nhận dang form còn có một vấn đề đãc thu là phân tích và/hoăc quản lý cẩu trúc form và tươrm tác VỚI cơ sở dừ liêu
Với các văn bàn thôns thườn 2 ta khỏ có thẻ đat đươc đỗ chính xác cao thỏno qua nhân dano tuy nhiên trong các form văn bản lả những loai văn bản có câu trúc ta có thê đưa ra các qưy tắc ràng buỏc để tăna đô chính xác cho viẻc nhân dang Chăng han các chừ đươc viết nêng rẽ trên các ô riêng biẻt của các vùng nháp liệu Mặt khác việc nhản dana khônu cân tiến
Trang 12Trung tâm Nghiên cửu và Phát triển Công nghệ Phần mềm Trường Đại học Công nghệ ĐHQGHN
hành trên toàn bộ ảnh của tài liệu mà chỉ giới hạn ờ những vùng nhập dừ liêu Đặc điểm này cũllg cho phép người ta tiếp cận một cách có hiệu quả hon, chẳng hạn có thể tân dụn° các thông tin sẵn có từ thiết kế form làm các tham sổ nhận dạng Môt khía canh khác của nhân dạng form tài liệu là các dữ liệu nhận dạng được của mỗi vùng của form sẽ phải được tư đông gắn vào một trường dữ liệu xác định của ứng dụng
Trong để tài này, chúng tôi nghiên cửu phương pháp nhân dạng các form tài liệu nhầm phục vụ cho bài toán nhập dữ liệu tự động từ vào máy tính
1.2 Mục tiêu nghiên cứu và ý nghĩa của đề tài
Nghiên cứu giải pháp “đọc” tự động các phiếu bằng nhân dạng ảnh
Đưa ra đuợc phương pháp quàn trị form, phương pháp nhân dang form và phương pháp tích hợp VỚI các ứng dung dựa trên cơ sờ dữ liệu
Từ phương pháp quản trị form và nhận dạng form đã đề xuất, tiếp tục phát triển sàn phẩm công nghê như một too] cung cấp khả năng design form, nhân dang form, khai báo
tu ơ n g tác với cá c ú n g dung khác để có thể tích hợp VỚI các ứ ng dụng khác
Đảy là một đề tài triẻn khai nghiên cứu và triển khai, có khả năng ứníỉ duno cao Rất nhiều nơi có nhu cầu nhâp dữ liệu nhanh từ các phiếu
1.3 Nội dung nghiên cứu
Viẻc xây dựng môí phần mềm ở đạt mức thương mại là môt công việc lớn, đòi hỏi công sức cùa nhiều người, làm trong nhiều năm với môt kmh phí không nhỏ Nhóm đề tài triển khai trono nhiều pha m à trong khuôn khổ kinh phí của năm 2006 chỉ đặt ra thử nohiêm thành côn° ờ mức nhân dang các form không quá phức tạp và đua ra đươc môt prototype của sản phẩm thương mại trong tương lai Cụ thể nội dung nghiên cửu như sau:
■ Đăc tả form tài liệu
■ Nhân dans và quàn tri cấu trúc form tài liệu
■ Xây dim s các mô đun phân mêm thử nghiêm Mô đun quản tri form, mó đun nhãn dang form
1.4 Cấu trúc của báo cáo
NÒI duns các chưons sau eôm có: Chương 2 trinh bày vẻ tỏ chức thưc hiên đẽ tai Chươno 3 trinh bày tổng quan vẽ các vân đê nghiên cửu; đẻ xuảt phuơn<4 phap nhản dan«
Trang 13form tài liệu, mô tả các mô đun phần mềm thử nghiệm Chương 4 tổng kểt các kết quả nohiên círtl của đề tài Cuối cùng chưomg 5 nêu kết luận và kiến nghị.
Trung tăm Nghiên cửu và Phát triển Công nghệ Phần mềm Trường Đại học Công nghệ, ĐHQGHN
Trang 14Trung tâm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trường Đại học Cõng nghê ĐHQGHN
CHƯƠNG 2 TỎ CHỨC THỰC HIỆN
2.1 Phương pháp nghiên cứu:
Nghiên cứu tập trung vào phẩn phân tích, nhận dạng và quản tn cấu trúc của form Riêng phần nhận dạng chữ viết tay, chúng tôi sê phổi hợp với các nhóm nghiên cứu khác và tiếp tục đầu tư nhằm nhận dạng hoàn toàn form tài liệu Một sổ tác giả đã có các nghiên cứu thành công ờ một mức độ nhất định là các tác giả Nguyễn Việt Hà, Nguyễn Minh Anh, Trần Trí Hoài, Lê Việt Cường với phương pháp sử dụng mạng neuron hai lớp Một số các nhà nghiên cứu ờ Viện Công nghệ Thông tin, Viện Công nghệ và Khoa học tự nhiên cũng đã thu được một số kết quà đáng khích lệ
Kỹ thuât nhận dạng được kế thừa từ các kỹ thuật xù lý ảnh, nhận dạng ảnh đã có trên thế giới, chọn lọc và đề xuất, cải tiến phương pháp nhận dạng phù hợp với các form tài liệu Để tài cũng kế thừa kinh nghiệm đã có trong việc phát triển thuật toán nhận dạng phiếu thỉ trẳc nghiệm đã được ứng dụng thành công trong phần mềm MrTest
2.2 Phân công trách nhiệm:
- Quản lý dự án, tham gia phân tích và thiết kế hệ thống: Đặng Việt Dũng, Đào Kiến Quốc (Giám đốc Trung tâm Công nghệ Phần mềm), Đảo Thanh Khiết
- Nghiên cứu đề xuất phượng pháp nhận dạng form và phát triển mô đun phần mềm nhận dạng form: Nguyễn Thanh Phúc, Đinh Văn Phương
- Nghiên cứu phương pháp đặc tả form và xây dưng mô đun phần mềm quản tri form Nguyễn Thu Trang
- Chuẩn bị báo cáo khoa học tại hôi thảo khoa học FAIR 2007: N suyễn Thanh Phúc Đào Kiến Quốc, Nguyễn Thu Trang
- Kiềm thử sản phẩm và xây dựng tài liệu: Đào Kiến Quổc, Đặng Viêt Dùne
Trang 15Trung tăm Nghiên cứu và Phát triển Công nghệ Phỗn mếm, Trường Đại học Công nghệ, ĐHQGHN
CHƯƠNG 3 NỘI DUNG NGHIÊN cừ u
3.1 Hệ thống nhập dữ liệu tự động vào máy tính bằng nhận dạng quang học
Hình 1 mô tả hệ thổng nhập dữ liệu tự động bằng nhận dạng quang học Bài toán nhập dừ liệu tự động từ form tài liệu gồm các vấn đề sau:
- Quản trị form bao gồm : thiết kế form nhập liệu, quản lý và lưu trữ tự động các tham
số của form để có thể cung cấp thông tin cho quá trình nhận dạng sau này thêm nhanh, tin cậy vả có thể tích hợp được với cơ sờ dữ liệu của ứng dụng
- Nhận dạng các vùng dữ liệu (bài toán phát hiện và phân vùng dữ liệu)
- Nhận dạng chữ viết tay trên các vùng dữ liệu, xừ lý từ vựng và ghi nhân vào cơ sờ dữ liệu
- Tiền xử lý ảnh để phuc vụ cho quá trình nhận dạng, đảm bào độ tin cây
Trang 16Trung tám Nghiên cứu vá Phát triển Công nghệ Phẩn mểm Trường Đại học Công nghệ ĐHQGhTN
3.2 Tiền xừ lý ành áp dụng cho hệ thổng nhận dạng form
Quy trình nhận dạng được tóm tắt như sau: đẩu tiên vãn bản cần nhận dạng đươc đưa qua
hệ thống tiền xử lý để lọc nhiễu, chính xác lại góc nghiêng, sau đó ảnh sẽ được phân vùn° dựa trên việc xác định các đường thẳng có trong ảnh, CU01 cùng là tách nêng và nhận dano trên các vùng nhập dữ liệu - Hình 1 Saii.đây chúng tôi sẽ trình bày chi tiết về phẩn loc nhiễu
ảnh nhị phân ch ì VỚI hai m ứ c trẳng và đen giảm bớ t được k h ố i lư ợn g tính toán và đơn oiàn
hoá các phương pháp phân tích so với ảnh xám (256 mức) Do đó việc tim ra môt thuát toán nhị phân hóa nhanh và hiệu quả là một điêu rấi cân thiêt
Nhiều phương pháp về nhị phân hóa ảnh đã được phát triển, trong số đó có những phương pháp đem lại kết quả rất tốt Có thể kể đển như các thuật toán dựa trên sư biến thiên
về cường đô mức xám ờ các vùng khác nhau của văn bản hay các thuật toán về tính ngưỡng nhi phân cục bộ [16] Tuy nhiên các phương pháp này thường áp dung đối VỚI nhữn« hình ảnh tồng quát và đòi hòi tính toán phírc tap bời vi đều phải tính đến cấu trúc cùa ảnh
Trong bài toán này, chúns tôi chi xừ lý trên các văn bản kiểu form, vốn đĩ là các hinh ảnh đơn giản chì gồm hai mức đen (đê thê hiên chữ) và trăng (nên của vãn bản), văn bản cữns thường phân bố khá đồng đêu Chính vì vây việc nhị phân hóa ảnh có thể đuơc thưc hiện chì dua trên lược đồ xám cùa ảnh mà khôns phu thuôc vào câu trúc ảnh Trên cơ sờ này, chúng tôi đã kết hơp các kỹ thuật thưc hiên nhiều lần tăng cường độ tưong phản bang cách điểu chỉnh mức xám [ 16], phân ngưỡng tự đôn2 đê nhị phân hoá ảnh
3.2.1.2 Mô tả thuật toán
Anh của vãn bản gốc vốn dĩ là ảnh nhị phân, tức là chỉ có hai ngưỡng đen, trẳn s cho chừ
và nền Song sau khi in ra và quét lai vào máy tính, nó trờ thành ảnh đa mức xám tức là có
256 ngưỡng khác nhau Một số vùng nên có thể xám hơn, ngược lai mỏt số đối tươns chữ bảng và đòng kẻ có the mờ đi Nhiêm vu cùa chúng ta ờ đây là tách các đối tưcmo cẩn xử lý ra khỏi hình nền
Thuật toán đươc xây dưng dưa trên giả thiẽt măc dù có sư biên đôi vẻ nsirỡng tuy nhién vẫn có sự khác biệt giữa n sư õ n s cùa chừ và cùa nên Thông qua viêc tăn ° cươna đỏ tưcms phản lặp lại nhiều lần, ta hi vonti rang có thẻ khuyếch đai sư khác biêt này môt cach đáns kểÀnh lá một tập các điềm ảnh, được biêu diễn bời công thức :
Trang 17Trung tâm Nghiên cứu và Phát triển Cõng nghệ Phần mềm, Trường Đại học Công nghệ ĐHQGHN
Ta có thể tóm tắt quy trình lọc nhiễu như sau :
Bước 1 : Tính già trị độ xâm trang bình T
Bước 3 : Lập lại bước 1 cho tới khi giá rrỊ T giữa 2 ỉản ìoc liên riếp nhau lã gán như nhau
Với cách lọc trực tiểp trên ảnh ờ ưên, thỉ tiếp chi phí tính toán cho phương pháp lọc nảy chủ yếu tập trung vào chi phí tính toán ờ Tk và Ik+] Do vậy đề-giảm chi phí tính toán cho phép lọc náy chúng ta chì tính T0 (tức giá trị mức xám trung bình của ảnh gốc) duy nhất một lần và các giá trị Tk tiếp theo sẽ được tính dựa trên Tk.j Mặt khác ta nhân thấy giá trị mức xám của ảnh nằm trong khoáng [0 255], mà giá trị các điểm ảnh I(x,y) chỉ nẳm trong khoảng giá trị mức xám cho phép này, do vậy chúng ta sẽ thực hiện các phép lọc ảnh nhiều
lần ch ì trên ỉư ợ c đ ồ m ứ c xá m và CU01 cùng m ới thực hiện tăn g độ tương phàn cho ảnh cuối
Ta có thể hình dung các bước thưc hiện chính như sau:
Trang 18Trung tâm Nghiên cứu và Phát triến Công nghệ Phần mềm, Trường Đại học Công nghệ ĐHQGHN
Bước 1 : Tăng độ tircmgphàn ánh trên lược đỗ mức xám.
Bước 2 : Tính giá trị trung bình Tkí dựa trẽn Tk.j.
Bước 3 : Lặp lại bước J, cho tới khi Tk và Tk - 1 gần như nhan.
Bước 4 : Thirc hiện điều chinh độ tưorìg phán cho anh gốc cuối cùng dựa trên kết quả của ỉược đồ mức xám ở bửớc cuối cùng.
Sau cùng, khi ảnh đã được lọc nền và làm sạch, ta tiến hành nhi phân hóa ảnh Ngưỡng nhị phân được chọn là:
Hình 2: (a) Anh scan; (b) Anh sau lần ìọc thử nhắt; (c) Anh sau ìắn lọc cuối cùng; (d) Anh sau
khi nhị phân hóa
3.2.1.3 Loại bỏ đucmg biên
VỚI phương pháp trên chứns ta có thẻ được tách nên ra khỏi các thông tin cần nhân dang với những ảnh có đường biên là màu trang Nhung thực tể các ảnh scan vào không chỉ có đường biên lả màu trắng, mà có thể có các đường biên là màu đen do vậy chúng ảnh hưcms rất lớn giá trị trung bỉnh mức xám T, khi đó ảnh sau khi lọc có thê chỉ còn đươns biên màu
ỈRUNG TẨM THÔNG TIN THƯ VIỄN
D T / ' m
17
Trang 19Tnơig tâm Nghiên cứu và Phát triến Công nghệ Phán mềm Trường Đại học Cõng nghệ, ĐHQGHN
Hình 3: (a) A n h scan cỏ đường viển màu đen, (b) Anh sau khi được ĩọc nhiễu
Đẻ khẳc phục trường hợp này, trước tiên chúng ta phải khừ các đường viền đen này Thực tế nghiên cứu nhiều ành scan khác nhau chúns tôi nhận thấy rang các điềm đen trẽn đường viền phân bổ m ôt cách rời rạc, không liên tục, có xen kẽ cảc điểm trắna (hoăc củm
điểm trắng), và c ó c á c hình dạng rất khác nhau tủy thuộc v à o chất lư ợn o m áy scan và s ó c
nghiêng cùa ảnh
Do vậy để khử đường các đuờng viền đen này chúng tôi đề xuất giài pháp khử đườns viền bằng cách dựa vào phương pháp phân cụm có tính đến mật đô (Density-Based Clusturing) [3] Đặc điểm của phương pháp phân cụm :
• Có thể phân cụm V Ớ I nhiều hình dạng khác nhau, kê các các hình dans bất thườno
• Chấp nhận nhiễu
• Chì thực hiện duyệt môt lân
• Cần tham sổ mật độ cho điêu kiên kêt thúc
Trang 20Trung tõm Nghiên cứu và Phàt triển Công nghệ Phõn mềm, Trường Đại học Công nghệ, ĐHQGHN
Hình 4: Các kiểu hình dạng khác nhau của cụm, mỗi màu tương ứng với một cụm
Á p dụn g phư ơng pháp phân cụm , ch ú n g tôi đ ề x u ấ t phư ơng pháp khử đư ờng viền đen có
thể thực hiện các bước chính sau:
Bước ỉ : Xuất phát từ điểm p ta đi tỉm một cụm, sao cho p thuộc vào cụm đơ);
Bước 2: Đặt tat cà các điêm trong cụm cúa p lờ điẽm trang
Bước 3: Lặp lại bước ì cho tới khi không còn tồn tại cụm nào.
Chú ý : Thuật toán nà)> chi áp dụng với các điểm gàn viển ỉà màu đen, không áp dụng với các điểm đen bên trong
3.2.1.4 Kết luận
Dựa trên kết quả thực nghiệm sau khi áp dụng thuật toán đổi VỚI 60 form văn bản thuôc
về 4 loại khác nhau, chúng tôi thấy rằng kết quả thu đuơc hoàn toàn có thề so sánh VỚI kết quả của các thuật toán khác Thời gian đề nhị phân hóa ành có độ phân giải là 300 DPI VỚI 10 lần lặp chì là 85ms Điều này chửng minh rang thuật toản cỏ thể áp dụng rẳt hiệu quả khí ta cần xử lý văn bản VỚI sổ luợng lớn
3.2.2 Thuật toán khử nghỉêng
Buớc tiếp theo sau khi lọc nhiễu và nhi phân hóa đẻ tạo ra một hình ảnh chì có hai mửc đen và trắng là chính xác lại sóc nghiêng cùa ảnh.Thông thường các thuật toán nhân dạng chỉ
có thể áp dụng đổi với các ảnh có góc nghiêng nhò Do đó việc tim góc nshiêng là một công
v iệ c hết sức quan trong và nó c ó ảnh h ư ờ n g rất lớn đối VỚI v iệ c nhận d ạ n g chính xác văn bản
Hiện nay đã có rất nhiều phương pháp xác định góc nghiêng cho một tài liêu dạns ánh thuộc nhiều kiểu khác nhau từ tông quát đến cu thê Mồi phương pháp có môt cách tiếp cân khác nhau cùng những ưu điêm và nhươc điêm nhất đinh C ác phương pháp xác đinh 2ÓC nghiêng dựa trên các đổi tượng liên kết (connected com ponent) rất hiêu quà VỚI nhữ ns ảnh cònhiều kí tự, tuy nhiên lại khá nhạy càm VỚI nhiễu C ác phương pháp dưa trên phép biến đổiHough mặc dù có thể áp dụng trên các văn bản tồng quát lai đòi hòi khối lượno tinh toán lớn cũng như phải biến đổi ảnh qua nhiều bước mới áp dung đươc Các phươno pháp dưa trên phép chiểu hiệu quả với các ảnh phân bố đều và có hưcmg nhưng xừ lý vẫn con rất phức tap
Trang 21Trung tâm Nghiên cửu và Phát triến Công nghệ Phần mềm, Trường Đại học Công nghệ ĐHQGHN
Qua việc nghiên cứu rất nhiều dạng Form văn bản khác nhau bao gồm cả văn bản tiểng v iệt
v ítiế n g anh cùng với việc nghiên cửu nhiều thuật toán [8,9,11,14,15,18,14], chúns tôi thấy ràng phương pháp phép chiếu là m ột phương pháp thích hợp để xác đinh góc nghiêns của các form vãn bản trong phạm vi của bài toán Bời vì :
• Phương pháp phép chiểu cho kết quả với độ chính cao trên các form văn bản thuôc phạm vi của bài toán
• Có thể thực hiện một số cải tiến để giảm bớt khối lượng tính toán
• Dễ hiểu, dễ bảo tri
3 2 2 Ỉ Phuơng pháp xác định góc nghiêng dụa trên phép chiếu.
Tư tường cơ bản của phương pháp này dựa trên đặc trưng của văn bản đó là các dona chữ hoặc các đối tượng khác như bảng hoặc các đoan thẳng thường đưoc đăt môt cách có thứ
tư Các chữ thường được đăt theo từng dòns giữa các dòne có khoáng cách, các bans hoãc hình hộp cùng thường đươc đặt theo chiêu ngang Do đặc trưns này nên khi ta chiếu các đỉêm
đen của m ột văn bàn VỚI g ó c n g h iê n g bàng khôn g theo chiêu n g a n g thi ta sẽ thu được m òi đõ
thi rất sẳc và có độ biến thiên lớn VỚI các văn bản bị nghiêng, ta có thẻ thấv là phép chiếu sẽ tạo ra một đồ thị trơn và thấp hơn Dựa trên việc đánh giả các đồ thi này ta sẽ tim đươc 2ÓC nạhiẽng chính xác của ảnh
Hình 5: (a)anh với góc nghiêng bâng không; (h) đồ ihi của phép chiểu ngang í rên anh (a
Trang 22Trung tâm Nghiên cửu và Phát triển Công nghệ Phan mềm Trường Đại học Công nghệ, ĐHQGHN
Hình 6: (a) Anh với góc nghiêng 5°; (b) Đỗ thị cua phép chiếu rĩ gang trên anh (a)
Mô tả phương pháp phép chiếu [11] :
• Các điểm đen trên hình ảnh sẽ đươc chiếu theo các đưÒTig th ẳ n s so na s o n s váo một mảng tích lũy ( A) Mỗi phẩn tử của mảnq tương úng với một đưòna chiếu vả giá trị cùa nó là sổ điểm đen nằm ừên đường chiếu đó
• Sử d ụ n g phép ch iếu đối VỚI m ỗi g ó c n g h iên g giả định, ta thu đươc m ôt tập các mảng tích lũy ( Atì) Dựa vào hàm đánh giá F ( Afl) với MĨNANGLE < p í MAXANGLE, ta tim được góc nghiêne chính xác 9 của ảnh lả góc làm cho Q]á tri của hàm đảnh giá F ( A(i) đạt cực đai
Dựa trên các đặc trưng của văn bản ta có hai hàm đánh giá :
(Dựa trên đặc điêm : đồ thị phép chiểu cua văn ban VỚI góc nghiêng chính x á c thườn? c ó
Trang 23Trung tăm Nghiên cửu và Phát triển Cõng nghệ Phân mềm, Trường Đại học Công nghệ, ĐHQGHN
(Dựa trên đặc điểm : đồ thì phép chiếu cùa văn bàn với góc nghiên chinh xác thường có nhiều khoáng trống và có khoàìĩg trổng rộng hơn)
Áp dụng phương pháp phép chiếu, ta thử VỚI từng góc 9 nằm trong khoảng ( MINANGLE, MAXANGLE) Góc 0 từn được là góc có hàm đánh giá tương ứng đạt giá tri
3 2 2 2 Tổi ưu các tham số.
Văn bản sau khi qua máy quét thưòng tạo ra một hình ảnh bị nghiêng VỚI góc nghiêng nẳm trong khoảng [-150, 150], Ta sẽ tìm góc nghiêng của ảnh trong khoảng này ( MINANGLE = -15, MAXANGLE = 15) Đây là một khoảng xác định phù hợp, vì nếu khoảng tìm kiếm quá lớn sẽ làm tăng thời gian xử lý, ngược lại nếu khoảng quá nhò thì có nhiều khả năng góc nghiêng sẽ nằm ngoài khoảng Trong trường hợp góc nghiêng của hình ảnh vượt quá khoảng tim kiếm thi điều đó cũng sẽ được phát hiện trong bước xử ]ý tiếp theo (
phân v ù n g ảnh), khi đó ta sẽ thực hiện tìm kiếm lại g ó c n g h iê n g VỚI m ột k h o ả n g tìm kiếm
rộng hơn
Độ chênh lệch trong việc chon tùng góc 0 trong khoảng tìm kiếm cũng có ảnh hường quan trọng đối VỚI hiêu năng và đô chính xác Ví du như nếu mỗi góc 0 cách nhau môt khoảng 0.1 và khoảng tim kiếm lả ± 150 thi cân xét VỚI 300 trường hợp, đô chính xác của góc nghiêng thu được là ±0.10 Việc tính hàm ước lượng đối với tất cà các góc nghiêng có thề
như vậy là k h ô n g cần thiết, thay vào đó chúng tôi sử dụng k h o ả n g cách 2 0 để ư ớc lư ơng ờ
bước đầu tiên Sau đó dựa vào kết quà thu được, chứng tỏi thu hẹp khoảng tim kiếm và khoảng cách giữa các góc cân ước lượng đê đạt được độ chính xác cao hơn
Cụ thể là sau bước đầu tiên, ta đã ước lưons đươc 2ÓC nghiên của ảnh là [3 VỚI đô chính
xác ±2o, Bước tiếp theo sẽ tiếp tục tim kiếm góc nghiêng trong khoảng (P - 2o, p + 2o) VỚI
khoảng cách giữa các góc cần ước lưcm2 là 0 4o Sau bước này ta lại có‘ một uớc lượn 2 về góc nghiêng mới là Ị3’ VỚI đô chính xác là ±0.4o Cứ tiêp tuc như vậy cho đến khi ta đat đươc
độ chính xác cẩn thiết là ±0 ] 0
Thực nghiêm cho thấy trong bước đầu tiên, nếu lấy khoảng cách là 10 hoăc 20 không làm thay đổi độ chính xác của thuât toán
Đe tăng cường hơn nữa hiêu quả tinh toán, trong bước đâu tiên khi đô chinh xác là nhò,
do đó không cần phài sừ dung ảnh lớn và chi tiết Chúng tôi sử dung ảnh cỡ khoảng 50DPI ( thu nhò từ ảnh ban đầu) cho các bước ước lương ban đảu : còn ư o n g các buớc tiếp theo thi sừ duns ảnh sốc để đảm bảo đô chinh xác
Trang 24Trung tâm Nghiên cứu và Phát triển Công nghệ Phần mềm, Trường Đại học Công nghệ, ĐHQGHN
Hình 7: (ơ) Anh scan, (b) Anh sau khỉ chính xác góc nghiêng
ư u điểm cùa p h u o ìig pháp :
• Phương pháp phép chiếu để xác định góc nghiêng của ảnh cho kếí quả rẩt chính xác đối VỚI ảnh cùa form nhập dữ liệu do cố nhiều đường thẳng
• Tư tường cùa phép chiếu trong sáng, dễ cài đặt
• Tuy phép chiếu đòi hòi tính toán phức tạp nhưng ta có thể tăng tốc được bằng cách
sử dụng đường thẳng theo phương pháp Bresenham và kỹ thuật sử đụng bảng lookup table
N h u ọ c điểm :
• Cho kết quả khôns chính xác lãm đối với các ảnh có kích thước nhỏ do ta sử dụng các đường chiếu lả các đưòng thẳng trong hê toa độ nguyên nên các đường thẳng này chỉ là xấp xì, ảnh càng lớn thì các đường thăng này càng chính xác => càng cho kết quả chính xác hơn
Trang 25Trung tám Nghiên cứu và Phát triển Công nghệ Phần mềm, Trường Đại học Công nghệ, ĐHQGHN
• Các hàm ước lượng về biểu đồ của phép chiếu chưa thề hiện được hết bản chất của
• phép chiếu Mỗi công thức chi mô tả được một khía cạch cụ thề
3.3 Nhận dạng vùng nhập dữ liệu trong form tài liệu
Sau các bước xử lý lọc nhiễu và xác,định góc quay của ảnh, công việc tiếp theo cân tiến hành đỏ là xác định các vùng vãn bản cần xử lý, đây cũng chính là đầu vào cho phần nhân dạng dừ liệu
Chú ý rằng vãn bản chúng tôi xử lý ờ đây là văn bàn dạng form nhập dữ liêu dưa trên mẫu form đã có sẵn Sau khi form được nhập dữ liệu và quét lại vào máy tính, dựa trên mầr
có sẵn và đổi chiếu với ảnh scan, ta tim các vùng trên ảnh scan được nhập dữ liệu và xừ lý nhận dạng trên các vùng này Dữ liệu sau khi nhận dạng sẽ được lưu lại tưcmg ứng VỚI các trường dữ liệu trong form mẫu Khi xử ]ý văn bản, ta không cần nhận dạng toàn bộ vãn ban
mà chi giới hạn nhận dạng trên các vùng mà thông tin được nhập vào
Xác định các vùng cẩn nhân dạng luôn luôn là công viêc quan trọng nhất trong nhândạng form nhập dữ liệu Một số phương pháp thướng dùng hiện nay đe xác định các vừng nay
đã được nêu ờ phần tổng quan nhu : dùng hệ tọa độ tuyệt đối và hệ tọa độ tưong đối để phân vùng
Trong phương pháp thứ nhất, do trong quá ừình scan, ảnh có thể bị biến dạng làm cho VỊ trí các vùng thay đổi Thêm vào đó, sai số trong việc xác định góc quay và đô dich của ảnh cùng ảnh hường đến VỊ trí tuyệt đối của các vùng Theo phương pháp này, các vùng cànọ xa goc tọa độ thi sai số vẻ vị trí càng lớn Tuy nhiên phương pháp nảy đơn giải] va dễ cái đãlPhương pháp thứ hai là pbưong pháp sừ dụng tọa độ tương đối tiêu biểu lả phươĩìữ pháp
xác đinh c á c b lo ck , sau đó dựa vào các block này đê tính v ị trí tư o n s đổi cùa các vùna cẩn
tách [10], Trong phương pháp này, các khối trong ảnh sẽ đươc đổi chiếu VỚI các khối troni: form mẫu Sau đó vùng nhập dữ liệu sẽ đuợc xác đinh thòng qua toa độ cục bộ Phưoma pháp này tỏ ra rất hiêu quả đối với sai sô về vị trí do văn bản bị dịch hoăc bị nghiẻno troníì mót giới hạn cho phép Mặc đù vậy, việc xác định các block trong ánh khôns phải là cônụ việc đon giàn, hon thế nừa việc đôi chiêu môt số lượng lỏn block với form mẫu đòi hòi các phép tính phức tap Các block mang thông tin chỉ chiếm mỏt ti lê nhò và việc đối chiếu đún° phân lớn các block không hẻ có ý nghĩa trong viêc nhận d ạn s vê sau, iro n s khi đó nếu đối chiếu saicác block chứa vùng nhâp dữ liêu sẽ làm sai hoàn toàn kết quả nhận dạng
Dựa trên đặc điẻm cùa kiêu form nháp dữ liệu là dừ ]]ẻu đươc nhâp vào các ô trên form ( nghĩa lả nẳm trong giới han giừa các đường thẳng) C h ú n s tôi đưa ra thuật toán xác đinh vunu nhập dữ liệu thông qua việc xác đinh các đường thẳng
Trang 26Trung tăm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trường Đại học Công nghệ ĐHQGHN
Trong phương pháp này, trước tiên chủng tôi nhận dạng tất cả các đường thẳng cỏ trono ảnfa Sau đó các đường thẳng này sẽ được đối chiếu với các đường thẳng có trong form mẫu
để xác định thứ tự chính xác và khử nhiễu Cuổi cùng sau khi nhận dạng được các đươna thẳng, vùng nhập dữ liệu sẽ được tính thông qua tọa độ gián tiếp tới các đườns thẳng đó Và bời vì các tọa độ gián tiếp này là các tọa độ địa phương nên độ chính xác tronq viêc xác đinh các vùng là rất cao
3.3.1 Mô tả thuật toán xác định vùng nhận dạng dựa trên xác định các đường thẳng
Trong ảnh của văn bản cần xử lý, các đường thẳng thường không phải là các đươns thẳng lý tường mả chỉ là một tập hợp các điểm ảnh có thể xấp xì bởi môt đưòns thẳns Trona
bài toán này, do việc tính toán VỊ trí các vùng nhận dan2 sử dụng hệ toa đỏ tuons đối theo
chiều thẳng đứ ng v à th eo ch iều ngang nên trong v iê c xác đinh đư ờ ng thăng k h ô n s cần xem
xét đến các đường thẳng theo các hướna khác
Theo già thiết ở trên chủng tôi dưa ra thuật toán xác định đường thằng dưa vào số 1ươn2 các điểm ảnh đen kề nhau liên tiếp theo chiều thẳng đứng và theo chiều ngang ( còn goi lá các black run) Một đường thẳng bao gồm một tập các black run liền kề nhau Ngưỡng nhân dang cũng được áp dụng để loại bô các black run quá ngẳn ( các black run thuôc về đường thẳns hay thuộc về chữ hoặc các đổi tượng đồ hoa khác) Sau khi duyệt toàn bô ảnh đổ loc ra các black run đủ dài, các black run này sẽ đươc nhóm lai đê tao thành các đường thẳna
33.1.1 Thuật toán xác định đuòng thăng
Thuật toán được thực hiên qua bổn bước
• Bu ứ c 1 D uyệt toàn bô ảnh loai bó các black run ngăn, chì giữ lai các black run đi
dài ( lớn h ơ n n g ư õ n g )
• B uóc 2 : Hợp các black non gần nhau lại để tạo thành đườno thẳna
• B uóc 3 Sau khi họp các black run lai thành đưcmo thẳn2; thưc hiên lai btrcrc lcx VỚI ngưỡ ng nhận dang lớn hơn đê giữ lại các đườna th ẳn e đu dài
• Bu óc 4 Lọc các đuờns thăng còn lai dựa theo tỉ lệ 2iừa dó rộníi va đó cao cứ< đường Các đưòn2 thẳns đạt tiêu chân là các đường thăng có ti lê dô rông đô cao
> 10 hoặc độ cao/độ rông > 10 ( bời vi các đường thang cùa ta có đặc điếm ỉa dái
vá hẹp) Bước này sẽ loc đươc chừ hoăc hinh ảnh có kích cỡ lớn trong văn ban
Kết quả của việc lọc các đường thẳnư :
Trang 27Trung tôm Nghiên cứu và Phát triển Công nghệ Phần mềm, Trường Đại học Công nghệ ĐHQGHN
(f) Các đường Ihăng xác định được trên anh
Trong việc lọc các đường thẳng, nếu lẩy ngưỡng nhân đang quá lớn thì các đườns thẳns thu được sẽ k h ô n g đầy đủ, ngươc lai nêu lây ngưỡng quá nhò thì sẽ còn lại rất nhiều nhiễu do chừ và các đối tư ợ n g đồ họa Khi xử lý VỚI những ảnh chứa các đường th ẩn s có đô dày > 2
pixel ta có thể lẩy nguÕTig tu ơ n a đối lớn mà không làm mảt th ô n g tin tronơ Vỉêc nhản d ana
Trang 28Trung tâm Nghiên cứu và Phớt triển Công nghệ Phấn mềm Truờĩig Đợi học Công nghệ ĐHQGHN
đường Tuy nhiên, bởi vì chúng ta phải xử lý với cả những ảnh scan có chất luợns kém nên
càn tim ra giải pháp để khắc phục việc mất thông tin.
3.3.1.1 Biện pháp khắc phục việc xác định các đirÒTig thẳng mờ hoặc đứt đoạn
Theo trên, ta đã coi đường thẳng như một tập các điểm đen kề nhau Để giảm bót việc mẩt thông tin trong những trường hợp đừờng thẳng bị đứt đoan hoăc quá mờ, ta có thể xem xét lại đường thẳng như là một tập các điểm đen cỏ thề rời rạc, tuy nhiên phải thòa mãn điều kiện : mật độ điểm đen trên một đường phải lớn hơn một ngưỡng alpha xác đinh ( trons bài toán này chúng tôi lấy lả 0.7)
Kết quả của việc xác định đường thẳng có tính đến mật độ :
và đồ họa ta mới áp dung biên pháp này trên các đường thẳng xác định đươc để giảm bói m 'vc
độ mất mát ibôns tin
Một vấn đề nữa trong viêc tính đên mật đô của đ u ờ n g thẳng đo là v iệ c dồn cục khòiiQ
đồng đều về mật độ dẫn đến viẽc xác đinh nhầm đô dài đường thẩn« Như hinh dưới, số đường thẳng cần xác định là hai đườno mặc dù mât đô điêm 2 iữa điêm đầu và điểm cuối của đường thẳng xác đinh được vẫn lớn hon ngirõns
b)
Hình 10: Xác đĩnh nhàm đường (hàng <Jo phân bó khôiif> (iẽì! ìrài (hrònp
Trang 29Trung rôm Nghiên cửit và Phát triển Công nghệ Phẩn mềm, Trường Đại học Công nghệ ĐHQGHN
Để giải quyết vấn đề này, ta chỉ xét mật độ trên các đoạn ngắn, sau đó ghép các đoan ngẳn đó lại với nhau để tạo thành đường Như vậy, theo cách này thì: một đường đươc COI là đường thẳng nếu nó là tập hợp các điểm đen theo chiều thằng đứng hay theo chiều ngano với một độ dài đủ lớn, các điểm đen này có thể không cần chạm nhau tuy nhiên phải đảm bảo mât
độ của đường và của từng phẩn cục bộ trên đường lớn hon một ngưỡng xác định
I
a) I -^ ^ ^ -^ - ị , , 4 - I I -1 -4 -H
b) _
Hình ] I : Chia đường rhâng thành các đoạn ngăn rói tính mật độ trên các đoạn nà)
3.3.2 Đổi chiếu các đường thẳng xác định được với Form mẫu.
Trong bước xác định đưòng ihẳns,, ta đã CO gắno đê giảm sư m ất thông tin ít nhất có thể được cũng như giảm tối đa nhiễu Tuv nhiên khôníỉ bò qua giả thiêt có môt sô đướns tuơniỉ
ứng vớ i form m ẫu m à ta khôn o xác đmh đư ơc hoăc xac đinh thừa m ôt s ô đư ờnc do anh
hường của nhiễu Nhiệm vụ của bưcrc đổ] chiếu đường thẳng là tim đúng VỊ trí và thứ tu cua các đường xác định được tương úng VỚI các đườno trona form m âu, để trên cơ sờ đó tính loa
độ tương đối
3 3 2 1 P huong pháp đối chiếu các đuòng thẳng
Việc đối chiếu các đường thãno được thưc hiên độc ỉâp iheo chiêu thẳno đímg và theo chiều ngang
Xét trườno hop đối chiếu các đường theo chiêu n san a , già sử trona form mầu ta có N đường thẳng, ta tim đươc N ’ đường thăng trong ảnh scan N hư vảv, ta cân xác đinh các o ìp tuơng ứng nhiều nhất có thẻ đươc íỉiữa N đưòne trons form mau và N ’ đườno trona ảnh scan
Ta cũng biết rang tôn tại một ti lê ciữa form 2ÔC và ảnh scan, các cãp đirờne Ui ăn 2 tươno ím£ được xác đinh dưa trên ti lê này
Do tỉ ]ệ giừa hai ảnh lá khôim biết trước ( ti lè của kích thước ảnh khỏnu phải la ii It
ch ứih xác và chi c ó thê sừ diuig như m ột tham sô đê ước lư ơ n g ), đê xác đinh n lê này tc L'ir
đmh một cặp đường ứiãng trong form mẫu tươns ứng VÓI môt cãp đưong thănc trẽn anh SCP.V
Từ đâv ta xác đinh đươc m ột tì lê ước lưong, tì lê này đươc dành giá dưa trên số đư òne thăn còn lại từ hai tập thỏa mãn ti lê ước lương này Ti lẻ nao cho sô cãp thỏa mãn nhiêu nhât là t' ]ệ siũ a hai ảnh
Trang 30Trung tâm Nghiên cứu và Phàt triển Công nghệ Phân mềm, Trường Đại học Công nghệ ĐHQGHN
Cách xác định tỉ lệ như trên dựa trên giả thiết là có ít nhiễu và không bị mất nhiểu thôno
tin trên ảnh scan Các nhiều nếu có cũng phân bổ một cách ngẫu nhiên và có kích thước nhò
so với các đường thẳng xác định đúng Để chính xác hóa hơn nữa trong viêc ghép căp các đường thẳng, chúng tôi đua ra thêm một tham sổ ước lượng về khoảng cách và kích thước
3 3 2 2 Ước luọttg về khoảng cách và kích thirớc :
K hoảng cách và kích thước của m ột đường được ước lượng dựa trên tẩt cà các đườno thẳng trong một tập Bởi vi tồn tại một tỉ lệ giữa hai tập đường thẳng nên ta phải đưa ra một tham số ước luợng độc lập với tỉ lệ của hai tập để so sánh
a)Ư<ýc lượng về độ dàì :
Tổng độ dài của các đường trong tâp mẫu là Ln, của các đường trong tập cẩn so sánh là
Công thức 4: công thức ước lu w ig độ dà ì í iron g đổ ì cùa một đưòng Ị vong tập đích ( l i : là độ dài tuyệt đổi cua đưòng thừ ì í rong tập mân: / : lờ độ dài tuyệí đoi cua đường íhứJ trong lập đích)
Hai đường thẳng tương ứng nhau sẽ có tham số ước lương vê độ dài xấp xi nhau
b)Ưó'c lirọng về khoảng cách:
Ta xác đinh tọa độ tâm của tâp các đướim thãns mâu và tâp các đưont: thãn2 đích theo chiều thăng đúng :
L n \
Khi đó ta có các công thức sau để ước lương độ dài :
/ = ]
Công thức 3: ước Ỉưựỉig độ dài tương đối cùa một đường tvong tập mẫu
Trang 31Công í hức 6: tọa độ tâm cua íập các đường trong tập đích
Công thức để ước lưcmo khoảng cách của một đường thẳng tới tâm :
D ,= h , - C yCông thức 7: khoáng cách tó 7 í ám cua điròvg thăng i trong tập goc
Công thức 8: khoang cách tới tám cua cỉưòng thăng j trong lập đich ( h ỉ : là độ cao cua đưcmg thử ì trong tập mau; h J : là độ cao của đường thứJ trong ỉập đích)
Hai đường thẳng tương ứna nhau sẽ có tỉ lê ứiam số ước lưono về khoảno cách tới tâm bang với tì lê giữa hai ảnh
Ket luận VỚI giả thiêt viêc xác dmh các đườnc thăns có ít nhiêu, nhiêu có kích thước nhò và các đường thăng không bị mât thông tin dưa vào các tham sô đánh 2iá về kích thước
và kh oản g cá ch , ta biết đươc v iêc g h ép căp các đường thăng trên hai tâp ch o kết quả có chính
xác hay không
3.3.3.Thuật toán tìm đường tương ứng giữa ảnh mầu và ảnh scan
Ta nhân thẩy viêc xác đinh các đường tưong ímg theo cách trên vẫn tồn tai nhũng khó khăn : Già sừ viêc tiền xừ lý tôt cộng với ảnh scan chát lương tôt, thi sô đườno trorm anh scan
Trung tảm Nghiên cứu và Phát triển Công nghệ Phân mềm, Trường Đại học Công nghệ ĐHQGHN
Trang 32Trung tâm Nghiên cửu vờ Phát triển Công nghệ Phân mềm, Trường Đại học Công nghệ ĐHQGHN
không phải để xác định vùng cũng vẫn có tồn tại, như vậy tổng độ dài các đưòma trons ảnh
m ill và ảnh scan sẽ không tương ứng dẫn đến sự xác đựih đường tương ứng nhau hoàn toàn sai lệch Nếu ảnh scan chất lượng không tốt, tiền xử lý ảnh không lọc hết nhiễu hay có thề hi mất thông tin, như vậy các đoạn xác định được có thể chỉ là một phần của đườns thẳna co trong ảnh nên độ dài tuyệt đối của nó sẽ thay đổi dẫn đến uớc lượng độ dài tư ona đối khôn.: còn chính xác
Sau đây ta sẽ đưa ra một thuât đê xác đinh đường tương ứng trong ảnh scan so vó'1 ãnii
m ẫu dựa vào đường thẳng và VỊ trí tương đối giữa các đường thẳng K hông mất tính tổne q u í!
ta xét các đường theo chiều ngang trong ảnh, tức chì dùng đến các thông sổ y V,
trong ảnh mẫu v à ^ ]', y-,', y n' từ ảnh scar) (tọa độ của đườno thẳng nsano) Việc làm nà'
khấc phục được những khó khăn khi sừ dụng đến ước lượng đô dài để xác đinh đưòns
Ý tư ờn g thuật toán dựa trên tổ n a độ lệc h của cá c đ ư ờ n s để tim ra tập các đ ư ò n g tươni:
ứng
Mô tả thuật toán
] Duyệt tùng đưòns trong ảnh scan
Giả sử đường đó là đườns tương ứng VỚI đường y J như vây ta sẽ có đô lẻch ban đẩu
giữa hai đường này
Ta sẽ đồng nhất toa đô một cách tam thòi giữa hai hê trục tọa độ đích tất cả các đưưnL- trong ành scan đi m ột đoan bằng đô lêch ban đâu, ta tìm được các đường tươnạ ửns VÓI
đườns y 2, , y,„ còn lại dưa vào khoảng cách giữa các đường trong ảnh mẫu, và đướna hào
có tọa độ xấp xì gần nhất túc đô lệch cùa nó VỚI đường phía ảnh m ẫu là nhò nhất là đuờp.t- tương ứng
Tính tổng lệch bang tons các đô lệch siữa các cặp đường tương ứng giữa ảnh mẫu và anl scan
2 Sau bước 1 ta thu được một tâp các tông lệch, mm của các tông lêch này sẽ xác điiil
tâp các đường thẳno đó là phù hop, ỉà tâp tương ứng ảnh mẫu cần tim
Như vây ta tim được tập các dường tưong úng VỚI các đường trong anh mâu dim í: -ỵ
phân vùng
Môt cách hinh ứiức, gia sử ta có tập s các số la tung dô cùa các đường ngano cua anh mẫu { V , y2 y ị và tâp T { V]', , v,;'ỉ là tung đô các đuờng ngans nhản dan.L;đươc trong ành scan Các táp đươc sãp xẻp theo ch lêu tăng dân
VỚI / chay từ ] tới n:
Trang 33Trung tâm Nghiên cửu và Phát triển Công nghệ Phần mềm, Trường Đại học Công nghệ ĐHQGMN
Giả sử đường y ' là đường tương ứng V Ớ I y x Công thức tính đô lêch ban đẩu gr&a y 1 và y ,': Gọi H là tập các đường trong ảnh scan sau khi dich đi môt khoàno băna đô
lệch ban đầu Tập H : , t7 í„ :
1\ = y i ' + a \,
/ 2 = y 2' + ữ 1(
K = 1,
y,' là đường tương ứng với >’ I nên t ị tưcmg ứng với y )
Với mỗi y k (k : 2 - > m) ta tìm được t j tương úng bằng cách : nếu đô lệch cùa ) ;ì, \ ỚI
đường tj nào có giá tri nhỏ nhất thi t ị chính là đường tưcmg ím s VỚI y'k Côns thưc tinh
độ lệnh của đường y ỵ v à t j ià s kl = m in Ịy* - fj ị , j = 7 + 1 , /71
Như vậy độ lệch giữa y ] và ỉ i là : £), = 0
Tổng lệch thu được khi y ' là đường tương ứng VỚI y 1 là :
W> = Ỳ £h = ẳ m inỉ>v ~ ílị j = i + ^ n }
Với / chạy từ 1 tới n, ta thu đươc tâp các W' Trong sô này W' nào có má In nho nhất SC
xác đmh tâp đường thòa mãn yêu câu (tập các đường xác đinh đuơc vùng dừ liêu)
Thuật toán đon giản; tính toán không phức tap Qua thử nghiêm , chúns tôi thấy, tnứi chứih xác của thuật toán cao ncay trona trường hcrp ảnh scan chất lương khôns tốt, có thế vác định thừa các đư ò n g hay các đường có thê VỊ đứt thành các đoạn nhỏ Ch) cân tronu táp hop các đường thẳng xác đinh đuợc chửa đây đủ tâp các đường thăng tương im 2 VỚI Dons an); mẫu thì ửiuật toán vẫn cho kết quà tốt Tuy nhiên, ta có thê thấy đư ợ c; nếu ánh scan bi n.aí nhiều đường thì kết quả có thẻ không chính xác tuy nhiên việc xác đinh các đườns than/1, irons ảnh scan th ô n s th ư ò n s chì cho thừa các đưòng chứ k h ô n s bi mất đườnẹ tuy nhiên cùrir lchông tránh khòi trường hop bị mál đưong
3.3.4 Tách vùng nhập dữ liệu trên ảnh scan
Sau khi xác đinh các đưòng thăng trên anh scan va đói chiêu các đươny thănu nay \ ó ' các đường thàng trên form m ẫu th ô n s qua các thông tin đươc lưu trong file template, ta né:
hành tách các v ìin g cẩn nhân danc dưa trên các đư ờng thăng đư ơc đôi chiêu chinh xác
Xét thông tin về môt vùno cẩn nhân dana trên form mầu, vung này la mót vunư hình cho
nhảt đư ợ c xác đinh bò 1 đinh trên bên trái và đình dưới bẽn phải VỚI toa dô tuyết dôi
Trang 34Trung tâm Nghiên cứu và Phát triển Công nghệ Phần mếm Trường Đại học Công nghệ ĐHQGHN
(Xm in,Ym in), (Xm ax,Ym ax) Mục đích của ta là tách ra vùng tương ứng VÓI vùng này trên ảrđi scan
Để đàm bảo cho chất lượng nhận dạng của module nhận dạng chữ viết, ảnh thường đươc
scan với độ phân giải 150DPI đến 300DPI Những ảnh này thường có kích thước lớn, do đó sai số về vị trí khi tách vùng trên ảnh scan tương ứng vói vùng nhập liệu trên ành mẫu đua vào tọa độ tuyệt đối cũng lớn Mặt khác, V Ớ I nhận xét từ trước là khoảng cách giừa các vủr.L’
nhập thông tin đến các đường thẳng là nhỏ, để giảm bớt sai sổ ta sẽ tách vùna dưa trên VI H tương đối của các vùng nhập thông tm đối VỚI các đường thẳng
Giả sử như khi nhận dạng các đường thẳng, một số đường thẳng bị mất do ảnh quá mơ Khi đó vị trí của vùng nhập thông tin sẽ được xác định thông qua đường thẳng 2ần nó nhất
mà ta xác đinh được
Các bước để thực hiện tách vùng :
• Tìm các đường th ẳ n s gần vùng cần tách nhất theo bốn hướng trên, dưới, trá ụ pnai
mà các đường này đã được đổi chiếu và ta đã nhận danu đươc đườiiQ Ilians tirornẹ ứng VỚI nó trên ảnh scan
• Xác định vị trí tương đổi của vùng đối VỚI các đường thẳng này
• Dựa vào thông tin về vùng cần tách, VỊ trí tương đối của nó đối VỚI cac đmme thẳng lân cận và hệ sổ thay đổi kích thước giữa 'nai ảnh, ta tính ra đươc vun;- ;ầ: tách trên ảnh scan
Bán cáo tỏng hợp để rời "Nhận dạng cóc form tời hâu
Trang 35Trung tâm Nghiên cứu và Phát triền Công nghệ Phấn mến7 Trường Đại học Cóng nghệ ĐHQGHK
s •
I iỳ
Hình 12: (a) A nh máu; (b) Định nghĩa các vùng nhập dữ liệu trên anh mân;
(c) Anh scan sau khi tiền x ử lý; (d) Kef quá tách vùng trên ánh scan
Từ hình vẽ trên ta thấy, do các vùng cần tách nằm sát các đường thẳng nên các vủnu này được tách rất chính xác
3.4 ứng dụng quản trị form tài liệu vào bài toán nhận dạng f o r m
Trong hệ thống nhâp liệu, kết qua cuối cùng cân đạt được đó là lấy được dũ' hêu rnôi cách chính xác từ các form nhập liệu Việc quan trọng nhât là xác định chính xác tất ca các vừng nhập liệu trên form vả nhận dạng dữ liệu đó Nhưng đê thực hiên được nhữn-2 vấp đé này một cách hiệu quả thì quản trị form là không thể thiếu Q uản trị foini sẽ trợ giúp cho ,]uá trình ph~ân vùng, quá trình nhận dạng, quá xử lý dừ liệu, oiúp cho các quá trình nay nhanh hơn
và chính xác hơn Các form có thề được thiết kế mới hoặc được học dựa trên môi form mẫu sau đó các thông tin đinh n ah ĩa form này được lưu lại đê tra giúp cho quá trinh nhản CH!!'- (như đã nêu ờ mục 3.3.2)
Quàn trị form sẽ quản lý tất cả các thông tin vê các loai form văn bản củng VÓI cac VP’V_;
dữ liệu trong từng form:
• Các thôns tin về đặc tả form văn bản: tên form, sô các vùn2 tronG form
Trang 36Trung tâm Nghiên cứii và phát triển Công nghệ Phấn mém Trường Đai học Công nghệ DHQGHN
• Các thông tin về vùng nhập liệu trong form, vị trí của chúng trono form số lươno ô nhập liệu, kiểu dữ liệu
Ngoài ra quản trị form c ò n ch o p h ép tao độn g cơ sỡ dữ liệu nhằm tích h o p dừ liêu lấv
được sau quá ừình nhận dạng
Hệ thống nhập liệu tự động được xây dựns VỚI nhũng form có cẩu trúc Form có cấu trúc là những form có đặc điêm: dữ liệu được nhập trona các ô t r o n g vùng xác đinh cua form, được mô tả như sau:
(Anh mang tinh minh họa)
CỌNG HÒA XÃ HOI CHỦ NƠHĨÁ VIỆT NAM
Đ úc láp - Tu do - Hanh phúc
P H IẾ U ĨÌĂ N G K i THI T Ư C H Ọ N
Ivlẵ sinh viên
Tên sinh v iê n :
N sảy sin h : .
Các môn tin tự chon
Món thi Môn KTCT
VÙMG rlHẬP LJ-U
Trang 37chúng ta có thê kiêm chứng được quả trình phân vùng có xác đinh chính xác các YÌincr hav không.
Đôi VỚI dữ liệu trong mỗi vùng, chúng ta tbườns biết trước kiểu dữ liệu các thôn° tin
vê dừ liệu trong các ô cân nhâp thưòng là thông tin cùng một kiểu dữ liệu là chữ cái hoăc chữ
số, hoặc các thông tin có thể theo một đinh dạng cho trước Dữ liệu trong các vùng cẩn nhâp xác định và hoàn toàn có thề đặc tả Độ dài dữ liệu nhâp vào các vùng cũng thườno noẳrụ độ dài cùa dữ liệu nhập vào các vùng thường dưới 30, và tùy theo các thông tin về dừ liệu điền vào chúng ta sẽ có thê ước lượng được độ dài của thông tin dữ liệu Thông tin độ dài dữ liêu xác đmh được sẽ giúp cho chúng ta có thể chia vùng nhập liệu thành các ô con Dừ liệu nhâp vào sẽ nhập từng kỉ tự trona các ô Việc chia thành các ô con sẽ aiúp cho có thể nhanh chóns bắt đươc tùng kí tu nhập đê tiến hành nhận dạng
Như ta đã nói ờ phân trên, việc lưu các thông tin đăc tả về form và các vùns trono form
là vô cùng cần thiết cho các quá trình khác cho nên các thông tin này cân đươc lưu lai trong một cơ sở dữ liệu Cỏ nhiều cách để thực hiên viêc này, cách đon giản nhất là ta nhâp tarc tiếp các thông tin này vào cơ sờ dữ liệu Tuy nhiên ta thảy răng việc nhâp thôníi tin này vào một cách thủ công là không khả thi Vi thế việc thiết kê một form mẫu và tu đông lun các thôno tin đặc tả rất quan trọng và cẩn thiết trons hê thống này Vây vân đê đặt ra ờ đây là hệ thống quản trị form phải đáp ứng đươc chức n ăn s thiết kê form và lưu lại các thông tin cán thiết như th ô n g tin về form, các vùng,
N°oài ra quản trị form còn tích họp cơ sở dữ liệu tức la dữ liệu sau khi nhân dang sẽ đuợc nhập tự độno vào cơ sở dừ liệu tạo ra trong quản trị form, việc làm nay là cản thiết vi thôno qua quản trị form đề biết đươc dữ liệu sẽ được nhập vào trường nào tương úng Như vậy quản trị form cần đáp úng đươc những yêu câu sau:
1 Có khả năng th iết kế form
- Thiết kế form mới
Trang tôm Nghiên cứiỉ và Phóỉ tnên C-ôrig nghệ Phấn mầm Trường Đọi học Công nghệ ĐHOGHN
Trang 38Tning tâm Nghiên cứu và Phát triển Công nghệ Phấn mềm, Trường Đại học Công nghê ĐHQGHS'
2 Lưu thông tin đặc tả form và các vùng nhập liệu vào cơ sở dữ liêu
Việc lưu thông tin đặc tả form và các vùng nhập liệu rất cần thiết trono việc nhảp liêu cu
thể là quá trình phân v ù n g , tách kí tự và nhận dạng.
Lưu thông tin đặc tả form nhu: tên form, số các vùng nhập liệu trono form
Lưu thông tin các vùng nhâp liệu: số thử tư của vùng trons form, số các ô tron" VLins nhập liệu, kiểu dừ liệu vùng nhập liệu,
3 Tạo động cơ sở dữ liệu phuc vụ cho tích hop cơ sờ dữ liệu sau này
V ới mỗi kiểu form văn bản ta tạo m ột bảng đề lưu dữ liệu nhân d an s đirợc từ các vùna nhập liệu
Phần xây dưng mô đun quản tri form tài liệu đươc trinh bày trong mục 3 5 2
3.5 X ây dự n g c á c mô đun phần m ềm th ử nghiệm
3.5.1 Mô đun phần mềm tách vùng trên form
D ựa trên phươ ng pháp khừ nạhiêns, phương pháp nhân dạng các đườna thăn 2 được trinh bày trong mục 3.2 và 3.3 nhóm nghiên cứu đã xâv dung mô đun phần mêm thử nghiêm tbưc hiện chức năng tách các vùn ° nhập dữ liệu trên các form tài liệu Chương trinh đươc cài đặt trên noôn ngữ visual C++ 6, vả được thử nohiêm trên Máy tính Pentium IV ] 8 GHz, bô nhớ RAM 256 MB sử dụng hệ điểu hành Windows 2000 Server và W indows XP SP!
Hình 14 thể hiện 2iao diên cùa mô đun phẩn mẻm này
Bào cáo tông họp đỗ Iờ\ ,\hận dong cóc form fell ìtsu
Trang 39Trung tâm Nghiên cửu và Phát triển Công nghệ Phân mềm Trường Đai hoc Cóng nghệ ĐHQGHN
(6): Chức năng phóns to ảnh chức năng này cho phép chúng la có thê phong lo anh inérMức phóng to lớn nhất là 16 lẩn so với kích thước thưc của anh
Báo cáo tồng họp để rà ị "Nhận dang các form tài liệt/
Trang 40(7): Chức năng thu nhỏ ảnh; chức năng này cho phép chúng ta có thể thu nho ảnh hiẻn tai Mức thu nhỏ tôi thiểu là 0.25 lần so với kích thước thực của ảnh
($)• Chưc nang hi6n thi kích thươc thiic! chưc nãng này cho phép hiện thị ảnh dưó'1 kich thước thực của nó
(9): Chức năng tạo Template File: Chức năng này cho phép chúng ta có thể tạo ra môt so thông tin trong ảnh mẫu phục vụ cho chức năng phân vùng Các thôns tin có thể được lạo như: thông tin về các đường thẳng ngang, dọc, thôns tin về kích thước ành; thôno tin vé ngưỡng của các đường thẳng ngane và dọc
(10): Tab: Cho phép chúng ta chuyển dôi siữa các ảnh một cách dễ dàno
Với mục đích đánh giá đô hiệu quả của phương pháp nhận dạn2, chúng tôi dã sứ dunũ nhiêu tài liệu dạng ảnh trên các kiêu form khác nhau như phiếu đăng kv phiếu điều tra hóa
đơn, phiếu thanh toán, b ả n g đ iể m đê c ó thê đảm bảo được sư đa d a n s v ề kiểu form VC
chất lượng ảnh, vê kích cỡ vả nữôn n à i T ổ n ” cộns 60 ảnh được sử dim”
Trên các ảnh kiêu form nhập dữ liệu này bao gồm nhiêu đối tưonc khác nhau như textline, bảng, check box, picture Tất cả các ảnh này đêu có kích thước như khỏ A4 va dime scan với nhiều độ phần giả) khác nhau, từ 100 đến 300 DPI ( tươns Ún ọ VỚI kích ihuớc 827x1170 đến 2481x3510 pixel cho mỗi một ảnh)
Vó'1 môi một ảnh, chúng tôi thưc hiện kiêm thư với 300 2ÓC nahiẻriQ khác nhau n;ỗ góc nghiêng lệch nhau 0.1°, khoảng góc nshiẽna lón nhất mà chúng tô) thirc htcn la ±1 5' r:!3' cũng là dải góc lệch có thê xảv ra đối với các máv scan dans nạp giây tư đôn ũ
T h ụ c nghiệm 1: X á c định các đuÒTig t h ă n g
VỚI tập ảnh thực nahiệm chúĩm tôi chia ra lảm 2 loai : Loai ] gôm các anh có tâp C.K đưòmg thẳng với độ dày lả ] pixel và Loai 2 gôm các ảnh có tâp các đường thăng VỚI đỏ d,i_
> 2 pixel Thực hiện kiềm thù vê độ chính xác cho Yiêc xác định đây du các đưỡnc
chứih ở trên ảnh Scan so VỚI ảnh mâu
Kết quả thưc n sh iêm thu được cho thấy, đê đat đươc đô chính xác cao chung la nên • dung các ảnh có đô dàv các đưonọ thăniỉ tôi thiêu là 2 pixel
Khi kiểm th ừ với tâp các đuòim ì pixel VỚI các góc nghiêng lơn thi sau khi xac d-i.iì được oóc nahiêng và xoay lại ảnh, các đườnụ thăn2 này co dang răng cưa va b) dứt đoan >!••
đó chì có tliể xác định đươc các đoan thẳng rất ngẳn dề bị khư đi, dần ten viêc mát inôi '
đườno thẳnạ chính T rono khi đó với tâp các đường thăng có đô dày la 2 pixel thi sau k!:i
xoay lại các đ irò n s tliẳna ít bi đứt đoan, khi đo sẽ tao ra đươc các đoan thăng dãi va có thỏ nhân dạrm khá đầy đù các đưòng thăng chính
Trung tâm Nghiên cừu và Phát triền Cõng nghệ Phần mém Trương Đũi học Công nghệ ĐHQGH\'