1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phần mềm nhận dạng abbyy và việc ứng dụng abbyy vào hoạt động số hóa tài liệu tại trung tâm thông tin thư viện đại học quốc gia hà nội

71 22 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 71
Dung lượng 1,34 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để kịp thời phổ biến kinhnghiệm áp dụng phần mềm nhận dạng ABBYY cho các thư viện chưa có điều kiện tiếp cận với phần mềm này, tôi chọn đề tài: “Phần mềm nhận dạng ABBYY và việc ứng dụng

Trang 1

PHẦN MỞ ĐẦU

1 Tính cấp thiết của đề tài

Bước vào thế kỷ XXI, Công nghệ thông tin (CNTT) và viễn thông đãchiếm một vị trí cực kỳ quan trọng trong mọi lĩnh vực của đời sống, trở thànhthành tố cơ bản cho sự phát triển kinh tế xã hội của các quốc gia

Công nghệ thông tin đã và đang khẳng định vị thế của mình trong mọilĩnh vực của đời sống xã hội Cuộc cách mạng khoa học công nghệ đã và đangdiễn ra mạnh mẽ và thông tin, tri thức trở nên đặc biệt quan trọng trong sựphát triển kinh tế, xã hội Trong hoàn cảnh đó, hoạt động thư viện cũng đangdần đổi mình, phát triển theo chiều hướng ứng dụng các thành tựu của côngnghệ thông tin để trở thành các thư viện hiện đại

Thư viện muốn làm tốt vai trò của mình trong thời đại bùng nổ thông tincần phải có sự hỗ trợ của công nghệ, đặc biệt là công nghệ thông tin Cácphần mềm dùng trong hoạt động thư viện nhằm mục đích tự động hóa cáchoạt động của thư viện, giúp thư viện nâng cao khả năng và hiệu quả phục vụngười dùng tin, nâng cao chất lượng và giảm giá thành các sản phẩm, dịch vụthư viện

Hiện nay trên thế giới cũng như ở Việt Nam đang tồn tại khá nhiều phầnmềm được dùng trong hoạt động thông tin – thư viện như các hệ quản trị thưviện tích hợp (Library Integrated System, LIS), phần mềm quản trị nội dung

số (Content Management System, CMS), phầm mềm nhận dạng ký tự bằngquang học (Optical Character Recognition, OCR),…Về hệ quản trị thư việntích hợp, chúng ta có thể kể ra một số hệ khác nhau như ILIB của Công tyMáy tính truyền thông CMC, Libol của Công ty Công nghệ tin học Tinh Vân,COSLIB của Công ty Trường Thành, CDS/ISIS do UNESCO phát triển Vềphần mềm quản trị nội dung số chúng ta có Greenstone, DSpace, Zope… cácphần mềm này đã hỗ trợ cho các nhân viên thư viện rất nhiều trong việc tự

Trang 2

động hoá các thao tác trong dây truyền xử lý thông tin Ngoài ra, để xây dựngthư viện điện tử, các thư viện cũng đang tích cực số hóa các loại tài liệu, trong

đó phần mềm nhận dạng ký tự đóng một vai trò quan trọng

Hiện nay trên thế giới cũng như trong nước có nhiều phần mềm nhậndạng ký tự quang học (OCR) như VietDor, ABBYY, VnDocr… Mỗi phầnmềm đều có những tính năng ưu việt riêng, phù hợp với mỗi điều kiện thực tếcủa mỗi thư viện Hiện nay một số trung tâm thông tin thư viện đang sử dụngphần mềm nhận dạng ABBYY, đây là phần mềm đang được sử dụng rộng rãitrên toàn thế giới Với những tính năng ưu việt của phần mềm này, một số thưviện ở Việt Nam đã lựa chọn và sử dụng để áp dụng cho thư viện mình vàTrung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội là một trong nhữngđơn vị đang áp dụng phần mềm này rất thành công Để kịp thời phổ biến kinhnghiệm áp dụng phần mềm nhận dạng ABBYY cho các thư viện chưa có điều

kiện tiếp cận với phần mềm này, tôi chọn đề tài: “Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội” làm đề tài khóa luận tốt

nghiệp

2 Mục đích nghiên cứu

- Mục đích của khóa luận là nhằm nghiên cứu tổng quan về phần mềm nhận dạng ABBYY

- Tìm hiểu những tính năng cơ bản của phần mềm

- Đánh giá quá trình ứng dụng phần mềm này tới công tác số hóa tài liệu,qua đó có thể phần nào giúp các thư viện đang có ý định sử dụng phần mềm

ABBYY để nhận dạng tiếng Việt vào hoạt động số hóa tài liệu có thêm kinh nghiệm để triển khai phần mềm này

3 Đối tƣợng và phạm vi nghiên cứu.

Khóa luận tập trung vào nghiên cứu các tính năng và tiện ích của phầnmềm nhận dạng ABBYY cũng như quá trình ứng dụng của phần mềm

Trang 3

ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đạihọc Quốc gia Hà Nội.

Phạm vi nghiên cứu của khóa luận tập trung trong việc nghiên cứu tìmhiểu đánh giá chức năng nhận dạng chữ tiếng Việt của phần mềm ABBYYtrong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốcgia Hà Nội từ năm 2010 tới năm 2012

4 Phương pháp nghiên cứu

Trong quá trình thực hiện đề tài đã sử dụng các phương pháp:

* Phương pháp chung.

Dựa trên cơ sở nền tảng là chủ nghĩa duy vật biện chứng, trên hệ thốngcác quan điểm của chủ nghĩa Mác –Lê nin và Tư tưởng Hồ Chí Minh

* Phương pháp cụ thể:

+ Phương pháp quan sát, khảo sát thực tế

+ Phỏng vấn trực tiếp các cán bộ tại Thư viện

+ Tổng hợp, thống kê số liệu

+ Phân tích, tổng hợp các tài liệu có liên quan đến đề tài

+ Phương pháp nghiên cứu tài liệu

+ Phương pháp trao đổi, phỏng vấn chuyên gia

5 Đóng góp của khóa luận.

Khóa luận tuy mới chỉ dừng lại ở việc nghiên cứu tổng quan về phầnmềm nhận dạng ABBYY và những ứng dụng của phần mềm trong công tác sốhóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội, song

đề tài cũng đã giải quyết được những nhiệm vụ sau:

- Tìm hiểu phần mềm nhận dạng ABBYY

Trang 4

- Tìm hiểu các tính năng, tiện ích của phần mềm ABBYY trong việcnhận dạng chữ tiếng Việt tại Trung tâm Thông tin Thư viện Đại học Quốc gia HàNội.

- Đánh giá quá trình ứng dụng phần mềm trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội

- Đưa ra một số kiến nghị và giải pháp nhằm hoàn thiện việc ứng dụngABBYY tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội

Tác giả khóa luận hy vọng những vấn đề nêu trên có thể giúp ích ít nhiềucho các thư viện đang có ý định sử dụng phần mềm nhận dạng ABBYY vàohoạt động số hóa của thư viện mình

6 Cấu trúc của khóa luận

Khóa luận được tổ chức theo một bố cục chặt chẽ: Phần mở đầu, Phầnnội dung, Kết luận, Danh mục tài liệu tham khảo Trong đó phần nội dungđược chia thành ba chương như sau:

Chương 1: Số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội.

Chương 2: Phần mềm nhận dạng ABBYY trong công tác số hóa tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội.

Chương 3: Giải pháp nhằm nâng cao hiệu quả ứng dụng phần mềm

nhận dạng ABBYY tại Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà Nội.

Trang 5

CHƯƠNG 1

SỐ HÓA TÀI LIỆU TRONG HOẠT ĐỘNG

THÔNG TIN - THƯ VIỆN TẠI TRUNG TÂM THÔNG TIN - THƯ VIỆN

ĐẠI HỌC QUỐC GIA HÀ NỘI

1.1 Giới thiệu khái quát về Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà Nội

1.1.1 Quá trình hình thành và phát triển của Trung tâm.

Đại học Quốc gia Hà Nội (tên giao dịch tiếng Anh là Vietnam NationalUniversity, Hanoi; viết tắt là VNU) được thành lập theo Nghị định số 97/ CPngày 10 tháng 12 năm 1993 của Chính phủ trên cơ sở tổ chức, sắp xếp lại 3trường đại học lớn ở Hà Nội là Đại học Tổng hợp Hà Nội, Đại học Sư phạm

Hà Nội I và Đại học Sư phạm Ngoại ngữ Hà Nội Đại học Quốc gia Hà Nội(ĐHQGHN) chính thức bước vào hoạt động theo Quy chế do Thủ tướngChính phủ ban hành ngày 5 tháng 9 năm 1994

Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội được thành lậptheo nghị quyết số 66/TCCP ngày 14/2/1997 của Giám đốc Đại học Quốc Gia

Hà Nội trên cơ sở hợp nhất của 3 thư viện của các trường thành viên nói trên.Ngày 11/11/1999 Giám đốc Đại học Quốc Gia Hà Nội đã quyết địnhtách bộ phận Thư viện trường Đại học Sư phạm Hà Nội ra khỏi Trung tâm

Trang 6

Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội có tên giaodịch quốc tế bằng tiếng Anh là Library and Information Center (LIC, VNU)Vietnam Nationnal University Hanoi Trung tâm là đơn vị hạch toán tài chínhđộc lập có tài khoản và con dấu riêng, trực thuộc ban Giám đốc ĐHQGHN.Trụ sở chính của Trung tâm đặt tại 144 Xuân Thủy – Cầu Giấy – Hà Nội vàcác chi nhánh bao gồm:

1.1.2 Chức năng, nhiệm vụ

Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội (Trung tâm)

có chức năng thông tin và thư viện phục vụ các công tác đào tạo, nghiên cứukhoa học, triển khai ứng dụng khoa học công nghệ phục vụ đào tạo và quản lícủa ĐHQGHN, thực hiện sứ mạng mà Đảng và Nhà nước giao phó để gópphần thực hiện chính sách “Giáo dục là quốc sách hàng đầu” Trung tâm là cơ

sở đáp ứng nhu cầu cung cấp tin tri thức cho việc học tập, nghiên cứu khoa

Trang 7

học của đội ngũ giảng viên và sinh viện nói riêng, bồi dưỡng nhân tài choquốc gia nói chung, phục vụ các công tác đào tạo, nghiên cứu khoa học, triểnkhai ứng dụng và quản lý của ĐHQGHN.

Trung tâm có nhiệm vụ nghiên cứu thu thập, xử lý, thông báo và cungcấp thông tin, tư liệu về khoa học giáo dục, ngoại ngữ và công nghệ phục vụcán bộ và sinh viên ĐHQGHN cụ thể là tham mưu quyết định cho các cấplãnh đạo về phương hướng tổ chức và hoạt động thông tin, tư liệu nhằm phục

vụ cho hoạt động nghiên cứu khoa học, công tác nghiên cứu, giảng dạy và họctập của toàn thể cán bộ, giảng viên và sinh viên trong toàn ĐHQGHN

Bổ sung, trao đổi, phân tích, xử lý tài liệu và thông tin, tổ chức sắp xếp,lưu trữ, bảo quản kho tư liệu ĐHQGHN bao gồm tất cả các loại hình ấn phẩm

và vật mang tin để đáp ứng nhu cầu khai thác, sử dụng thông tin của bạn đọc.Xây dựng hệ thống tra cứu tìm tin thích hợp, thiết lập mạng lưới truynhập và tìm kiếm thông tin tự động hóa, tổ chức cho toàn thể cán bộ, giảngviên, sinh viên ĐHQGHN khai thác

Ngoài ra, Trung tâm còn là nơi thu nhận lưu chiểu những xuất bản phẩm

do ĐHQGHN xuất bản, các luận án tiến sĩ, luận văn thạc sĩ được bảo vệ tạiĐHQGHN hoặc các công trình nghiên cứu khoa học của cán bộ, giảng viên,sinh viên trong ĐHQGHN, những báo cáo tổng kết của các đề tài nghiên cứucấp ĐHQGHN và cấp nhà nước được nghiệm thu đánh giá do các đơn vịthuộc ĐHQGHN chủ trì hoặc do cán bộ ĐHQGHN thực hiện

Trung tâm còn xây dựng các cơ sở dữ liệu đặc thù của ĐHQGHN, xuấtbản các ấn phẩm thông tin tóm tắt thông tin chuyên đề phục vụ công tác quản

lý, nghiên cứu khoa học và đào tạo, nghiên cứu khoa học thông tin tư liệu

Trang 8

Phát triển quan hệ trao đổi, hợp tác trực tiếp với các trung tâm thông tin,thư viện, các tổ chức khoa học, các trường đại học trong và ngoài nước; thamgia tổ chức và điều hành Liên hiệp thư viện các trường đại học và Hiệp hộithông tin - thư viện Việt Nam, tham gia các hiệp hội thư viện quốc tế, làm đầumối nối mạng hệ thống Thông tin - Thư viện ĐHQGHN và ngành đại học vàomạng quốc gia, khu vực và thế giới.

Với chức năng, nhiệm vụ trên đã trở thành kim chỉ nam cho mọi hoạtđộng của TT TT- TV, ĐHQGHN, giúp Trung tâm có những bước đi đúnghướng và hiệu quả, phục vụ sự nghiệp giáo dục của ĐHQGHN

1.1.3 Cơ cấu tổ chức và đội ngũ cán bộ

Cơ cấu tổ chức của Trung tâm gồm có Ban Giám đốc và các phòng ban chức năng

Trang 9

- Các phòng chức năng

+ Phòng hành chính - Tổng hợp - Tổ chức - Đối ngoại

+ Phòng bổ sung - trao đổi

+ Phòng phân loại - biên mục

+ Phòng thông tin thư mục nghiệp vụ

+ Phòng máy tính và nghiệp vụ mạng

- Các phòng phục vụ bạn đọc

+ Phòng phục vụ bạn đọc chung : 144 Xuân Thủy – Cầu Giấy – Hà Nội+ Phòng phục vụ bạn đọc Thượng Đình ( Gồm cả bộ phận phục vụ ở MễTrì và bộ phận phục vụ ở khoa Hóa, 19 Lê Thánh Tông- Hoàn Kiếm- Hà Nội).+ Phòng phục vụ bạn đọc ở trường Đại học Ngoại Ngữ - Cầu Giấy - HàNội

Trung tâm được tổ chức theo quyết định số 947/TCCB của Giám đốc Đạihọc Quốc Gia Hà Nội (ĐHQGHN) ngày 21/04/1998

Nói chung cơ cấu tổ chức như trên là khá hợp lý , có sự thống nhất vớinhau, tạo điều kiện cho quản lý, điều hành trong công tác quản lý, điều hànhcông tác nghiệp vụ đảm bảo cho trung tâm hoạt động tốt nhất

Trang 10

- 09 thạc sĩ

- 83 cử nhân (chiếm 40%),

- 37 cao đẳng và trung cấp

Cán bộ của Trung tâm được phân bố qua các bộ phận phù hợp với trình

độ chuyên môn của từng người, trong đó:

+ Khối các phòng chức năng : 24 người

+ Khối các phòng chuyên môn, nghiệp vụ : 28 người

+ Khối các phòng phục vụ bạn đọc : 78 người

Hầu hết cán bộ nhân viên trong Trung tâm đều được đào tạo về chuyênmôn nghiệp vụ, có lòng yêu ngành, yêu nghề, tâm huyết với công việc Độingũ cán bộ của Trung tâm ngày càng được trẻ hóa nên năng động, sáng tạo,nhanh nhạy trong việc nắm bắt thông tin, có nhiều đóng góp tích cực giúpTrung tâm hoạt động ngày càng hiệu quả hơn

1.1.4 Đặc điểm người dùng tin

Người dùng tin là một trong bốn yếu tố cấu thành nên thư viện Ngườidùng tin đóng vai trò quan trọng trong thư viện, họ là mục tiêu mà thư việnhướng tới

ĐHQGHN là đại học lớn với số lượng sinh viên đông đảo Trình độ ở cáccấp khác nhau bao gồm học sinh, sinh viên, học viên cao học, nghiên cứusinh, giảng viên, cán bộ lãnh đạo quản lý trong ĐHQGHN Qua quá trìnhkhảo sát tại Trung tâm, tôi nhận thấy có thể chia người dùng tin của Trungtâm thành 3 nhóm chính sau đây:

Nhóm 1: Cán bộ quản lý lãnh đạo

Nhóm 2: Giảng viên, cán bộ nghiên cứu

Nhóm 3: Nghiên cứu sinh, học viên cao học, sinh viên và học sinh

Trang 11

- Nhóm cán bộ quản lý lãnh đạo: chiếm số lượng ít song lại là nhóm

người dùng tin rất quan trọng Họ là những người có trí tuệ và quyết định của họđưa ra có tầm ảnh hưởng, tác động trực tiếp đến nhiều người Trung tâm

cần cung cấp thông tin tổng quát, tham mưu cho các cán bộ lãnh đạo để đưa ranhững quyết định chính xác, kịp thời

- Nhóm giảng viên, cán bộ nghiên cứu: Nhóm người dùng tin này chiếm

tỉ lệ khá cao trong thư viện Họ là những người có trình độ học vấn cao và

nhu cầu sử dụng tài liệu khá cao và đa dạng, họ có khả năng sử dụng mọi loạihình tài liệu cả tài liệu truyền thống và tài liệu số Nhu cầu dùng tin của giảngviên, cán bộ nghiên cứu thường là các tài liệu xám, tài liệu chuyên sâu về mộtngành, lĩnh vực mà họ quan tâm

- Nhóm nghiên cứu sinh, học viên cao học, sinh viên và học sinh: Đây là

nhóm người dùng tin chiếm tỉ lệ cao nhất trong thư viện Nhu cầu tin của họ

rất đa dạng, phong phú Họ cần nhiều nguồn tài liệu như giáo trình, sách thamkhảo, luận văn, luận án bên cạnh đó là các tài liệu ngoại văn, tài liệu số

1.1.5 Vốn tài liệu

Với số lượng người dùng tin lớn và đa dạng, Trung tâm cần phải xâydựng được nguồn lực thông tin chất lượng và phong phú mới có thể đáp ứngđược nhu cầu tin của bạn đọc Trung tâm rất quan tâm đầu tư phát triển vốntài liệu cả về số lượng và loại hình, trong đó đẩy mạnh đầu tư cho tài nguồnlực thông tin điện tử (CD – ROM, Video, Casset…) Hiện nay, vốn tài liệucủa Trung tâm bao gồm:

Tài liệu trên vật mang tin truyền thống:

+ Sách: 1160 tên sách giáo trình với 180.500 bản

Sách tham khảo: 100.768 tên tài liệu (250.345 bản)

+ Báo, tạp chí: Trung tâm hiện có 415 tên báo, tạp chí các thứ tiếng Việt, tiếng Anh, tiếng Pháp, tiếng Trung, tiếng Nga

Trang 12

+ 7020 luận án, luận văn:

+ 2000 thác bản văn bia

Tài liệu điện tử

Trung tâm hiện có một số lượng khá lớn tài liệu điện tử trên CD – ROM,băng Video, casset…, một số giáo trình điện tử, 5 CSDL Trung tâm đã sốhóa một phần trong số tài liệu truyền thống, cụ thể như sau:

- Luận văn: 516 cuốn (85077 trang)

- Sách giáo trình của các lớp nhiệm vụ chiến lược: 120 cuốn (110000trang)

- Kỷ yếu Đại học Quốc gia: 50 cuốn

- Sách tham khảo: 28 cuốn

- Luận văn thạc sĩ chưa có file mềm: 800 cuốn (12000 trang)

Trong năm 2011, đã có 12.000 bản luận án, luận văn, đề tài nghiên cứukhoa học, 3000 kỷ yếu của ĐHQGHN dưới dạng file điện tử

Trung tâm đang làm 10486 file tài liệu tham khảo richfile, 2514 filedạng toàn văn (fulltext) của kỷ yếu hội nghị khoa học ĐHQG HN đưa lêntrang web

Trung tâm đang thực hiện dự án Ebook đại học, số hóa 50000 tên sách,

dự kiến thực hiện trong 3 năm từ 2012 đến 2014

Cơ sở dữ liệu trên CD-ROM (nguồn tin offline)

1.1.6 Cơ sở vật chất:

Cơ sở hạ tầng :

Trung tâm Thông tin – thư viện ĐHQGHN nằm trong quần thể ĐHQG,với toà nhà 7 tầng được trang bị cơ sở vật chất kỹ thuật khang trang hiện đại.Trung tâm có tổng diện tích sử dụng là : 4.800m2

Trang 13

Trụ sở chính tại: 144 Xuân Thủy- Cầu Giấy- Hà Nội: 2400m2.

Phòng phục vụ bạn đọc Thượng Đình- trường Đại học Khoa học Xã hội

và Nhân văn: 336 Nguyễn Trãi, Thanh Xuân, Hà Nội: 1.300m2

Phòng phục vụ bạn đọc Tầng 7 Nhà T5, 334 Nguyễn Trãi, Thanh Xuân,

+ Tài liệu (Document) trong các thư viện và cơ quan thông tin được hiểu

là “Vật mang tin”(Information medium), trên đó ghi cố định thông tin và đượcxem như một đối tượng xử lý trong quá trình xử lý thông tin và tư liệu

+ Số hóa (Digitalize): Theo khái niệm được dùng trong công nghệ thông

tin thì số hóa là việc biến đổi các loại hình thông tin sang thông tin số (các bitthông tin dữ liệu) Các loại hình tài liệu trên các vật mang truyền thống (giấy,

Trang 14

ảnh, phim…) sau khi qua công đoạn xử lý bằng các thiết bị chuyên ngành vàphần mềm ứng dụng sẽ được chuyển thành các bit mang thông tin hay nóikhác đi là chuyển thành dữ liệu điện tử Dữ liệu này có thể được xử lý, lưu trữtrong máy tính điện tử, truyền trên mạng Intenet, tạo nên những cơ sở dữ liệu,

dễ dàng tìm kiếm, trao đổi và chia sẻ kiếm thức một cách thuận tiện nhất

Thông thường, các dữ liệu dạng chữ, hình ảnh, âm thanh,… sử dụngtrên máy tính và được máy tính nhận biết đúng định dạng, được gọi chung là

dữ liệu số Quá trình chuyển các dạng tài liệu trên vật mang tin truyền thốngnhư các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên máytính và được máy tính nhận biết được gọi là số hoá tài liệu

Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyểnkho tài liệu giấy thành tài liệu số Nếu tài liệu số chỉ đơn thuần là các ảnh quét

thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu Việc

số hóa chỉ mang lại hiệu quả khi quá trình tự động chuyển đổi kho tài liệu trêngiấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm

được Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng ký tự đang

đóng một vai trò then chốt của dây chuyền số hóa tài liệu

+ Nhận dạng ký tự bằng quang học (thuật ngữ tiếng Anh là Optical

Character Recognition, viết tắt là OCR) Đây là công nghệ được áp dụng để

nhận dạng ký tự trên một định dạng file ảnh và chuyển nó thành định dạngvăn bản (file text)

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn nhưgương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuậttoán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau Bởi vì chỉ

có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậythuật ngữ nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩanhận dạng ký tự số

Trang 15

Để nhận dạng ký tự, đầu tiên hệ thống nhận dạng được yêu cầu phải làmquen với các mẫu của các ký tự cụ thể, sau đó hệ thống sẽ đọc, nhận dạng vàdịch các ký tự sang ký tự trong ngôn ngữ tương ứng Các hệ thống "thôngminh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay

đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạngcủa tài liệu gần giống với bản gốc bao gồm hình ảnh, các hàng, cột, bảng biểu,các thành phần không phải là văn bản trong tài liệu

Nhận dạng ký tự bằng quang học thường được ứng dụng như một phầnmềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máyScanner) hoặc được thiết lập như một ứng dụng trực tuyến Hiện nay, cónhiều phầm mềm nhận dạng ký tự quang học trong đó một số phần mềm đangđược dùng nhiều như OmniPage - một ứng dụng đi kèm với dòng máy KodakScan giúp nhận dạng văn bản sau khi quét hay phần mềm ABBYYRecognition Server - là một phần mềm ứng dụng công nghệ nhận dạng ký tự(OCR) nổi tiếng nhất hiện nay Các chương trình hỗ trợ nhận dạng ký tựquang học có thể nhận dạng ký tự với tỷ lệ chính xác tới trên 99% đối với chấtlượng hình ảnh rõ nét và font chữ thông thường Đối với hình chất lượng kém,font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan.Đối với văn bản tiếng Việt có nhiều dấu nên tỷ lệ phần trăm nhận dạng chínhxác không cao so với các văn bản trên các ngôn ngữ khác

Việc nhận dạng văn bản tiếng Việt là một vấn đề khó bởi tiếng Việt cónhiều dấu Từ lâu, các chuyên gia Việt Nam đã bỏ nhiều công sức đề nghiêncứu xây dựng một phần mềm nhận dạng ký tự văn bản tiếng Việt Hiện nay,một số chương trình nhận dạng văn bản tiếng Việt đã ra đời như phần mềm cótên là VnDOCR do Phòng Nhận dạng và Công nghệ Tri thức - Viện Côngnghệ Thông tin nghiên cứu và phát triển Phần mềm nhận dạng chữ ViệtVnDOCR phiên bản 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu đượcquét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang

Trang 16

tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quảnhận dạng có thể được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu.

Bên cạnh đó, còn có một phần mềm nhận dạng ký tự tiếng Việt có tênVietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr doGoogle tài trợ Đây là một chương trình nguồn mở, hỗ trợ nhận dạng cho cácdạng ảnh TIFF, JPEG, GIF, PNG, và BMP

Ngoài những phần mềm nhận dạng do các công ty trong nước phát triển

và đã được thương mại hóa còn có một số phần mềm nhận dạng của nướcngoài, có thể dùng miễn phí như sau:

- TopOCR : Phần mềm TopOCR sử dụng những công nghệ mới nhất,

mạnh nhất trong nhận dạng kí tự quang học và xử lý chữ kí điện tử để cho kết quảtốt nhất khi nhận dạng kí tự quang học từ ảnh chụp bằng các thiết bị như máy ảnh

số hay điện thoại di động Công nghệ này là kết quả sau nhiều năm

nghiên cứu và phát triển tại Mỹ và châu Âu Không giống như các phần mềmkhác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhậndạng kí tự trong các bức ảnh chụp Cũng có một phiên bản chạy trênWindows Mobile và cũng cung cấp khả năng xử lí ảnh chụp rất tuyệt vời

SimpleOCR: Đây là phần mềm nhận dạng khá mạnh dùng cho máy quét.

Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người dùng Khidùng phần mềm này ta có thể tùy chọn những vùng trong ảnh quét để chươngtrình bỏ qua không xử lí cùng với nhiều tùy chọn hữu ích khác Chương trìnhcũng có khả năng nhận dạng chữ viết tay và học từ mới Có thể nóiSimpleOCR là một công cụ rất mạnh để nhận dạng kí tự quang học thay choviệc đánh máy nhàm chán

Trang 17

Tuy nhiên các chương trình nói trên vẫn còn trong giai đoạn khởi đầu,tính năng và chất lượng nhận dạng chỉ ở mức trung bình, đối với các văn bảnviết tay thì hầu như các phần mềm hiện tại không thể nhận dạng được.

Gần đây, ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnhvực nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai côngnghệ nhận dạng tiếng Việt và vào tháng 4 năm 2009, công ty này đã cho ra

đời phần mềm ABBYY Recognition Server, có độ chính xác trong việc nhận

dạng tài liệu chữ in tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì cóchưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các địnhdạng ảnh đầu vào như PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel,HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là mộtđịnh dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu Với định dạng này,người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụtìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng đượcbên dưới

Chất lượng nhận dạng của các phần mềm một phần phụ thuộc vào côngnghệ mà phần mềm đó được xây dựng nhưng không phải một phần mềm tốt là

đủ để thực hiện công việc này mà chất lượng nhận dạng còn phụ thuộc vàochất lượng ảnh cần nhận dạng Điều quan trọng nhất là tài liệu cần nhận dạnghay ảnh quét phải có chất lượng đủ tốt, khoảng 200dpi trở lên thì việc nhậndạng mới chính xác được Việc nhận dạng chữ Việt thường xảy ra lỗi do cácchữ tương tự nhau, thiếu dấu hay lầm giữa chữ hoa và chữ thường Vì vậy đòihỏi phải chỉnh sửa tài liệu sau khi nhận dạng để có kết quả tốt nhất

1.2.2 Vai trò của số hóa tài liệu trong hoạt động của Trung tâm

Thông tin thư viện Đại học Quốc Gia Hà Nội

Chúng ta đang sống trong một thời đại mà tri thức không của riêng ai.Những kiến thức mà các học giả mất hàng trăm năm để nghiên cứu nay được

Trang 18

đúc kết lại thành vài kilobytes, và dễ dàng tìm thấy thông qua các công cụ nhưGoogle Dù vậy, trên thực tế các tài liệu giấy vẫn giữ nguyên vai trò quantrọng của nó trong quá trình giáo dục và tìm hiểu của nhân loại, nhất là nhữngvăn bản giấy có giá trị lịch sử lâu đời hoặc mang tính chuyên ngành cao Điềunày dẫn đến một hệ quả tất yếu: số hóa nền tri thức “giấy in”.

Nhu cầu khai thác thông tin trên văn bản giấy bằng các hệ thống phầnmềm là một thực tế, đòi hỏi phải có giải pháp lưu trữ hiệu quả Người ta gọicác hệ thống chuyển đổi thông tin từ dạng giấy sang dạng số là các hệ thống

số hóa Sau khi được số hóa, các thông tin trên tài liệu trở nên hiện hữu bởicác hệ thống khai thác thông tin và sẵn sàng để phục vụ các nhân viên của tổchức

Hãy tưởng tường rằng phải mất bao nhiêu giấy tờ và không gian để lưutrữ kho kiến thức khổng lồ của nhân loại ngày một nhiều; hơn nữa việc bảoquản và phạm vi sử dụng bị hạn chế, do vậy bắt buộc chúng ta phải nghĩ đếngiải pháp số hóa dữ liệu Việc lưu trữ nguồn tài liệu theo phương pháp thủcông truyền thống ngày nay đã nảy sinh nhiều bất cập như khó khai thác, tìmkiếm thông tin, thêm vào đó các yếu tố như cơ sở vật chất không gian có hạn

và sự tác động của các nhân tố môi trường làm cho tài liệu dễ bị hư hỏng, mấtmát Do vậy, công tác số hóa là vô cùng cần thiết để lưu trữ, bảo quản lâu dàicũng như thuận tiện cho việc khai thác và truy nhập thông tin Số hóa tài liệugiúp cho việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dànghơn cũng như linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khácnhau và giảm được không gian lưu trữ cũng như công tác quản lý

Trung tâm có vốn tài liệu lớn, đa dạng, số lượng tài liệu ngày càng được

bổ sung nhiều từ nguồn bổ sung định kỳ và nguồn tài liệu nội sinh Trong khi

đó diện tích kho để tài liệu không tăng thêm, do vậy không thể đáp ứng được

sự gia tăng của vốn tài liệu Điều này thực sự đặt ra rất nhiều khó khăn chocông tác bảo quản trong một tương lai không xa Vì vậy số hóa tài liệu là việc

Trang 19

làm cần thiết để giúp Trung tâm bảo quản nguồn tài liệu của mình, tiết kiệmdiện tích kho, tiết kiệm chi phí đầu tư cơ sở vật chất, giúp bảo quản tài liệu tốthơn tránh được sự hủy hoại của môi trường và sự tác động của con người.ĐHQGHN với vai trò là một trong hai trường đại học đào tạo chất lượngcao hàng đầu của cả nước, với nhu cầu phát triển đào tạo và nghiên cứu khoahọc đẳng cấp quốc tế, đào tạo tín chỉ, e-learning (đào tạo điện tử); đòi hỏiTrung tâm phải có kho tài nguyên tri thức khổng lồ, có khả năng đáp ứng tất

cả các ngành, chuyên ngành đào tạo với chất lượng cao Theo GS.TS NguyễnHữu Đức, Phó Giám đốc ĐHQGHN cho biết , trường đang th ực hiện Đề án16+23 nhằm xây d ựng 16 ngành đào tạo ĐH và 23 chuyên ngành đào tạoSĐH đạt trình độ quốc tế vào năm 2012 Theo học các chương trình này, sinhviên được hỗ trợ để học tiếng Anh nâng cao; từ năm thứ 2, bài giảng do cácgiáo viên nước ngoài và trong nước dạy bằng tiếng Anh được thực hành, thamgia nghiên cứu tại các phòng thí nghiệm hiện đại Mục tiêu của nhà trường làtập trung đào tạo đáp ứng theo nhu cầu xã hội với nguồn nhân lực chất lượngcao, có thể làm việc tại bất kỳ đâu trên thế giới với 77 ngành đào tạo, trong đó

có 105 chuyên ngành đào tạo đại học khác nhau, có 5 chương trình đào tạo tàinăng, 3 chương trình đào tạo tiên tiến, 20 chương trình chất lượng và nhiềuchương trình đào tạo đặc biệt khác

Từ thực tế đó, Trung tâm xác định việc đầu tư xây dựng và phát triển khotài nguyên tri thức một mặt phải khởi tạo nguồn tài nguyên tri thức bằng cáchxây dựng các CSDL điện tử chuyên ngành, xây dựng thư viện các bài giảngđiện tử, đầu tư xây dựng và phát triển các nguồn tài nguyên số hóa (số hóa cácluận án, luận văn, các giáo trình, sách giáo khoa của ĐHQGHN, các đề tàinghiên cứu khoa học của ĐHQGHN); mặt khác từng bước kết nối với cácTrung tâm Thông tin-thư viện lớn trong nước và quốc tế, các trung tâm họcliệu của cả nước để khai thác tối đa các nguồn lực thông tin đã được đầu tư,

Trang 20

tránh tình trạng lãng phí, đồng thời làm giàu thêm kho tài nguyên tri thức của ĐHQGHN.

Công tác số hóa tài liệu càng trở nên cấp thiết hơn nữa khi ĐHQGHNchuyển từ đào tạo niên chế sang đào tạo tín chỉ Phương thức đào tạo tín chỉlấy sinh viên làm trung tâm, theo phương thức này, người học phải có khảnăng tự học, tự tìm kiếm nguồn tài liệu dưới hướng dẫn của giảng viên đểphục vụ cho việc học tập Với một đội ngũ cán bộ giảng viên hàng nghìnngười, số sinh viên, nghiên cứu sinh đông tới hàng chục nghìn người, trongkhi nguồn thông tin, tài liệu của Trung tâm còn khá hạn chế thì việc số hóa tàiliệu là con đường tất yếu giúp Trung tâm có thể nhanh chóng thỏa mãn nhucầu tin của người dùng

Trong khi đó ĐHQGHN là cơ quan có nhiều đơn vị, trường thành viênnằm phân tán Vì vậy nguồn tài liệu phân tán ở nhiều địa điểm khác nhau Sốhóa tài liệu sẽ làm giảm công sức, chi phí của sinh viên trong trường tìm tàiliệu học tập và giúp sinh viên có thể sử dụng thông tin nhanh chóng, đầy đủ.Hiện tại tất cả các nguồn tài liệu của các thư viện nói chung và tại Trungtâm nói riêng đang hàng ngày, hàng giờ phải đối mặt với sự đe dọa của khíhậu, môi trường, của con người tác động vào Vì vậy, việc số hóa tài liệukhông những giúp kéo dài tuổi thọ của tài liệu mà con tiết kiệm được diện tíchkho mà còn giúp cho bạn đọc truy cập nhanh vào thông tin tài liệu bất cứ ởnơi đâu, thời điểm nào mà chỉ cần một máy tính nối mạng là được

Nhận thấy tầm quan trọng của công tác số hóa tài liệu, Trung tâm đã thửnghiệm việc số hóa từ năm 2005 với 5 tài liệu và bắt đầu triển khai công tác

số hóa tài liệu từ năm 2009 Trung tâm là một trong những thư viện đi đầutrong công tác số hóa tài liệu tại Việt Nam hiện nay

Trang 21

CHƯƠNG 2 PHẦN MỀM NHẬN DẠNG ABBYY TRONG CÔNG TÁC SỐ HÓA TÀI LIỆU TẠI TRUNG TÂM THÔNG TIN – THƯ VIỆN

ĐẠI HỌC QUỐC GIA HÀ NỘI

2.1 Giới thiệu tổng quan về phần mềm nhận dạng ABBYY.

2.1.1 Lịch sử hình thành và phát triển.

ABBYY là tên phần mềm nhận dạng đồng thời cũng là tên công tyABBYY do David Yang – một cựu sinh viên của Viện Vật lý Công nghệMátxcơva sáng lập và hiện là Tổng Giám đốc của công ty này Ý tưởng tạo ramột phần mềm nhận dạng nảy sinh ra khi David Yang phải dùng những cuốn

từ điển to lớn cồng kềnh để tra nghĩa của các từ và David Yang đã tính tớiviệc làm ra một từ điển điện tử có thể cho phép mọi người dịch lời nói chỉtrong một vài giây Ứng dụng từ điển này sau này trở thành sản phẩm đầu tiêncủa ABBYY và được đặt tên là Lingvo

ABBYY mở rộng phạm vi nghiên cứu sang lĩnh vực nhận dạng ký tự vànăm 1993 ABBYY Recognition Server được chính thức ra mắt Ban đầu,phần mềm này chỉ nhận dạng được các văn bản tiếng Nga và tiếng Anh, saunhiều năm phát triển không ngừng tới nay, ABBYY Recognition Server đã trởthành một phầm mềm nhận dạng ký tự hàng đầu thế giới và có thể nhận dạngđược văn bản của gần 200 ngôn ngữ trên thế giới, trong đó có văn bản tiếngViệt

Một vài năm sau khi ra mắt công ty nhận ra rằng chất lượng và tính chínhxác của sản phẩm này đã vượt quá yêu cầu ban đầu và là lựa chọn thay thếcủa người dùng không chỉ ở nước Nga mà còn ở nước ngoài Vì thế, năm

1997 ABBYY bắt đầu mở rộng kinh doanh của mình trên toàn cầu và xâydựng một mạng lưới phân phối quốc tế và thiết lập quan hệ đối tác với cácnhà sản xuất thiết bị tin học hàng đầu thế giới

Trang 22

Hiện nay, ABBYY là một công ty đa quốc gia với 9 văn phòng ở cácquốc gia khác nhau như Nga, Đức, Hoa Kỳ, Ukraina, Anh, Síp, Nhật Bản vàĐài Loan…Sản phẩm ABBYY đang được bán tại hơn 130 quốc gia trên thếgiới thông qua một mạng lưới các đối tác trong khu vực và quốc tế.

ABBYY là nhà cung cấp hàng đầu thế giới về phần mềm và dịch vụchuyển đổi tài liệu, dữ liệu, và nhận dạng ký tự ABBYY có 2 dòng sản phẩmchính: ABBYY Recognition Server và ABBYY FlexiCapture

2.1.2 Các tính năng cơ bản của phần mềm nhận dạng ABBYY

Công nghệ nhận dạng của hãng ABBYY là công nghệ nhận dạng hàngđầu thế giới, cho phép chuyển đổi tài liệu với nhiều tính năng và tiện ích:

Phần mềm này cho phép nhận dạng chính xác 198 ngôn ngữ, bao gồm cảchữ in tiếng Việt với mức độ chính xác tới 99%, có thể chuyển đổi tài liệugiấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soạnthảo và tìm kiếm được ABBYY còn có khả năng giữ nguyên định dạng vàdàn trang của tài liệu gốc tốt hơn bao giờ hết Chỉ trong chốc lát ta có thểchuyển đổi văn bản dạng ảnh thành văn bản số ở định dạng có thể soạn thảođược

ABBYY có giao diện quản lý từ xa, giữ vai trò quản lý tập trung, chophép người quản trị đặt cấu hình hệ thống theo các yêu cầu xử lý, các tham sốnhận dạng, lịch trình thực hiện, khuôn dạng kết quả nhận dạng

ABBYY có thể xử lý công việc với khối lượng lớn tùy ý: Việc quản trị

hệ thống cũng rất mềm dẻo làm cho máy hoạt động liên tục hoặc chỉ trongnhững khoảng thời gian nhất định Được trang bị công nghệ nhân dạng chữ inhàng đầu ABBYY nhận dạng tài liệu với tốc độ chính xác rất cao (với tiếng

Trang 23

Việt là trên 99%) Nó cũng bao gồm chức năng quản lý chất lượng tự độngnhư khả năng tự động xác định các trang có kết quả thấp và cung cấp giaodiện soát lỗi thân thiện với người dùng.

Đối với văn bản thuần text thì khá đơn giản, nhưng nếu trong văn bản cóbảng biểu, cách dàn trang và trình bày theo cột hoặc theo các cấu trúc khácnhau thì đây là vấn đề lớn đối với các phần mềm nhận dạng khác chứ chưanói gì đến đặc thù chữ viết của chúng ta có nhiều dấu đi kèm Nhưng với phầnmềm nhận dạng ABBYY tài liệu được chuyển đổi từ dạng ảnh sang dạng cóthể biên tập được những vẫn giữ nguyên cấu trúc so với bản gốc từ chữ viếttiếng Việt cho đến bảng biểu, cột, dòng, kí hiệu riêng…

Tài liệu sau nhận dạng chính xác gần như tuyệt đối so với bản gốc,tiết kiệm thời gian và công sức soạn thảo tài liệu:

Chính xác cấu trúc và dàn trang tài liệu, cung cấp cho người dùng các tàiliệu điện tử soạn thảo được Công nghệ ADRT độc đáo của ABBYY phân tíchtài liệu theo cách con người đọc tài liệu nhằm phát hiện và thiết lập các yếu tốđịnh dạng của văn bản như styles, đầu trang và chân trang, số trang,

Chuyển đổi tập tin PDF thành các văn bản điện tử có thể soạn thảo

và tìm kiếm được:

Chỉ với một thao tác đơn giản, tất cả các tập tin PDF bao gồm cả các tậptin PDF chỉ có ảnh nhận được từ máy quét, được chuyển đổi chính xác thànhcác định dạng văn bản điện tử có thể soạn thảo và tìm kiếm được

ABBYY có thể chuyển đổi sách dưới dạng giấy truyền thống sang mọiđịnh dạng sách điện tử phổ biến, là những định dạng được hỗ trợ bởi các loạithiết bị đọc sách điện tử, máy tính bảng hay điện thoại thông minh

+ PDF, PDF/A – 1a, PDF/A – 1b

Trang 24

+ RTF, DOC, DOCX, Word XML

Để dùng được phần mềm nhận dạng ABBYY, yêu cầu máy tính phải cótốc độ tối thiểu 1 GHz

Máy tính có thể chạy trên các hệ điều hành Microsoft Windows 7 hoặcWindows Vista, Microsoft Windows XP/ Microsoft Windows Server 2008/Microsoft Windows Server 2003

Yêu cầu 1024 MB bộ nhớ để làm việc với giao diện ngôn ngữ tùy chọn

và cần thêm 512 MB RAM cho mỗi lõi của bộ vi xử lý

Yêu cầu phải có tối thiểu 700 MB ổ cứng để cài đặt ứng dụng và 700 MBtrống để chương trình hoạt động

Máy quét tương thích chuẩn TWAIN hoặc WIA, máy ảnh số hoặc modem (tùy chọn) màn hình có độ phân giải tối thiểu 1024x76

Trang 25

fax-2.1.3 Các ứng dụng chính của phần mềm nhận dạng ABBYY tại

Trung tâm

+ Khả năng lưu trữ: Chuyển đổi một khối lượng lớn tài liệu giấy sang tài

liệu số dưới các định dạng có thể tìm kiếm và biên tập được như là MSWord,

Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách,báo, tờ rơi quảng cáo, hợp đồng Máy quét chỉ có thể biến những tài liệu giấynày thành tài liệu dạng ảnh Với các tài liệu dạng ảnh chỉ có thể đọc mà khôngthể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìmkiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này Vớiviệc sử dụng phần mềm nhận dạng chữ in biên soạn lại các tài liệu dạng ảnhcũng như việc số hóa tài liệu sẽ được thực hiện rất đơn giản

Nhờ các tính năng vượt trội trên nên mặc dù mới được du nhập vào ViệtNam nhưng phần mềm nhận dạng ABBYY đã được nhiều cơ quan tổ chứcđánh giá cao và đưa vào sử dụng như: Bộ Khoa học và Công nghệ (Cục Sởhữu trí tuệ), Trung tâm Thông tin Thư viện ĐHQG Hà Nội, Văn phòng TWĐoàn Thanh niên Cộng sản Hồ Chí Minh, Công ty Cổ phần Chứng KhoánVndirect…

Trang 26

Hiện nay Trung tâm thông tin thư viện Đại học Quốc gia Hà Nội đang

sử dụng dòng sản phẩm ABBYY Recognition Server

Phần mềm ABBYY Recognition Server có thể nhận dạng các tài liệu incủa hơn 198 ngôn ngữ

Nhận dạng ngôn ngữ Châu Á (ví dụ Nhật Bản, Tới 30 %Trung Quốc)

Nhận dạng ngôn ngữ Châu Âu (ví dụ Anh, Đức, Pháp… ) Tới 20%

(*) Kết quả đánh giá dựa trên thử nghiệm của ABBYY.

ABBYY Recognition Server có tính năng vượt trội hơn các phần mềmnhận dạng hiện nay Với khả năng làm việc tự động, chất lượng nhận dạngcao, chấp nhận nhiều định dạng đầu vào và cho phép kết xuất kết quả nhậndạng ra nhiều định dạng lưu trữ khác nhau

( Xem phụ lục: Hình 3)

+ Nhận dạng chính xác: Công nghệ nhận dạng chữ in đã đoạt nhiều giải

thưởng của ABBYY có khả năng nhận dạng 198 ngôn ngữ, trong đó có cả tiếngViệt, với độ chính xác gần như tuyện đối

+ Nhanh chóng triển khai và dễ sử dụng: ABBYY Recognition Server có

giao diện trực quan và có thể được thiết lập và hoạt động mà không có đào tạotrước

+ Được thiết kế xử lý khối lượng lớn tài liệu: ABBYY Recognition

Server được biết đến với khả năng mở rộng chưa từng có của nó Giải pháp là

một cách dễ dàng cầu đa lõi CPU hoặc nhiều máy chủ, và do đó có thể đối

phó với bất kỳ khối lượng của các tài liệu

Trang 27

+ Sẵn sàng làm kết nối đến hệ thống Microsoft và Google doanh nghiệp tìm kiếm: ABBYY Recognition Server kết nối như một máy chủ OCR nền cho

hệ thống doanh nghiệp như Microsoft ® Office SharePoint ® Server,Windows ® Search và Google Search Appliance ™, nâng cao khả năng củamình để tìm kiếm lên nội dung của tài liệu hình ảnh

ABBYY Recognition Server bao gồm một số thành phần, có thể được càiđặt vào cùng một hoặc trên máy tính khác nhau trong một mạng LAN

2.1.4 Các thành phần chính của phần mềm nhận dạng ABBYY.

(Xem phụ lục: Hình 4)

Máy chủ quản lý - một thành phần trung tâm dịch vụ điều khiển hàng đợi

xử lý tài liệu, và phân phối các tác vụ trong số các trạm

Trạm xử lý tài liệu (Processing Station)

Trạm quét (Scaner Station) - một trạm khách hàng thực thi chức năngquét và xử lý hình ảnh

Trạm chỉ mục (Indexing Station) - một trạm khách hàng đối với chỉ mụctài liệu và phân loại

Đầu nối vào Google Search Appliance ™ (GSA) - một thành phần chophép Google Search Appliance để sử dụng ABBYY Recognition Server chogiải nén nội dung từ các tài liệu hình ảnh

Kết nối đến Microsoft ® tìm kiếm hệ thống (IFilter)-một thành phần chophép Microsoft Office SharePoint Server và Windows tìm kiếm sử dụngABBYY Recognition Server để trích xuất nội dung từ các tài liệu hình ảnhGiao diện điều khiển từ xa - bàn điều khiển máy khách được dùng để cấuhình và giám sát Server

Trang 28

2.2 Qúa trình triển khai phần mềm nhận dạng tiếng Việt ABBYY trong công tác số hóa tài liệu ở Trung tâm Thông tin Thƣ viện Đại học Quốc gia Hà Nội.

Trong thời đại công nghệ thông tin phát triển mạnh mẽ như hiện nay,việc số hóa các loại sách, tài liệu nhằm chia sẻ, cung cấp thông tin tư liệu tớibạn đọc nhanh chóng đang trở nên bức thiết

Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội là nơi cungcấp thông tin, tạo điều kiện cho người đọc phát triển toàn diện, đặc biệt là tưduy sáng tạo, góp phần giúp ĐHQGHN hoàn thành sự nghiệp đào tạo nguồntài liệu số Để Trung tâm thật sự là nơi đảm bảo chất lượng và hiệu quả giáodục, đòi hỏi phải tăng cường vốn tài liệu, đảm bảo về nội dung, bao gồm đầy

đủ giáo trình, sách tham khảo chuyên ngành phù hợp với ngành nghề đào tạocủa nhà trường Bên cạnh những vốn tài liệu truyền thống đó, chúng ta cầnkhông ít một lượng vốn tài liệu số để người dùng tin dễ dàng truy cập thôngtin mọi lúc mọi nơi, dễ dàng thuận tiện và nhanh chóng Từ tháng 10 năm

2009, Trung tâm bắt đầu làm công tác số hóa tài liệu, chủ yếu số hóa nguồntài liệu nội sinh như luận án, luận văn, đề tài nghiên cứu khoa học, kỷ yếu hộinghị hội thảo không có bản mềm

Số hoá nguồn tài liệu - đây là công đoạn đòi hỏi đầu tư nhiều công sức vàthời gian Nếu như trước đây, khi ta muốn số hóa một cuốn sách khoảng 2000trang thì phải mất hàng mấy ngày để quét từng trang sách qua máy Scan.Nhưng hiện nay cũng với cuốn sách đó chỉ mất vài giờ đồng hồ là cho ra mộtsản phẩm tài liệu số đảm bảo chất lượng tốt, sắc nét, hình ảnh đẹp, giống100% bản gốc và đặc biệt còn cho phép tự động tạo các siêu dữ liệu mô tả vàsiêu dữ liệu cấu trúc của tài liệu ở định dạng XML Năm 2009 Trung tâm đã

có các thiết bị số hóa tài liệu của công nghệ KIRTAS APT 1600, công nghệnày cùng với thiết bị BookScan APT 1600 có thể giúp thư viện có thể số hóanguồn tài liệu với số lượng lớn, giá cả hợp lý và đảm bảo chất lượng, phần

Trang 29

mềm nhận dạng quang học ABBYY Recognition Server Đặc biệt là công

nghệ KIRTAS APT 1600 có một phần mềm biên tập BookScan Editor chophép tự động biên tập, tạo siêu dữ liệu theo yêu cầu; BookScan APT 1600không làm hư hỏng tài liệu gốc do không phải tháo gáy tài liệu đối với tài liệu

có độ dày trang khi thực hiện Scan.

2.2.1 Qúa trình ứng dụng phần mềm nhận dạng ABBYY

Địa điểm: Công tác số hóa tài liệu được tiến hành tại phòng Phát triển

Tài nguyên số của TTTT-TV ĐHQGHN

Cơ sở vật chất trang thiết bị để số hóa tài liệu:

Phòng Phát triển Tài nguyên số của Trung tâm được trang bị hệ thốngmáy móc hiện đại:

Bằng nguồn kinh phí của dự án thư viện điện tử, Trung tâm đầu tư hệthống thiết bị số hóa Kirtas APT BookScan của Hoa Kỳ Các sản phẩm saukhi số hoá bằng kỹ thuật và phần mềm Kirtas có chất lượng hình ảnh đẹpnhất, thậm chí đẹp hơn cả bản gốc Kirtas mang đến một phương pháp sinh lợi

và dễ dàng có thể số hoá các tài liệu trên giấy như bản viết tay, các tài liệutham khảo, luận văn, sách sử… và đưa nội dung lên mạng qua một giao diệnhoàn hảo để phổ biến rộng khắp trên Internet và đồng thời đảm bảo được tínhbảo mật Hệ thống thiết bị số hóa được trang bị bao gồm: Máy số hóa với tốc

độ tối đa là 1600 trang/giờ với tính năng lật giở trang tự động bằng cánh tayrobot; 01 bộ máy tính Dell và phần mềm biên tập book scan editor (BSE)phục vụ công tác biên tập dữ liệu số hóa

+ 8 máy vi tính cấu hình cao

Các máy tính được cài phần mềm nhận dạng ký tự quang học OCR

(Optical Character Recognition)

Trang 30

Trung tâm có hệ quản trị mã nguồn mở Dspace.

Nguồn nhân lực số hóa tài liệu:

Ngày nay, vai trò của cán bộ thư viện càng trở nên quan trọng, yêu cầuđặt ra đối với họ ngày càng cao Cán bộ thư viện không chỉ nắm vững chuyênmôn nghiệp vụ mà còn phải luôn biết tìm tòi, học hỏi, nâng cao trình độ ngoạingữ và kỹ năng tin học Những ứng dụng công nghệ thông tin vào thư viện đãlàm thay đổi rất lớn đến phương thức phục vụ cũng như xử lý nghiệp vụ Đặcbiệt đối với cán bộ số hóa tài liệu, chuyển dữ liệu sang dạng số hóa thì yêucầu về trình độ tin học càng cao hơn Cán bộ thư viện làm công tác số hóaphải có trình độ chuyên môn nghiệp vụ thư viện, nghiệp vụ tin học và biết vậnhành máy móc, trang thiết bị để số hóa tài liệu

Tại Trung tâm công tác số hóa được thực hiện tại Phòng Phát triển Tàinguyên số Phòng Phát triển Tài nguyên số có 8 cán bộ trình độ đại học trở lêngồm các chuyên ngành Thông tin - Thư viện và tốt nghiệp chuyên ngànhCông nghệ Thông tin

Chức năng nhiệm vụ chính của Phòng Phát triển Tài nguyên số là: thuthập tài liệu, xử lý tài liệu, số hóa tài liệu, biên mục và đưa file tài nguyên sốlên phần mềm để tạo cơ sở dữ liệu điện tử đáp ứng nhu cầu thông tin để hỗ trợgiảng viên, cán bộ viên chức và sinh viên của trường hoàn thành nhiệm vụgiảng dạy, học tập và nghiên cứu khoa học Đồng thời phục vụ nhu cầu tracứu, nghiên cứu tài liệu tham khảo chuyên ngành của sinh viên trong trường

và sinh viên các trường đại học khác

Nhiệm vụ 1: Thu thập tài liệu luận án, luận văn, khóa luận tốt nghiệp, đềtài nghiên cứu khoa học, giáo trình để số hóa tài liệu

Nhiệm vụ 2: Nhận và lưu đĩa luận án, luận văn

Nhiệm vụ 3: Tạo bộ sưu tập, xử lý, biên mục tài liệu và đưa dữ liệu điện

tử lên mạng

Trang 31

Nhiệm vụ 4: Download tài liệu đã đặt mSua phục vụ nhu cầu học tâp của sinh viên, giáo viên và cán bộ nghiên cứu khoa học của trường.

2.2.2 Quy trình xử lý của phần mềm

Quá trình chuyển đổi tài liệu có thể chia làm 11 bước:

Lựa chon tài liệu số hóa

Phân loại, vệ sinh, tiền xử lý

tài liệu số hóa

Quét tài liệu

Xử lý ảnh, tài liệu vừa

Kết xuất File

Soát lỗi nhận dạng vàkiểm tra chất lượng

Kiểm tra chất lượng

Nhận dạng ký tựảnh

Bước 1: Lựa chọn tài liệu số hóa.

Trước hết Trung tâm lựa chọn để dần tạo lập thư viện số là số hóa tài liệunội sinh in trên giấy hiện có, ưu tiên số hóa luận án, luận văn, giáo trình, kếtquả nghiên cứu khoa học Công việc số hóa tài liệu nội sinh là nhiệm vụ trọng

Trang 32

tâm, cần được triển khai trước khi bắt tay vào xây dựng thư viện điện tử Bởi

lẽ, sau khi xây dựng xong hạ tầng mạng và có các phần mềm Hệ thống, phầnmềm đầy đủ nhưng cơ quan vẫn không có hoặc có rất ít tài liệu số hoá nộisinh chắc chắn không thể phát huy được hiệu quả

Trong việc lựa chọn tài liệu để số hoá, ta phải ưu tiên các tài liệu đặc thùcủa thư viện, các tài liệu duy nhất và có giá trị lâu dài để trao đổi, ví dụ: cáctài liệu quý hiếm, các sưu tập có giá trị Ưu tiên số hoá trước hết đối với tàiliệu chưa ở đâu số hoá, tài liệu tiếng hiếm, tiếng Việt, sưu tập đặc biệt vàtài liệu một bản, chẳng hạn sách quý hiếm và bản viết tay; tài liệu được sửdụng cao, thường xuyên được yêu cầu cho giảng dạy và nghiên cứu Cụ thểTrung tâm đã và đang triển khai kế hoạch số hóa sách, tài liệu luận án, luậnvăn, đề tài nghiên cứu khoa học, kỷ yếu hội nghị hội thảo Song song vớiviệc số hoá là việc xây dựng các siêu dữ liệu đối với từng tài liệu và cập nhậttài liệu đã được số hoá này vào CSDL tương ứng để phục vụ kịp thời cũngnhư làm cơ sở cho việc xây dựng thư viện số

Bước 2: Phân loại, vệ sinh, tiền xử lý tài liệu số hóa

 Tiến hành phân loại tài liệu theo các tiêu chuẩn sau:

 Độ ưu tiên của tài liệu

 Chất lượng của tài liệu(Tài liệu cũ,tài liệu mới, chất lượng giấy)

 Khổ tài liệu(Chiều dài, chiều rộng của tài liệu)

 Kiểm tra toàn bộ tài liệu trước khi quét, xử lý các trang bị gấp mép, rọc các trang tài liệu bị dính…

 Vệ sinh từng loại tài liệu đã được phân loại bao gồm:

 Làm sạch bìa, phần bao bọc bên ngoài tài liệu

Trang 33

 Làm sạch các trang sách bên trong một cách nhẹ nhàng và sạch nhất trước khi đưa vào máy APT để không ảnh hưởng đến chất lượng ảnh khi quét tài liệu

 Trong quá trình vệ sinh cần kiểm tra chất lượng của tài liệu và xử lý tiếp những tài liệu bị lỗi (dính 2 trang, gấp mép trang…)

 Sau khi vệ sinh xong sắp xếp tài liệu lên giá vào vị trí chờ nhất định đưa vào hệ thống chờ quét ảnh

Bước 3: Quét tài liệu (scaning)

Thực hiện quét tài liệu bằng máy APT (Auto-Page Turning Scanner)

Để đạt hiệu xuất cao trong quy trình quét tài liệu ta cần thiết lập cácprofile (khuôn mẫu) cho từng loại tài liệu (tài lieeuj cũ, mới, chất lượng cáctrang tài liệu tốt, xấu), phân loại tài liệu theo kích cỡ trước khi đưa vào máy

để không phải thay đổi cánh tay liên tục Chọn cánh tay giở trang phù hợp với

độ rộng của cuốn tài liệu cần quét

Trước khi đưa tài liệu và máy APT, cán bộ số hóa phải kiểm tra hình ảnhhiển thị có vấn đề gì không, thường là kiểm tra xem ảnh có nét không, có quásáng hoặc quá tối không Nếu ảnh không rõ nét thì cần tập trung lại ống hìnhcamera, chuyển sang chế độ auto để ống kính tự điều chỉnh để tiêu cự chụprơi theo chuyển về chế độ Manual để định vị ống kính (định dạng ảnh thườngdùng là TIFF, JPEG)

Độ phân giải thông thường đặt khi quét tài liệu là 300 dpi, tuy nhiên cóthể tăng giảm độ phân giải tùy thuộc vào loại tài liệu và yêu cầu của vịêc sốhóa

Kiểm soát, cài đặt, điều chỉnh lại hệ thống quét sao cho các ảnh sau khiquét đạt chất lượng tốt nhất

Kiểm soát số trang trang tài liệu, tránh bị thiếu trong quá trình quét

Trang 34

Phân loại xếp các tài liệu đã quét ảnh lên vị trí giá để tài liệu đã quét ảnhGhi nhật ký số hóa tài liệu (tài liệu đã quét, tài liệu đang chờ quét).

Bước 4: Xử lý ảnh (Image processing) tài liệu vừa được quét

Nhằm nâng chất lượng ảnh của tài liệu phục vụ cho bạn đọc, bên cạnhphục vụ quá trình nhận dạng được tốt hơn, cần có các thao tác xử lý ảnh baogồm:

 Cắt xén ảnh (cropping)

 Dựng thẳng hình ảnh (deskewing)

 Thay đổi nền (làm đồng loạt, hoặc loại bỏ nền)

 Thay đổi kích thước ảnh…

Thực hiện xử lý ảnh và nâng cao chất lượng hình ảnh (image processing).Chia số ảnh thành nhiều batch, mỗi batch khoảng 300 trang (đối với sách dày

hơn 300 trang) Sau đó mở cửa sổ Run batch chọn quality là 85, độ phân giải

300 dpi Toàn bộ ảnh sau khi được quét sẽ được lưu ở dạng TIFF hoặc JPEG

và được lưu trữ trên Storage Trong quá trình xử lý ảnh, cán bộ số hóa phải

lưu ý các thông số kỹ thuật sao cho đúng với yêu cầu

Một vài chú ý khi quét ảnh:

Đối với sách có nhiều ảnh màu, ảnh màu mờ gần với màu nền, nền sáchlại hơi đen cần làm cho nền sách trắng hơn Nếu chỉnh ánh sáng để nền sáchđen trở thành trắng thì sẽ làm mất màu những ảnh có màu mờ Do đó phảidùng chương trình xử lý ảnh chuyên dụng để lại bỏ nền Có thể dùng phầnmềm Photoshop để lựa chọn màu gần với màu nền để loại bỏ

Phần mềm Snagit cho phép lưu file JPG có kích thước nhỏ nhưng chấtlượng ảnh không mấy thay đổi và giữ nguyên độ phân giải Do đó khi cầngiảm kích thước file hàng loạt thì nên dùng chức năng Batch resize củaSnagit Thực hiện kiểm tra quản lý chất lượng

Trang 35

Thực hiện kiểm tra chất lượng (Quality check) bằng cách kiểm tra sảnphẩm theo danh sách (check list) và chỉnh sửa lại sản phẩm nếu chưa đạt chấtlượng bằng Image Correction.

Đôi khi không có một nhu cầu để xử lý tài liệu quan trọng đã được côngnhận với độ chính xác đặc biệt Đồng thời, chất lượng của các quét không thể

là hoàn hảo, bị độ phân giải thấp và tiếng ồn không mong muốn Trongtrường hợp này là rất quan trọng để có một cơ chế bảo đảm chất lượng đángtin cậy

Tự động kiểm soát chất lượng cho phép các quản trị viên để thiết lập mộtngưỡng cho sự công nhận chính xác: tài liệu với văn bản chất lượng nghèo sẽkhông được chuyển đổi, nhưng thay vào đó được lưu trữ trong thư mục riêngbiệt

Bước 5: Kiểm tra chất lượng hình ảnh vừa xử lý:

Để tránh sai sót trong quá trình scan cũng như xử lý ảnh, cần có mộtbước kiểm tra chất lượng, tại bước này được tiến hành độc lập bằng một ngườkhác Nếu vẫn còn sai sót, kết quả sẽ được gửi về các bước trước để làm lại

Một số điểm cần kiểm tra đối với file JPEG:

Đảm bảo tài liệu không thiếu trang

Ngày đăng: 20/10/2020, 09:43

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w