Để kịp thời phổ biến kinh nghiệm áp dụng phần mềm nhận dạng ABBYY cho các thư viện chưa có điều kiện tiếp cận với phần mềm này, tôi chọn đề tài: “Phần mềm nhận dạng ABBYY và việc ứng dụn
Trang 1PHẦN MỞ ĐẦU
1 Tính cấp thiết của đề tài
Bước vào thế kỷ XXI, Công nghệ thông tin (CNTT) và viễn thông đã chiếm một vị trí cực kỳ quan trọng trong mọi lĩnh vực của đời sống, trở thành thành tố cơ bản cho sự phát triển kinh tế xã hội của các quốc gia
Công nghệ thông tin đã và đang khẳng định vị thế của mình trong mọi lĩnh vực của đời sống xã hội Cuộc cách mạng khoa học công nghệ đã và đang diễn ra mạnh mẽ và thông tin, tri thức trở nên đặc biệt quan trọng trong sự phát triển kinh tế, xã hội Trong hoàn cảnh đó, hoạt động thư viện cũng đang dần đổi mình, phát triển theo chiều hướng ứng dụng các thành tựu của công nghệ thông tin để trở thành các thư viện hiện đại
Thư viện muốn làm tốt vai trò của mình trong thời đại bùng nổ thông tin cần phải có sự hỗ trợ của công nghệ, đặc biệt là công nghệ thông tin Các phần mềm dùng trong hoạt động thư viện nhằm mục đích tự động hóa các hoạt động của thư viện, giúp thư viện nâng cao khả năng và hiệu quả phục vụ người dùng tin, nâng cao chất lượng và giảm giá thành các sản phẩm, dịch vụ thư viện
Hiện nay trên thế giới cũng như ở Việt Nam đang tồn tại khá nhiều phần mềm được dùng trong hoạt động thông tin – thư viện như các hệ quản trị thư viện tích hợp (Library Integrated System, LIS), phần mềm quản trị nội dung
số (Content Management System, CMS), phầm mềm nhận dạng ký tự bằng quang học (Optical Character Recognition, OCR),…Về hệ quản trị thư viện tích hợp, chúng ta có thể kể ra một số hệ khác nhau như ILIB của Công ty Máy tính truyền thông CMC, Libol của Công ty Công nghệ tin học Tinh Vân, COSLIB của Công ty Trường Thành, CDS/ISIS do UNESCO phát triển Về phần mềm quản trị nội dung số chúng ta có Greenstone, DSpace, Zope… các phần mềm này đã hỗ trợ cho các nhân viên thư viện rất nhiều trong việc tự
Trang 2động hoá các thao tác trong dây truyền xử lý thông tin Ngoài ra, để xây dựng thư viện điện tử, các thư viện cũng đang tích cực số hóa các loại tài liệu, trong
đó phần mềm nhận dạng ký tự đóng một vai trò quan trọng
Hiện nay trên thế giới cũng như trong nước có nhiều phần mềm nhận dạng ký tự quang học (OCR) như VietDor, ABBYY, VnDocr… Mỗi phần mềm đều có những tính năng ưu việt riêng, phù hợp với mỗi điều kiện thực tế của mỗi thư viện Hiện nay một số trung tâm thông tin thư viện đang sử dụng phần mềm nhận dạng ABBYY, đây là phần mềm đang được sử dụng rộng rãi trên toàn thế giới Với những tính năng ưu việt của phần mềm này, một số thư viện ở Việt Nam đã lựa chọn và sử dụng để áp dụng cho thư viện mình và Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội là một trong những đơn vị đang áp dụng phần mềm này rất thành công Để kịp thời phổ biến kinh nghiệm áp dụng phần mềm nhận dạng ABBYY cho các thư viện chưa có điều
kiện tiếp cận với phần mềm này, tôi chọn đề tài: “Phần mềm nhận dạng ABBYY và việc ứng dụng ABBYY vào hoạt động số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội” làm đề tài khóa luận tốt
nghiệp
2 Mục đích nghiên cứu
- Mục đích của khóa luận là nhằm nghiên cứu tổng quan về phần mềm nhận dạng ABBYY
- Tìm hiểu những tính năng cơ bản của phần mềm
- Đánh giá quá trình ứng dụng phần mềm này tới công tác số hóa tài liệu, qua đó có thể phần nào giúp các thư viện đang có ý định sử dụng phần mềm ABBYY để nhận dạng tiếng Việt vào hoạt động số hóa tài liệu có thêm kinh nghiệm để triển khai phần mềm này
3 Đối tƣợng và phạm vi nghiên cứu
Khóa luận tập trung vào nghiên cứu các tính năng và tiện ích của phần mềm nhận dạng ABBYY cũng như quá trình ứng dụng của phần mềm
Trang 3ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội
Phạm vi nghiên cứu của khóa luận tập trung trong việc nghiên cứu tìm hiểu đánh giá chức năng nhận dạng chữ tiếng Việt của phần mềm ABBYY trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội từ năm 2010 tới năm 2012
4 Phương pháp nghiên cứu
Trong quá trình thực hiện đề tài đã sử dụng các phương pháp:
* Phương pháp chung
Dựa trên cơ sở nền tảng là chủ nghĩa duy vật biện chứng, trên hệ thống các quan điểm của chủ nghĩa Mác –Lê nin và Tư tưởng Hồ Chí Minh
* Phương pháp cụ thể:
+ Phương pháp quan sát, khảo sát thực tế
+ Phỏng vấn trực tiếp các cán bộ tại Thư viện
+ Tổng hợp, thống kê số liệu
+ Phân tích, tổng hợp các tài liệu có liên quan đến đề tài
+ Phương pháp nghiên cứu tài liệu
+ Phương pháp trao đổi, phỏng vấn chuyên gia
5 Đóng góp của khóa luận
Khóa luận tuy mới chỉ dừng lại ở việc nghiên cứu tổng quan về phần mềm nhận dạng ABBYY và những ứng dụng của phần mềm trong công tác số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội, song
đề tài cũng đã giải quyết được những nhiệm vụ sau:
- Tìm hiểu phần mềm nhận dạng ABBYY
Trang 4- Tìm hiểu các tính năng, tiện ích của phần mềm ABBYY trong việc nhận dạng chữ tiếng Việt tại Trung tâm Thông tin Thư viện Đại học Quốc gia
6 Cấu trúc của khóa luận
Khóa luận được tổ chức theo một bố cục chặt chẽ: Phần mở đầu, Phần nội dung, Kết luận, Danh mục tài liệu tham khảo Trong đó phần nội dung được chia thành ba chương như sau:
Chương 1: Số hóa tài liệu tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội
Chương 2: Phần mềm nhận dạng ABBYY trong công tác số hóa tại Trung tâm Thông tin Thư viện Đại học Quốc Gia Hà Nội
Chương 3: Giải pháp nhằm nâng cao hiệu quả ứng dụng phần mềm
nhận dạng ABBYY tại Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà Nội
Trang 5
CHƯƠNG 1
SỐ HÓA TÀI LIỆU TRONG HOẠT ĐỘNG THÔNG TIN - THƯ VIỆN TẠI TRUNG TÂM THÔNG TIN - THƯ VIỆN
ĐẠI HỌC QUỐC GIA HÀ NỘI
1.1 Giới thiệu khái quát về Trung tâm Thông tin - Thư viện Đại học Quốc Gia Hà Nội
1.1.1 Quá trình hình thành và phát triển của Trung tâm
Đại học Quốc gia Hà Nội (tên giao dịch tiếng Anh là Vietnam National University, Hanoi; viết tắt là VNU) được thành lập theo Nghị định số 97/ CP ngày 10 tháng 12 năm 1993 của Chính phủ trên cơ sở tổ chức, sắp xếp lại 3 trường đại học lớn ở Hà Nội là Đại học Tổng hợp Hà Nội, Đại học Sư phạm
Hà Nội I và Đại học Sư phạm Ngoại ngữ Hà Nội Đại học Quốc gia Hà Nội (ĐHQGHN) chính thức bước vào hoạt động theo Quy chế do Thủ tướng Chính phủ ban hành ngày 5 tháng 9 năm 1994
Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội được thành lập theo nghị quyết số 66/TCCP ngày 14/2/1997 của Giám đốc Đại học Quốc Gia
Hà Nội trên cơ sở hợp nhất của 3 thư viện của các trường thành viên nói trên Ngày 11/11/1999 Giám đốc Đại học Quốc Gia Hà Nội đã quyết định tách bộ phận Thư viện trường Đại học Sư phạm Hà Nội ra khỏi Trung tâm
Trang 6Trung tâm Thông tin Thư viện Đại học Quốc gia Hà Nội có tên giao dịch quốc tế bằng tiếng Anh là Library and Information Center (LIC, VNU) Vietnam Nationnal University Hanoi Trung tâm là đơn vị hạch toán tài chính độc lập có tài khoản và con dấu riêng, trực thuộc ban Giám đốc ĐHQGHN Trụ sở chính của Trung tâm đặt tại 144 Xuân Thủy – Cầu Giấy – Hà Nội và các chi nhánh bao gồm:
1.1.2 Chức năng, nhiệm vụ
Chức năng:
Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội (Trung tâm)
có chức năng thông tin và thư viện phục vụ các công tác đào tạo, nghiên cứu khoa học, triển khai ứng dụng khoa học công nghệ phục vụ đào tạo và quản lí của ĐHQGHN, thực hiện sứ mạng mà Đảng và Nhà nước giao phó để góp phần thực hiện chính sách “Giáo dục là quốc sách hàng đầu” Trung tâm là
cơ sở đáp ứng nhu cầu cung cấp tin tri thức cho việc học tập, nghiên cứu khoa
Trang 7học của đội ngũ giảng viên và sinh viện nói riêng, bồi dưỡng nhân tài cho quốc gia nói chung, phục vụ các công tác đào tạo, nghiên cứu khoa học, triển khai ứng dụng và quản lý của ĐHQGHN
Nhiệm vụ:
Trung tâm có nhiệm vụ nghiên cứu thu thập, xử lý, thông báo và cung cấp thông tin, tư liệu về khoa học giáo dục, ngoại ngữ và công nghệ phục vụ cán bộ và sinh viên ĐHQGHN cụ thể là tham mưu quyết định cho các cấp lãnh đạo về phương hướng tổ chức và hoạt động thông tin, tư liệu nhằm phục
vụ cho hoạt động nghiên cứu khoa học, công tác nghiên cứu, giảng dạy và học tập của toàn thể cán bộ, giảng viên và sinh viên trong toàn ĐHQGHN
Bổ sung, trao đổi, phân tích, xử lý tài liệu và thông tin, tổ chức sắp xếp, lưu trữ, bảo quản kho tư liệu ĐHQGHN bao gồm tất cả các loại hình ấn phẩm
và vật mang tin để đáp ứng nhu cầu khai thác, sử dụng thông tin của bạn đọc Xây dựng hệ thống tra cứu tìm tin thích hợp, thiết lập mạng lưới truy nhập và tìm kiếm thông tin tự động hóa, tổ chức cho toàn thể cán bộ, giảng viên, sinh viên ĐHQGHN khai thác
Ngoài ra, Trung tâm còn là nơi thu nhận lưu chiểu những xuất bản phẩm
do ĐHQGHN xuất bản, các luận án tiến sĩ, luận văn thạc sĩ được bảo vệ tại ĐHQGHN hoặc các công trình nghiên cứu khoa học của cán bộ, giảng viên, sinh viên trong ĐHQGHN, những báo cáo tổng kết của các đề tài nghiên cứu cấp ĐHQGHN và cấp nhà nước được nghiệm thu đánh giá do các đơn vị thuộc ĐHQGHN chủ trì hoặc do cán bộ ĐHQGHN thực hiện
Trung tâm còn xây dựng các cơ sở dữ liệu đặc thù của ĐHQGHN, xuất bản các ấn phẩm thông tin tóm tắt thông tin chuyên đề phục vụ công tác quản
lý, nghiên cứu khoa học và đào tạo, nghiên cứu khoa học thông tin tư liệu
Trang 8Phát triển quan hệ trao đổi, hợp tác trực tiếp với các trung tâm thông tin, thư viện, các tổ chức khoa học, các trường đại học trong và ngoài nước; tham gia tổ chức và điều hành Liên hiệp thư viện các trường đại học và Hiệp hội thông tin - thư viện Việt Nam, tham gia các hiệp hội thư viện quốc tế, làm đầu mối nối mạng hệ thống Thông tin - Thư viện ĐHQGHN và ngành đại học vào mạng quốc gia, khu vực và thế giới
Với chức năng, nhiệm vụ trên đã trở thành kim chỉ nam cho mọi hoạt động của TT TT- TV, ĐHQGHN, giúp Trung tâm có những bước đi đúng hướng và hiệu quả, phục vụ sự nghiệp giáo dục của ĐHQGHN
1.1.3 Cơ cấu tổ chức và đội ngũ cán bộ
Cơ cấu tổ chức
Cơ cấu tổ chức của Trung tâm gồm có Ban Giám đốc và các phòng ban chức năng
Trang 9- Các phòng chức năng + Phòng hành chính - Tổng hợp - Tổ chức - Đối ngoại
+ Phòng tài vụ
- Các phòng nghiệp vụ + Phòng bổ sung - trao đổi
+ Phòng phân loại - biên mục
+ Phòng thông tin thư mục nghiệp vụ
+ Phòng máy tính và nghiệp vụ mạng
- Các phòng phục vụ bạn đọc + Phòng phục vụ bạn đọc chung : 144 Xuân Thủy – Cầu Giấy – Hà Nội + Phòng phục vụ bạn đọc Thượng Đình ( Gồm cả bộ phận phục vụ ở Mễ Trì và bộ phận phục vụ ở khoa Hóa, 19 Lê Thánh Tông- Hoàn Kiếm- Hà Nội)
+ Phòng phục vụ bạn đọc ở trường Đại học Ngoại Ngữ - Cầu Giấy - Hà Nội
Trung tâm được tổ chức theo quyết định số 947/TCCB của Giám đốc Đại học Quốc Gia Hà Nội (ĐHQGHN) ngày 21/04/1998
Nói chung cơ cấu tổ chức như trên là khá hợp lý , có sự thống nhất với nhau, tạo điều kiện cho quản lý, điều hành trong công tác quản lý, điều hành công tác nghiệp vụ đảm bảo cho trung tâm hoạt động tốt nhất
Trang 10- 09 thạc sĩ
- 83 cử nhân (chiếm 40%),
- 37 cao đẳng và trung cấp
Cán bộ của Trung tâm được phân bố qua các bộ phận phù hợp với trình
độ chuyên môn của từng người, trong đó:
+ Khối các phòng chức năng : 24 người
+ Khối các phòng chuyên môn, nghiệp vụ : 28 người
+ Khối các phòng phục vụ bạn đọc : 78 người
Hầu hết cán bộ nhân viên trong Trung tâm đều được đào tạo về chuyên môn nghiệp vụ, có lòng yêu ngành, yêu nghề, tâm huyết với công việc Đội ngũ cán bộ của Trung tâm ngày càng được trẻ hóa nên năng động, sáng tạo, nhanh nhạy trong việc nắm bắt thông tin, có nhiều đóng góp tích cực giúp Trung tâm hoạt động ngày càng hiệu quả hơn
1.1.4 Đặc điểm người dùng tin
Người dùng tin là một trong bốn yếu tố cấu thành nên thư viện Người dùng tin đóng vai trò quan trọng trong thư viện, họ là mục tiêu mà thư viện hướng tới
ĐHQGHN là đại học lớn với số lượng sinh viên đông đảo Trình độ ở các cấp khác nhau bao gồm học sinh, sinh viên, học viên cao học, nghiên cứu sinh, giảng viên, cán bộ lãnh đạo quản lý trong ĐHQGHN Qua quá trình khảo sát tại Trung tâm, tôi nhận thấy có thể chia người dùng tin của Trung tâm thành 3 nhóm chính sau đây:
Nhóm 1: Cán bộ quản lý lãnh đạo
Nhóm 2: Giảng viên, cán bộ nghiên cứu
Nhóm 3: Nghiên cứu sinh, học viên cao học, sinh viên và học sinh
Trang 11- Nhóm cán bộ quản lý lãnh đạo: chiếm số lượng ít song lại là nhóm
người dùng tin rất quan trọng Họ là những người có trí tuệ và quyết định của
họ đưa ra có tầm ảnh hưởng, tác động trực tiếp đến nhiều người Trung tâm cần cung cấp thông tin tổng quát, tham mưu cho các cán bộ lãnh đạo để đưa
ra những quyết định chính xác, kịp thời
- Nhóm giảng viên, cán bộ nghiên cứu: Nhóm người dùng tin này chiếm
tỉ lệ khá cao trong thư viện Họ là những người có trình độ học vấn cao và nhu cầu sử dụng tài liệu khá cao và đa dạng, họ có khả năng sử dụng mọi loại hình tài liệu cả tài liệu truyền thống và tài liệu số Nhu cầu dùng tin của giảng viên, cán bộ nghiên cứu thường là các tài liệu xám, tài liệu chuyên sâu về một ngành, lĩnh vực mà họ quan tâm
- Nhóm nghiên cứu sinh, học viên cao học, sinh viên và học sinh: Đây là
nhóm người dùng tin chiếm tỉ lệ cao nhất trong thư viện Nhu cầu tin của họ rất đa dạng, phong phú Họ cần nhiều nguồn tài liệu như giáo trình, sách tham khảo, luận văn, luận án bên cạnh đó là các tài liệu ngoại văn, tài liệu số
1.1.5 Vốn tài liệu
Với số lượng người dùng tin lớn và đa dạng, Trung tâm cần phải xây dựng được nguồn lực thông tin chất lượng và phong phú mới có thể đáp ứng được nhu cầu tin của bạn đọc Trung tâm rất quan tâm đầu tư phát triển vốn tài liệu cả về số lượng và loại hình, trong đó đẩy mạnh đầu tư cho tài nguồn lực thông tin điện tử (CD – ROM, Video, Casset…) Hiện nay, vốn tài liệu của Trung tâm bao gồm:
Tài liệu trên vật mang tin truyền thống:
+ Sách: 1160 tên sách giáo trình với 180.500 bản Sách tham khảo: 100.768 tên tài liệu (250.345 bản) + Báo, tạp chí: Trung tâm hiện có 415 tên báo, tạp chí các thứ tiếng Việt, tiếng Anh, tiếng Pháp, tiếng Trung, tiếng Nga
Trang 12+ 7020 luận án, luận văn:
+ 2000 thác bản văn bia
Tài liệu điện tử
Trung tâm hiện có một số lượng khá lớn tài liệu điện tử trên CD – ROM, băng Video, casset…, một số giáo trình điện tử, 5 CSDL Trung tâm đã số hóa một phần trong số tài liệu truyền thống, cụ thể như sau:
- Luận văn: 516 cuốn (85077 trang)
- Sách giáo trình của các lớp nhiệm vụ chiến lược: 120 cuốn (110000 trang)
- Kỷ yếu Đại học Quốc gia: 50 cuốn
- Sách tham khảo: 28 cuốn
- Luận văn thạc sĩ chưa có file mềm: 800 cuốn (12000 trang)
Trong năm 2011, đã có 12.000 bản luận án, luận văn, đề tài nghiên cứu khoa học, 3000 kỷ yếu của ĐHQGHN dưới dạng file điện tử
Trung tâm đang làm 10486 file tài liệu tham khảo richfile, 2514 file dạng toàn văn (fulltext) của kỷ yếu hội nghị khoa học ĐHQG HN đưa lên trang web
Trung tâm đang thực hiện dự án Ebook đại học, số hóa 50000 tên sách,
dự kiến thực hiện trong 3 năm từ 2012 đến 2014
Cơ sở dữ liệu trên CD-ROM (nguồn tin offline)
1.1.6 Cơ sở vật chất:
Cơ sở hạ tầng :
Trung tâm Thông tin – thư viện ĐHQGHN nằm trong quần thể ĐHQG, với toà nhà 7 tầng được trang bị cơ sở vật chất kỹ thuật khang trang hiện đại Trung tâm có tổng diện tích sử dụng là : 4.800m2
Trang 13
Trụ sở chính tại: 144 Xuân Thủy- Cầu Giấy- Hà Nội: 2400m2
Phòng phục vụ bạn đọc Thượng Đình- trường Đại học Khoa học Xã hội
và Nhân văn: 336 Nguyễn Trãi, Thanh Xuân, Hà Nội: 1.300m2
Phòng phục vụ bạn đọc Tầng 7 Nhà T5, 334 Nguyễn Trãi, Thanh Xuân,
Hà Nội: 200m2
Phòng phục vụ bạn đọc Ngoại Ngữ: 530m2
Phòng phục vụ bạn đọc Mễ Trì: 460m2
Phòng mượn giáo trình khoa Hóa: 19 Lê Thánh Tông: 60m2
Cơ sở vật chất kĩ thuật :
Mạng LAN hoàn chỉnh tại trụ sở chính và khu vực Thượng Đình, Ngoại
ngữ, Mễ Trì được kết nối Intranet ĐHQGHN và kết nối Internet
Trung tâm được đầu tư nâng cấp hệ thống trang thiết bị bao gồm : 10 máy chủ, 5 thống mạng cục bộ, 300 máy trạm, 100 máy truy cập Internet và
150 máy phục vụ nhân viên, 20 máy in, máy đọc đĩa laze Thư viện quang gồm 76 giá đĩa (mỗi đĩa chứa được 9,1GB thông tin)
Mạng LAN hoàn chỉnh tại trụ sở chính và các khu vực Thượng Đình,
Ngoại Ngữ, Mễ Trì được kết nối Intranet ĐHQGHN
1.2 Số hóa tài liệu với hoạt động thông tin thƣ viện tại Trung tâm Thông tin Thƣ viện Đại học Quốc gia Hà Nội
1.2.1 Một số khái niệm
+ Tài liệu (Document) trong các thư viện và cơ quan thông tin được hiểu
là “Vật mang tin”(Information medium), trên đó ghi cố định thông tin và được xem như một đối tượng xử lý trong quá trình xử lý thông tin và tư liệu
+ Số hóa (Digitalize): Theo khái niệm được dùng trong công nghệ thông
tin thì số hóa là việc biến đổi các loại hình thông tin sang thông tin số (các bit thông tin dữ liệu) Các loại hình tài liệu trên các vật mang truyền thống (giấy,
Trang 14ảnh, phim…) sau khi qua công đoạn xử lý bằng các thiết bị chuyên ngành và phần mềm ứng dụng sẽ được chuyển thành các bit mang thông tin hay nói khác đi là chuyển thành dữ liệu điện tử Dữ liệu này có thể được xử lý, lưu trữ trong máy tính điện tử, truyền trên mạng Intenet, tạo nên những cơ sở dữ liệu,
dễ dàng tìm kiếm, trao đổi và chia sẻ kiếm thức một cách thuận tiện nhất
Thông thường, các dữ liệu dạng chữ, hình ảnh, âm thanh,… sử dụng trên máy tính và được máy tính nhận biết đúng định dạng, được gọi chung là
dữ liệu số Quá trình chuyển các dạng tài liệu trên vật mang tin truyền thống như các bản viết tay, bản in trên giấy, hình ảnh… sang chuẩn dữ liệu trên máy tính và được máy tính nhận biết được gọi là số hoá tài liệu
Như chúng ta đã biết, mục đích của một dây chuyền số hóa là chuyển kho tài liệu giấy thành tài liệu số Nếu tài liệu số chỉ đơn thuần là các ảnh quét
thì dây chuyền số hóa đó mới chỉ thực hiện được việc “file hóa” tài liệu Việc
số hóa chỉ mang lại hiệu quả khi quá trình tự động chuyển đổi kho tài liệu trên giấy thành tài liệu điện tử ở dạng có thể biên tập lại, trích dẫn và tìm kiếm
được Với ý nghĩa của việc số hóa như vậy, phần mềm nhận dạng ký tự đang
đóng một vai trò then chốt của dây chuyền số hóa tài liệu
+ Nhận dạng ký tự bằng quang học (thuật ngữ tiếng Anh là Optical
Character Recognition, viết tắt là OCR) Đây là công nghệ được áp dụng để nhận dạng ký tự trên một định dạng file ảnh và chuyển nó thành định dạng văn bản (file text)
Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau Bởi vì chỉ
có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữ nhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số
Trang 15Để nhận dạng ký tự, đầu tiên hệ thống nhận dạng được yêu cầu phải làm quen với các mẫu của các ký tự cụ thể, sau đó hệ thống sẽ đọc, nhận dạng và dịch các ký tự sang ký tự trong ngôn ngữ tương ứng Các hệ thống "thông minh" với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm hình ảnh, các hàng, cột, bảng biểu, các thành phần không phải là văn bản trong tài liệu
Nhận dạng ký tự bằng quang học thường được ứng dụng như một phần mềm cài đặt trên máy tính hoặc tích hợp đi kèm với phần cứng (cụ thể là máy Scanner) hoặc được thiết lập như một ứng dụng trực tuyến Hiện nay, có nhiều phầm mềm nhận dạng ký tự quang học trong đó một số phần mềm đang
được dùng nhiều như OmniPage - một ứng dụng đi kèm với dòng máy Kodak Scan giúp nhận dạng văn bản sau khi quét hay phần mềm ABBYY
Recognition Server - là một phần mềm ứng dụng công nghệ nhận dạng ký tự
(OCR) nổi tiếng nhất hiện nay Các chương trình hỗ trợ nhận dạng ký tự quang học có thể nhận dạng ký tự với tỷ lệ chính xác tới trên 99% đối với chất lượng hình ảnh rõ nét và font chữ thông thường Đối với hình chất lượng kém, font chữ đặc biệt hoặc chữ viết tay thì kết quả cho ra không mấy khả quan Đối với văn bản tiếng Việt có nhiều dấu nên tỷ lệ phần trăm nhận dạng
chính xác không cao so với các văn bản trên các ngôn ngữ khác
Việc nhận dạng văn bản tiếng Việt là một vấn đề khó bởi tiếng Việt có nhiều dấu Từ lâu, các chuyên gia Việt Nam đã bỏ nhiều công sức đề nghiên cứu xây dựng một phần mềm nhận dạng ký tự văn bản tiếng Việt Hiện nay, một số chương trình nhận dạng văn bản tiếng Việt đã ra đời như phần mềm có tên là VnDOCR do Phòng Nhận dạng và Công nghệ Tri thức - Viện Công nghệ Thông tin nghiên cứu và phát triển Phần mềm nhận dạng chữ Việt VnDOCR phiên bản 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian Các trang
Trang 16tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang Kết quả nhận dạng có thể được lưu trữ sang định dạng của Microsoft Word, Excel phục vụ rất tốt nhu cầu số hóa dữ liệu
Bên cạnh đó, còn có một phần mềm nhận dạng ký tự tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ Đây là một chương trình nguồn mở, hỗ trợ nhận dạng cho các dạng ảnh TIFF, JPEG, GIF, PNG, và BMP
Ngoài những phần mềm nhận dạng do các công ty trong nước phát triển
và đã được thương mại hóa còn có một số phần mềm nhận dạng của nước ngoài, có thể dùng miễn phí như sau:
- TopOCR: Phần mềm TopOCR sử dụng những công nghệ mới nhất,
mạnh nhất trong nhận dạng kí tự quang học và xử lý chữ kí điện tử để cho kết quả tốt nhất khi nhận dạng kí tự quang học từ ảnh chụp bằng các thiết bị như máy ảnh số hay điện thoại di động Công nghệ này là kết quả sau nhiều năm nghiên cứu và phát triển tại Mỹ và châu Âu Không giống như các phần mềm khác được thiết kế cho máy quét, TopOCR được phát triển cho việc nhận dạng kí tự trong các bức ảnh chụp Cũng có một phiên bản chạy trên Windows Mobile và cũng cung cấp khả năng xử lí ảnh chụp rất tuyệt vời
SimpleOCR: Đây là phần mềm nhận dạng khá mạnh dùng cho máy
quét Phần mềm này khá phổ biến trên thế giới với hàng trăm ngàn người dùng Khi dùng phần mềm này ta có thể tùy chọn những vùng trong ảnh quét
để chương trình bỏ qua không xử lí cùng với nhiều tùy chọn hữu ích khác Chương trình cũng có khả năng nhận dạng chữ viết tay và học từ mới Có thể nói SimpleOCR là một công cụ rất mạnh để nhận dạng kí tự quang học thay cho việc đánh máy nhàm chán
Trang 17Tuy nhiên các chương trình nói trên vẫn còn trong giai đoạn khởi đầu, tính năng và chất lượng nhận dạng chỉ ở mức trung bình, đối với các văn bản viết tay thì hầu như các phần mềm hiện tại không thể nhận dạng được
Gần đây, ABBYY - một hãng công nghệ hàng đầu trên thế giới về lĩnh vực nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng tiếng Việt và vào tháng 4 năm 2009, công ty này đã cho ra
đời phần mềm ABBYY Recognition Server, có độ chính xác trong việc nhận
dạng tài liệu chữ in tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai) Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được
1.2.2 Vai trò của số hóa tài liệu trong hoạt động của Trung tâm Thông tin thư viện Đại học Quốc Gia Hà Nội
Chúng ta đang sống trong một thời đại mà tri thức không của riêng ai Những kiến thức mà các học giả mất hàng trăm năm để nghiên cứu nay được
Trang 18đúc kết lại thành vài kilobytes, và dễ dàng tìm thấy thông qua các công cụ như Google Dù vậy, trên thực tế các tài liệu giấy vẫn giữ nguyên vai trò quan trọng của nó trong quá trình giáo dục và tìm hiểu của nhân loại, nhất là những văn bản giấy có giá trị lịch sử lâu đời hoặc mang tính chuyên ngành cao Điều này dẫn đến một hệ quả tất yếu: số hóa nền tri thức “giấy in”
Nhu cầu khai thác thông tin trên văn bản giấy bằng các hệ thống phần mềm là một thực tế, đòi hỏi phải có giải pháp lưu trữ hiệu quả Người ta gọi các hệ thống chuyển đổi thông tin từ dạng giấy sang dạng số là các hệ thống
số hóa Sau khi được số hóa, các thông tin trên tài liệu trở nên hiện hữu bởi các hệ thống khai thác thông tin và sẵn sàng để phục vụ các nhân viên của tổ chức
Hãy tưởng tường rằng phải mất bao nhiêu giấy tờ và không gian để lưu trữ kho kiến thức khổng lồ của nhân loại ngày một nhiều; hơn nữa việc bảo quản và phạm vi sử dụng bị hạn chế, do vậy bắt buộc chúng ta phải nghĩ đến giải pháp số hóa dữ liệu Việc lưu trữ nguồn tài liệu theo phương pháp thủ công truyền thống ngày nay đã nảy sinh nhiều bất cập như khó khai thác, tìm kiếm thông tin, thêm vào đó các yếu tố như cơ sở vật chất không gian có hạn
và sự tác động của các nhân tố môi trường làm cho tài liệu dễ bị hư hỏng, mất mát Do vậy, công tác số hóa là vô cùng cần thiết để lưu trữ, bảo quản lâu dài cũng như thuận tiện cho việc khai thác và truy nhập thông tin Số hóa tài liệu giúp cho việc lưu trữ, truy xuất, chia sẻ, tìm kiếm thông tin một cách dễ dàng hơn cũng như linh hoạt trong việc chuyển đổi sang các loại dữ liệu số khác nhau và giảm được không gian lưu trữ cũng như công tác quản lý
Trung tâm có vốn tài liệu lớn, đa dạng, số lượng tài liệu ngày càng được
bổ sung nhiều từ nguồn bổ sung định kỳ và nguồn tài liệu nội sinh Trong khi
đó diện tích kho để tài liệu không tăng thêm, do vậy không thể đáp ứng được
sự gia tăng của vốn tài liệu Điều này thực sự đặt ra rất nhiều khó khăn cho công tác bảo quản trong một tương lai không xa Vì vậy số hóa tài liệu là việc
Trang 19làm cần thiết để giúp Trung tâm bảo quản nguồn tài liệu của mình, tiết kiệm diện tích kho, tiết kiệm chi phí đầu tư cơ sở vật chất, giúp bảo quản tài liệu tốt hơn tránh được sự hủy hoại của môi trường và sự tác động của con người ĐHQGHN với vai trò là một trong hai trường đại học đào tạo chất lượng cao hàng đầu của cả nước, với nhu cầu phát triển đào tạo và nghiên cứu khoa học đẳng cấp quốc tế, đào tạo tín chỉ, e-learning (đào tạo điện tử); đòi hỏi Trung tâm phải có kho tài nguyên tri thức khổng lồ, có khả năng đáp ứng tất
cả các ngành, chuyên ngành đào tạo với chất lượng cao Theo GS.TS Nguyễn Hữu Đức, Phó Giám đốc ĐHQGHN cho biết , trườ ng đang th ực hiện Đề án 16+23 nhằm xây d ựng 16 ngành đào tạo ĐH và 23 chuyên ngành đào tạo SĐH đạt trình độ quốc tế vào năm 2012 Theo học các chương trình này, sinh viên được hỗ trợ để học tiếng Anh nâng cao; từ năm thứ 2, bài giảng do các giáo viên nước ngoài và trong nước dạy bằng tiếng Anh được thực hành, tham gia nghiên cứu tại các phòng thí nghiệm hiện đại Mục tiêu của nhà trường là tập trung đào tạo đáp ứng theo nhu cầu xã hội với nguồn nhân lực chất lượng cao, có thể làm việc tại bất kỳ đâu trên thế giới với 77 ngành đào tạo, trong đó
có 105 chuyên ngành đào tạo đại học khác nhau, có 5 chương trình đào tạo tài năng, 3 chương trình đào tạo tiên tiến, 20 chương trình chất lượng và nhiều chương trình đào tạo đặc biệt khác
Từ thực tế đó, Trung tâm xác định việc đầu tư xây dựng và phát triển kho tài nguyên tri thức một mặt phải khởi tạo nguồn tài nguyên tri thức bằng cách xây dựng các CSDL điện tử chuyên ngành, xây dựng thư viện các bài giảng điện tử, đầu tư xây dựng và phát triển các nguồn tài nguyên số hóa (số hóa các luận án, luận văn, các giáo trình, sách giáo khoa của ĐHQGHN, các đề tài nghiên cứu khoa học của ĐHQGHN); mặt khác từng bước kết nối với các Trung tâm Thông tin-thư viện lớn trong nước và quốc tế, các trung tâm học liệu của cả nước để khai thác tối đa các nguồn lực thông tin đã được đầu tư,
Trang 20tránh tình trạng lãng phí, đồng thời làm giàu thêm kho tài nguyên tri thức của ĐHQGHN
Công tác số hóa tài liệu càng trở nên cấp thiết hơn nữa khi ĐHQGHN chuyển từ đào tạo niên chế sang đào tạo tín chỉ Phương thức đào tạo tín chỉ lấy sinh viên làm trung tâm, theo phương thức này, người học phải có khả năng tự học, tự tìm kiếm nguồn tài liệu dưới hướng dẫn của giảng viên để phục vụ cho việc học tập Với một đội ngũ cán bộ giảng viên hàng nghìn người, số sinh viên, nghiên cứu sinh đông tới hàng chục nghìn người, trong khi nguồn thông tin, tài liệu của Trung tâm còn khá hạn chế thì việc số hóa tài liệu là con đường tất yếu giúp Trung tâm có thể nhanh chóng thỏa mãn nhu cầu tin của người dùng
Trong khi đó ĐHQGHN là cơ quan có nhiều đơn vị, trường thành viên nằm phân tán Vì vậy nguồn tài liệu phân tán ở nhiều địa điểm khác nhau Số hóa tài liệu sẽ làm giảm công sức, chi phí của sinh viên trong trường tìm tài liệu học tập và giúp sinh viên có thể sử dụng thông tin nhanh chóng, đầy đủ Hiện tại tất cả các nguồn tài liệu của các thư viện nói chung và tại Trung tâm nói riêng đang hàng ngày, hàng giờ phải đối mặt với sự đe dọa của khí hậu, môi trường, của con người tác động vào Vì vậy, việc số hóa tài liệu không những giúp kéo dài tuổi thọ của tài liệu mà con tiết kiệm được diện tích kho mà còn giúp cho bạn đọc truy cập nhanh vào thông tin tài liệu bất cứ ở nơi đâu, thời điểm nào mà chỉ cần một máy tính nối mạng là được
Nhận thấy tầm quan trọng của công tác số hóa tài liệu, Trung tâm đã thử nghiệm việc số hóa từ năm 2005 với 5 tài liệu và bắt đầu triển khai công tác
số hóa tài liệu từ năm 2009 Trung tâm là một trong những thư viện đi đầu trong công tác số hóa tài liệu tại Việt Nam hiện nay
Trang 21CHƯƠNG 2 PHẦN MỀM NHẬN DẠNG ABBYY TRONG CÔNG TÁC SỐ HÓA TÀI LIỆU TẠI TRUNG TÂM THÔNG TIN – THƯ VIỆN
ĐẠI HỌC QUỐC GIA HÀ NỘI
2.1 Giới thiệu tổng quan về phần mềm nhận dạng ABBYY
2.1.1 Lịch sử hình thành và phát triển
ABBYY là tên phần mềm nhận dạng đồng thời cũng là tên công ty ABBYY do David Yang – một cựu sinh viên của Viện Vật lý Công nghệ
Mátxcơva sáng lập và hiện là Tổng Giám đốc của công ty này Ý tưởng tạo ra
một phần mềm nhận dạng nảy sinh ra khi David Yang phải dùng những cuốn
từ điển to lớn cồng kềnh để tra nghĩa của các từ và David Yang đã tính tới
việc làm ra một từ điển điện tử có thể cho phép mọi người dịch lời nói chỉ
trong một vài giây Ứng dụng từ điển này sau này trở thành sản phẩm đầu tiên
của ABBYY và được đặt tên là Lingvo
ABBYY mở rộng phạm vi nghiên cứu sang lĩnh vực nhận dạng ký tự và
năm 1993 ABBYY Recognition Server được chính thức ra mắt Ban đầu,
phần mềm này chỉ nhận dạng được các văn bản tiếng Nga và tiếng Anh, sau
nhiều năm phát triển không ngừng tới nay, ABBYY Recognition Server đã
của người dùng không chỉ ở nước Nga mà còn ở nước ngoài Vì thế, năm
1997 ABBYY bắt đầu mở rộng kinh doanh của mình trên toàn cầu và xây
dựng một mạng lưới phân phối quốc tế và thiết lập quan hệ đối tác với các
nhà sản xuất thiết bị tin học hàng đầu thế giới
Trang 22Hiện nay, ABBYY là một công ty đa quốc gia với 9 văn phòng ở các quốc gia khác nhau như Nga, Đức, Hoa Kỳ, Ukraina, Anh, Síp, Nhật Bản và Đài Loan…Sản phẩm ABBYY đang được bán tại hơn 130 quốc gia trên thế giới thông qua một mạng lưới các đối tác trong khu vực và quốc tế
ABBYY là nhà cung cấp hàng đầu thế giới về phần mềm và dịch vụ chuyển đổi tài liệu, dữ liệu, và nhận dạng ký tự ABBYY có 2 dòng sản phẩm chính: ABBYY Recognition Server và ABBYY FlexiCapture
2.1.2 Các tính năng cơ bản của phần mềm nhận dạng ABBYY
Công nghệ nhận dạng của hãng ABBYY là công nghệ nhận dạng hàng đầu thế giới, cho phép chuyển đổi tài liệu với nhiều tính năng và tiện ích:
Nhận dạng chính xác:
Phần mềm này cho phép nhận dạng chính xác 198 ngôn ngữ, bao gồm cả chữ in tiếng Việt với mức độ chính xác tới 99%, có thể chuyển đổi tài liệu giấy, ảnh số và các tập tin PDF sang văn bản điện tử ở định dạng có thể soạn thảo và tìm kiếm được ABBYY còn có khả năng giữ nguyên định dạng và dàn trang của tài liệu gốc tốt hơn bao giờ hết Chỉ trong chốc lát ta có thể chuyển đổi văn bản dạng ảnh thành văn bản số ở định dạng có thể soạn thảo được
Quản lý tập trung:
ABBYY có giao diện quản lý từ xa, giữ vai trò quản lý tập trung, cho phép người quản trị đặt cấu hình hệ thống theo các yêu cầu xử lý, các tham số nhận dạng, lịch trình thực hiện, khuôn dạng kết quả nhận dạng
Công cụ tích hợp mềm dẻo:
ABBYY có thể xử lý công việc với khối lượng lớn tùy ý: Việc quản trị
hệ thống cũng rất mềm dẻo làm cho máy hoạt động liên tục hoặc chỉ trong những khoảng thời gian nhất định Được trang bị công nghệ nhân dạng chữ in hàng đầu ABBYY nhận dạng tài liệu với tốc độ chính xác rất cao (với tiếng
Trang 23Việt là trên 99%) Nó cũng bao gồm chức năng quản lý chất lượng tự động như khả năng tự động xác định các trang có kết quả thấp và cung cấp giao diện soát lỗi thân thiện với người dùng
Đối với văn bản thuần text thì khá đơn giản, nhưng nếu trong văn bản có bảng biểu, cách dàn trang và trình bày theo cột hoặc theo các cấu trúc khác nhau thì đây là vấn đề lớn đối với các phần mềm nhận dạng khác chứ chưa nói gì đến đặc thù chữ viết của chúng ta có nhiều dấu đi kèm Nhưng với phần mềm nhận dạng ABBYY tài liệu được chuyển đổi từ dạng ảnh sang dạng có thể biên tập được những vẫn giữ nguyên cấu trúc so với bản gốc từ chữ viết tiếng Việt cho đến bảng biểu, cột, dòng, kí hiệu riêng…
Tài liệu sau nhận dạng chính xác gần như tuyệt đối so với bản gốc,tiết kiệm thời gian và công sức soạn thảo tài liệu:
Chính xác cấu trúc và dàn trang tài liệu, cung cấp cho người dùng các tài liệu điện tử soạn thảo được Công nghệ ADRT độc đáo của ABBYY phân tích tài liệu theo cách con người đọc tài liệu nhằm phát hiện và thiết lập các yếu tố định dạng của văn bản như styles, đầu trang và chân trang, số trang,
Chuyển đổi tập tin PDF thành các văn bản điện tử có thể soạn thảo
Định dạng kết quả đầu ra rất đa dạng:
+ PDF, PDF/A – 1a, PDF/A – 1b
Trang 24+ RTF, DOC, DOCX, Word XML
+ XLS, XLSX, HTML
Tốc độ xử lý nhanh, tiết kiệm thời gian và chi phí.Hệ thống cho phép
xử lý nhiều định dạng ảnh đầu vào khác nhau:
+ BMP: đen trắng, xám, màu + PNG: đen trắng, xám, màu + PCX, DCX: đen trắng, xám, màu Với nhiều tính năng hiện đại như trên, phần mềm nhận dạng của ABBYY đang được nhiều trung tâm thông tin - thư viện và các cơ quan đơn
vị đưa vào ứng dụng trong quá trình xây dựng thư viện số, quản lý và kinh doanh Đây là giải pháp hoàn chỉnh giải quyết vấn đề số hóa nhận dạng, một chủ đề không mới nhưng vẫn còn rất nóng hiện nay
Để dùng được phần mềm nhận dạng ABBYY, yêu cầu máy tính phải có tốc độ tối thiểu 1 GHz
Máy tính có thể chạy trên các hệ điều hành Microsoft Windows 7 hoặc Windows Vista, Microsoft Windows XP/ Microsoft Windows Server 2008/ Microsoft Windows Server 2003
Yêu cầu 1024 MB bộ nhớ để làm việc với giao diện ngôn ngữ tùy chọn
và cần thêm 512 MB RAM cho mỗi lõi của bộ vi xử lý
Yêu cầu phải có tối thiểu 700 MB ổ cứng để cài đặt ứng dụng và 700 MB trống để chương trình hoạt động
Máy quét tương thích chuẩn TWAIN hoặc WIA, máy ảnh số hoặc modem (tùy chọn) màn hình có độ phân giải tối thiểu 1024x76
Trang 25fax-2.1.3 Các ứng dụng chính của phần mềm nhận dạng ABBYY tại Trung tâm
+ Khả năng lưu trữ: Chuyển đổi một khối lượng lớn tài liệu giấy sang tài
liệu số dưới các định dạng có thể tìm kiếm và biên tập được như là MSWord,
Hãy tưởng tượng bạn đang có trong tay một số tài liệu giấy như sách, báo, tờ rơi quảng cáo, hợp đồng Máy quét chỉ có thể biến những tài liệu giấy này thành tài liệu dạng ảnh Với các tài liệu dạng ảnh chỉ có thể đọc mà không thể biên tập lại chúng trên các hệ soạn thảo điện tử hiện nay; các hệ thống tìm kiếm cũng không thể tìm được các đoạn văn bản trên những tài liệu này Với việc sử dụng phần mềm nhận dạng chữ in biên soạn lại các tài liệu dạng ảnh cũng như việc số hóa tài liệu sẽ được thực hiện rất đơn giản
Nhờ các tính năng vượt trội trên nên mặc dù mới được du nhập vào Việt Nam nhưng phần mềm nhận dạng ABBYY đã được nhiều cơ quan tổ chức đánh giá cao và đưa vào sử dụng như: Bộ Khoa học và Công nghệ (Cục Sở hữu trí tuệ), Trung tâm Thông tin Thư viện ĐHQG Hà Nội, Văn phòng TW Đoàn Thanh niên Cộng sản Hồ Chí Minh, Công ty Cổ phần Chứng Khoán Vndirect…
Trang 26Hiện nay Trung tâm thông tin thư viện Đại học Quốc gia Hà Nội đang sử dụng dòng sản phẩm ABBYY Recognition Server
Phần mềm ABBYY Recognition Server có thể nhận dạng các tài liệu in của hơn 198 ngôn ngữ
Nhận dạng ngôn ngữ Châu Á (ví dụ Nhật Bản, Trung Quốc)
Tới 30 %
Nhận dạng ngôn ngữ Châu Âu (ví dụ Anh, Đức, Pháp… ) Tới 20%
(*) Kết quả đánh giá dựa trên thử nghiệm của ABBYY
ABBYY Recognition Server có tính năng vượt trội hơn các phần mềm nhận dạng hiện nay Với khả năng làm việc tự động, chất lượng nhận dạng cao, chấp nhận nhiều định dạng đầu vào và cho phép kết xuất kết quả nhận dạng ra nhiều định dạng lưu trữ khác nhau
( Xem phụ lục: Hình 3)
+ Nhận dạng chính xác: Công nghệ nhận dạng chữ in đã đoạt nhiều giải
thưởng của ABBYY có khả năng nhận dạng 198 ngôn ngữ, trong đó có cả tiếng Việt, với độ chính xác gần như tuyện đối
+ Nhanh chóng triển khai và dễ sử dụng: ABBYY Recognition Server có
giao diện trực quan và có thể được thiết lập và hoạt động mà không có đào tạo trước
+ Được thiết kế xử lý khối lượng lớn tài liệu: ABBYY Recognition
Server được biết đến với khả năng mở rộng chưa từng có của nó Giải pháp là một cách dễ dàng cầu đa lõi CPU hoặc nhiều máy chủ, và do đó có thể đối phó với bất kỳ khối lượng của các tài liệu
Trang 27+ Sẵn sàng làm kết nối đến hệ thống Microsoft và Google doanh nghiệp tìm kiếm: ABBYY Recognition Server kết nối như một máy chủ OCR nền
cho hệ thống doanh nghiệp như Microsoft ® Office SharePoint ® Server, Windows ® Search và Google Search Appliance ™, nâng cao khả năng của
mình để tìm kiếm lên nội dung của tài liệu hình ảnh
ABBYY Recognition Server bao gồm một số thành phần, có thể được cài đặt vào cùng một hoặc trên máy tính khác nhau trong một mạng LAN
2.1.4 Các thành phần chính của phần mềm nhận dạng ABBYY
(Xem phụ lục: Hình 4)
Máy chủ quản lý - một thành phần trung tâm dịch vụ điều khiển hàng đợi
xử lý tài liệu, và phân phối các tác vụ trong số các trạm
Trạm xử lý tài liệu (Processing Station) Trạm quét (Scaner Station) - một trạm khách hàng thực thi chức năng quét và xử lý hình ảnh
Trạm chỉ mục (Indexing Station) - một trạm khách hàng đối với chỉ mục tài liệu và phân loại
Đầu nối vào Google Search Appliance ™ (GSA) - một thành phần cho phép Google Search Appliance để sử dụng ABBYY Recognition Server cho giải nén nội dung từ các tài liệu hình ảnh
Kết nối đến Microsoft ® tìm kiếm hệ thống (IFilter)-một thành phần cho phép Microsoft Office SharePoint Server và Windows tìm kiếm sử dụng ABBYY Recognition Server để trích xuất nội dung từ các tài liệu hình ảnh Giao diện điều khiển từ xa - bàn điều khiển máy khách được dùng để cấu hình và giám sát Server
Trang 282.2 Qúa trình triển khai phần mềm nhận dạng tiếng Việt ABBYY trong công tác số hóa tài liệu ở Trung tâm Thông tin Thƣ viện Đại học Quốc gia Hà Nội
Trong thời đại công nghệ thông tin phát triển mạnh mẽ như hiện nay, việc số hóa các loại sách, tài liệu nhằm chia sẻ, cung cấp thông tin tư liệu tới bạn đọc nhanh chóng đang trở nên bức thiết
Trung tâm Thông tin - Thư viện Đại học Quốc gia Hà Nội là nơi cung cấp thông tin, tạo điều kiện cho người đọc phát triển toàn diện, đặc biệt là tư duy sáng tạo, góp phần giúp ĐHQGHN hoàn thành sự nghiệp đào tạo nguồn tài liệu số Để Trung tâm thật sự là nơi đảm bảo chất lượng và hiệu quả giáo dục, đòi hỏi phải tăng cường vốn tài liệu, đảm bảo về nội dung, bao gồm đầy
đủ giáo trình, sách tham khảo chuyên ngành phù hợp với ngành nghề đào tạo của nhà trường Bên cạnh những vốn tài liệu truyền thống đó, chúng ta cần không ít một lượng vốn tài liệu số để người dùng tin dễ dàng truy cập thông tin mọi lúc mọi nơi, dễ dàng thuận tiện và nhanh chóng Từ tháng 10 năm
2009, Trung tâm bắt đầu làm công tác số hóa tài liệu, chủ yếu số hóa nguồn tài liệu nội sinh như luận án, luận văn, đề tài nghiên cứu khoa học, kỷ yếu hội nghị hội thảo không có bản mềm
Số hoá nguồn tài liệu - đây là công đoạn đòi hỏi đầu tư nhiều công sức và thời gian Nếu như trước đây, khi ta muốn số hóa một cuốn sách khoảng 2000 trang thì phải mất hàng mấy ngày để quét từng trang sách qua máy Scan Nhưng hiện nay cũng với cuốn sách đó chỉ mất vài giờ đồng hồ là cho ra một sản phẩm tài liệu số đảm bảo chất lượng tốt, sắc nét, hình ảnh đẹp, giống 100% bản gốc và đặc biệt còn cho phép tự động tạo các siêu dữ liệu mô tả và siêu dữ liệu cấu trúc của tài liệu ở định dạng XML Năm 2009 Trung tâm đã
có các thiết bị số hóa tài liệu của công nghệ KIRTAS APT 1600, công nghệ này cùng với thiết bị BookScan APT 1600 có thể giúp thư viện có thể số hóa nguồn tài liệu với số lượng lớn, giá cả hợp lý và đảm bảo chất lượng, phần
Trang 29mềm nhận dạng quang học ABBYY Recognition Server Đặc biệt là công
nghệ KIRTAS APT 1600 có một phần mềm biên tập BookScan Editor cho phép tự động biên tập, tạo siêu dữ liệu theo yêu cầu; BookScan APT 1600 không làm hư hỏng tài liệu gốc do không phải tháo gáy tài liệu đối với tài liệu
có độ dày trang khi thực hiện Scan
2.2.1 Qúa trình ứng dụng phần mềm nhận dạng ABBYY
Tổ chức và triển khai:
Địa điểm: Công tác số hóa tài liệu được tiến hành tại phòng Phát triển
Tài nguyên số của TTTT-TV ĐHQGHN
Cơ sở vật chất trang thiết bị để số hóa tài liệu:
Phòng Phát triển Tài nguyên số của Trung tâm được trang bị hệ thống máy móc hiện đại:
Bằng nguồn kinh phí của dự án thư viện điện tử, Trung tâm đầu tư hệ thống thiết bị số hóa Kirtas APT BookScan của Hoa Kỳ Các sản phẩm sau khi số hoá bằng kỹ thuật và phần mềm Kirtas có chất lượng hình ảnh đẹp nhất, thậm chí đẹp hơn cả bản gốc Kirtas mang đến một phương pháp sinh lợi
và dễ dàng có thể số hoá các tài liệu trên giấy như bản viết tay, các tài liệu tham khảo, luận văn, sách sử… và đưa nội dung lên mạng qua một giao diện hoàn hảo để phổ biến rộng khắp trên Internet và đồng thời đảm bảo được tính bảo mật Hệ thống thiết bị số hóa được trang bị bao gồm: Máy số hóa với tốc
độ tối đa là 1600 trang/giờ với tính năng lật giở trang tự động bằng cánh tay robot; 01 bộ máy tính Dell và phần mềm biên tập book scan editor (BSE) phục vụ công tác biên tập dữ liệu số hóa
+ 8 máy vi tính cấu hình cao
+ 1 bộ lưu trữ 8TB SAN/STORAGE
Các máy tính được cài phần mềm nhận dạng ký tự quang học OCR (Optical Character Recognition)
Trang 30Trung tâm có hệ quản trị mã nguồn mở Dspace
Nguồn nhân lực số hóa tài liệu:
Ngày nay, vai trò của cán bộ thư viện càng trở nên quan trọng, yêu cầu đặt ra đối với họ ngày càng cao Cán bộ thư viện không chỉ nắm vững chuyên môn nghiệp vụ mà còn phải luôn biết tìm tòi, học hỏi, nâng cao trình độ ngoại ngữ và kỹ năng tin học Những ứng dụng công nghệ thông tin vào thư viện đã làm thay đổi rất lớn đến phương thức phục vụ cũng như xử lý nghiệp vụ Đặc biệt đối với cán bộ số hóa tài liệu, chuyển dữ liệu sang dạng số hóa thì yêu cầu về trình độ tin học càng cao hơn Cán bộ thư viện làm công tác số hóa phải có trình độ chuyên môn nghiệp vụ thư viện, nghiệp vụ tin học và biết vận hành máy móc, trang thiết bị để số hóa tài liệu
Tại Trung tâm công tác số hóa được thực hiện tại Phòng Phát triển Tài nguyên số Phòng Phát triển Tài nguyên số có 8 cán bộ trình độ đại học trở lên gồm các chuyên ngành Thông tin - Thư viện và tốt nghiệp chuyên ngành Công nghệ Thông tin
Chức năng nhiệm vụ chính của Phòng Phát triển Tài nguyên số là: thu thập tài liệu, xử lý tài liệu, số hóa tài liệu, biên mục và đưa file tài nguyên số lên phần mềm để tạo cơ sở dữ liệu điện tử đáp ứng nhu cầu thông tin để hỗ trợ giảng viên, cán bộ viên chức và sinh viên của trường hoàn thành nhiệm vụ giảng dạy, học tập và nghiên cứu khoa học Đồng thời phục vụ nhu cầu tra cứu, nghiên cứu tài liệu tham khảo chuyên ngành của sinh viên trong trường
và sinh viên các trường đại học khác
Nhiệm vụ 1: Thu thập tài liệu luận án, luận văn, khóa luận tốt nghiệp, đề tài nghiên cứu khoa học, giáo trình để số hóa tài liệu
Nhiệm vụ 2: Nhận và lưu đĩa luận án, luận văn
Nhiệm vụ 3: Tạo bộ sưu tập, xử lý, biên mục tài liệu và đưa dữ liệu điện
tử lên mạng
Trang 31Nhiệm vụ 4: Download tài liệu đã đặt mSua phục vụ nhu cầu học tâp của sinh viên, giáo viên và cán bộ nghiên cứu khoa học của trường
2.2.2 Quy trình xử lý của phần mềm
Quá trình chuyển đổi tài liệu có thể chia làm 11 bước:
Bước 1: Lựa chọn tài liệu số hóa
Trước hết Trung tâm lựa chọn để dần tạo lập thư viện số là số hóa tài liệu nội sinh in trên giấy hiện có, ưu tiên số hóa luận án, luận văn, giáo trình, kết quả nghiên cứu khoa học Công việc số hóa tài liệu nội sinh là nhiệm vụ trọng
Lựa chon tài liệu số hóa
Phân loại, vệ sinh, tiền xử lý
tài liệu số hóa
Quét tài liệu
Xử lý ảnh, tài liệu vừa
được quét
Kiểm tra chất lượng
Soát lỗi nhận dạng và kiểm tra chất lượng
Kết xuất File
Nhập siêu dữ liệu Metadata cho tài liệu
Kiểm tra chất lượng
tổng thể Lưu trữ File và trả tài
liệu in
Trang 32tâm, cần được triển khai trước khi bắt tay vào xây dựng thư viện điện tử Bởi
lẽ, sau khi xây dựng xong hạ tầng mạng và có các phần mềm Hệ thống, phần mềm đầy đủ nhưng cơ quan vẫn không có hoặc có rất ít tài liệu số hoá nội sinh chắc chắn không thể phát huy được hiệu quả
Trong việc lựa chọn tài liệu để số hoá, ta phải ưu tiên các tài liệu đặc thù của thư viện, các tài liệu duy nhất và có giá trị lâu dài để trao đổi, ví dụ: các tài liệu quý hiếm, các sưu tập có giá trị Ưu tiên số hoá trước hết đối với tài liệu chưa ở đâu số hoá, tài liệu tiếng hiếm, tiếng Việt, sưu tập đặc biệt và tài liệu một bản, chẳng hạn sách quý hiếm và bản viết tay; tài liệu được sử dụng cao, thường xuyên được yêu cầu cho giảng dạy và nghiên cứu Cụ thể Trung tâm đã và đang triển khai kế hoạch số hóa sách, tài liệu luận án, luận văn, đề tài nghiên cứu khoa học, kỷ yếu hội nghị hội thảo Song song với việc số hoá là việc xây dựng các siêu dữ liệu đối với từng tài liệu và cập nhật tài liệu đã được số hoá này vào CSDL tương ứng để phục vụ kịp thời cũng như làm cơ sở cho việc xây dựng thư viện số
Bước 2: Phân loại, vệ sinh, tiền xử lý tài liệu số hóa
Tiến hành phân loại tài liệu theo các tiêu chuẩn sau:
Độ ưu tiên của tài liệu
Chất lượng của tài liệu(Tài liệu cũ,tài liệu mới, chất lượng giấy)
Khổ tài liệu(Chiều dài, chiều rộng của tài liệu)
Kiểm tra toàn bộ tài liệu trước khi quét, xử lý các trang bị gấp mép, rọc các trang tài liệu bị dính…
Vệ sinh từng loại tài liệu đã được phân loại bao gồm:
Làm sạch bìa, phần bao bọc bên ngoài tài liệu
Trang 33 Làm sạch các trang sách bên trong một cách nhẹ nhàng và sạch nhất trước khi đưa vào máy APT để không ảnh hưởng đến chất lượng ảnh khi quét tài liệu
Trong quá trình vệ sinh cần kiểm tra chất lượng của tài liệu và xử lý tiếp những tài liệu bị lỗi (dính 2 trang, gấp mép trang…)
Sau khi vệ sinh xong sắp xếp tài liệu lên giá vào vị trí chờ nhất định đưa vào hệ thống chờ quét ảnh
Bước 3: Quét tài liệu (scaning)
Thực hiện quét tài liệu bằng máy APT (Auto-Page Turning Scanner)
Để đạt hiệu xuất cao trong quy trình quét tài liệu ta cần thiết lập các profile (khuôn mẫu) cho từng loại tài liệu (tài lieeuj cũ, mới, chất lượng các trang tài liệu tốt, xấu), phân loại tài liệu theo kích cỡ trước khi đưa vào máy
để không phải thay đổi cánh tay liên tục Chọn cánh tay giở trang phù hợp với
độ rộng của cuốn tài liệu cần quét
Trước khi đưa tài liệu và máy APT, cán bộ số hóa phải kiểm tra hình ảnh hiển thị có vấn đề gì không, thường là kiểm tra xem ảnh có nét không, có quá sáng hoặc quá tối không Nếu ảnh không rõ nét thì cần tập trung lại ống hình camera, chuyển sang chế độ auto để ống kính tự điều chỉnh để tiêu cự chụp rơi theo chuyển về chế độ Manual để định vị ống kính (định dạng ảnh thường dùng là TIFF, JPEG)
Độ phân giải thông thường đặt khi quét tài liệu là 300 dpi, tuy nhiên có thể tăng giảm độ phân giải tùy thuộc vào loại tài liệu và yêu cầu của vịêc số hóa
Kiểm soát, cài đặt, điều chỉnh lại hệ thống quét sao cho các ảnh sau khi quét đạt chất lượng tốt nhất
Kiểm soát số trang trang tài liệu, tránh bị thiếu trong quá trình quét
Trang 34Phân loại xếp các tài liệu đã quét ảnh lên vị trí giá để tài liệu đã quét ảnh Ghi nhật ký số hóa tài liệu (tài liệu đã quét, tài liệu đang chờ quét)
Bước 4: Xử lý ảnh (Image processing) tài liệu vừa được quét
Nhằm nâng chất lượng ảnh của tài liệu phục vụ cho bạn đọc, bên cạnh phục vụ quá trình nhận dạng được tốt hơn, cần có các thao tác xử lý ảnh bao gồm:
Cắt xén ảnh (cropping)
Dựng thẳng hình ảnh (deskewing)
Thay đổi nền (làm đồng loạt, hoặc loại bỏ nền)
Thay đổi kích thước ảnh…
Thực hiện xử lý ảnh và nâng cao chất lượng hình ảnh (image processing) Chia số ảnh thành nhiều batch, mỗi batch khoảng 300 trang (đối
với sách dày hơn 300 trang) Sau đó mở cửa sổ Run batch chọn quality là 85,
độ phân giải 300 dpi Toàn bộ ảnh sau khi được quét sẽ được lưu ở dạng TIFF hoặc JPEG và được lưu trữ trên Storage Trong quá trình xử lý ảnh, cán
bộ số hóa phải lưu ý các thông số kỹ thuật sao cho đúng với yêu cầu
Một vài chú ý khi quét ảnh:
Đối với sách có nhiều ảnh màu, ảnh màu mờ gần với màu nền, nền sách lại hơi đen cần làm cho nền sách trắng hơn Nếu chỉnh ánh sáng để nền sách đen trở thành trắng thì sẽ làm mất màu những ảnh có màu mờ Do đó phải dùng chương trình xử lý ảnh chuyên dụng để lại bỏ nền Có thể dùng phần mềm Photoshop để lựa chọn màu gần với màu nền để loại bỏ
Phần mềm Snagit cho phép lưu file JPG có kích thước nhỏ nhưng chất lượng ảnh không mấy thay đổi và giữ nguyên độ phân giải Do đó khi cần giảm kích thước file hàng loạt thì nên dùng chức năng Batch resize của Snagit Thực hiện kiểm tra quản lý chất lượng
Trang 35Thực hiện kiểm tra chất lượng (Quality check) bằng cách kiểm tra sản phẩm theo danh sách (check list) và chỉnh sửa lại sản phẩm nếu chưa đạt chất lượng bằng Image Correction
Đôi khi không có một nhu cầu để xử lý tài liệu quan trọng đã được công nhận với độ chính xác đặc biệt Đồng thời, chất lượng của các quét không thể
là hoàn hảo, bị độ phân giải thấp và tiếng ồn không mong muốn Trong trường hợp này là rất quan trọng để có một cơ chế bảo đảm chất lượng đáng tin cậy
Tự động kiểm soát chất lượng cho phép các quản trị viên để thiết lập một ngưỡng cho sự công nhận chính xác: tài liệu với văn bản chất lượng nghèo sẽ không được chuyển đổi, nhưng thay vào đó được lưu trữ trong thư mục riêng biệt
Bước 5: Kiểm tra chất lượng hình ảnh vừa xử lý:
Để tránh sai sót trong quá trình scan cũng như xử lý ảnh, cần có một bước kiểm tra chất lượng, tại bước này được tiến hành độc lập bằng một ngườ khác Nếu vẫn còn sai sót, kết quả sẽ được gửi về các bước trước để làm lại
Một số điểm cần kiểm tra đối với file JPEG:
Đảm bảo tài liệu không thiếu trang