DANH MỤC CÁC TỪ VIẾT TẮT Từ/Cụm từ Từ/Cụm từ đầy đủ Ý nghĩa ATTT An toàn thông tin An toàn thông tin API Application Programming Interface Giao diện lập trình ứng dụng CNTT Công ng
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN VĂN VƯƠNG
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG ĐẢM BẢO AN TOÀN DỮ LIỆU ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM
ĐẠI HỌC ĐÀ NẴNG
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2016
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
NGUYỄN VĂN VƯƠNG
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG ĐẢM BẢO AN TOÀN DỮ LIỆU ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM
ĐẠI HỌC ĐÀ NẴNG
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH
Đà Nẵng – Năm 2016
Trang 3LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Tác giả luận văn
Nguyễn Văn Vương
Trang 4MỤC LỤC
MỞ ĐẦU 1
1 Tính cấp thiết của đề tài 1
2 Mục tiêu nghiên cứu 3
3 Đối tượng và phạm vi nghiên cứu 4
4 Phương pháp nghiên cứu 4
5 Bố cục của luận văn 5
6 Tổng quan tài liệu nghiên cứu 5
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 6
1.1 TỔNG QUAN VỀ HỆ THỐNG THÔNG TIN 6
1.1.1 Khái niệm hệ thống thông tin 6
1.1.2 Phân loại hệ thống thông tin 7
1.1.3 Các thành phần của một hệ thống thông tin 7
1.1.4 Phát triển hệ thống thông tin 8
1.2 THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU ĐÀO TẠO 9
1.2.1 Quy trình quản lý dữ liệu đào tạo 9
1.2.2 Đánh giá hiện trạng quản lý dữ liệu đào tạo hiện nay 10
1.3 TỔNG QUAN KỸ THUẬT XỬ LÝ ẢNH 12
1.3.1 Khái niệm xử lý ảnh 12
1.3.2 Quy trình xử lý ảnh 14
1.3.3 Một số ứng dụng của công nghệ xử lý ảnh 15
1.4 KỸ THUẬT NHẬN DẠNG KÝ TỰ QUANG HỌC 16
1.4.1 Khái niệm nhận dạng ký tự quang học 16
1.4.2 Các yếu tố đầu vào quyết định thành công của hệ thống OCR 17
1.4.3 Một số ứng dụng của OCR 17
1.5 THƯ VIỆN TESSERACT 19
Trang 51.5.1 Sơ lược Tesseract 19
1.5.2 Cấu trúc Tesseract 20
1.5.3 Cách thức Tesseract làm việc 20
1.5.4 Thư viện VietOCR.NET 22
1.6 KIẾN TRÚC HƯỚNG DỊCH VỤ 23
1.6.1 Tổng quan về SOA 23
1.6.2 Kiến trúc SOA 24
1.6.3 Phân tích tính ứng dụng của SOA trong hệ thống 25
1.6.4 Những thách thức trong mô hình SOA 25
1.7 KẾT LUẬN CHƯƠNG 1 25
CHƯƠNG 2 GIẢI PHÁP CHỐNG CAN THIỆP DỮ LIỆU ĐIỂM ĐÀO TẠO 27
2.1 GIỚI THIỆU 27
2.2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 27
2.2.1 Phân tích hệ thống 28
2.2.2 Thiết kế hệ thống 30
2.2.3 Thiết kế cơ sở dữ liệu 32
2.3 XÂY DỰNG THUẬT TOÁN NHẬN DẠNG KÝ IN TỰ QUANG HỌC DẠNG SỐ TRONG BÀI TOÁN NHẬN DẠNG BẢNG ĐIỂM 34
2.3.1 Các yêu cầu của tệp tin ảnh đầu vào 34
2.3.2 Chuẩn hóa tệp tin ảnh 34
2.3.3 Xây dựng thuật toán 35
2.3.4 Kiểm thử thuật toán 38
2.3.5 Đánh giá thuật toán 38
2.3.6 Xây dựng dịch vụ trích xuất thông tin từ bảng điểm sinh viên 39
2.4 XÂY DỰNG MÔ-ĐUN TƯƠNG TÁC VỚI HỆ THỐNG THÔNG TIN ĐÀO TẠO 40
Trang 62.4.1 Cấu trúc dữ liệu hệ thống thông tin đào tạo 40
2.4.2 Các dịch vụ của hệ thống thông tin đào tạo 41
2.4.3 Xây dựng mô-đun tương tác với hệ thống thông tin đào tạo 41
2.5 KẾT LUẬN CHƯƠNG 2 42
CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 44
3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 44
3.1.1 Ngôn ngữ lập trình 44
3.1.2 Cơ sở dữ liệu 44
3.2 XÂY DỰNG CƠ SỞ DỮ LIỆU LƯU TRỮ TỆP TIN ẢNH BẢNG ĐIỂM 44
3.2.1 Thu thập và xử lý các nguồn dữ liệu 44
3.2.2 Xây dựng dịch vụ truy xuất dữ liệu 48
3.3 XÂY DỰNG WEBSITE TƯƠNG TÁC VỚI NGƯỜI DÙNG CUỐI 51
3.3.1 Xây dựng hệ thống 51
3.3.2 Tích hợp mô-đun trích xuất dữ liệu từ bảng điểm sinh viên 57
3.3.3 Tích hợp mô-đun tương tác với hệ thống thông tin đào tạo 58
3.4 THỬ NGHIỆM VÀ ĐÁNH GIÁ CHƯƠNG TRÌNH 58
3.4.1 Thử nghiệm mô-đun nhận dạng dữ liệu 58
3.4.2 Thử nghiệm mô-đun tương tác với người dùng cuối và mô-đun kết nối với hệ thống đào tạo 59
3.5 XÂY DỰNG CHÍNH SÁCH VÀ GIẢI PHÁP BẢO MẬT CHO HỆ THỐNG 63
3.5.1 Xác định các mối đe dọa hệ thống 64
3.5.2 Gian lận và đánh cắp thông tin 64
3.5.3 Tấn công từ bên bên ngoài hệ thống 64
3.5.4 Sử dụng mã nguy hiểm 64
3.6 KẾT LUẬN CHƯƠNG 3 65
Trang 7KẾT LUẬN 66 DANH MỤC TÀI LIỆU THAM KHẢO 67 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
Từ/Cụm từ Từ/Cụm từ đầy đủ Ý nghĩa
ATTT An toàn thông tin An toàn thông tin
API Application Programming Interface Giao diện lập trình ứng dụng
CNTT Công nghệ thông tin Công nghệ thông tin
DPI Dot Per Inch Đơn vị chỉ số lượng điểm trên một
inch vuông DSS Decision Support System Hệ thống trợ giúp ra quyết định
ISCA Information System for
Competitive Advantage
Hệ thống tăng cường khả năng cạnh tranh
MIS Management Information System Hệ thống thông tin quản lý
OCR Optical Character Recognition Nhận dạng ký tự in quang học SOA Service Oriented Architecture Kiến trúc hướng dịch vụ
TPS Transaction Processing System Hệ thống thông tin xử lý giao dịch
Trang 9DANH MỤC CÁC BẢNG
3.7 Đặc tả Usecase Nhận thông báo qua email 55 3.8 Đặc tả Usecase Xem kết quả nhận dạng 55 3.9 Đặc tả Usecase Nhận dạng bảng điểm 56
Trang 10DANH MỤC CÁC HÌNH
Số
1.1 Các chức năng chính của hệ thống thông tin 6 1.2 Các thành phần trong hệ thống thông tin 8
1.5 Sơ đồ tổng quát của hệ thống xử lý ảnh 14
2.7 Ảnh gốc đã được chuyển về dạng nhị phân 34 2.8 Bản sao ảnh gốc với dạng màu được đảo ngược 35 2.9 Thuật toán đánh dấu các khối chữ nhật 36
Trang 11Số
2.11 Kết quả khi chạy thuật toán đánh dấu các khối chữ nhật 38 2.12 Kết quả khi chạy thuật toán nhận dạng bảng điểm 38 2.13 Sơ đồ cơ sở dữ liệu hệ thống đào tạo 40 3.1 Bảng ghi điểm bộ phận 1,2 và giữa kỳ 45
3.4 Cấu trúc thư mục lưu tệp tin bảng điểm 50 3.5 Biểu đồ usecase tổng quát website tương tác với người
3.15 Sử dụng Jquery Ajax để lấy dữ liệu thông qua API 63 3.16 Kết quả trả về khi thực hiện truy vấn đến API 63
Trang 12MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong các hệ thống thông tin, việc đảm bảo vấn đề an toàn thông tin (ATTT) được xem là sự sống còn, là giá trị tồn tại của hệ thống Thế nhưng, không phải tổ chức nào cũng nhận thức được tầm quan trọng của vấn đề bảo mật thông tin và những nguy cơ có thể xảy ra từ việc công khai thông tin trên mạng internet
Hiện nay, trường Đại học Sư phạm, Đại học Đà Nẵng đang vận hành hệ thống thông tin đào tạo, cung cấp cho sinh viên công cụ để tra cứu điểm, đăng
ký học, giảng viên và bộ phận quản lý nhập điểm và thực hiện các nghiệp vụ khác Hệ thống thông tin đào tạo của Nhà trường được triển khai trên cơ sở các máy chủ vật lý tự xây dựng và quản lý bởi các đơn vị trong nhà Trường Qua thực tế vận hành, hệ thống vẫn còn tiềm ẩn các vấn đề về bảo mật dẫn đến các nguy cơ mất ATTT, đặc biệt là dữ liệu về điểm môn học của sinh viên
Với đặc điểm là một hệ thống thông tin phục vụ cho nhiều người, nhiều mục đích khác nhau, hệ thống thông tin đào tạo của nhà Trường chia sẻ nhiều
dữ liệu quan trọng với nhiều đối tượng người dùng khác nhau Chẳng hạn, sinh viên có thể vào xem điểm; giảng viên nhập điểm thành phần 1 và 2, cán
bộ quản lý nhập điểm thành phần 3; bộ phận quản lý máy chủ có thể vào chỉnh sửa dữ liệu trong cơ sở dữ liệu (CSDL) Các đối tượng này khi sử dụng mạng internet để truy cập hệ thống thường sẽ đối mặt với nguy cơ bị mất an toàn như: truy cập bất hợp pháp, sao chép, lưu trữ hoặc chuyển đến cho các đối tượng không được phép Nguy hiểm hơn là dữ liệu điểm bị thay đổi mà người dùng không hề biết Việc thay đổi dữ liệu lại càng dễ dàng hơn nếu những cá nhân có mục đích xấu lại là những người có hiểu biết về công nghệ
Trang 13thông tin (CNTT) hoặc là những người quản trị hệ thống, quản trị ứng dụng trong Nhà trường
Hiện tại, nhà Trường đã áp dụng một số biện pháp quản lý như sao lưu
dữ liệu thường xuyên, tăng cường công tác an ninh mạng và bảo vệ phòng máy Tuy nhiên các giải pháp này vẫn mang tính tạm thời, vẫn tìm ẩn những nguy cơ như đã đề cập ở trên do chưa có cơ chế chống sửa đổi dữ liệu
Bên cạnh đó, giải pháp số hóa tài liệu, công văn đã được nghiên cứu triển khai tại một số đơn vị như Thư viện, phòng Tổ chức - Hành chính Trong tương lai, giải pháp số hóa bảng điểm gốc sẽ được áp dụng triển khai tại các Khoa/Phòng có công tác quản lý điểm Việc số hóa các bảng điểm gốc của sinh viên kết hợp với công nghệ xử lý ảnh, chúng ta hoàn toàn có thể tra cứu, tìm kiếm điểm môn học nào thuộc về sinh viên nào Bên cạnh đó, dữ liệu
là các tệp tin ảnh thì không thể sửa đổi Chính vì vậy, mỗi khi so sánh, các bảng điểm này sẽ là cơ sở cho việc tìm kiếm sự thay đổi giữa dữ liệu điểm tại phòng Đào tạo và dữ liệu điểm tại các Khoa/Phòng
Trên cơ sở phân tích hiện trạng công tác quản lý tại trường Đại học Sư phạm, tôi đi sâu vào việc nhận dạng ký tự in quang học dạng số, từ đó cho phép tìm kiếm trên các bảng điểm được số hóa Bên cạnh đó, tôi nghiên cứu cấu trúc dữ liệu của hệ thống đào tạo Từ đó, xây dựng các dịch vụ hỗ trợ người dùng so sánh, tìm kiếm sự khác biệt dữ liệu giữa hệ thống đào tạo và các bảng điểm gốc nhằm tăng cường công tác bảo vệ an toàn dữ liệu, góp phần tăng cường tính tin cậy của hệ thống thông tin đào tạo Nhằm thực hiện các mục tiêu đề ra, tôi chọn đề tài “Nghiên cứu xây dựng hệ thống đảm bảo
an toàn dữ liệu đào tạo tại trường Đại học Sư phạm – Đại học Đà Nẵng” làm
đề tài tốt nghiệp cao học
Trang 142 Mục tiêu nghiên cứu
Về lý thuyết: Tìm hiểu và nghiên cứu lý thuyết xử lý ảnh và nhận dạng
ký tự in quang học dạng số Bên cạnh đó, đề tài thực hiện nghiên cứu lý thuyết kiến trúc hướng dịch vụ nhằm xây dựng công cụ giao tiếp giữa các ứng dụng khác nhau
Về ứng dụng: Xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường Đại học Sư phạm – Đại học Đà Nẵng bao gồm các chức năng:
- Số hóa và lưu trữ bảng điểm gốc;
- Nhận dạng và tìm kiếm thông tin điểm trên bảng điểm;
- So sánh, đối chiếu với hệ thống đào tạo nhằm tìm kiếm sự khác biệt
về điểm;
- Thống kê, báo cáo
Để đạt được mục tiêu trên, nhiệm vụ của tôi là nghiên cứu đề xuất giải pháp và xây dựng công cụ để sử dụng lại các hệ thống nhận dạng ký tự in quang học và tích hợp vào hệ thống nhằm tạo ra kho dữ liệu điểm sinh viên
có thể tìm kiếm, đối chiếu trên các tệp tin ảnh là các bảng điểm
Về lý thuyết:
- Tìm hiểu kỹ thuật xử lý ảnh và nhận dạng ký tự quang học
- Nghiên cứu các thư viện nhận dạng ký tự quang học
- Nghiên cứu hệ thống thông tin đào tạo
- Nghiên cứu công nghệ web 2.0
Về thực tiễn: Đề tài đề xuất giải pháp và xây dựng công cụ để nhận dạng điểm môn học của sinh viên trong các bảng điểm được lưu trữ dưới dạng tệp tin ảnh Từ đó, xây dựng hệ thống so sánh đối chiếu nhằm tìm ra sự thay
Trang 15đổi dữ liệu điểm trong hệ thống thông tin đào tạo của trường Đại học Sư phạm, Đại học Đà Nẵng
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Hệ thống thông tin đào tạo của trường Đại học
Sư phạm, Đại học Đà Nẵng; Thư viện xử lý ảnh và nhận dạng ký tự in quang học dạng số
Phạm vi nghiên cứu: Đề tài tập trung nghiên cứu giải pháp nhận dạng
ký tự in quang học dạng số nhằm xây dựng hệ thống chống can thiệp dữ liệu trong hệ thống thông tin đào tạo trường Đại học Sư phạm, Đại học Đà Nẵng
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu, tôi đã sử dụng hai phương pháp chính là nghiên cứu lý thuyết và nghiên cứu thực nghiệm
Phương pháp nghiên cứu lý thuyết
- Các tài liệu về cơ sở lý thuyết: xử lý ảnh, nhận dạng ký tự quang học,
kỹ thuật lập trình
- Các tài liệu mô tả một số công cụ xử lý ảnh và nhận dạng ký tự
- Công nghệ web 2.0, kiến trúc hướng dịch vụ (SOA)
- Các tài liệu liên quan đến một số nghiên cứu về bảo mật và an toàn thông tin
Phương pháp thực nghiệm
- Sử dụng các hệ thống xử lý ảnh và nhận dạng ký tự quang học để trích xuất dữ liệu từ các tệp tin ảnh
- Thực nghiệm nhận dạng và kiểm tra kết quả
- Xây dựng công cụ kiểm tra, đối chiếu với hệ thống thông tin về điểm của Phòng đào tạo
Trang 165 Bố cục của luận văn
Báo cáo của luận văn được tổ chức thành 3 chương chính như sau: Chương 1: Tập trung phân tích hiện trạng quản lý hệ thống thông tin đào tạo; cơ sở lý thuyết về xử lý ảnh và nhận dạng ký tự in quang học dạng số; cuối chương là cơ sở lý thuyết về mô hình kiến trúc hướng dịch vụ
Chương 2: Nghiên cứu xây dựng thuật toán nhận dạng ký tự in quang học dạng số trên đối tượng là bảng điểm sinh viên; Xây dựng mô-đun tương tác với hệ thống thông tin đào tạo
Chương 3: Đề tài tập trung xây dựng và triển khai hệ thống bằng cách tích hợp các mô-đun ở chương 2 Từ đó, xây dựng hệ thống website tương tác với người dùng cuối Cuối chương, đề tài xây dựng hệ thống các chính sách
và giải pháp bảo mật cho hệ thống
Kết thúc luận văn là phần kết luận và đề xuất hướng phát triển Trong phần này đề tài tổng kết các nội dung đã nghiên cứu và đề xuất hướng phát triển trong tương lai
6 Tổng quan tài liệu nghiên cứu
Trong luận văn này, các tài liệu nghiên cứu tập trung vào lý thuyết về các hệ thống thông tin, giáo trình xử lý ảnh và nhận dạng ký tự quang học, kỹ thuật xây dựng và phát triển hệ thống Các tài liệu tham khảo có thể được kể đến như:
- Giáo trình hệ thống thông tin
- Giáo trình Xử lý ảnh
- Quy trình phát triển phần mềm
Trang 17CHƯƠNG 1
NGHIÊN CỨU TỔNG QUAN
1.1 TỔNG QUAN VỀ HỆ THỐNG THÔNG TIN
1.1.1 Khái niệm hệ thống thông tin
Trong các tổ chức, việc tin học hóa các quy trình, nghiệp vụ nhằm tạo
ra sản phẩm hoặc hỗ trợ ra quyết định bằng các ứng dụng phần mềm ngày càng được quan tâm Các ứng dụng này được gọi là hệ thống thông tin
Hệ thống thông tin là một hệ thống bao gồm các yếu tố có quan hệ với nhau cùng làm nhiệm vụ thu thập, xử lý, lưu trữ, phân phối thông tin và dữ liệu, cung cấp một cơ chế phản hồi để đạt được một mục tiêu định trước [1] Giống như các hệ thống khác, hệ thống thông tin có đầu vào là dữ liệu đầu ra
là thông tin
Hình 1.1 Các chức năng chính của hệ thống thông tin [2]
Dữ liệu đầu vào là các mô tả trung thực, khách quan về đặc tính vốn có của một đối tượng trong thế giới thực Thông qua các xử lý, biến đối và có sự tham gia của tri thức, dữ liệu đầu vào sẽ được chuyển thành thông tin Thông tin là dữ liệu được tổ chức theo một cách sao cho chúng mang lại một giá trị gia tăng so với giá trị vốn có của bản thân sự kiện đó Hình 1.1 mô tả các chức năng chính trong một hệ thống thông tin
Trang 181.1.2 Phân loại hệ thống thông tin
Hệ thống thông tin có thể phân loại dựa theo các tiêu chí khác nhau thông thường, hệ thống thông tin được phân loại theo mục đích phục vụ của thông tin đầu ra hoặc mục đích hoạt động trong các tổ chức
Mặc dù rằng các hệ thống thường sử dụng các công nghệ khác nhau nhưng chúng phân biệt nhau trước hết bởi thông tin đầu ra phục vụ các loại hoạt động nào mà chúng trợ giúp Theo cách này có năm loại: Hệ thống thông tin xử lý giao dịch (TPS); Hệ thống thông tin quản lý (MIS); Hệ thống trợ giúp ra quyết định (DSS); Hệ chuyên gia (ES); Hệ thống thông tin tăng cường khả năng cạnh tranh (ISCA)
Cách phân loại thứ hai dựa vào các nghiệp vụ trong tổ chức mà hệ thống thông tin được ứng dụng Theo cách này hệ thống thông tin trong tổ chức gồm các hệ thống: Hệ thống thông tin tài chính; Hệ thống thông tin Marketing; Hệ thống thông tin quản lý kinh doanh và sản xuất; Hệ thống thông tin quản trị nhân lực; Hệ thống thông tin văn phòng
1.1.3 Các thành phần của một hệ thống thông tin
Các thành phần trong một hệ thống thông tin gồm con người, các thiết
bị phần cứng, phần mềm, dữ liệu nhằm thực hiện các hoạt động thu thập, lưu trữ, xử lý dữ liệu, tạo ra và phân phối thông tin trong tập hợp rằng buộc là môi trường Hình 1.2 mô tả tổng quát các thành phần trong một hệ thống thông tin Trong sơ đồ 1.2, phần cứng có nhiệm vụ kết nối các thiết bị vật lý
và tương tác với con người, phần mềm điều khiển phần cứng và thao tác trên
dữ liệu, tiến trình là tập hợp các nghiệp vụ trong hệ thống, con người thực hiện xây dựng, vận hành hệ thống
Trang 19Hình 1.2 Các thành phần trong hệ thống thông tin [2]
1.1.4 Phát triển hệ thống thông tin
Phát triển hệ thống thông tin là xây dựng mới hay hoàn thiện một hệ thống thông tin nhằm nâng cao chất lượng thu thập, xử lý, phân phối, lưu trữ
dữ liệu và thông tin Việc phát triển hệ thống thông tin có nhiều nguyên nhân,
cụ thể như sau:
- Hệ thống thông tin hiện tại không thể đáp ứng được yêu cầu đặt ra;
- Sự thay đổi luật của nhà nước;
- Những yêu cầu mới của nhà quản lý: ký kết hợp đồng mới, thay đổi sản phẩm, …;
- Sự thay đổi của công nghệ: thiết bị công nghệ mới, xuất hiện hệ quản trị cơ sở dữ liệu;
- Gặp phải những vấn đề cản trở hoạt động của tổ chức;
- Cần tạo ra những ưu thế mới trong cạnh tranh
Trang 20- Cắt giảm được chi phí quan trọng
Vòng đời phát triển hệ thống thông tin có thể chia thành các giai đoạn như sau:
- Khởi tạo và lập kế hoạch dự án;
- Phân tích hệ thống;
- Thiết kế hệ thống;
- Triển khai hệ thống;
- Vận hành và bảo trì hệ thống
1.2 THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU ĐÀO TẠO
Hiện nay, phòng Đào tạo trường Đại học Sư phạm có nhiều tổ chuyên trách các nhiệm vụ khác nhau, như: tổ quản lý dữ liệu, tổ giáo vụ, … các tổ chuyên trách hoạt động độc lập và cùng sử dụng chung hệ thống thông tin đào tạo
1.2.1 Quy trình quản lý dữ liệu đào tạo
Công tác quản lý dữ liệu được thực hiện qua nhiều công đoạn với sự tham gia của nhiều đối tượng khác nhau Hình 1.3 mô tả các nghiệp vụ làm phát sinh dữ liệu đào tạo Đầu tiên, bộ phận chuyên trách phòng đạo tạo sẽ trích xuất danh sách sinh viên của môn học thành bảng ghi điểm, sau đó bảng ghi điểm này được gửi cho cho giáo viên và bộ phận khảo thí Giáo viên và
bộ phận khảo thí tiến hành ghi điểm vào bảng điểm Trước khi gửi bảng ghi điểm về cho đào tạo và giáo vụ khoa, giáo viên sẽ nhập điểm lên hệ thống đào tạo Bộ phận khảo thí cũng tiến hành tương tự giáo viên Giáo vụ khoa sau khi tiếp nhận bảng điểm gốc sẽ tiến hành so sánh bảng điểm gốc và dữ liệu điểm được lưu trên hệ thống đào tạo để tìm sai sót Nếu có sai sót, giáo vụ khoa lập bảng kê và gửi đến đào tạo
Trang 21Bộ phận đào tạo sau khi tiếp nhận sai sót, sẽ tiến hành rà soát để kiểm tra lại Nếu có sai sót, bộ phận đào tạo tiến hành cập nhật vào hệ thống Dữ liệu điểm sẽ được sử dụng để xét học vụ và cho sinh viên tra cứu điểm cá nhân
1.2.2 Đánh giá hiện trạng quản lý dữ liệu đào tạo hiện nay
Trong quy trình hiện nay có nhiều ưu điểm, tuy nhiên vẫn còn tồn tại các bất cập Với quy trình này, mỗi bộ phận tham gia phải thực hiện nhiều nghiệp vụ, lưu trữ nhiều dữ liệu dưới các dạng khác nhau Ví dụ, giáo viên phải vừa ghi điểm vào bảng ghi điểm trên giấy, vừa phải nhập điểm vào hệ thống qua mạng internet Bên cạnh đó, bộ phận giáo vụ khoa phải rà soát lại
dữ liệu trên hệ thống và bảng điểm gốc lưu tại khoa Điều này sẽ làm tốn thời gian và công sức khi dữ liệu điểm tại mỗi học kỳ là rất lớn Ngoài ra, dữ liệu điểm được lưu trên hệ thống sau khi được kiểm tra tại mỗi học kỳ sẽ được sử dụng cho tra cứu và xét học vụ sau này mà không phải kiểm tra lại tại thời điểm xét học vụ Điều này dẫn đến rủi ro có sự can thiệp điều chỉnh điểm bằng các cách khác nhau kể cả trong và ngoài hệ thống
Trang 22Lưu đồ quản lý dữ liệu đào tạo và các đối tượng sử dụng
Khảo thí và kiểm định CLGD
Bảng điểm cuối kỳ Ghi điểm cuối
Có sai sót?
Lập bảng kê danh sách sai sót
CÓ
Xác nhận các sai sót
Có sai sót
Cập nhật hệ thống ĐÚNG
Xét học vụ cấp khoa
Lập bảng kê:
- Sinh viên tốt nghiệp
- Sinh viên không được tốt nghiệp
- Sinh viên cảnh bảo học vụ
- Xét học bổng
CSDL Điểm đào tạo Xét học vụ cấp
trường
Lập bảng kê:
- Sinh viên tốt nghiệp
- Sinh viên không được tốt nghiệp
- Sinh viên cảnh bảo học vụ
- Xét học bổng
Tra cứu bảng điểm cá nhân
Hình 1.3 Lưu đồ quản lý dữ liệu điểm đào tạo
Trang 231.3 TỔNG QUAN KỸ THUẬT XỬ LÝ ẢNH
1.3.1 Khái niệm xử lý ảnh
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ do đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy [3]
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh
có thể là một ảnh “tốt hơn” hoặc một kết luận
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều
Một số khái niệm cơ bản
- Ảnh và điểm ảnh: Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong không gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh
- Mức xám, màu: Là số các giá trị có thể có của các điểm ảnh của ảnh
Các vấn đề cơ bản trong xử lý ảnh
- Nắn chỉnh biến dạng: Ảnh thu nhận thường bị biến dạng do các thiết
bị quang học và điện tử
Trang 24Hình 1.4 Ảnh thu nhận và ảnh mong muốn
- Khử nhiễu: Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh: Nhiễu hệ thống và nhiễu ngẫu nhiên Nhiễu hệ thống là nhiễu có quy luật có thể khử bằng các phép biến đổi Nhiễu ngẫu nhiên là nhiễu do vết bẩn không
rõ nguyên nhân, có thể khắc phục bằng các phép lọc
- Chỉnh mức xám: Nhằm khắc phục tính không đồng đều của hệ thống gây ra Thông thường có 2 hướng tiếp cận: Giảm số mức xám và tăng số mức xám Giảm số mức xám thực hiện bằng cách nhóm các mức xám gần nhau thành một bó Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng
kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh
- Trích chọn đặc điểm: Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây: Đặc điểm không gian (phân bố mức xám, biên độ, điểm uốn, …); Đặc điểm biến đổi (trích chọn bằng việc thực hiện lọc vùng); Đặc điểm biên và đường biên (đặc trưng cho đường biên của đối tượng)
- Nhận dạng: Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu
- Nén ảnh: Nhằm giảm thiểu không gian lưu trữ
Trang 251.3.2 Quy trình xử lý ảnh
Sơ đồ tổng quát của một hệ thống xử lý ảnh được trình bày trong hình 1.5
Hình 1.5 Sơ đồ tổng quát của hệ thống xử lý ảnh
Sơ đồ này bao gồm các thành phần sau:
- Thu nhận ảnh: Ảnh có thể nhận qua camera màu hoặc đen trắng Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại CCD – Change Couple Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai chiều Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh)
- Tiền xử lý: Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng cao độ tương phản để làm ảnh rõ hơn, nét hơn
- Trích chọn đặc điểm: Phân vùng ảnh thành các thành phần để phân tích tìm kiếm các đặc trưng các đối tượng cần nhận dạng ví dụ ký tự chữ in,
ký tự viết tay, hình tứ giác, hình tam giác, …
- Hậu xử lý: Là kỹ thuật rút gọn số lượng điểm biểu diễn Kết quả của phần dò biên hay trích xương thu được 1 dãy các điểm liên tiếp Việc rút gọn
sẽ giúp bỏ bớt các điểm thu điểm điểm giảm thiểu không gian lưu trữ và thuận tiện cho việc đối sánh
Trang 26- Lưu trữ: Lưu trữ các ảnh đã được xử lý
- Hệ quyết định: Tham gia vào quá trình nhận dạng, hỗ trợ hệ thống đưa ra kết quả
- Đối sánh và rút ra kết luận: So sánh kết quả nhận dạng với các đối tượng cần tìm kiếm và đưa ra kết luận
1.3.3 Một số ứng dụng của công nghệ xử lý ảnh
Xử lý ảnh có ứng dụng rất rộng và gần như tất cả các lĩnh vực kỹ thuật đều bị ảnh hưởng bởi kỹ thuật này Xử lý hình ảnh không chỉ giới hạn ở chổ chỉ điều chỉnh độ phân giải hình ảnh, tăng độ sáng của hình ảnh, mà nó còn rất nhiều ứng dụng trong các lĩnh vực khác Một số ứng dụng cụ thể như:
- Xử lý và phục hồi hình ảnh: từ một hình ảnh được chụp từ máy ảnh,
ta có thể chỉnh sửa, xử lý để làm ảnh đẹp hơn hoặc phù hợp nhu cầu người dung như: làm mờ, lấy biên, chỉnh độ nét, chỉnh độ phân giải, phục hồi và nhận dạng ảnh
- Lĩnh vực y tế: Chuẩn đoán bệnh qua ảnh như chụp X-Quang, chụp cộng hưởng từ, siêu âm
- Do thám, thám hiểm: Phân tích ảnh chụp bề mặt trái đất, ảnh chụp không gian, … Ví dụ: Phân tích thiệt hại của một trận động đất, đường đi của bảo, …
- Truyền và mã hóa: Thông tin được mã hóa và truyền đi dưới dạng hình ảnh
- Thị giác máy tính và robot: Hỗ trợ tương tác người máy, giúp robot
“nhìn” mọi thứ, tránh vật cản, …
- Công nghệ nhận dạng: Xử lý ảnh dùng để xác định, nhận dạng các đối tượng, các mối nguy hiểm, nhận dạng vân tay, khuôn mặt, hoặc các loại bệnh trong lĩnh vực y tế
Trang 271.4 KỸ THUẬT NHẬN DẠNG KÝ TỰ QUANG HỌC
1.4.1 Khái niệm nhận dạng ký tự quang học
Nhận dạng ký tự quang học (OCR) là phần cốt lõi của ngành nhận dạng, trong đó mục đích của OCR là nhận biết được các chuỗi ký tự từ bảng chữ cái Các ký tự trong bảng chữ cái thường có rất nhiều kiểu viết khác nhau Trên thực tế các ký tự thường được viết bằng nhiều kiểu khác nhau tùy thuộc vào kích cỡ, loại phông chữ và nét bút viết tay của từng người Mặc dù các ký tự
có thể viết theo nhiều cách nhưng có lẽ rằng vẫn có những quy tắc xác định
để nhận biết từng ký tự Phát triển những thuật toán trên máy tính để nhận biết các ký tự trong bảng chữ cái là một nhiệm vụ trọng tâm của OCR Nhưng thách thức đối với vấn đề này là: trong khi con người có thể nhận dạng gần như chính xác 100% các ký tự viết tay thì OCR vẫn chưa thể đạt tới điều này
Hình 1.6 Mẫu ký tự viết tay
Khó khăn đối với OCR thể hiện qua một số đặc điểm Sự gia tăng số lượng và kích cỡ của phông chữ trong bảng chữ cái, không ràng buộc các kiểu chữ viết tay, các ký tự nối liền nhau, các nét bị đứt, các điểm nhiễm, … tất cả chúng làm cho quá trình nhận dạng gặp khó khăn Trong hình 1.6, thật khó để phân biệt số 4 và số 9 hoặc giữa số 0 và số 6
Các chương trình hỗ trợ OCR hiện nay có thể nhận dạng được ký tự với
tỷ lệ trên 90% đối với ảnh có chất lượng nét và phông chữ thông dụng
Trang 28Hình 1.7 Ảnh chụp mẫu ký tự đánh máy
1.4.2 Các yếu tố đầu vào quyết định thành công của hệ thống OCR
Dữ liệu đầu vào của hệ thống OCR cần thỏa một số yêu cầu sau:
- Kiểu phông: hai chuẩn phông OCR A và OCR B được đưa ra bởi ANSI, the American National Standards Institute, giúp cải thiện khả năng của tất cả các hệ thống OCR
- Tài liệu: tài liệu giấy trước khi qua khâu quét ảnh Các vấn đề cần quan tâm như: kiểu giấy, màu giấy, mực in
- Chất lượng ảnh: Tài liệu được quét ở bao nhiêu DPI? Độ tương phản
ra sao?
1.4.3 Một số ứng dụng của OCR
Hiện nay, hai hãng phát triển và cải tiến phần mềm nhận dạng ký tự lớn nhất là Google và ABBYY Google trên nền tảng Tesseract [11](Tesseract OCR engine) được phát triển bởi HP Labs trong giai đoạn 1985-1995, sử dụng mã nguồn mở, có chất lượng nhận dạng chính xác cao, với nhiều định dạng file ảnh và có thể nhận dạng hơn 60 ngôn ngữ khác nhau ABBYY cho
ra đời phần mềm nhận dạng ký tự quang học với tên gọi ABBYY có khả năng nhận dạng 190 ngôn ngữ [12] Đặc biệt, đối với ký tự La-tinh và tiếng Nga,
Trang 29công nghệ OCR của ABBYY có thể đạt hiệu quả nhận dạng đến 99% cho một file ảnh chất lượng tốt
Hình 1.8 Giao diện phần mềm VnDOCR và VietOCR
Ở Việt Nam cũng có một vài hãng phần mềm đầu tư xây dựng công nghệ OCR Tiêu biểu là phần mềm VnDOCR 4.0 Professional [13], chương trình nhận dạng chữ Việt in, được phát triển bởi nhóm chuyên gia phát triển phần mềm của Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin - Viện Khoa học và Công nghệ Việt Nam VnDOCR sử dụng chương trình điều khiển máy quét, để quét ảnh từ tài liệu in dưới dạng ảnh đen trắng (line Art, Black and White - B&W, độ phân giải 300dpi, sau đó chuyển qua chế độ nhận dạng Kết quả nhận dạng chữ Việt độ chính xác đạt khoảng trên 90% tùy vào chất lượng bản quét Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn
Trang 30mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP
1.5 THƯ VIỆN TESSERACT
1.5.1 Sơ lược Tesseract
Tesseract [14] là một công cụ OCR mã nguồn mở được nghiên cứu và phát triển bởi HP trong giai đoạn 1984-1994 Tesseract được biết như là một phần mềm thêm vào cho dòng sản phẩm máy quét của HP Trong giai đoạn này, nó vẫn còn rất sơ khai và chỉ được dùng để cải thiện chất lượng của các bản in Nó được phát triển cho đến năm 1994 thì ngưng Sau khi được cải thiện độ chính xác, nó được HP đưa vào cuộc kiểm tra thường niên về độ chính xác của các công cụ OCR và nó đã thể hiện được sự vượt trội của mình
Kể từ năm 2006, nó đã được cải thiện rộng rãi bởi Google Tesseract hoạt động trên Linux, Windows (với VC++ Express hoặc Cygwin) và Mac OSX Chúng ta có thể tải về tại địa chỉ https://github.com/ tesseract-ocr
Hình 1.9 Kiến trúc Tesseract
Trang 311.5.2 Cấu trúc Tesseract
Cấu trúc của Tesseract được mô tả qua hình 1.9 Trong đó, tạo ngưỡng thích nghi giúp loại bỏ các yếu tố nền của hình ảnh (ví dụ như ánh sáng, bóng,…) và giúp phân tích các pixel thành ảnh nhị phân Nhận dạng được tiến hành qua một quá trình với hai lần nhận dạng Lần thứ nhất: nhận ra lần lượt từng từ Mỗi từ có nghĩa là đạt yêu cầu và được thông qua và được lưu vào dữ liệu Lần thứ hai, khi phân loại thích ứng, công cụ sẽ nhận dạng lại các từ không được nhận dạng tốt ở lần trước đó
1.5.3 Cách thức Tesseract làm việc
Đầu tiên tesseract phân tích hình ảnh nhằm tìm dòng và từ Tesseract
hỗ trợ nhận dạng các dòng của các hình ảnh bị nghiêng, giúp giảm sự mất thông tin khi nhận dạng ảnh nghiêng Các bộ phận quan trọng của quá trình này là lọc dãy màu (còn được gọi là blobs) và xây dựng dòng Việc này cũng giúp loại bỏ các văn bản có chữ đầu tiên của đoạn văn lớn hơn bình thường (dropcap)
Tiếp theo tesseract thiết lập dòng cơ sở Khi dòng văn bản được tìm thấy, các dòng cơ sở được thiết lập chính xác hơn bằng cách sử dụng một đường có tên là spline toàn phương (là dòng mà được kết hợp từ nhiều đoạn)
Nó giúp Tesseract xử lý các trang có đường cơ sở là đường cong
Các dòng cơ sở được thiết lập bằng cách phân vùng các blobs thành các nhóm có thể thay thế thích hợp liên tục trong đường cơ sở thẳng ban đầu Một spline toàn phương được thiết lập cho phân vùng dày đặc nhất, (giả định là đường cơ sở) của một hình có phương ít nhất Spline có lợi thế là tính toán ổn định, nhược điểm là sự gián đoạn có thể xảy ra khi nhiều phân đoạn spline được yêu cầu Hình 1.10 thể hiện một đường cơ sở dạng cong
Trang 32Sau khi tìm được đường cơ sở, tesseract sẽ tiến hành cắt nhỏ từ Bước này sẽ xác định xem có các ký tự dính với nhau trong một từ hay không Nếu
Cuối cùng, tesseract sẽ thực hiện nhận dạng từ Quá trình nhận dạng một từ là quá trình phân tích một từ được chia ra thành các ký tự như thế nào Hình 1.12 mô tả quá trình nhận dạng từ của tesseract
Trang 33Hình 1.12 Quá trình nhận dạng từ
Khi kết quả xuất ra một từ mà nó không thỏa mãn nhu cầu thì tesseract
cố gắng cải thiện kết quả này bằng cách cắt nhỏ các từ có nghĩa không tốt nhất Nếu việc cắt nhỏ không làm tăng chất lượng từ thì nó sẽ phục hồi lại từ trước đó
1.5.4 Thư viện VietOCR.NET
Thư viện VietOCR.NET là bộ thư viện dành cho các lập trình viên NET Các nhà phát triển có thể tải về bộ thư viện này tại địa chỉ: https://sourceforge.net /p/vietocr/code/HEAD/tree/ Thư viện này hiện nay đã
có phiên bản 4.3 hỗ trợ các phông chữ cũ Việt Nam, VNI và TCVN3 (ABC)
và đã tích hợp tesseract 3.0x
Khi sử dụng VietOCR.NET nhà phát triển cần lưu ý hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc đa mức xám (grayscale) Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt, và phiên bản tới của Tesseract
Trang 34có thể nâng cao độ nhận dạng hơn nữa Mặc dù vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét [8]
Thông số tiêu biểu cho quét ảnh là 300 DPI và 1 bpp (bit per pixel) trắng đen hoặc 8 bpp grayscale dạng không nén (uncompressed) TIFF hay PNG PNG nhỏ gọn hơn những dạng ảnh khác mà vẫn giữ được chất lượng cao nhờ sử dụng thuật toán lossless data compression; TIFF có lợi điểm ở khả năng chứa nhiều trang ảnh (multi-page) trong một file
Chế độ Screenshot Mode cung cấp độ nhận dạng tốt hơn cho những hình ảnh có độ phân giải thấp, chẳng hạn như ảnh in màn hình, bằng cách rescaling chúng tới 300 DPI
1.6 KIẾN TRÚC HƯỚNG DỊCH VỤ
1.6.1 Tổng quan về SOA
SOA (Service Oriented Architecture) - Kiến trúc hướng dịch vụ là một cách tiếp cận hay một phương pháp luận để thiết kế và tích hợp các thành phần khác nhau, bao gồm các phần mềm và các chức năng riêng lẻ lại thành một hệ thống hoàn chỉnh [9] Kiến trúc SOA rất giống với cấu trúc của các phần mềm hướng đối tượng gồm nhiều module Tuy nhiên khái niệm module trong SOA không đơn thuần là một gói phần mềm hay một bộ thư viện nào đó Thay vào đó, mỗi module trong một ứng dụng SOA là một dịch vụ được cung cấp rải rác ở nhiều nơi khác nhau để cùng cộng tác thực hiện
SOA có thể được hiểu là một hướng tiếp cận để xây dựng các hệ thống phân tán cung cấp các chức năng ứng dụng dưới dạng dịch vụ tới các ứng dụng người cuối cùng hoặc các dịch vụ khác:
- SOA là một kiến trúc dùng trong các chuẩn mở để biểu diễn các thành phần mềm như là các dịch vụ
Trang 35- Cung cấp một cách thức chuẩn hóa cho việc biểu diễn và tương tác với các thành phần phần mềm
- Các thành phần phần mềm riêng lẻ trở thành các khối cơ bản để có thể
sử dụng lại để xây dựng các ứng dụng khác
- Được sử dụng để tích hợp các ứng dụng bên trong và bên ngoài tổ chức, với các tác vụ nào đó theo yêu cầu của khách hàng
1.6.2 Kiến trúc SOA
Mô hình tổng thể của SOA được thể hiện qua hình 1.13 Trong đó:
- Service Provider: cung cấp các service phục vụ cho một nhu cầu nào
đó User (Service consumer) không cần quan tâm đến vị trí thực sự mà service họ cần sử dụng đang hoạt động Họ chỉ cần quan tâm dịch vụ đó là gì
- Service Consumer: khách hàng dịch vụ hay những user sử dụng service được cung cấp bởi Service Provider
- Service Registry: Nơi lưu trữ thông tin về các Service của các Service Provider khác nhau, Service Consumer dựa trên những thông tin này để tìm kiếm và lựa chọn Service Provider phù hợp
Service Provider sẽ đăng ký thông tin về service mà mình có thể cung cấp (các chức năng có thể cung cấp, khả năng của hệ thống (resource, performance, giá cả dịch vụ…) vào Service Registry Ngoài chức năng hỗ trợ tìm kiếm, Service Registry còn có thể xếp hạng trước Service Provider dựa trên các tiêu chí về chất lượng dịch vụ Những thông tin này sẽ hỗ trợ thêm cho quá trình tìm kiếm của Service Consumer Khi đã xác định được Service Provider mong muốn, Service Consumer thiết lập kênh giao tiếp trực tiếp với Service Provider nhằm sử dụng service hoặc tiến hành thương lượng thêm (về mặt giá cả, resource sử dụng…)
Trang 36Hình 1.13 Kiến trúc SOA
1.6.3 Phân tích tính ứng dụng của SOA trong hệ thống
Hệ thống được tác giả nghiên cứu tương tác với hệ thống thông tin đào tạo một cách độc lập, tức là việc truy xuất dữ liệu của đào tạo phải qua các cổng dịch vụ qua mạng internet Ngoài ra, hệ thống còn cung cấp tính năng tra cứu dữ liệu cho các Khoa/Phòng ban trong nhà trường Các đơn vị có hệ thống vận hành độc lập Chính vì vậy, kiến trúc hướng dịch vụ sẽ giúp cho việc kết nối, chia sẻ dữ liệu giữa các bên liên quan được thuận tiện và nhanh chóng
1.6.4 Những thách thức trong mô hình SOA
Vì hoạt động trong môi trường internet nên yếu tố bảo mật là vấn đề được quan tâm hàng đầu Để giải quyết vấn đề này, các bên khi truy cập sẽ cung cấp mã số định danh cho bên còn lại để xác thực Ngoài ra, độ trễ trong truyền thông cũng sẽ tác động không nhỏ đến hiệu suất làm việc của hệ thống Đây là nguyên nhân khách quan nên việc nâng cấp hạ tầng mạng cần được chú trọng
1.7 KẾT LUẬN CHƯƠNG 1
Trong chương 1, tôi đã trình bày kiến thức tổng quan, cơ sở lý luận phục vụ cho luận văn Các nội dung được đề cập bao gồm kiến thức về hệ thống thông tin, đánh giá hiện trạng công tác quản lý đào tạo, các kỹ thuật xử
Trang 37lý ảnh và nhận dạng ký tự quang học Cuối chương tôi trình bày về thư viện VietOCR.NET phục vụ việc nhận dạng ký tự quang học OCR Bên cạnh đó, kiến trúc hướng dịch vụ cũng được tôi tìm hiểu và ứng dụng để xây dựng nên
hệ thống mà luận văn nghiên cứu
Trang 38Nhằm xây dựng hệ thống có các tính năng nói trên, tác giả đề xuất dữ liệu đào vào là tệp tin ảnh các bảng điểm gốc, thông qua công nghệ nhận dạng
ký tự quang học, hệ thống sẽ lập chỉ mục phục vụ tra cứu, thống kê Đây sẽ là
dữ liệu dùng để so sánh với dữ liệu đào tạo Việc so sánh được tiến hành hoàn toàn tự động Người dùng cuối sẽ nhận được kết quả thông qua các tệp tin báo cáo do hệ thống tạo ra
2.2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG
Kiến trúc tổng quan của hệ thống được trình bày trong hình 2.1 Trong
sơ đồ này, hệ thống được chia thành các mô-đun:
- Khối xử lý và nhận dạng: Có chức năng tiếp nhận bảng điểm dưới dạng ảnh, xử lý và trích xuất thông tin theo yêu cầu của người dùng
- Quản lý dữ liệu: Quản lý việc truy xuất trong CSDL của hệ thống
Trang 39- Hệ thống các dịch vụ: Là trung tâm điều khiển của hệ thống, xử lý các yêu cầu người dùng như: so sánh đối chiếu phát hiện điều chỉnh trong dữ liệu, tìm kiếm, thống kê – báo cáo
Hoạt động của khối xử lý và nhận dạng ảnh được mô tả như sau: Đầu tiên, người dùng tải lên các tệp tin ảnh là các bảng điểm gốc Hệ thống tiếp nhận và thực hiện các bước tiền xử lý, nếu ảnh tải lên đúng định dạng mà hệ thống hệ thống yêu cầu thì sẽ được chuyển sang bước xử lý và nhận dạng Ngược lại, hệ thống thông báo ảnh tải lên không phù hợp và yêu cầu tải lại Khi ảnh được chuyển sang bước xử lý và nhận dạng, hệ thống sẽ tiến hành tìm kiếm các “khối chữ nhật” dùng để đánh dấu các vị trí cần nhận dạng Tiếp theo, từ các khối được tìm thấy, hệ thống tiến hành cắt các vùng theo khối được đánh dấu và đưa vào bộ phận nhận dạng Kết thúc, hệ thống đưa ra dữ liệu đã nhận dạng và thông báo cho người dùng Chi tiết các bước được thể hiện ở hình 2.2