1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng

79 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 3,53 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

DANH MỤC CÁC TỪ VIẾT TẮT Từ/Cụm từ Từ/Cụm từ đầy đủ Ý nghĩa ATTT An toàn thông tin An toàn thông tin API Application Programming Interface Giao diện lập trình ứng dụng CNTT Công ng

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN VĂN VƯƠNG

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG ĐẢM BẢO AN TOÀN DỮ LIỆU ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM

ĐẠI HỌC ĐÀ NẴNG

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng – Năm 2016

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN VĂN VƯƠNG

NGHIÊN CỨU XÂY DỰNG HỆ THỐNG ĐẢM BẢO AN TOÀN DỮ LIỆU ĐÀO TẠO TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM

ĐẠI HỌC ĐÀ NẴNG

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH

Đà Nẵng – Năm 2016

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tác giả luận văn

Nguyễn Văn Vương

Trang 4

MỤC LỤC

MỞ ĐẦU 1

1 Tính cấp thiết của đề tài 1

2 Mục tiêu nghiên cứu 3

3 Đối tượng và phạm vi nghiên cứu 4

4 Phương pháp nghiên cứu 4

5 Bố cục của luận văn 5

6 Tổng quan tài liệu nghiên cứu 5

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 6

1.1 TỔNG QUAN VỀ HỆ THỐNG THÔNG TIN 6

1.1.1 Khái niệm hệ thống thông tin 6

1.1.2 Phân loại hệ thống thông tin 7

1.1.3 Các thành phần của một hệ thống thông tin 7

1.1.4 Phát triển hệ thống thông tin 8

1.2 THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU ĐÀO TẠO 9

1.2.1 Quy trình quản lý dữ liệu đào tạo 9

1.2.2 Đánh giá hiện trạng quản lý dữ liệu đào tạo hiện nay 10

1.3 TỔNG QUAN KỸ THUẬT XỬ LÝ ẢNH 12

1.3.1 Khái niệm xử lý ảnh 12

1.3.2 Quy trình xử lý ảnh 14

1.3.3 Một số ứng dụng của công nghệ xử lý ảnh 15

1.4 KỸ THUẬT NHẬN DẠNG KÝ TỰ QUANG HỌC 16

1.4.1 Khái niệm nhận dạng ký tự quang học 16

1.4.2 Các yếu tố đầu vào quyết định thành công của hệ thống OCR 17

1.4.3 Một số ứng dụng của OCR 17

1.5 THƯ VIỆN TESSERACT 19

Trang 5

1.5.1 Sơ lược Tesseract 19

1.5.2 Cấu trúc Tesseract 20

1.5.3 Cách thức Tesseract làm việc 20

1.5.4 Thư viện VietOCR.NET 22

1.6 KIẾN TRÚC HƯỚNG DỊCH VỤ 23

1.6.1 Tổng quan về SOA 23

1.6.2 Kiến trúc SOA 24

1.6.3 Phân tích tính ứng dụng của SOA trong hệ thống 25

1.6.4 Những thách thức trong mô hình SOA 25

1.7 KẾT LUẬN CHƯƠNG 1 25

CHƯƠNG 2 GIẢI PHÁP CHỐNG CAN THIỆP DỮ LIỆU ĐIỂM ĐÀO TẠO 27

2.1 GIỚI THIỆU 27

2.2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG 27

2.2.1 Phân tích hệ thống 28

2.2.2 Thiết kế hệ thống 30

2.2.3 Thiết kế cơ sở dữ liệu 32

2.3 XÂY DỰNG THUẬT TOÁN NHẬN DẠNG KÝ IN TỰ QUANG HỌC DẠNG SỐ TRONG BÀI TOÁN NHẬN DẠNG BẢNG ĐIỂM 34

2.3.1 Các yêu cầu của tệp tin ảnh đầu vào 34

2.3.2 Chuẩn hóa tệp tin ảnh 34

2.3.3 Xây dựng thuật toán 35

2.3.4 Kiểm thử thuật toán 38

2.3.5 Đánh giá thuật toán 38

2.3.6 Xây dựng dịch vụ trích xuất thông tin từ bảng điểm sinh viên 39

2.4 XÂY DỰNG MÔ-ĐUN TƯƠNG TÁC VỚI HỆ THỐNG THÔNG TIN ĐÀO TẠO 40

Trang 6

2.4.1 Cấu trúc dữ liệu hệ thống thông tin đào tạo 40

2.4.2 Các dịch vụ của hệ thống thông tin đào tạo 41

2.4.3 Xây dựng mô-đun tương tác với hệ thống thông tin đào tạo 41

2.5 KẾT LUẬN CHƯƠNG 2 42

CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG 44

3.1 LỰA CHỌN CÔNG CỤ PHÁT TRIỂN 44

3.1.1 Ngôn ngữ lập trình 44

3.1.2 Cơ sở dữ liệu 44

3.2 XÂY DỰNG CƠ SỞ DỮ LIỆU LƯU TRỮ TỆP TIN ẢNH BẢNG ĐIỂM 44

3.2.1 Thu thập và xử lý các nguồn dữ liệu 44

3.2.2 Xây dựng dịch vụ truy xuất dữ liệu 48

3.3 XÂY DỰNG WEBSITE TƯƠNG TÁC VỚI NGƯỜI DÙNG CUỐI 51

3.3.1 Xây dựng hệ thống 51

3.3.2 Tích hợp mô-đun trích xuất dữ liệu từ bảng điểm sinh viên 57

3.3.3 Tích hợp mô-đun tương tác với hệ thống thông tin đào tạo 58

3.4 THỬ NGHIỆM VÀ ĐÁNH GIÁ CHƯƠNG TRÌNH 58

3.4.1 Thử nghiệm mô-đun nhận dạng dữ liệu 58

3.4.2 Thử nghiệm mô-đun tương tác với người dùng cuối và mô-đun kết nối với hệ thống đào tạo 59

3.5 XÂY DỰNG CHÍNH SÁCH VÀ GIẢI PHÁP BẢO MẬT CHO HỆ THỐNG 63

3.5.1 Xác định các mối đe dọa hệ thống 64

3.5.2 Gian lận và đánh cắp thông tin 64

3.5.3 Tấn công từ bên bên ngoài hệ thống 64

3.5.4 Sử dụng mã nguy hiểm 64

3.6 KẾT LUẬN CHƯƠNG 3 65

Trang 7

KẾT LUẬN 66 DANH MỤC TÀI LIỆU THAM KHẢO 67 QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT

Từ/Cụm từ Từ/Cụm từ đầy đủ Ý nghĩa

ATTT An toàn thông tin An toàn thông tin

API Application Programming Interface Giao diện lập trình ứng dụng

CNTT Công nghệ thông tin Công nghệ thông tin

DPI Dot Per Inch Đơn vị chỉ số lượng điểm trên một

inch vuông DSS Decision Support System Hệ thống trợ giúp ra quyết định

ISCA Information System for

Competitive Advantage

Hệ thống tăng cường khả năng cạnh tranh

MIS Management Information System Hệ thống thông tin quản lý

OCR Optical Character Recognition Nhận dạng ký tự in quang học SOA Service Oriented Architecture Kiến trúc hướng dịch vụ

TPS Transaction Processing System Hệ thống thông tin xử lý giao dịch

Trang 9

DANH MỤC CÁC BẢNG

3.7 Đặc tả Usecase Nhận thông báo qua email 55 3.8 Đặc tả Usecase Xem kết quả nhận dạng 55 3.9 Đặc tả Usecase Nhận dạng bảng điểm 56

Trang 10

DANH MỤC CÁC HÌNH

Số

1.1 Các chức năng chính của hệ thống thông tin 6 1.2 Các thành phần trong hệ thống thông tin 8

1.5 Sơ đồ tổng quát của hệ thống xử lý ảnh 14

2.7 Ảnh gốc đã được chuyển về dạng nhị phân 34 2.8 Bản sao ảnh gốc với dạng màu được đảo ngược 35 2.9 Thuật toán đánh dấu các khối chữ nhật 36

Trang 11

Số

2.11 Kết quả khi chạy thuật toán đánh dấu các khối chữ nhật 38 2.12 Kết quả khi chạy thuật toán nhận dạng bảng điểm 38 2.13 Sơ đồ cơ sở dữ liệu hệ thống đào tạo 40 3.1 Bảng ghi điểm bộ phận 1,2 và giữa kỳ 45

3.4 Cấu trúc thư mục lưu tệp tin bảng điểm 50 3.5 Biểu đồ usecase tổng quát website tương tác với người

3.15 Sử dụng Jquery Ajax để lấy dữ liệu thông qua API 63 3.16 Kết quả trả về khi thực hiện truy vấn đến API 63

Trang 12

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong các hệ thống thông tin, việc đảm bảo vấn đề an toàn thông tin (ATTT) được xem là sự sống còn, là giá trị tồn tại của hệ thống Thế nhưng, không phải tổ chức nào cũng nhận thức được tầm quan trọng của vấn đề bảo mật thông tin và những nguy cơ có thể xảy ra từ việc công khai thông tin trên mạng internet

Hiện nay, trường Đại học Sư phạm, Đại học Đà Nẵng đang vận hành hệ thống thông tin đào tạo, cung cấp cho sinh viên công cụ để tra cứu điểm, đăng

ký học, giảng viên và bộ phận quản lý nhập điểm và thực hiện các nghiệp vụ khác Hệ thống thông tin đào tạo của Nhà trường được triển khai trên cơ sở các máy chủ vật lý tự xây dựng và quản lý bởi các đơn vị trong nhà Trường Qua thực tế vận hành, hệ thống vẫn còn tiềm ẩn các vấn đề về bảo mật dẫn đến các nguy cơ mất ATTT, đặc biệt là dữ liệu về điểm môn học của sinh viên

Với đặc điểm là một hệ thống thông tin phục vụ cho nhiều người, nhiều mục đích khác nhau, hệ thống thông tin đào tạo của nhà Trường chia sẻ nhiều

dữ liệu quan trọng với nhiều đối tượng người dùng khác nhau Chẳng hạn, sinh viên có thể vào xem điểm; giảng viên nhập điểm thành phần 1 và 2, cán

bộ quản lý nhập điểm thành phần 3; bộ phận quản lý máy chủ có thể vào chỉnh sửa dữ liệu trong cơ sở dữ liệu (CSDL) Các đối tượng này khi sử dụng mạng internet để truy cập hệ thống thường sẽ đối mặt với nguy cơ bị mất an toàn như: truy cập bất hợp pháp, sao chép, lưu trữ hoặc chuyển đến cho các đối tượng không được phép Nguy hiểm hơn là dữ liệu điểm bị thay đổi mà người dùng không hề biết Việc thay đổi dữ liệu lại càng dễ dàng hơn nếu những cá nhân có mục đích xấu lại là những người có hiểu biết về công nghệ

Trang 13

thông tin (CNTT) hoặc là những người quản trị hệ thống, quản trị ứng dụng trong Nhà trường

Hiện tại, nhà Trường đã áp dụng một số biện pháp quản lý như sao lưu

dữ liệu thường xuyên, tăng cường công tác an ninh mạng và bảo vệ phòng máy Tuy nhiên các giải pháp này vẫn mang tính tạm thời, vẫn tìm ẩn những nguy cơ như đã đề cập ở trên do chưa có cơ chế chống sửa đổi dữ liệu

Bên cạnh đó, giải pháp số hóa tài liệu, công văn đã được nghiên cứu triển khai tại một số đơn vị như Thư viện, phòng Tổ chức - Hành chính Trong tương lai, giải pháp số hóa bảng điểm gốc sẽ được áp dụng triển khai tại các Khoa/Phòng có công tác quản lý điểm Việc số hóa các bảng điểm gốc của sinh viên kết hợp với công nghệ xử lý ảnh, chúng ta hoàn toàn có thể tra cứu, tìm kiếm điểm môn học nào thuộc về sinh viên nào Bên cạnh đó, dữ liệu

là các tệp tin ảnh thì không thể sửa đổi Chính vì vậy, mỗi khi so sánh, các bảng điểm này sẽ là cơ sở cho việc tìm kiếm sự thay đổi giữa dữ liệu điểm tại phòng Đào tạo và dữ liệu điểm tại các Khoa/Phòng

Trên cơ sở phân tích hiện trạng công tác quản lý tại trường Đại học Sư phạm, tôi đi sâu vào việc nhận dạng ký tự in quang học dạng số, từ đó cho phép tìm kiếm trên các bảng điểm được số hóa Bên cạnh đó, tôi nghiên cứu cấu trúc dữ liệu của hệ thống đào tạo Từ đó, xây dựng các dịch vụ hỗ trợ người dùng so sánh, tìm kiếm sự khác biệt dữ liệu giữa hệ thống đào tạo và các bảng điểm gốc nhằm tăng cường công tác bảo vệ an toàn dữ liệu, góp phần tăng cường tính tin cậy của hệ thống thông tin đào tạo Nhằm thực hiện các mục tiêu đề ra, tôi chọn đề tài “Nghiên cứu xây dựng hệ thống đảm bảo

an toàn dữ liệu đào tạo tại trường Đại học Sư phạm – Đại học Đà Nẵng” làm

đề tài tốt nghiệp cao học

Trang 14

2 Mục tiêu nghiên cứu

Về lý thuyết: Tìm hiểu và nghiên cứu lý thuyết xử lý ảnh và nhận dạng

ký tự in quang học dạng số Bên cạnh đó, đề tài thực hiện nghiên cứu lý thuyết kiến trúc hướng dịch vụ nhằm xây dựng công cụ giao tiếp giữa các ứng dụng khác nhau

Về ứng dụng: Xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường Đại học Sư phạm – Đại học Đà Nẵng bao gồm các chức năng:

- Số hóa và lưu trữ bảng điểm gốc;

- Nhận dạng và tìm kiếm thông tin điểm trên bảng điểm;

- So sánh, đối chiếu với hệ thống đào tạo nhằm tìm kiếm sự khác biệt

về điểm;

- Thống kê, báo cáo

Để đạt được mục tiêu trên, nhiệm vụ của tôi là nghiên cứu đề xuất giải pháp và xây dựng công cụ để sử dụng lại các hệ thống nhận dạng ký tự in quang học và tích hợp vào hệ thống nhằm tạo ra kho dữ liệu điểm sinh viên

có thể tìm kiếm, đối chiếu trên các tệp tin ảnh là các bảng điểm

Về lý thuyết:

- Tìm hiểu kỹ thuật xử lý ảnh và nhận dạng ký tự quang học

- Nghiên cứu các thư viện nhận dạng ký tự quang học

- Nghiên cứu hệ thống thông tin đào tạo

- Nghiên cứu công nghệ web 2.0

Về thực tiễn: Đề tài đề xuất giải pháp và xây dựng công cụ để nhận dạng điểm môn học của sinh viên trong các bảng điểm được lưu trữ dưới dạng tệp tin ảnh Từ đó, xây dựng hệ thống so sánh đối chiếu nhằm tìm ra sự thay

Trang 15

đổi dữ liệu điểm trong hệ thống thông tin đào tạo của trường Đại học Sư phạm, Đại học Đà Nẵng

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Hệ thống thông tin đào tạo của trường Đại học

Sư phạm, Đại học Đà Nẵng; Thư viện xử lý ảnh và nhận dạng ký tự in quang học dạng số

Phạm vi nghiên cứu: Đề tài tập trung nghiên cứu giải pháp nhận dạng

ký tự in quang học dạng số nhằm xây dựng hệ thống chống can thiệp dữ liệu trong hệ thống thông tin đào tạo trường Đại học Sư phạm, Đại học Đà Nẵng

4 Phương pháp nghiên cứu

Phương pháp nghiên cứu, tôi đã sử dụng hai phương pháp chính là nghiên cứu lý thuyết và nghiên cứu thực nghiệm

Phương pháp nghiên cứu lý thuyết

- Các tài liệu về cơ sở lý thuyết: xử lý ảnh, nhận dạng ký tự quang học,

kỹ thuật lập trình

- Các tài liệu mô tả một số công cụ xử lý ảnh và nhận dạng ký tự

- Công nghệ web 2.0, kiến trúc hướng dịch vụ (SOA)

- Các tài liệu liên quan đến một số nghiên cứu về bảo mật và an toàn thông tin

Phương pháp thực nghiệm

- Sử dụng các hệ thống xử lý ảnh và nhận dạng ký tự quang học để trích xuất dữ liệu từ các tệp tin ảnh

- Thực nghiệm nhận dạng và kiểm tra kết quả

- Xây dựng công cụ kiểm tra, đối chiếu với hệ thống thông tin về điểm của Phòng đào tạo

Trang 16

5 Bố cục của luận văn

Báo cáo của luận văn được tổ chức thành 3 chương chính như sau: Chương 1: Tập trung phân tích hiện trạng quản lý hệ thống thông tin đào tạo; cơ sở lý thuyết về xử lý ảnh và nhận dạng ký tự in quang học dạng số; cuối chương là cơ sở lý thuyết về mô hình kiến trúc hướng dịch vụ

Chương 2: Nghiên cứu xây dựng thuật toán nhận dạng ký tự in quang học dạng số trên đối tượng là bảng điểm sinh viên; Xây dựng mô-đun tương tác với hệ thống thông tin đào tạo

Chương 3: Đề tài tập trung xây dựng và triển khai hệ thống bằng cách tích hợp các mô-đun ở chương 2 Từ đó, xây dựng hệ thống website tương tác với người dùng cuối Cuối chương, đề tài xây dựng hệ thống các chính sách

và giải pháp bảo mật cho hệ thống

Kết thúc luận văn là phần kết luận và đề xuất hướng phát triển Trong phần này đề tài tổng kết các nội dung đã nghiên cứu và đề xuất hướng phát triển trong tương lai

6 Tổng quan tài liệu nghiên cứu

Trong luận văn này, các tài liệu nghiên cứu tập trung vào lý thuyết về các hệ thống thông tin, giáo trình xử lý ảnh và nhận dạng ký tự quang học, kỹ thuật xây dựng và phát triển hệ thống Các tài liệu tham khảo có thể được kể đến như:

- Giáo trình hệ thống thông tin

- Giáo trình Xử lý ảnh

- Quy trình phát triển phần mềm

Trang 17

CHƯƠNG 1

NGHIÊN CỨU TỔNG QUAN

1.1 TỔNG QUAN VỀ HỆ THỐNG THÔNG TIN

1.1.1 Khái niệm hệ thống thông tin

Trong các tổ chức, việc tin học hóa các quy trình, nghiệp vụ nhằm tạo

ra sản phẩm hoặc hỗ trợ ra quyết định bằng các ứng dụng phần mềm ngày càng được quan tâm Các ứng dụng này được gọi là hệ thống thông tin

Hệ thống thông tin là một hệ thống bao gồm các yếu tố có quan hệ với nhau cùng làm nhiệm vụ thu thập, xử lý, lưu trữ, phân phối thông tin và dữ liệu, cung cấp một cơ chế phản hồi để đạt được một mục tiêu định trước [1] Giống như các hệ thống khác, hệ thống thông tin có đầu vào là dữ liệu đầu ra

là thông tin

Hình 1.1 Các chức năng chính của hệ thống thông tin [2]

Dữ liệu đầu vào là các mô tả trung thực, khách quan về đặc tính vốn có của một đối tượng trong thế giới thực Thông qua các xử lý, biến đối và có sự tham gia của tri thức, dữ liệu đầu vào sẽ được chuyển thành thông tin Thông tin là dữ liệu được tổ chức theo một cách sao cho chúng mang lại một giá trị gia tăng so với giá trị vốn có của bản thân sự kiện đó Hình 1.1 mô tả các chức năng chính trong một hệ thống thông tin

Trang 18

1.1.2 Phân loại hệ thống thông tin

Hệ thống thông tin có thể phân loại dựa theo các tiêu chí khác nhau thông thường, hệ thống thông tin được phân loại theo mục đích phục vụ của thông tin đầu ra hoặc mục đích hoạt động trong các tổ chức

Mặc dù rằng các hệ thống thường sử dụng các công nghệ khác nhau nhưng chúng phân biệt nhau trước hết bởi thông tin đầu ra phục vụ các loại hoạt động nào mà chúng trợ giúp Theo cách này có năm loại: Hệ thống thông tin xử lý giao dịch (TPS); Hệ thống thông tin quản lý (MIS); Hệ thống trợ giúp ra quyết định (DSS); Hệ chuyên gia (ES); Hệ thống thông tin tăng cường khả năng cạnh tranh (ISCA)

Cách phân loại thứ hai dựa vào các nghiệp vụ trong tổ chức mà hệ thống thông tin được ứng dụng Theo cách này hệ thống thông tin trong tổ chức gồm các hệ thống: Hệ thống thông tin tài chính; Hệ thống thông tin Marketing; Hệ thống thông tin quản lý kinh doanh và sản xuất; Hệ thống thông tin quản trị nhân lực; Hệ thống thông tin văn phòng

1.1.3 Các thành phần của một hệ thống thông tin

Các thành phần trong một hệ thống thông tin gồm con người, các thiết

bị phần cứng, phần mềm, dữ liệu nhằm thực hiện các hoạt động thu thập, lưu trữ, xử lý dữ liệu, tạo ra và phân phối thông tin trong tập hợp rằng buộc là môi trường Hình 1.2 mô tả tổng quát các thành phần trong một hệ thống thông tin Trong sơ đồ 1.2, phần cứng có nhiệm vụ kết nối các thiết bị vật lý

và tương tác với con người, phần mềm điều khiển phần cứng và thao tác trên

dữ liệu, tiến trình là tập hợp các nghiệp vụ trong hệ thống, con người thực hiện xây dựng, vận hành hệ thống

Trang 19

Hình 1.2 Các thành phần trong hệ thống thông tin [2]

1.1.4 Phát triển hệ thống thông tin

Phát triển hệ thống thông tin là xây dựng mới hay hoàn thiện một hệ thống thông tin nhằm nâng cao chất lượng thu thập, xử lý, phân phối, lưu trữ

dữ liệu và thông tin Việc phát triển hệ thống thông tin có nhiều nguyên nhân,

cụ thể như sau:

- Hệ thống thông tin hiện tại không thể đáp ứng được yêu cầu đặt ra;

- Sự thay đổi luật của nhà nước;

- Những yêu cầu mới của nhà quản lý: ký kết hợp đồng mới, thay đổi sản phẩm, …;

- Sự thay đổi của công nghệ: thiết bị công nghệ mới, xuất hiện hệ quản trị cơ sở dữ liệu;

- Gặp phải những vấn đề cản trở hoạt động của tổ chức;

- Cần tạo ra những ưu thế mới trong cạnh tranh

Trang 20

- Cắt giảm được chi phí quan trọng

Vòng đời phát triển hệ thống thông tin có thể chia thành các giai đoạn như sau:

- Khởi tạo và lập kế hoạch dự án;

- Phân tích hệ thống;

- Thiết kế hệ thống;

- Triển khai hệ thống;

- Vận hành và bảo trì hệ thống

1.2 THỰC TRẠNG CÔNG TÁC QUẢN LÝ DỮ LIỆU ĐÀO TẠO

Hiện nay, phòng Đào tạo trường Đại học Sư phạm có nhiều tổ chuyên trách các nhiệm vụ khác nhau, như: tổ quản lý dữ liệu, tổ giáo vụ, … các tổ chuyên trách hoạt động độc lập và cùng sử dụng chung hệ thống thông tin đào tạo

1.2.1 Quy trình quản lý dữ liệu đào tạo

Công tác quản lý dữ liệu được thực hiện qua nhiều công đoạn với sự tham gia của nhiều đối tượng khác nhau Hình 1.3 mô tả các nghiệp vụ làm phát sinh dữ liệu đào tạo Đầu tiên, bộ phận chuyên trách phòng đạo tạo sẽ trích xuất danh sách sinh viên của môn học thành bảng ghi điểm, sau đó bảng ghi điểm này được gửi cho cho giáo viên và bộ phận khảo thí Giáo viên và

bộ phận khảo thí tiến hành ghi điểm vào bảng điểm Trước khi gửi bảng ghi điểm về cho đào tạo và giáo vụ khoa, giáo viên sẽ nhập điểm lên hệ thống đào tạo Bộ phận khảo thí cũng tiến hành tương tự giáo viên Giáo vụ khoa sau khi tiếp nhận bảng điểm gốc sẽ tiến hành so sánh bảng điểm gốc và dữ liệu điểm được lưu trên hệ thống đào tạo để tìm sai sót Nếu có sai sót, giáo vụ khoa lập bảng kê và gửi đến đào tạo

Trang 21

Bộ phận đào tạo sau khi tiếp nhận sai sót, sẽ tiến hành rà soát để kiểm tra lại Nếu có sai sót, bộ phận đào tạo tiến hành cập nhật vào hệ thống Dữ liệu điểm sẽ được sử dụng để xét học vụ và cho sinh viên tra cứu điểm cá nhân

1.2.2 Đánh giá hiện trạng quản lý dữ liệu đào tạo hiện nay

Trong quy trình hiện nay có nhiều ưu điểm, tuy nhiên vẫn còn tồn tại các bất cập Với quy trình này, mỗi bộ phận tham gia phải thực hiện nhiều nghiệp vụ, lưu trữ nhiều dữ liệu dưới các dạng khác nhau Ví dụ, giáo viên phải vừa ghi điểm vào bảng ghi điểm trên giấy, vừa phải nhập điểm vào hệ thống qua mạng internet Bên cạnh đó, bộ phận giáo vụ khoa phải rà soát lại

dữ liệu trên hệ thống và bảng điểm gốc lưu tại khoa Điều này sẽ làm tốn thời gian và công sức khi dữ liệu điểm tại mỗi học kỳ là rất lớn Ngoài ra, dữ liệu điểm được lưu trên hệ thống sau khi được kiểm tra tại mỗi học kỳ sẽ được sử dụng cho tra cứu và xét học vụ sau này mà không phải kiểm tra lại tại thời điểm xét học vụ Điều này dẫn đến rủi ro có sự can thiệp điều chỉnh điểm bằng các cách khác nhau kể cả trong và ngoài hệ thống

Trang 22

Lưu đồ quản lý dữ liệu đào tạo và các đối tượng sử dụng

Khảo thí và kiểm định CLGD

Bảng điểm cuối kỳ Ghi điểm cuối

Có sai sót?

Lập bảng kê danh sách sai sót

Xác nhận các sai sót

Có sai sót

Cập nhật hệ thống ĐÚNG

Xét học vụ cấp khoa

Lập bảng kê:

- Sinh viên tốt nghiệp

- Sinh viên không được tốt nghiệp

- Sinh viên cảnh bảo học vụ

- Xét học bổng

CSDL Điểm đào tạo Xét học vụ cấp

trường

Lập bảng kê:

- Sinh viên tốt nghiệp

- Sinh viên không được tốt nghiệp

- Sinh viên cảnh bảo học vụ

- Xét học bổng

Tra cứu bảng điểm cá nhân

Hình 1.3 Lưu đồ quản lý dữ liệu điểm đào tạo

Trang 23

1.3 TỔNG QUAN KỸ THUẬT XỬ LÝ ẢNH

1.3.1 Khái niệm xử lý ảnh

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ do đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy [3]

Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh

có thể là một ảnh “tốt hơn” hoặc một kết luận

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1, c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều

Một số khái niệm cơ bản

- Ảnh và điểm ảnh: Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong không gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh

- Mức xám, màu: Là số các giá trị có thể có của các điểm ảnh của ảnh

Các vấn đề cơ bản trong xử lý ảnh

- Nắn chỉnh biến dạng: Ảnh thu nhận thường bị biến dạng do các thiết

bị quang học và điện tử

Trang 24

Hình 1.4 Ảnh thu nhận và ảnh mong muốn

- Khử nhiễu: Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh: Nhiễu hệ thống và nhiễu ngẫu nhiên Nhiễu hệ thống là nhiễu có quy luật có thể khử bằng các phép biến đổi Nhiễu ngẫu nhiên là nhiễu do vết bẩn không

rõ nguyên nhân, có thể khắc phục bằng các phép lọc

- Chỉnh mức xám: Nhằm khắc phục tính không đồng đều của hệ thống gây ra Thông thường có 2 hướng tiếp cận: Giảm số mức xám và tăng số mức xám Giảm số mức xám thực hiện bằng cách nhóm các mức xám gần nhau thành một bó Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng

kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh

- Trích chọn đặc điểm: Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây: Đặc điểm không gian (phân bố mức xám, biên độ, điểm uốn, …); Đặc điểm biến đổi (trích chọn bằng việc thực hiện lọc vùng); Đặc điểm biên và đường biên (đặc trưng cho đường biên của đối tượng)

- Nhận dạng: Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu

- Nén ảnh: Nhằm giảm thiểu không gian lưu trữ

Trang 25

1.3.2 Quy trình xử lý ảnh

Sơ đồ tổng quát của một hệ thống xử lý ảnh được trình bày trong hình 1.5

Hình 1.5 Sơ đồ tổng quát của hệ thống xử lý ảnh

Sơ đồ này bao gồm các thành phần sau:

- Thu nhận ảnh: Ảnh có thể nhận qua camera màu hoặc đen trắng Thường ảnh nhận qua camera là ảnh tương tự (loại camera ống chuẩn CCIR với tần số 1/25, mỗi ảnh 25 dòng), cũng có loại camera đã số hóa (như loại CCD – Change Couple Device) là loại photodiot tạo cường độ sáng tại mỗi điểm ảnh Camera thường dùng là loại quét dòng, ảnh tạo ra có dạng hai chiều Chất lượng một ảnh thu nhận được phụ thuộc vào thiết bị thu, vào môi trường (ánh sáng, phong cảnh)

- Tiền xử lý: Sau bộ thu nhận, ảnh có thể nhiễu độ tương phản thấp nên cần đưa vào bộ tiền xử lý để nâng cao chất lượng Chức năng chính của bộ tiền xử lý là lọc nhiễu, nâng cao độ tương phản để làm ảnh rõ hơn, nét hơn

- Trích chọn đặc điểm: Phân vùng ảnh thành các thành phần để phân tích tìm kiếm các đặc trưng các đối tượng cần nhận dạng ví dụ ký tự chữ in,

ký tự viết tay, hình tứ giác, hình tam giác, …

- Hậu xử lý: Là kỹ thuật rút gọn số lượng điểm biểu diễn Kết quả của phần dò biên hay trích xương thu được 1 dãy các điểm liên tiếp Việc rút gọn

sẽ giúp bỏ bớt các điểm thu điểm điểm giảm thiểu không gian lưu trữ và thuận tiện cho việc đối sánh

Trang 26

- Lưu trữ: Lưu trữ các ảnh đã được xử lý

- Hệ quyết định: Tham gia vào quá trình nhận dạng, hỗ trợ hệ thống đưa ra kết quả

- Đối sánh và rút ra kết luận: So sánh kết quả nhận dạng với các đối tượng cần tìm kiếm và đưa ra kết luận

1.3.3 Một số ứng dụng của công nghệ xử lý ảnh

Xử lý ảnh có ứng dụng rất rộng và gần như tất cả các lĩnh vực kỹ thuật đều bị ảnh hưởng bởi kỹ thuật này Xử lý hình ảnh không chỉ giới hạn ở chổ chỉ điều chỉnh độ phân giải hình ảnh, tăng độ sáng của hình ảnh, mà nó còn rất nhiều ứng dụng trong các lĩnh vực khác Một số ứng dụng cụ thể như:

- Xử lý và phục hồi hình ảnh: từ một hình ảnh được chụp từ máy ảnh,

ta có thể chỉnh sửa, xử lý để làm ảnh đẹp hơn hoặc phù hợp nhu cầu người dung như: làm mờ, lấy biên, chỉnh độ nét, chỉnh độ phân giải, phục hồi và nhận dạng ảnh

- Lĩnh vực y tế: Chuẩn đoán bệnh qua ảnh như chụp X-Quang, chụp cộng hưởng từ, siêu âm

- Do thám, thám hiểm: Phân tích ảnh chụp bề mặt trái đất, ảnh chụp không gian, … Ví dụ: Phân tích thiệt hại của một trận động đất, đường đi của bảo, …

- Truyền và mã hóa: Thông tin được mã hóa và truyền đi dưới dạng hình ảnh

- Thị giác máy tính và robot: Hỗ trợ tương tác người máy, giúp robot

“nhìn” mọi thứ, tránh vật cản, …

- Công nghệ nhận dạng: Xử lý ảnh dùng để xác định, nhận dạng các đối tượng, các mối nguy hiểm, nhận dạng vân tay, khuôn mặt, hoặc các loại bệnh trong lĩnh vực y tế

Trang 27

1.4 KỸ THUẬT NHẬN DẠNG KÝ TỰ QUANG HỌC

1.4.1 Khái niệm nhận dạng ký tự quang học

Nhận dạng ký tự quang học (OCR) là phần cốt lõi của ngành nhận dạng, trong đó mục đích của OCR là nhận biết được các chuỗi ký tự từ bảng chữ cái Các ký tự trong bảng chữ cái thường có rất nhiều kiểu viết khác nhau Trên thực tế các ký tự thường được viết bằng nhiều kiểu khác nhau tùy thuộc vào kích cỡ, loại phông chữ và nét bút viết tay của từng người Mặc dù các ký tự

có thể viết theo nhiều cách nhưng có lẽ rằng vẫn có những quy tắc xác định

để nhận biết từng ký tự Phát triển những thuật toán trên máy tính để nhận biết các ký tự trong bảng chữ cái là một nhiệm vụ trọng tâm của OCR Nhưng thách thức đối với vấn đề này là: trong khi con người có thể nhận dạng gần như chính xác 100% các ký tự viết tay thì OCR vẫn chưa thể đạt tới điều này

Hình 1.6 Mẫu ký tự viết tay

Khó khăn đối với OCR thể hiện qua một số đặc điểm Sự gia tăng số lượng và kích cỡ của phông chữ trong bảng chữ cái, không ràng buộc các kiểu chữ viết tay, các ký tự nối liền nhau, các nét bị đứt, các điểm nhiễm, … tất cả chúng làm cho quá trình nhận dạng gặp khó khăn Trong hình 1.6, thật khó để phân biệt số 4 và số 9 hoặc giữa số 0 và số 6

Các chương trình hỗ trợ OCR hiện nay có thể nhận dạng được ký tự với

tỷ lệ trên 90% đối với ảnh có chất lượng nét và phông chữ thông dụng

Trang 28

Hình 1.7 Ảnh chụp mẫu ký tự đánh máy

1.4.2 Các yếu tố đầu vào quyết định thành công của hệ thống OCR

Dữ liệu đầu vào của hệ thống OCR cần thỏa một số yêu cầu sau:

- Kiểu phông: hai chuẩn phông OCR A và OCR B được đưa ra bởi ANSI, the American National Standards Institute, giúp cải thiện khả năng của tất cả các hệ thống OCR

- Tài liệu: tài liệu giấy trước khi qua khâu quét ảnh Các vấn đề cần quan tâm như: kiểu giấy, màu giấy, mực in

- Chất lượng ảnh: Tài liệu được quét ở bao nhiêu DPI? Độ tương phản

ra sao?

1.4.3 Một số ứng dụng của OCR

Hiện nay, hai hãng phát triển và cải tiến phần mềm nhận dạng ký tự lớn nhất là Google và ABBYY Google trên nền tảng Tesseract [11](Tesseract OCR engine) được phát triển bởi HP Labs trong giai đoạn 1985-1995, sử dụng mã nguồn mở, có chất lượng nhận dạng chính xác cao, với nhiều định dạng file ảnh và có thể nhận dạng hơn 60 ngôn ngữ khác nhau ABBYY cho

ra đời phần mềm nhận dạng ký tự quang học với tên gọi ABBYY có khả năng nhận dạng 190 ngôn ngữ [12] Đặc biệt, đối với ký tự La-tinh và tiếng Nga,

Trang 29

công nghệ OCR của ABBYY có thể đạt hiệu quả nhận dạng đến 99% cho một file ảnh chất lượng tốt

Hình 1.8 Giao diện phần mềm VnDOCR và VietOCR

Ở Việt Nam cũng có một vài hãng phần mềm đầu tư xây dựng công nghệ OCR Tiêu biểu là phần mềm VnDOCR 4.0 Professional [13], chương trình nhận dạng chữ Việt in, được phát triển bởi nhóm chuyên gia phát triển phần mềm của Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ thông tin - Viện Khoa học và Công nghệ Việt Nam VnDOCR sử dụng chương trình điều khiển máy quét, để quét ảnh từ tài liệu in dưới dạng ảnh đen trắng (line Art, Black and White - B&W, độ phân giải 300dpi, sau đó chuyển qua chế độ nhận dạng Kết quả nhận dạng chữ Việt độ chính xác đạt khoảng trên 90% tùy vào chất lượng bản quét Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn

Trang 30

mở tesseract-ocr do Google tài trợ VietOCR có khả năng nhận dạng chữ Việt rất tốt Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP

1.5 THƯ VIỆN TESSERACT

1.5.1 Sơ lược Tesseract

Tesseract [14] là một công cụ OCR mã nguồn mở được nghiên cứu và phát triển bởi HP trong giai đoạn 1984-1994 Tesseract được biết như là một phần mềm thêm vào cho dòng sản phẩm máy quét của HP Trong giai đoạn này, nó vẫn còn rất sơ khai và chỉ được dùng để cải thiện chất lượng của các bản in Nó được phát triển cho đến năm 1994 thì ngưng Sau khi được cải thiện độ chính xác, nó được HP đưa vào cuộc kiểm tra thường niên về độ chính xác của các công cụ OCR và nó đã thể hiện được sự vượt trội của mình

Kể từ năm 2006, nó đã được cải thiện rộng rãi bởi Google Tesseract hoạt động trên Linux, Windows (với VC++ Express hoặc Cygwin) và Mac OSX Chúng ta có thể tải về tại địa chỉ https://github.com/ tesseract-ocr

Hình 1.9 Kiến trúc Tesseract

Trang 31

1.5.2 Cấu trúc Tesseract

Cấu trúc của Tesseract được mô tả qua hình 1.9 Trong đó, tạo ngưỡng thích nghi giúp loại bỏ các yếu tố nền của hình ảnh (ví dụ như ánh sáng, bóng,…) và giúp phân tích các pixel thành ảnh nhị phân Nhận dạng được tiến hành qua một quá trình với hai lần nhận dạng Lần thứ nhất: nhận ra lần lượt từng từ Mỗi từ có nghĩa là đạt yêu cầu và được thông qua và được lưu vào dữ liệu Lần thứ hai, khi phân loại thích ứng, công cụ sẽ nhận dạng lại các từ không được nhận dạng tốt ở lần trước đó

1.5.3 Cách thức Tesseract làm việc

Đầu tiên tesseract phân tích hình ảnh nhằm tìm dòng và từ Tesseract

hỗ trợ nhận dạng các dòng của các hình ảnh bị nghiêng, giúp giảm sự mất thông tin khi nhận dạng ảnh nghiêng Các bộ phận quan trọng của quá trình này là lọc dãy màu (còn được gọi là blobs) và xây dựng dòng Việc này cũng giúp loại bỏ các văn bản có chữ đầu tiên của đoạn văn lớn hơn bình thường (dropcap)

Tiếp theo tesseract thiết lập dòng cơ sở Khi dòng văn bản được tìm thấy, các dòng cơ sở được thiết lập chính xác hơn bằng cách sử dụng một đường có tên là spline toàn phương (là dòng mà được kết hợp từ nhiều đoạn)

Nó giúp Tesseract xử lý các trang có đường cơ sở là đường cong

Các dòng cơ sở được thiết lập bằng cách phân vùng các blobs thành các nhóm có thể thay thế thích hợp liên tục trong đường cơ sở thẳng ban đầu Một spline toàn phương được thiết lập cho phân vùng dày đặc nhất, (giả định là đường cơ sở) của một hình có phương ít nhất Spline có lợi thế là tính toán ổn định, nhược điểm là sự gián đoạn có thể xảy ra khi nhiều phân đoạn spline được yêu cầu Hình 1.10 thể hiện một đường cơ sở dạng cong

Trang 32

Sau khi tìm được đường cơ sở, tesseract sẽ tiến hành cắt nhỏ từ Bước này sẽ xác định xem có các ký tự dính với nhau trong một từ hay không Nếu

Cuối cùng, tesseract sẽ thực hiện nhận dạng từ Quá trình nhận dạng một từ là quá trình phân tích một từ được chia ra thành các ký tự như thế nào Hình 1.12 mô tả quá trình nhận dạng từ của tesseract

Trang 33

Hình 1.12 Quá trình nhận dạng từ

Khi kết quả xuất ra một từ mà nó không thỏa mãn nhu cầu thì tesseract

cố gắng cải thiện kết quả này bằng cách cắt nhỏ các từ có nghĩa không tốt nhất Nếu việc cắt nhỏ không làm tăng chất lượng từ thì nó sẽ phục hồi lại từ trước đó

1.5.4 Thư viện VietOCR.NET

Thư viện VietOCR.NET là bộ thư viện dành cho các lập trình viên NET Các nhà phát triển có thể tải về bộ thư viện này tại địa chỉ: https://sourceforge.net /p/vietocr/code/HEAD/tree/ Thư viện này hiện nay đã

có phiên bản 4.3 hỗ trợ các phông chữ cũ Việt Nam, VNI và TCVN3 (ABC)

và đã tích hợp tesseract 3.0x

Khi sử dụng VietOCR.NET nhà phát triển cần lưu ý hình ảnh muốn được OCR cần quét ở độ phân giải từ 200 DPI (dot per inch) trở lên tới 400 trong trắng đen hoặc đa mức xám (grayscale) Quét ảnh với độ phân giải cao hơn nữa chưa hẳn sẽ tăng sự chính xác của kết quả nhận dạng Hiện tại, mức chính xác có thể lên trên 97% cho Tiếng Việt, và phiên bản tới của Tesseract

Trang 34

có thể nâng cao độ nhận dạng hơn nữa Mặc dù vậy, độ chính xác thực thụ vẫn còn tùy thuộc rất lớn vào phẩm chất của ảnh quét [8]

Thông số tiêu biểu cho quét ảnh là 300 DPI và 1 bpp (bit per pixel) trắng đen hoặc 8 bpp grayscale dạng không nén (uncompressed) TIFF hay PNG PNG nhỏ gọn hơn những dạng ảnh khác mà vẫn giữ được chất lượng cao nhờ sử dụng thuật toán lossless data compression; TIFF có lợi điểm ở khả năng chứa nhiều trang ảnh (multi-page) trong một file

Chế độ Screenshot Mode cung cấp độ nhận dạng tốt hơn cho những hình ảnh có độ phân giải thấp, chẳng hạn như ảnh in màn hình, bằng cách rescaling chúng tới 300 DPI

1.6 KIẾN TRÚC HƯỚNG DỊCH VỤ

1.6.1 Tổng quan về SOA

SOA (Service Oriented Architecture) - Kiến trúc hướng dịch vụ là một cách tiếp cận hay một phương pháp luận để thiết kế và tích hợp các thành phần khác nhau, bao gồm các phần mềm và các chức năng riêng lẻ lại thành một hệ thống hoàn chỉnh [9] Kiến trúc SOA rất giống với cấu trúc của các phần mềm hướng đối tượng gồm nhiều module Tuy nhiên khái niệm module trong SOA không đơn thuần là một gói phần mềm hay một bộ thư viện nào đó Thay vào đó, mỗi module trong một ứng dụng SOA là một dịch vụ được cung cấp rải rác ở nhiều nơi khác nhau để cùng cộng tác thực hiện

SOA có thể được hiểu là một hướng tiếp cận để xây dựng các hệ thống phân tán cung cấp các chức năng ứng dụng dưới dạng dịch vụ tới các ứng dụng người cuối cùng hoặc các dịch vụ khác:

- SOA là một kiến trúc dùng trong các chuẩn mở để biểu diễn các thành phần mềm như là các dịch vụ

Trang 35

- Cung cấp một cách thức chuẩn hóa cho việc biểu diễn và tương tác với các thành phần phần mềm

- Các thành phần phần mềm riêng lẻ trở thành các khối cơ bản để có thể

sử dụng lại để xây dựng các ứng dụng khác

- Được sử dụng để tích hợp các ứng dụng bên trong và bên ngoài tổ chức, với các tác vụ nào đó theo yêu cầu của khách hàng

1.6.2 Kiến trúc SOA

Mô hình tổng thể của SOA được thể hiện qua hình 1.13 Trong đó:

- Service Provider: cung cấp các service phục vụ cho một nhu cầu nào

đó User (Service consumer) không cần quan tâm đến vị trí thực sự mà service họ cần sử dụng đang hoạt động Họ chỉ cần quan tâm dịch vụ đó là gì

- Service Consumer: khách hàng dịch vụ hay những user sử dụng service được cung cấp bởi Service Provider

- Service Registry: Nơi lưu trữ thông tin về các Service của các Service Provider khác nhau, Service Consumer dựa trên những thông tin này để tìm kiếm và lựa chọn Service Provider phù hợp

Service Provider sẽ đăng ký thông tin về service mà mình có thể cung cấp (các chức năng có thể cung cấp, khả năng của hệ thống (resource, performance, giá cả dịch vụ…) vào Service Registry Ngoài chức năng hỗ trợ tìm kiếm, Service Registry còn có thể xếp hạng trước Service Provider dựa trên các tiêu chí về chất lượng dịch vụ Những thông tin này sẽ hỗ trợ thêm cho quá trình tìm kiếm của Service Consumer Khi đã xác định được Service Provider mong muốn, Service Consumer thiết lập kênh giao tiếp trực tiếp với Service Provider nhằm sử dụng service hoặc tiến hành thương lượng thêm (về mặt giá cả, resource sử dụng…)

Trang 36

Hình 1.13 Kiến trúc SOA

1.6.3 Phân tích tính ứng dụng của SOA trong hệ thống

Hệ thống được tác giả nghiên cứu tương tác với hệ thống thông tin đào tạo một cách độc lập, tức là việc truy xuất dữ liệu của đào tạo phải qua các cổng dịch vụ qua mạng internet Ngoài ra, hệ thống còn cung cấp tính năng tra cứu dữ liệu cho các Khoa/Phòng ban trong nhà trường Các đơn vị có hệ thống vận hành độc lập Chính vì vậy, kiến trúc hướng dịch vụ sẽ giúp cho việc kết nối, chia sẻ dữ liệu giữa các bên liên quan được thuận tiện và nhanh chóng

1.6.4 Những thách thức trong mô hình SOA

Vì hoạt động trong môi trường internet nên yếu tố bảo mật là vấn đề được quan tâm hàng đầu Để giải quyết vấn đề này, các bên khi truy cập sẽ cung cấp mã số định danh cho bên còn lại để xác thực Ngoài ra, độ trễ trong truyền thông cũng sẽ tác động không nhỏ đến hiệu suất làm việc của hệ thống Đây là nguyên nhân khách quan nên việc nâng cấp hạ tầng mạng cần được chú trọng

1.7 KẾT LUẬN CHƯƠNG 1

Trong chương 1, tôi đã trình bày kiến thức tổng quan, cơ sở lý luận phục vụ cho luận văn Các nội dung được đề cập bao gồm kiến thức về hệ thống thông tin, đánh giá hiện trạng công tác quản lý đào tạo, các kỹ thuật xử

Trang 37

lý ảnh và nhận dạng ký tự quang học Cuối chương tôi trình bày về thư viện VietOCR.NET phục vụ việc nhận dạng ký tự quang học OCR Bên cạnh đó, kiến trúc hướng dịch vụ cũng được tôi tìm hiểu và ứng dụng để xây dựng nên

hệ thống mà luận văn nghiên cứu

Trang 38

Nhằm xây dựng hệ thống có các tính năng nói trên, tác giả đề xuất dữ liệu đào vào là tệp tin ảnh các bảng điểm gốc, thông qua công nghệ nhận dạng

ký tự quang học, hệ thống sẽ lập chỉ mục phục vụ tra cứu, thống kê Đây sẽ là

dữ liệu dùng để so sánh với dữ liệu đào tạo Việc so sánh được tiến hành hoàn toàn tự động Người dùng cuối sẽ nhận được kết quả thông qua các tệp tin báo cáo do hệ thống tạo ra

2.2 PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG

Kiến trúc tổng quan của hệ thống được trình bày trong hình 2.1 Trong

sơ đồ này, hệ thống được chia thành các mô-đun:

- Khối xử lý và nhận dạng: Có chức năng tiếp nhận bảng điểm dưới dạng ảnh, xử lý và trích xuất thông tin theo yêu cầu của người dùng

- Quản lý dữ liệu: Quản lý việc truy xuất trong CSDL của hệ thống

Trang 39

- Hệ thống các dịch vụ: Là trung tâm điều khiển của hệ thống, xử lý các yêu cầu người dùng như: so sánh đối chiếu phát hiện điều chỉnh trong dữ liệu, tìm kiếm, thống kê – báo cáo

Hoạt động của khối xử lý và nhận dạng ảnh được mô tả như sau: Đầu tiên, người dùng tải lên các tệp tin ảnh là các bảng điểm gốc Hệ thống tiếp nhận và thực hiện các bước tiền xử lý, nếu ảnh tải lên đúng định dạng mà hệ thống hệ thống yêu cầu thì sẽ được chuyển sang bước xử lý và nhận dạng Ngược lại, hệ thống thông báo ảnh tải lên không phù hợp và yêu cầu tải lại Khi ảnh được chuyển sang bước xử lý và nhận dạng, hệ thống sẽ tiến hành tìm kiếm các “khối chữ nhật” dùng để đánh dấu các vị trí cần nhận dạng Tiếp theo, từ các khối được tìm thấy, hệ thống tiến hành cắt các vùng theo khối được đánh dấu và đưa vào bộ phận nhận dạng Kết thúc, hệ thống đưa ra dữ liệu đã nhận dạng và thông báo cho người dùng Chi tiết các bước được thể hiện ở hình 2.2

Ngày đăng: 24/04/2022, 15:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Trương Văn Tú, Trần Thị Song Minh (2000), Giáo trình Hệ thống thông tin quản lý, NXB Thống kê, Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình Hệ thống thông tin quản lý
Tác giả: Trương Văn Tú, Trần Thị Song Minh
Nhà XB: NXB Thống kê
Năm: 2000
[2] Kenneth C. Laudon, Jane P.Laudon, Prentice Hall, New Jersey (2012), Management Information Systems, Managing the Digital Firm, 12th edition Sách, tạp chí
Tiêu đề: Management Information Systems, Managing the Digital Firm
Tác giả: Kenneth C. Laudon, Jane P.Laudon, Prentice Hall, New Jersey
Năm: 2012
[3] TS. Đỗ Năng Toàn, TS. Phạm Việt Bình (2007), Giáo trình môn học Xử lý ảnh, Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Giáo trình môn học Xử lý ảnh
Tác giả: TS. Đỗ Năng Toàn, TS. Phạm Việt Bình
Năm: 2007
[5] Stephen V. Rice, George Nagy, Thomas A. Nartker, Optical Character Recognition: An Illustrated Guide to the Frontier, The Springer International Series in Engineering and Computer Science Sách, tạp chí
Tiêu đề: Optical Character Recognition: An Illustrated Guide to the Frontier
[7] William Stallings, Network Security Essentials: Applications and Standards, 4 th Edition, 2011.Website Sách, tạp chí
Tiêu đề: Network Security Essentials: Applications and Standards
[10] William Stallings, Network Security Essentials: Applications and Standards, 4 th Edition, 2011 Sách, tạp chí
Tiêu đề: Network Security Essentials: Applications and Standards
[9] Service-oriented architecture, < https://en.wikipedia.org/wiki/Service-oriented _architecture>, truy cập ngày 22/03/2016 Link
[6] Oliveira Luiz S., Rebert Sabourin, Flavio Bortolozzi and Ching Y.Suen, Automatic Recognition of Handwritten Numerical Strings: A Recognition and Verfication Strategy Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Các chức năng chính của hệ thống thông tin [2] - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 1.1. Các chức năng chính của hệ thống thông tin [2] (Trang 17)
Hình 1.2. Các thành phần trong hệ thống thông tin [2] - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 1.2. Các thành phần trong hệ thống thông tin [2] (Trang 19)
Hình 1.7. Ảnh chụp mẫu ký tự đánh máy - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 1.7. Ảnh chụp mẫu ký tự đánh máy (Trang 28)
Hình 1.8. Giao diện phần mềm VnDOCR và VietOCR - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 1.8. Giao diện phần mềm VnDOCR và VietOCR (Trang 29)
Hình 1.9. Kiến trúc Tesseract - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 1.9. Kiến trúc Tesseract (Trang 30)
Hình 1.12. Quá trình nhận dạng từ - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 1.12. Quá trình nhận dạng từ (Trang 33)
Hình 1.13. Kiến trúc SOA - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 1.13. Kiến trúc SOA (Trang 36)
Hình 2.1. Tổng quan các thành phần trong hệ thống - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 2.1. Tổng quan các thành phần trong hệ thống (Trang 39)
Hình 2.2. Sơ đồ hoạt động xử lý và nhận dạng ảnh - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 2.2. Sơ đồ hoạt động xử lý và nhận dạng ảnh (Trang 40)
Hình 2.3. Sơ đồ mô tả tương tác giữa ứng dụng và hệ thống đào tạo - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 2.3. Sơ đồ mô tả tương tác giữa ứng dụng và hệ thống đào tạo (Trang 41)
Hình 2.4. Cấu trúc các thành phần của hệ thống - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 2.4. Cấu trúc các thành phần của hệ thống (Trang 42)
Hình 2.6. Bảng điểm mẫu - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 2.6. Bảng điểm mẫu (Trang 44)
Ngoài ra, bảng điểm cần được trình bày theo đúng định dạng mà hệ thống đưa  ra. Hình 2.6  thể  hiện  một  bảng  điểm  mẫu - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
go ài ra, bảng điểm cần được trình bày theo đúng định dạng mà hệ thống đưa ra. Hình 2.6 thể hiện một bảng điểm mẫu (Trang 45)
Hình 2.8. Bản sao ảnh gốc với dạng màu được đảo ngược - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
Hình 2.8. Bản sao ảnh gốc với dạng màu được đảo ngược (Trang 46)
Bước 5: Kiểm tra Blob[i] có phải hình chữ nhật hay không? Nếu đúng, qua bước 6. Ngược lại qua bước 8 - Nghiên cứu xây dựng hệ thống đảm bảo an toàn dữ liệu đào tạo tại trường đại học sư phạm đại học đà nẵng
c 5: Kiểm tra Blob[i] có phải hình chữ nhật hay không? Nếu đúng, qua bước 6. Ngược lại qua bước 8 (Trang 47)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm