Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằ
Trang 1
Nguyễn Thị Minh Huệ
ĐỀ TÀI : NGHIÊN CỨU KHO DỮ LIỆU CHUYÊN ĐỀ VÀ ỨNG DỤNG TRONG VIỆC TRÍCH RÚT THÔNG TIN QUẢN LÝ ÁN HÌNH SỰ TẠI VIỆN KIỂM SÁT NHÂN DÂN TỐI CAO
Chuyên ngành: Khoa học máy tính
MÃ Số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Phảnbiện 1: ………
………
………
Phảnbiện 2: ………
………
………
LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưuchín hViễnthông Vàolúc: .giờ ngày tháng năm
Cóthểtìmhiểuluậnvăntại:
- ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông
Trang 3MỞ ĐẦU
Yêu cầu có được thông tin nhanh chóng, chính xác phục vụ cho công việc không dễ gì có được bởi
vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều nơi (phù hợp với tổ chức phân cấp của các đơn vị), ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc Nhiều hệ thống thông tin
đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng
Đến nay, phương pháp xây dựng kho dữ liệu (Data Warehouse) đã phát triển cả về lý thuyết cũng như thực tế Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ để xây dựng, duy trì phát triển kho dữ liệu Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ Do
đó việc nghiên cứu về Kho dữ liệu chuyên đề và xem xét khả năng ứng dụng trong việc xử lý dữ liệu là cần thiết
Hệ thống cơ quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát nhân dân các cấp cũng được trang bị hệ thống các ứng dụng nghiệp vụ trong toàn ngành Việc tập hợp và quản trị các dữ liệu trên phạm vi toàn ngành để cung cấp cho quá trình “phân tích, đánh giá, kiểm tra, giám sát, hỗ trợ ra quyết định” tình hình tội phạm trong từng giai đoạn là rất cần thiết Đề tài này nghiên cứu về lý thuyết, nắm chắc phương pháp luận và đưa ra phần thử nghiệm về trích rút thông tin theo yêu cầu của bài toán cụ thể
Luận văn bao gồm ba phần:
Chương I, giới thiệu chung về kho dữ liệu
Chương II, cấu trúc kho dữ liệu và mô hình dữ liệu
Chương III, ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân dân tối cao
Trang 4CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU
Trong chương này, luận văn nêu một số khái niệm cơ bản về kho dữ liệu
1.1 Về kho dữ liệu
Định nghĩa kho dữ liệu: Có nhiều đinh nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ liệu của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định"
1.1.1 Mục đích của kho dữ liệu
Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác
Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình như: có những quyết định hợp lý, nhanh, hiệu quả, thu được lợi nhuận cao hơn…
1.1.2 Các lợi ích của kho dữ liệu
Kho dữ liệu là một cơ sở dữ liệu được thiết kế đặc biệt cho các nhu cầu liên quan đến việc hỗ trợ ra quyết định Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:
Dữ liệu lưu trữ tập trung tại một nơi
Thông tin luôn được cập nhật
Truy xuất nhanh
Không giới hạn kích thước
Dễ hiểu
Rõ ràng và đồng nhất
Dữ liệu chuẩn hoá
1.1.3 Sử dụng kho dữ liệu
Kho dữ liệu được sử dụng theo ba cách chính:
1 Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công
cụ vấn đáp và báo cáo
2 Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP) Trong khi ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai
3 Người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn, đó chính là công nghệ khai phá dữ liệu (Data Mining) Đây chính là ứng dụng chính thứ ba của kho dữ liệu
1.2 Đặc điểm dữ liệu trong kho dữ liệu
Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm:
Trang 5Vùng xử lí: Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu thu được từ nguồn trước khi
chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu Trong các hình vẽ vùng này được viết tắt là
“STG”
Vùng chứa dữ liệu dạng chuẩn hoá: Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích
hợp từ nhiều nguồn khác nhau Trong vùng này, dữ liệu được lưu trữ ở dạng chuẩn cao, thường là dạng chuẩn 3 Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều
biến đổi phức tạp Trong các hình vẽ vùng này được viết tắt là “NDS”
Vùng chứa dữ liệu hoạt động: Là vùng chứa dữ liệu dạng lai giữa vùng dữ liệu chuẩn hoá và cơ sở
dữ liệu hoạt động Mục đích của nó ngoài việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn được dùng như là cơ sở dữ liệu hoạt động tập trung
Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều: Là vùng kho dữ liệu đầu cuối, phía người
dùng Trong vùng này, dữ liệu được lưu trữ dưới dạng mô hình hoá đa chiều nhằm hỗ trợ các ứng dụng hay truy vấn dạng phân tích đầu cuối.Trong các hình vẽ, vùng này được viết tắt là “DDS”, “DW” hay “DWH”
Kho dữ liệu có rất nhiều loại kiến trúc Từ đơn giản nhất, chỉ gồm một kho dữ liệu đầu cuối, đến rất phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn Tuy nhiên, hầu hết các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau:
1.3.1 Kiến trúc DDS đơn
Hình 3: Kiến trúc DSS đơn
Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu Kiến trúc này
có thành phần chính là một kho dữ liệu trung tâm
Trang 6Hình 5: Kiến trúc ODS và DDS
1.3.3 Vùng xử lí
Thông thường, trong tất cả các kiến trúc kho dữ liệu, luôn có một vùng chứa dữ liệu gọi là vùng xử
lí Dữ liệu được chuyển từ nhiều nguồn vào vùng xử lí mà không thông qua (hoặc rất ít) công đoạn xử lí nào Người ta có thể nạp trực tiếp dữ liệu từ nguồn vào kho dữ liệu đầu cuối
Trang 7Hình 6 : Vùng xử lý
1.3.4 Cơ sở dữ liệu chuẩn hoá
Hình 7: Mô hình dữ liệu được chuẩn hóa
Đối với kiến trúc NDS và DDS, vùng chứa dữ liệu dạng chuẩn hoá, còn được gọi là cơ sở dữ liệu chuẩn hoá đóng vai trò là một cơ sở dữ liệu tập trung
1.3.5 Kho dữ liệu đầu cuối
Hình 8: Kho dữ liệu đầu cuối
Đây là kiểu cấu trúc dựa trên mô hình khối đa chiều Mỗi khối đa chiều là bao gồm một bảng dữ kiện và các bảng chiều Dữ kiện là các độ đo, các số liệu được tính toán từ các chiều Cấu trúc dữ liệu này có đặc trưng là phi chuẩn hoá Đây là một đặc trưng quan trọng của kho dữ liệu mô hình hoá đa chiều
1.4 Kho dữ liệu chuyên đề
Kho dữ liệu chuyên đề (DM) là CSDL có những đặc điểm giống với Kho dữ liệu nhưng với quy mô
Trang 8nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành Datamart là kho dữ liệu hướng chủ đề Có
thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc
1.5.2 Các thành phần của một hệ thống hỗ trợ ra quyết định
Hình 9: Các thành phần của một hệ thống hỗ trợ ra quyết định
1 Dữ liệu: được trích lọc từ TPS hay MIS để diễn tả cho những sự kiện liên quan đến những vấn đề đang
cần giải quyết
2 Mô hình: là một dạng dữ liệu đặc biệt dùng để mô tả khái quát các đặc trưng quan trọng nhất của các sự
kiện, vấn đề mà không cần phải diễn tả lại toàn bộ chi tiết Giá trị của mô hình là để giảm bớt chi phí nghiên cứu hoặc mô tả chi tiết cho các vấn đề Tương tự như database, modelbase lưu trữ các mô hình thống kê, tài chính, toán học mà DSS sử dụng để thực hiện tự động nhiều phân tích khác nhau trên vấn
đề để tìm lời giải
3 Các phân hệ dựa vào kiến thức: Là bộ máy suy diễn dựa trên các quy tắc và sự kiện đã biết (từ dữ liệu,
mô hình và cơ sở kiến thức tổ chức) Máy tri thức trợ giúp thu thập lưu trữ và sử dụng tri thức để hổ trợ
tự động hoá việc phân tích, suy diễn, tổng hợp các sự kiện hướng đến giải pháp cho vấn đề
4 Giao diện người dùng: DSS được sử dụng theo phương thức tương tác người – máy ở mức độ cao vì giải
pháp cho các bài toán bán cấu trúc cần được tinh chỉnh từng bước từ phía người sử dụng Sự giao tiếp người - máy càng thuận tiện bao nhiêu thì hiệu quả của DSS càng cao bấy nhiêu
5 Người sử dụng: Người sử dụng của DSS đóng vai trò cung cấp kiến thức, hoặc ra các quyết định cho hệ
thống (tinh chỉnh giải pháp, chọn cách giải quyết) trong suốt quá trình tìm kiếm giải pháp
1.5.3 Phân loại các hệ trợ giúp quyết định
Hệ xử lý tác vụ: mục đích chính của các Hệ xử lý tác vụ là giữ cho việc ghi nhận các giao tác được chính xác Hệ thống này được xây dựng chỉ có thể làm ra những quyết định đơn giản trong việc xác định dữ
Trang 9liệu được ghi nhận là có hợp lệ hay không Hệ xử lý tác vụ làm công việc hợp lệ hóa trước khi ghi nhận giao tác để CSDL được làm sạch hơn
Hình 10: Phân loại các Hệ thông tin quản lý
Hệ trợ giúp quyết định: bao gồm những hệ thống được thiết kế để trợ giúp các nhà quản lý ra quyết định Khác với hệ xử lý tác vụ phục vụ cho những hoạt động hàng ngày, DSS phục vụ cho những mục tiêu dài hạn hơn và có thể cần đến một vài ý kiến, phán đoán đóng góp từ các chuyên gia Hiện nay DSS có thể được chia thành hai hướng cơ bản Hướng đầu tiên dựa vào mô hình theo xu hướng của các Hệ trợ giúp quyết định cũ
Loại Hệ trợ giúp quyết định thứ hai là loại Hệ trợ giúp quyết định dựa vào dữ liệu DSS trong cơ chế
vận hành của MIS:
Điều khiển theo chu kỳ đóng, dựa trên các quy tắc quản lý do tổ chức thiết lập Quản lý dựa trên các kênh
thông tin nội bộ
Điều khiển theo chu kỳ mở, dựa trên các tiêu chuẩn độc lập với tổ chức Môi trường có tham gia vào hoạt
động quản lý
1.5.4 Năng lực của hệ hỗ trợ ra quyết định
Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp
Phù hợp cho cá nhân lẫn nhóm
Hỗ trợ cho các quyết định tuần tự, liên thuộc, được đưa ra một lần, vài lần hoặc lặp lại
Hỗ trợ cho các giai đoạn của quá trình ra quyết định như tìm hiểu, thiết kế và chọn lựa
Phù hợp cho một số các phong cách và quá trình ra quyết định Dễ dùng và thân thiện với người dùng
Có thể tiến hóa theo thời gian
Nhằm vào nâng cao tính hiệu dụng (chính xác, thời gian tính, chất lượng) của quyết định thay vì tính hiệu quả (giá phí của việc ra quyết định)
Người ra quyết định kiểm soát toàn bộ các bước của quá trình ra quyết định, DSS chỉ trợ giúp, không thay thế người ra quyết định
1.6 Các yêu cầu chức năng kho dữ liệu
1 Khả năng cân bằng
2 Khả năng quản trị
Trang 103 Khả năng sẵn sàng
4 Khả năng mở rộng
5 Khả năng mềm dẻo
6 Khả năng tích hợp
7 Khả năng truy cập sử dụng được
8 Khả năng tin cậy
1.7 Kết luận
Chương trên trình bày một số khái niệm liên quan đến hệ thống trợ giúp quyết định và kho dữ liệu, chuẩn bị cho xem xét chi tiết ở chương sau
Trang 11CHƯƠNG 2 CẤU TRÚC KHO DỮ LIỆU VÀ MÔ HÌNH DỮ LIỆU
Chương này sẽ trình bày về cấu trúc và các cách lựa chọn để tiến hành xây dựng kho dữ liệu Mặc dù không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc cho kho dữ liệu trước khi bắt đầu tiến hành Cấu trúc có thể được quyết định hoặc sửa đổi sau khi bắt đầu tiến hành
2.1 Các lựa chọn về cấu trúc
2.1.1 Cấu trúc kho dữ liệu tổng thể
Cấu trúc dữ liệu tổng thể được trình bầy ở dưới đây là một cấu trúc hỗ trợ cho tất cả, hoặc một phần lớn của một đơn vị có nhu cầu về một kho dữ liệu tích hợp đầy đủ với mức độ truy nhập cao và được sử dụng xuyên suốt các ban ngành hoặc ngành nghề kinh doanh
2.1.2 Cấu trúc kho dữ liệu chuyên đề độc lập
Hình 13: Cấu trúc kho dữ liệu chuyên đề độc lập
Cấu trúc kho dữ liệu chuyên đề độc lập có nghĩa là các kho dữ liệu chuyên đề đứng độc lập một mình được điều khiển bởi một nhóm, phòng ban, hoặc ngành kinh doanh cụ thể và được xây dựng duy nhất
để đáp ứng các nhu cầu
2.1.3 Cấu trúc Kho dữ liệu chuyên đề phụ thuộc
Một cấu trúc kho dữ liệu chuyên đề phụ thuộc là hệ thống các kho dữ liệu chuyên đề có trao đổi thông tin chặt chẽ Mặc dù các kho dữ liệu chuyên đề riêng biệt được thực hiện trong các nhóm làm việc, ban ngành hoặc ngành nghề kinh doanh cụ thể, nhưng chúng cũng có thể được tích hợp, liên kết với nhau để tạo
ra dữ liệu có phạm vi rộng lớn hơn trong toàn doanh nghiệp hoặc toàn công ty
2.2 Các lựa chọn thực hiện
2.2.1 Thực hiện từ trên xuống
Thực hiện từ trên xuống đòi hỏi phải lập kế hoạch và công việc thiết kế hoàn thành trước khi bắt đầu
Trang 122.2.2 Thực hiện từ dưới lên
Thực hiện từ dưới lên liên quan tới việc lập kế hoạch và thiết kế các kho dữ liệu chuyên đề mà không cần chờ cho đến khi có một hạ tầng tổng thể hơn Điều này không có nghĩa là sẽ không triển khai một
hạ tầng tổng thể hơn; mà sẽ xây dựng dần theo kiều mở rộng các kho dữ liệu chuyên đề ban đầu
Phương thức thực hiện từ dưới lên đã trở thành sự chọn lựa của nhiều đơn vị, đặc biệt là các đơn vị quản lý kinh doanh, bởi vì quá trình hoàn vốn sẽ diễn ra nhanh hơn Nó có thể đem lại kết quả nhanh hơn vì các kho dữ liệu chuyên đề có phần thiết kế ít phức tạp hơn so với kho dữ liệu tổng thể Thêm vào đó, việc thực hiện ban đầu thường ít tốn kém hơn về phần cứng và các nguồn lực khác so với việc triển khai một kho
dữ liệu tổng thể
2.2.3 Phương thức kết hợp
Như chúng ta vừa xem xét, có cả hai mặt tích cực và tiêu cực cần phải cân nhắc khi thực hiện phương thức từ trên xuống hoặc từ dưới lên Trong nhiều trường hợp phương thức tốt nhất là kết hợp cả hai Điều này có thể khá phức tạp, nhưng với một người quản lý dự án tốt thì có thể làm được Một trong những chìa khóa của phương thức này là quyết định mức độ kế hoạch và thiết kế cần thiết cho phương thức tổng thể
để hỗ trợ cho việc tích hợp khi kho dữ liệu chuyên đề được xây dựng với phương thức từ dưới lên Việc phát triển một cơ sở hạ tầng ở mức cơ bản cho kho dữ liệu tổng thể, ngay từ ban đầu nên thận trọng ở mức kinh doanh
2.3 Mô hình dữ liệu cho kho dữ liệu
Trong phần này chúng ta xét tới hai kỹ thuật xây dựng mô hình dữ liệu cơ bản: xây dựng mô hình
ER và xây dựng mô hình theo chiều Trong môi trường OLTP, kỹ thuật xây dựng mô hình ER là sự lựa chọn
đã qua thử thách Vói sự ra đời của kho dữ liệu, xuất hiện yêu cầu cần có một loại kx thuật để hỗ trọ cho môi trường phân tích dữ liệu Mặc dù các mô hình ER có thể sử dụng để hỗ trợ môi trường kho dữ liệu, hiện nay
sự quan tâm về cách xây dựng mô hình theo chiều nhằm đáp ứng nhiệm vụ này cũng đã gia tăng
2.3.1 Tại sao việc xây dựng mô hình dữ liệu là quan trọng
Theo cách truyền thống, người ta xây dựng mô hình dữ liệu phải sử dụng sơ đồ ER, được phát triển như một phần của quy trình xây dựng mô hình dữ liệu, như một phương tiện thông tin liên lạc với nhà kinh doanh - người sử dụng Đồ thị ER là một công cụ có thể giúp phân tích các yêu cầu kinh doanh và thiết kế cấu trúc dữ liệu sau này
Các bước tiếp cận khác nhau của mô hình dữ liệu: việc xây dựng mô hình ER mô hình chiều, mặc dù
có liên quan nhưng lại khác nhau
2.3.2 Các kỹ thuật xây dựng mô hình dữ liệu
Có hai loại kỹ thuật xây dựng mô hình dữ liệu thích hợp trong môi trường kho dữ liệu là xây dựng
mô hình ER và xây dựng mô hình chiều
1 Việc xây dựng mô hình ER tạo ra một mô hình dữ liệu về một lĩnh vực quan tâm nhất định sử dụng hai khái niệm cơ bản: các thực thể và các mối quan hệ giữa các thực thể đó Các mô hình ER chi tiết cũng bao gồm các thuộc tính, thuộc tính này có thể hoặc là đặc tính của thực thể hoặc là đặc tính của mối quan hệ