TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN SINH VIÊN: NGUYỄN THỊ GIANG NGHIÊN CỨU VỀ ORACLE DATA WAREHOUSE... TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘ
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
SINH VIÊN: NGUYỄN THỊ GIANG
NGHIÊN CỨU VỀ ORACLE DATA WAREHOUSE
Trang 2TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
SINH VIÊN: NGUYỄN THỊ GIANG
NGHIÊN CỨU VỀ ORACLE DATA WAREHOUSE
Chuyên ngành: Công nghệ thông tin
Mã ngành:
NGƯỜI HƯỚNG DẪN: THS NGUYỄN THỊ HỒNG LOAN
Hà Nội –2015
Trang 3LỜI CAM ĐOAN
Em tên là: Nguyễn Thị Giang, sinh viên lớp ĐH1C2 – Khoa Công nghệ Thông tin - Trường Đại học Tài nuyên và Môi trường Hà Nội
Em xin cam đoan toàn bộ nội dung của đồ án do em tự học tập, nghiên cứu trên Internet, sách và các tài liệu trong và ngoài nước có liên quan Không sao chép hay sử dụng bài làm của bất kỳ ai khác, mọi tài liệu đều được trích dẫn cụ thể
Em xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình trước Quý Thầy
Cô, Khoa và Nhà trường
Hà Nội, ngày tháng năm 2015
NGƯỜI CAM ĐOAN
Nguyễn Thị Giang
Trang 4MỤC LỤC
LỜI CAM ĐOAN
MỤC LỤC
LỜI CẢM ƠN
DANH MỤC CÁC TỪ VIẾT TẮT
DANH MỤC HÌNH VẼ
DANH MỤC BẢNG BIỂU
MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ DATA WAREHOUSE 3
1.1 Định nghĩa kho dữ liệu 3
1.2 Đặc tính của kho dữ liệu 4
1.2.1 Hướng chủ đề 4
1.2.2 Tích hợp 5
1.2.3 Tính Bền vững 6
1.2.4 Gắn thời gian và có tính lịch sử 7
1.2.5 Không biến động 7
1.3 Mô hình dữ liệu của kho dữ liệu 8
1.3.1 Lược đồ dữ liệu hình sao 8
1.3.2 Lược đồ dữ liệu bông tuyết 9
1.3.3 Lược đồ dữ liệu kết hợp 10
1.4 Kiến trúc chung của kho dữ liệu 11
1.5 Ưu, nhược điểm của hệ thống kho dữ liệu 12
1.6 Lợi ích của kho dữ liệu 13
1.7 Ứng dụng của kho dữ liệu 14
CHƯƠNG 2 ORACLE DATA WAREHOUSE 15
2.1 Giới thiệu về Oracle 15
2.2 Kiến trúc kho dữ liệu Oracle Data Warehouse 17
2.2.1 Tầng Stage 18
2.2.2 Tầng Data Warehouse 18
Trang 52.2.3 Tầng Performance 18
2.3 Các bước thiết kế kho dữ liệu 19
2.3.1 Thiết kế logic 19
2.3.2 Thiết kế vật lý 22
2.4 Công cụ tích hợp dữ liệu, quản lý môi trường kho dữ liệu 24
2.4.1 Tổng quan về ETL 24
2.4.2 Trích xuất dữ liệu 24
2.4.3 Trao đổi dữ liệu 25
2.4.4 Tải dữ liệu 26
2.5 Giới thiệu công cụ Oracle Data warehouse Builder 11g 27
2.6 Cài đặt Oracle Data warehouse Builder 11g 28
CHƯƠNG 3 XÂY DỰNG KHO DỮ LIỆU DEMO 36
3.1 Giới thiệu bài toán 36
3.2 Thiết kế kho dữ liệu cho ACME 38
3.2.1 Thiết kế Dimension (chiều) 38
3.2.2 Thiết kế Cube (khối) 43
3.3 Thiết lập kho dữ liệu 44
3.3.1 Tạo WorkSpace 44
3.3.2 Tạo siêu dữ liệu của CSDL nguồn 52
3.3.3 Tạo Dimension 56
3.3.4 Tạo Cube 60
KẾT LUẬN VÀ KIẾN NGHỊ 61
TÀI LIỆU THAM KHẢO 62
PHỤ LỤC 63
Trang 6LỜI CẢM ƠN
Trên thực tế không có thành công nào mà không gắn liền với sự hỗ trợ, giúp
đỡ dù ít dù nhiều, dù trực tiếp hay giá tiếp của người khác Trong suốt quá trình học tập tại trường Đại học Tài nguyên và Môi trường Hà Nội đến nay em đã nhận được nhiều sự quan tâm và giúp đỡ từ các thầy cô trong Khoa Công nghệ Thông tin, gia đình và bạn bè
Sau thời gian nghiên cứu, học tập tại Khoa Công nghệ Thông tin trường Đại học Tài nguyên và Môi trường Hà Nội, được sự giúp đỡ của các thầy cô giảng viên trong khoa em đã hoàn thành đồ án tốt nghiệp của mình
Cho phép em được bày tỏ lời cảm ơn tới tất cả các thầy cô giảng viên trong khoa công nghệ thông tin trường Đại học Tài nguyên và Môi trường Hà Nội đã giúp đỡ em hoàn thành bài đồ án này Đồng thời em xin gửi lời cảm ơn đặc biệt
về sự chỉ dạy, hướng dẫn tận tình của cô Nguyễn Thị Hồng Loan trong suốt quá trình hoàn thành đồ án
Tuy vậy, do thời gian có hạn cũng như kinh nghiệm còn hạn chế nên trong
đồ án này không tránh khỏi những thiếu sót và hạn chế nhất định Vì vậy, em rất mong nhận được sự góp ý của các thầy cô để em có thể bổ sung nâng cao kiến thức của mình
Cuối cùng, em xin kính chúc các thầy cô giảng viên trường Đại học Tài nguyên và Môi trường Hà Nội nói chung, các thầy cô Khoa Công nghệ Thông tin nói riêng dồi dào sức khỏe và thành công trong sự nghiệp cao quý
Em xin chân thành cảm ơn!
Hà Nội, ngày tháng năm 2015
Sinh viên thực hiện
Nguyễn Thị Giang
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Định nghĩa Tiếng Anh Tiếng việt
3 ETL Extract, Tranform, Loading Trích xuất, trao đổi, tải
5 OLAP On Line Analytical Processing Xử lý phân tích trực tuyến
6 OLTP Online Transaction Processing Xử lý tác nghiệp trực tuyến
7 OWB Oracle Warehouse Builder Công cụ xây dựng kho dữ
liệu Oracle
8 SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc
9 PL/SQL Procedural Language
extensions for SQL
Ngôn ngữ lập trình hướng thủ tục
Trang 8DANH MỤC HÌNH VẼ
Hình 1.1: Mô tả dữ liệu tổ chức theo hướng chủ thể 4
Hình 1.2: Mô tả dữ liệu được tích hợp từ nhiều nguồn 5
Hình 1.3: Mô tả thông tin dữ liệu luôn bền vững, an toàn 6
Hình 1.4: Mô tả dữ liệu theo thời gian 7
Hình 1.5: Lược đồ dữ liệu hình sao 9
Hình 1.6: Lược đồ dữ liệu hình bông tuyết 10
Hình 1.7: Kiến trúc chung kho dữ liệu 11
Hình 2.1: Kiến trúc của Oracle Data Warehouse 17
Hình 2.2: Bước 2 - Welcome 29
Hình 2.3: Bước 2 – Specify Home Details 30
Hình 2.4: Bước 3 – Oracle Universal Installer 31
Hình 2.5: Bước 4 - Summary 32
Hình 2.6: Bước 5 - Install 33
Hình 2.7: Bước 6 – End of Installation 34
Hình 2.8: Bước 7 - Exit 35
Hình 3.1: Sơ đồ quan hệ ER của cơ sở dữ liệu quản lý bán hàng của công ty ACME 37
Hình 3.2: Mô tả khối lập phương và các chiều 39
Hình 3.3: Mô hình kho dữ liệu quản lý bán hàng 43
Hình 3.4: Tạo WorkSapces – Welcome 44
Hình 3.5: Tạo WorkSapces – Database Information 45
Hình 3.6: Tạo WorkSpaces – Choose Operation 46
Hình 3.7: Tạo WorkSpaces – Choose Workspace Operation 46
Hình 3.8: Tạo WorkSpaces – New or Existing User 47
Hình 3.9: Tạo WorkSpaces – DBA Information 47
Hình 3.10: Tạo WorkSpaces – Enable Optional Features 48
Hình 3.11: Tạo WorkSpaces – Workspace Owner (New) 48
Hình 3.12: Tạo WorkSpaces – OWBSYS Information 49
Hình 3.13: Tạo WorkSpaces – Select Tablespaces 49
Trang 9Hình 3.14: Tạo WorkSpaces – Select Languages 50
Hình 3.15: Tạo WorkSpaces – Workspaces Users 50
Hình 3.16: Tạo siêu dữ liệu từ dữ liệu nguồn 52
Bảng 3.17: Time Dimension 57
Bảng 3.18: Product Dimension 58
Bảng 3.19: Store Dimension 59
Hình 3.20: Cube 60
DANH MỤC BẢNG BIỂU Bảng 3.1: Các thuộc tính của Time Dimension 41
Bảng 3.2: Các thuộc tính của Product Dimension 42
Bảng 3.3: Các thuộc tính của Product Dimension 42
Bảng 3.4: Các thuộc tính của Cube Sales 44
Trang 10MỞ ĐẦU
Trong thời đại ngày nay, cùng với sự phát triển của khoa học công nghệ, ứng dụng CNTT vào các ngành khoa học, kỹ thuật, giáo dục, quản lý không còn là điều mới lạ nữa; nó thực sự trở thành công cụ hữu hiệu phục vụ đắc lực cho hoạt động của con người và trong đời sống xã hội Khi một doanh nghiệp đi vào hoạt động, những nhà quản lý doanh nghiệp sẽ phải đặt các câu hỏi và có nhu cầu muốn biết về tình hình kinh doanh, tốc độ tăng trưởng, lượng giao dịch hằng ngày, hàng tháng, hàng quý, hàng năm, so sánh giữa những năm này, năm khác, hoặc phân khúc các khách hàng của doanh nghiệp hoặc phân tích doanh thu
Đối với mỗi doanh nghiệp, họ sẽ tự xây dựng cho mình một hệ thống quản lý giao dịch hay chính là các ứng dụng, chương trình, hệ thống vận hành hàng ngày của doanh nghiệp Ví dụ như các ngân hàng, các công ty viễn thông (họ thường phải thuê xây dựng hệ thống chuyên biệt) Tuy nhiên các hệ thống này chỉ được thiết kế cho việc nhập dữ liệu hằng ngày hoặc để vận hành hệ thống Chúng cũng có khả năng cho phép lấy dữ liệu cho một số báo cáo đơn giản
Tuy nhiên đối với những yêu cầu báo cáo theo nhiều chiều như: loại khách hàng, theo thời gian, đòi hỏi phải tính toán phức tạp thì hầu như các hệ thống này rất khó thực hiện
Mặt khác các doanh nghiệp lớn như ngân hàng, viễn thông, họ phải có nhiều
hệ thống con vận hành song song với nhau Ví dụ: ngân hàng thì có phân hệ tiền gửi (cá nhân, sổ tiết kiệm), tiền vay, kho quỹ Viễn thông thì có trả trước, trả sau, bán hàng Như thế, để thực hiện được việc báo cáo, họ phải tổng hợp dữ liệu từ nhiều hệ thống con khác nhau mới có thể thể hiện được các báo cáo một cách tổng thể Xuất phát từ những vấn đề trên, họ phải bắt buộc xây dựng một hệ thống nữa, chính là một cơ sở dữ liệu mới dành cho việc truy vấn và báo cáo ở phạm vi toàn doanh nghiệp Hay còn gọi là kho dữ liệu (Data warehouse), là nơi tổng hợp dữ liệu
từ tất cả hệ thống con lại, thực hiện việc tính toán trên các dữ liệu này và kết xuất ra các bảng mà dữ liệu của bảng đã được tính toán theo một mục đích nào đó
Trang 11Kho dữ liệu là một hướng công nghệ mới được sử dụng phổ biến cho các bài toán lớn hiện nay như: quản trị doanh nghiệp, Y tế, bảo hiểm, ngân hàng, dân số, viễn thông Bởi vì việc xây dựng kho dữ liệu không những giúp cho doanh nghiệp lưu trữ một lượng thông tin lớn hằng ngày mà còn giúp cho các nhà quản lý doanh nghiệp có thể trích rút nguồn tài nguyên một cách nhanh chóng, chính xác Đồng thời giúp họ phân tích và đưa ra các báo cáo một cách kịp thời, góp phần thúc đẩy cho việc kinh doanh đạt kết quả tốt nhất
Đây cũng là kiến thức rất hữu ích và cần thiết để có thể khai thác ngày một hiệu quả các thành tựu tin học Vì vậy, em đã chọn đề tài “Nghiên cứu về Oracle Data Warehouse” làm đồ án tốt nghiệp của mình
Ngoài phần mở đầu và kết luận cấu trúc đồ án này bao gồm các phần chính như sau:
Chương 1: Tổng quan về Data Warehouse
Nội dung chính của chương này là trình bày tổng quan về Data Warehouse gồm định nghĩa, các đặc tính, mô hình dữ liệu của kho dữ liệu, lợi ích, ứng dụng của kho dữ liệu
Chương 2: Oracle Data Warehouse
Nội dung chính của chương này là trình bày về Oracle Data Warehouse gồm kiến trúc, các bước thiết kế kho dữ liệu, giới thiệu về công cụ Oracle Warehouse
Builder và cách cài đặt nó
Chương 3: Xây dựng kho dữ liệu Demo
Nội dung chính của chương này là phân tích yêu cầu cần xây dựng data warehouse sau đó thiết kế, xây dựng data warehouse theo yêu cầu bài toán