ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN ĐỨC HẢI NGHIÊN CỨU ẢNH HƯỞNG CỦA STORAGE ENGINE ĐẾN HIỆU NĂNG CÁC ỨNG DỤNG KHO DỮ LIỆU LUẬN VĂN THẠC SĨ Hà Nội -2011... ĐẠI HỌC
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐỨC HẢI
NGHIÊN CỨU ẢNH HƯỞNG CỦA STORAGE ENGINE ĐẾN HIỆU NĂNG CÁC ỨNG DỤNG KHO DỮ LIỆU
LUẬN VĂN THẠC SĨ
Hà Nội -2011
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐỨC HẢI
NGHIÊN CỨU ẢNH HƯỞNG CỦA STORAGE ENGINE ĐẾN HIỆU NĂNG CÁC ỨNG DỤNG KHO DỮ LIỆU
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã số: 60 48 50
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Nguyễn Hải Châu
Hà Nội -2011
Trang 3MỤC LỤC
LỜI CAM ĐOAN 3
LỜI CẢM ƠN…… 4
Chương 1 TỔNG QUAN KIẾN TRÚC HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU MYSQL CÁC KỸ THUẬT LƯU TRỮ TRONG MYSQL 3
1.1 Lịch sử của MySQL 3
1.2 Những điểm khác nhau giữa MySQL và các hệ quản trị CSDL khác 4
1.3 Tổng quan kiến trúc MySQL 4
1.3.1 Giới thiệu 4
1.3.2 Quản lý kết nối và an ninh 5
1.3.3 Tối ưu hóa thực thi 6
1.3.4 Kiểm soát đồng thời 6
1.3.4.1 Khóa Read/Write 7
1.3.4.2 Điều khiển truy cập đồng thời 8
1.3.5 Kiểm soát giao dịch 9
1.3.5.1 Một ví dụ kinh điển trong giao dịch 9
1.3.5.2 Các mức tách biệt 11
1.3.5.3 Các giao dịch trong MySQL 12
1.3.6 Các Storage engine trong kiến trúc MySQL 13
1.3.6.1 Các Storage engine 13
1.3.6.2 Các điểm ưu việc của Storage engine 15
1.4 Các kỹ thuật lưu trữ trong MySQL 16
1.4.1 Lưu trữ theo hàng – MyISAM 16
1.4.1.1 Kiểm tra kỹ thuật lưu trữ MyISAM 16
1.4.1.2 Kỹ thuật MyISAM 18
1.4.1.3 Lưu trữ 18
1.4.1.4 Tính năng của MyISAM 19
1.4.1.5 Ưu và nhược điểm của kỹ thuật lưu trữ MyISAM 20
1.4.2 Lưu trữ theo hàng – InnoDB 21
1.4.2.1 Giới thiệu 21
1.4.2.2 Kỹ thuật lưu trữ InnoDB 21
1.4.2.3 Kiểm tra và đánh giá kỹ thuật lưu trữ InnoDB 22
1.4.2.4 Kiểm tra kỹ thuật lưu trữ mặc định InnoDB 23
1.4.2.5 Ưu và nhược điểm của kỹ thuật lưu trữ InnoDB 23
1.4.3 Lưu trữ theo cột – InfoBright 24
1.4.3.1 Giới thiệu 24
1.4.3.2 Tổ chức dữ liệu và lưới tri thức 24
1.4.3.3 Gói dữ liệu và nén dữ liệu 25
Trang 41.4.3.4 Nút gói dữ liệu (DPNs) 25
1.4.3.5 Nút tri thức (KNs) 25
1.4.3.6 Kỹ thuật tính toán mờ 26
1.4.3.7 Một ví dụ về giải quyết câu truy vấn sử dụng lưới dữ liệu 27
1.4.3.8 Tải dữ liệu 28
Chương 2 GIẢI PHÁP KHO DỮ LIỆU PENTAHO TỔNG QUAN KIẾN TRÚC, CÀI ĐẶT VÀ VẬN HÀNH 30
2.1 Giới thiệu bộ giải pháp Pentaho 30
2.1.1 Biểu báo – Pentaho Reporting 30
2.1.2 Phân tích – Pentaho Analysis 31
2.1.3 Biểu đồ – Pentaho Dashboards 32
2.1.4 Tích hợp dữ liệu – Pentaho data integration 33
2.1.5 Khai phá dữ liệu – Pentaho data mining 34
2.1.6 Bộ BI- Pentaho BI Platform 34
2.2 Tổng quan kiến trúc Pentaho 35
2.2.1 Tổng quan kiến trúc, chức năng 35
2.2.1.1 Kiến trúc 35
2.2.1.2 Chức năng 35
2.2.2 Server, Web Client, and Các chương trình Desktop 36
2.2.3 Front-Ends và Back-Ends 36
2.3 Pentaho BI Server 36
2.3.1 Nền tảng 37
2.3.2 Thành phần BI 39
2.3.3 Tầng hiển thị 41
2.3.4 Chương trình chạy trên desktop 42
2.4 Hướng dẫn cài đặt hệ thống 44
2.4.1 Tải về 44
2.4.2 Cài đặt 46
2.4.2.1 Yêu cầu phần cứng 46
2.4.2.2 Cài đặt bộ BI 47
2.4.2.3 Cầu hình BI server bằng Administration Console 47
2.4.2.4 Cấu hình để các máy tính khác truy nhập vào BI Platform 47
2.5 Vận hành hệ thống Pentaho BI 48
2.5.1 Bắt đầu với Pentaho BI Server 48
2.5.2 Đăng nhập 49
2.5.3 Chạy các ví dụ chương chình 49
Chương 3 SO SÁNH HIỆU NĂNG KHO ỨNG DỤNG VỚI HAI KỸ THUẬT LƯU TRỮ HÀNG VÀ CỘT 52
3.1 Yêu cầu chung 52
Trang 53.2 So sánh không gian lưu trữ trên MySQL 54
3.3 So sánh hiệu năng với các hàm thường dùng trong kho dữ liệu 54
ĐÁNH GIÁ TỔNG KẾT 60
TÀI LIỆU THAM KHẢO 61
Trang 6NGHIÊN CỨU ẢNH HƯỞNG CỦA STORAGE ENGINE ĐẾN HIỆU NĂNG CÁC ỨNG DỤNG
KHO DỮ LIỆU
Học viên: Nguyễn Đức Hải
Đơn vị công tác: Công ty THHH bảo hiểm nhân thọ
Prevoir Viet Nam
Email: haindvn@gmail.com
GVHD: TS Nguyễn Hải Châu Đơn vị công tác: Trường ĐH Công Nghệ, ĐHQG Hà Nội
Từ khóa: pentaho, infobright, myisam, innodb, mysql
1 GIỚITHIỆUBÀITOÁN
Luôn đồng hành với sự phát triển của doanh
nghiệp là các hệ thống thông tin lưu trữ của các
doanh nghiệp, chẳng hạn như các hệ thống thanh
toán ngân hàng, bưu chính, hay các công ty kinh
doanh khác về tài chính, bảo hiểm, dịch vụ, du lịch
…, một ngày có tới hàng triệu bản ghi được lưu trữ
mới trong hệ thống Câu hỏi đặt ra là làm gì với
những dữ liệu ngày càng lớn kia Kho dữ liệu khổng
lồ đó có ích gì với doanh nghiệp, có ích gì với
những chiến lược kinh doanh Câu trả lời là kho dữ
liệu ngày càng lớn đó là “nguồn tài nguyên vô cùng
quý giá” bởi vì kho dữ liệu khổng lồ này rất hữu ích
cho việc phân tích kinh doanh, giúp cho người quản
lý doanh nghiệp có những định hướng kinh doanh
trong tương lai Mặt khác kho dữ liệu này cũng là
tiền đề của hệ thống hỗ trợ ra quyết định
Đặc điểm của một hệ thống kinh doanh
thông minh là dữ liệu phục vụ cho các hoạt động
kinh doanh rất lớn, nên yêu cầu về hiệu năng là vấn
đề phải quan tâm Mặt khác để xây dựng hệ thống
đó phải cần đến những nhà thiết kế có kinh nghiệm
và làm sao giảm thiểu tối đa chi phí cho doanh
nghiệp nhưng vẫn đáp ứng được những yêu cầu mà
người quản lý đề ra
Từ những yêu cầu thức tế trên, đề tài luận
văn “Nghiên cứu ảnh hưởng của storage engine đến
hiệu năng các ứng dụng kho dữ liệu” phần nào có
một câu trả lời cho vấn đề đang gặp phải của các
nhà thiết kế ứng dụng kho dữ liệu
Với sự kết hợp của các phần mềm mã nguồn
mở là MySQL và Pentaho, các kỹ thuật lưu trữ hàng
và cột trong MySQL là một giải pháp tốt để xây dựng các ứng dụng kho dữ liệu phục vụ cho việc kinh doanh và ra quyết định trong doanh nghiệp Mục tiêu và phạm vi của luận văn: Mục tiêu của đề tài luận văn hướng đến là
- Nghiên cứu kiến trúc tổng quan của hệ quản trị cơ sở dữ liệu MySQL
- Nghiên cứu các kỹ thuật lưu trữ khác nhau trong MySQL
- So sánh các kỹ thuật lưu trữ trên MySQL
- Nghiên cứu kiến trúc tổng quan của hệ Pentaho BI
- Cài đặt vận hành hệ Pentaho server
- So sánh hiệu năng của các kỹ thuật lưu trữ trên Pentaho
3 KẾTLUẬN Trong quá trình thực nghiệm trên MySQL
và trên hệ thống Pentaho, thì kỹ thuật lưu trữ InfoBirgh đã có hiệu năng vượt trội so với các kỹ thuật lưu trữ khác khi áp dụng ở hai môi trường là MySQL và Pentaho Đây cũng là một hướng cho việc xây dựng ứng dụng kho dữ liệu, giúp cho quá trình kinh doanh và ra quyết định trong doanh nghiệp
Từ những vấn đề đã nghiên cứu được trong luận văn này, trong tương lai tôi sẽ tiếp tục hướng nghiên cứu sâu và rộng hơn nữa để có một kết quả tốt hơn, đầy đủ và cụ thể nhất, nhân rộng mô hình xây dựng kho ứng dụng dữ liệu giúp cho quá trình kinh doanh và ra quyết định đối với doanh nghiệp