Tại Archival Sector, dữ liệu thường được bảo vệ theo hai cách phổ biến là mã hóa và phân quyền truy cập. Nếu dữ liệu dược lưu trữ bằng các phương tiện khác backup, chép ra CD,.... N
Trang 1WD 2.0
Security – Data Flow – Time
Variant Data.A
Topic #18 - Nhóm 12 Huỳnh Thái Anh-1041005.
Tr n Thanh T nh-1041436 ầ ị Hoàng Th Long-1041077 ổ Đoàn Minh Phúc-1041104.
Lý Văn Minh Ng c-1041092 ọ
Trang 2 Thực hiện:
1041005 – Huỳnh Thái Anh
Chương 10: D.W 2.0 and Security
Trang 3Đặt vấn đề.
Username, password,
$$$$$,
Trang 62 Mã hóa
Làm cho dữ liệu thể hiện ở dạng không đọc được Ai cũng có thể tiếp cận dữ liệu nhưng muốn đọc được cần phải có khóa để giải mã
Chi phí và thời gian giải mã để trả về kết quả cho người dùng ?
Độ tin cậy của thuật toán mã hóa chỉ là tương đối theo thời gian
Trang 7 Việc bảo vệ dữ liệu khỏi những truy cập trái phép đòi hỏi chi phí nhất định về cơ sở hạ tầng công nghệ và nhân lực.
Một CSDL được mã hóa toàn bộ sẽ làm chỉ mục kém hiệu quả
Người dùng phải mã hóa các đối số cho câu truy vấn
Dữ liệu bị mã hóa sẽ vô hiệu các phép toán logic và phép toán số học
3 Drawbacks
Trang 8 Bảo vệ dữ liệu khỏi những truy cập trái phép và mã hóa
dữ liệu đều có những hạn chế riêng của nó Và 2 biện pháp này không bao giờ đi một mình trong DW 2.0
Drawbacks là hình thức kết hợp 2 hình thức trên
Dữ liệu sẽ mã hóa với các truy cập trái phép nhưng sẽ đọc được với những người dùng “hợp pháp”
Drawbacks (tt)
Trang 9 Là phương pháp bảo mật phổ biến nhất và hiệu quả
hiện nay
Filewall là “ cửa ngõ” cho hệ thống giao tiếp với
internet Firewall sẽ “lọc” và cho các giao dịch được
phép đi qua
Trong kiến trúc của D.W 2.0, Firewall là “ màn bảo vệ” duy nhất của Interactive Sector
4 Firewall
Trang 105 Moving Data Offline
Chỉ có Interactive Sector là có giao tiếp trực tiếp với môi trường Internet
Trang 11 Các dữ liệu ra vào giữa Interactive Sector và Integrated Sector phải chịu sự quản lý của ETL interface Hacker không có cơ hội tiếp cận vào dữ liệu bên trong.
Chỉ các dữ liệu được Interactive Sector cho phép mới được đưa vào Integrated Sector
Các dữ liệu offline vẫn có thể gọi xử lý trong phạm vi offline hoặc người dùng từ ngoài có quyền truy cập vào
hệ thống
Phương pháp này đơn giản, hiệu quả cao và phụ thuộc
vào ETL interface.
Moving Data Offline (tt)
Trang 12 Về lý thuyết, có thể mã hóa tất cả dữ liệu Trên thực tế,
do những “trả giá” cho việc mã hóa, người ta chọn giải pháp là chỉ lưu trữ giới hạn một số trường dữ liệu quan trọng
Khi cần truy vấn, người ta sẽ mã hóa các dữ liệu theo đúng thuật toán đã mã hóa dữ liệu bên dưới
6 Limiting Encryption (LE)
Trang 13Kĩ thuật LE được sử dụng tại thành phần nào của D.W 2.0 ?
Kĩ thuật LE tốt nhất khi sử dụng tại Integreted Sector vì khu vực này tương tác nhiều với người dùng
Kĩ thuật LE tốt cho Archival Sector để lưu trữ dữ liệu dài lâu
LE không được áp dụng tại Interactive Sector vì sẽ làm giảm hiệu suất (Mã hóa & giải mã tốn thời gian trong khi dòng dữ liệu tại khu vực này di chuyển rất nhanh)
Limiting Encryption (tt)
Trang 14 “Bỏ qua toàn bộ” các biện pháp bảo vệ truy cập dữ liệu.
Người dùng sẽ làm việc với dữ liệu thô
“Hộp đen” là toàn bộ các quy định để quyết định dữ
liệu nào được giải mã và hiển thị lên cho người dùng
Mã hóa là cách bảo vệ dữ liệu duy nhất trong trường hợp này
Do dữ liệu phải mã hóa và có tương tác với người dùng nên phương pháp này áp dụng ở Integrated Sector
7 Direct Dump
Trang 16 Việc giám sát truy cập có thể áp dụng tại mọi thành
phần trong hệ thống, các log file sẽ ghi lại tất, kể cả các
giao dịch tự động diễn ra trong hệ thống.
Phương pháp này sẽ phát hiện được các truy cập trái
phép khi phân tích nội dung log file
Phương pháp này cũng sẽ giúp có được những thông tin về hoạt động của hệ thống để có thể cải tiến về sau.
Giám sát truy cập (tt)
Trang 17 Phát hiện một cuộc tấn công từ bên ngoài vào trước khi nó xảy ra hoặc trước khi nó để lại một hậu quả nghiêm trọng, có là một cách làm tích cực để bảo vệ dữ liệu trong D.W 2.0
Vấn đề đặt ra: làm thế nào để nhận biết có cuộc tấn công ?
Ví dụ: Hệ thống bị lụt với những yêu cầu đăng nhập với mật khẩu sai với các Request từ nhiều IP khác nhau Sau đó dừng; => Có thể
kẻ tấn công đã có được mật khẩu truy cập.
9 Dự đoán cuộc tấn công.
Trang 18Tại NearLine Sector :
Xét về cấu trúc, Near Line Sector có cấu trúc hoàn toàn giống với Integrated Sector nên nó cũng sẽ có những biện pháp bảo vệ giống như tại Integrated Sector
Xét về truy cập, không có một tương tác nào của người dùng tác động vào Near Line Sector Near Line chỉ hoạt động trên các cơ chế định sẵn
Vì vậy, Near Line Sector đòi hỏi ít có các biện pháp
bảo vệ nhất trong hệ thống
10 Bảo mật tại NearLine Sector và
Archival Sector.
Trang 19 Tại Archival Sector, dữ liệu thường được bảo vệ theo hai cách phổ biến là mã hóa và phân quyền truy cập.
Nếu dữ liệu dược lưu trữ bằng các phương tiện khác (backup, chép ra CD, ) thì có các cách bảo vệ phù hợp
Xử lý truy cập: Nếu dữ liệu đang được đánh dấu bảo
vệ, xử lý truy cập sẽ từ chối các truy cập dữ liệu Đây
là một cách tiếp cận tích cực
Tại Archival Sector
Trang 20 Bảo mật, sự an toàn nói chung cho dữ liệu là điều mà người dùng luôn luôn cần.
Thực tế:
- Những người sử dụng cuối hầu hết không là một
chuyên viên về bảo mật / anh ninh hệ thống
- Họ cần bảo mật, an toàn cho dữ liệu, nhưng lại không muốn nó hiện hữu trước mắt
Một số loại bảo mật thường cồng kềnh (phức tạp cho người dùng) và ảnh hưởng ít nhiều đến hiệu suất sử
dụng
11 Theo quan điểm của người dùng.
Trang 21 Thực hiện: Trần Thanh Tịnh-1041436
Hoàng Thổ Long-1041077
Chương 11: Time-variant data
Trang 22Chương 11: Time-variant data
Dữ Liệu biến đổi theo thời gian
Bao gồm các nội dung sau :
1 Tất cả dữ liệu trong DW 2.0 đều liên quan tới thời gian
2 Tính tương đối của thời gian trong Sector tương tác
3 Transaction trong Intergrated Sector
4 Dữ liệu rời rạc ( DISCRETE DATA)
5 Dữ liệu khoảng thời gian liên tục (CONTINUOUS
TIME SPAN DATA)
Trang 236 Sự liên tục của các record (SEQUENCE OF
RECORDS)
7 Record không chồng lấp(NONOVERLAPPING
RECORDS)
8 Bắt đầu và kết thúc của sự liên tục các record
9 Tính liên tục của dữ liệu
10 Dữ liệu co thời gian(TIME-COLLAPSED DATA)
11 Sự thay đổi thời gian trong Sector lưu trữ (TIME
VARIANCE IN THE ARCHIVAL SECTOR)
Trang 241 Tất cả dữ liệu trong DW 2.0 đều liên quan tới thời
gian
Trong DW 2.0,tất cả dữ liệu đều có 1 khoảng thời gian được miêu tả chính xác và thích hợp
Trang 252 Tính tương đối của thời gian trong Interactive Sector
Giá trị hiện hành của dữ liệu là tại thời điểm truy cập.Vì vậy
do dữ liệu tương tác phải chính xác tại thời điểm truy cập nên không có thành phần date(ngày,tháng,năm) ở dữ liệu
tương tác
Vd: Các giao dịch ở ngân hàng,…
Nhưng trong Intergrated Sector, the Near Line Sector,
Archival Sector ,dữ liệu có mối quan hệ với thời gian 1 cách rõ ràng
Trang 263 Transaction trong Intergrated Sector
Nội dung của dữ liệu trong các ngữ cảnh khác nhau thì khác nhau
Trang 27 Có 2 qui định cho sự khác nhau của dữ liệu :
Trường hợp tại 1 thời điểm (DATE TIME), dữ liệu
được gọi là dữ liệu rời rạc.( DISCRETE DATA)
Trường hợp có FROM (ngày) và TO (ngày), dữ liệu
được gọi là dữ liệu khoảng thời gian liên tục
( CONTINUOUS TIME SPAN DATA)
Trang 28Ví dụ : CONTINUOUS TIME SPAN DATA
Trang 294 Dữ liệu rời rạc ( DISCRETE DATA)
Sử dụng hiệu quả cho thuộc tính hay thay đổi trong dữ liệu
Ví dụ :Các chỉ số trong giao dịch chứng khoán
Đặc điểm: Ngữ cảnh có:
◦ Nhiều thuộc tính
◦ Thuộc tính có giá trị thay đổi thường xuyên
◦ Nhiều biến ngữ nghĩa khác nhau
Trang 305 Dữ liệu khoảng thời gian liên tục (CONTINUOUS TIME SPAN DATA)
Sử dụng có hiệu quả khi biểu diễn thông tin chung của 1 đối tượng
Ví dụ : Hồ sơ thông tin của khách hàng
Một record mới phải được ghi mỗi một thời điểm khi giá trị thay đổi
Đặc điểm: Ngữ cảnh có:
◦ Các thuộc tính có nội dung thay đổi chậm
◦ Chỉ một vài thuộc tính
◦ Thuộc tính có ngữ nghĩa liên quan với nhau
Trang 316 Sự liên tục của các record (SEQUENCE OF
RECORDS)
Các record tạo thành 1 tuần tự liên tục
Vi dụ 1 record kết thúc vào 21/1/2007 , record tiếp theo bắt đầu vào 22/1/2007 Khi làm như vậy các record tạo thành 1 tập các record liên tục hợp lý
Không được phép chồng lên nhau Nếu có sự chồng chéo của các record, sẽ có một sự không thống nhất
Trang 327 Record không chồng lấp (NONOVERLAPPING RECORDS)
Không cho phép record khoảng thời gian liên tục chồng lên nhau nhưng có thể có thời gian gián đoạn
Ví dụ :Thông tin quá trình đi du lịch của NVA ở các nơi trên thế giới
Trang 339 Tính liên tục của dữ liệu
Một trong những hạn chế của dữ liệu rời rạc là không có sự liên tục giữa hai phép đo của dữ liệu
Ví dụ :các chỉ số chứng khoán
Trang 348 Bắt đầu và kết thúc của sự liên tục các record
Có nhiều tùy chọn để bắt đầu và kết thúc trình tự
của record khoảng thời gian liên tục
Một record tuần tự có thể bắt đầu và kết thúc bất cứ đâu
Trang 35Dữ liệu khoảng thời gian liên tục không bị hạn chế như trên mà ta có thể suy đoán về sự liên tục của dữ liệu sau này
Trang 3610 Dữ liệu co thời gian(TIME-COLLAPSED DATA)
Trong dữ liệu co thời gian , có vài hình thức đo
lường dữ liệu
Tiết kiệm đáng kể không gian bộ nhớ và tìm kiếm
thông tin hiệu quả
Trang 3711 Sự thay đổi thời gian trong Sector lưu trữ (TIME VARIANCE
IN THE ARCHIVAL SECTOR)
Là nơi lưu trữ dữ liệu hàng năm
Ngữ nghĩa của dữ liệu sẽ thay đổi đôi chút sau mỗi năm
Trang 38Tóm lược
Trong dạng này hay dạng khác, tất cả các dữ
liệu trong DW 2.0 đều liên quan đến thời gian
Dữ liệu tương tác là hiện tại Tại thời điểm truy cập
Có nhãn thời gian đánh dấu record
Trang 39Tóm lược (tt)
Thời gian đánh dấu có hai dạng dữ liệu rời rạc
và dữ liệu khoảng thời gian liên tục
Dữ liệu co thời gian sử dụng hiệu quả khi được truy cập và phân tích chi tiết
Dữ liệu được định nghĩa lại đôi chút theo dữ liệu hàng năm
Trang 40Chương 12: The Flow Of
Data In DW 2.0
Thực hi n: Đoàn Minh Phúc - 1041104ệ
Lý Văn Minh Ng c -1041092ọ
Trang 41THE FLOW OF DATA IN DW 2.0
1 Entering the Interactive Sector.
2 Data flow into the Integrated Sector.
3 Data flow into the Near Line Sector.
4 Data flow into the Archival.
5 The falling probability of data access.
6 Exception - Based flow of data.
7 From the perspective of the business user
8 Tóm tắt
Trang 421 Entering the Interactive Sector.
Trang 43 Có thể nhập dữ liệu trực tiếp vào Interactive Sector hoặc thông qua ETL.
Dữ liệu di chuyển vào Interactive Sector theo định hướng của ứng dụng Sau đó dữ liệu được chuyển vào Integrated Sector.
Thời gian dữ liệu chuyển vào Interactive Sector rất nhanh và được gọi là dữ liệu thời gian thực
1 Entering the Interactive Sector.
Trang 44 Nếu dữ liệu được thực hiện trực tiếp từ Interactive Sector thì không có độ trễ.
Một số trường hợp có thể là một giờ hoặc một ngày trước khi các ứng dụng đưa dữ liệu từ bên ngoài vào Interactive Sector.
Thời gian dữ liệu chậm trễ là do các yêu cầu thực hiện dữ liệu.
1 Entering the Interactive Sector.
Trang 452 Data flow into the Integrated Sector.
Trang 46 Tốc độ luồng dữ liệu vào Integrated Sector chậm hơn so với tốc độ luồng dữ liệu từ Integrated Sector ra Interactive Sector Một số trường hợp, dữ liệu chuyển vào Integrated Sector theo một chu kỳ qua đêm, hàng tuần, hàng quý, thậm chí hàng năm.
Tốc độ dữ liệu chuyển vào Interactive Sector có kích thước nhỏ, tốc độ nhanh.
2 Data flow into the Integrated Sector.
Trang 47 Thông tin giao dịch có thể trộn lẫn nhau và nhập gộp lại Tuy nhiên, việc thu thập và xếp vào hàng đợi của các giao dịch
trước khi nhập vào Interactive Sector có thể rất chậm và điều đó
đi ngược lại mục tiêu của quá trình tương tác.
Việc kích hoạt cho việc truyền dữ liệu vào Integrated Sector rất đơn giản: theo thời gian Trong một số trường hợp, dữ liệu cần nhanh chóng nhập vào Integrated Sector theo từng giờ hoặc qua đêm.
2 Data flow into the Integrated Sector.
Trang 49 Luồng dữ liệu từ Integrated Sector vào Near Line Sector xảy
ra khi:
Có rất nhiều dữ liệu trong Integrated Sector.
Một số dữ liệu trong Interactive Sector lâu ngày không được
truy cập.
Khi có yêu cầu chuyển dữ liệu từ Integrated Sector sang
Near Line Sector.
3 Data flow into the Near Line Sector.
Trang 50 Nếu dữ liệu trong Integrated Sector không thỏa những điều kiện trên thì dữ liệu không có nhu cầu di chuyển đến Near Line Sector.
Near Line Sector hoạt động như một bộ nhớ cache trong
Integrated Sector Dữ liệu đặt trong Near Line Sector khi nó không cần thiết.
Near Line Sector dựa trên lưu trữ nondisk Do đó, Near Line Sector lưu trữ ít tốn kém và lưu với số lượng lớn
3 Data flow into the Near Line Sector.
Trang 513 Data flow into the Near Line Sector.
Trang 52 Dữ liệu bị xóa từ Integrated Sector trong khối lớn định kỳ mỗi tháng, mỗi quý một lần.
Mục đích của việc chuyển dữ liệu vào Near Line Sector là:
Giảm khối lượng dữ liệu trong Integrated Sector
Giảm chi phí cho kho dữ liệu và nâng cao hiệu suất.
Tăng xác suất truy cập cho những dữ liệu thường dùng.
3 Data flow into the Near Line Sector.
Trang 534 Data flow into the Archival.
Trang 54 Dữ liệu cũng di chuyển từ Integrated Sector đến Archival
Sector Archival Sector này khác với Near Line Sector.
Khi dữ liệu chuyển đến Near Line Sector, cấu trúc và định
dạng của dữ liệu được bảo toàn.
Near Line Sector được thiết kế để hỗ trợ truy cập dữ liệu trong Integrated Sector.
Ngược lại, khi dữ liệu chuyển đến Archival Sector, không có ý định nhanh chóng di chuyển trở lại Integrated Sector.
4 Data flow into the Archival.
Trang 55 Mục đích của Archival Sector là lưu trữ dữ liệu trong một thời gian dài
Tại Archival Sector, dữ liệu được lấy ra nhằm mục đích loại bỏ
dữ liệu có xác suất truy cập thấp
Tốc độ luồng dữ liệu từ Integrated Sector tới Archival Sector là chậm.
Dữ liệu lưu trữ thường lấy ra khỏi Archival Sector trên một chu
kỳ hàng quý hoặc hàng năm.
4 Data flow into the Archival.
Trang 56 Khi xác suất truy cập dữ liệu giảm, dữ liệu này sẽ được di
chuyển từ Integrated Sector đến Archival Sector
Có hai cách xác định xác suất truy cập giảm:
Dựa trên ngày Ví dụ tất cả dữ liệu cũ hơn 3 năm trước được
xóa đi từ Integrated Sector.
Sử dụng chương trình giám sát.Chương trình giám sát kiểm
tra việc truy cập dữ liệu trong Integrated Sector Đây là cách tiếp cận hợp lý nhất.
5 The falling probability of data access.
Trang 57 Những trường hợp được thực hiện khi cần hạn chế dữ liệu:
Trường hợp thứ nhất là việc chuyển dữ liệu từ Archival
Sector về Integrated Sector:
Thông thường dữ liệu được chuyển từ Archival Sector về
Integrated Sector với một khối lớn, không phải là vài thông tin tại một thời điểm Trong mọi trường hợp, việc chuyển giao dữ liệu lưu trữ trở về Integrated Sector được thực hiện theo yêu cầu.
6 Exception - Based flow of data.
Trang 59 Trường hợp thứ hai là khi dữ liệu từ Near Line Sector cần
được đưa trở lại Integrated Sector Có hai cách thực hiện:
Công cụ CMSM nằm giữa hai môi trường dùng để quản
lý điều tiết dữ liệu.
Dùng tay.
6 Exception - Based flow of data.
Trang 60 Trường hợp khác, dữ liệu từ Near Line Sector đến Integrated Sector với số lượng lớn, khi đó toàn bộ dữ liệu được di
chuyển
Trường hợp này, dữ liệu có thể được di chuyển bởi CMSM hoặc bằng tay Trong bất cứ trường hợp nào, dữ liệu cũ cũng được chuyển trở lại Integrated Sector bởi vì xác suất dự đoán truy cập đã tăng lên.
6 Exception - Based flow of data.