Một trong những dịch vụ cốt lõi được cung cấp bởi điện toán đám mây đó là lưu trữ dữ liệu.. Lưu trữ dữ liệu là tương lai chính là dịch vụ điện toán đám mây cung cấp cho các công ty để lư
Trang 1MỤC LỤC
I Giới thiệu ……… 3
II Những Công việc liên quan……… 6
III An toàn dữ liệu lưu trữ trên mây……… 8
IV Sự thi hành………11
Trang 2Lời mở đầu
Điện toán đám mây là một mô hình điện toán mới, thu hút được nhiều người dùng máy tính, kinh doanh, và cơ quan chính phủ Điện toán đám mây mang lại rất nhiều lợi thế đặc biệt là trong các dịch vụ phổ biến nơi mà tất cả mọi người có thể truy cập đến các dịch vụ máy tính thông qua Internet Với điện toán đám mây, không có nhu cầu phần cứng vật lý hoặc các máy chủ, mà nó sẽ hỗ trợ các hệ thống máy tính của công ty, dịch vụ internet và mạng Một trong những dịch vụ cốt lõi được cung cấp bởi điện toán đám mây đó là lưu trữ dữ liệu Trong những thập kỷ qua, lưu trữ dữ liệu đã được công nhận là một trong những mối quan tâm chính của công nghệ thông tin Lưu trữ dữ liệu là tương lai chính là dịch vụ điện toán đám mây cung cấp cho các công ty
để lưu trữ số lượng lớn dung lượng lưu trữ Nhưng vẫn còn nhiều công ty chưa sẵn sàng triển khai công nghệ điện toán đám mây do thiếu chính sách kiểm soát an ninh thích hợp và yếu kém trong bảo vệ mà dẫn đến nhiều thách thức trong điện toán đám mây Những lợi ích của các ứng dụng dựa trên mạng đã dẫn đến sự chuyển đổi từ lưu trữ trên một máy chủ khác gắn liên với lưu trữ phân tán Thực tế rằng bảo mật dữ liệu
là nền tảng của bảo mật thông tin, Có nhiều công trình lớn đã được thực hiện trong lĩnh vực bảo mật lưu trữ phân tán Trong tiểu luận này, sẽ cố gắng nghiên cứu các mối
đe dọa và các cuộc tấn công mà có thể xảy ra trong lưu trữ dữ liệu trong điện toán đám mây và đề xuất một an ninh cơ chế
Để ngăn chặn truy cập dữ liệu trái phép, tác giả đã đề xuất một chương trình phân tán để bảo mật dữ liệu trong đám mây Điều này có thể đạt được bằng cách sử dụng đồng cấu mã thông báo (token) với việc xác minh phân tán dữ liệu xóa mã hóa Đề án
đã đề xuất việc lưu trữ dữ liệu và xác định bất kỳ xáo trộn nào đó hoàn toàn tại server
Và cũng có thể thực hiện một số các nhiệm vụ như cập nhật, xóa, thêm dữ liệu Tác giả cũng cung cấp một quá trình để tránh các cuộc tấn công thông đồng bằng cách sửa đổi thông tin server để đăng nhập trái phép
TPHCM Tháng 07 năm 2013
Vũ Công Tâm tamsps@hotmail.com
Trang 3I Giới thiệu
Điện toán đám mây là vấn đề đòi hỏi những yêu cầu và công nghệ mới nổi và khắt khe nhất trên toàn thế giới cho đến thời điểm hiện tại Một số trong những công
ty lớn như Amazon, Microsoft và Google đã thực hiện các dự án "đám mây" và có đã
sử dụng nó để tăng tốc độ kinh doanh của họ điện toán đám mây tính toán đã đưa ra một chiều hướng mới hoàn toàn cho lĩnh vực gia công phần mềm (SaaS, PaaS và IaaS) và họ cung cấp bộ vi xử lý rẻ hơn, mạnh mẽ hơn bao giờ, với những kiến trúc máy tính, điều quan trọng của một máy tính không là không gian lưu trữ có sẵn và có thể lấy thông tin bất cứ khi nào theo yêu cầu của người dùng xác thực
Người tiên phong trong việc cung cấp dịch vụ điện toán đám mây là Amazon S3 Lưu trữ trên Internet Amazon S3 cung cấp một dịch vụ web đơn giản có thể được sử dụng để lưu trữ và lấy bất kỳ dữ liệu với số lượng tùy ý, bất cứ lúc nào, từ bất cứ nơi nào trên web Nó cũng cho phép developer truy cập với khả năng mở rộng cao, đáng tin cậy, an toàn, nhanh chóng, không tốn kém Theo quan điểm của bảo mật dữ liệu,
nó luôn luôn là một khía cạnh quan trọng chất lượng dịch vụ, điện toán đám mây không thể tránh khỏi nhiệm vụ này và đặt ra mối đe dọa thách thức mới Một số thách thức có thể gặp phải:
Người không được thẩm định tấn công vào tập tin có thẩm quyền
Tránh các cuộc tấn công thông đồng (Collision attacks)
Các mã độc tấn công vào việc sửa đổi dữ liệu
Thao tác dữ liệu động
Nhận dạng server giả mạo
Trang 4Những điều cần quan tâm trong việc Bảo mật trong hệ thống lưới:
Các hệ thống Grid cần phải cung cấp đầy đủcác chức năng bảo mật truyền thống nhưchứng thực, phân quyền, bảo vệthông điệp, toàn vẹn dữliệu, … ngoài ra cần đáp ứng các yêu cầu sau:
a Đăng nhập một lần (Single sign-on)
Một tính toán đơn giản cũng cần phải sửdụng nhiều tài nguyên khác nhau, vì thế nếu cứ mỗi lần truy xuất tài nguyên lại cần phải chứng thực người dùng là điều không thực tế và không thể chấp nhận được Thay vào đó, hệ thống Grid cần có cơ chếcho phép người dùng chỉ cần chứng thực một lần mà có thể sử dụng nhiều tài nguyên khác nhau
b Cho phép ủy quyền:
Đây là một yêu cầu quan trọng, để thực hiện được yêu cầu “đăng nhập một lần” thì cần phải có sự uỷ quyền Người dùng cần có khả năng uỷ quyền cho các chương trình sử dụng các quyền của mình, để chương trình có thể truy cập đến các tài nguyên
Trang 5được phép khác của người dùng Và chương trình, đến lượt nó cũng cần có khả năng
ủy quyền cho các chương trình khác
c Có khả năng tích hợp được với các chính sách bảo mật cục bộ:
Mỗi site hoặc nhà cung cấp tài nguyên đều có chính sách bảo mật riêng của mình
Do đó, các giải pháp bảo mật trên Grid cần phải liên kết được với các giải pháp cục
bộ, không được thay thế toàn bộ các giải pháp này mà cho phép kế thừa, sửdụng lại
d Sử dụng các quan hệ tin cậy lẫn nhau dựa theo người dùng:
Để cho phép người dùng sửdụng kết hợp tài nguyên từnhiều nhà cung cấp khác nhau, hệ thống bảo mật không được yêu cầu các nhà cung cấp phải hợp tác, liên lạc với nhau đểthiết lập môi trường bảo mật Ví dụ, nếu người dùng có quyền sử dụng 2 site A và B, thì người dùng cũng có thểsửdụng kết hợp 2 site A, B cùng lúc mà không cần các chuyên gia bảo mật của site A, B liên lạc với nhau
e Hỗ trợ bảo mật liên lạc nhóm:
Một quá trình tính toán được cấu thành từnhiều tiến trình khác nhau, những tiến trình này cần phải liên lạc với nhau theo từng nhóm Các nhóm có thểthay đổi trong suốt quá trình tính toán Grid cần có giải pháp đểthực hiện bảo mật cho các nhóm này
f Đảm bảo tính riêng tư
Một trong những khả năng của Grid là cho phép xửlý dữliệu trên máy tính ở xa
Từ đây cũng nảy sinh vấn đềcần bảo vệtính riêng tưcủa dữliệu, sao cho các người dùng hay nhà quản trịtrên máy tính ởxa không thểxâm nhập, sửdụng các dữ liệu đang được xửlý trên máy tính của mình
g Cho phép có nhiều cài đặt khác nhau:
Các giải pháp bảo mật không nên chỉ tập trung vào một cài đặt cụthểmà nên cài đặt theo nhiều công nghệ khác nhau dựa trên một nền tảng chung Điều này đảm bảo tính tương thích với nhiều hệ thống khác nhau
Ghi chú: Các giải pháp bảo mật trên Grid cũng nên cung cấp sự hỗ trợ mềm dẻo
cho công tác bảo vệliên lạc (ví dụnhư điều khiển được mức độbảo vệ, bảo vệ các gói
dữ liệu trong các protocol không đảm bảo tính tin cậy (UDP), hỗ trợ các protocol vận chuyển tin cậy khác ngoài TCP,…) và cho phép các nhà cung cấp ra quyết định vềphân quyền cũng nhưhạn chế ủy quyền theo nhiều cách khác nhau
Trang 6II Đặc điểm nòng cốt của một phương pháp bảo mật dữ liệu
II.1 Thuật toán phân chia dữ liệu
Trong mật mã học, việc xây dựng một bộ số thương đăng cấu rất phức tạp so với tính toán đại số với cấu trúc tương tự Chúng ta xây dựng một nhóm đẳng cấu cùng cấu trúc Zp (với p là một số nguyên tố lớn) và một phương trình đồng du như sau:
(Theo: A Study on Secure Data Storage Strategy in Cloud Computing)
II.2 Hiệu quả cao của thuật toán
Hiệu quả cao của thuật toán được minh họa qua 2 khía cạnh: khả năng chia cắt và khả năng lưu trữ dữ liệu Trong quá trình chia cắt và lưu trữ thì thuật toán chia cắt được áp dụng cho tập dữ liệu d sinh ra k khối dữ liệu r1, r2, r3 … rk Sau đó, những khối
dữ liệu này được lưu trữ trong một số ngẫu nhiên server đã chọn Hơn nữa, hệ số a1
được lưu trữ như là một bản thông tin dự phòng Tiến trình chủ yếu gồm những hoạt động sau đây:
B.1: k-1 số r1, r2, r3 … rk-1 được chọn ngẫu nhiên trong tập Zp
B.3: Hệ số a1, a2, a3 … ak-1 được tính dựa trên xây dựng đa thức p(k):
Từ quá trình tính toán ở trên, chúng ta có thể suy ra rằng phép nhân k , một mô-đun đảo ngược,và tích của k lần đa thức p(k) là cần thiết cho các thuật toán để tạo ra k khối dữ liệu Vì vậy , sự phức tạp thời gian là O ( k )
Để giải mã và khôi phục dữ liệu người dùng khôi phục dữ liệu của mỗi khối R={ r1,
r2, r3 … rk-1 } và từ các máy chủ liên quan theo vị trí các dữ liệu được lưu trữ và sẽ lấy
Trang 7lại được dữ liệu thô bằng các tính toán d = r1.r2.r3 … rk-1 mod p Rõ ràng độ phức tạp của thuật toán là O(k)
II.3 Thuật toán bảo mật
Định lý 1: Nếu có hệ số ai (0<= i <= k)khác nhauđược chọn ngẫu nhiên và bằng 0 khi i=k-1 thì khả năng tạo ra tập xác thực d thì ít hơn 1/p ngay cả khi các nghiệm của k-1 phương trình được biết
Định lý 2: Nếu kẻ tấn công xâm nhập một nút lưu trữ , dữ liệu đánh cắp chặn ri , và muốn khôi phục lại tập dữ liệu d với phương thức tấn công dựa trên ri và hệ số giải
mã của k ( k ≥ 2 ) đa thức trong trường hữu hạn Ζp có độ phức tạp là Độ phức tạp theo yêu cầu là:
Chứng minh:
II.4 Sự tin cậy của chiến lực bảo mật dữ liệu lưu trữ
Một trong những lơi thế khác biệt của phương pháp này so vơi cách truyền thống là phương pháp này có mức độ an toàn cao hơn Khi chia dữ liệu thành các khối và nhân lại k r1, r2, r3, … rk khối và k-1 hệ số a1, a2, a3 … ak-1 của phương trình Các hệ số này được lưu trữ trong thông tin sao lưu của máy chủ Trong một môi trường thực tế ,
Trang 8một hoặc nhiều các k nút lưu trữ khối dữ liệu không thể được truy cập bởi vì các vấn
đề về mạng hay chính máy chủ đó Bây giờ tập dữ liệu d không thể được khôi phục với phương trình trên Trong trường hợp này, chỉ cần khám xét một nút k Giả sử dữ liệu đã được nhận lại từ nut ri , hệ số a1, a2, a3 … ak-1 nhận lại từ thông tin sao lưu ở server ri và các hệ số đó là một sự thay thế cho phương trình (3) và có thể thu được tập dữ liệu thô Do đó, nó là chiến lược cung cấp một phương thức mềm dẻo để bảo
vệ dữ liệu trên môi trường phân tán
III Hướng tiếp cận mới và những việc liên quan
Internet đã phát triển nhanh chóng những năm 1990 và cấu trúc mạng ngày càng phức tạp, băng thông được mở rộng đáng kể những năm gần đây để sẵn sàng phục
vụ những ứng dụng cho người dùng trên Internet Và đây cũng là khởi đầu của điện toán đám mây hình thành Rất nhiều tổ chức cố gắng nâng cao khả năng bảo mật vốn dĩ yếu kém của họ cho database, cho web application … Sự toàn vẹn dữ liệu, đầy đủ, toàn bộ mạnh khỏe, tuân thủ ý định của người tạo dữ liệu Công việc của
họ là dùng một khóa đồng cấu công khai cho việc kiểm tra dữ liệu Như thế nó cung cấp một sự kiểm tra công khai Việc này cần một số bước tính toán trên đầu cho toàn bộ các file Việc này mất khá nhiều công sức
Nhóm tác giả đã dùng một token đồng cấu để xác minh dữ liệu bị xóa mã hóa trên đám mây Giao thức phân tán trong tương lai của chúng ta cung cấp cách xác định lỗi dữ liệu Có nghĩa là nó chỉ cung cấp kết quả nhị phân về việc lưu trữ dữ liệu trên dịch vụ phân tán
Những hành động như cập nhật, xóa và toàn vẹn dữ liệu cũng được cân nhắc để thêm vào
Việc đề xuất một lớp bảo mật sâu và sự phân tích hiệu suất cho ta thấy rằng, đề
án có hiệu quả cao trong việc chống lại Byzantine failure, mã độc tấn công sửa đổi
dữ liệu và thậm chí chống được tấn công server hàng loạt (Collusion attacks)
I An toàn dữ liệu lưu trữ trên mây.
Trong hệ thống lưu trữ đám mây, các công ty lưu trữ dữ liệu của họ trong các máy chủ dữ liệu đặt ở xa Theo đó, sự chính xác của các dữ liệu phải được đảm bảo mặc dù đôi khi người không được phép có thể chỉnh sửa hoặc xóa
các dữ liệu dẫn đến server bị tổn thương và / hoặc dẫn đến Byzantine failures một cách ngẫu nhiên Hệ thống lưu trữ đám mây đề xuất đề án linh hoạt và hiệu quả trong việc phân tán dữ liệu động trong server bằng việc tính toán các token đẳng cấu
và dùng chức năng bảng băm phổ biến, có thể tích hợp với việc xác minh dữ liệu bị xóa mã cũng như nó có thể xác định được các máy chủ bị mất
Trang 9III.1 Token đúng
Dể đẩm bảo tính đúng đắn của dữ liệu được lưu trữ, chúng ta sử dụng một token được tính toán trước Trước khi chia sẻ tập tin phân tán, chúng ta cần phải tính toán trước số lượng ít nhất các token được tạo ra để đảm bảo cho khối lượng dữ liệu trên mây được an toàn Sau đó các máy chủ đám mây sẽ sinh ra ngẫu nhiên các chỉ số khối, Sau khi đã chứng thực người dùng là hợp pháp và hợp lệ thì sau đó, mỗi máy chủ đám mây sẽ tính ra một chữ kí trên những khối quy định và trả chúng về cho người dùng Một chữ kí hợp pháp là nó phải phù hợp với các token được tính trước của người dùng Tất cả các máy chủ hoạt động trên một tập con chỉ số Các yêu cầu kiểm tra tính toàn vẹn cũng được thực hiện bằng một ma trận bí mật Giả sử người dùng muốn kiểm tra sự an toàn của dữ liệu trên server đám mây t lần thì họ phải tính toán trước t token xác minh cho từng chức năng (An toàn dữ liệu, toàn vẹn dữ liệu), một khóa thừa nhận (challenge key) và một khóa chính (Master key) được sử dụng
Dể sinh key thứ i cho server thứ j thì người dùng thực hiện như sau:
B.1: Lấy một giá trị tùy ý I và một key hoán vị dựa trên hoán vị của key chính (master key)
B.2: Tính trước tập hợp các chỉ số ngẫu nhiên được lựa chọn
B.3: Tính trước các token để mã hóa file và xuất phát giá trị tùy ý
Trang 10III.2 Xác định tính đúng đắn và xác định lỗi
Việc xác định lỗi là một yêu cầu quan trọng để loại trừ sai sót trong hệ thống lưu trữ đám mây Tuy nhiên có nhiều đề án trước đã không xem xét nghiêm túc vấn
Trang 11đề này Những giao thức trong đặc tính công việc của chúng ta thì cung cấp vị trí của lỗi dữ liệu Nó cung cấp kết quả nhị phân về tình trạng lưu trữ trên các server phân tán Giá trị trả về từ mỗi server cho mỗi yêu cầu không chỉ xác định tính chính xác của việc lưu trữ dữ liệu mà còn chứa thông tin để chỉ vị trí có khả năng xảy ra lỗi dữ liệu
Cụ thể, thủ tục của thử thách thứ i cho một kiểm tra chéo server thứ n như sau:
Client cho thấy rằng, họ cũng tốt như là key thứ i, k(i) cho mỗi server
Server lưu trữ một vector G chưa r hàng đó
định rõ k(i) thành tổ hợp tuyến tính R
Sau khi nhận được các giá trị R thì người dùng cất giữ lại các giá trị trong R
Sau đó người dùng phải xác nhận lại rằng, họ đã nhận được một giá trị hộp
lệ từ ma trận bí mật hay chưa
Bởi vì tất cả các server đều hoạt động trên một tập con các chỉ số và tổ hợp tuyến tính của những dòng đặc biệt này (R(1)i, R(2)i,…,R(n)i ) phải là một mã ở trong ma trận mã hóa Nếu phương trình ở trên có nghiệm thỏa thì yêu cầu được thông qua NẾu không, nó sẽ chỉ ra rằng, giữa những dòng đó tồn tại một khối file
bị thay đổi (sửa chữa) Khi tìm thấy sự không thống nhất giữa việc lưu trữ file thì chúng ta có thẻ dựa vào các token xác thực đã được tính toán trước để xác định nơi nào có khả năng gây lỗi Chú ý, mỗi yêu cầu R(j)i thì được tính toán chính xác theo cùng một cách như token v(j)i, để người dùng có thể biết được rằng, server nào đang hỏng bởi quá trình xác minh
IV Sự thi hành
IV.1 Sự phát triển vòng đời của phần mềm bảo mật
Sự phát triền vòng đời của một phần mềm bào mật qua 6 công đoạn sau đây:
Nghiên cứu
Phân tích
Thiết kế logic
Thiết kế vật lý
Thực thi
Bảo trì
Pharse 1: Nghiên cứu: định nghĩa tiến trình dự án, mục tiêu và hệ thống hoá chúng trong một chương trình bảo mật
Pharse 2: Phân tích: Phân tích các chương trình và chính sách bảo mật hiện tại, phân tích các mối đe dọa và quyền điêu hành hiện tại, xem xét các vấn đề pháp lý và thực hiện các phân tích rủi ro