1. Trang chủ
  2. » Công Nghệ Thông Tin

Xây dựng các dịch vụ tin sinh học trên nền tảng điện toán đám mây

67 266 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 3,33 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Khái niệm về ĐTĐM có thể mô tả như sau: các nhu cầu điện toán thông thường như phần mềm, ứng dụng, dịch vụ, dữ liệu … sẽ nằm t i các máy chủ ảo trên Internet thay vì trong máy tính gia đ

Trang 1

MỤC LỤC

MỤC LỤC 1

L I M ĐO N 3

L I CẢM ƠN 4

DANH MỤC CÁC TỪ VIẾT TẮT 5

DANH MỤC HÌNH VẼ 7

DANH MỤC CÁC BẢNG 8

PHẦN MỞ ĐẦU 9

Lý do chọn đề tài 9

Mục tiêu và nhiệm vụ nghiên cứu 10

Bố cục của luận v n 10

HƯƠNG 1 TỔNG QUAN VỀ TIN SINH VÀ ĐIỆN TOÁN ĐÁM MÂY 11

1.1 Tổng quan về điện toán đám mây 11

1.1.1 Khái niệm 11

1.1.2 Các mô hình dịch vụ và triển khai 13

1.2 Tổng quan về bài toán tin sinh học 18

1.2.1 Khái niệm 18

1.2.2 Các mô hình tin sinh truyền thống 21

1.3 Nhiệm vụ của luận v n 22

HƯƠNG 2 DỊCH VỤ, ỨNG DỤNG TRONG MÔI TRƯ NG Đ ĐÁM MÂY25 2.1 Môi trường đa đám mây 26

2.1.1 Khái niệm 26

2.1.2 Mô hình đa đám mây 28

2.1.3 Mô hình đa đám mây triển khai trong thực tiễn 32

2.2 Các yếu tố cần thiết khi thiết kế môi trường điện toán đa đám mây 35

2.2.1 Tính khả mở (scalability) 36

2.2.2 Tính khả chuyển (portability) 36

2.2.3 Tính chuẩn hoá (standarization) 37

2.3 Hướng tiếp cận 42

HƯƠNG 3 MÔ HÌNH ĐỀ XUẤT CHUYỂN DỊCH ỨNG DỤNG TIN SINH TRÊN MÔI TRƯ NG Đ ĐÁM MÂY 43

Trang 2

3.1 Kiến trúc tổng quan 43

3.1.1 Mô hình thành phần 44

3.1.2 Luồng nghiệp vụ 47

3.2 Bài toán tối ưu tài nguyên sử dụng 48

3.2.1 Mô tả bài toán 48

3.2.2 Tiền đề 49

3.2.3 Mô hình, giải thuật đề xuất 50

3.3 Thử nghiệm 54

3.3.1 Giao diện tin sinh trên đám mây 54

3.3.2 Kết quả thử nghiệm mô hình tối ưu tài nguyên 58

KẾT LUẬN 62

A Kết luận 62

B Hướng phát triển của đề tài 63

TÀI LIỆU THAM KHẢO 64

Trang 3

LỜI CAM ĐOAN

Tác giả luận v n xin cam đoan đây là công trình nghiên cứu của riêng tác giả luận v n; đúc kết của quá trình nghiên cứu từ việc tập hợp các nguồn tài liệu, các kiến thức đã học đến việc tự thu thập các thông tin liên quan và liên hệ thực tế t i đơn vị công tác Các số liệu, kết quả nêu trong luận v n là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác

Tác giả luận v n xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện Luận

v n này đã được cảm ơn và các thông tin trích dẫn trong Luận v n đã được chỉ rõ nguồn gốc

Tác giả luận v n xin chịu trách nhiệm về nghiên cứu của mình

Giảng viên hướng dẫn H c v t c ệ uậ v

Nguyễn Hữu Đức Lê Quang Hiếu

Trang 4

LỜI CẢM ƠN

Trước tiên, tôi – tác giả luận v n xin được gửi lời cảm ơn đến các Quý Thầy/Cô đã giảng d y trong chương trình đào t o th c sỹ, Viện Công Nghệ Thông Tin và Truyền Thông, Đ i học Bách Khoa Hà Nội, những người đã tận tình truyền

đ t kiến thức trong quá trình tôi học tập Đây là vốn kiến thức thực sự hữu ích, không chỉ làm nền tảng cho quá trình nghiên cứu khóa luận, mà còn là hành trang giúp tôi vững bước trên con đường ho t động trong l nh vực Công nghệ thông tin nói riêng và trong cuộc sống nói chung

Với tất cả lòng kính trọng và biết ơn, tôi xin được gửi lời cảm ơn chân thành tới TS Nguyễn Bình Minh, TS Nguyễn Hữu Đức và TS Doãn Trung Tùng – những người đã định hướng, hướng dẫn cho tôi những ngày đầu thực hiện luận v n Mặc dù trong quá trình thực hiện luận v n, có những giai đo n khó kh n không thuận lợi, nhưng những lời động viên, hướng dẫn quý báu của các thầy đã giúp tôi vượt qua và hoàn thành luận v n này

Cuối cùng tôi xin gửi lời biết ơn sâu sắc đến gia đình, b n bè, cộng đồng nguồn mở Vietnam OpenStack – những người đã luôn bên c nh giúp đỡ và t o điều kiện tốt nhất cho tôi trong suốt quá trình học tập cũng như thực hiện luận v n

Do thời gian có h n và kinh nghiệm nghiên cứu khoa học chưa nhiều nên luận v n còn nhiều thiếu sót, rất mong nhận được ý kiến góp ý của Quý Thầy ô và các b n học viên

H c viên th c hiện luậ v

Lê Quang Hiếu

Trang 5

DANH MỤC CÁC TỪ VIẾT TẮT

Từ

viết tắt Diễn giả ý g ĩa

ĐTĐM Điện toán đám mây

IaaS Infrastructure as a Service – H tầng như một dịch vụ

PaaS Platform as a Service – Nền tảng như một dịch vụ

SaaS Software as a Service – Phần mềm như một dịch vụ

EGI European Grid Infrastructure – Tổ chức phi lợi nhuận quản lý h tầng

m ng lưới Châu Âu

OCCI Open Cloud Computing Interface – Chuẩn giao diện quản trị h tầng

điện toán đám mây

CDMI Cloud Data Management Interface – Chuẩn giao diện quản trị dữ liệu

đám mây

EIRO European Intergovernmental Research Organisation – Tổ chức nghiên

cứu liên quốc gia Châu Âu

GLUE2 Grid Laboratory for Uniform Environment – Chuẩn giao tiếp lưới

OSS Open Source Software – Phần mềm mã nguồn mở

HPC High Performance Computing – Tính toán hiệu n ng cao

AWS Amazon Web Service – Dịch vụ ĐTĐM công cộng của Amazon

API Application Program Interface – Giao diện ứng dụng chương trình

BIMI Bio Informatic Management Interface – Chuẩn về giao diện quản trị tin

Trang 6

sinh

SNIA Storage Networking Industry Association – Tổ chức công nghiệp về lưu

trữ và truyền dẫn

JSON Java Script Object Notation – Định d ng dữ liệu Java Script

Trang 7

DANH MỤC HÌNH VẼ

Hình 1 Mô hình cơ bản của điện toán đám mây 15

Hình 2 Quy trình nghiên cứu của một dự án Metagenomics 19

Hình 3 Mô hình điện toán đa đám mây 28

Hình 4 Mô hình chức n ng trong mô hình đa đám mây 29

Hình 5 Mô hình đa đám mây EGI 34

Hình 6 Mô hình thử nghiệm đa đám mây Nimbus trên Grid'5000 35

Hình 7 Vai trò, vị trí của OCCI trong kiến trúc 38

Hình 8 Vai trò DMI trong mô hình lưu trữ phân tán 39

Hình 9 Định d ng OVF 40

Hình 10 Mô hình thành phần ứng dụng tin sinh 45

Hình 11 Luồng nghiệp vụ ứng dụng tin sinh 47

Hình 12 Mô hình m ng nơ-ron nhiều tầng 51

Hình 13 Đ ng nhập vào giao diện Web 55

Hình 14 Giao diện Web Tin sinh 55

Hình 15 Khởi t o luồng nghiệp vụ mới 56

Hình 16 Cấu hình cho một công cụ tin sinh 56

Hình 17 Đặc tả JSON của luồng nghiệp vụ tin sinh 57

Hình 18 Thông báo hệ thống khi bắt đầu ch y luồng tin sinh 57

Hình 19 Thông báo hệ thống khi luồng tin sinh hoàn thành 57

Hình 20 Thông báo hệ thống khi luồng tin sinh gặp lỗi 58

Hình 21 Dữ liệu đầu ra của từng bước lưu trên môi trường đám mây 58

Hình 22 Kết quả dự báo mô hình BPNN với kích thước vùng trượt 4 59

Hình 23 Kết quả dự báo GA-BPNN với p=4 59

Hình 24 So sánh tỉ lệ lỗi MEAN giữa GA-BPNN và BPNN 60

Hình 25 Kết quả dự đoán PD-GABP với p=4 60

Hình 26 So sánh tỉ lệ lỗi MEAN giữa GA-BPNN và PD-GABP 60

Trang 8

DANH MỤC CÁC BẢNG

Bảng 1 Định d ng SCUFL2 42

Bảng 2 Trừu tƣợng hoá đối tƣợng máy ảo 43

Bảng 3 Trừu tƣợng hoá đối tƣợng cụm máy ảo 44

Bảng 4 Mô tả BIMI API 46

Bảng 5 So sánh độ chính xác giữa BPNN và GA-BPNN với giá trị vùng trƣợt khác nhau 60

Bảng 6 So sánh độ chính xác giữa GA-BPNN và PD-GABP với giá trị vùng trƣợt khác nhau 61

Trang 9

PHẦN MỞ ĐẦU

Lý do c đề tà

Trong vài n m qua, ông nghệ thông tin đã bắt đầu một mẫu hình mới – Cloud computing (điện toán đám mây - ĐTĐM) Mặc dù ĐTĐM chỉ là một cách khác để cung cấp các tài nguyên máy tính, chứ không phải là một công nghệ hoàn toàn mới, nhưng nó đã châm ngòi một cuộc cách m ng trong cách cung cấp thông tin và dịch

vụ của các tổ chức Tuy nhiên, cuộc cách m ng này, giống như mọi cuộc cách

m ng, có các thành phần của quá khứ mà từ đó nó phát triển lên Trong thế giới của ĐTĐM, có chỗ cho sự cộng tác sang t o của công nghệ đám mây, và cho các tiện ích đã qua thử thách của các hệ thống tiền thân đã từng thống trị công nghệ thông tin, ví dụ như các máy tính lớn m nh mẽ (mainframe) Sự thay đổi thực sự ấy trong cách chúng ta tính toán mang l i các cơ hội to lớn cho nhân viên công nghệ thông tin để kiểm soát sự thay đổi và sử dụng chúng cho lợi ích cá nhân và tổ chức của họ Các bài toán tin sinh, cụ thể bài toán Metagenomics là một l nh vực nghiên cứu tương đối mới mẻ t i Việt Nam Tuy nhiên, các trung tâm nghiên cứu cũng như các nhà khoa học Việt Nam đang từng bước tiếp cận với công nghệ giải trình tự thế hệ mới Các nhóm nghiên cứu về tin sinh học đã và đang tiếp tục được thành lập và phát triển t i các viện nghiên cứu và các trường đ i học lớn t i Việt Nam như Đ i học công nghệ, ĐHQGHN, Học viện bưu chính viên thông, Đ i học sư ph m Hà Nội, Viện Công nghệ thông tin Những nghiên cứu đã thực hiện chủ yếu tập trung vào nhóm bài toàn cho đơn hệ gen (genomics) Tuy nhiên, vấn đề về nền tảng h tầng và môi trường phục vụ nghiên cứu tin sinh khiến cho việc nghiên cứu công nghệ trở nên khó kh n hơn

Bởi vậy, việc đưa các công cụ tin sinh chuyên biệt lên đám mây thành dịch vụ sẽ giúp cho rất nhiều chuyên gia ở Việt Nam có thể sử dụng vào những nghiên cứu của mình trong các bài toán cần tính toán và cả nhu cầu chia sẻ dữ liệu sinh học nhằm thúc đẩy hơn nữa sự phát triển của ngành tin sinh học trong nước

Trang 10

Bố cục của uậ v

Luận v n gồm 03 chương:

 hương 1: Tổng quan về tin sinh và điện toán đám mây

 hương 2: Dịch vụ, ứng dụng trong môi trường đa đám mây

 hương 3: Mô hình đề xuất chuyển dịch ứng dụng tin sinh trên môi trường

đa đám mây

Trang 11

CHƯƠNG 1 TỔNG QUAN VỀ TIN SINH VÀ ĐIỆN TOÁN ĐÁM MÂY

1.1 Tổ g qua về đ ệ toá đám mây

1.1.1 Khái niệm

Thuật ngữ ĐTĐM ra đời từ những n m 2007 với mục đích khái quát l i các hướng

đi của cơ sở h tầng thông tin vốn đã và đang diễn ra từ mấy n m qua Khái niệm về ĐTĐM có thể mô tả như sau: các nhu cầu điện toán thông thường như phần mềm, ứng dụng, dịch vụ, dữ liệu … sẽ nằm t i các máy chủ ảo trên Internet thay vì trong máy tính gia đình và v n phòng để người dùng kết nối và sử dụng mỗi khi họ cần Với các dịch vụ sẵn có trên Internet, doanh nghiệp không phải mua và duy trì h tầng cũng như phần mềm mà chỉ cần tập trung vào kinh doanh, nghiệp vụ riêng bởi

đã có các nhà cung cấp dịch vụ ĐTĐM lo cơ sở h tầng và công nghệ thông tin thay

họ Đa số người dùng Internet đã tiếp cận những dịch vụ đám mây phổ thông như mail, album ảnh, bản đồ số

e-ĐTĐM là một giải pháp toàn diện, cung cấp sức m nh của công nghệ thông tin dưới

d ng dịch vụ Đây là một giải pháp điện toán chủ yếu dựa trên kết nối m ng (LAN, Internet ), ở đó cung cấp tài nguyên chia sẻ theo nhu cầu Ở mô hình điện toán này, mọi khả n ng liên quan đến công nghệ thông tin đều được cung cấp dưới d ng các dịch vụ, cho phép người sử dụng truy cập các dịch vụ công nghệ từ một nhà cung cấp mà không cần phải có các kiến thức, kinh nghiệm về công nghệ đó, cũng như không cần quan tâm đến các cơ sở h tầng phục vụ công nghệ đó

Tính linh ho t của ĐTĐM là phân phát tài nguyên theo yêu cầu Điều này t o khả

n ng mềm dẻo, thuận lợi cho việc sử dụng các tài nguyên của hệ thống, lo i bỏ sự ràng buộc phải đầu tư phần cứng cụ thể cho một nhiệm vụ Trước khi có ĐTĐM, các trang web hoặc các ứng dụng được ch y trên một máy chủ cụ thể ho t động trong một hệ thống Với sự ra đời của ĐTĐM, các tài nguyên được hợp nhất và sử dụng như kho chung Cấu hình hợp nhất này cung cấp một môi trường ở đó các ứng

Trang 12

dụng thực hiện một cách độc lập mà không quan tâm đến bất kỳ cấu hình cụ thể nào

Viện Tiêu chuẩn và ông nghệ Quốc gia Mỹ cũng định ngh a 5 đặc điểm quan trọng nhất của ĐTĐM như sau:

1 Dịch vụ cung cấp theo nhu cầu: Người dùng có thể thuê (mua), tự cấu hình và triển khai các dịch vụ ĐTĐM sử dụng các hình mẫu (template) được định ngh a sẵn, mà không cần sự trợ giúp của bộ phận IT Để làm được điều này, các nhà cung cấp h tầng phải t o ra các hình mẫu từ trước ác hình mẫu này chứa các cấu hình đã được định ngh a trước, c n cứ vào đó người dùng sẽ tùy chỉnh them

và cài đặt thêm các dịch vụ theo nhu cầu Một số ví dụ về hình mẫu như HP loud Maps của HP, loudForms của RightScale và Red Hat…

2 Truy cập m ng rộng: N ng lực tính toán có tính sẵn sàng cao trên toàn m ng và được truy cập thông qua các cơ chế chuẩn

3 Tài nguyên không giới h n: Tài nguyên điện toán của các nhà cung cấp được kết hợp để phục vụ nhiều khách hàng sử dụng mô hình multi-tenant bằng cách sử dụng công nghệ ảo hóa

4 Khả n ng đàn hồi cao: Tài nguyên điện toán có thể được cung cấp và giải phóng một cách linh ho t Đối với khách hàng, tài nguyên điện toán dường như là không giới h n và có thể được sử dụng với bất kì số lượng nào t i bất kì thời điểm nào

5 Dịch vụ được đo lường: ác hệ thống ĐTĐM tự động kiểm soát và tối ưu hóa tài nguyên sử dụng bằng cách tận dụng khả n ng đo đ c ở mức trừu tượng phù hợp với các lo i dịch vụ Lưu lượng sử dụng tài nguyên được giám sát, điều khiển và thống kê trong suốt đối với cả nhà cung cấp và người sử dụng

Trang 13

1.1.2 Các mô hình dịch vụ và triển khai

1.1.2.1 Các mô hình triển khai

1.1.2.1.1 Đám mây ộ bộ - Private cloud

Private cloud là h tầng ĐTĐM được vận hành chỉ cho một tổ chức Để thực hiện một dự án private cloud đòi hỏi một mức độ hợp tác đáng kể để ảo hóa môi trường kinh doanh và đòi hỏi tổ chức phải đánh giá l i các quyết định về các nguồn lực hiện có Một dự án private cloud được triển khai đúng cách sẽ cải thiện kinh doanh, tuy nhiên mỗi bước trong dự án l i gia t ng các vấn đề bảo mật cần được giải quyết

để ng n chặn các lỗ hổng nghiêm trọng ác trung tâm dữ liệu thường đòi hỏi rất nhiều vốn: chi phí mua h tầng phần cứng (các servers, storages), không gian địa điểm và chi phí bảo vệ Hơn thế nữa các chúng cần được nâng cấp, bảo trì, cập nhật định kì, kéo theo các khoản chi phí bổ sung Quản l một private cloud yêu cầu các công cụ phần mềm để giúp t o một hệ thống các servers được ảo hóa, cung cấp một self-service portal cho end-users, kiểm soát bảo mật, phân bố tài nguyên, theo d i

và kiểm soát sử dụng

1.1.2.1.2 Đám mây cô g cộ g - Public cloud

Một cloud được gọi là công cộng (public) khi các dịch vụ được cung cấp trên một

m ng Internet công cộng Một public cloud có thể được hiểu theo ngh a thông thường nhất: các tài nguyên được cung cấp dưới d ng dịch vụ trên Internet được người dùng truy cập bằng các ứng dụng web, các nhà cung cấp sẽ cung cấp các tài nguyên chia sẻ, gửi hóa đơn tính phí dựa trên cơ sở tính toán lượng sử dụng của người dùng Về mặt k thuật, không có nhiều khác biệt giữa kiến trúc public và private cloud, trừ việc vấn đề bảo mật cần phải được đặc biệt quan tâm đối với các dịch vụ (ứng dụng, dữ liệu lưu trữ và các tài nguyên khác) được cung cấp public khi

mà các giao tiếp được thực hiện qua một m ng không đáng tin cậy Thông thường, các nhà cung cấp dịch vụ public cloud như mazon WS, Microsoft và Google sở hữu và vận hành cơ sở h tầng và cung cấp truy cập chỉ thông qua Internet

Trang 14

1.1.2.1.3 Đám mây cộ g đồ g - Community cloud

ommunity cloud chia sẻ h tầng giữa một số tổ chức từ một cộng đồng cụ thể có các mối quan tâm chung (v d: một nhóm ngành nghề lớn) hi phí trải đều trên một tập ít người dùng hơn so với public cloud nhưng nhiều hơn so với private cloud

1.1.2.1.4 Đám mây a - Hybrid cloud

Hybrid cloud là sự kết hợp của hai hay nhiều mô hình ĐTĐM khác nhau (private, community hoặc public) nhằm phát huy lợi thế của nhiều mô hình triền khai

Hybrid cloud có thể được kết hợp từ nhiều dịch vụ ĐTĐM từ các nhà cung cấp dịch

vụ khác nhau Một dịch vụ hybrid cloud giữa các nhà cung cấp cho phép mở rộng khả n ng của dịch vụ ĐTĐM bằng cách thống nhất, tích hợp hoặc tùy biến với các dịch vụ ĐTĐM khác

Kiến trúc hybrid cloud yêu cầu cả các tài nguyên có tính đồng bộ và h tầng ĐTĐM phải định ngh a các giao thức làm việc từ xa được với nhau Trong môi trường hybrid cloud, tài nguyên tính toán, kết nối m ng và tài nguyên lưu trữ phải được quản lý thông suốt qua nhiều nhà cung cấp dịch vụ, do đó một chiến lược quản lý hybrid cloud tốt nên bắt đầu với việc định ngh a những gì cần quản lý, ở đâu và làm thế nào để thực hiện Các công việc để giúp quản lý thông suốt giữa các nhà cung cấp dịch vụ bao gồm việc cấu hình và cài đặt các template chung, kiểm soát truy cập, dự toán ngân sách và báo cáo Kiểm soát truy cập thường bao gồm việc sử dụng SSO – Single Sign – On, một kỹ thuật giúp người dùng chỉ cần login một lần

và có thể truy cập vào tất cả các hệ thống mà không bị nhắc nhở phải login l i mỗi lần truy cập

1.1.2.2 Các mô hình dịch vụ

Khái niệm điện toán đám mây được xây dựng trên các tầng, mỗi tầng cung cấp một chức n ng riêng Sự phân tầng này đã cung cấp một cơ sở để điện toán đám mây định lượng được dịch vụ cung cấp Dịch vụ mà điện toán đám mây cung cấp là khả

n ng điện toán với chi phí thấp cho người dùng ĐTĐM đã sẵn sàng để trở thành dịch vụ siêu tiện ích trong thời đ i công nghệ ngày nay

Trang 15

ác tầng của ĐTĐM được cung cấp bởi các nhà cung cấp dịch vụ, các mô hình dịch

vụ cơ bản tương ứng với các tầng sau:

Hình 1 Mô ì cơ bả của đ ệ toá đám mây

Bên c nh các mô hình cơ bản, các nhà cung cấp đang hướng tới cung cấp anything

as a service , và điều đó đã từng bước trở thành hiện thực Một số thành phần chủ chốt trong XaaS – anything as a Service – được mô tả trong một mô hình phân lo i toàn diện được công bố n m 2009, như SaaS – Strategy as a Service, BaaS – Business as a Service, DaaS – Development as a Service… N m 2012, NaaS – Network as a Service, aaS – ommunication as a Service chính thức được ITU (Internation Telecommunication Union – Hiệp hội Viễn thông Quốc tế) công nhận

là một phần của mô hình điện toán đám mây cơ bản, và là một trong những lo i hình dịch vụ được công nhận của một hệ sinh thái ĐTĐM lấy viễn thông làm trung tâm (telecommunication – centric cloud ecosystem)

1.1.2.2.1 Hạ tầ g ư một dịc vụ (IaaS)

Đây là mô hình dịch vụ ĐTĐM cơ bản nhất, các nhà cung cấp IaaS cung cấp các servers, storages vật l được ảo hóa bởi nền tảng ảo hóa hybervisor, hệ thống các

Trang 16

servers ảo bên trong ĐTĐM có thể phục vụ một số lượng lớn khách hàng (thông qua các guest machines ch y hệ điều hành ảo trên cùng một server) và khả n ng co dãn tùy theo yêu cầu đa d ng của khách hàng

IaaS thường cung cấp thêm các tài nguyên như thư viện các hình mẫu máy ảo, các dịch vụ lưu trữ theo nhiều cơ chế như Block, Object, File, dịch vụ tường lửa, bộ cân bằng tải, địa chỉ IP, m ng địa phương ảo (VL N – Virtual Local rea Network) và một số gói phần mềm đặc thù ác nhà cung cấp ĐTĐM thường cung cấp tài nguyên theo yêu cầu của khách hang từ những cụm máy chủ tính toán đặt t i data center tập trung hoặc phân tán Với m ng W N, khách hàng có thể sử dụng chung

cả Internet và truy cập vào ĐTĐM của nhà cung cấp dịch vụ (m ng riêng ảo)

Để triển khai các ứng dụng, người dùng ĐTĐM thường cài đặt hệ điều hành và các phần mềm ứng dụng lên trên h tầng ĐTĐM Trong mô hình này, mặc dù không phải bỏ ra chi phí mua h tầng vật l , nhưng người dùng phải tự vá lỗi (patch), cập nhật và tự bảo trì hệ điều hành cũng như các ứng dụng phần mềm Nhà cung cấp ĐTĐM thường tính tiền dịch vụ IaaS dựa trên lượng tài nguyên được cấp và tiêu thụ

Hai ví dụ điển hình của mô hình IaaS trong viễn thông là cloud communications và cloud telephony, thay vì việc thay thế h tầng điện toán địa phương mà thay thế h tầng viễn thông địa phương bởi VoIP – Voice over IP và các dịch vụ internet off-site khác

1.1.2.2.2 Nề tả g ư một dịc vụ (PaaS)

Trong mô hình PaaS, các nhà cung cấp ĐTĐM cung cấp nền tảng điện toán, thường bao gồm hệ điều hành, môi trường thực thi cac ngôn ngữ lập trình, cơ sở dữ liệu và web server Nó tương đương với middle ware trong mô hình truyền thống (non – could computing) Lập trình viên có thể lập trình và ch y các giải pháp phần mềm của họ trên một nền tảng ĐTĐM bằng cách sử dụng PI và các công cụ do nhà cung cấp hỗ trợ, tức là không cần phải quan tâm đến giá cả và độ phức t p khi mua

và quản l các lớp phần cứng và phần mềm bên dưới Đối với một số PaaS như Windows zure, tài nguyên điện toán và lưu trữ còn được co giãn tự động để phù

Trang 17

hợp với các yêu cầu của ứng dụng Do đó, người dùng không cần phải phân bổ và cấu hình tài nguyên bằng tay ác doanh nghiệp phần mềm nhỏ là đối tượng khách hàng l tưởng đối với mô hình PaaS Với nền tảng hệ thống đã chọn lọc kỹ, doanh nghiệp có thể t o ra các sản phẩm phục vụ tốt nhu cầu nghiệp vụ mà không phải chịu thêm gánh nặng về chi phí h tầng phần cứng và nền tảng

on-Trong mô hình SaaS, các nhà cung cấp ĐTĐM cài đặt và vận hành các phần mềm ứng dụng trên ĐTĐM và người dùng ĐTĐM truy cập vào phần mềm từ các thiết bị đầu cuối hoặc web Người dùng ĐTĐM không quản l h tầng cơ sở và các nền tảng trên đó ứng dụng ch y Điều này lo i bỏ yêu cầu phải cài đặt và ch y ứng dụng trên máy tính của người sử dụng ĐTĐM, đồng thời đơn giản hóa việc bảo trì cũng như hỗ trợ ác ứng dụng ĐTĐM phân biệt với các ứng dụng khác nhờ tính co dãn của chúng Điều này có thể đ t được bằng nhiều cách như sử dụng bộ cân bằng tải, sao chép các tác vụ trên nhiều máy ảo trong thời gian ch y để đảm bảo nhu cầu thay đổi công việc ác bộ cân bằng tải phân bổ công việc trên tập các máy ảo Quá trình này là trong suốt đối với người sử dụng ĐTĐM, họ chỉ nhìn thấy một điểm truy cập đơn duy nhất Để phục vụ số lượng lớn người dùng ĐTĐM, các ứng dụng ĐTĐM

có thể multi-tenant, điều đó có ngh a là, mỗi máy tính sẽ phục vụ nhiều hơn một nhóm người dùng ĐTĐM Người ta thường đề cập đến các lo i dịch vụ đặc biệt của ĐTĐM dựa trên phần mềm ứng dụng như: desktop as a service, business process as

a service, test environment as a service, communication as a service

Mô hình định giá cho các ứng dụng SaaS thường là phí sử dụng dịch vụ cố định theo tháng hoặc theo n m trên một người dùng

Trang 18

Những người ủng hộ cho rằng SaaS cho phép một doanh nghiệp giảm các chi phí

ho t động IT bằng cách chuyển công việc bảo trì và hỗ trợ phần cứng, phần mềm cho các nhà cung cấp ĐTĐM Điều đó cho phép doanh nghiệp có thể phân bổ l i các chi phí ho t động IT, giảm thiểu chi phí tiêu dùng phần cứng phần mềm và nhân

sự để có thể đ t được các mục tiêu khác Ngoài ra với các ứng dụng được tập trung, việc cập nhật có thể được tiến hành mà không cần người dùng phải cài đặt phần mềm mới Một nhược điểm của SaaS đó là dữ liệu của người dùng được lưu trữ trên server của nhà cung cấp ĐTĐM Kết quả là có khả n ng xảy ra truy cập trái phép vào dữ liệu Với l do đó, những người sử dụng có thể sử dụng hệ thống quản l khóa thông minh của bên thứ ba để giúp bảo mật dữ liệu của họ Google Pack của Google là một ví dụ điển hình cho SaaS Google Pack bao gồm các ứng dụng, các công cụ có thể sử dụng được qua Internet như Google alendar, Gmail, Google Talk, Google Docs và nhiều dịch vụ khác

1.2 Tổ g qua về bà toá t s c

1.2.1 Khái niệm

Bài toán Metagenomics trong nghiên cứu tin sinh học được định ngh a bao gồm việc tách chiết DNA, RNA từ mẫu môi trường tự nhiên, tổ chức lưu trữ thông tin thu được, và phân tích bằng các công cụ tính toán của tin sinh học Hình dưới đây

mô tả quy trình tiến hành một dự án Metagenomics

Trang 19

Hình 2 Quy trình nghiên cứu của một dự án Metagenomics

Trong khi kỹ thuật giải trình tự thế hệ mới (next generation sequencing - NGS) đã giải quyết được vấn đề thời gian và chi phí trong việc chuẩn bị dữ liệu cho nghiên cứu metagenomics, thì bước phân tích và làm sáng tỏ ngh a các kết quả tính toán

l i là thách thức lớn trong l nh vực này Trước đây, các phương pháp, công cụ đã phát triển cho genomics (hệ gene đơn nhất), tuy cùng bản chất sinh học, đã không thể áp dụng cho metagenomics (tập hợp các gene của một quần thể vi sinh), đòi hỏi phải được mở rộng hoặc đề xuất mới Cụ thể, một số vấn đề cơ bản làm giảm hiệu quả của các phương pháp tính toán gồm:

(1) Khối lượng dữ liệu metagenomics có thể lớn (Gb/mẫu) dẫn đến yêu cầu lưu trữ

và n ng lực tính toán cao

(2) Chuỗi trình tự NGS (shotgun sequencing read) tương đối ngắn (100-200 bp) dẫn đến khó kh n trong phân tích dữ liệu, ví dụ lắp ghép các đơn vị trình tự dài (contig, scaffold) hơn hoặc toàn hệ gen (whole genome assembly)

(3) Đặc thù của dữ liệu metagenomics là một phần không nhỏ dữ liệu chưa có chú giải phân loài và chức n ng (taxomomy and function annotation) của các vi sinh vật

Trang 20

chưa biết, dẫn đến nhu cầu xây dựng cơ sở dữ liệu tham chiếu (reference databases) song song với các phương pháp tính toán thích hợp (robust) để khắc phục nhược điểm (đồng thời cũng là tiềm n ng) này

Các thành phần tin sinh học của metagenomics gồm các thành phần cơ bản như sau:

sinh vật trong mẫu

 Tập dữ liệu tham chiếu: toàn bộ hệ gene của các loài vi khuẩn, virus, v.v

 Các tập dữ liệu metagenome có chú giải về đa d ng phân loài, chức n ng, v.v

liệu tham chiếu đồng thời cung cấp các dịch vụ như: tiếp nhận lưu trữ, truy vấn, phân tích thống kê, và môt số công cụ tính toán Đặc điểm chung của các hệ thống này là:

Chuẩn thường được sử dụng nhất là của Genome Standards Consortium (GSC)

 Sử dụng những máy chủ m nh, siêu máy tính, môi trường tính toán song song hoặc đám mây cho các tác vụ tính toán trên dữ liệu lớn

 Phân quyền truy vấn đối với các tập dữ liệu, người dùng

 Cho phép tải các tập dữ liệu lên và trả về kết quả phân tích qua Internet Sau đây là một số hệ thống tiêu biểu, có những điểm cần tham khảo khi thiết kế hệ thống t i Việt Nam

lượng, Mỹ: là hệ thống tích hợp nguồn dữ liệu được công bố bởi dự án t i JGI và các dự án metagenomics khác theo chuẩn của IMG, ví dụ đất, nước biển, nước ngọt, suối nước nóng, vật chủ (cây công nghiệp, ruột động vật), môi trường ô nhiễm N m 2013, 7678 hệ gen mới được lưu trữ, trong đó

1126 được giải trình tự và chú giải t i JGI, 6441 từ Genbank, và 91 hệ gen

Trang 21

do người dùng trực tiếp đưa lên Tới tháng 1 2014 đã có trên 5500 người dùng từ 69 quốc gia

tham chiếu (971 hệ gene vi khuẩn), v.v đã được công bố từ 10 nguồn khác nhau, như ENZYME, Swiss-Prot, BRENDA, GenBank, v.v và chú giải bằng tay bởi các chuyên gia Đặc biệt, cung cấp danh sách trên 500 enzymes có giá trị thương m i đã được công bố quốc tế

 MG-RAST, NIH, Mỹ: Lưu trữ 50,683 tập dữ liệu metagenomics (trong đó trên 10,095 miễn phí), 14.2 Tbp DNA Hệ thống tính toán dựa trên các cụm máy (clusters) và đám mây (cloud)

1.2.2 Các mô hình tin sinh truyền thống

Phân tích dữ liệu metagenomics tuân theo một quy trình nhất định (analysis pipeline) cho các lo i dữ liệu khác nhau và tùy theo mục tiêu phân tích của bài toán sinh học Tuy nhiên, có một số tác vụ cơ bản chung như phân tích đa d ng phân loài (taxonomy), chức n ng (function), lắp ghép hệ gen (genome assembly), so sánh các quần thể vi sinh vật (comparative metagenomics)

Về cơ bản, các phương pháp tính toán có thể thuộc một trong số hoặc kết hợp hai hướng tiếp cận sau:

 Dựa vào đặc tính của chuỗi DNA (sequence-based): số lượng, tần số của nucleotide, motifs v.v là đầu vào cho các thuật toán phân lo i

 Dựa vào tính tương đồng của chuỗi DNA (homolog-based): tìm sự tương đồng với chuỗi đã được chú giải trong cơ sở dữ liệu tham chiếu, cây phân loài (NCBI) hoặc cây con đường chức n ng (KEGG, SEED) để gán phân nhóm hay chức n ng gần nhất

Các công cụ đã được phát triển và công bố cho metagenomics tương đối nhiều, ch y qua giao diện web, dòng lệnh, hoặc giao diện đồ họa, v.v., có thể chia thành ba nhóm sau:

v.v vào dưới d ng các module chức n ng, ghép nối thành các luồng giải pháp

Trang 22

(analysis pipeline) cho từng vấn đề cụ thể, ví dụ như: Galaxy, MG-Rast, IMG/M, CAMERA Việc lưu dữ liệu và tính toán sẽ được thực hiện trên hệ thống của nhà cung cấp dịch vụ phân tích nêu trên

 Gói phần mềm (package): tập hợp các công cụ, tiện ích trong phân tích metagenomics, ví dụ như Qiime, Meta B , MetabioME, MEG N ác gói này được cài đặt trên nền Windows, Linux, v.v

chức n ng, ví dụ như BL ST, BL STX, BL T, PhyloPythia, Tetra, v.v Đây chủ yếu là các thuật toán cơ bản được công bố quốc tế giải quyết một vấn đề nhất định trong tính toán Riêng BLAST và các biến thể là công cụ tìm kiếm đối sánh quan trọng được sử dụng trong hầu hết các hệ thống và gói phần mềm

Đặc trưng của bài toán phân tích dữ liệu metagenomics tập trung vào khái niệm luồng xử lý dữ liệu tin sinh (workflow), trong đó mỗi bước trong một workflow bao hàm luồng nghiệp vụ đặc trưng như tìm kiếm, sắp xếp, hiển thị Đầu ra của bước này là đầu vào của bước tiếp theo

1.3 N ệm vụ của uậ v

Ở Việt Nam hiện nay hướng tiếp cận metagenomics đang nổi lên là một các làm mới cho các bài toán nghiên cứu và khai thác vật liệu di truyền từ vi sinh vật Một

số các đề tài cấp cơ sở và cấp nhà nước đang sử dụng metagenomics được thực hiện

t i Viện Hàn lâm khoa học và công nghệ Việt Nam (VAST) với mục tiêu chung là khai thác vật liệu di truyền mới mã hóa các enzyme và các chất có ho t chất sinh học hữu ích như sau:

nghiệp, cây thuốc ở Việt Nam

hóa hiệu quả lignocellulose

Trang 23

 Nghiên cứu metagenome của hệ vi sinh vật liên kết hải miên t i biển miền Trung Việt Nam

Đề tài này dự kiến thực hiện phần lưu trữ dữ liệu và tính toán một phần dựa vào tài nguyên sẵn có của V ST, đồng thời thuê ngoài đặc biệt với những tác vụ phân tích đòi hỏi n ng lực tính toán lớn Ngoài ra, các nghiên cứu tin sinh học t i Viện Công nghệ thông tin (IOIT, V ST) theo hướng metagenomics cũng đang được triển khai theo hướng xây dựng luồng phân tích và các phương pháp tính toán cho 2 bài toán đặc tả thành phần phân loài (taxonomy) và chức n ng (function) của hệ vi sinh vật trong ruột người (human intestinal microbiome)

Về l nh vực điện toán đám mây, trong vòng vài n m trở l i đây, điện toán đám mây

đã đ t được những bước phát triển rất nhanh chóng Rất nhiều các mô hình dịch vụ của đám mây đã ra đời trong đó có thể quy về các dịch vụ phân phối tài nguyên phần cứng (Infrastructure as a Service – IaaS), dịch vụ cung cấp nền tảng (Platform

as a Service – PaaS) cho các nhà phát triển và dịch vụ phân phối tài nguyên phần mềm (Software as a Service – SaaS) trên nền ảo hóa tới người sử dụng Lợi ích

mà điện toán đám mây đem l i là rất to lớn và có thể áp dụng trong rất nhiều l nh vực, từ học tập nghiên cứu đến kinh doanh Trong 3 d ng dịch vụ cung cấp bởi điện toán đám mây thì SaaS là dịch vụ hướng đến người dùng cá nhân hơn cả Các phần mềm phổ biến hiện nay đã được đưa lên thành dịch vụ trên đám mây bao gồm các phần mềm v n phòng, lưu trữ chia sẻ dữ liệu, thư điện tử, phần mềm diệt virus, phần mềm đồ họa, v.v và cả các phần mềm chuyên biệt trong kinh doanh như ch m sóc khách hàng, quản lý nhân sự, kế toán, v.v Tuy nhiên trong l nh vực nghiên cứu khoa học thì chưa có nhiều dịch vụ như vậy cụ thể là l nh vực tin sinh học

Các bài toán tin sinh học rất nhiều và đa d ng, đặc biệt là siêu bộ gen (metagenomics) ó bài toán đòi hỏi khối lượng tính toán lớn, thời gian tính toán lâu Có bài toán đòi hỏi khối lượng dữ liệu tính toán cực lớn Những d ng bài toán như vậy thường không thể ch y được trên máy tính cá nhân mà thường phải đưa lên các cụm máy tính hoặc siêu máy tính để giải quyết Trong nước, dự án giải mã gen người đã được thực hiện với sự trợ giúp từ hệ thống tính toán cụm và siêu máy tính

Trang 24

t i Đ i học Bách khoa Hà Nội Việc đưa các công cụ tin sinh chuyên biệt lên đám mây thành dịch vụ sẽ giúp cho rất nhiều chuyên gia ở Việt Nam có thể sử dụng vào những nghiên cứu của mình trong các bài toán cần tính toán và cả chia sẻ dữ liệu sinh học nhằm thúc đẩy hơn nữa sự phát triển của ngành tin sinh học ở trong nước Qua phân tích yêu cầu và quy trình nghiệp vụ bài toán Trong các chương tiếp theo, luận v n sẽ phải thực hiện ba nhiệm vụ sau:

1 Đề xuất mô hình tổng quát khả thi cho việc chuyển dịch ứng dụng lên môi trường đa đám mây

2 Cụ thể hoá mô hình tổng quát với bài toán tin sinh

3 Tiến hành phân tích, đánh giá các kết quả đ t được

Trang 25

CHƯƠNG 2 DỊCH VỤ, ỨNG DỤNG TRONG MÔI TRƯỜNG ĐA ĐÁM

Phần mềm như là một dịch vụ (SaaS – Software as a Service) là một d ng kinh doanh nổi lên trong ngành công nghiệp phần mềm Tốc độ phát triển của SaaS rất nhanh Theo báo cáo của ID n m 2005, cho tới n m 2009, các doanh nghiệp trên toàn thế giới đã chi 10,7 tỉ đô la cho SaaS Bên c nh đó, cho tới n m 2011, 25 phần

tr m phần mềm thương m i sẽ được cung cấp dưới d ng SaaS Rất nhiều các phần mềm hiện nay đã được mây hóa (cloudification) hoặc SaaS hóa (SaaSification) và danh sách này ngày càng t ng lên ông nghệ nền tảng của SaaS tập trung xung quanh kiến trúc đa người dùng (multi-tenant) SaaS được mô tả như là một phần mềm được triển khai bởi nhà cung cấp trên hệ thống h tầng khả mở và có thể truy cập thông qua m ng Và sự phát triển m nh mẽ của công nghệ ảo hóa cũng như điện toán đám mây đã cho phép các dịch vụ d ng SaaS được cung cấp hiệu quả tới người dùng đầu cuối nhờ những tính chất phù hợp của nó Tính khả mở của các ứng dụng SaaS cho phép nhà cung cấp phần mềm cung ứng dịch vụ tới người dùng và không cần quan tâm về sự h n chế của tài nguyên mà dịch vụ đó sẽ tiêu tốn Khái niệm đa

Trang 26

người dùng yêu cầu kiến trúc ứng dụng tối đa hóa tài nguyên chia sẻ giữa các người dùng với nhau, tuy nhiên, nó phải có khả n ng phân tách một cách riêng biệt dữ liệu của các người dùng này

Tuy nhiên, với các ứng dụng, dịch vụ SaaS phụ thuộc hoàn toàn vào h tầng IaaS,

và nếu như IaaS không thể đáp ứng được nhu cầu về tài nguyên của SaaS thì sẽ gây

ra một vấn đề rất lớn Chính bởi vậy, mô hình điện toán đa đám mây được đề xuất

để giải quyết triệt để các vấn đề tương tự với mô hình ĐTĐM truyền thống

Trong chương này, tác giả luận v n sẽ giới thiệu:

 Mô hình điện toán đa đám mây

 Các vấn đề gặp phải khi triển khai ứng dụng, dịch vụ trên môi trường đa đám mây

 Hướng tiếp cận với bài toán tin sinh

2.1 Mô trườ g đa đám mây

2.1.1 Khái niệm

Môi trường đa đám mây là một mô hình triển khai ĐTĐM tập trung dựa trên nhiều dịch vụ ĐTĐM sẵn có khác ác dịch vụ ĐTĐM sẵn có có thể là dịch vụ công cộng (public cloud), dịch vụ nội bộ (private cloud) Môi trường đa đám mây được đề xuất nhằm giải quyết các vấn đề còn tồn đọng của các dịch vụ ĐTĐM sẵn có và các nền tảng ĐTĐM nguồn mở hiện t i, bao gồm:

Giới hạn tài nguyên hệ thống: Đa phần các nhà cung cấp dịch vụ ĐTĐM

nguồn mở hiện nay đều tuyên bố rằng tài nguyên cung cấp cho các dịch vụ ĐTĐM được cung cấp là không giới h n Tuy nhiên, đối với một số tác vụ yêu cầu khối lượng tính toán lớn như tính toán hiệu n ng cao thì không có gì đảm bảo là không giới h n ần phải hiểu rằng, tài nguyên hệ thống không chỉ giới h n ở máy chủ tính toán, lưu trữ mà cả b ng thông truyền dẫn Theo

một số khảo sát, các bài toán tính toán hiệu n ng cao như tin sinh là ví dụ,

kích thước đầu vào dữ liệu có thể lên tới hàng petra-byte, dẫn tới yêu cầu

b ng thông truyền dẫn phải đáp ứng được nhu cầu lưu trữ, tính toán của bài

Trang 27

toán ấy Hiện nay, có rất ít các nhà cung cấp dịch vụ ĐTĐM có thể bảo đảm được yêu cầu ấy

Thiếu tính tương kết phối hợp (interoperability) giữa các giải pháp và dịch

vụ ĐTĐM: để giải quyết vấn đề giới h n tài nguyên, một giải pháp t m thời

là sử dụng nhiều dịch vụ ĐTĐM khác nhau để đảm bảo đầy đủ tài nguyên tính toán Tuy nhiên, giải pháp này có tính khả thi rất thấp do các nhà cung cấp dịch vụ ĐTĐM (như mazon, Google…) hay các giải pháp ĐTĐM nguồn mở (OpenStack, loudStack…) chưa thể tương tác qua l i với nhau một cách đồng nhất Một ví dụ cụ thể: nếu tài nguyên tính toán được sử dụng

từ mazon nhưng tài nguyên lưu trữ nằm trên dịch vụ của Google và một phần nằm trên dịch vụ nội bộ triển khai trên OpenStack, người sử dụng liệu

có thể đảm bảo rằng ứng dụng của mình có thể ho t động thông suốt? Các trường hợp có thể gặp phải:

cộng ( mazon, Google) không bảo đảm

tới việc kết nối không bảo đảm

Một nguyên nhân khác về khả n ng tương hợp kém giữa các nhà cung cấp dịch vụ ĐTĐM hay các nền tảng ĐTĐM mã nguồn mở là do việc thiếu các chuẩn chung trong môi trường ĐTĐM Bởi vậy, hiện nay mỗi nhà cung cấp dịch vụ đều phát triển các công nghệ ĐTĐM hoàn toàn khác biệt nhau, với mục tiêu phục vụ cho mô hình kinh doanh của họ như khác biệt về h tầng

ảo hoá sử dụng (hypervisor), về chính sách truyền dẫn (networking), lưu trữ (storage)

Hai vấn đề trên dẫn tới một hệ quả tất yếu: về lâu dài, cả người dùng và nhà cung cấp dịch vụ ĐTĐM đều phải trả thêm một khoản chi phí không nhỏ

Trang 28

t ng Trong trường hợp người sử dụng thuê nhiều dịch vụ từ nhiều nhà cung

cấp ĐTĐM khác nhau, chi phí tích hợp, chuyển dịch dữ liệu, ứng dụng đôi

khi trội hơn so với chi phí thuê dịch vụ

 Đối với nhà cung cấp dịch vụ ĐTĐM: chi phí nghiên cứu, xây dựng các

công nghệ, giải pháp cục bộ, riêng biệt phục vụ cho bài toán kinh doanh

Ngoài ra, trong một số trường hợp hãn hữu, chi phí đầu tư nâng cấp h tầng

tài nguyên ĐTĐM (để giải quyết vấn đề đầu tiên) cũng là một vấn đề cần

quan tâm

Khái niệm đa đám mây ra đời nhằm giải quyết các vấn đề trên Trong đó, môi

trường đa đám mây hỗ trợ người sử dụng chuyển dịch các ứng dụng lên đa đám

mây bảo đảm tính thông suốt, tương thông và không giới h n của h tầng ĐTĐM

bên dưới

2.1.2 Mô hình đa đám mây

Mô hình tổng quan về điện toán đa đám mây như hình dưới:

Hình 3 Mô ì đ ệ toá đa đám mây

Trang 29

Trong đó, toàn bộ các tầng tài nguyên, ảo hoá, dịch vụ và truy nhập của các nhà cung cấp dịch vụ ĐTĐM ( loud-A và Cloud-B) đều có sự thông suốt, tương tác qua

l i được với nhau từ trên xuống dưới Mọi truy nhập của người dùng đều thông qua

bộ l i Orchestration trước khi tới các tầng bên dưới

Hình dưới mô tả mô hình chức n ng lõi (Orchestration) đa đám mây l thuyết, được tham khảo từ tổ chức G5 và được tác giả luận v n bổ sung:

Hình 4 Mô ì c ức g tro g mô ì đa đám mây

Mô hình chức n ng Orchestration đa đám mây l thuyết được đề xuất bao gồm tối thiểu các thành phần sau:

cuối: bao gồm các thiết bị đa d ng, từ điện tho i, máy tính bảng, máy tính cá nhân cho tới các ứng dụng hoặc dịch vụ sử dụng h tầng điện toán đa đám mây

của các bên cung cấp Một ví dụ như trong môi trường đa đám mây của EGI Federated loud, đa phần tài nguyên là sự đóng góp từ các lab nghiên cứu t i các trường Đ i học t i hâu Âu Đa phần các dịch vụ ĐTĐM cung cấp đều dựa trên các giải pháp ĐTĐM như OpenStack, loudStack, VMWare

v loud ác tài nguyên ĐTĐM nội bộ thường có những h n chế về chính sách bảo mật và giới h n tài nguyên ít hơn so với các tài nguyên công cộng

Trang 30

 Tài nguyên ĐTĐM bên ngoài (công cộng): là các tài nguyên ĐTĐM từ các nhà cung cấp dịch vụ ĐTĐM

o Quản trị tập trung (centralized management): bảo đảm được 3 tính chất gồm: khả n ng co dãn, mở rộng cao (scalability), khả n ng toàn vẹn dịch vụ, dữ liệu (consistency) và khả n ng tích hợp (integration)

nguyên cung cấp từ môi trường đa đám mây mang tính phân tán và không đồng nhất hoàn toàn, bởi vậy cần có một cơ chế xác thực tập trung SSO để từ đó, người dùng và các ứng dụng, dịch vụ có thể truy nhập sử dụng các tài nguyên phân tán của h tầng ĐTĐM của các nhà cung cấp bên ngoài, nội bộ một cách đồng nhất

bên ngoài (Identity & Access Management): Với mỗi yêu cầu truy nhập sử dụng từ các thiết bị đầu cuối của người dùng hoặc từ các ứng dụng, dịch vụ, bộ l i của môi trường đa đám mây cần phải quản l được thông tin h tầng dịch vụ phía sau (back-end service provider) từ

đó chuyển tiếp nhanh chóng và chính xác yêu cầu người dùng tới nhà cung cấp dịch vụ chuẩn xác Ngoài ra, cần có một cơ chế ánh x giữa yêu cầu và h n mức sử dụng tài nguyên của người dùng tới dịch vụ bên dưới của các nhà cung cấp ĐTĐM nội bộ và công cộng

o Phân ho ch IP theo vùng địa l (IP Geolocation): Thực tế, các nhà cung cấp dịch vụ tham gia trong môi trường đa đám mây thường không có ràng buộc về mặt địa l , bởi vậy có thể thấy trong một môi trường đa đám mây, mỗi nhà cung cấp dịch vụ tham gia có thể nằm ở rất nhiều vùng địa l khác nhau Ví dụ, trong m ng EGI, các nhà cung cấp dịch vụ tham gia nằm rải rác ở các nước hâu Âu và một phần hâu Á Do đó, bản thân bộ l i xử l của đa đám mây cần thiết phải

Trang 31

nắm được việc phân ho ch IP tài nguyên h tầng dịch vụ bên dưới và

IP người dùng để có thể chuyển tiếp yêu cầu người dùng nhanh, chính xác và thuận tiện hơn hoặc đưa ra những quyết định đúng Ví dụ, người dùng t i nh gửi yêu cầu t o một cluster gồm 50 node để ch y dịch vụ tin sinh; bộ l i xử l cần quyết định các node này sẽ nằm ở cùng 01 khu vực của một nhà cung cấp dịch vụ gần nước nh Tuy nhiên, trong trường hợp nhà cung cấp dịch vụ tài nguyên không đủ tài nguyên để cung cấp, bộ l i xử l cùng cần đưa ra quyết định các nhà cung cấp dịch vụ sẽ giải quyết phần tài nguyên còn thiếu ở khu vực nào dễ dàng truy xuất và thuận tiện nhất cho người dùng ở khu vực xung quanh nước nh

o Giám sát (Monitor): Là thành phần thiết yếu của bộ xử l l i trong môi trường đa đám mây ác sự cố gián đo n hệ thống m ng, máy chủ không ho t động, các dịch vụ và ứng dụng gặp vấn đề… đều gây ảnh hưởng nghiêm trọng đến ho t động doanh nghiệp Tổn thất có thể lên đến rất cao tùy theo doanh thu và l nh vực ho t động Với khả

n ng giải quyết vấn đề trước cả khi người dùng nhận ra, sử dụng giải pháp giám sát hệ thống sẽ giúp nâng cao chất lượng dịch vụ và cắt giảm đáng kể chi phí quản l hệ thống Tuy nhiên, để duy trì độ ổn định và sẵn sàng cho hệ thống nhằm phục vụ nhu cầu ho t động liên tục, thiết kế giải pháp giám sát hệ thống tối ưu là một vấn đề khó

với đầu vào là thông tin truy nhập SSO của người dùng và các tham

số khác liên quan tới h n mức sử dụng, khả n ng truy nhập tới tài nguyên ĐTĐM bên dưới Đầu ra của cơ chế này là đầu vào của cơ chế

Quản lý thông tin truy nhập tới tài nguyên hạ tầng ĐTĐM nội bộ và bên ngoài để có thể định tuyến yêu cầu người dùng đến đúng dịch vụ

mong muốn

Trang 32

o ấp phép, phân quyền ( uthorization): cơ chế quản l , cấp phép quyền truy nhập của người dùng, ứng dụng và dịch vụ sử dụng tài nguyên trên môi trường điện toán đa đám mây

vụ quá trình tối ưu hoá các cơ chế khác như giám sát, định tuyến yêu

cầu người dùng

nghiệp vụ xử l đặc trưng theo yêu cầu của người dùng với môi trường điện toán đa đám mây Ví dụ như việc tính toán chi phí sử dụng (billing) đối với người dùng t i khu vực hâu Âu cần sử dụng đơn vị tiền tệ khác với người dùng t i khu vực hâu Á

Tối ưu hoá để đưa ra các quyết định hỗ trợ thông tin tới nội bộ bộ xử

l l i điện toán đa đám mây Trong nội dung luận v n, tác giả có đưa

ra một bài toán về tối ưu hoá tài nguyên sử dụng cho dịch vụ tin sinh với mục đích hiện thực hoá cơ chế này trên môi trường điện toán đa đám mây

ác thành phần và cơ chế trình bày từ mô hình chức n ng lý thuyết trên đây chưa phải là chính xác tuyệt đối vì chỉ dựa trên các tài liệu và mô hình tham khảo của các hãng dịch vụ, giải pháp trên thế giới kết hợp cùng một số bổ sung đề xuất của tác giả Trong luận v n, tác giả cố gắng đề xuất giải pháp chuyển dịch bài toán tin sinh trên môi trường đa đám mây tuân theo mô hình l thuyết trên

2.1.3 Mô hình đa đám mây triển khai trong thực tiễn

Phần dưới trình bày một số mô hình đa đám mây đã được triển khai trong thực tiễn

Đa phần các mô hình triển khai này là kết quả của sự chuyển dịch từ mô hình điện toán cũ như tính toán lưới lên mô hình điện toán đa đám mây t i các tổ chức nghiên cứu lớn

Trang 33

2.1.3.1 EGI

Tổ chức phi lợi nhuận European Grid Infrastructure (EGI) thành lập vào n m 2010 với mục đích cung cấp tài nguyên tính toán hiệu n ng cao cho khu vực Châu Âu sử dụng công nghệ tính toán lưới (Grid Computing) EGI kết nối h tầng tính toán của các trung tâm, viện nghiên cứu từ các nước hâu Âu để hỗ trợ việc nghiên cứu trong các mảng khoa học khác nhau như vật lý, sinh học, thiên v n học

N m 2011, EGI bắt đầu nghiên cứu về môi trường đa đám mây và mất 3 n m (2011 – 2014) để thiết kế ra EGI Federated Cloud (h tầng ĐTĐM đồng nhất EGI) Quá trình này bao gồm sự ra đời của FedCloud Task Force, một đơn vị chú trọng vào các công nghệ, thiết kế quanh môi trường đa đám mây Từ tháng 05 n m 2014, h tầng EGI Federated Cloud chính thức đi vào ho t động với bộ lõi xử lý dựa trên các tiêu chuẩn giao tiếp và mở của ĐTĐM như O I, DMI, OVF, GLUE2, APEL Tới n m 2015, EGI đề xuất mô hình đa đám mây mở rộng với mục đích có thể kết hợp nhiều môi trường điện toán đa đám mây l i với nhau một cách đồng nhất và đơn giản Các giải pháp ĐTĐM nguồn mở được sử dụng chủ yếu trong EGI là OpenStack, OpenNebula và Synnefo

Tính đến thời điểm cuối n m 2014, EGI có 26 thành viên tham gia, trong đó có 24 nước Châu Âu và 2 đơn vị EIRO (European Intergovernmental Research Organisation – Tổ chức nghiên cứu liên quốc gia Châu Âu) là CERN và EBI Các

dự án nghiên cứu trọng điểm của EGI có thể kể tên như: EGI-Engage, AARC, INDIGO, ELI-Trans, BioVeL, FitSM, SCI-BUS, Cloud-SME Số lượng dự án tính đến thời điểm này là hơn 200 dự án nghiên cứu

Tài nguyên của h tầng điện toán đa đám mây EGI tập trung cung cấp dịch vụ tính toán và lưu trữ trên nền tảng ĐTĐM hi tiết về tài nguyên tính toán của EGI như sau:

 340 nhà cung cấp dịch vụ (chủ yếu là nội bộ) đặt t i 54 quốc gia

 550.000 lõi xử lý logic CPU

Ngày đăng: 25/07/2017, 21:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyen, Binh Minh; Tran, Dinh Viet and Hluchý, Ladislav. Abstraction Layer for Development and Deployment of Cloud Services. In: Computer Science Journal, 2012, vol. 3, no. 3, p. 80-88, ISSN 1508-2806 Sách, tạp chí
Tiêu đề: Computer Science Journal
[2] Nguyen, Binh Minh; Dao, Quang Minh. Towards a Semantic Model of Resource in Cloud Environment. In proceeding of 5th International Symposium on Information and Communication Technology (SOICT), ACM, Hanoi, 2014, p. 271- 279, ISBN: 978-1-4503-2930-9 Sách, tạp chí
Tiêu đề: 5th International Symposium on Information and Communication Technology (SOICT)
[3] Nguyen, Binh Minh; Tran, Dinh Viet and Hluchý, Ladislav. Programmable Workflow Composition. In proceeding of 2nd International Conference on Next Generation Information Technology, IEEE, Gyeongju, 2011, p. 86-89, ISBN 978- 89-88678-38-1 Sách, tạp chí
Tiêu đề: 2nd International Conference on Next Generation Information Technology
[4] Islam, Sadeka, et al. "Empirical prediction models for adaptive resource provisioning in the cloud." Future Generation Computer Systems 28.1 (2012): 155- 162 Sách, tạp chí
Tiêu đề: Empirical prediction models for adaptive resource provisioning in the cloud
Tác giả: Islam, Sadeka, et al. "Empirical prediction models for adaptive resource provisioning in the cloud." Future Generation Computer Systems 28.1
Năm: 2012
[5] Huang, Jinhui, Chunlin Li, and Jie Yu. "Resource prediction based on double exponential smoothing in cloud computing." Consumer Electronics, Communications and Networks (CECNet), 2012 2nd International Conference on.IEEE, 2012 Sách, tạp chí
Tiêu đề: Resource prediction based on double exponential smoothing in cloud computing
[6] Vazquez, Carlos, Ram Krishnan, and Eugene John. "Time series forecasting of cloud data center workloads for dynamic resource provisioning." Journal of Wireless Mobile Networks, Ubiquitous Computing, and Dependable Applications (JoWUA) 6.3 (2015): 87-110 Sách, tạp chí
Tiêu đề: Time series forecasting of cloud data center workloads for dynamic resource provisioning
Tác giả: Vazquez, Carlos, Ram Krishnan, and Eugene John. "Time series forecasting of cloud data center workloads for dynamic resource provisioning." Journal of Wireless Mobile Networks, Ubiquitous Computing, and Dependable Applications (JoWUA) 6.3
Năm: 2015
[7] Roy, Nilabja, Abhishek Dubey, and Aniruddha Gokhale. "Efficient autoscaling in the cloud using predictive models for workload forecasting."Cloud Computing (CLOUD), 2011 IEEE International Conference on. IEEE, 2011 Sách, tạp chí
Tiêu đề: Efficient autoscaling in the cloud using predictive models for workload forecasting
[8] Hornik, Kurt, Maxwell Stinchcombe, and Halbert White. "Multilayer feedforward networks are universal approximators." Neural networks 2.5 (1989):359-366 Sách, tạp chí
Tiêu đề: Multilayer feedforward networks are universal approximators
Tác giả: Hornik, Kurt, Maxwell Stinchcombe, and Halbert White. "Multilayer feedforward networks are universal approximators." Neural networks 2.5
Năm: 1989
[9] Venkatesan, D., K. Kannan, and R. Saravanan. "A genetic algorithm-based artificial neural network model for the optimization of machining processes."Neural Computing and Applications 18.2 (2009): 135-140 Sách, tạp chí
Tiêu đề: A genetic algorithm-based artificial neural network model for the optimization of machining processes
Tác giả: Venkatesan, D., K. Kannan, and R. Saravanan. "A genetic algorithm-based artificial neural network model for the optimization of machining processes."Neural Computing and Applications 18.2
Năm: 2009
[10] Ding, Shifei, Chunyang Su, and Junzhao Yu. "An optimizing BP neural network algorithm based on genetic algorithm." Artificial Intelligence Review36.2 (2011): 153-162 Sách, tạp chí
Tiêu đề: An optimizing BP neural network algorithm based on genetic algorithm
Tác giả: Ding, Shifei, Chunyang Su, and Junzhao Yu. "An optimizing BP neural network algorithm based on genetic algorithm." Artificial Intelligence Review36.2
Năm: 2011
[11] Fu, Zemin, et al. "Using genetic algorithm-back propagation neural network prediction and finite-element model simulation to optimize the process of multiple- step incremental air-bending forming of sheet metal." Materials & design 31.1 (2010): 267-277 Sách, tạp chí
Tiêu đề: Using genetic algorithm-back propagation neural network prediction and finite-element model simulation to optimize the process of multiple-step incremental air-bending forming of sheet metal
Tác giả: Fu, Zemin, et al. "Using genetic algorithm-back propagation neural network prediction and finite-element model simulation to optimize the process of multiple- step incremental air-bending forming of sheet metal." Materials & design 31.1
Năm: 2010
[12] Huang, Yuansheng, Yufang Lin, and Zilong Qiu. "Freight prediction model based on GABP neural network." Computational Intelligence and Design, 2008.ISCID'08. International Symposium on. Vol. 1. IEEE, 2008 Sách, tạp chí
Tiêu đề: Freight prediction model based on GABP neural network
[13] Ali-Eldin, Ahmed, et al. "Workload classification for efficient auto-scaling of cloud resources." Department of Computer Science, Umea University, Umea, Sweden, Tech. Rep (2013) Sách, tạp chí
Tiêu đề: Workload classification for efficient auto-scaling of cloud resources
[14] [2002-53.pdf] Berberidis, Christos, et al. "Multiple and partial periodicity mining in time series databases." ECAI. Vol. 2. 2002 Sách, tạp chí
Tiêu đề: Multiple and partial periodicity mining in time series databases
[15] Vlachos, Michail, S. Yu Philip, and Vittorio Castelli. "On Periodicity Detection and Structural Periodic Similarity." SDM. Vol. 5. 2005 Sách, tạp chí
Tiêu đề: On Periodicity Detection and Structural Periodic Similarity
[16] Zhang, Guoqiang, B. Eddy Patuwo, and Michael Y. Hu. "Forecasting with artificial neural networks:: The state of the art." International journal of forecasting 14.1 (1998): 35-62 Sách, tạp chí
Tiêu đề: Forecasting with artificial neural networks:: The state of the art
Tác giả: Zhang, Guoqiang, B. Eddy Patuwo, and Michael Y. Hu. "Forecasting with artificial neural networks:: The state of the art." International journal of forecasting 14.1
Năm: 1998
[17] Montana, David J., and Lawrence Davis. "Training Feedforward Neural Networks Using Genetic Algorithms." IJCAI. Vol. 89. 1989 Sách, tạp chí
Tiêu đề: Training Feedforward Neural Networks Using Genetic Algorithms
[19] Faraway, Julian, and Chris Chatfield. "Time series forecasting with neural networks: a comparative study using the airline data." Applied statistics(1998):231-250 Sách, tạp chí
Tiêu đề: Time series forecasting with neural networks: a comparative study using the airline data
Tác giả: Faraway, Julian, and Chris Chatfield. "Time series forecasting with neural networks: a comparative study using the airline data." Applied statistics
Năm: 1998
[20] Kihoro, J. M., R. O. Otieno, and C. Wafula. "Seasonal time series forecasting: A comparative study of ARIMA and ANN models." AJST 5.2 (2004) Sách, tạp chí
Tiêu đề: Seasonal time series forecasting: A comparative study of ARIMA and ANN models
[21] Armstrong, J. Scott, and Fred Collopy. "Error measures for generalizing about forecasting methods: Empirical comparisons." International journal of forecasting 8.1 (1992): 69-80 Sách, tạp chí
Tiêu đề: Error measures for generalizing about forecasting methods: Empirical comparisons
Tác giả: Armstrong, J. Scott, and Fred Collopy. "Error measures for generalizing about forecasting methods: Empirical comparisons." International journal of forecasting 8.1
Năm: 1992

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w