1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo môn học GRID COMPUTING DYNAMIC WORKFLOW MANAGEMENT GRID CLOUD COMPUTING ENVIROMENT

22 307 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 1,7 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Vì vậy mục tiêu của kỹ thuật xếp lịch workflow là làm tối giảm makespan của ứng dụng song song bằng cách sắp xếp hợp lý các tác vụ đến bộ xử lý, tài nguyên, và sắp xếp trình tự thực hiện

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA KHOA HỌC KỸ THUẬT MÁY TÍNH

ENVIROMENT

Lecturer Dr Phạm Trần Vũ Reporter

Trang 2

Lịch sử tài liệu

04/04/2014 0.1 Khởi tạo sơ thảo yêu cầu báo cáo Thành

2/5/2014 0.4 Background workflow scheduling Thành

28/5/2014 0.8 DCP-G algorithm, heuristic for adaptive workflow management Thành

Mục lục

Abstract 3

Keywords 3

I Introduction 3

II BACKGROUND OF WORKFLOW SCHEDULING 4

2.1 Workflow scheduling problem 4

2.2 Existing workflow scheduling algorithms 4

2.3 Heuristics 5

2.3.1 Myopic 5

2.3.2 Min–min 5

2.3.3 Max–min 6

2.3.4 HEFT 7

2.4 Metaheuristics 8

2.4.1 GRASP 8

2.4.2 GA 9

III DCP-G ALGORITHM FOR WORKFLOW SCHEDULING 10

3.1 Calculation of AEST and ALST in DCP-G 11

3.2 Task selection 11

3.3 Resource selection 12

3.4 Methodology 12

3.5 DCP-G example 12

V CASE STUDY 14

5.1 Testbed setup 14

5.2 Schedule generation 14

5.3 Discussion 15

VI HEURISTIC FOR ADAPTIVE WORKFLOW MANAGEMENT IN HYBRID CLOUDS 17

Trang 3

VII CONCLUSIONS 21 References 21

Trang 4

Abstract

Lập kế hoạch hiệu quả là mối quan tâm chính của việc thực hiện các ứng dụng lưới trọng hiệu

suất như là workflows Trình bày cho môn học có đề tài là: “Quản lý workflow linh động trong môi

trường tính toán lưới và điện toán đám mây” Nội dung được phân bố gồm hai phần Thứ nhất là

mô tả vấn đề lập kế hoạch workflow, và các phương pháp hoạch định workflow dựa trên heuristic

và mete-heristic hiện có Phần thứ hai là đề xuất giải thuật hoạch định workflow thích nghi linh động critical-path-based, nhằm xác định tác vụ ánh xạ hiệu quả đến tài nguyên grid linh động thực

tế bằng cách tính critical path Dùng mô phỏng, ta thực hiện so sánh hiệu năng của phương pháp đề xuất với cái hiện có Kết quả cho thấy kỹ thuật lập kế hoạch heuristic-based có thể thích nghi với tài nguyên linh động thực tế, và tránh suy giảm hiệu suất trong môi trường grid thay đổi linh động

vụ trong workflow đến tài nguyên lưới phù hợp nhằm thỏa mãn yêu cầu người dùng Hình 1.b minh họa thực hiện workflow được mô tả trong hình 1.a trên môi trường tính toán phân bố truyền thống

Figure 1.a : Ví dụ workflow: ứng dụng dự báo thời tiết

Figure 1.b: Hệ thống quản trị workflow Figure 1: Ngữ cảnh quản lý ứng dụng workflow thông thường trong môi trường tính toán phân bố

Tuy nhiên hầu hết các chiến lược hoạch định này là tĩnh trong thực tế Họ tạo ra một kế hoạch tốt cho thời điểm hiện tại của tài nguyên lưới mà không tính đến sự thay đổi của tính sẵn sàng của tài nguyên Vì vậy bài viết này trình bày kỹ thuật hoạch định workflow linh động nhằm không chỉ tối

Trang 5

thiểu linh hoạt thời gian thực hiện workflow mà còn giảm the scheduling overhead, là thời gian đáng kể để tạo kế hoạch

Critical Path (CP) heuristics được dùng rộng rãi để lập lịch các tác vụ độc lập trong hệ thống đa

xử lý Các heuristics này xác định độ dài nhất của các đường thực thi từ khởi đầu đến kết thúc trong

đồ họa tác vụ và hoạch định cái dễ nhất để tối thiểu thời gian thực thi cho toàn đồ thị Giải thuật Dynamic CP (DCP, Kwok & Ahmad 1996) được giới thiệu là giải thuật CP có thể xác định linh hoạt sau mỗi tác vụ được lập lịch Tuy nhiên giải thuật này được thiết kế để ánh xạ các tác vụ vào các bộ xử lý thuần nhất, và tĩnh, trong giả định là kế hoạch chỉ được tính một lần 1 đồ thị tác vụ Ta

mở rộng giải thuật DCP để ánh xạ và lặp kế hoạch các tác vụ trong workflow trên các tài nguyên hỗn độn trong môi trường lưới linh động Để đánh giá hiệu suất của giải thuật này gọi là DCP for grids (DCP-G), ta so sánh nó với các phương pháp hiện tại cho nhiều kiểu và kích cỡ workflow khác nhau Kết quả cho thấy DCP-G có thể thích nghi đến tài nguyên tạm thời, ứng phó và tránh suy giảm hiệu suất trong môi trường lưới thay đổi linh động

II BACKGROUND OF WORKFLOW SCHEDULING

2.1 Workflow scheduling problem

Tổng quát, một ứng dụng workflow được thể hiện là một đồ thị directed acyclic (DAG) trong đó các nút thể hiện tác vụ, các cạnh thể hiện dữ liệu phụ thuộc giữa các tác vụ, với trọng số trong node thể hiện độ phức tạp tính toán Vì vậy bài toán lập lịch workflow thường được xem là trường hợp đặc biệt của bài toán xếp lịch DAG, là bài toán non-deterministic polynomial (NP) Mặc dù bài toán xếp lịch DAG có thể giải được bằng các phương pháp quét cạn, nhưng độ phức tạp để tạo ra kế hoạch scheduling là rất cao

Thời gian hoàn thành chung của ứng dụng thường được gọi là schedule length hoặc makespan

Vì vậy mục tiêu của kỹ thuật xếp lịch workflow là làm tối giảm makespan của ứng dụng song song bằng cách sắp xếp hợp lý các tác vụ đến bộ xử lý, tài nguyên, và sắp xếp trình tự thực hiện

Hãy xem workflow gồm một tập các tác vụ, , và một tập phụ thuộc giữa các tác vụ, , trong đó là cha của

là tập hợp các tài nguyên sẵn có trong lưới tính toán Vì vậy, bài toán lập lịch workflow là ánh xạ các tác vụ workflow vào lưới tài nguyên để makespan M là nhỏ nhất

Một tác vụ workflow là một tập các lệnh có thể thực hiện trên một thành phần xử lý đơn lẻ của tài nguyên tính toán Trong một workflow, một tác vụ gia nhập sẽ không có tác vụ cha, và một tác

vụ thoát sẽ không có tác vụ con Tác vụ con không thể thực hiện được đến khi tất cả tác vụ cha của

nó được hoàn tấc Vào bất cứ lúc nào của lập lịch, tác vụ có tất cả tác vụ cha của nó hoàn thành thì được gọi là tác vụ sẵn sàng

2.2 Existing workflow scheduling algorithms

Vì lập lịch workflow là bài toán NP-complete, nên ta dựa các chiến lược lập lịch heuristic-based

và metaheuristic-based để đạt giải pháp tối ưu trong thời gian đa thức Bảng 1 trình bày các giải thuật heuristic và metaheuristic nổi tiếng cho bài toán xếp lịch trong hệ thống lưới

Myoptic Heuristic Condor DAGMan University of Wiscousin-Madesion, USA

HEFT, Heterogeneous Earliest Finish Time; GRASP, greedy randomized adaptive search procedure; GA, genetic algorithm

Table 1: Tóm tắc các giải thuật lập lịch workflow

Trang 6

cả tác vụ độc lập chưa ánh xạ, và tạo các ECT tối thiểu (MCT) cho mỗi tác vụ trong , trong đó ; là tập tài nguyên có sẵn, và là khoảng thời gian tài nguyên dùng để thực hiện tác vụ

Khi tác vụ có giá trị MCT nhỏ nhất trên tất cả tác vụ được chọn để xếp lịch đầu tiên tại vòng lặp này đến tài nguyên tương ứng phù hợp cho MCT này, vì vậy được gọi là min-min Theo các này, min-min xếp lịch các tác vụ độc lập khác trong và chuyển đến vòng lặp kế đến khi về rỗng

Trang 7

2.3.3 Max–min

Giải thuật Max-min heuristic rất giống với min-min Điểm khác là max-min đạt độ ưu tiên đến tác vụ cần thời gian thực hiện dài nhất hơn là thời gian thực hiện ngắn nhất Trong mỗi bước lặp, sau khi có được tập giá trị MCT cho tất cả tác vụ độc lập chưa ánh xạ, một tác vụ có MCT lớn nhất được chọn để xếp lịch trên tài nguyên, với kỳ vọng hoàn thành tác vụ với thời gian sớm nhất

Max-min cố gắng tối thiểu tổng thời gian thực thi bằng cách gán các tác vụ dài nhất đến tài nguyên tốt nhất

Trang 8

2.3.4 HEFT

HEFT là giải thuật lặp lịch danh sách thiết lập tốt, gán độ ưu tiên cao hơn cho workflow có vị trí thứ hạng cao Vị trí thứ hạng được tính bằng thời gian trung bình cho mỗi tác vụ và thời gian giao tiếp trung bình giữa các tài nguyên của hai tác vụ kế tiếp, khi các tác vụ trong CP có vị trí hạng cao hơn Khi đó nó sắp xếp tác vụ theo thứ tự giảm dần giá trị thứ hạng, và tác vụ có thứ hạng cao hơn được gán ưu tiên cao hơn Trong pha chọn tài nguyên, các tác vụ được xếp lịch theo thứ tự độ ưu tiên, mỗi tác vụ được gán đến tài nguyên có thể hoàn thành với thời gian sớm nhất

Ta hãy xem | | là kích thước của tác vụ và là tập các tài nguyên có sẵn với khả năng xử lý trung bình | | ∑ | | Vì vậy thời gian xử lý trung bình của tác vụ:

| |

Cho ̅̅̅̅ là kích cỡ dữ liệu giao tiếp giữa tác vụ và , và R là tập tài nguyên có sẵn với khả năng

xử lý dữ liệu trung bình ̅ ∑ ̅ Vì vậy thời gian giao tiếp dữ liệu trung bình cho tác vụ:

Ưu điểm của HEFT hơn min-min và max-min là trong khi gán độ ưu tiên đến các tác vụ, nó xem xét toàn thể workflow hơn là tập trung vào chỉ các tác vụ độc lập chưa ánh xạ tại mỗi bước lặp

Trang 9

2.4 Metaheuristics

2.4.1 GRASP

GRASP, greedy randomized adaptive search procedure, là kỹ thuật tìm kiếm ngẫu nhiên có lặp Trong GRASP, có một số vòng lặp dùng để tìm kiếm một giải pháp tối ưu có thể cho tác vụ ánh xạ trên các tài nguyên Một giải pháp được tạo ra tại mỗi bước lặp, và giải pháp tốt nhất được giữ làm xếp lịch cuối cùng Thủ tục tìm kiếm này dừng khi thỏa điều kiện dừng GRASP có thể tạo kết quả lịch tốt hơn các kỹ thuật khác đã nói phía trên vì nó tìm kiếm toàn bộ không gian workflow và tài nguyên có sẵn

Trang 10

2.4.2 GA

Tương tự như GRASP, giải thuật genetic là kỹ thuật áp dụng nguyên lý tiến hóa cho ra giải pháp xếp lịch chất lượng tốt từ không gian tìm kiếm lớn trong thời gian đa thức GA kết hợp khai thác giải pháp tốt nhất từ tìm kiếm quá khứ với việc khám pháp vùng mới của không gian tìm kiếm Thay vì tạo giải pháp mới bằng tìm kiếm ngẫu nhiên như GRASP, GA tạo giải pháp mới tại mỗi bước bằng cách điều chỉnh ngẫu nhiên giải pháp tốt được tạo ra ở bước trước, kết quả là xếp lịch tốt hơn có ít thời gian hơn

Trang 11

III DCP-G ALGORITHM FOR WORKFLOW SCHEDULING

Cho mỗi đồ thị, cận trên và cận dưới của thời gian bắt đầu cho một tác vụ diễn tả biên độ thời gian bắt đầu sớm nhất (AEST) và biên độ thời gian bắt đầu trễ nhất (ALST) Trong giải thuật DCP, các tác vụ trên CP có cùng giá trị AEST và ALST như làm trễ các tác vụ này ảnh hưởng thời gian thực thi toàn thể cho đồ thị tác vụ Tác vụ đầu tiên trên CP được ánh xạ đến bộ xử lý xác định cho

nó Quy trình này được lặp lại đến khi tất cả tác vụ trong đồ thị được ánh xạ

Tuy nhiên, giải thuật này được thiết kế để lập lịch tất cả các tác vụ trong một đồ thị tác vụ có thời gian tính toán và truyền thông là tùy ý, với hệ thống đa xử lý có số lượng không giới hạn bộ xử lý kết nối với nhau Nhưng grids là môi trường hỗn tạp và linh động bao gồm tính toán, lưu trữ, tài nguyên mạng lưới với các khả năng và sẵn sàng khác nhau Vì vậy để làm việc trên grids, giải thuật DCP cần phải mở rộng như sau:

Đối với tác vụ, tính giá trị khởi động cho AEST và ALST, cung cấp thời gian thực thi tối thiểu cho tác vụ Mục tiêu toàn cục là giảm chiều dài của CP tại mỗi pass Ta tiếp tục nguyên lý của min-min trong đó một tác vụ được gán đến tài nguyên thực hiện nhanh nhất

Để ánh xạ nhiệm vụ trên CP, tất cả tài nguyên sẵn có được xem xét bởi DCP-G, quan tâm chỉ tài nguyên bị chiếm bởi tác vụ cha và con Cái này vì thời gian thực thi không thay đổi cho các bộ xử

lý khác nhau, và chỉ thời gian giao tiếp giữa các task có thể giảm bằng cách gán các tác vụ đến cùng tài nguyên Tuy nhiên, thời gian tính toán và truyền thông trên lưới là có thay đổi, biến động do sự hỗn tạp tài nguyên

Khi một tác vụ được ánh xạ đến một tài nguyên, thời gian thực thi và thời gian truyền dữ liệu từ

Trang 12

Tiếp theo, ta sẽ thảo luận các đặc trưng căn bản của giải thuật Phần đầu, ta mô tả kỹ thuật dùng

để tính AEST và ALST cần thiết cho việc chọn tác vụ Sau đó, ta nói về phương pháp chọn của chiến lược chọn tài nguyên Giải thuật DCP-G được hình thức hóa và mô tả với ví dụ ở phần tiếp theo Bảng II cung cấp các khái niệm và ý nghĩa được sử dụng trình bày trong các phần sau:

AET(t) Trị tuyệt đối thời gian thực thi của tác vụ t

ADTT(t) Trị tuyệt đối thời gian truyền dữ liệu của tác vụ t

AEST(t,R) Trị tuyệt đối thời gian bắt đầu sớm nhất của tác vụ t trên tài nguyên R

ALST(t,R) Trị tuyệt đối thời gian bắt đầu trễ nhất của tác vụ t trên tài nguyên R

Thời gian truyền dữ liệu giữa tác vụ t và mà được xếp lịch đến tài nguyên và

PC(R) Khả năng xử lý của tài nguyên R

BW(R) Băng thông của liên kết mạng kết nối tài nguyên R với lưới toàn cục

DCPL Độ dài của dynamic critical path trong một workflow

3.1 Calculation of AEST and ALST in DCP-G

Trong DCP-G, thời gian bắt đầu của một tác vụ chưa xác định đến khi nó được ánh xạ vào một tài nguyên Có hai thuộc tính: trị tuyệt đối thời gian thực thi (AET) của một tác vụ, là thời gian thực thi nhỏ nhất của tác vụ; và trị tuyệt đối thời gian truyền dữ liệu (ADTT), là thời gian nhỏ nhất cần

để truyền ra một tác vụ

với và là khả năng xử lý và khả năng truyền của tài nguyên

Khi một task t được xếp lịch đến một tài nguyên, giá trị của AET(t) và ADTT(t) được cập nhật tương ứng Vì vậy giá trị AEST của tác vụ t trên tài nguyên R được định nghĩa là:

( )

trong đó t có tác vụ cha p, là tác vụ cha thứ k , và nếu t là tác vụ ngõ vào

( ) nếu

( ) nếu t và không được xếp lịch

Ở đây, thời gian truyền thông giữa hai tác vụ được xem là zero, nếu nó được ánh xạ vào cùng tài nguyên,

và bằng ADTT của tác vụ cha nếu tác vụ con chưa được ánh xạ Dùng định nghĩa này, giá trị AEST có thể được tính bằng cách duyệt đồ thị tác vụ bằng phương pháp breadth-first bắt đầu từ các tác vụ ngõ vào Một khi AEST của tất cả tác vụ được tính, nó có thể tính chiều dài DCP, (DCPL), là chiều dài xếp lịch của workflow được ánh xạ từng phần DCPL được định nghĩa là:

( ) trong đó n là tổng số các tác vụ trong workflow

Sau khi tính DCPL, giá trị ALST có thể được tính bằng cách duyệt đồ thị tác vụ bằng phương pháp

breadth first nhưng theo chiều ngược lại Vì vậy, ALST của một tác vụ t trong tài nguyên R được định nghĩa:

Trang 13

Các tác vụ trong DCP có cùng cận trên, cận dưới của thời gian bắt đầu, nghĩa là có cùng AEST và ALST

Vì vậy tác vụ trong DCP-G được xem là trên CP và được gọi là critical task nếu AEST và ALST của nó bằng nhau Để giảm giá trị của DCPL tại mỗi bước, tác vụ được chọn cho xếp lịch phải là trên CP và có các tác vụ cha không ánh xạ, trong đó các ràng buộc bị phá vỡ khi chọn critical task với AEST thấp nhất

3.3 Resource selection

Sau khi xác định một critical task, ta cần chọn tài nguyên phù hợp cho tài nguyên đó Ta chọn tài nguyên

mà cho thời gian thực thi nhỏ nhất cho tác vụ đó Cái này được tìm bởi duyệt tất cả tài nguyên có sẵn để tối thiểu thời gian bắt đầu tiềm năng của critical child task trên cùng tài nguyên, trong đó critical child task là cái

có sự khác nhau tối thiểu của AEST và ALST Cuối cùng, critical task được ánh xạ đến tài nguyên mà cung cấp thời gian bắt đầu kết hợp sớm nhất

3.4 Methodology

Đầu tiên, giải thuật DCP-G tính khỏi trị: AET, ADTT, AEST, ALST của tất cả các tác vụ Sau đó chọn tác vụ có sự khác nhau nhỏ nhất giữa AEST và ALST, trong đó ràng buộc bị phá vỡ bởi chọn cái có AEST nhỏ hơn Theo trình bày của phần 3.2, tác vụ này là DCP và được gọi là critical task Critical task con của critical task cũng được xác định theo cách tương tự Giải thuật tính thời gian bắt đầu của critical task cho tất

cả tài nguyên có sẵn có xem xét thời gian kết thúc của tất cả của tác vụ cha, và tìm vị trí bắt đầu có thời gian bắt đầu này với quá trình thực thi Tài nguyên đó cho thời gian bắt đầu sớm nhất cho cả hai và critical task con của nó được chọn

Sau khi chọn tài nguyên phù hợp R, giải thuật tính thời gian bắt đầu và trong suốt cho trên tài nguyên này, và cập nhật sự bắt đầu thực sự, thời gian thực thi cho tương ứng Giá trị AEST và ALST của các tác vụ khác được cập nhật tại cuối mỗi bước xếp lịch để xác định critical task kế tiếp Quá trình này tiếp tục đến khi tất cả tác vụ trong workflow được xếp lịch

Đầu tiên giá trị AET và ADTT được tính cho mỗi tác vụ được tính như hình 2.a Sau đó dùng các giá trị này, AEST và ALST của tất cả các tác vụ được tính theo mục 3.1, (hình 2.b) Vì có cùng AEST

và ALST, đang là CP với là tác vụ cao nhất Sau đó, được chọn như là critical task và ánh xạ đến tài nguyên , cho thời gian kết hợp nhỏ nhất Tại cuối bước này, chiều dài của workflow là 890 Tương tự, hình 2.c, được chọn như là critical task và ánh xạ đến Vì cả hai và được ánh xạ đến , thời gian bắt đầu của trên là 700 Vì vậy, được ánh xạ đến như thời gian bắt đầu, thời gian kết thúc trên là 180 và 430 Sau cùng, được ánh xạ đến (hình 2.g), tất cả các tác vụ được ánh xạ, chiều dài tác vụ không thể cải thiện hơn, và chiều dài lịch được xác định là 750 Lịch sau cùng được tạo ra bởi DCP-G như hình 2.h

Ngày đăng: 17/08/2015, 09:51

HÌNH ẢNH LIÊN QUAN

Hình 7.a giới thiệu workflow fork-join mẫu có 5 tasks được mô tả bởi mô hình workflow trong  phần 4.1.1 - Báo cáo môn học GRID COMPUTING DYNAMIC WORKFLOW MANAGEMENT GRID  CLOUD COMPUTING ENVIROMENT
Hình 7.a giới thiệu workflow fork-join mẫu có 5 tasks được mô tả bởi mô hình workflow trong phần 4.1.1 (Trang 15)
Hình 8 cho thấy, nếu trạng thái của môi trường lưới không thay đổi, hiệu suất của cả hai kỹ thuật  lập kế hoạch thích nghi và không thích nghi là không suy biến khi thực thi workflow - Báo cáo môn học GRID COMPUTING DYNAMIC WORKFLOW MANAGEMENT GRID  CLOUD COMPUTING ENVIROMENT
Hình 8 cho thấy, nếu trạng thái của môi trường lưới không thay đổi, hiệu suất của cả hai kỹ thuật lập kế hoạch thích nghi và không thích nghi là không suy biến khi thực thi workflow (Trang 16)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w