1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

tiểu luận map reduce

19 305 1
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 248,03 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Map Reduce• Là một mô hình lập trình được đề xuất trong các ngôn ngữ lập trình hàm như Lisp, ML.. • Một trong những tính năng nổi bật của các ngôn ngữ lập trình hàm là các higher-order f

Trang 1

MAP REDUCE

GVHD: TS Hồ Bảo Quốc

Nhóm học viên thực hiện:

• Dương Hữu Thành – 1212035

• Phạm Ngọc Vân Anh – 1212001

• Nguyễn Thanh Tòng – 1212039

Trang 2

Nội dung

• Giới thiệu Map Reduce

• Ví dụ cụ thể

• Kiến trúc và cách thức hoạt động

• Khả năng chịu lỗi (Fault Tolerance)

Trang 3

Giới thiệu về Map Reduce

Trang 4

Map Reduce

• Là một mô hình lập trình được đề xuất trong các ngôn ngữ lập trình hàm như Lisp, ML

• Một trong những tính năng nổi bật của các ngôn ngữ lập trình hàm là các higher-order function

• Higher-order function là dạng function mà chấp nhận một function khác như là tham số của nó

Trang 5

Map Reduce (cont.)

• 2 higher-oder function được dùng nhiều trong Lisp là map and fold

• Map và fold thường được dùng kết hợp với nhau

Trang 6

Map Reduce (cont.)

map và fold trong Lisp

• (map square ‘(1 2 3 4))

▫ (1 4 9 16)

• (reduce + ‘(1 4 9 16))

▫ 30

Trang 7

Map Reduce (cont.)

Map và reduce do Goole đề xuất

• map(key, val)

▫ Tạo ra new-key / new-val pairs

• reduce(key, vals)

▫ Tạo ra kết quả cuối cùng

▫ Với key/vals là giá trị tạo ra bởi map function.

Trang 8

Map Reduce (cont.)

Trang 9

VÍ DỤ CỤ THỂ

Trang 10

Đếm số lần xuất hiện của mỗi từ trong tập các documents

Trang 11

Đếm số lần xuất hiện của mỗi từ trong tập các documents (cont.)

Trang 12

KIẾN TRÚC VÀ CÁCH THỨC HOẠT ĐỘNG

Trang 14

Kết hợp giữ Map/Reduce và GFS

• Cách worker lấy dữ liệu để xử lý?

▫ Dữ liệu cần truy xuất lớn.

▫ Không đủ memory để load tất cả dữ liệu

• Giải pháp:

▫ Don’t move data to workers… Move workers to the data!

▫ Worker sẽ được khởi động trên các chunk server đã

có sẵn dữ liệu.

Trang 15

FAULT TOLERANCE

Trang 16

Worker Failure

• Master định kỳ ping worker để phát hiện failure

• Nếu một task nào đó thất bại, master chọn một worker khác để thực hiện lại task

Trang 17

Master Failure

• Tất cả các map/reduce task sẽ thất bại

• Giải pháp:

▫ Đặt các checkpoint để có thể khởi động lại tại các checkpoint đó.

Trang 18

Tài liệu tham khảo

• DataIntensive Text Processing with MapReduce -Jimmy Lin The iSchool University of Maryland.

• MapReduce: Simplified Data Processing on Large

Clusters - Jeffrey Dean and Sanjay Ghemawat Google Inc

Trang 19

Q&A

Ngày đăng: 07/04/2014, 21:24

TỪ KHÓA LIÊN QUAN

w