1. Trang chủ
  2. » Công Nghệ Thông Tin

XỬ LÝ DỮ LIỆU SONG SONG VÀ PHÂN TÁN VỚI HADOOP

21 963 8

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 0,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN VỚI HADOOP Trình bày: Nguyễn Minh Quý Bộ môn: CNPM – Khoa CNTT quyutehy@gmail.com...  Giới hạn kích thước cơ sở dữ liệu trong SQL Server Bản SQL Serve

Trang 1

XỬ LÝ DỮ LIỆU SONG SONG & PHÂN TÁN

VỚI HADOOP

Trình bày: Nguyễn Minh Quý

Bộ môn: CNPM – Khoa CNTT

quyutehy@gmail.com

Trang 2

Đặt vấn đề

 Bạn từng xử lý dữ liệu có kích thước lớn nhất là bao

nhiêu MB/GB?

 Bạn dùng hệ quản trị cơ sở dữ liệu nào để lưu trữ?

Access, SQL, MySQL hay Oracle?

 Giới hạn kích thước cơ sở dữ liệu trong SQL Server

(Bản SQL Server Express) là bao nhiêu GB?

 Các công cụ và môi trường bạn biết/làm việc có thể xử

lý dữ liệu lên đến hàng ngàn, thậm chí hàng triệu, hàng

tỉ GB được không?

 Copy 1 triệu GB qua mạng LAN Gigabit hết bao lâu?

Trang 3

Access, SQL, MySQL hay Oracle?

 Giới hạn kích thước cơ sở dữ liệu trong SQL

Server (Bản SQL Server Express) là bao nhiêu

GB?

 Các công cụ và môi trường bạn biết/làm việc có

thể xử lý dữ liệu lên đến hàng ngàn, thậm chí

hàng triệu, hàng tỉ GB được không?

 Copy 1 triệu GB qua mạng LAN Gigabit hết bao

lâu?

Giải quyết??

Trang 4

Nội dung

 Giới thiệu về Hadoop

 Các thành phần trong Hadoop

 Cấu hình và chạy Hadoop

 Demo chương trình đếm từ trong văn bản

 So sánh tốc độ với chương trình chạy trên máy đơn

Trang 5

Giới thiệu Hadoop

 Hadoop là một hệ thống lưu trữ, xử lý dữ liệu

song song và phân tán

 Được Google phát triển từ năm 2002

 Hiện có nhiều tổ chức và công ty lớn sử dụng: Yahoo, Google, Facebook,…

 Năm 2009, Hadoop đã giành chiến thắng khi sắp xếp 1 terabyte (=1000GB) dữ liệu trong

vòng 209s, phá kỷ lục trước đó là 297s

Trang 6

Giới thiệu Hadoop

 Lưu trữ dữ liệu phân tán trên hệ thống Hadoop Distributed File System (HDFS)

Mỗi Block có

kích thước

64, 128,… MB

Trang 7

Giới thiệu Hadoop

 Xử lý song song và phân tán trên các nút

Trang 8

Kiến trúc của Hadoop

Trang 9

Kiến trúc của HDFS

Trang 11

CÀI ĐẶT VÀ CẤU HÌNH HADOOP

 Chỉ việc download Hadoop tại địa chỉ (v1.1):

http://mirrors.digipower.vn/apache/hadoop/common/ hadoop-1.1.0/hadoop-1.1.0.tar.gz

 Giải nén và copy vào thư mục bất kỳ, ví dụ

/home/hadoop

 Đặt thông số cho các file cấu hình trong thư mục

/conf của hadoop, gồm: core-site.xml,

mapred-site.xml, hdfs-site.xml, masters, slaves

Trang 12

CÀI ĐẶT VÀ CẤU HÌNH HADOOP

master: 192.168.1.10, 2 nút còn lại là slaves: 192.168.1.11 và 192.1.12)

Trang 13

Cấu hình cho mô hình Hadoop

có 1 master và 2 slaves (node)

Master node

IP: 192.168.1.10

Slave1 (Data node)

IP: 192.168.1.11 Slave2 (Data node)

IP: 192.168.1.12

Trang 14

Cấu hình cho mô hình Hadoop

có 1 master và 2 slaves (node)

Master node

IP: 192.168.1.10

Slave1 (Data node)

IP: 192.168.1.11 Slave2 (Data node)

IP: 192.168.1.12

Step 1:

Sửa file /etc/hosts Trên cả 3 nodes

Trang 15

Cấu hình cho mô hình Hadoop

có 1 master và 2 slaves (node)

Master node

IP: 192.168.1.10

Slave1 (Data node)

IP: 192.168.1.11 Slave2 (Data node)IP: 192.168.1.12

Thêm đường dẫn đến Java trong file /etc/bash.bashrc trên cả 3 nodes

export HADOOP_HOME=/home/quynm/hadoop export JAVA_HOME=/usr/lib/jvm

export 0.8.1

HIVE_HOME=/home/quynm/hive-export PATH=$PATH:$JAVA_HOME/bin export

PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HIVE_HOME/bin

STEP 2:

Trang 16

Cấu hình cho mô hình Hadoop

có 1 master và 2 slaves (node)

Master node

IP: 192.168.1.10

Slave1 (Data node)

IP: 192.168.1.11 Slave2 (Data node)

trong file cấu hình ở cả 3 Nodes

Trang 17

Chạy chương trình Hadoop

 Biên dịch chương trình viết trong Java sang file rar

 Vd: Chạy chương trình wordcount (có sẵn trong

hadoop)

B1.Copy file lên server: hadoop dfs -copyFromLocal

/home/quynm/hadoop/wordcountdata/ /user/root/

B2.Chạy: hadoop jar

/home/quynm/hadoop/hadoop-examples-1.0.0.jar wordcount /user/root/wordcountdata / user/root/wordcount-out

Trang 18

Màn hình chạy Hadoop

Trang 19

Xem tiến trình xử lý trên web

Trang 20

So sánh tốc độ với chương

trình chạy trên máy đơn

 Chạy bộ dữ liệu lớn (lên đến 240 triệu bản ghi) chứa các Flows gói tin trong mạng

Internet

LAN

WAN Hadoop Data nodes

Hadoop

Name

node

Flow export enabled

Flow export enabled Flow export enabled

Trang 21

So sánh (Benchmark)

Kết quả thử nghiệm

Ngày đăng: 06/10/2014, 11:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm