1. Trang chủ
  2. » Thể loại khác

TỔNG QUAN KHOA HỌC DỮ LIỆU

34 19 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tổng quan
Tác giả Hà Quang Thụy, Phan Xuân Hiếu, Lê Thanh Hà, Trần Quốc Long, Nguyễn Đỗ Văn Khoa
Người hướng dẫn PGS. TS Hà Quang Thụy, PGS. TS Phan Xuân Hiếu, PGS. TS Lê Thanh Hà, TS Trần Quốc Long, TS Nguyễn Đỗ Văn Khoa
Trường học Trường ĐH Công nghệ - ĐHQG Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Bài giảng
Thành phố Hà Nội
Định dạng
Số trang 34
Dung lượng 1,29 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

KHOA HỌC DỮ LIỆU8 Khoa học liên ngành về dữ liệu Khoa học máy tính Toán học Thống kê học Tri thức chuyên ngành KHOA HỌC DỮ LIỆU... Toán học Thống kê họcTri thức chuyên ngành KHOA HỌC

Trang 1

Khoa học dữ liệu Bài 1 - Tổng quan

Trang 2

Giảng viên

PGS TS Hà Quang Thụy, PGS TS Phan Xuân Hiếu,

PGS TS Lê Thanh Hà, TS Trần Quốc Long, TS Nguyễn Đỗ Văn

Khoa Công nghệ thông tin - Trường ĐH Công nghệ - ĐHQG Hà Nội

{thuyhq, hieupx, ltha, tqlong, ngdovan}@vnu.edu.vn

2

Trang 3

Trợ giảng

Nguyễn Tuấn Phong, Nguyễn Thạc Thống,

Vũ Trung Kiên, Doãn Thị Hiền Khoa Công nghệ thông tin - Trường ĐH Công nghệ - ĐHQG Hà Nội

Trang 4

Học liệu

CodePower.vn Khóa học Khoa học dữ liệu Bài giảng, bài thực hành, video (bài giảng trên lớp), bài tập

4

Trang 5

NỘI DUNG

1. KHOA HỌC DỮ LIỆU ?

2. NHÀ KHOA HỌC DỮ LIỆU

3. QUY TRÌNH KHAI PHÁ DỮ LIỆU

4. CÔNG CỤ CỦA KHOA HỌC DỮ LIỆU

Trang 6

Khoa học dữ liệu ?

Data science: What & Why

6

1

Trang 7

Dữ liệu đang trở thành nguyên

liệu sản xuất mới

Data are becoming new raw

material of business

Craig Mundie, Microsoft

Trang 8

KHOA HỌC DỮ LIỆU

8

Khoa học liên ngành về dữ liệu

Khoa học máy tính

Toán học Thống kê học

Tri thức

chuyên ngành

KHOA HỌC

DỮ LIỆU

Trang 9

Toán học Thống kê học

Tri thức

chuyên ngành

KHOA HỌC

DỮ LIỆU

Trang 10

NHU CẦU CỦA TỔ CHỨC - DOANH NGHIỆP

Dữ liệu trợ giúp điều hành sản xuất, kinh doanh ?

▻ Dự đoán

▻ Tối ưu

▻ Hiểu khách hàng

10

Trang 11

NHÀ KHOA HỌC DỮ LIỆU

Tìm hiểu, phân tích dữ liệu

▻ Trình diễn: đồ thị, bảng biểu, hình vẽ

▻ Biến đổi: làm sạch, tính toán

▻ Phát hiện quy luật, đặc trưng

▻ Xử lý dữ liệu lớn

Trang 12

Nhu cầu các công việc

▰ Hệ thống dữ liệu

▰ Phân tích dữ liệu

Trang 13

NHU CẦU CÁC KỸ NĂNG KHÓ

Trang 14

Nhà khoa học dữ liệu

Data scientist

14

2

Trang 15

Dữ liệu chiến thắng cảm xúc

Data beats emotions

Sead Rad, Sáng lập AD.LY

Trang 16

CÁC VỊ TRÍ CÔNG VIỆC TRONG KHOA HỌC DỮ LIỆU

Cấp quản lý: Giám đốc dữ liệu (CDO), quản lý nền tảng dữ liệu

Chuyên gia DL: nghiên cứu, phân tích, lập trình

Chuyên gia CSDL: thiết kế, quản trị CSDL (lớn)

▻ Chuyên gia thu thập, phân loại, kết nối

Kỹ thuật viên: vận hành hệ thống CSDL (lớn)

Nhân viên: hỗ trợ khách hàng, nhập liệu

16

Trang 17

CÁC VỊ TRÍ CÔNG VIỆC TRONG KHOA HỌC DỮ LIỆU

Trang 18

CÁC KỸ NĂNG CỦA NHÀ KHOA HỌC DỮ LIỆU

18

Trang 19

CÁC KỸ NĂNG CỦA NHÀ KHOA HỌC DỮ LIỆU

▰ Hiểu giá trị của dữ liệu

▰ Hỏi đúng câu hỏi

▰ Tôn trọng kiến thức ngành

▰ Hiểu sức mạnh và giới hạn

▰ Hiểu xác suất và thống kê

▰ Nhạy cảm với các độ đo

▰ Nhạy cảm với cái quan

trọng trong dữ liệu

▰ Chấp nhận thất bại

▰ Làm việc kiểu AGILE

▰ Làm việc trong đội có kiến thức nền đa dạng

▰ Khả năng vừa học vừa làm

▰ Khả năng kể chuyện

▰ Khả năng tò mò và sáng tạo

▰ Đạo đức và trách nhiệm với dữ liệu

Trang 20

20Chi tiết kĩ thuật

http://nirvacana.com/thoughts/becoming-a-data-scientist/

Trang 21

Quy trình khai phá dữ liệu

Data mining process

3

Trang 22

Sẽ phạm sai lầm nghiêm trọng nếu

tổng quát hóa trước khi có dữ liệu

It is a capital mistake to theorize

before one has data

Sherlock Holmes

22

Trang 23

QUY TRÌNH KHAI PHÁ DỮ LIỆU

Chuẩn bị

dữ liệu

Triển khai Đánh giá

Kiến thức

chuyên

ngành

Mô hình hóa

Hình thành tri thức

Trang 24

QUY TRÌNH KHAI PHÁ DỮ LIỆU

24

Quy trình sản xuất Chuẩn bị dữ liệu, làm sạch, lấy đặc trưng

Xây dựng mô hình bằng thuật toán huấn luyện

Dữ liệu huấn luyện

Xây dựng ứng dụng và đánh giá hiệu năng

Dữ liệu kiểm tra

Triển khai ứng dụng Hình thành tri thức

Mô tả dữ liệu

Phương pháp nghiên cứu khoa học

Trang 25

CÁC KIỂU KHAI PHÁ DỮ LIỆU

KHAI PHÁ

DỮ LIỆU

Phân lớp Hồi quy

Dữ liệu đặc biệt

Phân cụm Phát hiện luật

Trang 26

CÁC KHOA HỌC - CÔNG NGHỆ LIÊN QUAN

1

Nền tảng công nghệ

Ứng dụng Công nghệ CSDL Công nghệ tính toán đám mây Tính toán hiệu năng cao (HPC)

3

Trang 27

Công cụ của khoa học dữ liệu

Data scientist's toolbox

4

Trang 28

We chose it because we deal with

huge amounts of data Besides, it

sounds really cool

Larry Page, Google (on Big Data)

28

Trang 29

CÁC CÔNG CỤ

Nhập liệu

Làm sạch

Báo cáo

Hiểu dữ liệu

Biến đổi

Trình diễn

Mô hình

DB RAW

Trang 30

KỸ SƯ HỆ THỐNG & KỸ SƯ PHÂN TÍCH DỮ LIỆU

thống tính toán về hiệu năng,

hiệu suất, tính chịu lỗi

Trang 31

KIẾN THỨC NỀN TẢNG

Kỹ sư phân tích

Thống kê học

Toán học Kinh tế

Tối ưu hóa

Khoa học máy tính

Kỹ sư hệ thống

Kỹ thuật

hệ thống

Khoa học máy tính

Kỹ thuật máy tính

Trang 32

NGÔN NGỮ, PHẦN MỀM, CÔNG CỤ

32

https://www.datacamp.com/community/blog/data-scientist-vs-data-engineer

Trang 33

CẢM ƠN

Liên hệ {thuyhq, hieupx, ltha, tqlong}@vnu.edu.vn

Trang 34

THAM KHẢO

Bài giảng có tham khảo:

▰ Dự án EDISON về giảng dạy Khoa học dữ liệu của EU

▰ APEC-2017 Data Science Initiative

▰ Microsoft Data Science Program (EdX)

34

Ngày đăng: 23/05/2021, 03:55

TỪ KHÓA LIÊN QUAN