BẮT ĐẦU HỌC DATA SCIENCE ÔNG XUÂN HỒNG – DATA ANALYST KNOREX BẮT ĐẦU HỌC DATA SCIENCE ÔNG XUÂN HỒNG – DATA ANALYST KNOREX NỘI DUNG Data science 101 Làm sao để trở thành Data Scientist Rèn luyện th.BẮT ĐẦU HỌC DATA SCIENCE ÔNG XUÂN HỒNG – DATA ANALYST KNOREX BẮT ĐẦU HỌC DATA SCIENCE ÔNG XUÂN HỒNG – DATA ANALYST KNOREX NỘI DUNG Data science 101 Làm sao để trở thành Data Scientist Rèn luyện th.
Trang 1BẮT ĐẦU HỌC DATA SCIENCEÔNG XUÂN HỒNG – DATA ANALYST @ KNOREX
Trang 2N ỘI DUNG
Data science
101
Làm sao để trở thành Data Scientist
Rèn luy ện
th ế nào
Sự nghiệp
Trang 3GIỚI THIỆU BẢNTHÂN
Full-stack web developer (PHP, Java) Master @ JAIST (NLP)
Blogger (Machine Learning)
Working @ Knorex (Advertising analysis)
Trang 4Đ ể biết mình hợp với cái nào thì phải
Trang 6H ỌC LẬP TRÌNH
Trang 8C ẤU TRÚC DỮ LIỆUVÀ GIẢI THUẬT
lu ồng
Hà m
g đ ối
Trang 9H ỌC TOÁN
Trang 10H ỌC TOÁN
¡ Giải tích (Analytics): tìm độ lỗi cực tiểu cho mô hình, cực đại hoá khả năng
¡ Đại số tuyến tính (Linear algebra):nhân ma trận trong xử lý ảnh, biểu diễn và thao tác dữ liệu
bảng
¡ Toán rời rạc (Discrete mathematics):hỗ trợ phép đếm trong xác suất
¡ Lý thuyết đồ thị (Graph theory): phân tích mạng xã hội
¡ Xác suất thống kê (Statistics and probability): xây dựng mô hình dự đoán dựa vào dữ liệu quá khứ“educated guess”
Trang 11INDUSTRY DOMAIN
¡ Marketing
er support
¡ Sales
¡ HR/Recr uiting
¡ Security/
Fraud
¡ Educatio n
¡ Audio/Vid eo
¡ Agricultur e
¡ Healthcare
¡ Legal
¡ Financial
Trang 12SỰ NGHIỆP
Đi làm
Start up
Học thuậ t
Trang 13Ph D
năm
Postd oc
năm
• Tầm sư học đạo 10 năm.
• Ít rủi ro.
• Được nghiên cứu lĩnh vực mình thích.
• Thường làm việc một mình hoặc nhóm nhỏ.
• Áp lực về xuất bản bài báo khoa học.
• Làm giảng viên, nghiên cứu sinh, hoặc nhà tư vấn.
Trang 15Knorex
Ad Exchange
3.Ad auction
Data Management Platform
Webpage
User Information (Male, 25, Student,
Ad science, Longdon, …)
1 Bid Request (user, context)
0.Ad Request
2 Bid Response (ad, bid)
5.Ad(with tracking)4.Win
Notice (paying price)
6 User Feedback (click, conversion,
…)
Trang 16DATA ENGINEER
¡ Vai trò: thiết kế, xây dựng, bảo trì, giám sát hệ thống Big Data sao cho hệ thống có khả năng co giãn hợp lý, tiết kiệm chi phí
¡ Thách th ức: mang lại trải nghiệm tốt về Big Data cho người dùng.
¡ Công nghệ: Docker, Zookeeper, Mesos, Chronos, Marathon, Spark, Redis, Kafka,Amazon Web
Trang 17LOGSTASH – ELASTICSEARCH - KIBANA
¡ Làm sao l ấy access log cách đây 6 ngày trong khoảng thời gian 11:03
AM đến 08:16 PM?
¡ Logstash: ghi dữ liệu log từ nhiều nguồn
¡ Elasticsearch:lưu trữ, tìm kiếm và phân tích dữ liệu log
¡ Kibana: biểu diễn dữ liệu log, quan sát nhiều tác vụ trong một thời điểm
Trang 18DATA ANALYST
¡ Vai trò: thực hiện phân tích, theo dõi hệ thống Big Data
¡ Thách thức: đảm bảo tính toàn vẹn của dữ liệu, xây dựng kế hoạch và xử lý nhanh những biến cố
của hệ thống
¡ Công ngh ệ: MongoDB, MySQL, PostgreSQL,Excel, …
¡ Nhi ệm vụ hằng ngày:
¡ Hỗ trợ Extract Transform Load dữ liệu.
¡ Điều tra phân tích những sự cố về dữ liệu.
¡ Tổng hợp Big Data từ nhiều nguồn để phân tích.
Trang 19LÀMVI ỆCVỚI DỮ LIỆU
¡ Tổng hợp dữ liệu thành Data warehouse theo giờ, ngày, và tháng
¡ Biểu diễn dữ liệu thành các bảng biểu và đồ thị để quan sát trực quan
¡ Tích hợp dữ liệu từ Facebook, Google theo dạng chuẩn
¡ Xuất file report Excel Big Data (> 100 MB)
Trang 20DATA SCIENTIST
¡ Vai trò: xác định vấn đề và đưa ra giải pháp AI cho tổ chức
¡ Thách thức: xây dựng được hệ thống có độ chính xác cao, hỗ trợ lãnh đạo ra quyết định tốt hơn.
¡ Công nghệ: Docker, Spark,Amazon Web Service, Google cloud computing, MongoDB,
PostgreSQL,Jupyter, …
Trang 21DATA SCIENTIST
Brainstorm
Cài đặt
Thực
nghiệm
Thất bại
Phân tích
thất bại
Khảo sát tài liệu
Vấn đề
Giải pháp
Trang 22BIDDING OPTIMIZER
¡ Có nên bid hay không?
¡ Nếu có thì bid với giá bao nhiêu để thắng?
¡ Dự đoán xem khi đăng quảng cáo này user có khả năng click là bao nhiêu?
¡ Mục tiêu: maximize số lượng win với điều kiện Budget và CPM cho trước bởi user
Trang 23PROJECT MANAGEMENT
¡ Vai trò: xây dựng và áp dụng những quy trình giúp hoàn thành dự án đúng thời hạn
¡ Nhiệm vụ: phân công công việc và tài nguyên cho đúng người đúng việc.
¡ Công cụ: quản lý thời gian, quản lý quy trình.
¡ Thách thức:
¡ Làm hài lòng sếp.
¡ Làm hài lòng anh em.
¡ Làm hài lòng khách hàng.
Trang 24BUSINESS OWNER
¡ Vai trò: nắm bắt và tạo ra xu hướng, truyền lửa, truyền cảm hứng, gửi gắm tầm nhìn vào sản phẩm
¡ Nhi ệm vụ: tìm mặt gửi vàng, phân phối tài nguyên và nguồn lực hợp lý.
¡ Công c ụ: kĩ năng giao tiếp, đam mê, tiền bạc, và nhân cách.
Trang 25N ỘI DUNG
Data science
101
Làm sao để trở thành Data Scientist
Rèn luy ện
th ế nào
Sự nghiệp
Trang 26THAM KH ẢO THÊM
¡ http://www.datatau.com/
¡ https://metacademy.org/
¡ http://datasciencemasters.org/
¡ http://machinelearningcoban.com/
¡ How To Become A Data Scientist
¡ Ultimate Skills Checklist for Your First Data Analyst Job