1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÀI GIẢNG Thu thập và Tiền xử lý dữ liệu

31 315 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 31
Dung lượng 13,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

HOW?§ Thu thập dữ liệu q Lấy mẫu sampling q Kỹ thuật: crawling, logging, scraping § Xử lý dữ liệu q Dữ liệu cần lọc nhiễu, số hóa... đầy đủTừng mẫu thu thập nên đầy đủ thông tin các trườ

Trang 1

Thu thập và Tiền xử lý dữ liệu

Thân Quang Khoát Nguyễn Minh Phương + Lê Minh Hoà

Bài giảng của DSLab Viện nghiên cứu cao cấp về Toán (VIASM)

Trang 2

CrowdFlower Inc., 2016

Quỹ thời gian.

Trang 4

Content (i.e HOW?)

§ Thu thập dữ liệu

q Lấy mẫu (sampling)

q Kỹ thuật: crawling, logging, scraping

§ Xử lý dữ liệu

q Dữ liệu cần lọc nhiễu, số hóa.

q Kĩ thuật – làm sạch, số hóa, lưu trữ.

Trang 6

“One or more small spoon(s) can be enough to assess whether the

soup is good or not.”

Trang 7

Fundamentals :: Sampling :: HOW

§ Variety – tập mẫu thu

Trang 8

Fundamentals :: Sampling :: HOW

§ Variety – các mẫu đủ đa

dạng để phản ánh khách quan ?

Trang 10

Techniques :: Scrapping :: DEMO

• Mục tiêu: Dữ liệu cho bài toán phân loại văn bản – miền báo chí.

• DEMO: Hệ thống crawl dữ liệu báo

Trang 12

DEMO :: Steps

Trang 13

DEMO :: Sample

Trang 14

-0.2010 -1.3079

Trang 15

(đầy đủ)Từng mẫu thu thập nên đầy đủ

thông tin các trường thuộc tính

§ Jan 1 as everyone’s birthday? –

intentional (systematic) noises

Structures

(cấu trúc)

Trang 16

Cleaning Integrating Transforming

Trang 17

• Mẫu dữ lieu cần được thu thập

từ các nguồn đáng tin cậy

Phản ánh vấn đề cần giải quyết

• Mẫu dữ liệu thu thập đôi khi không thể đầy đủ, cần có chiến lược phù hợp:

• Bỏ qua, không đưa vào dữ liệu học.

• Bổ sung các trường còn thiếu cho mẫu:

• Bằng tay

• Tự động (heuristic)

Techniques :: Cleaning

Tính đầy đủ + rõ ràng

Trang 18

Techniques :: Cleaning (cont.)

Các mẫu dữ liệu cần có tính đồng nhất về cách biểu diễn, ký hiệu

Vd: Rating “1, 2, 3” & “A, B, C”; Age

= “42” & Birthday = “03/07/2010”

tính đồng nhất của dữ liệu

Tính đồng nhất

Trang 19

Structured – relational (table-like)

Techniques :: Integrating w/ some Transforming

Trang 20

Techniques :: Transforming

Trích xuất các đặc trưng ngữ nghĩa, chuẩn hóa

Semantics?

Trang 21

Semanticsexample: visual data

``

0.220.250.080.17

0.28

building ground car human cat

Trang 22

Techniques :: Transforming

example & demo

Transforming text data

Trang 23

• Từng lĩnh vực cụ thể, từng loại dữ liệu sử dụng các kỹ thuật xuất đặc trưng ngữ nghĩa khác nhau (dữ liệu text, hình ảnh, …)

Techniques :: Transforming (cont.)

… and standardize

• Feature discretization – một số thuộc tính tỏ ra hiệu quả hơn khi được phân nhóm, sắp xếp trước

• Feature normalization ← chuẩn hóa giá trị thuộc tính, về cùng một miền giá trị, dẽ dàng trong tính toán

Mục tiêu: trích xuất các đặc trưng ngữ nghĩa của vấn đề.

One-hot encoding

Trang 24

Input

Mẫu dữ liệu thô: json text Dữ liệu số theo từng ML/AI Output

model(s)

Trang 25

DEMO :: Steps

Trang 26

DEMO :: Exercise

Trang 27

DEMO :: Training model

§ Thử nghiệm training model

lĩnh vực:

§ ['Giải trí', 'Khoa học - Công nghệ', 'Kinh tế', 'Pháp luật', 'Sức khỏe', 'Thể thao', 'Thời sự', 'Tin khác', 'Đời sống - Xã hội', 'Độc giả’]

§ Đã thực hiện các bước tiền xử lý

§ Mô hình: Random forest

§ Training + infer: Sử dụng thư viện sklearn hỗ trợ

Trang 28

DEMO :: Training model

Build model

Data Input (tfidf-Vector)

Trang 29

DEMO :: Model Selection

đổi tham số C, đánh giá

chất lượng mô hình với

từng bộ tham số

Trang 30

(Take-home messages)

§ Dữ liệu trong một lĩnh vực trước khi vào hệ thống học máy phải được thu thập và biểu diễn thành dạng cấu trúc với một số đặc tính: đầy đủ, ít nhiễu, nhất quán, có cấu trúc xác định.

§ Dữ liệu thu thập cho quá trình học là tập nhỏ, tuy vậy cần phản ánh dầy đủ các mặt vấn đề cần giải quyết

§ Dữ liệu thô sau khi thu thập và tiền xử lý phải giữ được sự đầy

đủ các đặc trưng ngữ nghĩa – các đặc trưng ảnh hưởng đến khả năng giải quyết vấn đề.

§ Khoa học dữ liệu là một lĩnh vực rộng, ngoài việc sử dụng công

cụ áp dụng, nắm vững được các kiến thức cơ bản là điều quan trọng

Trang 31

Liên hệ

Thân Quang Khoát

Viện nghiên cứu cao cấp về Toán (VIASM)

và Viện CNTT-TT, Đại học Bách Khoa HN

khoattq@soict.hust.edu.vn

Ngày đăng: 19/03/2019, 13:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w