HOW?§ Thu thập dữ liệu q Lấy mẫu sampling q Kỹ thuật: crawling, logging, scraping § Xử lý dữ liệu q Dữ liệu cần lọc nhiễu, số hóa... đầy đủTừng mẫu thu thập nên đầy đủ thông tin các trườ
Trang 1Thu thập và Tiền xử lý dữ liệu
Thân Quang Khoát Nguyễn Minh Phương + Lê Minh Hoà
Bài giảng của DSLab Viện nghiên cứu cao cấp về Toán (VIASM)
Trang 2CrowdFlower Inc., 2016
Quỹ thời gian.
Trang 4Content (i.e HOW?)
§ Thu thập dữ liệu
q Lấy mẫu (sampling)
q Kỹ thuật: crawling, logging, scraping
§ Xử lý dữ liệu
q Dữ liệu cần lọc nhiễu, số hóa.
q Kĩ thuật – làm sạch, số hóa, lưu trữ.
Trang 6“One or more small spoon(s) can be enough to assess whether the
soup is good or not.”
Trang 7Fundamentals :: Sampling :: HOW
§ Variety – tập mẫu thu
Trang 8Fundamentals :: Sampling :: HOW
§ Variety – các mẫu đủ đa
dạng để phản ánh khách quan ?
Trang 10Techniques :: Scrapping :: DEMO
• Mục tiêu: Dữ liệu cho bài toán phân loại văn bản – miền báo chí.
• DEMO: Hệ thống crawl dữ liệu báo
Trang 12DEMO :: Steps
Trang 13DEMO :: Sample
Trang 14-0.2010 -1.3079
Trang 15(đầy đủ)Từng mẫu thu thập nên đầy đủ
thông tin các trường thuộc tính
§ Jan 1 as everyone’s birthday? –
intentional (systematic) noises
Structures
(cấu trúc)
Trang 16Cleaning Integrating Transforming
Trang 17• Mẫu dữ lieu cần được thu thập
từ các nguồn đáng tin cậy
Phản ánh vấn đề cần giải quyết
• Mẫu dữ liệu thu thập đôi khi không thể đầy đủ, cần có chiến lược phù hợp:
• Bỏ qua, không đưa vào dữ liệu học.
• Bổ sung các trường còn thiếu cho mẫu:
• Bằng tay
• Tự động (heuristic)
Techniques :: Cleaning
Tính đầy đủ + rõ ràng
Trang 18Techniques :: Cleaning (cont.)
Các mẫu dữ liệu cần có tính đồng nhất về cách biểu diễn, ký hiệu
Vd: Rating “1, 2, 3” & “A, B, C”; Age
= “42” & Birthday = “03/07/2010”
tính đồng nhất của dữ liệu
Tính đồng nhất
Trang 19Structured – relational (table-like)
Techniques :: Integrating w/ some Transforming
Trang 20Techniques :: Transforming
Trích xuất các đặc trưng ngữ nghĩa, chuẩn hóa
Semantics?
Trang 21Semanticsexample: visual data
``
0.220.250.080.17
0.28
building ground car human cat
Trang 22Techniques :: Transforming
example & demo
Transforming text data
Trang 23• Từng lĩnh vực cụ thể, từng loại dữ liệu sử dụng các kỹ thuật xuất đặc trưng ngữ nghĩa khác nhau (dữ liệu text, hình ảnh, …)
Techniques :: Transforming (cont.)
… and standardize
• Feature discretization – một số thuộc tính tỏ ra hiệu quả hơn khi được phân nhóm, sắp xếp trước
• Feature normalization ← chuẩn hóa giá trị thuộc tính, về cùng một miền giá trị, dẽ dàng trong tính toán
Mục tiêu: trích xuất các đặc trưng ngữ nghĩa của vấn đề.
One-hot encoding
Trang 24Input
Mẫu dữ liệu thô: json text Dữ liệu số theo từng ML/AI Output
model(s)
Trang 25DEMO :: Steps
Trang 26DEMO :: Exercise
Trang 27DEMO :: Training model
§ Thử nghiệm training model
lĩnh vực:
§ ['Giải trí', 'Khoa học - Công nghệ', 'Kinh tế', 'Pháp luật', 'Sức khỏe', 'Thể thao', 'Thời sự', 'Tin khác', 'Đời sống - Xã hội', 'Độc giả’]
§ Đã thực hiện các bước tiền xử lý
§ Mô hình: Random forest
§ Training + infer: Sử dụng thư viện sklearn hỗ trợ
Trang 28DEMO :: Training model
Build model
Data Input (tfidf-Vector)
Trang 29DEMO :: Model Selection
đổi tham số C, đánh giá
chất lượng mô hình với
từng bộ tham số
Trang 30(Take-home messages)
§ Dữ liệu trong một lĩnh vực trước khi vào hệ thống học máy phải được thu thập và biểu diễn thành dạng cấu trúc với một số đặc tính: đầy đủ, ít nhiễu, nhất quán, có cấu trúc xác định.
§ Dữ liệu thu thập cho quá trình học là tập nhỏ, tuy vậy cần phản ánh dầy đủ các mặt vấn đề cần giải quyết
§ Dữ liệu thô sau khi thu thập và tiền xử lý phải giữ được sự đầy
đủ các đặc trưng ngữ nghĩa – các đặc trưng ảnh hưởng đến khả năng giải quyết vấn đề.
§ Khoa học dữ liệu là một lĩnh vực rộng, ngoài việc sử dụng công
cụ áp dụng, nắm vững được các kiến thức cơ bản là điều quan trọng
Trang 31Liên hệ
Thân Quang Khoát
Viện nghiên cứu cao cấp về Toán (VIASM)
và Viện CNTT-TT, Đại học Bách Khoa HN
khoattq@soict.hust.edu.vn