bài thuyết trình khai phá dữ liệu bài thuyết trình khai phá dữ liệu bài thuyết trình khai phá dữ liệu bài thuyết trình khai phá dữ liệu
Trang 1KHAI PHÁ DỮ LIỆU
Data MINING
THỰC HIỆN: Lý Thị Phương Yến
Hà Ngọc Bảo TrâmNguyễn Văn ĐạtPhạm Thị NhungĐặng Thị Ngọc ViTrần Hữu ThọNgô Hoàn VũGIẢNG VIÊN: Nguyễn Thị Ngọc Anh
Trang 2- Tìm hiểu các cơ chế, sự liên hệ của Học máy với Khai phá dữ liệu.
- Tìm hiểu khái niệm, các thuật ngữ liên quan, mô hình và quy trình của Phân lớp.
- Đánh giá mô hình Confusion matrix.
Hà Ngọc Bảo Trâm
Đặng Thị Ngọc Vi
- Tìm hiểu khái niệm, các loại kho dữ liệu và đặc điểm của Kho dữ liệu.
- Tìm hiểu khái niệm, các cơ chế, ứng dụng của Học máy.
- Tìm hiểu khái niệm, quy trình và ưu-nhược điểm của thuật toán KNN.
- Cài đặt thuật toán KNN.
Ngô Hoàn Vũ - Tìm hiểu tiền xử lí dữ liệu của Khai phá dữ liệu.- Cài đặt thuật toán KNN.
- Làm slide powerpoint.
Trang 3Data MINING
NỘI DUNG CHÍNH
I - Khai phá dữ liệu
II - Quy trình khai phá dữ liệu
III - Kho dữ liệu
IV - Học máy
V - Phân lớp
VI - Đánh giá mô hình VII Thuật toán KNN
Trang 4I KHAI PHÁ DỮ LIỆU
(DATA MINING)
Data MININGMENU ANALYSIS CONTACT
Trang 5● Khai phá dữ liệu là một quá trình khai thác mối
tương quan mới, các mẫu mới và các xu hướng mới
có ý nghĩa thông qua sàn lọc một lượng lớn dữ liệu
lưu trữ, sử dụng công nghệ nhận diện mẫu, xác
suất thống kê và kĩ thuật toán học
1 Khái niệm
Data MINING
I KHAI PHÁ DỮ LIỆU (DATA MINING)
Trang 6Trí tuệ nhân tạo là một ngành
thuộc lĩnh vực khoa học máy
tính Nó là trí tuệ do con người
lập trình trên máy móc giúp cho
máy móc có thể xử lý, tư duy và
học hỏi như trí tuệ của con
người
Sử dụng để giải một lớp các bài toán cụ thể hoặc để thực hiện một phép tính Bằng cách sử dụng trí tuệ nhân tạo, các thuật toán có thể thực hiện các suy luận
tự động hoặc sử dụng các bài kiểm tra toán học và logic để chuyển hướng mã thông qua các tuyến khác nhau
Data MINING
2 Lĩnh vực liên quan
Artificial Intelligence
(Trí tuệ nhân tạo) (Các thuật toán) Algorithms
I KHAI PHÁ DỮ LIỆU (DATA MINING)
Trang 7Học máy là một tập con của trí
tuệ nhân tạo Nó có khả năng
tự học hỏi dựa trên dữ liệu
đưa vào mà không cần lập
trình cụ thể
Là công nghệ quản trị dữ liệu,
nó cung cấp cho người dùng các chức năng như tạo, truy xuất, cập nhật và quản lý dữ liệu trên cơ sở dữ liệu
(Quản lý cơ sở dữ liệu)
Thống kê trong khai phá dữ liệu đó là phân tích, thăm dò,
dự báo, thường gắn kết với các thủ tục thống kê
I KHAI PHÁ DỮ LIỆU (DATA MINING)
Trang 8Có thể được phân loại thành 2 phạm trù: mô tả và dự đoán.
Nhiệm vụ mô tả cần làm nổi bật các thuộc tính chung của dữ liệu trong cơ sở
dữ liệu, nghĩa là phân tích và mô tả một tập mẫu đã biết trong khả năng nhận thức của con người nhằm giúp họ hiểu rõ hơn, sâu hơn về dữ liệu.
Nhiệm vụ dự đoán thực hiện các suy luận trên dữ liệu hiện tại để cho ra các
dự báo, nghĩa là phân tích tập dữ liệu huấn luyện và tạo ra một hoặc vài mô hình cho phép dự đoán các mẫu mới chưa biết.
3 Các nhiệm vụ của Khai phá dữ liệu
Data MINING
I KHAI PHÁ DỮ LIỆU (DATA MINING)
Trang 9Google dịch khi đưa văn
Trang 10• Lexplore: phát triển để xác định trẻ mắc chứng khó đọc từ khá sớm.
• Công nghệ phân tích chuyển động mắt và đánh giá mức độ đọc của trẻ
em của Lexplore dựa trên trí tuệ nhân tạo (AI) và máy học (ML)
• Lexplore theo dõi mọi học sinh bằng máy tính và camera theo dõi mắt
Trang 11Roboot phẩu thuật tự động : cho máy học các hành
động phẩu thuật của các bác sĩ
+ STAR bao gồm một cánh tay robot trang bị dụng cụ
khâu vết thương cùng với hệ thống chụp ảnh 3D
và cảm biến cận hồng ngoại theo dõi đường đánh dấu
huỳnh quang dọc theo mép mô do các nhà nghiên cứu
vạch ra
+ Ca phẫu thuật diễn ra dưới sự chỉ dẫn của "thuật
toán khâu chỉ tự động" được phát triển riêng cho hệ
Trang 12● Nền công nghiệp 4.0 dưới sự phát triển của internet và các công nghệ nền tảng
như: dữ liệu lớn (big data), vạn vật kết nối, trí tuệ nhân tạo (AI), khai phá dữ
liệu (data mining),… đã tạo ra những phát minh thay đổi hoàn toàn các doanh nghiệp
● Sự góp mặt của khai phá dữ liệu cùng các thiết bị thông minh được tạo ra
bởi trí tuệ nhân tạo đã giúp thúc đẩy sự phát triển của nền kinh tế hiện nay
Nếu không có khai phá dữ liệu, trí tuệ nhân tạo và một số nền tảng công nghệ
khác thì các công nghệ 4.0 không thể giải mã tất cả ý nghĩa của thông tin để
hiểu và đưa ra phân tích, dự đoán chính xác
5 Vai trò của Khai phá dữ liệu trong nền công nghiệp 4.0
Data MINING
I KHAI PHÁ DỮ LIỆU (DATA MINING)
Trang 136 Phân biệt được Khai phá dữ liệu với Tìm kiếm thông thường
Cho ví dụ
Data MINING
Là quá trình khai thác và tìm ra mối quan
hệ lẫn nhau của dữ liệu trong một tập dữ
Ví dụ: Tìm kiếm tên và số điện thoại của một người nào đó trong danh bạ điện thoại
I KHAI PHÁ DỮ LIỆU (DATA MINING)
Trang 14II QUY TRÌNH KHAI PHÁ DỮ LIỆU
Data MININGMENU ANALYSIS CONTACT
Trang 151 Quy trình
Data MINING
II QUY TRÌNH KHAI PHÁ DỮ LIỆU
Trang 16Data transformation
(Chuyển đổi dữ liệu)
Nơi dữ liệu được chuyển đổi và hợp nhất thành các biểu mẫu thích hợp
để khai thác bằng cách thực hiện các hoạt động tóm tắt hoặc tổng hợp
II QUY TRÌNH KHAI PHÁ DỮ LIỆU
1 Quy trình
Trang 17sự thú vị đại diện cho kiến
thức dựa trên các thước
đo mức độ thú vị
Knowledge presentation
(Trình bày kiến thức)
Trong đó các kỹ thuật trực quan hóa và trình bày tri thức được sử dụng để trình bày kiến thức đã khai thác cho người dùng
II QUY TRÌNH KHAI PHÁ DỮ LIỆU
1 Quy trình
Trang 18- Có cấu trúc, bán cấu trúc, phi cấu trúc
- Được đưa vào từ các nguồn dữ liệu trong các hệ thống xử lý tập tin (file processing
systems) và các hệ thống cơ sở dữ liệu (database systems)
● Chất lượng dữ liệu (data quality): tính chính xác, tính hiện hành, tính toàn vẹn, tính nhất quán
- Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực
- Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị lỗi thời
- Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biến/thuộc tính đều được ghi nhận
- Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp
Trang 19II QUY TRÌNH KHAI PHÁ DỮ LIỆU Data MINING
2 Tiền xử lý dữ liệu
Các kỹ thuật tiền xử lý dữ liệu
● Làm sạch dữ liệu (data cleaning/cleansing): loại bỏ
nhiễu (remove noise), hiệu chỉnh những phần dữ liệu
không nhất quán (correct data inconsistencies)
● Tích hợp dữ liệu (data integration): trộn dữ liệu (merge
data) từ nhiều nguồn khác nhau vào một kho dữ liệu
● Biến đổi dữ liệu (data transformation): chuẩn hoá dữ
liệu (data normalization)
● Thu giảm dữ liệu (data reduction): thu giảm kích thước
dữ liệu (nghĩa là giảm số phần tử) bằng kết hợp dữ liệu
(data aggregation), loại bỏ các đặc điểm dư thừa
(redundant features) nghĩa là giảm số chiều/thuộc tính
dữ liệu), gom cụm dữ liệu
Trang 20II QUY TRÌNH KHAI PHÁ DỮ LIỆU Data MINING
2 Tiền xử lý dữ liệu
Làm sạch dữ liệu (data cleaning/cleansing)
● Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ
liệu và sự hiện diện của nhiễu hoặc các phần tử kì dị
(outliers)
● Xử lý dữ liệu bị thiếu (missing data)
● Xử lý dữ liệu bị nhiễu (noisy data)
Tích hợp dữ liệu (data integration)
● Tích hợp lược đồ (schema integration) và so trùng đối
tượng (object matching)
● Vấn đề dư thừa (redundancy)
● Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection
and resolution of data value conflicts)
Trang 21II QUY TRÌNH KHAI PHÁ DỮ LIỆU Data MINING
2 Tiền xử lý dữ liệu
Biến đổi dữ liệu (data transformation)
● Làm trơn dữ liệu (smoothing)
● Kết hợp dữ liệu (aggregation)
● Tổng quát hóa dữ liệu (generalization)
● Chuẩn hóa dữ liệu (normalization)
● Xây dựng thuộc tích (attribute/ feature construction)
Thu giảm dữ liệu (data reduction)
● Kết hợp khối dữ liệu (data cube aggregation)
● Chọn tập con các thuộc tính (attribute subset
selection)
● Thu giảm chiều (dimensionality reduction)
● Thu giảm lượng (numerosity reduction)
● Tạo phân cấp ý niệm (concept hierarchy generation)
và rời rạc hóa (discretization)
Trang 22III KHO DỮ LIỆU (DATA WAREHOUSE)
Data MININGMENU ANALYSIS CONTACT
Trang 23● Kho dữ liệu là một mô hình dữ liệu đa chiều.
● Kho dữ liệu cung cấp kiến trúc và công cụ cho
các doanh nghiệp để tổ chức, tìm hiểu và sử
dụng dữ liệu của họ một cách khoa học để đưa
ra các quyết định chiến lược
● Kho dữ liệu hỗ trợ các truy vấn phức tạp, là
điểm tập trung dữ liệu từ nhiều nguồn khác nhau
để có được thông tin phân tích đầy đủ nhất
1 Khái niệm
Data MINING
III KHO DỮ LIỆU (DATA WAREHOUSE)
Trang 24Là một tập hợp con của kho dữ liệu, được thiết kế đặc biệt cho một ngành kinh doanh
cụ thể Trong một dữ liệu cục bộ độc lập, dữ liệu có thể thu nhập trực tiếp từ các nguồn
Kho dữ liệu doanh nghiệp
Là một kho tập trung, cung cấp dịch vụ hỗ trợ quyết định trên toàn doanh nghiệp; cung cấp khả năng phân loại dữ liệu theo chủ đề và cấp quyền truy cập theo các bộ phận đó
Data MINING
Trong ODS, kho dữ liệu được làm mới theo thời gian thực Do đó, được sử dụng rộng rãi cho các hoạt động thường ngày như lưu trữ
hồ sơ cá nhân
2 Các loại Kho dữ liệu
Lưu trữ dữ liệu hoạt động(ODS)
Dữ liệu cục bộ
III KHO DỮ LIỆU (DATA WAREHOUSE)
Trang 25vụ này.
III KHO DỮ LIỆU (DATA WAREHOUSE)
Trang 26Data MINING
3 Đặc điểm của Kho dữ liệu
Time Variant (Biến đổi theo thời gian)
● Dữ liệu trong kho dữ liệu được thu thập trong khoảng thời gian dài và được gán
thời gian
● Kho dữ liệu lưu trữ dữ liệu từ góc độ lịch sử, thay vì chỉ lưu trữ các dữ liệu ngắn
hạn như các hệ thống giao dịch
Non-Volatile (Không biến đổi)
● Kho dữ liệu tách rời vật lý với môi trường tác nghiệp, nên dữ liệu trong kho dữ liệu
là dữ liệu chỉ đọc, không chỉnh sửa hoặc thêm mới, chỉ được tải dữ liệu và truy cập dữ
liệu Đặc điểm này nhằm bảo tồn dữ liệu lịch sử, phản ánh chính xác những gì đã xảy
ra trong quá trình vận hành
III KHO DỮ LIỆU (DATA WAREHOUSE)
Trang 27IV HỌC MÁY (MACHINE LEARNING)
Data MININGMENU ANALYSIS CONTACT
Trang 28● Học máy (Machine Learning) là một tập con
của trí tuệ nhân tạo Học máy là một lĩnh vực
nhỏ của khoa học máy tính, nó có khả năng
tự học hỏi dựa trên dữ liệu đưa vào mà không
Trang 29 Học tập có giám sát (Supervised learning): là nơi có các biến đầu vào (X) và biến đầu ra
(Y) và sử dụng thuật toán để tìm hiểu hàm ánh xạ từ đầu vào đến đầu ra
Trang 30 Học không giám sát (Unsupervised learning): là nơi chỉ có dữ liệu đầu vào (X) và
không có biến đầu ra tương ứng
Mục tiêu của việc học không giám sát là để mô hình hóa cấu trúc nền tảng hoặc sự phân
bố trong dữ liệu để hiểu rõ hơn về nó
Đây được gọi là học tập không giám sát vì không giống như việc học có giám sát ở trên, không có câu trả lời đúng và không có vị “giáo viên” nào cả
Các thuật toán được tạo ra chỉ để khám phá và thể hiện các cấu trúc hữu ích bên trong
Trang 31 Học bán giám sát (Semi-supervised learning): là một lớp của kỹ thuật học
máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn.
Học bán giám sát hoạt động: cung cấp một lượng nhỏ dữ liệu được gắn nhãn cho một thuật toán
Từ đó, thuật toán tìm hiểu các kích thước của tập dữ liệu, sau đó nó có thể áp dụng cho dữ liệu mới, chưa được gắn nhãn.
2 Các cơ chế học máy
Data MINING
IV HỌC MÁY (MACHINE LEARNING)
Trang 32 Học củng cố (Reinforcement learning): là các bài toán giúp cho một hệ
thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất.
Học củng cố hoạt động bằng cách lập trình một thuật toán với một mục tiêu riêng biệt và một bộ quy tắc được chỉ định để hoàn thành mục tiêu đó.
2 Các cơ chế Học máy
Data MINING
IV HỌC MÁY (MACHINE LEARNING)
Trang 33- Khai phá dữ liệu liên quan đến việc trích xuất thông tin từ một lượng lớn dữ liệu Khai phá
dữ liệu là một kỹ thuật khám phá các loại mẫu khác nhau được kế thừa trong tập dữ liệu và
là dữ liệu mới, chính xác và hữu ích
- Học máy bao gồm một thuật toán tự động cải thiện thông qua trải nghiệm dựa trên dữ liệu Học máy là một cách để tìm ra một thuật toán mới từ kinh nghiệm Học máy sử dụng các kỹ thuật khai phá dữ liệu và một thuật toán khác để xây dựng các mô hình dựa trên các dữ liệu cho trước và có thể dự đoán kết quả trong tương lai
- Khai phá dữ liệu sử dụng các kỹ thuật do học máy tạo ra để dự đoán kết quả, trong khi học máy là khả năng máy tính học từ một tập dữ liệu cho sẵn
3 Sự liên hệ của Học máy với Khai phá dữ liệu
Data MINING
IV HỌC MÁY (MACHINE LEARNING)
Trang 34Data MINING
4 Ứng dụng của Học máy
Trợ lý cá nhân ảo (Virtual Personal Assistants): Trợ lý cá nhân ảo hỗ trợ tìm kiếm thông tin, khi được yêu cầu qua văn bản hoặc giọng nói Một số ứng dụng chính của Học máy: + Nhận dạng giọng nói
+ Chuyển đổi lời nói thành văn bản
+ Xử lý ngôn ngữ tự nhiên
+ Chuyển đổi văn bản thành giọng nói
Nhận dạng ký tự: phân loại hình chụp ký tự thành các loại, mỗi loại ứng với một ký tự tương ứng
Lọc thư rác, phân loại văn bản: dựa trên nội dung thư điện tử, chia thư thành loại “thư rác” hay “thư bình thường”; hoặc phân chia tin tức thành các thể loại khác nhau như
“xã hội”, “kinh tế”, “thể thao”
Chẩn đoán y tế: học cách dự đoán người bệnh có mắc hay không mắc một số bệnh nào đó dựa trên triệu chứng quan sát được
IV HỌC MÁY (MACHINE LEARNING)
Trang 35V PHÂN LỚP (CLASSIFICATION)
Data MININGMENU ANALYSIS CONTACT
Trang 36V PHÂN LỚP (CLASSIFICATION)
1 Định nghĩa
Phân lớp (Classification) là việc sử dụng input
là một tập các mẫu dữ liệu huấn luyện ứng với một nhãn phân lớp cho một mẫu dữ liệu Output
là mô hình (bộ phân lớp) dựa trên tập huấn luyện
và những nhãn phân lớp
Trang 37Training dataset
Tập dữ liệu biết trước dùng cho
việc huấn luyện học máy có các
thông số cụ thể và có sẵn các
nhãn Hay nói cách khác đây là
tập mô hình đưa vào để dự
đoán, phân lớp nhãn mẫu dựa
trên dữ liệu đưa vào.
Testing dataset
Tập dữ liệu độc lập với training dataset được dùng
để kiểm tra, thử độ chính xác của những mô hình học máy khi được huấn luyện.
2 Các thuật ngữ liên quan
V PHÂN LỚP (CLASSIFICATION)
Trang 38nhãn lớp.
Feature được phân làm hai loại: Feature selection và Feature reduction
V PHÂN LỚP (CLASSIFICATION)
Trang 39Confusion matrix
Ma trận lỗi dùng để tính hiệu năng của quy trình phân lớp và đánh giá độ chính xác của mô hình là bao nhiêu phần trăm.
2 Các thuật ngữ liên quan
để bài toán tối ưu.
V PHÂN LỚP (CLASSIFICATION)
Trang 403 Mô hình phân lớp
V PHÂN LỚP (CLASSIFICATION)
Trang 414 Quy trình phân lớp
Bước 1: Xây dựng mô hình từ tập huấn luyện
● Mỗi bộ / mẫu dữ liệu được phân vào một lớp xác định trước
● Lớp của một bộ / mẫu dữ liệu được xác định bởi thuộc tính gán nhãn lớp
● Tập các bộ / mẫu dữ liệu huấn luyện-tập huấn luyện được dùng để xây dựng mô hình
● Mô hình được biểu diễn bởi các luật phân lớp, các cây quyết định hoặc các công thức
toán học
Bước 2: Sử dụng mô hình
● Kiểm tra tính đúng đắn của mô hình và dùng nói để phân lớp dữ liệu mới
● Phân lớp cho những đối tượng mới hoặc chưa được phân lớp
● Đánh giá độ chính xác của mô hình:
+ Lớp biết trước của một mẫu/bộ dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình
+ Tỉ lệ chính xác = phần trăm các mẫu/bộ dữ liệu được phân lớp đúng bởi mô hình trong
số các lần kiểm tra
V PHÂN LỚP (CLASSIFICATION)