1. Trang chủ
  2. » Giáo Dục - Đào Tạo

bài thuyết trình khai phá dữ liệu

66 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khai Phá Dữ Liệu
Tác giả Lý Thị Phương Yến, Hà Ngọc Bảo Trâm, Nguyễn Văn Đạt, Phạm Thị Nhung, Đặng Thị Ngọc Vi, Trần Hữu Thọ, Ngô Hoàn Vũ
Người hướng dẫn Giảng Viên: Nguyễn Thị Ngọc Anh
Trường học Trường Đại Học
Chuyên ngành Khai Phá Dữ Liệu
Thể loại bài thuyết trình
Định dạng
Số trang 66
Dung lượng 7,29 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

bài thuyết trình khai phá dữ liệu bài thuyết trình khai phá dữ liệu bài thuyết trình khai phá dữ liệu bài thuyết trình khai phá dữ liệu

Trang 1

KHAI PHÁ DỮ LIỆU

Data MINING

THỰC HIỆN: Lý Thị Phương Yến

Hà Ngọc Bảo TrâmNguyễn Văn ĐạtPhạm Thị NhungĐặng Thị Ngọc ViTrần Hữu ThọNgô Hoàn VũGIẢNG VIÊN: Nguyễn Thị Ngọc Anh

Trang 2

- Tìm hiểu các cơ chế, sự liên hệ của Học máy với Khai phá dữ liệu.

- Tìm hiểu khái niệm, các thuật ngữ liên quan, mô hình và quy trình của Phân lớp.

- Đánh giá mô hình Confusion matrix.

Hà Ngọc Bảo Trâm

Đặng Thị Ngọc Vi

- Tìm hiểu khái niệm, các loại kho dữ liệu và đặc điểm của Kho dữ liệu.

- Tìm hiểu khái niệm, các cơ chế, ứng dụng của Học máy.

- Tìm hiểu khái niệm, quy trình và ưu-nhược điểm của thuật toán KNN.

- Cài đặt thuật toán KNN.

Ngô Hoàn Vũ - Tìm hiểu tiền xử lí dữ liệu của Khai phá dữ liệu.- Cài đặt thuật toán KNN.

- Làm slide powerpoint.

Trang 3

Data MINING

NỘI DUNG CHÍNH

I - Khai phá dữ liệu

II - Quy trình khai phá dữ liệu

III - Kho dữ liệu

IV - Học máy

V - Phân lớp

VI - Đánh giá mô hình VII Thuật toán KNN

Trang 4

I KHAI PHÁ DỮ LIỆU

(DATA MINING)

Data MININGMENU ANALYSIS CONTACT

Trang 5

● Khai phá dữ liệu là một quá trình khai thác mối

tương quan mới, các mẫu mới và các xu hướng mới

có ý nghĩa thông qua sàn lọc một lượng lớn dữ liệu

lưu trữ, sử dụng công nghệ nhận diện mẫu, xác

suất thống kê và kĩ thuật toán học

1 Khái niệm

Data MINING

I KHAI PHÁ DỮ LIỆU (DATA MINING)

Trang 6

Trí tuệ nhân tạo là một ngành

thuộc lĩnh vực khoa học máy

tính Nó là trí tuệ do con người

lập trình trên máy móc giúp cho

máy móc có thể xử lý, tư duy và

học hỏi như trí tuệ của con

người

Sử dụng để giải một lớp các bài toán cụ thể hoặc để thực hiện một phép tính Bằng cách sử dụng trí tuệ nhân tạo, các thuật toán có thể thực hiện các suy luận

tự động hoặc sử dụng các bài kiểm tra toán học và logic để chuyển hướng mã thông qua các tuyến khác nhau

Data MINING

2 Lĩnh vực liên quan

Artificial Intelligence

(Trí tuệ nhân tạo) (Các thuật toán) Algorithms

I KHAI PHÁ DỮ LIỆU (DATA MINING)

Trang 7

Học máy là một tập con của trí

tuệ nhân tạo Nó có khả năng

tự học hỏi dựa trên dữ liệu

đưa vào mà không cần lập

trình cụ thể

Là công nghệ quản trị dữ liệu,

nó cung cấp cho người dùng các chức năng như tạo, truy xuất, cập nhật và quản lý dữ liệu trên cơ sở dữ liệu

(Quản lý cơ sở dữ liệu)

Thống kê trong khai phá dữ liệu đó là phân tích, thăm dò,

dự báo, thường gắn kết với các thủ tục thống kê

I KHAI PHÁ DỮ LIỆU (DATA MINING)

Trang 8

Có thể được phân loại thành 2 phạm trù: mô tả và dự đoán.

Nhiệm vụ mô tả cần làm nổi bật các thuộc tính chung của dữ liệu trong cơ sở

dữ liệu, nghĩa là phân tích và mô tả một tập mẫu đã biết trong khả năng nhận thức của con người nhằm giúp họ hiểu rõ hơn, sâu hơn về dữ liệu.

Nhiệm vụ dự đoán thực hiện các suy luận trên dữ liệu hiện tại để cho ra các

dự báo, nghĩa là phân tích tập dữ liệu huấn luyện và tạo ra một hoặc vài mô hình cho phép dự đoán các mẫu mới chưa biết.

3 Các nhiệm vụ của Khai phá dữ liệu

Data MINING

I KHAI PHÁ DỮ LIỆU (DATA MINING)

Trang 9

Google dịch khi đưa văn

Trang 10

• Lexplore: phát triển để xác định trẻ mắc chứng khó đọc từ khá sớm.

• Công nghệ phân tích chuyển động mắt và đánh giá mức độ đọc của trẻ

em của Lexplore dựa trên trí tuệ nhân tạo (AI) và máy học (ML)

• Lexplore theo dõi mọi học sinh bằng máy tính và camera theo dõi mắt

Trang 11

Roboot phẩu thuật tự động : cho máy học các hành

động phẩu thuật của các bác sĩ

+ STAR bao gồm một cánh tay robot trang bị dụng cụ

khâu vết thương cùng với hệ thống chụp ảnh 3D

và cảm biến cận hồng ngoại theo dõi đường đánh dấu

huỳnh quang dọc theo mép mô do các nhà nghiên cứu

vạch ra

+ Ca phẫu thuật diễn ra dưới sự chỉ dẫn của "thuật

toán khâu chỉ tự động" được phát triển riêng cho hệ

Trang 12

● Nền công nghiệp 4.0 dưới sự phát triển của internet và các công nghệ nền tảng

như: dữ liệu lớn (big data), vạn vật kết nối, trí tuệ nhân tạo (AI), khai phá dữ

liệu (data mining),… đã tạo ra những phát minh thay đổi hoàn toàn các doanh nghiệp

● Sự góp mặt của khai phá dữ liệu cùng các thiết bị thông minh được tạo ra

bởi trí tuệ nhân tạo đã giúp thúc đẩy sự phát triển của nền kinh tế hiện nay

Nếu không có khai phá dữ liệu, trí tuệ nhân tạo và một số nền tảng công nghệ

khác thì các công nghệ 4.0 không thể giải mã tất cả ý nghĩa của thông tin để

hiểu và đưa ra phân tích, dự đoán chính xác

5 Vai trò của Khai phá dữ liệu trong nền công nghiệp 4.0

Data MINING

I KHAI PHÁ DỮ LIỆU (DATA MINING)

Trang 13

6 Phân biệt được Khai phá dữ liệu với Tìm kiếm thông thường

Cho ví dụ

Data MINING

 Là quá trình khai thác và tìm ra mối quan

hệ lẫn nhau của dữ liệu trong một tập dữ

 Ví dụ: Tìm kiếm tên và số điện thoại của một người nào đó trong danh bạ điện thoại

I KHAI PHÁ DỮ LIỆU (DATA MINING)

Trang 14

II QUY TRÌNH KHAI PHÁ DỮ LIỆU

Data MININGMENU ANALYSIS CONTACT

Trang 15

1 Quy trình

Data MINING

II QUY TRÌNH KHAI PHÁ DỮ LIỆU

Trang 16

Data transformation

(Chuyển đổi dữ liệu)

Nơi dữ liệu được chuyển đổi và hợp nhất thành các biểu mẫu thích hợp

để khai thác bằng cách thực hiện các hoạt động tóm tắt hoặc tổng hợp

II QUY TRÌNH KHAI PHÁ DỮ LIỆU

1 Quy trình

Trang 17

sự thú vị đại diện cho kiến

thức dựa trên các thước

đo mức độ thú vị

Knowledge presentation

(Trình bày kiến thức)

Trong đó các kỹ thuật trực quan hóa và trình bày tri thức được sử dụng để trình bày kiến thức đã khai thác cho người dùng

II QUY TRÌNH KHAI PHÁ DỮ LIỆU

1 Quy trình

Trang 18

- Có cấu trúc, bán cấu trúc, phi cấu trúc

- Được đưa vào từ các nguồn dữ liệu trong các hệ thống xử lý tập tin (file processing

systems) và các hệ thống cơ sở dữ liệu (database systems)

● Chất lượng dữ liệu (data quality): tính chính xác, tính hiện hành, tính toàn vẹn, tính nhất quán

- Tính chính xác (accuracy): giá trị được ghi nhận đúng với giá trị thực

- Tính hiện hành (currency/timeliness): giá trị được ghi nhận không bị lỗi thời

- Tính toàn vẹn (completeness): tất cả các giá trị dành cho một biến/thuộc tính đều được ghi nhận

- Tính nhất quán (consistency): tất cả giá trị dữ liệu đều được biểu diễn như nhau trong tất cả các trường hợp

Trang 19

II QUY TRÌNH KHAI PHÁ DỮ LIỆU Data MINING

2 Tiền xử lý dữ liệu

Các kỹ thuật tiền xử lý dữ liệu

● Làm sạch dữ liệu (data cleaning/cleansing): loại bỏ

nhiễu (remove noise), hiệu chỉnh những phần dữ liệu

không nhất quán (correct data inconsistencies)

● Tích hợp dữ liệu (data integration): trộn dữ liệu (merge

data) từ nhiều nguồn khác nhau vào một kho dữ liệu

● Biến đổi dữ liệu (data transformation): chuẩn hoá dữ

liệu (data normalization)

● Thu giảm dữ liệu (data reduction): thu giảm kích thước

dữ liệu (nghĩa là giảm số phần tử) bằng kết hợp dữ liệu

(data aggregation), loại bỏ các đặc điểm dư thừa

(redundant features) nghĩa là giảm số chiều/thuộc tính

dữ liệu), gom cụm dữ liệu

Trang 20

II QUY TRÌNH KHAI PHÁ DỮ LIỆU Data MINING

2 Tiền xử lý dữ liệu

Làm sạch dữ liệu (data cleaning/cleansing)

● Tóm tắt hoá dữ liệu: nhận diện đặc điểm chung của dữ

liệu và sự hiện diện của nhiễu hoặc các phần tử kì dị

(outliers)

● Xử lý dữ liệu bị thiếu (missing data)

● Xử lý dữ liệu bị nhiễu (noisy data)

Tích hợp dữ liệu (data integration)

● Tích hợp lược đồ (schema integration) và so trùng đối

tượng (object matching)

● Vấn đề dư thừa (redundancy)

● Phát hiện và xử lý mâu thuẫn giá trị dữ liệu (detection

and resolution of data value conflicts)

Trang 21

II QUY TRÌNH KHAI PHÁ DỮ LIỆU Data MINING

2 Tiền xử lý dữ liệu

Biến đổi dữ liệu (data transformation)

● Làm trơn dữ liệu (smoothing)

● Kết hợp dữ liệu (aggregation)

● Tổng quát hóa dữ liệu (generalization)

● Chuẩn hóa dữ liệu (normalization)

● Xây dựng thuộc tích (attribute/ feature construction)

Thu giảm dữ liệu (data reduction)

● Kết hợp khối dữ liệu (data cube aggregation)

● Chọn tập con các thuộc tính (attribute subset

selection)

● Thu giảm chiều (dimensionality reduction)

● Thu giảm lượng (numerosity reduction)

● Tạo phân cấp ý niệm (concept hierarchy generation)

và rời rạc hóa (discretization)

Trang 22

III KHO DỮ LIỆU (DATA WAREHOUSE)

Data MININGMENU ANALYSIS CONTACT

Trang 23

● Kho dữ liệu là một mô hình dữ liệu đa chiều.

● Kho dữ liệu cung cấp kiến trúc và công cụ cho

các doanh nghiệp để tổ chức, tìm hiểu và sử

dụng dữ liệu của họ một cách khoa học để đưa

ra các quyết định chiến lược

● Kho dữ liệu hỗ trợ các truy vấn phức tạp, là

điểm tập trung dữ liệu từ nhiều nguồn khác nhau

để có được thông tin phân tích đầy đủ nhất

1 Khái niệm

Data MINING

III KHO DỮ LIỆU (DATA WAREHOUSE)

Trang 24

Là một tập hợp con của kho dữ liệu, được thiết kế đặc biệt cho một ngành kinh doanh

cụ thể Trong một dữ liệu cục bộ độc lập, dữ liệu có thể thu nhập trực tiếp từ các nguồn

Kho dữ liệu doanh nghiệp

Là một kho tập trung, cung cấp dịch vụ hỗ trợ quyết định trên toàn doanh nghiệp; cung cấp khả năng phân loại dữ liệu theo chủ đề và cấp quyền truy cập theo các bộ phận đó

Data MINING

Trong ODS, kho dữ liệu được làm mới theo thời gian thực Do đó, được sử dụng rộng rãi cho các hoạt động thường ngày như lưu trữ

hồ sơ cá nhân

2 Các loại Kho dữ liệu

Lưu trữ dữ liệu hoạt động(ODS)

Dữ liệu cục bộ

III KHO DỮ LIỆU (DATA WAREHOUSE)

Trang 25

vụ này.

III KHO DỮ LIỆU (DATA WAREHOUSE)

Trang 26

Data MINING

3 Đặc điểm của Kho dữ liệu

Time Variant (Biến đổi theo thời gian)

● Dữ liệu trong kho dữ liệu được thu thập trong khoảng thời gian dài và được gán

thời gian

● Kho dữ liệu lưu trữ dữ liệu từ góc độ lịch sử, thay vì chỉ lưu trữ các dữ liệu ngắn

hạn như các hệ thống giao dịch

Non-Volatile (Không biến đổi)

● Kho dữ liệu tách rời vật lý với môi trường tác nghiệp, nên dữ liệu trong kho dữ liệu

là dữ liệu chỉ đọc, không chỉnh sửa hoặc thêm mới, chỉ được tải dữ liệu và truy cập dữ

liệu Đặc điểm này nhằm bảo tồn dữ liệu lịch sử, phản ánh chính xác những gì đã xảy

ra trong quá trình vận hành

III KHO DỮ LIỆU (DATA WAREHOUSE)

Trang 27

IV HỌC MÁY (MACHINE LEARNING)

Data MININGMENU ANALYSIS CONTACT

Trang 28

● Học máy (Machine Learning) là một tập con

của trí tuệ nhân tạo Học máy là một lĩnh vực

nhỏ của khoa học máy tính, nó có khả năng

tự học hỏi dựa trên dữ liệu đưa vào mà không

Trang 29

Học tập có giám sát (Supervised learning): là nơi có các biến đầu vào (X) và biến đầu ra

(Y) và sử dụng thuật toán để tìm hiểu hàm ánh xạ từ đầu vào đến đầu ra

Trang 30

Học không giám sát (Unsupervised learning): là nơi chỉ có dữ liệu đầu vào (X) và

không có biến đầu ra tương ứng

 Mục tiêu của việc học không giám sát là để mô hình hóa cấu trúc nền tảng hoặc sự phân

bố trong dữ liệu để hiểu rõ hơn về nó

 Đây được gọi là học tập không giám sát vì không giống như việc học có giám sát ở trên, không có câu trả lời đúng và không có vị “giáo viên” nào cả

 Các thuật toán được tạo ra chỉ để khám phá và thể hiện các cấu trúc hữu ích bên trong

Trang 31

Học bán giám sát (Semi-supervised learning): là một lớp của kỹ thuật học

máy, sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn để huấn luyện - điển hình là một lượng nhỏ dữ liệu có gán nhãn cùng với lượng lớn dữ liệu chưa gán nhãn.

 Học bán giám sát hoạt động: cung cấp một lượng nhỏ dữ liệu được gắn nhãn cho một thuật toán

 Từ đó, thuật toán tìm hiểu các kích thước của tập dữ liệu, sau đó nó có thể áp dụng cho dữ liệu mới, chưa được gắn nhãn.

2 Các cơ chế học máy

Data MINING

IV HỌC MÁY (MACHINE LEARNING)

Trang 32

Học củng cố (Reinforcement learning): là các bài toán giúp cho một hệ

thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất.

 Học củng cố hoạt động bằng cách lập trình một thuật toán với một mục tiêu riêng biệt và một bộ quy tắc được chỉ định để hoàn thành mục tiêu đó.

2 Các cơ chế Học máy

Data MINING

IV HỌC MÁY (MACHINE LEARNING)

Trang 33

- Khai phá dữ liệu liên quan đến việc trích xuất thông tin từ một lượng lớn dữ liệu Khai phá

dữ liệu là một kỹ thuật khám phá các loại mẫu khác nhau được kế thừa trong tập dữ liệu và

là dữ liệu mới, chính xác và hữu ích

- Học máy bao gồm một thuật toán tự động cải thiện thông qua trải nghiệm dựa trên dữ liệu Học máy là một cách để tìm ra một thuật toán mới từ kinh nghiệm Học máy sử dụng các kỹ thuật khai phá dữ liệu và một thuật toán khác để xây dựng các mô hình dựa trên các dữ liệu cho trước và có thể dự đoán kết quả trong tương lai

- Khai phá dữ liệu sử dụng các kỹ thuật do học máy tạo ra để dự đoán kết quả, trong khi học máy là khả năng máy tính học từ một tập dữ liệu cho sẵn

3 Sự liên hệ của Học máy với Khai phá dữ liệu

Data MINING

IV HỌC MÁY (MACHINE LEARNING)

Trang 34

Data MINING

4 Ứng dụng của Học máy

 Trợ lý cá nhân ảo (Virtual Personal Assistants): Trợ lý cá nhân ảo hỗ trợ tìm kiếm thông tin, khi được yêu cầu qua văn bản hoặc giọng nói Một số ứng dụng chính của Học máy: + Nhận dạng giọng nói

+ Chuyển đổi lời nói thành văn bản

+ Xử lý ngôn ngữ tự nhiên

+ Chuyển đổi văn bản thành giọng nói

 Nhận dạng ký tự: phân loại hình chụp ký tự thành các loại, mỗi loại ứng với một ký tự tương ứng

 Lọc thư rác, phân loại văn bản: dựa trên nội dung thư điện tử, chia thư thành loại “thư rác” hay “thư bình thường”; hoặc phân chia tin tức thành các thể loại khác nhau như

“xã hội”, “kinh tế”, “thể thao”

 Chẩn đoán y tế: học cách dự đoán người bệnh có mắc hay không mắc một số bệnh nào đó dựa trên triệu chứng quan sát được

IV HỌC MÁY (MACHINE LEARNING)

Trang 35

V PHÂN LỚP (CLASSIFICATION)

Data MININGMENU ANALYSIS CONTACT

Trang 36

V PHÂN LỚP (CLASSIFICATION)

1 Định nghĩa

Phân lớp (Classification) là việc sử dụng input

là một tập các mẫu dữ liệu huấn luyện ứng với một nhãn phân lớp cho một mẫu dữ liệu Output

là mô hình (bộ phân lớp) dựa trên tập huấn luyện

và những nhãn phân lớp

Trang 37

Training dataset

Tập dữ liệu biết trước dùng cho

việc huấn luyện học máy có các

thông số cụ thể và có sẵn các

nhãn Hay nói cách khác đây là

tập mô hình đưa vào để dự

đoán, phân lớp nhãn mẫu dựa

trên dữ liệu đưa vào.

Testing dataset

Tập dữ liệu độc lập với training dataset được dùng

để kiểm tra, thử độ chính xác của những mô hình học máy khi được huấn luyện.

2 Các thuật ngữ liên quan

V PHÂN LỚP (CLASSIFICATION)

Trang 38

nhãn lớp.

Feature được phân làm hai loại: Feature selection và Feature reduction

V PHÂN LỚP (CLASSIFICATION)

Trang 39

Confusion matrix

Ma trận lỗi dùng để tính hiệu năng của quy trình phân lớp và đánh giá độ chính xác của mô hình là bao nhiêu phần trăm.

2 Các thuật ngữ liên quan

để bài toán tối ưu.

V PHÂN LỚP (CLASSIFICATION)

Trang 40

3 Mô hình phân lớp

V PHÂN LỚP (CLASSIFICATION)

Trang 41

4 Quy trình phân lớp

Bước 1: Xây dựng mô hình từ tập huấn luyện

● Mỗi bộ / mẫu dữ liệu được phân vào một lớp xác định trước

● Lớp của một bộ / mẫu dữ liệu được xác định bởi thuộc tính gán nhãn lớp

● Tập các bộ / mẫu dữ liệu huấn luyện-tập huấn luyện được dùng để xây dựng mô hình

● Mô hình được biểu diễn bởi các luật phân lớp, các cây quyết định hoặc các công thức

toán học

Bước 2: Sử dụng mô hình

● Kiểm tra tính đúng đắn của mô hình và dùng nói để phân lớp dữ liệu mới

● Phân lớp cho những đối tượng mới hoặc chưa được phân lớp

● Đánh giá độ chính xác của mô hình:

+ Lớp biết trước của một mẫu/bộ dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình

+ Tỉ lệ chính xác = phần trăm các mẫu/bộ dữ liệu được phân lớp đúng bởi mô hình trong

số các lần kiểm tra

V PHÂN LỚP (CLASSIFICATION)

Ngày đăng: 11/05/2022, 10:59

HÌNH ẢNH LIÊN QUAN

V I- Đánh giá mô hình VII. Thuật toán KNN - bài thuyết trình khai phá dữ liệu
nh giá mô hình VII. Thuật toán KNN (Trang 3)
● Kho dữ liệu là một mô hình dữ liệu đa chiều. - bài thuyết trình khai phá dữ liệu
ho dữ liệu là một mô hình dữ liệu đa chiều (Trang 23)
III. KHO DỮ LIỆU (DATA WAREHOUSE) - bài thuyết trình khai phá dữ liệu
III. KHO DỮ LIỆU (DATA WAREHOUSE) (Trang 23)
tập mô hình đưa vào để dự đoán, phân lớp nhãn mẫu dựa - bài thuyết trình khai phá dữ liệu
t ập mô hình đưa vào để dự đoán, phân lớp nhãn mẫu dựa (Trang 37)
3. Mô hình phân lớp - bài thuyết trình khai phá dữ liệu
3. Mô hình phân lớp (Trang 40)
 Nhìn hình vẽ, ta có thể thấy các mẫu dữ liệu training với thuộc tính đặc trưng của hai lớp như sau: - bài thuyết trình khai phá dữ liệu
h ìn hình vẽ, ta có thể thấy các mẫu dữ liệu training với thuộc tính đặc trưng của hai lớp như sau: (Trang 44)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w