1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Some issues in data mining research Một số vấn đề trong nghiên cứu về khai phá dữ liệu - Hồ Tú Bảo

41 113 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 41
Dung lượng 2,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bao Some issues in data mining research Một số vấn đề trong nghiên cứu về khai phá dữ liệu... „ Observational Science Khoa học quan sátÎ Scientist gathers data by direct observation Î Sc

Trang 1

Hồ Tú Bảo

Institute of Information Technology, CNST, Vietnam

Japan Advanced Institute of Science and Technology, Japan

(invited talk for the author’s group B.H Khang, L.C Mai, H.T Bao)

Some issues in data mining research

Một số vấn đề trong nghiên cứu về

khai phá dữ liệu

Trang 3

„ Soon everything can be

recorded and indexed Mọi thứ sẽ

sớm được lưu và chỉ số hóa trên máy

„ Most bytes will never be seen by humans

Hầu hết dữ liệu sẽ chẳng bao giờ

được con người ngó ngàng

„ Data summarization, trend detection

anomaly detection are key technologies

Tóm tắt dữ liệu, phát hiện xu hướng

và bất thường là các công nghệ then

chốt

See Mike Lesk:

How much information is there:

http://www.lesk.com/mlesk/ksg97/ksg.html

See Lyman & Varian:

How much information

http://www.sims.berkeley.edu/research/projects/how-much-info/

Yotta Zetta Exa Peta Tera Giga Mega Kilo

A Book

.Movie

All books (words)

All Books MultiMedia

in LC

Trang 5

1.6 meters

30 MB

10 years later

ODRA 1304

Trang 6

Price vs Disk Capacity

22/9/2003

Trang 7

„ File Cabinet (4 drawer) 250$

micro-dollar per page

Image: 1 m photos 3e-4 $/photo (100x cheaper)

milli-dollar per photo

„ Store everything on disk

Note: Disk is 100x to 1000x cheaper than RAM

Disk Storage Cheaper Than Paper

Trang 8

„ Observational Science Khoa học quan sát

Î Scientist gathers data by direct observation

Î Scientist analyzes data

„ Analytical Science Khoa học phân tích

Î Scientist builds analytical model

Î Makes predictions.

„ Computational Science Khoa học tính toán

Î Simulate analytical model

Î Validate model and makes predictions

„ Data Exploration Science

Khoa học khai thác dữ liệu

Data captured by instruments

Or data generated by simulator

Î Processed by software

Î Placed in a database / files

The Evolution of Science

Trang 9

Organization & Algorithms

„ Fast, approximate heuristic algorithms – Thuật toán

heuristic xấp xỉ và nhanh

Î No need to be more accurate than data variance

Î Fast CMB analysis by Szapudi et al (2001)

10 million years

„ Take cost of computation into account – Giá tính toán

Î Controlled level of accuracy

Î Best result in a given time, given our computing resources

„ Use parallelism Dùng tính toán song song

Î Many disks

do not always work!

Trang 10

„ Gauss, Fisher, and all that

Î least-squares, maximum likelihood

Î development of fundamental principles

„ The Mathematical Era Kỷ nguyên toán học

Î 1950’s: The mathematicians take over

„ The Computational Era Kỷ nguyên tính toán

Î steadily growing since the 1960’s

Î 1970’s: Exploratory Data Analysis, Bayesian estimation,

flexible models, EM, etc

Î a growing awareness of the computing power & role in data analysis

Historical Context: Statistics

Trang 11

Objective and subjective probability XS chủ quan-khách quan

times that the event would occur in repetitions)

Î the dominant perspective throughout most of the last century,

primarily of theoretical interest

Î it restricts our application of probability (cannot access the

probability that Bùi Thị Nhung will jump 1.88m in Sea games 22)

belief that a given event will occur)

Î Acquired increasing importance since last decade for data analysis

Î referred to as Bayesian statistics A central tenet of Bayesian

statistics is the explicit characterization of all forms of uncertainty, e.g., uncertainty about any parameters we estimate from the data

Historical Context: Statistics

Trang 12

What is Data Mining?

“Data-driven discovery of models and patterns from massive observational data sets”

Languages, Representations

Trang 13

9 Support vector machine

9 Hidden Markov Model

Trang 15

Topics to address

„ Heterogeneity – Không đồng chủng

Î Mixed data and multimedia data

Î Independent component analysis (ICA)

Î Some others (Kernel methods, Level sets, etc.)

„ Scaling up – Hợp với mọi kích cỡ (khả cỡ)

Î Power search heuristics (e.g., K-means clustering)

Î Parallel computing (e.g., PC clusters)

„ Bioinformatics – Sinh tin học

Î Protein structure prediction (SVM and HMM)

„ Materials structure analysis – Phân tích cấu trúc vật chất

Î Crystal structure prediction

Î Mining structured data

„ Text and Web mining Khai phá dữ liệu văn bản và Web

Î Mining structurally non-identical data

Trang 16

Attribute Numerical Symbolic

Rank,Resemblance

Age,Temperature,Taste,

Income,Length

Nominal(categorical)Ordinal

MeasurableCombinatorial search in hypothesis spaces (machine learning)

Matrix-based computation (multivariate data analysis)

× +

Trang 17

„ Mixed Similarity Measures (MSM): Độ đo sự giống

nhau cho dữ liệu hỗn hợp

Î Goodall (1966) time O(n3), Diday and Gowda

(1992),

Î Ichino and Yaguchi (1994),

Î Li & Biswas (1997) Time O(n2logn2), Space O(n2):

Î Time and Space O(n): ˆ 1 ˆ*

Trang 18

US Census database 33 sym + 8 num attributes, Alpha 21264, 500 MHz, RAM 2 GB,

Solaris OS (Nguyen N.B & Ho T.B., PKDD 2000)

Trang 20

Play Mixtures Play Components

Perform ICA

Mic 1 Mic 2 Mic 3 Mic 4

ICA: Example of Audio Decomposition

Trang 21

Scaling Up Approaches

Scale up

approaches

oriented

Data-discretization

Attribute selection

Instance selection (sampling)

Fast algorithms

Distributed mining

Parallel mining

oriented

Algorithm-Single sampling Iterative sampling Restricted search Algorithm optimization

Voting Model integration Meta-learning

Inter-processor cooperation Inter-algorithm parallelization Intra-algorithm parallelization

Trang 23

k-means: fast, faster, and fastest

„ Work of Charles Elkan, ICML’03,

20-24/8/2003, “k-means: fast, faster,

fastest”

„ K-means đòi hỏi tính khoảng cách từ

mỗi đói tượng đến tất cả tâm của các

clusters ở mỗi bước lặp

„ Key idea: Các đối tượng chỉ có thể

được phân vào một trong các tâm gần

chúng Æ kiểm tra tính xa gần bằng

bất đẳng thức tam giác.

„ Greatly scaling up, says, when

#instances = 106 and k = 103

„ Lesson: Các giải pháp hiệu quả

thường đơn giản (và độc đáo)!

Trang 25

stored cases subset 1

Local MIN

Processor 1

Global MIN

local nearest case

stored cases subset p

Local MIN

Processor p

local nearest case

nearest case

Example of exploiting data parallelism in instance-based learning

Parallel Data Mining

NNR algorithm

Trang 26

Mining Scientific Data

„ Data Mining in Bioinformatics

Î β-turns prediction by SVM

(P.T Hoan)

Î Plant (rice) growth modeling (with

L.M Hoang): Alife + Genome data

„ Mining Physical and Chemical

„ Mining Medical Data

Î Stomach cancer and hepatitis

Î Temporal abstraction (with N.T

Dung, S Kawasaki, L.S Quang,

Trang 27

10,267,507,282 bases in

9,092,760 records

Base Pairs in GenBank

Trang 28

Problems in Bioinformatics

0 1,000 2,000 3,000 4,000

4,000 3,000

2,000 1,000

0

2.0 1.0 0.5 -0.0 2.0 1.0 -0.0 2.0 1.0 -0.0

„ Protein structure comparison

„ Protein structure prediction

„ RNA structure modeling

Trang 29

Support Vector Machines

on statistical learning theory

(Vapnik, 1995)

discriminates class A+ from class

A- (binary classifier)

achieved with the surface that

maximizes “margin” determined by

“support vectors”.

N-dimensions have a higher chance

of being separable if mapped into

a space of higher dimension.

Trang 30

β -turns Prediction with SVM (P.T Hoan)

0.43 58.6

55.9 78.4

SVM

0.37 64.3

47.2 73.5

BTPRED

0.23 88.4

31.7 50.5

Sequence couple model

0.21 60.4

35.3 63.2

1-4 & 2-3 correlation model

0.15 16.7

44.0 74.5

Thornton

0.16 16.9

46.1 74.9

Trang 31

Angle: 20 Depth: 9

Artificial Life and L-system

a L-system (Lindenmayer, 1968) consists of (1) axioms, and (2) a set of rules

Axiom: B Rules:

B → A

A → AB

Trang 32

Mathematical Models

Models of Plant development

(Virtual plants) Embed

Evolutionary process

Trang 33

Discovery in Physics and Materials?

Discover the knowledge of electron

Discover the rules to create new assumed model that can fit to the experimental data

Automatically generate reasonably assumed

models and accumulate their fitness to the experiments as data

- Particle model

- Wave model With their fitness to experimental data

ModelRevision

Knowledge discovery and data mining:

Automatic extraction

of non-obvious, hidden knowledge

New trial models

Conventional approach

?

A challenge to discoveries in physics with computers

Trang 34

Prediction problem (limited data)

Simulation problem

Fourier transformation

Crystal Structure Analysis (D.H Chi)

9.2003 XXX chuyển phase

problem về bài toán quy

hoạch nguyên

Trang 35

Comic: Data Mining in Structural Analysis

Quá trình lặp: (1) Xây dựng nhiều mô hình và mô phỏng để tạo dữ liệu; (2) phân tích các dữ liệu này nhằm phát hiện ra các quy luật có thể dùng được

để tiếp tục tạo ra các mô hình (phổ) gần với mô hình cần dự đoán (phổ gốc)

Trang 36

Molecular Structure Analysis (N.T Tai)

Trang 37

Motivation for Text Mining

unstructured formats (source: Oracle Corporation)

that we transcend from simple document retrieval to

Trang 38

Challenge of Text Mining

„ Very high number of possible “dimensions” – Rất nhiều “chiều”

Î All possible word and phrase types in the language!!

„ Unlike data mining – không giống khai phá dữ liệu

Î records (= docs) are not structurally identical

Î records are not statistically independent

„ Complex and subtle relationships between concepts in text –

Các quan hệ phức tạp và khó thấy giữa các khái niệm

Î “AOL merges with Time-Warner”

Î “Time-Warner is bought by AOL”

„ Ambiguity and context sensitivity – Nhập nhằng và cảm ngữ

cảnh

Î automobile = car = vehicle = Toyota

Î Apple (the company) or apple (the fruit)

Trang 39

Về nghiên cứu cơ bản trong CNTT ở Việt nam

„ Theo B ùi Duy Hiển (Tạp chí Tia sáng): Viện thông tin

khoa h ọc Mỹ thống kê 9.000 tạp chí

„ Trong 1998-2002, Vi ệt Nam có gần 1.500 bài báo trên

c ác tạp chí quốc tế (ngang Thái-lan 10 năm trước,

6.4K ngư ời vs 21 K người), mỗi năm chừng 340 bài.

„ C ần ít nhất 116 K$ để ra được một công trình, cần 39

M$/năm cho 340 công trình (???)

„ Ta nên làm nghiên cứu cơ bản ở lĩnh vực nào và ở

mức độ nào?

Trang 40

„ Khoa học đang rất tập trung vào khai thác dữ liệu (data

intensive) Khả năng phân tích các tập dữ liệu cực lớn là cốt

yếu và thách thức trong phát triển CNTT

„ Khai phá dữ liệu liên quan đến các tiến bộ cơ bản của

databases, algorithmics, statistics, machine learning,

visualization, etc

„ Hai vấn đề then chốt của khai thác dữ liệu

Î Các lược đồ dữ liệu khác nhau

Î Tìm các thuật toán có độ phức tạp nlogn là thách thức chủ yếu

trong khai phá dữ liệu

focus of scientific research in Vietnam

Trang 41

(Microsoft), Padhraic Smyth (Univ California Irvine)

Active Mining, Hợp tác khoa học với Việt Nam, etc.

& CNTT, H Nakamori, Nguyen Ngoc Binh, Nguyen

Trong Dung, A Saitou, S Kawasaki, Nguyen Duc

Dung, Le Si Quang, Huynh Van Nam, Nguyen Tien

Tai, Dam Hieu Chi, Nguyen Phu Chien, H Zhang,

A Hassine, H Yokoi, T Takabayashi, A

Yamaguchi, Pham Tho Hoan, Le Minh Hoang, …

Ngày đăng: 11/06/2018, 16:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w