1. Trang chủ
  2. » Giáo Dục - Đào Tạo

DATA MINING AND APPLICATION: TỔNG QUAN pdf

13 429 6
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 537,14 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

CHƯƠNG TRÌNH 45 tiết lý thuyết và 30 tiết thực hành  Tổng quan  Chuẩn bị dữ liệu  Tập phổ biến và luật kết hợp  Bài toán phân lớp  Bài toán gom nhóm  Các nghiên cứu xa hơn 6 Hình

Trang 1

KHAI THÁC DỮ LIỆU

& ỨNG DỤNG

(DATA MINING)

GV : ThS NGUYỄN HOÀNG TÚ ANH

2

NỘI DUNG

dữ liệu (DM)

Trang 2

GIỚI THIỆU MÔN HỌC

Tai sao chọn môn học này ?

Thế mạnh và nền tảng kiến thức :

TTNT, hệ QTCSDL, thống kê, kinh tế,…

Sự quan tâm đến kiến thức, vấn đề mới.

 Mục tiêu môn học :

 Cung cấp các khái niệm và kỹ thuật cơ bản của

khai thác dữ liệu (DM)

 Chuyển dữ liệu về dạng phù hợp

 Tìm tri thức từ dữ liệu

 Biểu diễn, đánh giá tri thức

 Ứng dụng của DM

 Các kỹ năng giải quyết vấn đề

4

Thông tin liên lạc

Giảng viên lý thuyết :

 Th.s Nguyễn Hoàng Tú Anh

nhtanh@fit.hcmus.edu.vn

Tel : 38354266 – 803

Website môn học :

 http://courses.cs.hcmus.edu.vn/

Trang 3

CHƯƠNG TRÌNH

45 tiết lý thuyết và 30 tiết thực hành

 Tổng quan

 Chuẩn bị dữ liệu

 Tập phổ biến và luật kết hợp

 Bài toán phân lớp

 Bài toán gom nhóm

 Các nghiên cứu xa hơn

6

Hình thức học

Lý thuyết:

Bài giảng : GV cung cấp slide theo tiến độ.

Bài tập theo nhóm và bài tập cá nhân.

Tìm hiểu, nghiên cứu tài liệu để báo cáo

xemina

Thực hành :

Hình thức 2

Sử dụng PM Weka

Cài đặt một số thuật toán

Trang 4

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

Hệ thống thang điểm:

Bài thi lý thuyết: 4.5 điểm

Bài tập theo nhóm và cá nhân: 1.5 điểm

Báo cáo xemina: 1.5 điểm

Bài tập thực hành hằng tuần: 2.5 điểm

Điểm cộng cho phần TH: tối đa 1 điểm

8

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

Thi lý thuyết: 4.5 điểm

 Thi viết, đựơc sử dụng tài liệu, KHÔNG sử dụng laptop,

mang theo máy tính : thời gian 120’

Bài tập theo nhóm và cá nhân: 1.5 điểm

 Bài tập làm theo nhóm và cá nhân trên lớp và qua Moodle

 Tối đa 4 SV/nhóm

Hạn chót đăng ký nhóm qua Moodle: 15/09/2009

Báo cáo xemina: 1.5 điểm

 Thực hiện theo nhóm đã đăng ký bài tập nhóm

(4SV/nhóm)

Các nhóm sẽ đăng ký nội dung xemina theo thông báo

trên website môn học.(trong tuần từ 21/9 -26/9)

Trang 5

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

Bài tập (theo nhóm và cá nhân): 1.5 điểm

 Bài tập làm theo nhóm hoặc cá nhân trên lớp và qua

Moodle hằng tuần.

Đánh giá sự tham gia lớp học và sự chuẩn bị bài

trong suốt quá trình học tập.

hằng tuần trên lớp và qua Moodle.

Đối với các bài tập làm theo nhóm, trưởng

nhóm cần thống kê tỷ lệ đóng góp của

từng thành viên trong nhóm.

10

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

Bài tập (theo nhóm và cá nhân): 1.5 điểm

Đánh giá sự tham gia lớp học và sự chuẩn bị bài

trong suốt quá trình học tập.

30% - bài tập cá nhân trong giờ học và 70% là bài

tập theo nhóm.

Để có thể đạt kết quả tốt, các SV cần xem trước bài

giảng để chuẩn bị.

Các mức đánh giá :

A – Xuất sắc 100% số điểm

B - Đạt yêu cầu ~70% số điểm

C - Không đạt yêu cầu ~30% số điểm

F - Không làm hoặc giống bài của SV khác 0% số điểm

Trang 6

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

Các nhóm sẽ đăng ký nội dung xemina theo

thông báo trên website môn học. (trong tuần

từ 21/9 -26/9)

Thứ tự báo cáo phụ thuộc vào nội dung các

nhóm đăng ký Bắt đầu xemina từ tuần thứ

10.

Trước buổi báo cáo, các nhóm phải gửi nội

dung trình bày (file.ppt) cho GV góp ý và post

lên website để các nhóm khác tham khảo.

12

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

Các nhóm sẽ đăng ký nội dung xemina theo thông báo

trên website môn học. (trong tuần từ 21/9 -26/9)

Điểm báo cáo xemina sẽ đánh giá trên nội dung trình

bày, trả lời câu hỏi tại buổi xemina, trên cả nội dung

của báo cáo chi tiết và sự tham dự các buổi xemina.

Trong tuần thứ 16, các nhóm sẽ post nội dung bản

báo cáo viết chi tiết (file doc theo mẫu) lên website

môn học.

Trong bài thi viết lý thuyết cuối kỳ sẽ có 1 câu hỏi

liên quan đến các nội dung xemina.

Trang 7

HÌNH THỨC KIỂM TRA VÀ

ĐÁNH GIÁ

Bài tập thực hành hằng tuần: 2.5 điểm

Bài tập làm theo nhóm Một nhóm : 2 SV

Số lượng : 4 bài Thời gian : 2 tuần/bài

Hạn chót đăng ký nhóm TH qua Moodle:

15/09/2009

Sử dụng phần mềm Weka để giải quyết một số bài toán

trong nội dung lý thuyết : xử lý DL, khai thác luật kết hợp,

phân lớp và gom nhóm

Có yêu cầu cài đặt một số thuật toán

Thời gian nộp qua website môn học theo thông báo của

GV HDTH.

14

Câu hỏi và đề nghị ?

Chia sẻ câu hỏi, thắc mắc với cả lớp – có

thể có những bạn khác cũng quan tâm.

 Bỏ vào càng nhiều công sức, các em sẽ đạt

được kết quả càng cao

Điểm của các em tỷ lệ thuận với các nỗ

lực đã bỏ ra.

Trang 8

TÀI LIỆU THAM KHẢO

 J.Han, M.Kamber, “Data mining : Concepts & Technique”

(ppt) – http://www.cs.sfu.ca/~han/dmbook

 P.Tan, M Steinbach, V Kumar, “Introduction to data

Mining”, 2006, -

http://www-users.cs.umn.edu/~kumar/dmbook/index.php

 Phần mềm WEKA - http://www.cs.waikato.ac.nz/ml/weka/

 Trang web đầu ngành về KTDL - Kdnuggets :

www.kdnuggets.com

16

NỘI DUNG

dữ liệu (DM)

Trang 9

VÍ DỤ : Tập Dữ liệu

age income student credit_rating buys_computer

<=30 medium yes excellent yes

31…40 medium no excellent yes

>40 medium no excellent no

18

THẾ NÀO LÀ KHAI THÁC DL

 Là quá trình lặp, không phải plug - and – play

“Khai thác dữ liệu là quá trình không tầm

thường của việc xác định các mẫu tiềm ẩn có

tính hợp lệ, mới lạ, có ích và có thể hiểu được tối

đa trong CSDL” –

- Fayyad, Piatetsky-Shapiro & Smyth, 1996

Trang 10

 Phân khúc thị trường : Ai mua sản phẩm

của công ty?

Mục tiêu hướng khách hàng (customer

targeting): Làm thế nào để tăng số mail trả

lời? Nên quảng cáo cái gì trên web site ?

 Những mặt hàng nào thường được khách

hàng mua cùng với nhau?

Ví dụ ứng dụng

Quản lý rủi ro -Risk Management

 Khách hàng nào có thể sẽ chuyển sang nhà

cung cấp dịch vụ khác?

Khách hàng nào có mức độ rủi ro tín dụng tốt?

 Giao dịch thẻ tín dụng nào bị lỗi hoặc gian

lận ?

Ví dụ ứng dụng

Trang 11

 Có phải tế bào ung thư ?

Nếu đúng thì mức độ phát triển như thế nào ?

Ví dụ ứng dụng

22

THẾ NÀO LÀ KHAI THÁC DL

 Tại sao cần Khai thác dữ liệu (KTDL)?

Những đối tượng nào sử dụng KTDL ?

 Sử dụng KTDL ở đâu và khi nào?

Sử dụng KTDL như thế nào ?

 Tại sao cần nghiên cứu KTDL?

Lịch sử phát triển KTDL ?

….

Xem bài 1 : Tổng quan

Trang 12

CÁC CÔNG VIỆC CẦN LÀM

1 Đăng nhập vào Moodle

 Để đăng ký tham gia vào lớp, thảo luận và lấy tài liệu

Hạn chót : 16/9/2009

 Sau ngày 16/9/09, Website môn học sẽ khoá lại

2. Đăng ký nhóm

Hạn chót đăng ký nhóm cho bài tập nhóm /xemina

(4Sv/nhóm) và cho bài tập Thực hành (2Sv/nhóm) qua

Moodle : 15/09/2009

Chuẩn bị sẵn BẢNG TÊN NHÓM và mang theo khi đến lớp

và tất cả các buổi học tiếp theo.

24

CÁC CÔNG VIỆC CẦN LÀM

 Xem nội dung bài tập nhóm số 1

liệu: nên chọn lựa một lĩnh vực nhỏ, một sản

phẩm cụ thể.

Cách thực hiện :

Đọc slide, xem các ví dụ

Tham khảo trên Internet các ví dụ về KTDL.

Ngày đăng: 25/07/2014, 15:21

HÌNH ẢNH LIÊN QUAN

Hình thức học - DATA MINING AND APPLICATION: TỔNG QUAN pdf
Hình th ức học (Trang 3)
HÌNH THỨC KIỂM TRA VÀ - DATA MINING AND APPLICATION: TỔNG QUAN pdf
HÌNH THỨC KIỂM TRA VÀ (Trang 4)
HÌNH THỨC KIỂM TRA VÀ - DATA MINING AND APPLICATION: TỔNG QUAN pdf
HÌNH THỨC KIỂM TRA VÀ (Trang 4)
HÌNH THỨC KIỂM TRA VÀ - DATA MINING AND APPLICATION: TỔNG QUAN pdf
HÌNH THỨC KIỂM TRA VÀ (Trang 5)
HÌNH THỨC KIỂM TRA VÀ - DATA MINING AND APPLICATION: TỔNG QUAN pdf
HÌNH THỨC KIỂM TRA VÀ (Trang 5)
HÌNH THỨC KIỂM TRA VÀ - DATA MINING AND APPLICATION: TỔNG QUAN pdf
HÌNH THỨC KIỂM TRA VÀ (Trang 6)
HÌNH THỨC KIỂM TRA VÀ - DATA MINING AND APPLICATION: TỔNG QUAN pdf
HÌNH THỨC KIỂM TRA VÀ (Trang 6)
HÌNH THỨC KIỂM TRA VÀ - DATA MINING AND APPLICATION: TỔNG QUAN pdf
HÌNH THỨC KIỂM TRA VÀ (Trang 7)

TỪ KHÓA LIÊN QUAN