ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ BÁO CÁO MÔN CƠ SỞ DỮ LIỆU NÂNG CAO ĐỀ TÀI: PHƯƠNG PHÁP PHÂN TÍCH CỤM TRONG KHAI PHÁ DỮ LIỆU KHÔNG GIAN GVHD : PGS.TS Nguyễn Hà Nam HVTH
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÁO CÁO MÔN
CƠ SỞ DỮ LIỆU NÂNG CAO
ĐỀ TÀI:
PHƯƠNG PHÁP PHÂN TÍCH CỤM
TRONG KHAI PHÁ DỮ LIỆU KHÔNG GIAN
GVHD : PGS.TS Nguyễn Hà Nam HVTH : Khúc Ngọc Hiệp
Nguyễn Quang Minh
Trang 2 Cơ sở dữ liệu không gian
Khai phá dữ liệu không gian
Phân tích cụm
NỘI DUNG TRÌNH BÀY
Trang 3Guting (1994) định nghĩa :
- Là một cơ sở dữ liệu
- Có các kiểu dữ liệu không gian trong mô hình dữ liệu và ngôn ngữ truy vấn của nó
- Hỗ trợ các kiểu dữ liệu không gian và cung cấp ít nhất là chỉ số không và một thuật toán hiệu quả
cho phép kết không gian
CƠ SỞ DỮ LIỆU KHÔNG GIAN
Trang 4Các đặc điểm của cơ sở dữ liệu không gian:
Các kiểu dữ liệu không gian Đánh chỉ số dữ liệu không gian
* Phép kết không gian (spatial joins)
Trang 5KHAI PHÁ DỮ LIỆU KHÔNG GIAN
Khai phá dữ liệu không gian là một lĩnh vực ứng dụng
đặc biệt của khai phá dữ liệu
Khai phá dữ liệu không gian là quá trình khám phá các
mẫu đáng chú ý, có ích tiềm tàng, chưa biết trước từ các tập dữ liệu không gian lớn
Trang 6KHAI PHÁ DỮ LIỆU KHÔNG GIAN
Đặc điểm của khai phá dữ liệu không gian:
Cấu trúc dữ liệu không gian
Tập dữ liệu không gian
Thu thập dữ liệu không gian
Phụ thuộc không gian
Tính tạm thời của dữ liệu không gian
Các nhân tố khác liên quan đến những kỹ thuật và
khái niệm của kiến thức không gian:
Các kỹ thuật khai phá dữ liệu không gian
Các mô hình khái niệm dữ liệu không gian
Trang 7 Phân tích cụm hay phân cụm là công việc gán một tập các đối tượng lại thành các nhóm
Phân cụm là một trong những nhiệm vụ chính của
khai phá dữ liệu, là một kỹ thuật chung cho phân tích
dữ liệu thống kê
Phân tích cụm bản thân nó không phải là một thuật
toán riêng, mà là một nhiệm vụ chung cần được giải quyết
PHÂN TÍCH CỤM
Trang 8PHÂN TÍCH CỤM
Các thuật toán phân cụm:
1 Phân cụm thứ bậc 3 Phân cụm dựa vào tâm
2 Phân cụm theo phân bố 4 Phân cụm theo mật độ
các yêu cầu riêng cho các thuật toán phân cụm:
Cần các thuật toán hiệu quả và mở rộng được
Các thuật toán có thể xác định được các hình không theo quy luật
Các phương pháp phân cụm không nhạy cảm với lượng lớn nhiễu.
Các thuật toán không nhạy cảm với thứ tự của dữ liệu vào
Không yêu cầu có kiến thức trước về dữ liệu
Trang 9PHÂN TÍCH CỤM
Phân cụm theo phân bố:
vào Mỗi bảng ghi đầu vào được đọc liên tiếp Sự giống nhau của mỗi bản ghi với một trong những cụm đã tồn tại được tính toán
Phân cụm theo phân bố sử dụng tiêu chuẩn gà chọi
để quản lý tính toán của độ giống nhau giữa các bản ghi, giữa bản ghi với các cụm và giữa các cụm với
các cụm
Thuật toán tối ưu hóa mong muốn (EM-clustering)
Trang 10PHÂN TÍCH CỤM
Tập dữ liệu thường
được mô hình hóa là
một số cố định (để loại
trừ overfitting) của các
được khởi tạo ngẫu
nhiên và các tham số
của nó được tối ưu
hóa qua các bước lặp
để phù hợp hơn với
tập dữ liệu
Trang 11CHÂN THÀNH CẢM ƠN!
Trang 12Hình 1: Kiểu dữ liệu không gian trong Oracle Spatial
Hình 2: Kiểu dữ liệu không gian trong DB2 Spatial Extender
Trang 13Hình 3: Thứ tự đánh chỉ số trong R-tree
Hình 4: Mối liên hệ không gian giữa các mức trong R-tree