Với sự phát triển mạnh mẽ của máy tính và các mạng viễn thông, người ta đã xây dựng được nhiều hệ CSDL lớn tập trung hoặc phân tán, nhiều hệ quản trị CSDL mạnh với các công cụ phong phú
Trang 1MỤC LỤC
MỤC LỤC 1
LỜI CAM ĐOAN Error! Bookmark not defined LỜI CẢM ƠN Error! Bookmark not defined DANH MỤC TỪ VIẾT TẮT 3
DANH MỤC HÌNH BẢNG 4
MỞ ĐẦU 5
CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 7
1.1 Khai phá dữ liệu 7
1.1.1 Hình thành và định nghĩa bài toán 8
1.1.2 Thu thập và tiền xử lý dữ liệu 8
1.1.3 Khai phá dữ liệu và rút ra các tri thức 9
1.1.4 Phân tích và kiểm định kết quả 10
1.1.5 Sử dụng các tri thức phát hiện được 10
1 2 Quá trình khai phá dữ liệu 11
1.3 Các phương pháp khai phá dữ liệu 14
1.3.1 Phân lớp dữ liệu 14
1.3.2 Phân cụm dữ liệu 14
1.3.3 Khai phá luật kết hợp 15
1.3.4 Hồi quy 15
1.3.5 Giải thuật di truyền 15
1.3.6 Mạng nơron 15
1.3.7 Cây quyết định 16
1.4 Nhu cầu khai phá dữ liệu 17
1.5 Kết luận 17
CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ 18
2.1 Phương pháp thống kê toán học 18
2.1.1 Biến ngẫu nhiên 18
2.1.2 Các ví dụ 19
2.1.3 Các số đặc trưng 20
2.2 Khai phá dữ liệu với phương pháp thống kê 21
2.3 Tri thức nền tảng 22
2.3.1 Các phương pháp quan tâm 23
2.3.2 Trình diễn và trực quan của các mẫu được khai phá 23
Trang 22.4 Dữ liệu liên quan tới nhiệm vụ 23
2.4.1 Dữ liệu thích hợp với nhiệm vụ 23
2.4.2 Kiểu tri thức được khai phá 24
2.4.3 Kiến thức nền tảng 24
2.4.4 Các phép đo sự hấp dẫn của mẫu 24
2.4.5 Hình ảnh hóa của các mẫu được khai phá 24
2.5 Các loại tri thức được khai phá 26
2.5.1 Phân cấp khái niệm 27
2.5.2 Phân cấp lược đồ 30
2.5.3 Phân cấp theo nhóm 30
2.5.4 Phân cấp theo thao tác 31
2.5.5 Phân cấp theo luật 32
2.5.6 Độ đo về tiêu chí quan tâm 32
2.6 Thể hiện và trực quan của các mẫu được phát hiện 36
2.7 Phân tích thành phần chính 38
2.8 Kết luận 43
CHƯƠNG 3 KHAI PHÁ DỮ LIỆU TẠI TRUNG TÂM 44
3.1 Về cơ sở đào tạo 44
3.2 Công cụ OLAP 47
3.2.1 Về OLAP 47
3.2.2 Mô hình dữ liệu đa chiều 47
3.2.3 Giới thiệu dịch vụ OLAP của Microsoft SQL Server 50
3.2.4 So sánh OLAP với OLTP 51
3.2.5 Các mô hình lưu trữ hỗ trợ OLAP 52
3.2.6.Kiến trúc khối của OLAP 56
3.2.7 Mô hình kiến trúc dịch vụ OLAP 57
3.3 Dữ liệu về đào tạo 60
3.3.1 Dữ liệu 60
3.3.2 Khai phá dữ liệu 61
3.4 Kết luận 62
KẾT LUẬN 63
Một số vấn đề đã giải quyết 63
Phương hướng tiếp tục nghiên cứu 64
TÀI LIỆU THAM KHẢO 65
Trang 3DANH MỤC TỪ VIẾT TẮT
OLAP Xử lí phân tích dữ liệu trực tuyến
Trang 4DANH MỤC HÌNH BẢNG
Hình 1.1 Khai phá dữ liệu 7
Hình 1.2 Xử lí dữ liệu 9
Hình 1.3 Tri thức 10
Hình 1.4 Quá trình khai phá dữ liệu 12
Hình 1.5 Kiến trúc hệ thống khai phá dữ liệu 13
Hình 1.6 Phân lớp dữ liệu 14
Hình 1.7 Phân cụm dữ liệu 14
Hình 1.8 Mạng Nơron 16
Hình 1.9 Cây quyết định 16
Hình 2.1 Dữ liệu liên quan đến nhiệm vụ 22
Hình 2.2 Thí dụ về phân phối hàng 28
Hình 2.3 Các mẫu thể hiện 37
Hình 2.4 Dữ liệu thí dụ cho PCA 40
Hình 2.5 Đường dữ liệu chuẩn hoá (đã trừ trung bình) 42
Hình 3.1 Trang tin của Trung tâm 45
Hình 3.2 Kế hoạch dạy và học của Trung tâm 46
Hình 3.3 Địa bàn tổ chức đào tạo của Trung tâm 46
Hình 3.4 Mô phỏng các chiều trong kinh doanh 48
Hình 3.5 Kiến trúc OLAP 50
Hình 3.6 Mô hình dữ liệu MOLAP 52
Hinh 3.7 Mô hình dữ liệu ROLAP 54
Hình 3.8 Mô hình dữ liệu HOLAP 55
Hình 3.9 Kiến trúc dịch vụ OLAP 58
Hình 3.10 Kiến trúc thành phần Server 58
Hình 3.11 Kiến trúc thành phần Khách 59
Hình 3.12 Dữ liệu gốc 61
Hình 3.13 Thí dụ sử dụng OLAP với bảng xoay 61
Hình 3.14 Thí dụ sử dụng nhiều tham số cột xoay 62
Trang 5MỞ ĐẦU
Ngày nay, xã hội con người thực hiện cuộc cách mạng về thông tin Tri thức được đánh giá như là quyền lực và tiền bạc Xã hội cũng dần chuyển sang xã hội tri thức, tức các sản phẩm quốc dân có hàm lượng tri thức cao Công nghệ thông tin đáp ứng nhu cầu xử lý dữ liệu và tri thức Bên cạnh công nghệ phần mềm là công nghệ tri thức Công nghệ tri thức được nghiên cứu nhằm tích lũy tri thức của chuyên gia, làm máy tính thực hiện những chức năng thông minh như người, đồng thời làm con người cũng tự nâng cao bản thân
Cuộc cách mạng thông tin kỹ thuật số đã đem lại những thay đổi sâu sắc trong xã hội và trong cuộc sống của chúng ta Những thuận lợi mà thông tin kỹ thuật số mang lại cũng sinh ra những thách thức và cơ hội mới cho quá trình đổi mới Mạng Internet toàn cầu đã biến thành một xã hội ảo nơi diễn ra quá trình trao đổi thông tin trong mọi lĩnh vực chính trị, quân sự, quốc phòng, kinh tế, thương mại…Trong hệ thống đào tạo Đại học và sau Đại học về Công nghệ thông tin, các chủ đề về Trí tuệ nhân tạo, hệ chuyên gia, dịch tự động…đều liên quan đến tri thức Nhiều ứng dụng về Công nghệ thông tin đã và đang sử dụng tri thức như dữ liệu Meta, điều khiển quá trình xử lý dữ liệu
Hiện nay trong nhiều cơ sở đào tạo có nhiều phần mềm cho phép xử lý dữ liệu Những dữ liệu liên quan đến công tác đào tạo gồm: Các kết quả dạy và học, những học liệu điện tử, các giáo trình số hóa…ngày càng nhiều, cần được xử lý một cách khoa học Vấn đề khai phá các dữ liệu có áp dụng công nghệ ngày càng được
sử dụng nhiều hơn trên nhiều lĩnh vực và ngay cả trong lĩnh vực giáo dục Chính vì vậy, tôi chọn đề tài: “Phân tích thành phần chính phục vụ xử lý dữ liệu đào tạo” Vấn đề nghiên cứu và ứng dụng thuộc phạm vi mã ngành Khoa học máy tính, mã số 60.48.01 về khai phá dữ liệu Trong phạm vi nghiên cứu này tôi xin trình bày các nội dung sau:
Trang 6 Chương 1: Tổng quan về kĩ thuật khai phá dữ liệu
Chương này đề cập đến kĩ thuật khai phá dữ liệu, các phương pháp khai phá dữ liệu và nhu cầu của khai phá dữ liệu
Chương 2: Một số phương pháp xử lí dữ liệu nhờ thống kê
Chương này trình bày các phương pháp thống kê, các thành phần đặc trưng của dữ liệu và cách chọn, phân tích và đánh giá thành phần dữ liệu chính
Chương 3: Phân tích dữ liệu phục vụ công tác đào tạo
Chương này xây dựng, phân tích thiết kế và mô phỏng chương trình thử nghiệm
Kết luận sẽ là đánh giá kết quả đạt được và các vấn đề tồn tại cần khắc phục tiếp Phần cuối luận văn là danh sách các tài liệu tham khảo, sử dụng trong quá trình chuẩn bị luận văn
Trang 7CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 Khai phá dữ liệu
Việc dùng các phương tiện tin học để tổ chức và khai thác các CSDL đã được phát triển từ những năm 60, nhiều CSDL đã được tổ chức, phát triển và khai thác ở mọi qui mô và khắp các lĩnh vực hoạt động của xã hội Với sự phát triển mạnh mẽ của máy tính và các mạng viễn thông, người ta đã xây dựng được nhiều hệ CSDL lớn tập trung hoặc phân tán, nhiều hệ quản trị CSDL mạnh với các công cụ phong phú và thuận tiện giúp con người khai thác có hiệu quả các nguồn tài nguyên
dữ liệu trong các hoạt động kinh tế xã hội Sự phát triển nhanh chóng của một lượng lớn dữ liệu được thu thập và lưu trữ trong các CSDL lớn đã vượt ra ngoài khả năng của con người có thể hiểu được chúng nếu không có những công cụ hỗ trợ tốt Kết quả là, dữ liệu thu thập được trong một lượng lớn CSDL đã trở thành những đống
dữ liệu mà ít khi được xem xét đến Do vậy, việc đưa ra những quyết định thường không dựa vào những thông tin hoặc dữ liệu thu thập được mà chỉ dựa vào nhận thức, suy đoán của người đưa ra quyết định Đơn giản là vì họ không có những công
cụ giúp cho việc lấy ra những tri thức từ lượng lớn dữ liệu Tình huống này đã đặt chúng ta trong hoàn cảnh nhiều dữ liệu nhưng thiếu thông tin, thiếu tri thức Với một khối lượng lớn dữ liệu như vậy rõ ràng là các phương pháp thủ công truyền thống áp dụng để phân tích dữ liệu như chia bảng không còn là phù hợp nữa Chính
vì vậy, có một kỹ thuật mới ra đời đó là “Khai phá dữ liệu”
Hình 1.1 Khai phá dữ liệu
Trang 8Khai phá dữ liệu là một ngữ tương đối mới, nó ra đời vào khoảng những năm cuối của của thập kỷ 1980 Có rất nhiều định nghĩa khác nhau về khai phá dữ liệu Giáo sư Tom Mitchell đã đưa ra định nghĩa của khai phá dữ liệu như sau: “Khai phá
dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải thiện những quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn, tiến sĩ Fayyad đã phát biểu: ”Khai phá dữ liệu thường được xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có khả năng hữu ích, dưới dạng các quy luật, ràng buộc, qui tắc trong
cơ sở dữ liệu.” Còn các nhà thống kê thì xem " khai phá dữ liệu như là một quá trình phân tích được thiết kế thăm dò một lượng cực lớn các dữ liệu nhằm phát hiện
ra các mẫu thích hợp và / hoặc các mối quan hệ mang tính hệ thống giữa các biến và sau đó sẽ hợp thức hoá các kết quả tìm được bằng cách áp dụng các mẫu đã phát hiện được cho tập con mới của dữ liệu"
Nói tóm lại: khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có các thụât toán khai thác dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Phát hiện tri thức trong các cơ sở dữ liệu là một qui trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể hiểu được
1.1.1 Hình thành và định nghĩa bài toán
Đây là bước tìm hiểu lĩnh vực ứng dụng và hình thành bài toán, bước này sẽ quyết định cho việc rút ra những tri thức hữu ích, đồng thời lựa chọn các phương pháp khai phá dữ liệu thích hợp với mục đích của ứng dụng và bản chất của dữ liệu
1.1.2 Thu thập và tiền xử lý dữ liệu
Trong bước này dữ liệu được thu thập ở dạng thô (nguồn dữ liệu thu thập có thể là từ các kho dữ liệu hay nguồn thông tin Internet) Trong giai đoạn này dữ liệu cũng được tiền xử lý để biến đổi và cải thiện chất lượng dữ liệu cho phù hợp với phương pháp khai phá dữ liệu được chọn lựa trong bước trên
Trang 9 Chuẩn hoá: miền giá trị của dữ liệu sẽ được chuẩn hoá
Rời rạc hoá: các dạng dữ liệu số sẽ được biến đổi ra các giá trị rời rạc
Rút trích và xây dựng đặc trưng mới từ các thuộc tính đã có
Giảm chiều: các thuộc tính chứa ít thông tin sẽ được loại bỏ bớt
1.1.3 Khai phá dữ liệu và rút ra các tri thức
Đây là bước quan trọng nhất trong tiến trình khám phá tri thức Kết quả của bước này là trích ra được các mẫu và/hoặc các mô hình ẩn dưới các dữ liệu Một mô hình có thể là một biểu diễn cấu trúc tổng thể một thành phần của hệ thống hay cả
Trang 10hệ thống trong cơ sở dữ liệu, hay miêu tả cách dữ liệu được nảy sinh Còn một mẫu
là một cấu trúc cục bộ có liên quan đến vài biến và vài trường hợp trong cơ sở dữ liệu
1.1.4 Phân tích và kiểm định kết quả
Bước thứ tư là hiểu các tri thức đã tìm được, đặc biệt là làm sáng tỏ các mô
tả và dự đoán Trong bước này, kết quả tìm được sẽ được biến đổi sang dạng phù hợp với lĩnh vực ứng dụng và dễ hiểu hơn cho người dùng
Hình 1.3 Tri thức
1.1.5 Sử dụng các tri thức phát hiện được
Trong bước này, các tri thức khám phá được sẽ được củng cố, kết hợp lại thành một hệ thống, đồng thời giải quyết các xung đột tiềm năng trong các tri thức
đó Các mô hình rút ra được đưa vào những hệ thống thông tin thực tế dưới dạng các modul hỗ trợ việc đưa ra quyết định Các giai đoạn của quá trình khám phá tri thức có mối quan hệ chặt chẽ với nhau trong bối cảnh chung của hệ thống Các kỹ thuật được sử dụng trong giai đoạn trước có thể ảnh hưởng đến hiệu quả của các giải thuật được sử dụng trong các giai đoạn tiếp theo Các bước của quá trình khám
Trang 11phá tri thức có thể được lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện
1 2 Quá trình khai phá dữ liệu
Khai phá dữ liệu là hoạt động trọng tâm của quá trình khám phá tri thức Thuật ngữ khai phá dữ liệu còn được một số nhà khoa học gọi là phát hiện tri thức trong cơ sở dữ liệu
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra Nội dung của quá trình như sau:
1 Gom dữ liệu : Tập hợp dữ liệu là bước đầu tiên trong khai phá dữ liệu Bước này lấy dữ liệu từ trong một cơ sở dữ liệu, một kho dữ liệu, thậm chí dữ liệu từ những nguồn cung ứng web
2 Trích lọc dữ liệu : Ở giai đoạn này dữ liệu được lựa chọn và phân chia theo một số tiêu chuẩn nào đó
3 Làm sạch và tiền xử lý dữ liệu : Giai đoạn thứ ba này là giai đoạn hay bị sao nhãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu Một số lỗi thường mắc phải trong khi gom dữ liệu là dữ liệu không đầy đủ hoặc không thống nhất, thiếu chặt chẽ Vì vậy dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu Ví
dụ Sinh viên có tuổi = 200 Giai đoạn thứ ba này nhằm xử lý các dữ liệu như trên (dữ liệu vô nghĩa, dữ liệu không có khả năng kết nối) Những dữ liệu dạng này thường được xem là thông tin dư thừa, không có giá trị Bởi vậy đây là một quá trình rất quan trọng Nếu dữ liệu không được làm sạch- tiền xử lý - chuẩn bị trước thì sẽ gây nên những kết quả sai lệch nghiêm trọng về sau
Trang 12Hình 1.4 Quá trình khai phá dữ liệu
4 Chuyển đổi dữ liệu : Trong giai đoạn này, dữ liệu có thể được tổ chức và
sử dụng lại Mục đích của việc chuyển đổi dữ liệu là làm cho dữ liệu phù hợp hơn với mục đích khai phá dữ liệu
5 Phát hiện và trích mẫu dữ liệu : Đây là bước tư duy trong khai phá dữ liệu Ở trong giai đoạn này nhiều thuật toán khác nhau đã được sử dụng
để trích ra các mẫu từ dữ liệu Thuật toán thường dùng để trích mẫu dữ liệu là thuật toán phân loại dữ liệu, kết hợp dữ liệu, thuật toán mô hình hoá dữ liệu tuần tự
6 Đánh giá kết quả mẫu : đây là giai đoạn cuối cùng trong quá trình khai phá dữ liệu, ở giai đoạn này các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải mẫu dữ liệu nào cũng hữu ích, đôi khi
nó còn bị sai lệch Vì vậy cần phải đưa ra những tiêu chuẩn đánh giá độ
ưu tiên cho các mẫu dữ liệu để rút ra được những tri thức cần thiêt
Trang 13Hình 1.5 Kiến trúc hệ thống khai phá dữ liệu
Kiến trúc của hệ thống khai phá dữ liệu có thể chia thành các thành phần chính như trong hình
Kho dữ liệu: là một tập các cơ sở dữ liệu, các công cụ làm sạch dữ liệu và tích hợp dữ liệu có thể thực hiện trên chúng
Cơ sở tri thức: là yếu tố tri thức được dùng để đánh giá các mẫu kết quả khai phá được
Kỹ thuật khai phá: là các công cụ để thực hiện các nhiệm vụ: mô tả, kết hợp, phân lớp, phân nhóm dữ liệu
Công cụ đánh giá mẫu: gồm một số modul sử dụng các độ đo và tương tác với các modul khai phá dữ liệu để tập trung vào các thuộc tính cần quan tâm
Biểu diễn dạng đồ hoạ: modul này giao tiếp giữa người dùng và hệ thống khai phá dữ liệu
Trang 141.3 Các phương pháp khai phá dữ liệu
1.3.1 Phân lớp dữ liệu
Mục tiêu của phân lớp dữ liệu đó là dự đoán nhãn lớp cho các mẫu dữ liệu Quá trình gồm hai bước: xây dựng mô hình, sử dụng mô hình để phân lớp dữ liệu (mỗi mẫu một lớp) Mô hình được sử dụng để dự đoán nhãn lớp khi mà độ chính xác của mô hình chấp nhận được
Trang 151.3.3 Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Đầu ra của giải thuật luật kết hợp là tập luật kết hợp tìm được Phương pháp khai phá luật kết hợp gồm có hai bước:
1 Bước 1: Tìm ra tất cả các tập mục phổ biến Một tập mục phổ biến được xác định thông qua tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu
2 Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thoả mãn độ hỗ trợ và độ tin cậy cực tiểu
1.3.4 Hồi quy
Phương pháp hồi quy tương tự như là phân lớp dữ liệu Nhưng khác ở chỗ
nó dùng để dự đoán các giá trị liên tục còn phân lớp dữ liệu dùng để dự đoán các giá trị rời rạc
1.3.5 Giải thuật di truyền
Là quá trình mô phỏng theo tiến hoá của tự nhiên Ý tưởng chính của giải thuật là dựa vào quy luật di truyền trong biến đổi, chọn lọc tự nhiên và tiến hoá trong sinh học
1.3.6 Mạng nơron
Đây là một trong những kỹ thuật khai phá dữ liệu được ứng dụng phổ biến hiện nay Kỹ thuật này phát triển dựa trên một nền tảng toán học vững vàng, khả năng huấn luyện trong kỹ thuật này dựa trên mô hình thần kinh trung ương của con người
Kết quả mà mạng nơron học được có khả năng tạo ra các mô hình dự báo,
dự đoán với độ chính xác và độ tin cậy cao Nó có khả năng phát hiện ra được các
xu hướng phức tạp mà kỹ thuật thông thường khác khó có thể phát hiện ra được Tuy nhiên phương pháp mạng nơ ron rất phức tạp và quá trình tiến hành nó gặp rất nhiều khó khăn: đòi hỏi mất nhiều thời gian, nhiều dữ liệu, nhiều lần kiểm tra thử nghiệm
Trang 16Hình 1.8 Mạng Nơron
1.3.7 Cây quyết định
Kỹ thuật cây quyết định là một công cụ mạnh và hiệu quả trong việc phân lớp và dự báo Các đối tượng dữ liệu được phân thành các lớp Các giá trị của đối tượng dữ liệu chưa biết sẽ được dự đoán, dự báo Tri thức được rút ra trong kỹ thuật này thường được mô tả dưới dạng tường minh, đơn giản, trực quan, dễ hiểu đối với người sử dụng
Hình 1.9 Cây quyết định
Trang 171.4 Nhu cầu khai phá dữ liệu
Hiện nay nhu cầu khai phá thông tin từ các cơ sở dữ liệu lớn ngày càng nhiều Phát hiện tri thức và khai phá dữ liệu được ứng dụng trong nhiều ngành và lĩnh vực khác nhau như: tài chính ngân hàng, thương mại, y tế, giáo dục, thống kê, máy học, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán toán học, tính toán song song với tốc độ cao, thu thập cơ sở tri thức cho hệ chuyên gia,… Chính từ nhu cầu khai phá
dữ liệu mạnh mẽ trong nhiều lĩnh vực đời sống xã hội đã tạo ra các phương pháp khai phá dữ liệu linh động, uyển chuyển để xử lý số lượng dữ liệu lớn một cách hiệu quả Tạo ra tương tác người sử dụng tốt, giúp người sử dụng tham gia điều khiển quá trình khai phá dữ liệu, định hướng hệ thống khai phá dữ liệu trong việc phát hiện các mẫu đáng quan tâm Tích hợp khai phá dữ liệu vào trong các hệ cơ sở
dữ liệu Ứng dụng khai phá dữ liệu để khai phá dữ liệu web trực tuyến Một vấn đề quan trọng trong việc phát triển khám phá tri thức và khai phá dữ liệu đó là vấn đề
an toàn và bảo mật thông tin trong khai phá dữ liệu
1.5 Kết luận
Chương đầu đã trình bày một số phương pháp khai phá dữ liệu, một số kĩ thuật đã sử dụng trong nhiều ngành để chỉ ra tri thức hay dữ liệu mới Khai phá dữ liệu có nhu cầu trong công tác xử lí dữ liệu, cũng như trong công tác quản lý nói chung Việc sử dụng các phương pháp khai phá dữ liệu có ý nghĩa trong quản lý đào tạo, đặc biệt cho Trung tâm đào tạo tại tỉnh miền núi của đất nước
Trang 18CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU NHỜ THỐNG KÊ
2.1 Phương pháp thống kê toán học
Trong thống kê toán học chủ yếu tìm hiểu về một số phương pháp thống kê
cơ bản như: Biến (mẫu) ngẫu nhiên và các số đặc trưng, ước lượng tham số, kiểm định giả thiết, phân tích phương sai và phân tích hồi quy
2.1.1 Biến ngẫu nhiên
Biến ngẫu nhiên (thực) là biến nhận giá trị là các số thực phụ thuộc vào kết quả của các phép thử ngẫu nhiên Ta thường dùng các chữ cái in hoa X, Y, Z … để chỉ các biến ngẫu nhiên và các chữ cái thường x,y,z…hoặc xi, yj…để chỉ các giá trị ngẫu nhiên mà các biến đó nhận
Ví dụ 1: Tung đồng thời hai con xúc xắc Gọi X là tổng số chấm ở hai mặt trên, X là biến ngẫu nhiên có thể nhận giá trị từ 2 đến 12
Ví dụ 2: Một người nhắm bắn vào bia cho tới khi nào trúng bia thì ngừng, Gọi Y là số đạn cần dùng Y là một biến ngẫu nhiên nhận các giá trị từ 1,2, ,n…
Ví dụ 3: Thắp sáng liên tục một bóng đèn điện cho tới khi dây tóc của bóng đèn bị cháy, gọi Z là thời gian bóng đèn sáng, Z là một biến ngẫu nhiên
Qua ví dụ trên ta nhận thấy có hai loại biến ngẫu nhiên:
1 Loại thứ nhất là biến ngẫu nhiên chỉ nhận một số hữu hạn hay vô hạn đếm được các giá trị (Một tập được gọi là hữu hạn nếu tồn tại một phép tương ứng một – một tới tập các số tự nhiên N)
2 Loại thứ hai là biến ngẫu nhiên mà nó có thể nhận giá trị trong một khoảng hoặc một số khoảng thực nào đó Loại biến ngẫu nhiên thứ nhất gọi là biến ngẫu nhiên rời rạc Loại biến ngẫu nhiên thứ hai gọi là biến ngẫu nhiên liên tục
Trang 19Bảng phân phối xác suất của biến ngẫu nhiên rời rạc: Bảng phân phối xác suất của một biến ngẫu nhiên X là một bảng gồm 2 dòng: Dòng trên ghi các giá trị
có thể có của biến ngẫu nhiên X, dòng dưới ghi các xác suất tương ứng Nếu X nhận một số hữu hạn các giá trị thì bảng phân phối xác suất của X là:
Nếu X nhận một số vô hạn đếm các giá trị thì bảng phân phối xác suất của X là:
cả hai xuất hiện mặt ngửa anh ta mất 40 đồng còn xuất hiện một sấp một ngửa anh
ta mất 30 đồng Gọi X là số tiền anh ta nhận được sau một ván chơi Lập bảng phân phối xác suất của X
Nhận thấy X có thể nhận các giá trị - 40, -30, 100 tương ứng với việc mất 40 đồng, mất 30 đồng và nhận được 100 đồng
Vậy bảng phân phối xác suất của X là:
Trang 20Ví dụ 2: Một người nhắm bắn vào một mục tiêu cho tới khi trúng đích thì dừng Các lần bắn độc lập, xác suất trúng đích của mỗi lần bắn là p (0 < p< 1) Gọi
Z là số đạn phải dùng Lập bảng phân phối xác suất của Z
Nhận thấy Z có thể nhận các giá trị 1,2 …,n,…
P (Z=n)= qn-1p (q=1-p) Vậy bảng phân phối xác suất của Z là
2.1.3 Các số đặc trưng
Kì vọng : Nếu biến ngẫu nhiên X có bảng phân phối xác suất
Thì kì vọng toán (hoặc vọng số) của X là số kí hiệu là M (X) hya E (X) cho bởi
Nếu biến ngẫu nhiên X nhận vô hạn đếm được các giá trị có bảng phân phối xác suất:
Trang 21Và nếu hội tụ thì kì vọng toán của X là M (X) hoặc E (X) cho bởi
Nếu biến ngẫu nhiên X có hàm mật độ xác suất f(x) và nếu hội tụ thì kì vọng toán của X là số
Từ các định nghĩa ta nhận thấy:
1 Định nghĩa chỉ ra cách tính kì vọng toán của biến ngẫu nhiên
2 Các biến ngẫu nhiên rời rạc nhận một số hữu hạn các giá trị luôn có kì vọng toán
3 Các biến ngẫu nhiên rời rạc nhận một số vô hạn đếm được hoặc không đếm được các giá trị có thể không có giá trị kì vọng
4 Kì vọng của biến ngẫu nhiên X là giá trị đặc trưng cho vị trí (trọng tâm hoặc trung tâm) của biến ngẫu nhiên
5 Kì vọng còn được gọi là trung bình số học của biến ngẫu nhiên
2.2 Khai phá dữ liệu với phương pháp thống kê
Nhiệm vụ của khai phá dữ liệu là mỗi một người dùng sẽ có một chức năng, nhiệm vụ khai phá dữ liệu trong đầu Thí dụ người ta có dạng phân tích dữ liệu muốn thể hiện Một nhiệm vụ khai phá dữ liệu có thể được đặc tả theo dạng ngôn ngữ hỏi khai phá dữ liệu, xác định đầu vào, đầu ra của hệ thống
Ngôn ngữ hỏi khai phá dữ liệu được định nghĩa theo các thuật ngữ sau :
Trang 22Hình 2.1 Dữ liệu liên quan đến nhiệm vụ
Đây là phần cơ sở dữ liệu được nghiên cứu tỉ mỉ Thí dụ là người quản lý bán hàng Người ta muốn nghiên cứu về xu hướng mua hàng của các khách hàng Thay vì khai thác trên toàn bộ cơ sở dữ liệu, người ta có thể chỉ ra rằng chỉ dữ liệu liên quan đến việc mua hàng của khách hàng cần được lấy ra cùng với thông tin khách hàng liên quan
Có thể chỉ ra các thuộc tính quan tâm để được xem xét trong quá trình khai
phá Những thuộc tính này gọi là thuộc tính liên quan Thí dụ chỉ quan tâm tới việc
nghiên cứu giữa các mối quan hệ, các mặt hàng được mua, lương và tuổi của khách
hàng hàng năm, các thuộc tính name của quan hệ item, income và age của quan hệ customer có thể được đặc tả như là các thuộc tính thích hợp cho quá trình khai phá
Phần của cơ sở dữ liệu được khai phá gọi là khung nhìn nhỏ, có thể được sắp xếp hoặc nhóm theo một hoặc một tập các thuộc tính hay các chiều
2.3 Tri thức nền tảng
Nó chỉ ra những chức năng của khai phá dữ liệu được thực hiện Như là các đặc tính, nhận thức, sự kết hợp, sự phân lớp, sự phân nhóm hoặc phân tích quá trình tiến hóa
Người dùng có thể xác định kiến thức nền hoặc kiến thức thuộc miền được khai thác Các kiến thức này có ích trong việc hướng dẫn quá trình khai phá tri thức
và đánh giá các mẫu được phát hiện Có nhiều loại kiểu kiến thức nền Trong
Trang 23chương này ta tập chung thảo luận về một kiểu kiến thức nền tảng phổ biến được biết như là phân cấp khái niệm Phân cấp khái niệm rất có ích ở chỗ nó cho phép dữ liệu được khai phá ở nhiều mức độ trừu tượng Các thí dụ khác bao gồm niềm tin của người sử dụng về các mối quan hệ trong dữ liệu Điều này có thể được sử dụng
để đánh giá các mẫu được khai phá theo mức độ của đột xuất, bất ngờ khi các mẫu không mong muốn được cho rằng là hấp dẫn
2.3.1 Các phương pháp quan tâm
Các chức năng này được sử dụng để tách các mẫu không mong muốn từ tri thức Chúng được sử dụng để hướng dẫn quá trình khai phá hoặc sau khi khai phá
để đánh giá các mẫu khai phá Các kiểu tri thức khác nhau có các phương pháp thú
vị khác nhau Thí dụ các phương pháp cho các luật liên kết bao gồm sự hỗ trợ (phần trăm của dữ liệu thích hợp mà trong luật mẫu xuất hiện) và sự tự tin (sức mạnh của
sự hàm ý trong luật) Các luật mà giá trị hỗ trợ và giá trị tự tin là dưới ngưỡng của
người dùng đặc tả là được xem như là không hấp dẫn
2.3.2 Trình diễn và trực quan của các mẫu được khai phá
Điều này nói đến dạng hiển thị của các mẫu được khai phá Người sử dụng
có thể chọn các các dạng khác nhau cho việc trình diễn tri thức như là các bảng luật, biểu đồ, đồ thị, cây quyết định và hình khối
2.4 Dữ liệu liên quan tới nhiệm vụ
Khái niệm nguyên thủy đầu tiên là đặc tả của dữ liệu khai phá được thể hiện Thông thường một người sử dụng chỉ quan tâm một tập con của cơ sở dữ liệu Không thực tế để khai phá bừa bãi toàn bộ cơ sở dữ liệu Cụ thể bởi vì số lượng mẫu sinh ra có thể là cấp số nhân so với kích thước của cơ sở dữ liệu Hơn nữa các mẫu được phát hiện có thể là không thích hợp với mối quan tâm của người sử dụng
2.4.1 Dữ liệu thích hợp với nhiệm vụ
Cơ sở dữ liệu hoặc tên kho dữ liệu
Các bảng cơ sở dữ liệu hoặc các khối kho dữ liệu
Trang 24 Các điều kiện cho sự lựa chọn dữ liệu
Các chiều hoặc các thuộc tính thích hợp
Các điều kiện gom nhóm dữ liệu
2.4.2 Kiểu tri thức được khai phá
Phân cấp khái niệm
Sự tin tưởng của người sử dụng về các mối quan hệ trong dữ liệu
2.4.4 Các phép đo sự hấp dẫn của mẫu
Tính đơn giản
Sự chắc chắn, tự tin
Tiện ích
Sự mới lạ
2.4.5 Hình ảnh hóa của các mẫu được khai phá
Trong một cơ sở dữ liệu quan hệ, tập dữ liệu liên quan tới chức năng có thể được thu được nhờ câu hỏi quan hệ liên quan tới các thao tác như chọn, chiếu, nối
và gộp Việc truy xuất của dữ liệu có thể được xem như một nhiện vụ con của nhiệm vụ khai phá dữ liệu Kết quả của quá trình sưu tập dữ liệu trong mối quan hệ
dữ liệu mới được gọi là quan hệ dữ liệu khởi tạo Quan hệ dữ liệu có thể được sắp xếp hoặc góm nhóm theo điều kiện được đặc tả trong câu hỏi Dữ liệu có thể được
Trang 25làm sạch hoặc biến đổi (thí dụ : được kết hợp trên các thuộc tính nào đó) ưu tiên để
áp dụng cho việc phân tích khai phá dữ liệu Quan hệ khởi tạo có thể phù hợp hoặc không phù hợp với quan hệ vật lý trong cơ sơ dữ liệu Vì vậy các quan hệ ảo được gọi là Khung nhìn trong trường của cơ sở dữ liệu, tập dữ liệu thích hợp cho khai phá
dữ liệu được gọi là Khung nhìn nhỏ
Trong một kho dữ liệu, dữ liệu có thể được lưu trữ trong một cơ sở dữ liệu
đa chiều, được biết như là một khối dữ liệu mà có thể được cài đặt sử dụng cấu trúc mảng đa chiều, một cấu trúc quan hệ, hoặc kết hợp cả hai Tập dữ liệu thích hợp có thể được đặc tả bởi việc lọc dữ liệu dựa trên điều kiện, lát cắt (lấy dữ liệu cho một giá trị thuộc tính được đưa ra hoặc lát cắt) hoặc là đào sâu (trích cái chung của một vài lát cắt) của khối dữ liệu
Chú ý rằng trong một câu hỏi khai phá dữ liệu các điều kiện cung cấp cho việc lựa chọn dữ liệu có thể ở mức độ khái niệm cao hơn dữ liệu trong cơ sở dữ liệu hoặc trong kho dữ liệu Thí dụ: một người dùng có thể đặc tả một lựa chọn sử dụng khái niệm “ type = home entertainment” mặc dù các mục tin cá nhân trong cơ sở dữ liệu có thể không được lưu trữ theo kiểu mà còn ở mức khái niệm thấp hơn Như là
“ TV”, “ CD player” hoặc “VCD” Một phân cấp khái niệm trên item mà được cụ thể “ home entertainment” là ở mức độ cao hơn, bao gồm các khái niệm ở mức thấp {“ TV”, “CD player”, “ VCR”} có thể được sử dụng trong tập dữ liệu thích hợp với nhiệm vụ
Một tập các thuộc tính thích hợp đưa ra sẽ liên quan tới các thuộc tính khác
mà không được đề cập một cách rõ ràng nhưng mà nó nên được bao gồm bởi vì chúng được đưa ra bởi phân cấp khái niệm hoặc chiều liên quan trong tập các thuộc tính thích hợp đưa ra Thí dụ tập các thuộc tính liên quan trong câu hỏi bao gồm city Tuy nhiên thuộc tính này là một phần của các phân cấp khái niệm khác như là
phân cấp khái niệm street < city< province_or_state<country cho chiều vị trí
Trong trường hợp này các thuộc tính street, province_or_state and country cũng nên được bao gồm trong tập các thuộc tính liên quan bởi vì chúng thể hiện mức độ trừu
Trang 26tượng cao hơn và thấp hơn của city Điều này tạo điều kiện cho việc khai phá tri thức ở các mức độ trừu tượng nhờ đi sâu và quay lại
Đặc điểm của các thuộc tính hoặc các chiều thích hợp có thể là một chức năng khó đối với người dùng Một người dùng có thể chỉ có một ý tưởng thô về các thuộc tính thích hợp cho việc thăm dò khai phá Hơn nữa khi dữ liệu khai phá được chỉ rõ người dùng có thể bỏ sót thêm vào các dữ liệu liên quan có liên quan mạnh
mẽ về ngữ nghĩa với chúng Ví dù việc bán các mặt hàng liên quan chặt chẽ tới các
sự kiện cụ thể như là ngày lễ hoặc giáng sinh hoặc hoặc tới các nhóm người cụ thể, các nhân tố này không được bao gồm trong việc phân tích dữ liệu yêu cầu Với những trường hợp như vậy kỹ thuộc được sử dụng để giúp việc đặc tả tỉ mỉ của các
dữ liệu liên quan Các chức năng này để đánh giá và xếp hạng các thuộc tính theo
sự phù hợp của nó với các thao tác Ngoài ra kỹ thuật tìm kiếm các thuộc tính quan
hệ mạnh mẽ về ngữ nghĩa được sử dụng để làm tăng tập dữ liệu khởi tạo được đưa
ra bởi người dùng
2.5 Các loại tri thức được khai phá
Việc xác định các loại tri thức được khai phá là rất quan trọng Vì điều này
nó quyết định chức năng khai phá dữ liệu được thực hiện Các loại tri thức bao gồm
mô tả khái niệm (đặc tính và sự mô tả), sự kết hợp, sự phân lớp, sự phân nhóm, dự báo và phân tích sự phát triển
Ngoài ra việc xác định các kiểu tri thức được khai phá cho một nhiệm vụ khai phá dữ liệu được đưa ra, người dùng có thể đặc tả và đưa ra các mẫu template
mà các mẫu được khai phá phải phù hợp Các khuôn mẫu hoặc các mẫu meta (còn gọi là luật meta hay câu hỏi meta) có thể được dùng để hướng dẫn quá trình khai phá Việc sử dụng mẫu meta là được thể hiện trong thí dụ sau:
Một người dùng nghiên cứu thói quen mua hàng của các khách hàng AllElectronic có thể chọn để khai phá các luật kết hợp của dạng sau:
P (X : customer, W) ^Q (X; Y ) => buys (X, Z)
Trang 27Điều kiện X là một khóa của quan hệ customer, P và Q là biến vị từ, là các biến có thể được khởi tạo bởi các thuộc tính thích hợp hoặc các chiều đưa ra vì là một phần của chức năng dữ liệu liên quan W, Y, Z là các biến đối tượng, là các biến có thể lấy giá trị của các thuộc tính tương ứng cho khác hàng X
Việc tìm kiếm các luật quan hệ là bị ràng buộc bởi các luật meta được đưa ra như:
age (X, “30 - ") ^ income (X, “40 - 50K") => buys (X, “V CR") [2.2%, 60%] occupation (X; “student") ^ age (X; “20 - 29") ) => buys (X; “computer") [1.4%, 70%]
Theo luật đầu thì các khách hàng ở độ tuổi 30 với mức lương hàng năm là từ 40k tới 50k (với 60%) là sẽ mua VCR và các trường hợp này chiếm vào khoảng 2 2% trong tổng số giao dịch Và luật thứ hai thì khách hàng là sinh viên và ở độ tuổi
20 là thích mua máy tính vào khoảng 70% và chiếm 1 4% trong tổng số giao dịch
2.5.1 Phân cấp khái niệm
Tri thức nền tảng là thông tin về lĩnh vực được khai phá mà có ích trong quá trình khai phá Trong phần này người ta tập chung vào một tri thức cơ sở đơn giản nhưng có khả năng mạnh đó là phân cấp khái niệm Phân cấp khái niệm cho phép khai phá tri thức ở nhiều mức độ trừu tượng
Như đã mô tả, một phân cấp khái niệm định nghĩa một luồng các ánh xạ từ một tập các khái niệm ở mức độ thấp tới mức độ cao, các khái niệm chung hơn Một phân cấp khái niệm cho chiều vị trí được chỉ ra trong hình ánh xạ khái niệm mức độ thấp, như thành phố, tới những khái niệm tổng quát hơn nữa, như đất nước
Chú ý rằng phân cấp khái niệm này được thể hiện như là một tâp các nút tổ chức trong một cây mà mỗi nút thể hiện một khái niệm Một nút đặc biệt là gốc của cây Nó biểu thị giá trị tổng quát nhất của chiều được đưa ra Nếu nó không được hiển thị rõ ràng thì nó bị ẩn Phân cấp khái niệm này bao gồm 4 mức độ Theo quy ước các mức độ trong phân cấp khái niệm này được đánh số từ cao xuống thấp bắt
Trang 28đầu với mức độ ) cho tất cả các nút Trong thí dụ của người ta mức độ 1 thể hiện
khái niệm country trong khi mức độ 2 và 3 thể hiện các khái niệm province_or_state và city Các lá của hệ thống phân cấp tương ứng với các giá trị
dữ liệu thô của chiều (cấp dữ liệu nguyên thủy) Những giá trị cụ thể nhất hoặc các khái niệm của các thuộc tính hoặc chiều được đưa ra Mặc dù một phân cấp khái niệm thường định nghĩa một sự phân loại được thể hiện dưới dạng một cây Nó cũng có thể có dạng là một phần hoặc một lưới
Hình 2.2 Thí dụ về phân phối hàng
Các phân cấp khái niệm là một dạng có ích của kiến thức nền tảng mà trong
đó chúng cho phép dữ liệu thô được xử lý ở mức độ trừu tượng cao hơn, tổng quát hơn Sự tổng quát của dữ liệu hoặc quay lại là đạt được bởi việc thay thế mức độ dữ liệu nguyên thủy (như là tên thành phố cho location hoặc giá trị số cho tuổi) bằng các khái niệm mức độ cao hơn (như là các lục địa cho vị trí hoặc trong phạm vi như
“20-39”, “40-59", “60+" cho tuổi) Điều này cho phép người dùng nhìn thấy dữ liệu
ý nghĩa hơn và trừu tượng, làm cho các mẫu khai phá dễ hiểu hơn Nhìn chung có
Trang 29lợi thế của việc nén dữ liệu Khai phá trên một tập dữ liệu nén sẽ yêu cầu các thao tác ra vào ít hơn và hiệu quả hơn khai phá trên một tập dữ liệu lớn và không nén
Nếu kết quả dữ liệu xuất hiện chung chung, các phân cấp khái niệm cũng
cho phép chuyên môn hóa hoặc đào sâu theo đó các giá trị khái niệm được thay thế bởi các khái niệm mức độ thấp hơn Bằng quay lại và đào sâu người dùng có thể
soi dữ liệu từ quan điểm khác nhau, đạt được sự hiểu biết sâu hơn từ bên trong các mối quan hệ dữ liệu ẩn
Các phân cấp khái niệm có thể được cung cấp bởi người sử dụng hệ thống, các chuyên gia trong các lĩnh vực, hoặc các kỹ sư tri thức Các ánh xạ dữ liệu thông thường hoặc các ứng dụng cụ thể Các phân cấp khái niệm có thể thường được khai phá tự động hoặc định nghĩa động dựa trên việc phân tích thống kê của dữ liệu phân tán
Có thể có nhiều hơn một phân cấp khái niệm cho một thuộc tính và chiều được đưa ra dựa trên các quan điểm khác nhau của người dùng Giả sử thí dụ người quản lý bán hàng của AllElectronics quan tâm nghiên cứu về thói quen mua hàng của khách hàng tại các địa điểm khác nhau Phân cấp khái niệm cho vị trí của hình
sẽ là có ích nhiệm vụ khái phá như vậy Giả sử rằng người quản lý tiếp thị phải nghĩ
ra các chiến dịch quảng cáo cho AllElectronics Người dùng sẽ muốn biết vị trí được tổ chức với khía cạnh ngôn ngữ, gồm tiếng Anh cho Vancouver, Montreal và New York; tiếng Pháp cho Montreal; Tiếng Tây ban nha cho New York và Miami,
để thuận lợi cho việc quảng cáo Hệ thống phân cấp theo vị trí này được thể hiện trong hình Chú ý rằng phân cấp khái niệm này dạng lưới, nút “New York” có hai nút cha là “ English” và “ Spanish”
Có 4 kiểu chính của các phân cấp khái niệm Người ta đã giới thiệu các kiểu phố biến nhất, phân cấp theo lược đồ, và phân cấp theo nhóm, cái mà người ta sẽ xem dưới đây Ngoài ra người ta cũng nghiên cứu phân cấp xuất phát từ thao tác và phân cấp dựa trên luật
Trang 302.5.2 Phân cấp lược đồ
Là toàn bộ hay một phần thứ tự giữa các thuộc tính trong lược đồ cơ sở dữ liệu Phân cấp theo lược đồ nhấn mạnh mối quan hệ ngữ nghĩa giữa các thuộc tính Thông thường một phân cấp theo lược đồ mô tả một chiều của kho dữ liệu
Thí dụ Lược đồ quan hệ cho address bao gồm cac thuộc tính street, city, province_or_state và country Người ta có thể định nghĩa phân cấp lược đồ location bởi thứ tự street < city < province hay state < country Điều này có nghĩa là street
có mức khái niệm thấp hơn city, city thấp hơn province_or_state, và province_or_state thấp hơn country Phân cấp theo lược đồ cung cấp thông tin dữ
liệu meta, tức dữ liệu về dữ liệu Sự đặc tả của nó trong thuật ngữ toàn bộ hay một phần thứ tứ giữa các thuộc tính là ngắn gọn hơn định nghĩa tương đương mà liệt kê
các thí dụ như street, province, state và country
Nhớ lại rằng khi xác định dữ liệu liên quan tới tác vụ người dùng đặc tả các thuộc tính thích hợp cho việc thăm dò khai thác Nếu một người dùng chỉ đặc tả một thuộc tính liên quan tới bất kỳ phân cấp theo lược đồ chứa city có thể tự động đưa ra
các thuộc tính liên quan Thí dụ các thuộc tính street, province_or_state và country
cũng có thể được tự động bao gồm cho việc khai thác
2.5.3 Phân cấp theo nhóm
Tổ chức các giá trị cho thuộc tính hoặc chiều đưa ra thành nhóm của các hằng số hoặc phạm vi giá trị Toàn bộ hoặc một phần thứ tứ có thể được định nghĩa giữa các nhóm Phân cấp gom nhóm có thể được sử dụng để cải tiến hoặc làm phong phú hơn phân cấp theo lược đồ khi hai kiểu này kết hợp với nhau Chúng thường được sử dụng để định nghĩa một tập nhỏ các quan hệ giữa các đối tượng
Một phân cấp theo nhóm của các thuộc tính tuổi có thể được đặc tả trong phạm vị sau:
Trang 31Chú ý rằng việc đặc tả phạm vi giống nhau cũng có thể được sinh ra tự động Thí dụ phân cấp theo nhóm có thể tạo thành một phần của phân cấp theo lược đồ và ngược lại Thí dụ xem xét phân cấp khái niệm cho vị trí trong hình định nghĩa city< province_or_state < country Giả sử rằng các giá trị hằng cho country bao gồm “ canada”, “USA”, “ Germany”, “ England”, và “Brazil” Nhóm có thể được sử dụng
để cải tiến phân cấp này bằng cách thêm vào mức độ trên country như là continent
và nhóm theo giá trị country
2.5.4 Phân cấp theo thao tác
Phân cấp này là dựa trên các thao tác được đặc tả bởi người dùng, các chuyên gia, hoặc hệ thống khai phá dữ liệu Các thao tác bao gồm việc giải mã thông tin từ chuỗi được mã hóa, trích dẫn thông tin từ các đối tượng dữ liệu phức tạp, và phân cụm dữ liệu
Thí dụ Một địa chỉ email hoặc một URL của WWW chứa các thông tin phân cấp sở, ngành, các trường đại học (hoặc công ty) và các nước Các thao tác giải mã
có thể được định nghĩa để trích xuất thông tin để tạo thành dạng phân cấp khái niệm Thí dụ địa chỉ email dmbook@cs sfu ca đưa ra thứ tự “ login – name < department < university< country” thể hiện một dạng phân cấp khái niệm cho địa chỉ email Tương tự địa chỉ URL “ http://www cs sfu ca/research/DB/DBMiner”
có thể được giải mã để cung cấp một phần thứ tự có dạng cơ sở của phân cấp khái niệm cho URLS
Thí dụ Các thao tác có thể được định nghĩa để trích rút thông tin từ các đối
tượng dữ liệu phức tạp Thí dụ xâu “ Ph D int Computer Science, UCLA, 1995” là một đối tượng phức tạp thể hiện bằng cấp đại học Xâu này bao gồm các thông tin
về loại văn bằng học thuật, lĩnh vực, trường đại học và năm tốt nghiệp Các thao tác
có thể được định nghĩa để trích thông tin như vậy là các dạng phân cấp khái niệm
Trang 32Ngoài ra các thao tác thuộc toán học và thống kê như là phân cụm dữ liệu và các thuật toán phân tích dữ liệu phân tán có thể được sử dụng để hình thành các phân cấp khái niệm
2.5.5 Phân cấp theo luật
Hệ thống phân cấp dựa trên luật xảy ra khi toàn bộ phân cấp khái niệm hoặc một phần của nó được định nghĩa bởi một tập các luật, và được đánh giá động dựa trên cơ sở dữ liệu hiện tài và việc định nghĩa các luật
Các luật sau đây có thể được sử dụng để phân loại các mặt hàng
AllElectronic như low_profit_margin, medium_profit_margin, high_profit_margin
Với điều kiện số dư lợi nhuận (profit margin) của mặt hàng X là được định nghĩa khi có sự khác biệt giữa giá bán lẻ và chi phí thực tế của X Mặt hàng có số dư lợi nhuận ít hơn 50 được định nghĩa là mặt hàng low_profit_margin, các mặt hàng có
lợi nhậu từ 50 tới 250 được định nghĩa là mặt hàng medium_profit_margin, và mặt
hàng có lợi nhuận lớn hơn 250 được định nghĩa là mặt hàng high_profit_margin
2.5.6 Độ đo về tiêu chí quan tâm
Mặc dù đặc điểm của dữ liệu liên quan tới tác vụ và các loại tri thức được khai phá có thể làm giảm đáng kể số lượng mẫu được sinh ra Một quy trinh khai phá dữ liệu có lẽ vẫn sinh ra một số lượng lớn mẫu Thông thường chỉ một phần nhỏ của các mẫu này là thực sự cho người dùng quan tâm Vì vậy người dùng cần phải tiếp tục giới hạn số lượng mẫu không được quan tâm được quy trình trả về Có thể đạt được điều này bằng cách xác định các phương pháp cần thiết để ước lượng sự đơn giản, sự tiện ích, sự chắc chắn và sự mới mẻ của các mẫu
Trong phần này người ta nghiên cứu một vài phương pháp về lợi nhuận của của mẫu Các phương pháp dựa trên cấu trúc của mẫu và thống kê chúng Nhìn