Ứng dụng lý thuyết tập thô trong khai phá dữ liệu giao thông vận tải

Lý thuyết tập thô do nhà logic học Balan Zdzislak Pawlak đề xuất vào đầu những năm 80 được xem như là một cách tiếp cận mới để phát hiện tri thức và tạo thành một cơ sở vững chắc cho các

Trang 1

MỤC LỤC

LỜI GIỚI THIỆU 2

Chương 1: Tổng quan về khai phá dữ liệu và lý thuyết tập thô 3

1.1 Data Mining là gì: 3

1.1.1 Các phương pháp khai phá trong Data Mining: 4

1.1.2 Các ứng dụng của Data Mining: 6

1.2 Lý thuyết tập thô: 7

1.2.1 Hệ thông tin và bảng quyết định: 7

1.2.2 Phân lớp tương đương: 8

1.2.3 Không gian xấp xỉ: 10

1.2.4 Sự phụ thuộc các thuộc tính: 10

1.2.5 Kết luận: 11

Chương 2: Phương pháp rút gọn thuộc tính và sinh luật trên bảng quyết định 12

2.1 Rút gọn các thuộc tính: 12

2.2 Ma trận phân biệt và hàm phân biệt: 12

2.3 Luật quyết định: 13

2.4 Thuật toán LEM1 rút gọn thuộc tính trên bảng quyết định: 14

2.5 Sinh luật quyết định trên tập rút gọn của bảng quyết định 16

2.6 Kết luận: 17

Chương 3: Chương trình ứng dụng lý thuyết tập thô trong 18

khai thác dữ liệu giao thông vận tải 18

3.1 Giới thiệu về chương trình ứng dụng: 18

3.2 Ứng dụng lý thuyết tập thô, cài đặt và thử nghiệm 18

3.2.1 Giao diện của chương trình demo 18

3.2.2 Một số source code minh họa: 21

3.3 Kết luận: 23

TÀI LIỆU THAM KHẢO 24

Trang 2

LỜI GIỚI THIỆU

-

Sự bùng nổ và phát triển của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa học cũng như trong các hoạt động thực tế, trong đó khai phá dữ liệu (Data Mining) là một lĩnh vực mang lại hiệu quả thiết thực cho con người Khai phá dữ liệu giúp ta chắt lọc được những thông tin có giá trị từ những khối

dữ liệu thô khổng lồ ta nhận được, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng

Lý thuyết tập thô do nhà logic học Balan Zdzislak Pawlak đề xuất vào đầu những năm 80 được xem như là một cách tiếp cận mới để phát hiện tri thức và tạo thành một cơ sở vững chắc cho các ứng dụng khai phá dữ liệu Nó rất hữu ích trong việc giải quyết các bài toán phân lớp dữ liệu, phát hiện luật, … chứa

dữ liệu mơ hồ không chắc chắn

Tập thô có quan điểm hoàn toàn khác với quan điểm truyền thống về tập hợp, trong đó mọi tập hợp đều được định nghĩa duy nhất bởi các phần tử của nó mà không cần biết bất kỳ thông tin nào về các phần tử thuộc tập hợp Rõ ràng có thể tồn tại một số đối tượng giống nhau ở một số thông tin nào đó và ta nói rằng chúng có quan hệ không thể phân biệt được Đây chính là quan hệ mấu chốt và chính là điểm xuất phát của lý thuyết tập thô; biên giới của tập thô là không rõ ràng, chúng ta phải xấp xỉ nó bằng các tập hợp khác nhau, nhằm mục đích cuối cùng là trả lời được rằng một đối tượng nào đó thuộc tập hợp hay không

Lý thuyết tập thô với các tiếp cận như vậy đã và đang được ứng dụng rất rộng rãi Có nhiều đề tài nghiên cứu cho kết quả khả quan và đã được đưa vào ứng dụng trong thực tế như xử lý ảnh trong y tế, khai phá dữ liệu y tế, nhận dạng, trí tuệ nhân tạo,

Trang 3

Chương 1: Tổng quan về khai phá dữ liệu và lý thuyết tập thô

1.1 Data Mining là gì:

Data Mining (khai phá dữ liệu) là một khái niệm mô tả quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong các nguồn dữ liệu lớn, đã có

Data Mining là một bước của tiến trình KDD (Knowledge discovery in databases), nhằm:

- Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong khối dữ liệu lớn

- Phân tích dữ liệu bán tự động

- Giải thích dữ liệu trên các tập dữ liệu lớn

Một tiến trình KDD là một chuỗi lặp gồm các bước:

1) Data cleaning & intergration (làm sạch dữ liệu, tích hợp dữ liệu) 2) Selection & transformation (chọn lựa dữ liệu, biến đổi dữ liệu) 3) Data Mining (khai phá dữ liệu)

4) Evaluation & presentation (đánh giá kết quả mẫu, biểu diễn tri thức)

Bắt đầu của quá trình KDD là kho dữ liệu thô và kết thúc của quá trình là kết xuất ra tri thức từ kho dữ liệu mà trong đó khai phá dữ liệu là bài toán quan trọng nhất

Trang 4

1.1.1 Các phương pháp khai phá trong Data Mining:

Thông thường, các bài toán trong Data Mining có thể đưa về 2 nhóm chính:

Các bài toán mang tính dự đoán (Predictive): đưa ra các dự đoán dựa vào các

suy diễn trong cơ sở dữ liệu mẫu, gồm các phương pháp:

- Classification (Phân lớp)

- Regression (Hồi qui)

- Time Series Analysis (Phân tích chuỗi thời gian)

- Prediction (Dự đoán)

Các bài toán mang tính mô tả (Description): đưa ra các tính chất chung nhất

của dữ liệu trong cơ sở dữ liệu mẫu , gồm các phương pháp:

- Clustering (Phân cụm)

- Summarization (Tổng quát hóa)

- Association Rule (Luật kết hợp)

- Sequence Discovery ( Khám phá tuần tự)

Tuỳ theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp

a Phân lớp và dự đoán (Classification & Prediction)

Là đặt các mẫu vào các lớp được xác định trước Nhiệm vụ chính là tìm các

hàm ánh xạ các mẫu dữ liệu một cách chính xác vào trong các lớp.Ví dụ một ngân hàng muốn phân loại các khách hành của họ vào trong hai nhóm có nợ hay không nợ, từ đó giúp họ ra quyết định cho vay hay không cho vay

Trong kỹ thuật phân lớp chúng ta có thể sử dụng các phương pháp như: Cây quyết định (Decision Tree), K-Láng giềng gần nhất (k-Nearest Neighbor), Mạng

Trang 5

Nơron (Neural networks), Giải thuật di truyền (Genetic algorithms), Mạng Bayesian(Bayesian networks), Tập mờ và tập thô (Rough and Fuzzy Sets),…

b Hồi quy (Regression)

Hồi quy là việc đưa một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính là ở chỗ thuộc tính để dự báo là liên tục chứ không rời rạc Việc dự báo các giá trị số thường được làm bởi các phương pháp thống kê cổ điển chẳng hạn như hồi quy tuyến tính

c Time Series Analysis (Phân tích chuỗi thời gian)

Dựa trên việc phân tích chuỗi quan sát của một biến duy nhất theo biến số độc lập là thời gian Phương pháp dự báo theo chuỗi thời gian là một phương pháp định lượng, sử dụng những dữ liệu quá khứ theo thời gian, dựa trên dữ liệu lịch

sử để phát hiện chiều hướng vận động của đối tượng phù hợp với một mô hình bài toán nào đó và đồng thời sử dụng mô hình đó làm mô hình ước lượng Tiếp cận định lượng dựa trên giả định rằng giá trị tương lai của biến số dự báo sẽ phụ thuộc vào xu thế vận động của đối tượng đó trong quá khứ

d Prediction (Dự đoán)

Với mô hình học tương tự như bài toán phân lớp, lớp bài toán dự đoán sẽ lọc

ra các bộ dự đoán Khi có dữ liệu mới đến, bộ dự đoán sẽ dựa trên thông tin đang có để đưa ra một giá trị số học cho hàm cần dự đoán Bài toán tiêu biểu trong nhóm này là dự đoán giá sản phẩm để lập kế hoạch trong kinh doanh

e Clustering (Gom nhóm)

Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các nhóm khác nhau là nhỏ nhất Một đối tượng có thể vừa thuộc nhóm này, nhưng cũng có thể vừa thuộc nhóm khác

Phân nhóm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, … Ngoài

Trang 6

ra phân nhóm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các bài toán khai phá dữ liệu khác

f Summarization (Tổng quát hóa)

Kỹ thuật mô tả khái niệm và tổng quát hóa thường áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tự động Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho một lớp Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục của một lớp

g Luật kết hợp (Association Rules):

Luật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản Các giải thuật tìm luật kết hợp tìm kiếm các mối liên kết giữa các phần tử dữ liệu, ví

dụ như nhóm các món hàng thường được mua kèm với nhau trong siêu thị

Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ CSDL tác nghiệp, là một trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu

1.1.2 Các ứng dụng của Data Mining:

- Tài chính và thị trường chứng khoán (Finance & stock market): Phân tích tình hình tài chính và dự đoán giá cổ phiếu

- Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định

- Trong lĩnh vực y tế: Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc, thời gian )

- Text mining và Web mining: Phân lớp văn bản và các trang Web, tóm tắt văn bản,

- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một

số bệnh di truyền,

- Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám sát lỗi, sự cố, chất lượng dịch vụ,

Trang 7

1.2 Lý thuyết tập thô:

Lý thuyết tập thô (Rough set Theory) được Zdzislaw Pawlak đề xuất vào đầu những năm 1980 và nó nhanh chóng được các nhà khoa học tiếp nhận như một công cụ toán học mới để xử lý những thông tin không đầy đủ và không chắc chắn

1.2.1 Hệ thông tin và bảng quyết định:

a Hệ thông tin (information system):

Một tập bất kỳ các đối tượng không thể phân biệt được (các đối tượng tương tự) được gọi là tập cơ bản (elementary set) và tạo thành nguyên tử (atom hay granule) của tri thức về vũ trụ

Hệ thông tin là một bộ bốn: S=<U, A, V, f>

Trong đó:

A là tập thuộc tính và được chia thành 2 tập con: các thuộc tính điều kiện (condition attribute )C và các thuộc tính quyết định (decision attribute) D;

A=CD

- V là tập hữu hạn các giá trị thuộc tính

trong đó : V = U a A V a ,với V a là miền (domain) của thuộc tính a

- f: U×A  V là hàm thông tin (information function),

trong đó f(x,a) Va; a A; x U

b Bảng quyết định:

Giả sử rằng 𝐴=𝐶𝐷 𝑣à 𝐶𝐷=∅ , thì một hệ thông tin có thể được xem như một bảng quyết định hay còn gọi là bảng thuộc tính giá trị (attribute-value table)

𝑆=〈𝑈,𝐶𝐷,𝑉,𝑓〉

Bảng quyết định là có tính quyết định (determainistic) khi và chỉ khi 𝐶→𝐷

Ngược lại nó không có tính quyết định

Trong trường hợp bảng quyết định không có tính quyết định thì quyết định

không được xác định một cách duy nhất mà có thể là cả một tập quyết định

Trang 8

Một cơ sở dữ liệu được xem như một thông tin trong đó các cột là các thuộc

tính, các hàng là các đối tượng và thực thể ở cột p, hàng x có giá trị p(x) Mỗi

hàng trong bảng biểu diễn thông tin về một đối tương trong U Trong cơ sở dữ

liệu, có thuộc tính là thuộc tính quyết định, các thuộc tính còn lại là thuộc tính

điều kiện

Từ bảng quyết định người ta có thể tạo ra một tập các luật quyết định

(decisoin rules)

Bảng biểu diễn một hệ thông tin

1.2.2 Phân lớp tương đương:

Các đối tượng được đặc trưng bởi cùng thông tin thì không thể phân biệt được (indiscernable) Vì vậy quan hệ tương đương là cơ sở toán học của lý thuyết tập thô

Cho S=⟨𝑈,𝐴,𝑉,𝑓⟩ là một hệ thống thông tin, 𝑃⊆𝐴 ;𝑋⊆𝑈;𝑥,𝑦∈𝑈 mọi tập không rỗng các đối tượng được gọi là một khái niệm (concept)

Vậy X là một khái niệm trong hệ thông tin.Ta nói rằng, x và y là không thể phân biệt (indiscernable) bởi tập các thuộc tính P trong S, khi và chỉ khi:

Trang 9

Với ∀𝑥∈𝑈,lớp tương đương của x trong quan hệ IND(P))được biểu diễn đơn giản là : [𝒙]𝑰𝑵𝑫(𝑷)

Ví dụ: Cho hệ thông tin 𝑈={u0,𝑢1,𝑢2,𝑢3,𝑢4,𝑢5 } 𝐴={𝑎1,𝑎2,𝑎3,𝑎4 }

𝑉a0=𝑉a2={𝛼,𝛽,𝛾,𝛿} ; 𝑉a1= {𝑄,𝑅} ; 𝑉a3 ={𝛼𝛽,𝛽𝛾,𝛾𝛽,𝛾𝛿};

𝑉a4 ={ℰ,ℱ,Ω} ; 𝑓(𝑥0,𝑎0 )=𝛼 ; 𝑓(x0,𝑎1 )=𝑄 ; … (xem bảng )

Hệ thông tin trên có một số quan hệ phân biệt sau:

𝑃={𝑎0,𝑎2 } ; 𝑄={𝑎1 } 𝐼𝑁𝐷(𝑃)={(𝑢0,𝑢3 )}; 𝑈∣𝐼𝑁𝐷(𝑃)={(𝑢0,𝑢3 ),(𝑢1),(u2 )(𝑢4 ),(𝑢5 )}

Trang 10

1.2.3 Không gian xấp xỉ:

Cho hệ thông tin 𝑆=〈𝑈,𝐴,𝑉,𝑓〉, và 𝑃⊆𝐴 ; XU Một cặp có thứ tự

𝐴𝑆=(𝑈,𝐼𝑁𝐷(𝑃)) được gọi là không gian xấp xỉ (approximation space), ký hiệu là

P – xấp xỉ trên (upper approximation) của X trong AS, ký hiệu 𝑃*(𝑋) hay , được định nghĩa bởi: 𝑃*(𝑋) ={𝑦∈𝑈: [𝑦]𝐼𝑁𝐷(𝑃) ∩𝑋≠∅} Tập 𝑃*(𝑋) là tập tất cả các đối tượng trong U mà sử dụng tập thuộc tính P ta chỉ có thể nói rằng chúng là các phần tử của X

Nếu 𝑃* (𝑋)=𝑃*(𝑋) , khi đó ta nói rằng X là tập P – chính xác (P – exact),

ngược lại X được gọi là P – thô (P – rough)

Hệ số chính xác hay độ chính xác xấp xỉ (accuracy of approximation) của tập đối tương X đối với tập thuộc tính P được định nghĩa bởi:

- Nếu 𝛼𝑃 (𝑋)=1, tập X là tập rõ đối với quan hệ P

- Nếu 𝛼𝑃 (𝑋)<1, tập X là tập thô đối với quan hệ P

1.2.4 Sự phụ thuộc các thuộc tính:

Cho hệ thông tin 𝑆=〈𝑈,𝐴,𝑉,𝑓〉, và 𝑃⊆𝐴 ; R A

Ta nói rằng tập các thuộc tính 𝑅⊆𝐴 phụ thuộc vào tập các thuộc tính P ⊆𝐴 trong S, ký hiệu 𝑃→𝑅, khi và chỉ khi IND(P)=IND(R) Việc tìm ra sự phụ thuộc giữa các thuộc tính là vấn đề rất quan trọng trong tiếp cận tập thô với phân tích tri thức

Trang 11

Cho 𝑃,𝑄 ⊆𝐴 Vùng dương của phân loại 𝑈∣𝐼𝑁𝐷(𝑄) đối với tập thuộc tính

P,gọi là P – vùng dương của Q (P – positive region of Q) được xác định bởi :

P – vùng dương của Q gồm tất cả những đối tượng mà bằng các thuộc tính P

ta phân loại chúng một cách chắc chắn vào một lớp của phân loại 𝑈∣𝐼𝑁𝐷(𝑄) Lưc lượng của P – vùng dương của Q ,được dùng để đo mức độ phụ thuộc của Q vào P, và được xác định bởi :

Không phải tất cả các thuộc tính trong P đều có ý nghĩa như nhau đối với phân loại 𝑈∣𝐼𝑁𝐷(𝑄), do đó người ta xác định hệ số quan trọng (coefficient of significance) của thuộc tính a bởi:

1.2.5 Kết luận:

Lý thuyết tập thô có nhiều công cụ toán học khác nhau được dùng để xử lý tri thức không đầy đủ

Các phép toán cơ bản và phương pháp của lý thuyết tập thô được sử dụng để

phát hiện các mẫu cơ sở (fundamental pattern) trong dữ liệu Do đó, hết sức quan trọng đối với lĩnh vực trí tuệ nhân tạo và các ngành khoa học liên quan đến nhận thức (máy học; các hệ chuyên gia; các hệ hỗ trợ quyết định; lập luận dựa

trên quy nạp và nhận dạng, phát hiện hiện tri thức,…)

Trang 12

Chương 2: Phương pháp rút gọn thuộc tính và sinh luật trên

bảng quyết định

Trong một hệ thông tin, môt số thuộc tính có thể là dư thừa đối với một phân loại nhất định Lý thuyết tập thô đưa ra các khái niệm cho phép rút gọn các thuộc tính mà không làm giảm khả năng phân loại

2.1 Rút gọn các thuộc tính:

Cho 𝑃,𝑄∈𝐴 ; 𝑎∈𝑃 Một thuộc tính a là bỏ qua được (dispensable) trong P, nếu 𝐼𝑁𝐷(𝑃)=𝐼𝑁𝐷(𝑃−{𝑎}) Ngược lại , a là không thể bỏ được (indispensable).Thuộc tính bỏ qua được không lảm giảm hoặc tăng khả năng phân loại khi có hoặc không có mặt thuộc tính đó

Tập tất cả các thuộc tính không thể bỏ được trong P được gọi là lõi (core) của

P, và ký hiệu là CORE(P) Lõi có thể là một tập rỗng

Một thuộc tính a được gọi là Q – bỏ qua được trong P, nếu :

𝑃𝑂𝑆𝑃(𝑄)=𝑃𝑂𝑆𝑃−{𝑎} (𝑄) , ngược lại a là Q – không thể bỏ được Tập tất cả các thuộc tính Q – bỏ qua được gọi là Q – lõi tương đối (Q – relative) và ta ký hiệu là 𝐶𝑂𝑅E_𝑄 (𝑃)

2.2 Ma trận phân biệt và hàm phân biệt:

j i

u d u d D d if u

c u c C c

u d u d D d if

j i j m u

j i

T( )   {  :  ,  { 1 , 2 , , }},  

Trong đó, mỗi thuộc tính được đặt tương ứng một biến logic cùng tên và

Định dạng
Số trang	24
Dung lượng	921,17 KB