Tiểu luận môn CÔNG NGHỆ TRI THỨC VÀ ỨNG DỤNG lý thuyết tập thô trong khai phá dữ liệu

Các khái niệm cơ bản ? là tập thuộc tính và được chia thành 2 tập con: các thuộc tính điều kiện condition attribute C các thuộc tính quyết định decision attribute D ? = ?∪? ? là tập hữu

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI THU HOẠCH

CÔNG NGHỆ TRI THỨC

&

ỨNG DỤNG

Trang 2

NHẬN XÉT CỦA GIẢNG VIÊN

Trang 3

MỤC LỤC

Lời mở đầu trang 4

I LÝ THUYẾT TẬP THÔ trang 5

1 Giới thiệu trang 5

2 Các khái niệm cơ bản trang 6 2.1 Hệ thông tin trang 6 2.2 Bảng quyết định trang 7 2.3 Phân lớp tương đương trang 7 2.4 Không gian xấp xỉ trang 8 2.5 Sự phụ thuộc các thuộc tính trang 10 2.6 Rút gọn các thuộc tính trang 11

3 Ứng dụng của tập thô trong khai phá dữ liệu trang 13

II ỨNG DỤNG TÌM LUẬT SUY DIỄN TĂNG GIẢM CHỈ SỐ VN-INDEX trang 13

1 Công cụ triển khai trang 13

2 VN-Index là gì? trang 14

3 Giới thiệu ứng dụng trang 14

4 Bảng quyết định thử nghiệm trang 14

5 Kết quả thử nghiệm trang 17

6 Kiểm chứng trang 18

7 Kết luận trang 19 III KẾT LUẬN, HƯỚNG PHÁT TRIỂN trang 20 Tài liệu tham khảo trang 21

Trang 4

LỜI MỞ ĐẦU

Ngày nay, sự phát triển vượt bậc của công nghệ thông tin Mọi vấn đề khó khăn dường như đơn giản hóa khi có sự hỗ trợ từ máy tính Sự bùng nổ của internet, đã mang lại nhiều thuận lợi cho việc thu thập thông tin và dữ liệu Nhưng song song đó vẫn có nhiều thách thức, nhất là trong việc sử dụng nguồn thông tin, dữ liệu tìm được đó

Khai phá dữ liệu trở thành một ngành rất được quan tâm Nó giúp con người lấy được thông tin từ nguồn dữ liệu khổng lồ, vô tận Không có khai phá dữ liệu thì nguồn dữ liệu vô tận ấy cũng không có ý nghĩa

Các công cụ toán học bắt đầu phát huy thế mạnh trong khai phá dữ liệu Bằng những công cụ được xây dựng trên những nền tảng lý thuyết vững chắc, toán học tạo tiền đề giải quyết các vấn đề về khai phá dữ liệu Trong số đó, lý thuyết tập thô đóng góp một phần các công cụ hỗ trợ cho vấn đề khai phá dữ liệu, khai phá tri thức

Trang 5

- Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn, không đầy đủ Lý thuyết tập thô có nhiều công cụ toán học khác nhau được dùng để xử lý tri thức không

đầy đủ

- Các phương pháp của lý thuyết tập thô tỏ ra hết sức quan trọng đối với lĩnh vực Trí tuệ nhân tạo và các ngành khoa học liên quan đến nhận thức (máy học, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp

và nhận dạng,…)

- Triết lý của tập thô dựa trên nhận định rằng mọi đối tượng trong vũ trụ đều gắn với môt loại thông tin nào đó (dữ liệu, tri thức, ) Ví dụ nếu các đối tượng là các bệnh nhân bị một căn bệnh nào đó, thì các triệu chứng của bệnh tạo nên thông tin về bệnh nhân

- Các phép toán cơ bản của lý thuyết tập thô được sử dụng để phát hiện các mẫu cơ sở (fundamental pattern) trong dữ liệu Do đó, với một ý nghĩa nhất định phương pháp lập luận thô cũng chính là máy học (machine learning), phát hiện tri thức (knowledge discovery), suy diễn thống kê (statistic inference) và suy diễn quy nạp(inductive inference)

- Lý thuyết tập thô ngày càng được ứng dụng nhiều, nhất là trong khai phá dữ liệu, tìm luật, dự báo, dự đoán,…

Trang 6

2 Các khái niệm cơ bản

𝐴 là tập thuộc tính và được chia thành 2 tập con:

các thuộc tính điều kiện (condition attribute) C các thuộc tính quyết định (decision attribute) D

𝐴 = 𝐶∪𝐷

𝑉 là tập hữu hạn các giá trị thuộc tính trong đó:

𝑉 = ⋃(𝑎 ∈ 𝐴) 𝑉𝑎 với 𝑉𝑎 là miền (domain) của thuộc tính a.𝑓:𝑈×𝐴→𝑉 là hàm thông tin (information function)

trong đó 𝑓(𝑥,𝑎)∈𝑉𝑎; ∀𝑎∈𝐴; 𝑥∈𝑈

Hệ thông tin là một bảng dữ liệu trong đó mỗi dòng ứng với thông tin của một đối tượng, mỗi cột biểu diễn một thuộc tính có giá trị được xác định trên mỗi đối tượng

Ví dụ: hệ thông tin thời tiết, biểu diễn thông tin thời tiết với 8 đối tượng, 4 thuộc tính: trời, áp suất, gió, kết quả

Bảng I.2.1: Hệ thông tin thời tiết

Trang 7

Tập các giá trị của thuộc tính quyết định D = {1, , r(d)} được gọi là phạm

vi của thuộc tính quyết định D Lớp quyết định thứ k (ký hiệu là Ck) là một tâp các đối tượng thoả mãn:

theo u(D) = v(D) Ngược lại, gọi là bảng không nhất quán

Ví dụ: Trong Bảng I.2.1 thuộc tính quyết định là “Kết quả”, có 2 giá trị là

“mưa” và “không mưa” Các lớp quyết định: {u1, u4, u7, u8}, {u2, u3, u5,

u6}

2.3 Phân lớp tương đương

Cho S=⟨𝑈,𝐴,𝑉,𝑓⟩ là một hệ thông tin, 𝑃⊆𝐴 ;𝑋⊆𝑈;𝑥,𝑦∈𝑈, mọi tập không rỗng các đối tượng được gọi là một khái niệm (concept)

Vậy X là một khái niệm trong hệ thông tin Ta nói rằng , x và y là không thể phân biệt (indiscernable) bởi tập các thuộc tính P trong S, khi và chỉ khi: 𝑓(𝑥,𝑎)=𝑓(𝑦,𝑎);∀𝑎∈𝐴

Từ đó ta định nghĩa, tập thuộc tính P được gọi là không thể phân biệt (ký hiệu là IND(P)) nếu: 𝐼𝑁𝐷(𝑃)={(𝑥,𝑦)∈𝑈×𝑈:𝑓(𝑥,𝑎)=𝑓(𝑦,𝑎), ∀𝑎∈𝑃}

Trang 8

Quan hệ không thể phân biệt là một quan hệ tương đương và nó chia U thành các lớp tương đương, ký hiệu sự phân lớp hay phân hoạch này bởi 𝑈/𝑃

Với ∀𝑥∈𝑈, lớp tương đương của 𝑥 trong quan hệ IND(P)) được biểu diễn đơn giản là: [𝒙]𝑰𝑵𝑫(𝑷)

Ví dụ: trong Bảng I.2.1 nếu phân hoạch 𝑈 theo thuộc tính “Áp suất” ta sẽ

nhận được các phân lớp tương đương sau:

IND({Áp xuất})={{u1, u2, u6, u8}, {u3}, {u4, u5, u7}}

 Ta nói: u1 và u2 không thể phân biệt trên thuộc tính “Áp suất”,…

2.4 Không gian xấp xỉ

Cho hệ thông tin 𝑆 = 〈𝑈, 𝐴, 𝑉, 𝑓〉 và 𝑃⊆𝐴 Một cặp có thứ tự

𝐴𝑆=(𝑈,𝐼𝑁𝐷(𝑃)) được gọi là không gian xấp xỉ (approximation space), ký

hiệu là AS

Các lớp tương đương được gọi là các tập P – cơ bản trong AS, vì chúng

biểu diễn các nhóm đối tượng phân biệt được nhỏ nhất

Hội hữu hạn của các tập cơ bản trong AS được gọi là tập có thể xác định

(definable set) trong không gian xấp xỉ AS

Từ bảng quyết định người ta có thể tạo ra một tập các luật quyết định

(decisoin rules) Cho 𝑃⊆𝐴; 𝑋⊆𝑈;

P – xấp xỉ dưới (lower approximation) của X trong AS, ký hiệu 𝑃𝑋, được định nghĩa bởi: 𝑃𝑋 = {𝑦 ∈ 𝑈: [𝑦]𝐼𝑁𝐷(𝑃) ⊆ 𝑋}

là tập các đối tượng trong 𝑈 mà sử dụng tập thuộc tính 𝑃 ta chắc chắn chúng

Nếu 𝑃𝑋 = 𝑃𝑋 ta nói rằng 𝑋là 𝑃 – chính xác (P – exact)

ngược lại 𝑋 là 𝑃 – thô (P - rough)

Trang 9

P – biên hay vùng không chắc chắn (doubtful region) của tập 𝑋 được định nghĩa bởi: BNP(𝑋) = 𝑃𝑋 − 𝑃𝑋; đó là tập các phần tử mà sử dụng tập thuộc tính 𝑃 ta không thể xác định chúng có thuộc vào tập 𝑋 hay không

Hệ số chính xác hay độ chính xác xấp xỉ(accuracy of approximation) của tập đối tương 𝑋 đối với tập thuộc tính 𝑃 được định nghĩa bởi:

𝛼𝑃(𝑋) =𝑐𝑎𝑟𝑑(𝑃𝑋)

𝑐𝑎𝑟𝑑(𝑃𝑋)

Nếu 𝛼𝑃(𝑋) =1, tập 𝑋 là tập rõ đối với quan hệ𝑃

Nếu 𝛼𝑃(𝑋) <1, tập 𝑋 là tập thô đối với quan hệ 𝑃

Ví dụ: trong Bảng I.2.1 ta có thể tính xấp xỉ trên và xấp xỉ dưới với 2 thuộc

tính 𝑃 = {Trời, Áp suất} và 𝑋 = {𝑥|𝐾ế𝑡 𝑞𝑢ả (𝑥) = 𝑀ư𝑎} ={𝑢2, 𝑢3, 𝑢5, 𝑢6} như sau:

Trang 10

2.5 Sự phụ thuộc các thuộc tính

Trong khai phá dữ liệu, việc tìm ra sự phụ thuộc của các thuộc tính trong tập thô là vấn đề rất quan trọng

Ta nói rằng tập các thuộc tính 𝑅⊆𝐴 phụ thuộc vào tập các thuộc tính 𝑃⊆

𝐴 trong U, ký hiệu 𝑃→𝑅, khi và chỉ khi IND(𝑃) = IND(𝑅) Tức là phân hoạch U theo 𝑃 tương đương với phân hoạch U theo 𝑅, từ những giá trị của tập 𝑃 ta có thể xác định được giá trị của tập 𝑅

Nếu 𝑅 là tập quyết định, 𝑃 là tập điều kiện, vậy từ những giá trị của các điều kiện cho trước ta có thể xác định được giá trị của quyết định Cho 𝑃,𝑄⊆𝐴 Vùng dương của phân hoạch 𝑈∣𝐼𝑁𝐷(𝑄) đối với tập thuộc tính 𝑃, gọi là 𝑃 – vùng dương của 𝑄 (𝑃 – positive region of 𝑄) được xác định bởi:

𝑃𝑂𝑆𝑃(𝑄) = ⋃𝑋∈𝑈∣𝐼𝑁𝐷(𝑄)𝑃𝑋

𝑃 – vùng dương của 𝑄 gồm tất cả những đối tượng mà bằng các thuộc tính

𝑃 ta có thể phân hoạch chúng một cách chắc chắn vào một lớp của phân

hoạch 𝑈 ∣ 𝐼𝑁𝐷(𝑄)

Lực lượng 𝑃 – vùng dương của 𝑄, được dùng để đo mức độ phụ thuộc của

𝑄 vào 𝑃, và được xác định bởi: 𝛾𝑃(𝑄) =𝑐𝑎𝑟𝑑(𝑃𝑂𝑆𝑃 (𝑄))

𝑐𝑎𝑟𝑑(𝑈)Không phải tất cả các thuộc tính trong P đều có ý nghĩa như nhau đối với phân loại 𝑈∣𝐼𝑁𝐷(𝑄), do đó người ta xác định hệ số quan trọng (coefficient

of significance) của thuộc tính a bởi:

𝜇𝑃,𝑄(𝑎) = 𝑐𝑎𝑟𝑑(𝑃𝑂𝑆𝑃(𝑄))−𝑐𝑎𝑟𝑑(𝑃𝑂𝑆𝑃−{𝑎}(𝑄))

𝑐𝑎𝑟𝑑(𝑈)

Hệ số quan trọng của thuộc tính a trong tập thuộc tính P đối với phân loại

IND(A) là: 𝜇𝑃(𝑎) = 𝜇𝑃,𝐴(𝑎)

Trang 11

2.6 Rút gọn các thuộc tính

Một hệ thông tin thông thường với nhiều thuộc tính có thể được thu thập từ nhiều nguồn khác nhau Do đó không thể tránh khỏi một số thuộc tính dư thừa khi khai phá dữ liệu theo một phân hoạch nhất định Lý thuyết tập thô cho ta những khái niệm giúp ta có thể rút gọn các thuộc tính mà không làm thay đổi khả năng phân hoạch

Cho 𝑃,𝑄∈𝐴;𝑎∈𝑃 Một thuộc tính 𝑎 là bỏ qua được (dispensable) trong 𝑃, nếu 𝐼𝑁𝐷(𝑃)=𝐼𝑁𝐷(𝑃−{𝑎}) Ngược lại, 𝑎 là không thể bỏ được (indispensable) Thuộc tính bỏ qua được không lảm giảm hoặc tăng khả năng phân hoạch khi có hoặc không có mặt thuộc tính đó

Tập tất cả các thuộc tính không thể bỏ được trong 𝑃 được gọi là lõi (core) của 𝑃, và ký hiệu là CORE(P) Lõi có thể là một tập rỗng

Nếu tất cả các thuộc tính trong P đều không bỏ được thì P được gọi là trực giao (orthogonal) Một tập con trực giao B bất kỳ giữ nguyên khả năng phân hoạch của P được gọi là một rút gọn (reduct) của P:

𝑩=𝑹𝑬𝑫(𝑷)⟺ (𝐵⊂𝑃, 𝐼𝑁𝐷(𝐵)=𝐼𝑁𝐷(𝑃), 𝐵 𝑙à 𝑡𝑟ự𝑐 𝑔𝑖𝑎𝑜)

Rút gọn của các thuộc tính là một tập con phân biệt cùng các khái niệm và không thể giảm được nữa.Mỗi tập thuộc tính bất kỳ có ít nhất một rút gọn.Giao của các rút gọn chính là lõi:

Trang 12

Tập hợp những phần tử trong ma trận phân biệt có giá trị khác λ sẽ được một hàm bool, rút gọn hàm bool ta được các tập rút gọn

Ví dụ: hệ thông tin thời tiết như Bảng I.2.1 lập ma trận phân biệt để tìm

tập thuộc tính rút gọn và tập lõi, ta được ma trận phân biệt sau:

u1 λ

u2 T,G λ

u3 T,A λ λ

u4 λ T,A,G T,A λ

u5 T,A λ λ T λ

u6 T λ λ T,A λ λ

u7 λ A A,G λ G A,G λ u8 λ T T,A,G λ T,A,G T,G λ λ T: Trời; A: Áp suất; G: Gió

Ta lập được hàm bool sau:

(T ᴠ G) ʌ (T v A) ʌ T ʌ A ʌ (T v A v G) ʌ (A v G) ʌ G

 (T ᴠ G) ʌ T ʌ (T v A) ʌ A ʌ (A v G) ʌ G

 T ʌ A ʌ G

 các thuộc tính của bảng quyết định không rút gọn được nữa

 tập lõi CORE(P) = {T, A, G} (T: Trời; A: Áp suất; G: Gió) Ngoài ra, có rất nhiều thuật toán đã được xây dựng để tìm các tập rút gọn tối thiểu các thuộc tính điều kiện của bảng quyết định Tuy nhiên, độ phức tạp của các thuật toán này là NP-khó Vì vậy, người ta thường sử dụng các thuật toán rút gọn xấp xỉ, trong đó thuật toán rút gọn xấp xỉ Johnson được

sử dụng rất phổ biến

Trang 13

3 Ứng dụng của tập thô trong khai phá dữ liệu

- Lý thuyết tập thô ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực Nhất là những ngành khoa học máy tính, trí tuệ nhân tạo, khai phá tri thức,…

- Với đặc tính xử lý trên dữ liệu không đầy đủ, không chắn chắn, lý thuyết tập thô nhanh chóng được ứng dụng rộng rãi trong các hệ nhận dạng, xử lý âm thanh, hình ảnh,…

- Trong khai phá dữ liệu: lý thuyết tập thô là một cách thức đơn giản để xử lý

dữ liệu đa chiều, với mỗi chiều được mô tả thành một thuộc tính, trong đó có một thuộc tính quyết định Sau khi xử dụng các công cụ toán học được cung cấp bởi tật thô ta có thể rút gọn các chiều của dữ liệu, loại bỏ những thuộc tính không quan trọng, giữ lại những thuộc tính quan trọng, từ đó rút ra các luật quyết định

- Lý thuyết tập thô cũng được xử dụng rộng rãi trong các hệ hỗ trợ ra quyết định, nhằm phân tính dữ liệu và đưa ra quyết định bằng các luật quyết định

II ỨNG DỤNG TÌM LUẬT SUY DIỄN TĂNG GIẢM CHỈ SỐ VN-INDEX

1 Công cụ triển khai

- Có rất nhiều công cụ được phát triển để xử lý tập thô Trong số đó công cụ ROSE2 là đơn giản và dễ sử dụng cũng như đa dạng về chức năng Từ việc rút gọn tập luật, tìm tập lõi đến tìm luật quyết định

- ROSE2 thuộc hệ hỗ trợ ra quyết định thông minh (Intelligent Decision Support Systems), được phát triển bởi Poznań University of Technology

- Có thể nói đây là một công cụ hỗ trợ mạnh mẽ để tìm ra tập luật suy diễn Từ

đó có thể sử dụng các luật ấy cho việc lập trình ra các ứng dụng hữu ích mà không phải bỏ nhiều công sức tạo ra ứng dụng để xử lý tập thô, khai phá dữ liệu thô nữa

- Chỉ cần cung cấp cho ROSE2 dữ liệu bảng quyết định đã được chuẩn bị trước hoặc tự tạo ra trong quá trình sử dụng công cụ Mọi vấn đề về xử lý tập thôi dường như trở nên đơn giản vô cùng

- ROSE2 còn cung cấp một giao diện người dùng thân thiện, dễ sử dụng

Trang 14

2 VN-Index là gì?

- VN-Index là chỉ số chứng khoán Việt Nam VN - Index xây dựng căn cứ vào giá trị thị trường của tất cả các cổ phiếu được niêm yết Với hệ thống chỉ số này, nhà đầu tư có thể đánh giá và phân tích thị trường một cách tổng quát

- VN-Index thể hiện biến động giá cổ phiếu giao dịch tại thị trường giao dịch chứng khoán thành phố Hồ Chí Minh (TTGDCK TP.HCM)

- VN-Index thể hiện xu hướng giá cổ phiếu hàng ngày

- Nhà đầu tư chứng khoán rất quan tâm chỉ số này vì nó thể hiện rõ mức độ tăng giảm cổ phiếu trong nước, thể hiện xu hướng của thị trường chứng khoán

và giúp nhà đầu tư đánh giá tổng quát thị trường, tìm ra phương án đầu tư tối

- Các thuộc tính điều kiện được thu thập từ nhiều nguồn khác nhau, nhiều loại khác nhau trong quá khứ Sau đó được tập hợp thành một bảng quyết định

Và cuối cùng sử dụng ROSE2 để phân tích và rút ra tập luật

4 Bảng quyết định thử nghiệm

- Bảng quyết định gồm các thuộc tính điều kiện: giá vàng SJC bán ra tại TP

Hồ Chí Minh, tỷ giá USD/VND (đô la Mỹ) bán ra tại ngân hàng Ngoại Thương Việt Nam (Vietcombank), tỷ giá JPY/VND (Yên Nhật) lấy từ website: www.oanda.com, giá dầu thô lấy từ website: www.investing.com

Và thuộc tính quyết định là chỉ số VN-Index

- Tất cả dữ liệu được lấy thực tế từ ngày 03/09/2014 đến ngày 30/09/2014 (dữ liệu thử nghiệm), trừ ngày thứ bảy và chủ nhật của mẫu tuần

- Giá trị của từng thuộc tính được chuyển đổi sang giá trị tăng giảm gồm ba giá trị: tăng (ký hiệu: T), giảm (ký hiệu: G) và không đổi (ký hiệu: K) Thể hiện giá trị tăng hoặc giảm so với phiên giao dịch trước đó

Trang 15

Bảng II.4.1: Bảng dữ liệu số liệu các thuộc tính

Ngày (triệu đồng) Giá vàng Tỷ giá USD/VND (đồng) Tỷ giá JPY/VND (đồng) Giá dầu thô (USD) VNINDEX

03/09/2014 36.36 21,225 199,326 95.54 640.75 04/09/2014 36.40 21,220 199,161 94.45 640.22 05/09/2014 36.34 21,220 199,475 93.29 638.65 08/09/2014 36.35 21,260 198,773 92.05 639.85 09/09/2014 36.28 21,225 199,140 91.89 626.92 10/09/2014 36.14 21,230 197,432 90.84 628.80 11/09/2014 36.08 21,230 196,249 91.86 628.99 12/09/2014 36.02 21,230 195,962 91.37 632.50 15/09/2014 35.95 21,230 194,011 91.99 630.34 16/09/2014 36.11 21,220 194,896 93.81 627.66 17/09/2014 36.12 21,220 195,159 93.20 625.66 18/09/2014 35.98 21,220 194,744 91.98 615.80 19/09/2014 36.10 21,225 193,259 91.65 613.29 22/09/2014 36.02 21,230 192,071 90.87 611.93 23/09/2014 35.95 21,240 192,538 91.56 610.39 24/09/2014 35.99 21,250 192,633 92.80 603.59 25/09/2014 35.95 21,240 192,994 92.53 605.10 26/09/2014 36.03 21,245 192,403 93.54 604.98 29/09/2014 35.92 21,245 192,149 94.57 599.78 30/09/2014 35.96 21,245 191,772 91.16 598.80

Định dạng
Số trang	21
Dung lượng	890,95 KB