Các khái niệm cơ bản ? là tập thuộc tính và được chia thành 2 tập con: các thuộc tính điều kiện condition attribute C các thuộc tính quyết định decision attribute D ? = ?∪? ? là tập hữu
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI THU HOẠCH
CÔNG NGHỆ TRI THỨC
&
ỨNG DỤNG
Trang 2NHẬN XÉT CỦA GIẢNG VIÊN
Trang 3
MỤC LỤC
Lời mở đầu trang 4
I LÝ THUYẾT TẬP THÔ trang 5
1 Giới thiệu trang 5
2 Các khái niệm cơ bản trang 6 2.1 Hệ thông tin trang 6 2.2 Bảng quyết định trang 7 2.3 Phân lớp tương đương trang 7 2.4 Không gian xấp xỉ trang 8 2.5 Sự phụ thuộc các thuộc tính trang 10 2.6 Rút gọn các thuộc tính trang 11
3 Ứng dụng của tập thô trong khai phá dữ liệu trang 13
II ỨNG DỤNG TÌM LUẬT SUY DIỄN TĂNG GIẢM CHỈ SỐ VN-INDEX trang 13
1 Công cụ triển khai trang 13
2 VN-Index là gì? trang 14
3 Giới thiệu ứng dụng trang 14
4 Bảng quyết định thử nghiệm trang 14
5 Kết quả thử nghiệm trang 17
6 Kiểm chứng trang 18
7 Kết luận trang 19 III KẾT LUẬN, HƯỚNG PHÁT TRIỂN trang 20 Tài liệu tham khảo trang 21
Trang 4LỜI MỞ ĐẦU
Ngày nay, sự phát triển vượt bậc của công nghệ thông tin Mọi vấn đề khó khăn dường như đơn giản hóa khi có sự hỗ trợ từ máy tính Sự bùng nổ của internet, đã mang lại nhiều thuận lợi cho việc thu thập thông tin và dữ liệu Nhưng song song đó vẫn có nhiều thách thức, nhất là trong việc sử dụng nguồn thông tin, dữ liệu tìm được đó
Khai phá dữ liệu trở thành một ngành rất được quan tâm Nó giúp con người lấy được thông tin từ nguồn dữ liệu khổng lồ, vô tận Không có khai phá dữ liệu thì nguồn dữ liệu vô tận ấy cũng không có ý nghĩa
Các công cụ toán học bắt đầu phát huy thế mạnh trong khai phá dữ liệu Bằng những công cụ được xây dựng trên những nền tảng lý thuyết vững chắc, toán học tạo tiền đề giải quyết các vấn đề về khai phá dữ liệu Trong số đó, lý thuyết tập thô đóng góp một phần các công cụ hỗ trợ cho vấn đề khai phá dữ liệu, khai phá tri thức
Trang 5- Đặc biệt thích hợp với các bài toán phân tích trên khối lượng dữ liệu lớn, chứa đựng thông tin mơ hồ, không chắc chắn, không đầy đủ Lý thuyết tập thô có nhiều công cụ toán học khác nhau được dùng để xử lý tri thức không
đầy đủ
- Các phương pháp của lý thuyết tập thô tỏ ra hết sức quan trọng đối với lĩnh vực Trí tuệ nhân tạo và các ngành khoa học liên quan đến nhận thức (máy học, các hệ chuyên gia, các hệ hỗ trợ quyết định, lập luận dựa trên quy nạp
và nhận dạng,…)
- Triết lý của tập thô dựa trên nhận định rằng mọi đối tượng trong vũ trụ đều gắn với môt loại thông tin nào đó (dữ liệu, tri thức, ) Ví dụ nếu các đối tượng là các bệnh nhân bị một căn bệnh nào đó, thì các triệu chứng của bệnh tạo nên thông tin về bệnh nhân
- Các phép toán cơ bản của lý thuyết tập thô được sử dụng để phát hiện các mẫu cơ sở (fundamental pattern) trong dữ liệu Do đó, với một ý nghĩa nhất định phương pháp lập luận thô cũng chính là máy học (machine learning), phát hiện tri thức (knowledge discovery), suy diễn thống kê (statistic inference) và suy diễn quy nạp(inductive inference)
- Lý thuyết tập thô ngày càng được ứng dụng nhiều, nhất là trong khai phá dữ liệu, tìm luật, dự báo, dự đoán,…
Trang 62 Các khái niệm cơ bản
𝐴 là tập thuộc tính và được chia thành 2 tập con:
các thuộc tính điều kiện (condition attribute) C các thuộc tính quyết định (decision attribute) D
𝐴 = 𝐶∪𝐷
𝑉 là tập hữu hạn các giá trị thuộc tính trong đó:
𝑉 = ⋃(𝑎 ∈ 𝐴) 𝑉𝑎 với 𝑉𝑎 là miền (domain) của thuộc tính a.𝑓:𝑈×𝐴→𝑉 là hàm thông tin (information function)
trong đó 𝑓(𝑥,𝑎)∈𝑉𝑎; ∀𝑎∈𝐴; 𝑥∈𝑈
Hệ thông tin là một bảng dữ liệu trong đó mỗi dòng ứng với thông tin của một đối tượng, mỗi cột biểu diễn một thuộc tính có giá trị được xác định trên mỗi đối tượng
Ví dụ: hệ thông tin thời tiết, biểu diễn thông tin thời tiết với 8 đối tượng, 4 thuộc tính: trời, áp suất, gió, kết quả
Bảng I.2.1: Hệ thông tin thời tiết
Trang 7Tập các giá trị của thuộc tính quyết định D = {1, , r(d)} được gọi là phạm
vi của thuộc tính quyết định D Lớp quyết định thứ k (ký hiệu là Ck) là một tâp các đối tượng thoả mãn:
theo u(D) = v(D) Ngược lại, gọi là bảng không nhất quán
Ví dụ: Trong Bảng I.2.1 thuộc tính quyết định là “Kết quả”, có 2 giá trị là
“mưa” và “không mưa” Các lớp quyết định: {u1, u4, u7, u8}, {u2, u3, u5,
u6}
2.3 Phân lớp tương đương
Cho S=⟨𝑈,𝐴,𝑉,𝑓⟩ là một hệ thông tin, 𝑃⊆𝐴 ;𝑋⊆𝑈;𝑥,𝑦∈𝑈, mọi tập không rỗng các đối tượng được gọi là một khái niệm (concept)
Vậy X là một khái niệm trong hệ thông tin Ta nói rằng , x và y là không thể phân biệt (indiscernable) bởi tập các thuộc tính P trong S, khi và chỉ khi: 𝑓(𝑥,𝑎)=𝑓(𝑦,𝑎);∀𝑎∈𝐴
Từ đó ta định nghĩa, tập thuộc tính P được gọi là không thể phân biệt (ký hiệu là IND(P)) nếu: 𝐼𝑁𝐷(𝑃)={(𝑥,𝑦)∈𝑈×𝑈:𝑓(𝑥,𝑎)=𝑓(𝑦,𝑎), ∀𝑎∈𝑃}
Trang 8Quan hệ không thể phân biệt là một quan hệ tương đương và nó chia U thành các lớp tương đương, ký hiệu sự phân lớp hay phân hoạch này bởi 𝑈/𝑃
Với ∀𝑥∈𝑈, lớp tương đương của 𝑥 trong quan hệ IND(P)) được biểu diễn đơn giản là: [𝒙]𝑰𝑵𝑫(𝑷)
Ví dụ: trong Bảng I.2.1 nếu phân hoạch 𝑈 theo thuộc tính “Áp suất” ta sẽ
nhận được các phân lớp tương đương sau:
IND({Áp xuất})={{u1, u2, u6, u8}, {u3}, {u4, u5, u7}}
Ta nói: u1 và u2 không thể phân biệt trên thuộc tính “Áp suất”,…
2.4 Không gian xấp xỉ
Cho hệ thông tin 𝑆 = 〈𝑈, 𝐴, 𝑉, 𝑓〉 và 𝑃⊆𝐴 Một cặp có thứ tự
𝐴𝑆=(𝑈,𝐼𝑁𝐷(𝑃)) được gọi là không gian xấp xỉ (approximation space), ký
hiệu là AS
Các lớp tương đương được gọi là các tập P – cơ bản trong AS, vì chúng
biểu diễn các nhóm đối tượng phân biệt được nhỏ nhất
Hội hữu hạn của các tập cơ bản trong AS được gọi là tập có thể xác định
(definable set) trong không gian xấp xỉ AS
Từ bảng quyết định người ta có thể tạo ra một tập các luật quyết định
(decisoin rules) Cho 𝑃⊆𝐴; 𝑋⊆𝑈;
P – xấp xỉ dưới (lower approximation) của X trong AS, ký hiệu 𝑃𝑋, được định nghĩa bởi: 𝑃𝑋 = {𝑦 ∈ 𝑈: [𝑦]𝐼𝑁𝐷(𝑃) ⊆ 𝑋}
là tập các đối tượng trong 𝑈 mà sử dụng tập thuộc tính 𝑃 ta chắc chắn chúng
Nếu 𝑃𝑋 = 𝑃𝑋 ta nói rằng 𝑋là 𝑃 – chính xác (P – exact)
ngược lại 𝑋 là 𝑃 – thô (P - rough)
Trang 9P – biên hay vùng không chắc chắn (doubtful region) của tập 𝑋 được định nghĩa bởi: BNP(𝑋) = 𝑃𝑋 − 𝑃𝑋; đó là tập các phần tử mà sử dụng tập thuộc tính 𝑃 ta không thể xác định chúng có thuộc vào tập 𝑋 hay không
Hệ số chính xác hay độ chính xác xấp xỉ(accuracy of approximation) của tập đối tương 𝑋 đối với tập thuộc tính 𝑃 được định nghĩa bởi:
𝛼𝑃(𝑋) =𝑐𝑎𝑟𝑑(𝑃𝑋)
𝑐𝑎𝑟𝑑(𝑃𝑋)
Nếu 𝛼𝑃(𝑋) =1, tập 𝑋 là tập rõ đối với quan hệ𝑃
Nếu 𝛼𝑃(𝑋) <1, tập 𝑋 là tập thô đối với quan hệ 𝑃
Ví dụ: trong Bảng I.2.1 ta có thể tính xấp xỉ trên và xấp xỉ dưới với 2 thuộc
tính 𝑃 = {Trời, Áp suất} và 𝑋 = {𝑥|𝐾ế𝑡 𝑞𝑢ả (𝑥) = 𝑀ư𝑎} ={𝑢2, 𝑢3, 𝑢5, 𝑢6} như sau:
Trang 102.5 Sự phụ thuộc các thuộc tính
Trong khai phá dữ liệu, việc tìm ra sự phụ thuộc của các thuộc tính trong tập thô là vấn đề rất quan trọng
Ta nói rằng tập các thuộc tính 𝑅⊆𝐴 phụ thuộc vào tập các thuộc tính 𝑃⊆
𝐴 trong U, ký hiệu 𝑃→𝑅, khi và chỉ khi IND(𝑃) = IND(𝑅) Tức là phân hoạch U theo 𝑃 tương đương với phân hoạch U theo 𝑅, từ những giá trị của tập 𝑃 ta có thể xác định được giá trị của tập 𝑅
Nếu 𝑅 là tập quyết định, 𝑃 là tập điều kiện, vậy từ những giá trị của các điều kiện cho trước ta có thể xác định được giá trị của quyết định Cho 𝑃,𝑄⊆𝐴 Vùng dương của phân hoạch 𝑈∣𝐼𝑁𝐷(𝑄) đối với tập thuộc tính 𝑃, gọi là 𝑃 – vùng dương của 𝑄 (𝑃 – positive region of 𝑄) được xác định bởi:
𝑃𝑂𝑆𝑃(𝑄) = ⋃𝑋∈𝑈∣𝐼𝑁𝐷(𝑄)𝑃𝑋
𝑃 – vùng dương của 𝑄 gồm tất cả những đối tượng mà bằng các thuộc tính
𝑃 ta có thể phân hoạch chúng một cách chắc chắn vào một lớp của phân
hoạch 𝑈 ∣ 𝐼𝑁𝐷(𝑄)
Lực lượng 𝑃 – vùng dương của 𝑄, được dùng để đo mức độ phụ thuộc của
𝑄 vào 𝑃, và được xác định bởi: 𝛾𝑃(𝑄) =𝑐𝑎𝑟𝑑(𝑃𝑂𝑆𝑃 (𝑄))
𝑐𝑎𝑟𝑑(𝑈)Không phải tất cả các thuộc tính trong P đều có ý nghĩa như nhau đối với phân loại 𝑈∣𝐼𝑁𝐷(𝑄), do đó người ta xác định hệ số quan trọng (coefficient
of significance) của thuộc tính a bởi:
𝜇𝑃,𝑄(𝑎) = 𝑐𝑎𝑟𝑑(𝑃𝑂𝑆𝑃(𝑄))−𝑐𝑎𝑟𝑑(𝑃𝑂𝑆𝑃−{𝑎}(𝑄))
𝑐𝑎𝑟𝑑(𝑈)
Hệ số quan trọng của thuộc tính a trong tập thuộc tính P đối với phân loại
IND(A) là: 𝜇𝑃(𝑎) = 𝜇𝑃,𝐴(𝑎)
Trang 112.6 Rút gọn các thuộc tính
Một hệ thông tin thông thường với nhiều thuộc tính có thể được thu thập từ nhiều nguồn khác nhau Do đó không thể tránh khỏi một số thuộc tính dư thừa khi khai phá dữ liệu theo một phân hoạch nhất định Lý thuyết tập thô cho ta những khái niệm giúp ta có thể rút gọn các thuộc tính mà không làm thay đổi khả năng phân hoạch
Cho 𝑃,𝑄∈𝐴;𝑎∈𝑃 Một thuộc tính 𝑎 là bỏ qua được (dispensable) trong 𝑃, nếu 𝐼𝑁𝐷(𝑃)=𝐼𝑁𝐷(𝑃−{𝑎}) Ngược lại, 𝑎 là không thể bỏ được (indispensable) Thuộc tính bỏ qua được không lảm giảm hoặc tăng khả năng phân hoạch khi có hoặc không có mặt thuộc tính đó
Tập tất cả các thuộc tính không thể bỏ được trong 𝑃 được gọi là lõi (core) của 𝑃, và ký hiệu là CORE(P) Lõi có thể là một tập rỗng
Nếu tất cả các thuộc tính trong P đều không bỏ được thì P được gọi là trực giao (orthogonal) Một tập con trực giao B bất kỳ giữ nguyên khả năng phân hoạch của P được gọi là một rút gọn (reduct) của P:
𝑩=𝑹𝑬𝑫(𝑷)⟺ (𝐵⊂𝑃, 𝐼𝑁𝐷(𝐵)=𝐼𝑁𝐷(𝑃), 𝐵 𝑙à 𝑡𝑟ự𝑐 𝑔𝑖𝑎𝑜)
Rút gọn của các thuộc tính là một tập con phân biệt cùng các khái niệm và không thể giảm được nữa.Mỗi tập thuộc tính bất kỳ có ít nhất một rút gọn.Giao của các rút gọn chính là lõi:
Trang 12Tập hợp những phần tử trong ma trận phân biệt có giá trị khác λ sẽ được một hàm bool, rút gọn hàm bool ta được các tập rút gọn
Ví dụ: hệ thông tin thời tiết như Bảng I.2.1 lập ma trận phân biệt để tìm
tập thuộc tính rút gọn và tập lõi, ta được ma trận phân biệt sau:
u1 λ
u2 T,G λ
u3 T,A λ λ
u4 λ T,A,G T,A λ
u5 T,A λ λ T λ
u6 T λ λ T,A λ λ
u7 λ A A,G λ G A,G λ u8 λ T T,A,G λ T,A,G T,G λ λ T: Trời; A: Áp suất; G: Gió
Ta lập được hàm bool sau:
(T ᴠ G) ʌ (T v A) ʌ T ʌ A ʌ (T v A v G) ʌ (A v G) ʌ G
(T ᴠ G) ʌ T ʌ (T v A) ʌ A ʌ (A v G) ʌ G
T ʌ A ʌ G
các thuộc tính của bảng quyết định không rút gọn được nữa
tập lõi CORE(P) = {T, A, G} (T: Trời; A: Áp suất; G: Gió) Ngoài ra, có rất nhiều thuật toán đã được xây dựng để tìm các tập rút gọn tối thiểu các thuộc tính điều kiện của bảng quyết định Tuy nhiên, độ phức tạp của các thuật toán này là NP-khó Vì vậy, người ta thường sử dụng các thuật toán rút gọn xấp xỉ, trong đó thuật toán rút gọn xấp xỉ Johnson được
sử dụng rất phổ biến
Trang 133 Ứng dụng của tập thô trong khai phá dữ liệu
- Lý thuyết tập thô ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực Nhất là những ngành khoa học máy tính, trí tuệ nhân tạo, khai phá tri thức,…
- Với đặc tính xử lý trên dữ liệu không đầy đủ, không chắn chắn, lý thuyết tập thô nhanh chóng được ứng dụng rộng rãi trong các hệ nhận dạng, xử lý âm thanh, hình ảnh,…
- Trong khai phá dữ liệu: lý thuyết tập thô là một cách thức đơn giản để xử lý
dữ liệu đa chiều, với mỗi chiều được mô tả thành một thuộc tính, trong đó có một thuộc tính quyết định Sau khi xử dụng các công cụ toán học được cung cấp bởi tật thô ta có thể rút gọn các chiều của dữ liệu, loại bỏ những thuộc tính không quan trọng, giữ lại những thuộc tính quan trọng, từ đó rút ra các luật quyết định
- Lý thuyết tập thô cũng được xử dụng rộng rãi trong các hệ hỗ trợ ra quyết định, nhằm phân tính dữ liệu và đưa ra quyết định bằng các luật quyết định
II ỨNG DỤNG TÌM LUẬT SUY DIỄN TĂNG GIẢM CHỈ SỐ VN-INDEX
1 Công cụ triển khai
- Có rất nhiều công cụ được phát triển để xử lý tập thô Trong số đó công cụ ROSE2 là đơn giản và dễ sử dụng cũng như đa dạng về chức năng Từ việc rút gọn tập luật, tìm tập lõi đến tìm luật quyết định
- ROSE2 thuộc hệ hỗ trợ ra quyết định thông minh (Intelligent Decision Support Systems), được phát triển bởi Poznań University of Technology
- Có thể nói đây là một công cụ hỗ trợ mạnh mẽ để tìm ra tập luật suy diễn Từ
đó có thể sử dụng các luật ấy cho việc lập trình ra các ứng dụng hữu ích mà không phải bỏ nhiều công sức tạo ra ứng dụng để xử lý tập thô, khai phá dữ liệu thô nữa
- Chỉ cần cung cấp cho ROSE2 dữ liệu bảng quyết định đã được chuẩn bị trước hoặc tự tạo ra trong quá trình sử dụng công cụ Mọi vấn đề về xử lý tập thôi dường như trở nên đơn giản vô cùng
- ROSE2 còn cung cấp một giao diện người dùng thân thiện, dễ sử dụng
Trang 142 VN-Index là gì?
- VN-Index là chỉ số chứng khoán Việt Nam VN - Index xây dựng căn cứ vào giá trị thị trường của tất cả các cổ phiếu được niêm yết Với hệ thống chỉ số này, nhà đầu tư có thể đánh giá và phân tích thị trường một cách tổng quát
- VN-Index thể hiện biến động giá cổ phiếu giao dịch tại thị trường giao dịch chứng khoán thành phố Hồ Chí Minh (TTGDCK TP.HCM)
- VN-Index thể hiện xu hướng giá cổ phiếu hàng ngày
- Nhà đầu tư chứng khoán rất quan tâm chỉ số này vì nó thể hiện rõ mức độ tăng giảm cổ phiếu trong nước, thể hiện xu hướng của thị trường chứng khoán
và giúp nhà đầu tư đánh giá tổng quát thị trường, tìm ra phương án đầu tư tối
- Các thuộc tính điều kiện được thu thập từ nhiều nguồn khác nhau, nhiều loại khác nhau trong quá khứ Sau đó được tập hợp thành một bảng quyết định
Và cuối cùng sử dụng ROSE2 để phân tích và rút ra tập luật
4 Bảng quyết định thử nghiệm
- Bảng quyết định gồm các thuộc tính điều kiện: giá vàng SJC bán ra tại TP
Hồ Chí Minh, tỷ giá USD/VND (đô la Mỹ) bán ra tại ngân hàng Ngoại Thương Việt Nam (Vietcombank), tỷ giá JPY/VND (Yên Nhật) lấy từ website: www.oanda.com, giá dầu thô lấy từ website: www.investing.com
Và thuộc tính quyết định là chỉ số VN-Index
- Tất cả dữ liệu được lấy thực tế từ ngày 03/09/2014 đến ngày 30/09/2014 (dữ liệu thử nghiệm), trừ ngày thứ bảy và chủ nhật của mẫu tuần
- Giá trị của từng thuộc tính được chuyển đổi sang giá trị tăng giảm gồm ba giá trị: tăng (ký hiệu: T), giảm (ký hiệu: G) và không đổi (ký hiệu: K) Thể hiện giá trị tăng hoặc giảm so với phiên giao dịch trước đó
Trang 15Bảng II.4.1: Bảng dữ liệu số liệu các thuộc tính
Ngày (triệu đồng) Giá vàng Tỷ giá USD/VND (đồng) Tỷ giá JPY/VND (đồng) Giá dầu thô (USD) VNINDEX
03/09/2014 36.36 21,225 199,326 95.54 640.75 04/09/2014 36.40 21,220 199,161 94.45 640.22 05/09/2014 36.34 21,220 199,475 93.29 638.65 08/09/2014 36.35 21,260 198,773 92.05 639.85 09/09/2014 36.28 21,225 199,140 91.89 626.92 10/09/2014 36.14 21,230 197,432 90.84 628.80 11/09/2014 36.08 21,230 196,249 91.86 628.99 12/09/2014 36.02 21,230 195,962 91.37 632.50 15/09/2014 35.95 21,230 194,011 91.99 630.34 16/09/2014 36.11 21,220 194,896 93.81 627.66 17/09/2014 36.12 21,220 195,159 93.20 625.66 18/09/2014 35.98 21,220 194,744 91.98 615.80 19/09/2014 36.10 21,225 193,259 91.65 613.29 22/09/2014 36.02 21,230 192,071 90.87 611.93 23/09/2014 35.95 21,240 192,538 91.56 610.39 24/09/2014 35.99 21,250 192,633 92.80 603.59 25/09/2014 35.95 21,240 192,994 92.53 605.10 26/09/2014 36.03 21,245 192,403 93.54 604.98 29/09/2014 35.92 21,245 192,149 94.57 599.78 30/09/2014 35.96 21,245 191,772 91.16 598.80