1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Nhập môn khai phá dữ liệu: Chương 1 - PGS. TS. Hà Quang Thụy

92 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 92
Dung lượng 2,94 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng Nhập môn khai phá dữ liệu - Chương 1: Giới thiệu chung về khai phá dữ liệu. Những nội dung chính trong chương này gồm có: Tại sao khai phá dữ liệu? Khái niệm khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu, khai phá dữ liệu và xử lý cơ sở dữ liệu truyền thống, kiểu dữ liệu trong khai phá dữ liệu, kiểu mẫu được khai phá, công nghệ khai phá dữ liệu điển hình, một số ứng dụng điển hình, các vấn đề chính trong khai phá dữ liệu.

Trang 1

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU

CHƯƠNG 1 GIỚI THIỆU CHUNG

VỀ KHAI PHÁ DỮ LIỆU

1

PGS TS Hà Quang Thụy

HÀ NỘI, 09-2020

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐẠI HỌC QUỐC GIA HÀ NỘI

http://uet.vnu.edu.vn/~thuyhq/

Trang 2

Nội dung

1. Tại sao khai phá dữ liệu (KPDL)?

2. Khái niệm KPDL và phát hiện tri thức trong CSDL

3. KPDL và xử lý CSDL truyền thống

4. Kiểu dữ liệu trong KPDL

5. Kiểu mẫu được khai phá

6. Công nghệ KPDL điển hình

7. Một số ứng dụng điển hình

8. Các vấn đề chính trong KPDL

2

Trang 3

1 Tại sao khai phá dữ liệu

▪ Phát hiện tri thức từ dữ liệu

⚫ Nhu cầu khai phá dữ liệu tại Việt Nam

▪ Trường hè KHDL 2016

3

Trang 4

Ví dụ: Tại sao khai phá dữ liệu ?

Phân tích dữ liệu giúp ứng viên Tổng thống Mỹ

1. Đào Trung Thành Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ.

2. TRẦN THẮNG (kỹ sư hàng không ở Mỹ) Mạng xã hội giúp ông Trump đắc cử tổng

thống Mỹ như thế nào? 2016/20161110/it-phieu-hon-vi-sao-ong-trum-dac-cu-tong-thong-my/1216150.html

http://tuoitre.vn/tin/the-gioi/bau-cu-tong-thong-my-(10/11/2016 19:15 GMT+7) TÍNH KHÁC BIỆT: TWITER  TRUYỀN THÔNG TT

3. Von Hannes Grassegger und Mikael Krogerus Ich habe nur gezeigt, dass es die

Bombe gibt. Das Magazin N°48 – 3 Dezember 2016 https://www.dasmagazin.ch/2016/12/03/ich-habe-nur-gezeigt-dass-es-die-bombe-gibt/.

Nhà tâm lý học Michal Kosinski phát triển một phương pháp phân tích tinh tế mọi người dựa trên hành vi của họ trên Facebook Và như thế giúp Donald Trump chiến thắng.

PHƯƠNG PHÁP, KỸ THUẬT MIỀN ỨNG DỤNG: PHÂN TÍCH DỮ LIỆU TÂM LÝ

4 http://www.michalkosinski.com/: an Assistant Professor in Organizational Behavior

at Stanford Graduate School of Business

5 Leonid Bershidsky. No, Big Data Didn't Win the U.S Election.

https://www.bloomberg.com/view/articles/2016-12-08/no-big-data-didn-t-win-the-u-s-election (DEC 8, 2016 2:56 PM EST) "Obviously, it is not big data analytics that wins

the election," he (Michal Kosinski) wrote back "Candidates do We don't know how

much his victory was helped by big data analytics.“ KINH DOANH MÀ KHÔNG LÀ

Trang 5

Công nghệ: Bùng nổ dữ liệu: Luật Moore

5

Xu thế từ Định luật Moore

▪ Gordon E Moore (1965) Cramming more components onto integrated

circuits, Electronics, 38 (8), April 19, 1965. Một quan sát và dự báo

Lượng bóng bán dẫn (giá) của mạch tích hợp tăng (rẻ) gần gấp đôi

sau mỗi chu kỳ hai năm

▪ Máy tính (điện thoại, v.v.) mạnh hơn, gọn hơn, giá cả phù hợp

[APEC18] APEC Policy Support Unit APEC Regional Trends Analysis - The Digital

Productivity Paradox Asia-Pacific Economic Cooperation Policy Support

Unit, November 2018.

[42Year] https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/

Trang 6

Bùng nổ dữ liệu: Giá thành và thể hiện

Nguồn: IDC Digital Universe Study, Seagate Technology, 2018

⚫ Giá tạo dữ liệu ngày càng rẻ hơn

▪ Chiều hướng giá tạo mới dữ liệu giảm dần

▪ 0,5 xu Mỹ/1 GB vào năm 2009 giảm tới 0,02 xu Mỹ /1 GB vào năm 2020

⚫ Dung lượng tổng thể tăng

▪ Độ dốc tăng càng cao

▪ Đã đạt 33ZB năm 2018 (năm 2011 dự kiến đạt 35 ZB vào năm 2020)

6

https://www.seagate.com/as/en/our-story/data-age-2025/

Trang 7

Phân bổ lượng dữ liệu theo khu vực

7

https://www.seagate.com/as/en/our-story/data-age-2025/

Nguồn: IDC Digital Universe Study, Seagate Technology, 2018

The E urope, the Middle East, and Africa

Asia-Pacific, including Japan, ex cept China

China EMEA

US

Rest of World

Trang 8

⚫ Bùng nổ dữ liệu với tăng trưởng nhận lực CNTT

▪ Dung lượng thông tin tăng 67 lần, đối tượng dữ liệu tăng 67 lần

▪ Lực lượng nhân lực CNTT tăng 1,4 lần

Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010.

8

Nhu cầu nắm bắt dữ liệu

Trang 9

⚫ Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998

“Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học,

dữ liệu tài chính, và các dữ liệu tiếp thị Con người không có đủ thời gian để xem xét dữ liệu như vậy Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá.

Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường.

Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên cứu cơ sở dữ liệu Các nhà nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh vực này Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường trong vài thập kỷ gần đây” [HK0106].

⚫ Kenneth Cukier,

“Thông tin từ khan hiếm tới dư dật Điều đó mang lại lợi ích mới to lớn… tạo nên khả năng làm được nhiều việc mà trước đây không thể thực hiện được: nhận ra các

xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm …

Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới

có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý”. http://www.economist.com/node/15557443?story_id=15557443

9

Nhu cầu thu nhận tri thức từ dữ liệu

Trang 10

⚫ Kinh tế tri thức

▪ Tri thức là tài nguyên cơ bản

▪ Sử dụng tri thức là động lực chủ chốt cho tăng trưởng kinh tế

Hình vẽ: Năm 2003, đóng góp của tri thức cho tăng GDP/đầu người của

Hàn Quốc gấp đôi so với đóng góp của lao động và vốn TFP: Total Factor

Productivity (The World Bank Korea as a Knowledge Economy, 2006 )

10

Kinh tế tri thức

Trang 11

⚫ Kinh tế dịch vụ

▪ Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ.

Lao động dịch vụ vượt lao động nông nghiệp (2006).

▪ Mọi nền kinh tế là kinh tế dịch vụ.

▪ Đơn vị trao đổi trong kinh tế và xã hội là dịch vụ

⚫ Dịch vụ: dữ liệu & thông tin  tri thức  giá trị mới

▪ Khoa học: dữ liệu & thông tin  tri thức

▪ Kỹ nghệ: tri thức  dịch vụ

▪ Quản lý: tác động tới toàn bộ quy trình thi hành dịch vụ

Jim Spohrer (2006) A Next Frontier in Education, Employment, Innovation, and

Economic Growth, IBM Corporation, 2006

11

Kinh tế dịch vụ: Từ dữ liệu tới giá trị

Trang 12

⚫ Từ dữ liệu tới trí tuệ

Dữ liệu (data): dữ kiện không ngữ cảnh Trình bày dữ kiện.

▪ Thông tin (information): dữ kiện với ngữ cảnh và khía cạnh nào đó

Dữ liệu có ý nghĩa, dữ liệu trong ngữ cảnh Hiểu được quan hệ

▪ Tri thức (knowledge): Thông tin được dung để phát hiện và hiểu

được mẫu trong dữ liệu Hiểu được mẫu

▪ Trí tuệ (wisdom): Tri thức nảy sinh khi hiểu được lý do mẫu xuất

hiện trong dữ liệu Hiểu được nguyên lý

▪ http://www.systems-thinking.org/kmgmt/kmgmt.htm

12

Quá trình tiến hóa dữ liệu tới trí tuệ

Trang 13

Dữ liệu lớn không ngừng gia tăng và giá trị

▪ (i) Mỹ: tiết kiệm 300 tỷ US$ ngành y tế, (ii) Châu Âu: chỉnh phủ tiết kiệm

100 tỷ Euro (giảm gian lận, sai sót, chênh lệch thuế), v.v

13

[Chen14] Min Chen, Shiwen Mao, Yunhao Liu Big Data: A Survey MONET

19(2): 171-209, 2014.

Trang 14

Giá trị dữ liệu: Ví dụ 1 (Capital One)

dụng đồng mức

▪ Người q/lý NH tin khách hàng chưa ưa mức khác nhau;

▪ HTTT chưa thể đáp ứng quản lý mức tín dụng khác nhau

▪ CNTT cho mô hình dự báo tinh vi hơn (mô hình lợi nhuận), đủnăng lực các mức tín dụng

Trang 15

http://www.fundinguniverse.com/company-histories/capital-one-financial-corporation-Giá trị dữ liệu: Ví dụ 1 (Capital One)

▪ Không có dữ liệu với mức thẻ tín dụng khác nhau

▪ Tạo DL cho mô hình (MHLN): cung cấp ngẫu nhiên mức tíndụng khác nhau tới KH khác nhau DL là tài nguyên thìphải đầu tư

▪ Tốn kém: tỷ lệ "khoanh nợ“: 2,9% đầu ngành, do cung cấpngẫu nhiên giảm sút tới gần 6% dư chưa thanh toán

▪ 4 năm: vừa thu thập dữ liệu vừa hoàn thiện mô hình 1994

(Học máy tăng cường) 1994 tách thành Capital One

▪ Nhanh chóng thành có lợi nhuận lớn nhất Nhà phát hànhthể tín dụng thứ sáu nước Mỹ: mở 48,6 triệu tài khoản 53,2tỷ US$, 12% gia đình Mỹ

Trang 16

http://www.fundinguniverse.com/company-histories/capital-one-financial-corporation-⚫ Sự kiện và vấn đề

▪ Microsoft mua lại LinkedIn với giá 26,2 tỷ đô-la Mỹ

▪ Định giá kế toán của LinkedIn là 3,2 tỷ đô-la Mỹ

▪ Độ chênh lệch 23 tỷ đô-la Mỹ là một con số rất lớn ?

▪ 23 tỷ đô-la Mỹ chủ yếu từ giá trị dữ liệu

▪ Đo lường giá trị dữ liệu ?

▪ Infonomics (Chương 2)

▪ Ban đầu: Dữ liệu phục vụ quảng cáo tốt hơn

▪ Hiện tại: Dữ liệu là một dịch vụ trí tuệ nhân tạo Công nghiệp 4.0

▪ Họ thu thập được các dữ liệu gì ?

▪ Dữ liệu đó có thể được sử dụng (kinh doanh) như thế nào ?

16

Giá trị dữ liệu: Ví dụ 2 (Microsoft-LinkedIn)

infonomics-in-a-big-data-world-and-what-it-is/#1e290da64c69

https://www.forbes.com/sites/bernardmarr/2017/05/31/why-every-business-needs- rise-new-economy

Trang 17

https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data-giving-⚫ McKinsey & Company

▪ Chi tiêu dữ liệu hàng năm: hàng trăm triệu đô la/công ty loại vừađến hàng tỷ đô la/công ty lớn nhất COVID-19 tăng chi phí

17

Ví dụ 3: Chi tiêu dữ liệu 2016-18, 2019-21

data-costs-without-jeopardizing-growth July 31, 2020

Trang 18

⚫ McKinsey & Company, 2020

▪ (1) Không bao gồm quy trình thu thập dữ liệu nội bộ; (2) Các ngành công nghiệp không trực tiếp chạm vào người tiêu dùng (ví dụ: hàng hóa đóng gói của người tiêu dùng) dành phần cao hơn (> 20%) cho việc tìm nguồn cung ứng dữ liệu; (3) Đối với công ty loại vừa có doanh thu từ 5 tỷ đến 10 tỷ đô

la và chi phí hoạt động từ 4 tỷ đến 6 tỷ đô la.

▪ Giá trị tuyệt đối khác nhau tùy theo ngành và quy mô công ty; ví dụ, chi tiêu tuyệt đối (trung bình) của ngành viễn thông là cao hơn.

Trang 20

Việt nam:Trường hè Khai phá dữ liệu 2016

▪ 26/11/2014: Hội thảo “Machine Learning and Its Application inVietnam (MLAVN)” thuộc ACML 2014 tại NhaTrang (Ảnh)

▪ 10-13/8/2015: Trường hè “Học máy thống kê” tại Nhà G3, ĐHCN

▪ 16-19/8/2016: Trường hè “Khai phá dữ liệu” tại Nhà G3, ĐHCN.http://fit.uet.vnu.edu.vn/dmss2016/

▪ 2017 (dự kiến): Trường hè “Khoa học dữ liệu”? Trao đổi 19/8/2016

Trang 21

Chủ đề - diễn giả: Nền tảng và nâng cao

21

Trang 22

Chủ đề - diễn giả: Công nghiệp-thực hành

22

Trang 23

Giới thiệu về học viên

▪ 175 người, trong đó 01 ĐH Duy Tân, 07 ĐH Hoa Sen, 04 ĐHNguyễn Tất Thành, 03 ĐH Thủ Dầu Một, 01 ĐH Tohoku (Nhật Bản)

▪ Giới tính: 134 nam, 36 nữ, 05 chưa có thông tin

▪ Hai biểu đồ về Kiểu cơ quan công tác và Trình độ tốt nghiệp

Không ít ứng viên không được đáp ứng cơ sở vật chất

23

Trang 24

July 12, 2021 24

2 Khái niệm KDD và KPDL

⚫ Knowledge discovery from databases

⚫ Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường,

ẩn, chưa biết và hữu dụng tiiềm năng) từ một tập hợp lớn dữ

liệu

KDD và KPDL: tên gọi lẫn lộn? theo hai tác giả|Khai phá dữ liệu

Data Mining là một bước trong quá trình KDD

Trang 25

July 12, 2021 25

Quá trình KDD [FPS96]

[FPS96] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996) From

Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery

and Data Mining 1996: 1-34

Trang 26

July 12, 2021 26

Quá trình Khai phá dữ liệu

Trang 27

July 12, 2021 27

Các bước trong quá trình KDD

⚫ Học từ miền ứng dụng

▪ Tri thức sẵn có liên quan và mục tiêu của ứng dụng

⚫ Khởi tạo một tập dữ liệu đích: chọn lựa dữ liệu

⚫ Chuẩn bị dữ liệu và tiền xử lý: (huy động tới 60% công sức!)

⚫ Thu gọn và chuyển đổi dữ liệu

▪ Tìm các đặc trưng hữu dụng, rút gọn chiều/biến, tìm các đại diện bất biến.

⚫ Chọn lựa chức năng (hàm) KPDL

▪ Tóm tắt, phân lớp, hồi quy, kết hợp, phân cụm.

⚫ Chọn (các) thuật toán KPDL

⚫ Bước KPDL: tìm mẫu hấp dẫn

⚫ Đánh giá mẫu và trình diễn tri thức

▪ Trực quan hóa, chuyển dạng, loại bỏ các mẫu dư thừa, v.v.

⚫ Sử dụng tri thức phát hiện được

Trang 28

July 12, 2021 28

Các khái niệm liên quan

⚫ Các tên thay thế

▪ chiết lọc tri thức (knowledge extraction),

▪ phát hiện thông tin (information discovery),

▪ thu hoạch thông tin (information harvesting),

▪ khai quật/nạo vét dữ liệu (data archaeology/ dredging),

▪ Phân tích/xử lý mẫu/dữ liệu (data/pattern analysis/processing)

▪ Thông minh doanh nghiệp (business intelligence -BI)

▪ …

⚫ Phân biệt: Phải chăng mọi thứ là DM?

▪ Xử lý truy vấn suy diễn

▪ Hệ chuyên gia hoặc chương trình học máy/thống kê nhỏ

Trang 29

July 12, 2021

29

Mô hình quá trình KDD lặp [CCG98]

⚫ Một mô hình cải tiến quá trình KDD

▪ Định hướng kinh doanh: Xác định 1-3 câu hỏi hoặc mục tiêu KDD

▪ Kết quả thi hành được: xác định tập kết quả thi hành được dựa trên các mô hình được đánh giá

▪ Lặp kiểu vòng đời phát triển phần mềm

▪ [CCG98] Kenneth Collier, Bernard Carey, Ellen Grusy, Curt Marjaniemi, Donald Sautter

(1998) A Perspective on Data Mining, Technical Reporrt, Northern Arizona University.

Trang 30

July 12, 2021 30

Mô hình CRISP-DM 2000

⚫ Quy trình chuẩn tham chiếu công nghiệp KPDL

▪ Các pha trong mô hình quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining) “Hiểu kinh doanh”: hiểu bài toán và đánh giá

▪ Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh”

▪ CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007

▪ Nguồn: http://crisp-dm.eu/ (13/02/2011)

Trang 31

July 12, 2021 31

Chu trình phát triển tri thức thông qua khai phá dữ liệu

Wang, H and S Wang (2008) A knowledge management approach to data mining

process for business intelligence, Industrial Management & Data Systems, 2008 108(5):

622-634 [Oha09]

Mô hình tích hợp DM-BI [WW08]

Trang 32

July 12, 2021 32

Khoa học dữ liệu

• “Data science is an emerging field in industry, and as yet, it

is not welldefined as an academic subject”.

• Van der Aalst

• Làm cách nào dùng toàn bộ thông tin đó để cải thiện quy trình và máy móc, nâng cao hiệu quả chúng, và ngăn chặn trục trặc ?“

• "Làm cách có thể sử dụng thông tin để tác động tới các hành vi không mong muốn? Có cách nào để cho mọi người phản hồi về lối sống của họ…? "

Trang 33

July 12, 2021 33

Khoa học dữ liệu

Quá trình khoa học dữ liệu (trái) và các chuyên ngành liên quan (phải)

Lưu ý:

▪ Khoa học hành vi và các khoa học xã hội

▪ Mô hình kinh doanh và tiếp thị

▪ Bảo mật, an ninh, pháp luật và đạo đức

Trang 34

July 12, 2021 34

Khoa học dữ liệu: các kỹ năng

https://www.kdnuggets.com/2019/09/core-hot-data-science-skills.html

Trang 35

• Trong KDD: ngôn ngữ L để biểu diễn

các tập con các sự kiện (dữ liệu) thuộc

vào tập sự kiện F,

• Mẫu: biểu thức E trong ngôn ngữ L 

tập con FE tương ứng các sự kiện trong

F E được gọi là mẫu nếu nó đơn giản

hơn so với việc liệt kê các sự kiện thuộc

FE

• Chẳng hạn, biểu thức "THUNHẬP < $t"

(mô hình chứa một biến THUNHẬP)

Trang 36

July 12, 2021 36

Tính có giá trị

Mẫu được phát hiện: phải có giá

trị đối với các dữ liệu mới theo độ

chân thực nào đấy.

Tính "có giá trị" : một độ đo tính có

giá trị (chân thực) là một hàm C

ánh xạ một biểu thức thuộc ngôn

ngữ biểu diễn mẫu L tới một

không gian đo được (bộ phận

hoặc toàn bộ) MC.

• Chẳng hạn, đường biên xác định

mẫu "THUNHẬP < $t“ dịch sang

phải (biến THUNHẬP nhận giá trị

lớn hơn) thì độ chân thực giảm

xuống do bao gói thêm các tình

huống vay tốt lại bị đưa vào vùng

không cho vay nợ.

Nếu a*THUNHẬP + b*NỢ < 0

mẫu có giá trị hơn.

Trang 37

July 12, 2021 37

Tính mới và hữu dụng tiềm năng

Tính mới: Mẫu phải là mới trong một miền xem xét nào đó,

ít nhất là hệ thống đang được xem xét

Tính mới có thể đo được :

⚫ sự thay đổi trong dữ liệu: so sánh giá trị hiện tại với giá trị quá khứ hoặc giá trị kỳ vọng

⚫ hoặc tri thức: tri thức mới quan hệ như thế nào với các tri thức đã có Ví

dụ thầy Nguyễn Đức Dũng tại Trường hè DMSS: luật kết hợp hiếm?

⚫ Tổng quát, điều này có thể được đo bằng một hàm N(E,F) hoặc là độ đo

về tính mới hoặc là độ đo kỳ vọng.

Hữu dụng tiềm năng: Mẫu cần có khả năng chỉ dẫn tới các tác động hữu dụng và được đo bởi một hàm tiện ích.

⚫ Hàm U ánh xạ các biểu thức trong L tới một không gian đo có thứ tự (bộ phận hoặc toàn bộ) MU: u = U (E,F).

Ví dụ, trong tập dữ liệu vay nợ, hàm này có thể là sự tăng hy vọng theo sự

tăng lãi của nhà băng (tính theo đơn vị tiền tệ) kết hợp với quy tắc quyết

định được trình bày trong Hình 1.3.

Trang 38

July 12, 2021 38

Tính hiểu được, tính hấp dẫn và tri thức

Tính hiểu được: Mẫu phải hiểu được

KDD: mẫu mà con người hiểu chúng dễ dàng hơn các dữ liệu nền.

⚫ Khó đo được một cách chính xác: "có thể hiểu được“  dễ hiểu.

⚫ Tồn tại một số độ đo dễ hiểu:

⚫ Sắp xếp từ cú pháp (tức là cỡ của mẫu theo bit) tới ngữ nghĩa (tức là

dễ dàng để con người nhận thức được theo một tác động nào đó).

Giả định rằng tính hiểu được là đo được bằng một hàm S ánh xạ biểu

thức E trong L tới một không gian đo được có thứ tự (bộ phận /toàn bộ) MS: s = S(E,F).

Tính hấp dẫn: độ đo tổng thể về mẫu là sự kết hợp của các tiêu chí

giá trị, mới, hữu ích và dễ hiểu

⚫ Hoặc dùng một hàm hấp dẫn: i = I (E, F, C, N, U, S) ánh xạ biểu thức trong L vào

một không gian đo được Mi

⚫ Hoặc xác định độ hấp dẫn trực tiếp: thứ tự của các mẫu được phát hiện.

Tri thức: Một mẫu E  L được gọi là tri thức nếu như đối với một lớp

người sử dụng nào đó, chỉ ra được một ngưỡng i  Mi mà độ hấp

dẫn I(E,F,C,N,U,S) > i

Trang 39

July 12, 2021 39

Kiến trúc điển hình hệ thống KPDL

Trang 40

July 12, 2021 40

Hệ thống CSDL và Hệ thống KPDL

Ngày đăng: 23/07/2021, 07:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm