1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Nhập môn khai phá dữ liệu: Chương 2 - PGS. TS. Hà Quang Thụy

77 27 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Công Nghệ Tri Thức
Tác giả PGS. TS. Hà Quang Thụy
Trường học Trường Đại Học Công Nghệ Đại Học Quốc Gia Hà Nội
Chuyên ngành Nhập Môn Khai Phá Dữ Liệu
Thể loại bài giảng
Năm xuất bản 2018
Thành phố Hà Nội
Định dạng
Số trang 77
Dung lượng 2,06 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chương 2 - Công nghệ tri thức. Những nội dung chính trong chương này gồm có: Nghịch lý năng suất của công nghệ thông tin, các mô hình khai phá dữ liệu, sơ bộ về khoa học dữ liệu, công nghệ tri thức và kinh tế tri thức.

Trang 1

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU

CHƯƠNG 2 CÔNG NGHỆ TRI THỨC

PGS TS HÀ QUANG THỤY

HÀ NỘI 09-2018

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐẠI HỌC QUỐC GIA HÀ NỘI

1

Trang 2

July 12, 2021 2

Nội dung

◼ Nghịch lý năng suất của Công nghệ Thông tin

◼ Các mô hình khai phá dữ liệu

◼ Sơ bộ về khoa học dữ liệu

◼ Công nghệ tri thức và kinh tế tri thức

Công nghệ tri thức 2

Trang 3

July 12, 2021 Công nghệ Tri thức 3

CNTT: Hạ tầng hay thượng tầng?

Công nghệ thông tin là hạ tầng của hạ tầng ?

“xác định CNTT giữ vai trò là hạ tầng của hạ tầng quốc

gia”

http://vnmedia.vn/VN/cong-nghe/tin-tuc/35_280229/cong_nghe_thong_tin_la_ha_tang_cua_ha_ tang.htm

Nhầm lẫn tai hại: “hạ tầng CNTT” với bản thân “CNTT”

◼ Vai trò của CNTT trong kinh tế

◼ Nghịch lý về tính hiệu quả của CNTT

◼ Luận điểm của CARR

◼ Bản chất vai trò của CNTT trong kinh tế

◼ Kinh tế thông tin và kinh tế tri thức

Trang 4

July 12, 2021 4

Vai trò của CNTT

◼ Nghịch lý năng suất của CNTT

◼ Robert Solow, nhà kinh tế được giải thưởng Nobel, có nhận định

“chúng ta nhìn thấy máy tính ở mọi nơi ngoại trừ trong thống kê năng suất“ (1987)

◼ Căn cứ: Thống kê năng suất kinh tế (theo lý thuyết kinh tế cổ điển) và đầu tư CNTT

◼ Luận điểm của CARR

◼ “CNTT không quan trọng”: IT does not matter !

◼ Nhận đinh về luận điểm của CARR

◼ Vai trò bản chất của CNTT trong kinh tế

◼ Hệ thống tác nghiệp, điều hành

◼ Hệ thống phát hiện tri thức

Công nghệ tri thức 4

Trang 5

Nghịch lý năng suất của CNTT

“Nghịch lý năng suất “: Một xung đột của kỳ vọng

◼ Năng suất, đặc biệt trong khu vực dịch vụ có vẻ đình trệ.

◼ Cho một hứa hẹn khổng lồ của IT tới mở ra trong “cuộc cách

mạng công nghệ lớn nhất mà loài người từng có" (Snow, 1966),

◼ Sự vỡ mộng, thâm chí làm thất vọng với công nghệ gia tăng một cách hiển nhiên: “Không, máy tính không làm tăng hiệu quả, ít nhất không hầu hết thời gian" (Economist, 1990)

Erik Brynjolfsson The Productivity Paradox of Information Technology: Review

and Assessment Communications of the ACM, Volume 36 Issue 12, Dec.

1993 Pages 66-77

Erik Brynjolfsson, Daniel Rock, Chad Syverson Artificial Intelligence and the Modern

Productivity Paradox: A Clash of Expectations and Statistics Working Paper 24001, 2017

Trang 6

Nghịch lý năng suất: Nền kinh tế Mỹ

Sự không tương quan trong tăng GNP

Giai đoạn Chi phí cho máy tính (%GNP) Tăng GNP hàng năm

Trang 7

Nghịch lý năng suất: mức công ty

◼ Trái: Không có quan hệ giữa đầu tư CNTT/nhân viên (trục hoành)

với thu hồi vốn (trục tung): tỷ lệ đầu tư nhiều cũng như ít !

◼ Phải: Có 90,6 % số công ty giá thành CNTT lớn hơn giá thu hồi

vốn: đầu tư CNTT lãng phí ? Thu hồi vốn chậm ?

◼ http://www.strassmann.com/pubs/cf/cf970603.html

Trang 8

Nghịch lý năng suất: mức công ty tài chính

◼ Quan hệ “tỷ lệ thuận” giữa đầu tư CNTT/nhân viên (trục hoành) với thu hồi vốn (trục tung) tại các công ty tài chính

Trang 9

Luận điểm của G Carr: IT does'n matter !

Nicholas G Carr IT does'n matter! HBR at Large,

May 2003: 41-49

◼ CNTT xuất hiện khắp nơi và tầm quan trọng chiến lược của nó

đã giảm Cách tiếp cận đầu tư và quản lý CNTT cần phải thay

đổi đáng kể !

◼ Khi một tài nguyên trở thành bản chất để cạnh tranh nhưng

không quan trọng cho chiến lược, rủi ro mà nó tạo ra trở

thành quan trọng hơn các lợi thế mà nó cung cấp

◼ Với các cơ hội đạt được lợi thế chiến lược từ CNTT đã nhanh

chóng biến mất, nhiều công ty cần có một cái nhìn nghiêm

khắc đầu tư vào CNTT và quản lý các hệ thống của họ

Carr đưa ra ba quy tắc hướng dẫn cho tương lai: phủ nhận vai

trò chiến lược của CNTT !

Nicholas G Carr The end of corporate computing,

MIT Sloan Management Review, Spring 2005: 67-73.

◼ Thuộc 100 người có tên được nhắc đến nhiều nhất !

Trang 10

Định hướng quản lý đầu tư CNTT

Paul A Strassmann [Strass07]: chi tiêu CNTT so với các doanh nghiệp đồng hạng:

➢ Hơn hay kém hơn so với mức thông thường khi có hiệu quả đolường được,

➢ Hơn mức thông thường khi mà hiệu quả thông tin của doanhnghiệp hơn mức thông thường,

➢ Hơn mức thông thường khi mà tri thức của nhân viên hơn mứcthông thường

[Strass07] Paul A Strassmann (2007), Measuring and

http://www.strassmann.com/talks/one-talk.php?talk=123

Trang 11

Phân tích nghịch lý năng suất

E Brynjolfsson [Bryn93]: không nghịch lý năng suất

◼ Lỗi đo lường từ công thức tính năng suất của kinh tế cổ điển: Biến đầu vào, biến đầu ra và đo lường các biến này

◼ Đầu tư CNTT có độ trễ phát huy năng suất 2-3 năm

◼ Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”: Ctynày đầu tư – công ty khác hưởng lợi

◼ Sai lầm trong quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời

Công thức tính năng suất kinh tế

Trang 12

2 Dữ liệu, thông tin, tri thức

12

Biết xử lý

Biết quan hệ

Trang 13

Dữ liệu → Thông tin dựa trên tri thức

13

Trang 14

Dữ liệu, thông tin, tri thức, trí tuệ

14

Trang 15

Dữ liệu, thông tin, tri thức, trí tuệ

15

Trang 16

Các đặc trưng của thông tin có giá trị

Thông tin có giá trị

▪ Cho người quản lý và người ra quyết định (“quản lý” và “lãnh đạo”).Nhìn chung “chính xác, đúng người, đúng thời điểm”

Đặc trưng: truy nhập được, chính xác, đầy đủ, kinh tế, linh hoạt, có

liên quan, tin cậy, an toàn, đơn giản, kịp thời, kiểm chứng được

Đầy đủ

▪ Thông tin cần bao gồm các yếu tố quan trọng Phản ví dụ: Một báocáo đầu tư không nói về chi phí quan trọng

16

Trang 17

Thông tin có giá trị (tiếp)

Kinh tế

▪ Tính kinh tế liên quan tới chi phí tạo thông tin Người ra quyết định

cần cân bằng giá trị của thông tin với chi phí tạo ra nó

Linh hoạt

▪ Thông tin được sử dụng linh hoạt cho nhiều mục đích Ví dụ,

thông tin lượng hàng tồn kho cho người bán hàng, cho người

quản lý tài chính…

◼ Có liên quan

▪ Có liên quan là quan trọng cho người ra quyết định

Tin cậy

▪ Theo sự tín nhiệm của người dùng Tính tin cậy phụ thuộc vào

tính tin cậy của phương pháp thu thập thông tin / tính tin cậy của

nguồn thông tin

An toàn

▪ Tránh được sự truy nhập trái phép

17

Trang 18

Thông tin có giá trị (tiếp)

Đơn giản

▪ Cần đơn giản, không quá phức tạp Thông tin phức tạp và chi

tiết có thể không cần thiết

Kịp thời

▪ Được cung cấp khi cần đến nó: “Biết thời tiết cuối tuần trước

không giúp gì cho chọn áo khoác mặc thứ Năm”

Kiểm chứng được

▪ Thông tin cần kiểm chứng được: kiểm tra được tính đúng đắn

có thể bằng nhiều nguồn khác nhau

Lưu ý

▪ Độ quan trọng các đặc trưng tùy thuộc vào kiểu dữ liệu cần đến:

(i) Với dữ liệu thông minh thị trường: tính kịp thời > tính chính

xác / tính đầy đủ (chẳng hạn, các đối thủ cạnh tranh có thể tạo

ra giảm giá lớn…); (ii) tính chính xác, đầy đủ và kiểm chứng

được là quan trọng

18

Trang 19

Dữ liệu thế kỷ 21Dầu mỏ thế kỷ 20

▪ Đều là động lực tăng trưởng và trao đổi

▪ Dầu mỏ và dữ liệu: “nhồi vào ống dẫn”

▪ Nhà máy lọc dầu: dầu thô (nhiệt→) xăng, nhớt, thành phần khác

▪ Trung tâm dữ liệu: dữ liệu thô (hàng nghìn máy tính mát →) mẫu

có giá trị, dự báo, và hiểu biết sâu sắc mới

Đều tạo nguyên liệu thô quan trọngnền kinh tế thế giới

▪ Hệ thống thực ảo cho sản xuất

▪ Dữ liệu lớn biết rất nhiều về mỗi con người, mọi thứ, v.v

https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data-giving-rise-new-economy : Fuel of the future - Data is giving rise to a new economy

Trang 20

Tăng trưởng dữ liệu

▪ 2020: Vũ trụ dữ liệu 35 zettabytes (“35” và 21 chữ số “0”, dự báo2011) → 44 zettabytes (dự báo 2014); 2025: 180 zettabytes

Bơm qua Internet băng thông rộng mất 450 triệu năm!

▪ Amazon: vì mục đích tính toán đám mây, dùng thùng chứa 100petabytes

▪ 2016: Amazon, Alphabet và Microsoft đạt gần 32 tỷ US$ chi tiêu

và hợp đồng

Trang 21

Đặt vấn đề

▪ Vũ trụ số: chứa dữ liệu về mọi thứ, mọi lúc, mọi nơi →

“biết” được mọi thứ

▪ Tiềm ẩn thông tin hữu ích cho các tổ chức → dữ liệu

lớn

Khái niệm

Dữ liệu lớn là một tập dữ liệu có các đặc trưng đặc

biệt, được xử lý (lưu trữ, tính toán, chuyển dạng) và

phân tích (tìm các mẫu liên quan mới lạ hữu dụng từ dữ

liệu) bằng các quy trình hoặc công cụ đặc biệt nhằm

nhận được thông tin hỗ trợ ra quyết định hoặc đánh

Trang 22

Đặc trưng 5V của dữ liệu lớn

Trang 23

Dung lượng lớn (Volume)

▪ Cỡ Texabytes (1012Bytes)

▪ Kích thược lớn tiềm ẩn thông tin giá trị

Tốc độ cao (Velocity)

▪ Tốc độ cao: tốc độ phát sinh, tốc độ chuyển động

▪ Thời gian thực hoặc tựa thời gian thực

Trang 24

▪ Đặc trưng giá trị là quan trọng nhất

▪ Mục tiêu phân tích dữ liệu lớn (mục tiêu kinh doanh) dẫn dắt hoạt động xây dựng/phân tích dữ liệu lớn

▪ Hiểu biết thực sự về chi phí và lợi ích

▪ Dữ liệu lớn chỉ bao gồm các dữ liệu liên quan

▪ Tránh hiện tượng “dữ liệu lớn” theo phong trào

24

Đặc trưng 5V: chi tiết (2)

Trang 25

▪ 10V: #1: Volume, #2: Velocity, #3: Variety, #4: Variability, #5: Veracity, #6: Validity, #7: Vulnerability,

#8: Volatility, #9: Visualization, #10: Value

Kết dính

Trang 26

▪ https://www.elderresearch.com/blog/42-v-of-big-data

▪ Hfujita-799@acm.org

26

Đặc trưng nV

Trang 27

Nguồn dữ liệu cho Big data

[Stubbe18] Andrea Ahlemeyer-Stubbe, Shirley Coleman Monetising Data:

How to Uplift Your Business Wiley, 2018.

Trang 28

Thu thập t/tin tình báo & thị trường tốt hơn

▪ nhìn sâu sắc hơn: khách hàng muốn gì, (cách) sử dụng gì, cách muahàng, nghĩ gì về hàng hoá và dịch vụ

▪ ra quyết định tốt hơn: mọi lĩnh vực kinh doanh, thiết kế sản phẩm/dịch vụ tới bán hàng, tiếp thị và chăm sóc hậu mãi

Đạt được hiệu quả và cải thiện hoạt động

▪ theo dõi hiệu suất máy, tối ưu hóa tuyến vận chuyển, thậm chí tuyểndụng nhân tài tốt nhất → nâng cao hài lòng và năng suất nhân viên

▪ IoT có vai trò rất lớn trong cải thiện hiệu suất hoạt động

Tạo doanh thu từ chính dữ liệu

▪ Sản phẩm chính và sản phẩm đính kèm: cung cấp thông tin chokhách hàng sử dụng dịch vụ kèm theo

28

Dữ liệu trong kinh doanh

Trang 29

Big data nâng sức mạnh kinh doanh

[Stubbe18] Andrea Ahlemeyer-Stubbe, Shirley Coleman Monetising Data:

How to Uplift Your Business Wiley, 2018.

Trang 30

Sử dụng Big data: Một lộ trình thành công

[Stubbe18] Andrea Ahlemeyer-Stubbe, Shirley Coleman Monetising Data:

How to Uplift Your Business Wiley, 2018.

Trang 31

Khảo sát lợi ích từ dữ liệu và “kiếm tiền dữ liệu”

[Stubbe18] Andrea Ahlemeyer-Stubbe, Shirley Coleman Monetising Data:

How to Uplift Your Business Wiley, 2018.

Trang 32

Trình độ hiểu dữ liệu cho kiếm tiền dữ liệu

[Stubbe18] Andrea Ahlemeyer-Stubbe, Shirley Coleman Monetising Data:

How to Uplift Your Business Wiley, 2018.

Trang 33

Thông tin là một trong những vấn

đề lớn nhất của chúng tôi.

Trang 34

Thông tin: Một tài sản thực sự?

▪ Không nằm trong bảng cân đối kế toán.

▪ Không thể giải thích vì nó vô hình.

▪ Không thực sự tiêu hao như các tài sản khác.

▪ Có thể có giá trị trao đổi.

▪ Có thể tạo ra một giá trị kinh tế tích cực.

▪ Có thể đếm / đo được, nhưng theo cách nào?

http://mitiq.mit.edu/IQIS/Documents/CDOIQS_201177/Papers/05_01_7A-1_Laney.pdf

Trang 35

Cho vay Buôn bán

V Â T

C H Ấ T

C O N

N G Ư Ờ I

B Í

Q U Y Ế T

T H Ô N G

T I N

http://mitiq.mit.edu/IQIS/Documents/CDOIQS_201177/Papers/05_01_7A-1_Laney.pdf

Trang 36

xác hoặc nguồn xác minh.

Toàn vẹn: Các liên kết và mối quan

hệ thích hợp tồn tại giữa các dữ liệu

Nhất quán: Mỗi loại dữ liệu có một

biểu diễn duy nhất

Hoàn thiện: Hồ sơ không phải là

lĩnh vực thiếu Bộ dữ liệu không bị

thiếu các cá thể

Khả năng tiếp cận: Dữ liệu được

thu thập và / hoặc tích hợp dễ dàng

vào quy trình kinh doanh

Chính xác: Dữ liệu được ghi với độ

chính xác yêu cầu của doanh nghiệp

Kịp thời: Dữ liệu được cập nhật với

tần suất đủ để đáp ứng các yêu cầu

kinh doanh

Chủ quan

Liên quan: Dữ liệu được áp dụng

cho một hoặc nhiều quy trình hoặcquyết định kinh doanh

Hữu dụng: Quá trình kinh doanh

và/hoặc cá nhân có thể hiểu và tậndụng dữ liệu này

Tin cậy: Dữ liệu được xem là đáng

tin cậy bởi những người sử dụng nó

Tinh khiết: Dữ liệu có ý nghĩa độc

đáo và dễ thấu hiểu

Khách quan: Dữ liệu không thiên vị

và vô tư, không phụ thuộc vào phánđoán, diễn giải hoặc đánh giá cánhân

Khó khăn: Dữ liệu là độc quyền,

được bảo vệ và khó lấy với ngườikhông thẩm quyền

Trang 38

July 12, 2021 38

3 Khai phá dữ liệu

◼ Nội dung cơ bản của KDD và DM

◼ Khai phá dữ liệu và phát hiện tri thức trong CSDL là bài toán

“kinh doanh”, bài toán “chiến lược” mà không phải là bài

toán công nghệ

◼ Khi nào nên khai phá dữ liệu

◼ Ví dụ: Chương 3 sách Data Mining: Methods and Tools, 1998

Bài toán phát hiẹn tri thức 38

Trang 39

July 12, 2021 39

Tiếp cận truyền thống và tiếp cận KPDL

◼ Tiếp cận truyền thống

◼ Từ lý thuyết (hệ toán mệnh đề) → phát triển các giả thuyết →

kiểm định (chứng minh) giả thuyết Ngô Bảo Châu: Bổ đề cơ bản

◼ Tiếp cận khai phá dữ liệu

◼ Từ dữ liệu → phát hiện quan hệ → phát triển giả thuyết → Xây

dựng mô hình và kiểm định giả thuyết → Đánh giá mô hình → Sử dụng mô hình

Bài toán phát hiẹn tri thức 39

Trang 40

Mô hình vòng khai phá dữ liệu DN’98

• Tạo tập dữ liệu mẫu chứa mọi thông tin liên quan,

• Định danh chuyên gia miền lĩnh vực làm việc với nhóm thực

nghiệm hệ thống phát hiện tri thức,

• Khởi tạo dữ liệu: đủ năng lực tính toán làm chủ được dữ liệu đượckhảo sát và thích hợp với công cụ phát hiện tri thức phù hợp mụctiêu kinh doanh,

• Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ

liệu xác nhận bộ công cụ là thích hợp nhất với mục tiêu kinh doanh,

• Trích chọn quan hệ và mẫu từ tập dữ liệu kinh doanh,

• Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ

liệu để xác định các quan hệ và mẫu thực sự liên quan tới mục tiêu

kinh doanh

Trang 41

◼ Các pha trong mô hình quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining) “Hiểu kinh doanh”: hiểu bài toán và đánh giá

◼ Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh”

◼ CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007

◼ Nguồn: http://www.crisp-dm.org/Process/index.htm (13/02/2011)

Chuẩn công nghiệp khai phá dữ liệu CRISP-DM

Trang 42

Chuẩn công nghiệp khai phá dữ liệu CRISP-DM

• Hiểu kinh doanh (Business understanding)

▪ tập trung vào hiểu biết mục tiêu/yêu cầu từ góc độ kinh doanh

▪ chuyển đổi tri thức này thành

➢ một định nghĩa bài toán khai phá dữ liệu

➢ một kế hoạch sơ bộ được thiết kế đạt được các mục tiêu

• Hiểu dữ liệu (Data understanding)

▪ Với một tập dữ liệu ban đầu: tiến hành hoạt động “làm quen” dữliệu, xác định các vấn đề chất lượng dữ liệu,

▪ khám phá hiểu biết ban đầu tới tập dữ liệu /phát hiện các tậpcon dữ liệu thú vị nhằm hình thành giả thuyết cho thông tin ẩn

▪ Tri thức kinh doanh từ giai đoạn hiểu kinh doanh định hướnghiểu dữ liệu → phân tích dữ liệu để hiểu dữ liệu có thể phảnhồi, phối hợp với nội dung hiểu kinh doanh → làm rõ bài toánkhai phá dữ liệu, mục tiêu và kế hoạch thực hiện

Trang 43

Chuẩn công nghiệp khai phá dữ liệu CRISP-DM

• Chuẩn bị dữ liệu (Data preparation)

▪ gồm mọi các hoạt động nhằm xây dựng các tập dữ liệucuối làm đầu vào cho công cụ mô hình hóa

▪ gồm các hoạt động lập bảng, ghi lại và lựa chọn thuộctính cũng như chuyển đổi, và làm sạch dữ liệu cho cáccông cụ mô hình hóa

▪ thực hiện nhiều lần và không theo một thứ tự quy định

Trang 44

Chuẩn công nghiệp khai phá dữ liệu CRISP-DM

• Mô hình hóa (Modeling)

▪ Các kỹ thuật mô hình khác nhau được lựa chọn và áp dụng

▪ Xác định tham số mô hình nhằm đạt tới giá trị tối ưu

Trang 45

Một mô hình khai phá dữ liệu DN’00

◼ Một mô hình KDD năm 2000 [Nac00]

July 12, 2021

Trang 46

Mô hình KPDL và mô hình kinh doanh’08

◼ Wang, H and S Wang (2008) A knowledge management approach

to data mining process for business intelligence, Industrial

Management & Data Systems, 2008 108(5): 622-634 [Oha09]

July 12, 2021

Trang 47

Một mô hình KPDL hướng BI

◼ Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]

July 12, 2021

Ngày đăng: 23/07/2021, 07:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm