1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT

87 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 2,08 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Những dữ liệu này sau một quá trình tiền xử lý và ng dụng một số kỹ thuật trong khai phá dữ liệu KPDL chúng ta có thể xây dựng mô hình dự đoán, đ a ra những quyết định chính xác trong t

Trang 1

TR NGăĐ IăH CăS ăPH M

PHANăTỄăĐỌNG

NGăD NGăKHAIăPHỄăD ăLI U

Đ NăK TăQU ăH CăT PăH CăSINHăTHPT

LU NăVĔNăTH CăS

H ăTH NGăTHỌNGăTIN

ĐƠăN ng - Nĕmă2020

Trang 2

TR NGăĐ IăH CăS ăPH M

PHANăTỄăĐỌNG

NGăD NGăKHAIăPHỄăD ăLI U

Đ NăK TăQU ăH CăT PăH CăSINHăTHPT

ChuyênăngƠnh:ăH ăth ngăthôngătin

Mƣăs :ăă848.01.04

LU NăVĔNăTH CăSƾ

TS.ăNGUY NăTR NăQU CăVINH

ĐƠăN ngă- Nĕmă2020

Trang 6

L IăCAMăĐOAN i

TRANGăTHỌNGăTINăLU NăVĔNăTH CăSƾ ii

M CăL C iv

DANHăM CăT ăVI TăT T vi

DANHăM CăCỄCăB NG vii

DANHăM CăCỄCăHỊNH viii

M ăĐ U 1

1 Lý do chọn đề tài 1

2 Mục tiêu nghiên c u 2

3 Đối t ợng và ph m vi nghiên c u 2

3.1 Đối t ợng nghiên c u 2

3.2 Ph m vi nghiên c u 2

4 Ph ơng pháp nghiên c u 3

4.1 Nghiên c u lý thuyết 3

4.2 Nghiên c u thực nghiệm 3

5 Dự kiến kết qu .3

5.1 Kết qu về lý thuyết 3

5.2 Kết qu thực tiễn 3

6 Ý nghĩa khoa học và thực tiễn c a luận văn 3

7 Bố cục c a luận văn 3

CH NGă1 T NGăQUANăV ăKHAIăPHỄăD ăLI U 5

1.1 Tổng quan khai phá dữ liệu 5

1.1.1 Giới thiệu chung về khám phá tri th c và khai phá dữ liệu 5

1.1.2 Quá trình khám phá tri th c 6

1.1.3 Quy trình khai phá dữ liệu 7

1.1.4 Một số kỹ thuật khai phá dữ liệu 8

1.1.5 Các ph ơng pháp khai phá dữ liệu 8

1.1.6 ng dụng c a khai phá dữ liệu 9

1.1.7 Dự báo dựa vào khai phá dữ liệu 9

1.2 Phân lớp dữ liệu và một số kỹ thuật trong phân lớp dữ liệu 11

1.2.1 Phân lớp dữ liệu (classification) 11

1.2.2 Quá trình phân lớp 11

1.2.3 Một số kỹ thuật phân lớp dữ liệu 14

1.3 Cây quyết định và luật kết hợp trong khai phá dữ liệu 15

1.3.1 Cây quyết định (Decision Tree) 15

1.3.2 Luật kết hợp (Association Rule) 24

1.4 Tiểu kết ch ơng 1 27

Trang 7

CH NGă2 PHỂNăTệCHă NHăH NGăC AăFACEBOOKăBẰNGăMỌăHỊNHăă

CỂYăQUY TăĐ NHăVĨăLU TăK TăH P 28

2.1 Thực tr ng sử dụng Facebook c a học sinh THPT Tp Kon Tum 28

2.1.1 Thực tr ng sử dụng Facebook c a học sinh THPT hiện nay 28

2.1.2 nh h ng c a Facebook đến kết qu học tập c a học sinh 29

2.2 Tìm hiểu công cụ xây dựng mô hình khai phá dữ liệu 31

2.2.1 Giới thiệu công cụ BIDS trong MicroSoft SQL Server 2008 R2 31

2.2.2 Ngôn ngữ truy vấn khai phá dữ liệu 31

2.3 ng dụng kỹ thuật cây quyết định và luật kết hợp để xây dựng mô hình 33

2.3.1 Yêu cầu bài toán 33

2.3.2 Quy trình xây dựng mô hình khai phá dữ liệu 34

2.4 Tiểu kết ch ơng 2 50

CH NGă3 XỂYăD NGăH ăTH NGăVĨăTH CăNGHI M 51

3.1 Xây dựng hệ thống 51

3.1.1 Mô t hệ thống 51

3.1.2 Kịch b n triển khai hệ thống dự đoán kết qu học tập 53

3.1.3 Thiết kế hệ thống 53

3.2 Thực nghiệm 58

3.2.1 Dữ liệu thực nghiệm 58

3.2.2 Môi tr ng thực nghiệm 58

3.2.3 Demo hệ thống 59

3.2.4 Kết qu thực nghiệm 59

3.3 Tiểu kết ch ơng 3 59

K TăLU N 60

TÀI LI U THAM KH O

PH L C

QUY TăĐ NHăGIAOăĐ TÀI (b n sao)

NH N XÉT C A HAI PH N BI N

Trang 8

BIDS: Business Intelligence Development Studio CLI: Common Language Infrastructure

CLR: Common Language RuntimeCNTT: Công nghệ thông tin

Trang 9

DANH M C CÁC B NG

S ăhi uă

1.1 Một số ph ơng pháp dự báo 10 1.2 Ma trận Confusion matrix để đánh giá mô hình 11 1.3 Dữ liệu minh họa xây dựng cây quyết định 18 1.4 Dữ liệu để phân lớp nhánh [SLOLHT = 0] 20 1.5 Dữ liệu để phân lớp nhánh [SLOLHT = 2] 20 1.6 Dữ liệu để phân lớp nhánh [SLOLHT = 3] 22 1.7 Dữ liệu để phân lớp nhánh [SLOLHT  MucdoOL] 23 1.8 Dữ liệu minh họa xây dựng mô hình luật kết hợp 26 1.9 Tập luật rút ra từ mô hình luật kết hợp 27 2.1 Sự khác biệt về giới tính c a học sinh khi sử dụng Facebook 28 2.2 Sự khác biệt về trình độ c a học sinh khi sử dụng Facebook 29 2.3 Cấu trúc cơ s dữ liệu để xây dựng mô hình phân lớp 35 2.4 Dữ liệu huấn luyện xây dựng mô hình khai phá dữ liệu 35 2.5 M c độ nh h ng các thuộc tính trong mô hình cây quyết định 43 2.6 M c độ nh h ng các thuộc tính trong mô hình luật kết hợp 45 2.7 B ng Confusion matrix đánh giá mô hình cây quyết định 47 2.8 B ng Confusion matrix đánh giá mô hình luật kết hợp 47 2.9 Dữ liệu dự đoán kết qu học tập sau khi thực hiện câu truy vấn 49 3.1 B ng cơ s dữ liệu LOP 55 3.2 Gi i thích b ng cơ s dữ liệu LOP 55 3.3 B ng cơ s dữ liệu HOCSINH 56 3.4 Gi i thích b ng cơ s dữ liệu HOCSINH 56 3.5 B ng tổng hợp phiếu kh o sát thực nghiệm 58 3.6 Kết qu dự đoán dữ liệu thực nghiệm 59

Trang 10

S ăhi uă

1.1 Quá trình khám phá tri th c 6 1.2 Quá trình khai phá dữ liệu 7 1.3 Quá trình xây dựng mô hình phân lớp 12 1.4 Quá trình phân lớp dữ liệu ( ớc l ợng độ chính xác) 13 1.5 Quá trình phân lớp dữ liệu mới 13 1.6 Mô hình tổng quát cây quyết định 16 1.7 Cây quyết định phân lớp nút [SLOLHT] 20 1.8 Mô hình cây quyết định hoàn chỉnh sau quá trình phân lớp 23 1.9 Quá trình xây dựng mô hình luật kết hợp 27 2.1 Màn hình t o Project cho các mô hình 36 2.2 Cửa sổ Sulution Explore để t o CSDL nguồn và mô hình 36 2.3 Lựa chọn server name, mật khẩu, CSDL cho mô hình 37 2.4 Đặt tên và l u dữ liệu nguồn Data Source 37 2.5 Chọn b ng dữ liệu để t o Data Source View 38 2.6 Đặt tên và l u dữ liệu nguồn Data Source View 38 2.7 Lựa chọn mô hình cây quyết định 39 2.8 Lựa chọn các thuộc tính đầu vào cho mô hình 39 2.9 Kết qu tính Entropy cho các thuộc tính 40

2.11 Phân chia dữ liệu để huấn luyện và test mô hình 41

2.13 Xây dựng mô hình luật kết hợp trên cấu trúc có sẵn 42

2.18 Biểu đồ Lift Chart (có chọn giá trị c a thuộc tính dự đoán) 46

2.20 Thiết kế Prediction Query để dự đoán kết qu học tập 48

Trang 11

S ăhi uă

3.1 Mô hình cấu trúc hệ thống dự đoán kết qu học tập 51 3.2 Mô hình CQĐ và LKH đ ợc xây dựng và thực thi thành công 52 3.3 Sơ đồ ch c năng dự đoán kết qu học tập 52 3.4 Kịch b n triển khai hệ thống dự đoán kết qu học tập 53 3.5 Kiến trúc Net Framework 55 3.6 Sơ đồ cơ s dữ liệu quan hệ 57 3.7 Giao diện chính c a hệ thống 57 3.8 Giao diện dự đoán kết qu học tập 57 3.9 Giao diện thống kê kết qu học tập c a học sinh theo lớp 58

Trang 12

M Đ U

1 Lý do ch năđ tài

Ngày nay sự phát triển nh vũ bưo c a khoa học công nghệ nói chung và ngành công nghệ thông tin nói riêng đư có những b ớc tiến m nh mẽ, CNTT đ ợc ng dụng rộng rưi trong tất c các lĩnh vực c a đ i sống xư hội đư t o ra một l ợng dữ liệu

khổng lồ Do đó, việc khai thác và chọn lọc những dữ liệu có ích từ l ợng dữ liệu đó là rất cần thiết, đóng vai trò quyết định thành công trong mọi lĩnh vực ho t động Những

dữ liệu này sau một quá trình tiền xử lý và ng dụng một số kỹ thuật trong khai phá dữ liệu (KPDL) chúng ta có thể xây dựng mô hình dự đoán, đ a ra những quyết định chính xác trong t ơng lai

Nhiều ng dụng thành công trong khám phá tri th c cho thấy khai phá dữ liệu là một lĩnh vực phát triển bền vững, mang l i nhiều lợi ích to lớn, chiếm u thế hơn hẵn

so với các công cụ xử lý dữ liệu truyền thống Trong KPDL, cây quyết định và luật kết hợp là những kỹ thuật khai thác dữ liệu hiệu qu và đ ợc ng dụng trong các lĩnh vực

nh : kinh tế, y tế, b o hiểm, quy ho ch đô thị, du lịch, giao thông…

Hiện nay, cùng với nhịp sống hiện đ i, sự phát triển nhanh chóng c a m ng xư hội Facebook đư giúp con ng i kết nối l i gần nhau hơn Facebook có những tính năng phổ biến nh : kết b n, tìm kiếm thông tin, t o nhóm, chia sẽ, gi i trí Facebook

có nh h ng nhất định đến cuộc sống c a mỗi cá nhân, gia đình, xư hội và đặc biệt là kết qu học tập c a học sinh Theo số liệu thống kê mới nhất c a trang Facebook thì Việt Nam là quốc gia có hơn 1/3 dân số đang s hữu tài kho n Facebook [11], hàng tháng l ợng ng i trung bình truy cập Facebook gần 30 triệu thành viên, trong đó phần lớn nằm l a tuổi học sinh THPT Có thể nói, Facebook đư tr nên phổ biến khi đồng hành cùng giới trẻ mọi lúc mọi nơi, kể c khi các em sinh ho t, ăn uống, ng nghỉ, gi i trí, học tập nhà… và tr thành ph ơng tiện không thể thiếu, có tầm nh

h ng không nhỏ đến mọi mặt c a đ i sống.[13]

Thực tế cho thấy những năm gần đây, kết qu học tập c a đ i đa số học sinh các cơ s giáo dục phổ thông trên địa bàn thành phố Kon Tum nói chung nhiều học sinh sử dụng Facebook nh ng kết qu học tập vẫn khá giỏi, nh ng cũng không ít học sinh kết qu học tập l i có phần sa sút, thậm chí có nhiều em ph i thi l i Có lẽ phần lớn học sinh không nghĩ rằng một phần nguyên nhân là do các em sử dụng Facebook trong một th i gian dài và ch a đúng mục đích Nếu học sinh sử dụng Facebook đúng mục đích, có chừng mực thì sẽ đem l i kết qu tích cực cho việc học tập, ng ợc l i nếu quá l m dụng Facebook thì sẽ mang đến nhiều hệ lụy nh h ng đến đ i sống, s c khỏe tinh thần có thể dẫn đến kết qu học tập sa sút, điều này gây tổn thất không nhỏ cho b n thân, gia đình, nếu không c nh báo nhiều kh năng dẫn đến hội ch ng

“nghiện” Facebook l a tuổi này Với những cám dỗ ngày càng nhiều và tinh vi trên

Trang 13

m ng xư hội, vậy làm thế nào để học sinh biết đ ợc mình dùng Fcaebook đúng mục đích hay ch a, làm thế nào để các em thấy đ ợc Facebook nh h ng đến đ i sống,

s c khỏe, kết qu học tập c a mình Đây cũng là câu hỏi khiến nhiều học sinh băn khoăn Đ ng tr ớc thực tế này, cần có một hệ thống t vấn giúp học sinh thấy đ ợc Facebook nh h ng trực tiếp kết qu học tập cuối năm c a mình, từ đó có kế ho ch

tự phân bổ th i gian học tập nhà hợp lý, chỉ sử dụng Facebook khi thật sự cần thiết, không nên quá l m dụng Facebook quá m c làm nh h ng đến kết qu học tập

Khi tìm hiểu các công trình nghiên c u có liên quan, b n thân nhận thấy cũng có

nhiều công trình đư nghiên c u nh : “Tác động c a m ng xã hội ạacebook đối với

học sinh, sinh viên hiện nay” c a tác gi Nguyễn Thị Kim Thoa - T p chí Khoa học

ĐHQG Hà Nội hoặc “Nghiên c u về hành vi sử dụng ạacebook c a con ng ời - một

thách th c mới cho tâm lý học hiện đ i” c a tác gi Đào Lê Hòa An - T p chí Khoa

học ĐHSP Tp Hồ Chí Minh Tuy nhiên, các công trình nghiên c u này chỉ thể hiện góc độ phân tích, đánh giá vấn đề theo quan điểm c a các nhà tâm lý giáo dục Bằng

c m tính hoặc suy luận th công từ một l ợng dữ liệu khổng lồ tác gi phân tích, đánh

giá tác động c a Facebook đến kết qu học tập, điều này có thể sẽ không chính xác Qua kết qu nghiên c u thực nghiệm cho thấy vấn đề phân tích nh h ng c a Facebook đến kết qu học tập học sinh THPT là rất kh thi và hết s c cần thiết

Xuất phát từ những lý do trên và đ ợc sự đồng ý c a cán bộ h ớng dẫn khoa học

TS Nguyễn Trần Quốc Vinh, tôi chọn đề tài:“ ng dụng khai phá dữ liệu để phân tích

nh h ởng c a ạacebook đến kết qu học tập học sinh THPT” làm luận văn tốt nghiệp

th c sỹ c a mình

2 M c tiêu nghiên c u

- ng dụng kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu để

phân tích hành vi sử dụng Facebook c a học sinh THPT có nh h ng nh thế nào đến kết qu học tập

- Xây dựng ng dụng nhằm hỗ trợ học sinh dự đoán đ ợc kết qu học tập cuối năm c a mình có căn c khoa học, tránh sự phán đoán, nhận biết bằng c m tính

3 Đ iăt ng và ph m vi nghiên c u

3.1 Đối tượng nghiên c u

- Nghiên c u kỹ thuật cây quyết định, luật kết hợp trong khai phá dữ liệu

- Nghiên c u các đặc tr ng c a tập dữ liệu thử nghiệm và các lo i hồ sơ học sinh

nh : học b , sổ gọi tên ghi điểm đ ợc l u trữ t i hai tr ng THPT Phan Bội Châu và

Trang 14

- Sử dụng công cụ hỗ trợ khai phá dữ liệu Business Intelligence Development

Studio (BIDS) đ ợc tích hợp trong MicroSoft SQL Server 2008 R2, ngôn ngữ lập trình Visual C# và hệ qu n trị cơ s dữ liệu SQL

- Tập dữ liệu huấn luyện gần 730 b n ghi, đ ợc thu thập từ học sinh hai tr ng THPT Phan Bội Châu và THPT Duy Tân trên địa bàn thành phố Kon Tum, tỉnh Kon

Tum trong năm học 2018-2019 và 2019-2020

4 Ph ngăphápănghiênăc u

4.1 Nghiên c u lý thuyết

- Nghiên c u thuật toán ID3 xây dựng cây quyết định và thuật toán Apriori khai phá luật kết hợp trong dự báo và phân lo i thông tin

- Tìm hiểu, thu thập thông tin, phân tích số liệu từ phiếu kh o sát c a học sinh,

nghiên c u các tài liệu, giáo trình có liên quan đến khai phá dữ liệu và tham kh o ý kiến từ các giáo viên ch nhiệm, giáo viên t vấn học đ ng, cán bộ làm công tác giáo vụ

- Hiểu rõ hơn về kỹ thuật cây quyết định và luật kết hợp trong khai phá dữ liệu

- ng dụng kỹ thuật cây quyết định và luật kết hợp trong KPDL vào dự báo kết

qu học tập c a học sinh, nhằm giúp học sinh h n chế việc l m dụng Facebook làm

nh h ng đến đ i sống tâm sinh lý, s c khỏe và kết qu học tập

- Về mặt thực tiễn, ng dụng có kh năng dự báo, phân tích nh h ng c a

Facebook đến kết qu học tập c a học sinh THPT t ơng đối chính xác, tránh sự phán đoán, nhận biết bằng c m tính hoặc suy luận th công

7 B c c c a lu năvĕn

Ngoài các phần m đầu, mục lục, danh mục các từ viết tắt, danh mục hình, danh

Trang 15

mục b ng và kết luận, luận văn chia làm 3 ch ơng:

Ch ơng 1: Cung cấp cái nhìn tổng quan về quá trình khám phá tri th c và khai phá dữ liệu Nghiên c u một số kỹ thuật phân lớp dựa trên cây quyết định và luật kết hợp làm cơ s cho việc xây dựng các mô hình khai phá dữ liệu

Ch ơng 2: Tập trung phân tích tác động c a bối c nh xư hội dẫn đến nh h ng

c a Facebook đến kết qu học tập c a học sinh THPT Sử dụng công cụ hỗ trợ khai phá dữ liệu Business Intelligence Development Studio c a MicroSoft SQL Server để xây dựng mô hình khai phá dữ liệu bằng các kỹ thuật cây quyết định và luật kết hợp

Từ đó đánh giá, kiểm định tính chính xác c a từng mô hình và lựa chọn mô hình tối u nhất để xây dựng ng dụng dự đoán

Ch ơng 3: Dựa vào những tri th c phát hiện đ ợc từ mô hình cây quyết định và luật kết hợp tác gi phân tích thiết kế ng dụng dựa trên nền web cho phép học sinh dự đoán kết qu học tập cuối năm Trình bày quá trình thử nghiệm hệ thống với mô hình phân lớp bằng kỹ thuật cây quyết định trên tập dữ liệu thực, đ ợc kh o sát và lấy phiếu thăm dò học sinh các tr ng THPT trên địa bàn thành phố Kon Tum Từ đó đề xuất h ớng phát triển c a đề tài nghiên c u

Trang 16

CH NGă1

T NG QUAN V KHAI PHÁ D LI U

1.1 T ng quan khai phá d li u

1.1.1 Giới thiệu chung về khám phá tri th c và khai phá dữ liệu

Khám phá tri th c hay phát hiện tri th c là một quá trình tìm ra những tri th c mới, đó là những mẫu tìm ẩn tr ớc đó ch a biết và là một thông tin hữu ích đáng tin cậy Còn khai phá dữ liệu là một b ớc quan trọng trong quá trình khám phá tri th c,

nó sử dụng các thuật toán KPDL để đ a ra các mẫu hoặc các mô hình trong dữ liệu nhằm trợ giúp nhanh cho ng i ra quyết định hoặc dự báo Dữ liệu là tập hợp những

thông tin chính xác và quá trình khám phá tri th c đ ợc xem nh là sự sàn lọc các dữ liệu d thừa, đ ợc rút gọn tới m c tối thiểu chỉ để l i các đặc tr ng cơ b n cho dữ liệu Tri th c đ ợc tìm thấy là các thông tin tích hợp, bao gồm các sự kiện và các mối quan

hệ trong chúng Các mối quan hệ này có thể đ ợc hiểu ra, có thể đ ợc phát hiện hoặc

có thể đ ợc học

Nếu khám phá tri th c là toàn bộ quá trình chiết xuất tri th c từ các CSDL thì KPDL là giai đo n ch yếu c a quá trình đó KPDL là một quá trình phát hiện các mẫu mới, th ng bao gồm việc thử tìm mô hình phù hợp với tập dữ liệu đư có và tìm kiếm các mẫu từ tập dữ liệu theo mô hình đó Sử dụng các kỹ thuật và các khái niệm c a các lĩnh vực đư đ ợc nghiên c u từ tr ớc nh : học máy, nhận d ng, thống kê, hồi quy, phân cụm, phân lớp, các mô hình đồ thị, các m ng Bayes,… KPDL đ ợc sử dụng để

t o ra gi thuyết Thí dụ: để xác định các yếu tố r i ro khi cho khách hàng vay tín dụng, kỹ thuật KPDL ph i phát hiện đ ợc những ng i có thu nhập thấp và nợ nhiều

là những ng i sẽ có m c r i ro cao Ngoài ra, kỹ thuật KPDL cũng có thể phát hiện

ra những quy luật mà nhà phân tích có thể ch a tìm ra, thí dụ nh tỉ lệ giữa thu nhập trên nợ và tuổi cũng là các yếu tố xác định m c r i ro Để làm đ ợc điều này, KPDL

sử dụng các thông tin trong quá kh để học Nó sẽ tìm kiếm các thông tin này trong các CSDL và sử dụng chúng để tìm ra các mẫu đáng quan tâm

Nếu xét về mặt ý t ng và mục đích ng dụng KPDL là một nhu cầu tất yếu, một

sự nh y c m đáp l i sự mong mỏi c a giới kinh doanh thì về mặt kỹ thuật, đó thực sự

là một khó khăn và thách th c đối với các nhà khoa học KPDL đ ợc xây dựng dựa trên việc sử dụng các gi i thuật mới, đ ợc định h ớng theo nhu cầu kinh doanh để có thể gi i quyết tự động các bài toán kinh doanh bằng các kỹ thuật dễ dùng và có thể hiểu đ ợc Các kỹ thuật đang đ ợc nghiên c u và sử dụng hiện nay bao gồm cây quyết định, ph ơng pháp K láng giềng, luật kết hợp, m ng neuron, các luật suy diễn,… KPDL không thuộc một ngành công nghiệp nào Nó sử dụng các kỹ thuật thông minh để khai phá các tri th c tiềm ẩn trong kho dữ liệu Có thể coi KPDL ngày nay

Trang 17

đang tr ng thái giống nh việc qu n trị dữ liệu vào những năm 60 c a thế kỷ XX, khi mà các ng dụng qu n trị dữ liệu đều không tuân theo một nguyên tắc chung nào cho đến khi mô hình dữ liệu quan hệ ra đ i cùng với s c m nh c a ngôn ngữ vấn đáp

đư thúc đẩy việc phát triển các ng dụng qu n trị dữ liệu lên nhanh chóng Tuy vậy, hiện nay trên thế giới đư có rất nhiều ngành công nghiệp sử dụng kỹ thuật KPDL để phục vụ cho ho t động kinh doanh c a mình và đư b ớc đầu thành công nh ngành tài chính, y học, hóa học, b o hiểm, giao thông, hàng không,… Các kết qu đ t đ ợc cho thấy mặc dù kỹ thuật KPDL hiện nay vẫn còn nhiều vấn đề nổi cộm, nh ng với những tri th c mà chuyên gia con ng i cũng ch a cung cấp đ ợc thì KPDL có một tiềm năng to lớn trong việc t o ra những lợi nhuận đáng kể trong nền kinh tế [5]

bộ quá trình,… sáu giai đo n c a quá trình khám phá tri th c là:

 Ảom dữ liệu: Gom dữ liệu hay tập hợp dữ liệu là b ớc đầu tiên trong quá trình

khai phá dữ liệu Đây là b ớc đ ợc khai thác trong một CSDL, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ng dụng web

 Trích lọc dữ liệu: giai đo n này dữ liệu đ ợc lựa chọn hoặc phân chia theo

một số tiêu chuẩn nào đó phục vụ mục đích khai thác, thí dụ chọn tất c những em học

sinh có giới tính nữ và có độ tuổi nhỏ hơn 18

 Làm s ch, tiền xử lý dữ liệu: Giai đo n này là giai đo n hay bị sao lưng, nh ng

thực tế nó là một b ớc rất quan trọng trong quá trình KPDL Một số lỗi th ng mắc

ph i trong khi gom dữ liệu là tính không chặt chẽ Vì vậy, dữ liệu th ng ch a các giá

Trang 18

trị vô nghĩa và không có kh năng kết nối Thí dụ tập dữ liệu vừa có cột ngày sinh và cột độ tuổi Giai đo n này sẽ tiến hành xử lý những d ng dữ liệu không chặt chẽ nh vậy Những d ng dữ liệu này đ ợc xem nh thông tin d thừa, không có giá trị B i vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu không đ ợc “làm s ch - tiền xử lý - chuẩn bị tr ớc” thì sẽ gây nên những kết qu sai lệch

 Chuyển đổi dữ liệu: Giai đo n này dữ liệu sẽ đ ợc chuyển đổi về d ng phù

hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp

 Khai phá dữ liệu: Đây là một tiến trình cốt yếu, mang tính t duy trong

KPDL giai đo n này nhiều thuật toán khác nhau đư đ ợc sử dụng một cách phù hợp

để trích xuất thông tin có ích hoặc các mẫu điển hình trong dữ liệu

 Đánh giá các luật và biểu diễn tri th c: Giai đo n này các mẫu dữ liệu đ ợc

chiết xuất ra, không ph i bất c mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần u tiên những tiêu chuẩn đánh giá để tách ra các tri th c cần thiết

Nh vậy, sự khác biệt giữa khám phá tri th c và khai phá dữ liệu là: KPTT nói đến quá trình tổng thể phát hiện tri th c hữu ích từ dữ liệu, còn KPDL chỉ là một b ớc trong quá trình KPTT, các công việc ch yếu là xác định đ ợc bài toán khai phá, tiến hành lựa chọn ph ơng pháp KPDL phù hợp với dữ liệu có đ ợc và tách ra các tri th c cần thiết.[8]

1.1.3 Quy trình khai phá dữ liệu

Khai phá dữ liệu là một giai đo n quan trọng trong quá trình khám phá tri th c

Về b n chất là giai đo n duy nhất tìm ra đ ợc thông tin mới, thông tin tiềm ẩn có trong

CSDL ch yếu phục vụ cho mô t và dự đoán

Mô t dữ liệu là tổng kết hoặc diễn t những đặc điểm chung c a những thuộc

tính dữ liệu trong kho dữ liệu mà con ng i có thể hiểu đ ợc

Dự đoán là dựa trên những dữ liệu hiện th i để dự đoán những quy luật đ ợc

phát hiện từ các mối liên hệ giữa các thuộc tính c a dữ liệu trên cơ s đó chiết xuất ra các mẫu, dự đoán đ ợc những giá trị ch a biết hoặc những giá trị t ơng lai c a các biến quan tâm

Hình 1.2 - Quá trình khai phá dữ liệu

Trang 19

Quá trình khai phá dữ liệu bao gồm các b ớc chính nh sau:

 Xác định nhiệm vụ: Xác định chính xác các vấn đề cần gi i quyết

 Xác định các dữ liệu liên quan: Dùng để xây dựng gi i pháp

 Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý

chúng sao cho thuật toán KPDL có thể hiểu đ ợc Đây là một quá trình rất khó khăn,

có thể gặp ph i rất nhiều các v ớng mắc nh : dữ liệu ph i đ ợc sao ra nhiều b n, qu n

lý các tập dữ liệu, ph i lặp đi lặp l i nhiều lần toàn bộ quá trình,…

 Thuật toán khai phá dữ liệu: Lựa chọn thuật toán KPDL và thực hiện việc

KPDL để tìm đ ợc các mẫu có ý nghĩa, các mẫu này đ ợc biểu diễn d ới d ng luật kết hợp, cây quyết định, t ơng ng với ý nghĩa c a nó

1.1.4 Một số kỹ thuật khai phá dữ liệu

1.1.4.1 Kỹ thuật khai phá dữ liệu mô t

Có nhiệm vụ mô t về các tính chất hoặc các đặc tính chung c a dữ liệu trong CSDL hiện có Nhóm kỹ thuật này gồm các ph ơng pháp: phân nhóm (Clustering),

tổng hợp hóa (Summerization), phát hiện sự biến đổi và độ lệch (Change and deviation

detection), khai phá luật kết hợp (Association Rules),

1.1.4.2 Kỹ thuật khai phá dữ liệu dự đoán

Kỹ thuật này có nhiệm vụ đ a ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện có Nhóm kỹ thuật này gồm các ph ơng pháp: Phân lớp (Classfication), Hồi qui

(Regression), Trực quan hóa (Visualiztion)…

Có nhiều ph ơng pháp khai phá dữ liệu đ ợc các nhà khoa học sử dụng nghiên

c u, trong đó ba ph ơng pháp đ ợc sử dụng nhiều nhất đó là: Khai phá luật kết hợp, phân lớp và phân cụm dữ liệu [3]

1.1.5 Các phương pháp khai phá dữ liệu

1.1.5.1 Ph ơng pháp phân lớp (classification & prediction)

Phân lớp là quá trình xây dựng mô hình mô phỏng bằng cách gán các đối t ợng

dữ liệu vào các lớp đư xác định Mục tiêu c a thuật toán phân lớp là tìm ra mối quan

hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp Nh thế quá trình phân lớp

có thể sử dụng mối quan hệ này để dự báo cho các mục mới [3]

Phân lớp dữ liệu dựa trên bốn thành phần cơ b n là: Lớp, dự đoán, tập dữ liệu

đ ợc huấn luyện, tập dữ liệu kiểm thử

Đặc tr ng c a tiến trình phân lớp gồm những điểm sau:

Đầu vào: Dữ liệu huấn luyện ch a những đối t ợng với thuộc tính c a nó, với

một số thuộc tính đư đ ợc gán nhưn

Đầu ra: Mô hình đ ợc gán b i những nhưn cụ thể cho mỗi đối t ợng dựa trên

những thuộc tính khác

1.1.5.2 Ph ơng pháp phân cụm (Clustering)

Là việc mô t chung để chia một tập dữ liệu thành các cụm (nhóm), lo i mô t dữ

Trang 20

liệu Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau Có nghĩa là dữ liệu

có thể vừa thuộc nhóm này l i vừa thuộc nhóm khác nh ng ph i đ m b o các đối

t ợng thuộc một cụm là t ơng tự nhau, đối t ợng cụm này sẽ ít t ơng tự với đối

t ợng cụm khác

1.1.5.3 Ph ơng pháp hồi quy (Regression)

Là việc học một hàm ánh x từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực Phân tích hồi quy sẽ xác định đ ợc định l ợng quan hệ giữa các biến và biến phụ thuộc vào giá trị c a những biến khác Nhiệm vụ c a hồi quy t ơng tự nh phân lớp, điểm khác nhau chính là chỗ thuộc tính để dự báo là liên tục còn phân lớp dữ liệu là dự đoán các giá trị r i r c

1.1.5.4 Ph ơng pháp phân tích luật kết hợp(Association Rule)

Là tiến trình xác định những luật phụ thuộc giữa những nhóm khác nhau, là việc phát hiện và đ a ra các mối liên hệ giữa các giá trị dữ liệu trong cơ s dữ liệu Là công việc khám phá các luật kết hợp từ những mẫu th ng xuyên hoặc dựa trên ràng buộc Mục đích c a luật kết hợp là tìm ra sự kết hợp hay t ơng quan giữa các đối t ợng

(items) Những luật kết hợp này có d ng X  Y

1.1.5.5 Ph ơng pháp mẫu tuần tự (Sequential Pattern mining)

Là việc xác định những mẫu mà sự xuất hiện c a chúng trong CSDL thỏa mưn

ng ỡng tối thiểu Luật tuần tự đ ợc sinh ra từ mẫu tuần tự, biểu diễn mối quan hệ giữa hai lo i sự kiện này sẽ x y ra sau lo t sự kiện kia

1.1.6 ng dụng c a khai phá dữ liệu

Lĩnh vực khai phá dữ liệu có nhiều ng dụng trong thực tế, một số ng dụng điển hình nh : [2]

 B o hiểm, tài chính và thị tr ờng ch ng khoán: phân tích tình hình tài chính

và dự báo giá c a các lo i cổ phiếu trong thị tr ng ch ng khoán Danh mục vốn và giá, lưi suất, dữ liệu thẻ tín dụng, phát hiện gian lận,…

 Điều trị y học và chăm sóc y tế: một số thông tin về chẩn đoán bệnh l u trong

các hệ thống qu n lý bệnh viện Phân tích mối liên hệ giữa triệu ch ng bệnh, chẩn đoán và ph ơng pháp điều trị (chế độ dinh d ỡng, thuốc,…)

 S n xuất và chế biến: qui trình, ph ơng pháp chế biến và xử lý sự cố

 Text & Web mining: phân lớp văn b n và các trang web, tóm tắt văn b n

 Lĩnh vực khoa học: quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm

kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và các bệnh di truyền,…

 Lĩnh vực khác: viễn thông, môi tr ng, thể thao, âm nh c, giáo dục,…

1.1.7 Dự báo dựa vào khai phá dữ liệu

1.1.7.1 Khái niệm

Dự báo là một môn khoa học nghiên c u và tiên đoán những sự việc sẽ x y ra

Trang 21

trong t ơng lai trên cơ s phân tích khoa học về các dữ liệu thu thập đ ợc Khi tiến hành dự báo cần căn c vào việc thu thập và xử lý số liệu trong quá kh và hiện t i để xác định xu h ớng vận động c a các hiện t ợng trong t ơng lai nh vào một số mô hình toán học

Dự báo nói chung th ng tuân theo 5 quy trình nh sau:

- Xác định mục tiêu dự báo

- Xác định lo i dự báo

- Lựa chọn mô hình dự báo

- Thu thập số liệu, tiến hành dự báo

- ng dụng và theo dõi kết qu dự báo

1.1.7.2 Các ph ơng pháp dự báo, đánh giá độ chính xác c a mô hình KPDL

 Các ph ơng pháp dự báo

- Ph ơng pháp dự báo định tính: Ph ơng pháp này là những dự đoán ch quan

hoặc trực giác về t ơng lai bằng cách dựa vào suy đoán, c m nhận

- Ph ơng pháp dự báo định l ợng: Ph ơng pháp này dựa vào các số liệu thống

kê và thông qua các công th c toán học đ ợc thiết lập để dự báo nhu cầu cho t ơng lai Khi dự báo nhu cầu t ơng lai, nếu không xét đến các nhân tố nh h ng khác có thể dùng các ph ơng pháp dự báo theo dưy số th i gian Nếu cần nh h ng c a các nhân tố khác đến nhu cầu có thể dùng các mô hình hồi quy t ơng quan

Tuy nhiên, trên thực tế có một số tr ng hợp cụ thể ng i ta sẽ sử dụng kết hợp

c hai ph ơng pháp nói trên bằng ph ơng pháp tổng hợp

B ng 1.1 - Một số ph ơng pháp dự báo

Ph ngăphápăd ăbáoăđ nhătính Ph ngăphápăd ăbáoăđ nhăl ng

 Tiên đoán (Genius forcasting)  Hệ số đàn hồi

 Chuyên gia (Consensus methods)  Nội suy xu h ớng (Trens interpolation)

 Kịch b n (Scenario)  Ngo i suy xu h ớng (Trens extrapolation)

 Mô phỏng, mô hình hóa (Stimulation)

 Cây quyết định (Decisison trees)

 Tổng hợp (Combining methods) Trong các ph ơng pháp dự báo nói trên thì ph ơng pháp: ngo i suy xu h ớng;

mô phỏng, mô hình hóa; cây quyết định là kết qu c a việc ng dụng kỹ thuật KPDL

 Ph ơng pháp đánh giá độ chính xác mô hình phân lớp

Trong những bài toán phân lớp, sau khi đư xử lý dữ liệu và đ a vào mô hình học máy, đầu ra c a mô hình sẽ là một vector xác suất t ơng ng c a từng lớp Ta có thể đánh giá m c độ dự đoán chính xác c a mô hình khai phá dữ liệu bằng ph ơng pháp

ma trận Confusion matrix nh B ng 1.2

Trang 22

B ng 1.2 – Ma trận Confusion matrix để đánh giá mô hình

Actual (thực tế)

Predicted (dự đoán)

Yes TP (True Positive) FP (False Positive)

No FN (False Negative) TN (True Positive)

Để đánh giá mô hình dự đoán ho t động tốt thế nào ng i ta th ng dựa vào các tham số Precision và Recall nh sau:

Precision = TP

TPFP

TPFN

FN: mẫu mang nhưn d ơng bị phân lớp sai vào lớp âm

FP: mẫu mang nhưn âm bị phân lớp sai vào lớp d ơng

TN: mẫu mang nhưn âm đ ợc phân lớp đúng vào lớp âm

1.2 Phân l p d li u và m t s k thu t trong phân l p d li u

1.2.1 Phân lớp dữ liệu (classification)

Phân lớp dữ liệu là một trong những h ớng nghiên c u chính c a KPDL Thực tế đặt ra nhu cầu là từ một cơ s dữ liệu với nhiều thông tin ẩn con ng i có thể trích rút

ra các quyết định nghiệp vụ thông minh Phân lớp và dự đoán là hai d ng c a phân tích dữ liệu nhằm trích rút ra một mô hình mô t các lớp dữ liệu quan trọng hay dự đoán xu h ớng dữ liệu t ơng lai Phân lớp dự đoán giá trị c a những nhưn xác định

(categorical label) hay những giá trị r i r c (discrete value), có nghĩa là phân lớp thao tác với những đối t ợng dữ liệu mà có bộ giá trị là biết tr ớc Trong khi đó, dự đoán

l i xây dựng mô hình với các hàm nhận giá trị liên tục Ví dụ mô hình phân lớp dự báo

th i tiết có thể cho biết th i tiết ngày mai là m a, hay nắng dựa vào những thông số về

độ ẩm, s c gió, nhiệt độ,… c a ngày hôm nay và các ngày tr ớc đó Hay nh các luật

về xu h ớng mua hàng c a khách hàng trong siêu thị, các nhân viên kinh doanh có thể

ra những quyết sách đúng đắn về l ợng mặt hàng cũng nh ch ng lo i bày bán… Một

mô hình dự đoán có thể dự đoán đ ợc l ợng tiền tiêu dùng c a các khách hàng tiềm năng dựa trên những thông tin về thu nhập và nghề nghiệp c a khách hàng Trong những năm qua, phân lớp dữ liệu đư thu hút sự quan tâm các nhà nghiên c u trong nhiều lĩnh vực khác nhau nh học máy (machine learning), hệ chuyên gia (expert

system), thống kê (statistics) Công nghệ này cũng ng dụng trong nhiều lĩnh vực khác nhau nh : th ơng m i, ngân hàng, maketing, nghiên c u thị tr ng, b o hiểm, y

tế, giáo dục

1.2.2 Quá trình phân lớp

Quá trình phân lớp là đặt các mẫu vào các lớp đư đ ợc xác định tr ớc Nhiệm vụ

Trang 23

chính là tìm các hàm ánh x các mẫu dữ liệu một cách chính xác vào trong các lớp.Ví

dụ một ngân hàng muốn phân lo i các khách hành c a họ vào trong hai nhóm có nợ hay không nợ, từ đó giúp họ ra quyết định cho vay hay không cho vay Quá trình phân lớp dữ liệu th ng gồm 2 b ớc: [14] xây dựng mô hình (quá trình học) và sử dụng mô hình để phân lớp dữ liệu (quá trình phân lớp)

1.2.2.1 Quá trình học (learning)

Quá trình học nhằm xây dựng một mô hình mô t một tập các lớp dữ liệu hay các khái niệm định tr ớc Đầu vào c a quá trình này là một tập dữ liệu có cấu trúc đ ợc

mô t bằng các thuộc tính và đ ợc t o ra từ tập các bộ giá trị c a các thuộc tính đó

Mỗi bộ giá trị đ ợc gọi chung là một phần tử dữ liệu (data tuple), có thể là các mẫu

(sample), ví dụ (example), đối t ợng (object), b n ghi (record)… Luận văn sử dụng

các thuật ngữ này với nghĩa t ơng đ ơng Trong tập dữ liệu này, mỗi phần tử dữ liệu

đ ợc gi sử thuộc về một lớp định tr ớc, lớp đây là giá trị c a một thuộc tính đ ợc

chọn làm thuộc tính gán nhãn lớp hay thuộc tính phân lớp (class label attribute) Đầu

ra c a b ớc này th ng là các quy tắc phân lớp d ới d ng luật d ng if-then, cây quyết định, công th c logic, hay m ng nơron Quá trình này đ ợc mô t nh hình 1.3

Hình 1.3 - Quá trình xây dựng mô hình phân lớp

1.2.2.2 Quá trình phân lớp (classification)

B ớc th hai dùng mô hình đư xây dựng b ớc tr ớc để phân lớp dữ liệu mới

Tr ớc tiên độ chính xác mang tính chất dự đoán c a mô hình phân lớp vừa t o ra đ ợc

ớc l ợng Holdout là một kỹ thuật đơn gi n để ớc l ợng độ chính xác đó Kỹ thuật này sử dụng một tập dữ liệu kiểm tra với các mẫu đư đ ợc gán nhưn lớp Các mẫu này

đ ợc chọn ngẫu nhiên và độc lập với các mẫu trong tập dữ liệu đào t o Độ chính xác

c a mô hình trên tập dữ liệu kiểm tra đư đ a là tỉ lệ phần trăm các các mẫu trong tập

Trang 24

dữ liệu kiểm tra đ ợc mô hình phân lớp đúng (so với thực tế) Nếu độ chính xác c a

mô hình đ ợc ớc l ợng dựa trên tập dữ liệu đào t o thì kết qu thu đ ợc là rất kh quan vì mô hình luôn có xu h ớng “quá vừa” dữ liệu Quá vừa dữ liệu là hiện t ợng kết qu phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mô hình phân lớp

từ tập dữ liệu huấn luyện có thể đư kết hợp những đặc điểm riêng biệt c a tập dữ liệu

đó Do vậy cần sử dụng một tập dữ liệu kiểm tra độc lập với tập dữ liệu huấn luyện Nếu độ chính xác c a mô hình là chấp nhận đ ợc, thì mô hình đ ợc sử dụng để phân lớp dữ liệu t ơng lai

Hình 1.4 - Quá trình phân lớp dữ liệu ( ớc l ợng độ chính xác)

Hình 1.5 - Quá trình phân lớp dữ liệu mới

Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới

sự thành công c a mô hình phân lớp Do vậy, chìa khóa c a vấn đề phân lớp dữ liệu là tìm ra đ ợc một thuật toán phân lớp nhanh, hiệu qu , có độ chính xác cao và có kh năng m rộng đ ợc Trong đó kh năng m rộng c a thuật toán đ ợc đặc biệt chú trọng và phát triển [14]

Trang 25

1.2.3 Một số kỹ thuật phân lớp dữ liệu

1.2.3.1 Cây quyết định (Decision Tree)

Các kỹ thuật phân lớp sử dụng cây quyết định để phân tách các dữ liệu cho đến khi mỗi phần ch a đựng hầu hết các mẫu từ một lớp đặc tr ng, kết qu c a quá trình

sẽ cho ra một cây quyết định Điểm phân tách trong cây quyết định là một nút (không

ph i là nút lá) sẽ sử dụng một số điều kiện để quyết định dữ liệu sẽ đ ợc phân tách

nh thế nào Các nút cuối cùng trong cây quyết định ch a đựng các bộ mẫu giống nhau Lợi thế c a cây quyết định là các thuật toán ch y khá nhanh, với kết qu khá tốt

và có thể gi i thích đ ợc rõ ràng Tuy nhiên, bất lợi mà các thuật toán c a cây quyết định có thể gặp ph i đó là chúng có thể tìm ra các điểm tới h n cục bộ, đ a ra các kết

qu không đúng

1.2.3.2 K-láng giềng gần nhất (k-Nearest Neighbor)

Thuật toán này tìm ra các láng giềng gần nhất c a mẫu thử nghiệm và quy về các nhưn lớp c a chúng dựa trên các nhưn đa số, điều đó có nghĩa là các mẫu đ ợc quy về cùng lớp khi chúng là lân cận c a nhau Kỹ thuật này cho rằng vị trí trong không gian đặc tr ng hàm ý một quan hệ họ hàng gần gũi giữa các nhưn lớp

Lợi thế c a các thuật toán K-láng giềng gần nhất là dễ thực thi, và kết qu mà nó đem l i kh năng dễ dàng gi i thích Nh ng một điểm bất lợi là các thuật toán này đ a

ra các mô hình rất lớn với một tập dữ liệu nhỏ

1.2.3.3 M ng nơron (Neural networks)

M ng nơron là m ng đ ợc mô phỏng theo bộ nưo c a con ng i Đó là một cấu trúc dữ liệu c a các hàm với một hoặc nhiều trọng số đầu vào, với kết qu đầu ra là một nhưn các lớp Từng phần riêng biệt c a dữ liệu đ ợc đ a vào m ng nơron và các

hàm - các trọng số trong m ng nơron bị thay đổi (học - huấn luyện) tùy theo tỷ lệ lỗi

c a đầu ra Ph ơng pháp này th ng đ a đến một kho ng th i gian huấn luyện dài ngay c khi tập dữ liệu nhỏ

Lợi thế c a m ng nơron là đ a đến các kết qu khá chính xác, nh ng bất lợi c a

nó là th ng đòi hỏi th i gian huấn luyện dài và đ a ra các kết qu khó hiểu, c ng nhắc, bị bao bọc trong một hộp đen, khó gi i thích t ng minh

1.2.3.4 Gi i thuật di truyền (Genetic algorithms)

Các gi i thuật di truyền đ ợc sử dụng để đ a ra công th c gi thuyết về sự phụ thuộc giữa các biến Đối với một gi i thuật di truyền ph i sử dụng các gi i pháp nh

c nh tranh, lựa chọn và kết hợp giữa các tập hợp cá thể

Lợi thế c a gi i thuật di truyền là th ng đ a đến các kết qu kiểm tra khá chính xác, nh ng bất lợi c a nó là kết qu có đ ợc thông qua việc lập trình tiến hóa và các kết qu cũng th ng c ng nhắc, khó hiểu

1.2.3.5 M ng Bayesian (Bayesian networks)

M ng Bayesian sử dụng các đồ thị có h ớng, không có chu trình để miêu t sự

Trang 26

phân lớp có thể đ ợc Các đồ thị này cũng có thể đ ợc sử dụng để miêu t các tri th c

chuyên gia Các nút mô t các biến thuộc tính và các tr ng thái và mỗi một c nh mô t

kh năng sự phụ thuộc giữa chúng Kết hợp với mỗi nút là các lớp cục bộ có thể và các cung đ ợc vẽ từ nút nguyên nhân đến nút bị nh h ng KPDL trong m ng Bayesian bao gồm việc sử dụng đầu vào các tri th c chuyên gia và sau đó sử dụng một CSDL để cập nhật, lọc và c i tiến tri th c đó trong m ng Các đồ thị mới có thể là kết qu từ các

c i tiến này và nguyên nhân c a các mối quan hệ giữa các nút kết qu có thể đ ợc gi i thích một cách dễ dàng Lợi thế c a m ng Bayesian là th ng đ a ra các kết qu dễ hiểu, nh ng bất lợi c a nó là cần thu thập đ ợc các tri th c chuyên gia truyền thống

1.2.3.6 Tập mờ và tập thô (Rough and Fuzzy Sets)

Lý thuyết về tập m và tập thô dựa trên một sơ s toán học không chắc chắn Đối với các mô hình tập thô, một giới h n trên và giới h n d ới sẽ đ ợc xác định Một tập thô định nghĩa một lớp C là một xấp xỉ b i hai tập Tập cận d ới (lower) c a lớp C bao gồm tất c các mẫu dữ liệu, mà dựa vào tri th c c a các mẫu dữ liệu có thể quyết định một mẫu bất kỳ thuộc phân lớp C một cách rõ ràng Tập cận trên c a lớp C bao gồm tất c các mẫu với giá trị c a thuộc tính đ ợc mô t không thể thuộc vào phân lớp C

Mô hình tập m không dốc về cực đ i cục bộ bằng các thuật toán cây quyết định, và cũng giống nh mô hình tập thô, chúng dùng để đối phó với những điều không chắc chắn tốt hơn bất kỳ một thuật toán nào khác.[8]

1.3 Cây quy tăđ nh và lu t k t h p trong khai phá d li u

1.3.1 Cây quyết định (Decision Tree)

cây bằng cách tính độ lợi thông tin (Information Gain - IG); quá trình phân tách cây

đ ợc thực hiện một cách đệ qui cho đến khi không thể tiếp tục thực hiện việc phân tách cây đ ợc nữa [5]

Cây quyết định đ ợc chia thành hai lo i:

Cây hồi quy dùng để dự đoán giá trị c a biến phân lo i có kiểu dữ liệu định

l ợng nh dự đoán doanh thu, lợi nhuận, giá thành s n phẩm… Thuật toán phổ biến dùng để xây dựng cây hồi qui là CART

Cây phân lớp dùng để dự đoán giá trị c a biến phân lo i có kiểu dữ liệu định

danh nh dự đoán kh năng mua hàng (mua, không mua), kết qu học tập c a học sinh

Trang 27

(xuất sắc, giỏi, khá, trung bình, yếu) Thuật toán phổ biến dùng để xây dựng cây phân lớp là ID3, J48, C4.5, 5.0 Cây quyết định có cấu trúc d ng hình cây, nh hình 1.6

Hình 1.6 - Mô hình tổng quát cây quyết định Trong đó:

Root (gốc): là nút trên cùng c a cây

Node trong: Nút trung gian biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)

Nhánh: Biểu diễn các kết qu c a kiểm tra trên nút trong (mũi tên)

Node lá: Biểu diễn sự phân lớp (hình tròn hoặc elip)

1.3.1.2 Thuật toán cây quyết định ID3

 Ý t ởng c a thuật toán:

1 Chọn thuộc tính A <= thuộc tính quyết định “tốt nhất” cho nút kế tiếp

2 Gán thuộc tính A là thuộc tính quyết định cho nút

3 Với mỗi giá trị c a thuộc tính A, t o nhánh con mới c a nút

4 Phân lo i các mẫu dữ liệu cho các nút lá

5 Nếu các mẫu dữ liệu đ ợc phân lo i hoàn toàn thì ng ng,

Ng ợc l i, lặp với các nút lá mới (lặp l i từ 1 đến 5)

 Mô t thuật toán ID3:

Input:

- Tập dữ liệu samples, danh sách thuộc tính attribute_list

- Thuộc tính kiểm tra test_attribute

Output: Decision tree

Generate_decision_tree(samples, attribute_list)

{ create a node N;

if samples are all of the same class C then

return N as a leaf node labeled with the class C;

if attribute_list is empty then

{ if there exists a hits line in samples, then

return N as a leaf node labeled with the hits line class;

Root

nhánh

node lá node lá

Trang 28

label node N with the test_attribute;

new- attribute_list = attribute_list – test_attribute; //lo i bỏ test_attribute

for each known value ai of test_attribute

grow a branch from node N for the condition test_attribute = ai;

let Si be the set of samples in samples for which test_attribute = ai;

1.3.1.3 Các tham số hỗ trợ thuật toán ID3

 Độ đo thông tin Information Gain:

Thông tin cần thiết để phân lớp chính xác cho tất c các tập con trong lớp Ci là:

 Entropy (thông tin cần thiết để phân lớp chính xác) :

Gi sử thuộc tính A đư chọn trong số các tập con (S'1, S'2, , S'm) c a S để phân lớp thì Entropy đ ợc tính nh sau:

Entropy(A) =

'

1

v j j

S S

Độ đo thông tin (tính bằng bit) c a thuộc tính A là:

Gain(A) = I(S1, S2, …, Sm)- Entropy(A) 1.3.1.4 Ví dụ minh họa xây dựng cây quyết định sử dụng thuật toán ID3

Để minh họa cho việc xây dựng cây quyết định bằng thuật toán ID3, ta trích 14 dòng đầu tiên trong cơ s dữ liệu đư đ ợc thu thập và sẽ đ ợc phân tích ch ơng 2, đây ta trích chọn những thuộc tính liên quan đến hành vi Facebook và có nh h ớng lớn đến đến kết qu học tập, với thuộc tính phân lớp là KetQuaHT

Trang 29

B ng 1.3 - Dữ liệu minh họa xây dựng cây quyết định

1 Nhiều hơn 3h Th ng xuyên 3 2 0 Trung bình

4 Nhiều hơn 3h Th ng xuyên 2 3 0 Trung bình

5 Nhiều hơn 3h Thỉnh tho ng 2 2 1 Trung bình

Trang 30

Gain(MucdoOL) = I(3,4,3) – E(MucdoOL) = 1.571 - 0.751 = 0.82

Ta thấy giá trị Gain c a thuộc tính [SLOLHT] là lớn nhất, nên ta chọn thuộc tính

này để phân lớp

Trang 31

Hình 1.7 - Cây quyết định phân lớp nút [SLOLHT]

Lặp lần 2:

 Phân lớp nhánh [SLOLHT = '0']

B ng 1.4 - Dữ liệu để phân lớp nhánh [SLOLảT = 0]

1 Nhiều hơn 3h Th ng xuyên 3 2 Trung bình

4 Nhiều hơn 3h Th ng xuyên 2 3 Trung bình

Ta thấy t i các thuộc tính [MucdoOL] và [TGOLTB] đư đ ợc phân lớp hoàn

toàn, ta chọn thuộc tính [TGOLTB] làm nút trong để phân lớp tiếp theo

 Phân lớp nhánh [SLOLHT = '1']

Ta thấy nhánh [SLOLHT = '1'], tập dữ liệu t i đây đư đ ợc phân lớp hoàn toàn

 Phân lớp nhánh [SLOLHT = '2']

B ng 1.5 - Dữ liệu để phân lớp nhánh [SLOLảT = 2]

Trang 32

Ta thấy giá trị Gain c a thuộc tính MucdoOL lớn nhất, nên ta chọn thuộc tính MucdoOL làm nút trong để tiếp tục phân lớp

 Phân lớp nhánh [SLOLHT = '3']

Trang 33

B ng 1.6 - Dữ liệu để phân lớp nhánh [SLOLảT = 3]

Trang 34

Ta thấy giá trị Gain c a thuộc tính SLOLGT lớn nhất, nên ta chọn thuộc tính SLOLGT làm nút trong để tiếp tục phân lớp, t i đây ta thấy nhánh [SLOLGT = '0'] và

[SLOLGT = '2' ] đư đ ợc phân lớp hoàn toàn

Lặp lần 3:

 Phân lớp nhánh [SLOLHT  MucdoOL ]

3 Từ 1h-3h Thỉnh tho ng 0 0 Khá

7 Từ 1h-3h Thỉnh tho ng 1 0 Khá

9 Ít hơn 1h Thỉnh tho ng 0 1 Khá

10 Ít hơn 1h Hiếm khi 0 0 Giỏi

Nhánh [SLOLHT  MucdoOL] đư đ ợc phân lớp hoàn toàn

Kết qu phân lớp cuối cùng ta đ ợc mô hình cây quyết định (Hình 1.8)

Hình 1.8 - Mô hình cây quyết định hoàn chỉnh sau quá trình phân lớp

SLOLHT

0 1 2 3 TGOLTB

TB

SLOLGT MucdoOL

Trang 35

Từ mô hình cây quyết định trên (Hình 1.8) sinh ra các luật (Li) nh sau:

L1: IF SLOLHT='0' AND TGOLTB='Nhiều hơn 3h' THEN KetQuaHT = 'TB'

L2: IF SLOLHT='1' THEN KetQuaHT = 'Trung bình'

L3: IF SLOLHT='2' AND MucdoOL='Thỉnh tho ng' THEN KetQuaHT = 'Khá'

L4: IF SLOLHT='2' AND MucdoOL='Hiếm khi' THEN KetQuaHT = 'Giỏi'

L5: IF SLOLHT='3' AND SLOLGT='0' THEN KetQuaHT = 'Giỏi'

L6: IF SLOLHT='3' AND SLOLGT='2' THEN KetQuaHT = 'Khá'

1.3.2 Luật kết hợp (Association Rule)

1.3.2.1 Giới thiệu

Bài toán khai phá luật kết hợp đ ợc giới thiệu từ năm 1993 và nhận đ ợc sự quan tâm c a các nhà khoa học Hiện nay việc khai thác các luật nh thế vẫn là một trong những ph ơng pháp khai thác mẫu phổ biến nhất trong việc khám phá tri th c, khai thác dữ liệu Trong KPDL mục đích c a luật kết hợp là tìm ra các mối quan hệ giữa các đối t ợng trong khối l ợng lớn dữ liệu

Nội dung cơ b n c a luật kết hợp đ ợc tóm tắt nh sau:

Cho CSDL giao dịch T gồm tập các giao dịch t1, t2, …, tn T = {t1, t2, …, tn}

Mỗi giao dịch tibao gồm tập các đối t ợng I (gọi là itemset) I = {i1, i2, …, in}

Một itemset gồm k items gọi là k-itemset

Mục đích c a luật kết hợp là tìm ra sự kết hợp (t ơng quan) giữa các items Một luật kết hợp có d ng R: X  Y, trong đó X, Y là các tập mục, X, Y  I và X Y =  Theo quan điểm thống kê, X đ ợc xem là biến độc lập (Independent variable) còn Y đ ợc xem là biến phụ thuộc (Dependent variable) [11]

1.3.2.2 Thuật toán Apriori

 Ý t ởng thuật toán Apriori

1 Sinh ra tất c các tập mục th ng xuyên m c 1 (1-itemsets)

2 Gán k = 1

3 Lặp l i, cho đến khi không có thêm bất kỳ tập mục th ng xuyên nào mới

- Từ các tập mục th ng xuyên m c k (ch a k-itemsets), sinh ra các tập mục m c (k + 1) cần xét

Trang 36

Output:

- L - tập mục phổ biến trong D

L1 = lager_1-itemsets(D);

for (k = 1; Lk <> ; k++) {

Ck+1 = apriori_gen(Lk,min_sup); //t o ng viên phổ biến có độ dài (k+1)

for each transaction t D do { //duyệt CSDL để đếm

Ct = subset (Ck+1, t); //lấy các tập con c a t là các ng viên

for each candidate c Ctc.count ++;

}

Lk+1 = {c  Ck+1 c.count  mimsup}

}

return L = kLk;

1.3.2.3 Các tham số hỗ trợ trong thuật toán Apriori

Hai tham số quan trọng dùng để đánh giá, đo l ng luật kết hợp đó là độ hỗ trợ (support) và độ tin cậy (confidence)

các items trong c hai tập X và Y

Công th c để tính support c a luật X Y, nh sau:

Công th c để tính confidence c a luật kết hợp X  Y là xác suất có điều kiện Y khi đư biết X, nh sau:

Confidence (XY) = P (YX) = ( )

Để thu đ ợc các luật kết hợp, ta th ng áp dụng hai tiêu chí đánh giá nh

trên: minimum support (min_sup) và minimum confidence (min_conf)

Các luật thỏa mưn có support và confidence thỏa mưn (>=) c min_sup và

min_conf gọi là các luật m nh (Strong Rule)

Min_sup và min_conf gọi là các giá trị ng ỡng (threshold) và ph i xác định

tr ớc (tự cho) khi sinh các luật kết hợp

Một itemsets mà tần suất xuất hiện c a nó (>=) min_sup gọi là tập phổ biến

frequent itemsets [11]

Trang 37

1.3.2.4 Ví dụ minh họa xây dựng luật kết hợp sử dụng thuật toán Apriori

Để minh họa xây dựng luật kết hợp sử dụng thuật toán Apriori, ta chọn cơ s dữ liệu gồm 10 mẫu tin mô t hành vi sử dụng Facebook c a học sinh nh b ng 1.8

B ng 1.8 - Dữ liệu minh họa xây dựng mô hình luật kết hợp

1 Nhiều hơn 3h Th ng xuyên 3 2 0 Trung bình

4 Nhiều hơn 3h Th ng xuyên 2 3 0 Trung bình

5 Nhiều hơn 3h Thỉnh tho ng 2 2 1 Trung bình

Từ tập dữ liệu huấn luyện mô hình, ta quét toàn bộ cơ s dữ liệu

1st scan

Trang 38

Hình 1.9 - Quá trình xây dựng mô hình luật kết hợp

Với min_sup = 30% và min_conf ≥ 75%, ta có các luật rút ra nh (B ng 1.9)

B ng 1.9 - Tập luật rút ra từ mô hình luật kết hợp

R1: IF (TGOLTB='Từ 1h-3h' AND MucdoOL='Thỉnh tho ng')

THEN KetQuaHT='Khá' (độ tin cậy 75%)

R2: IF TGOLTB='Từ 1h-3h'' THEN KetQuaHT='Khá' (độ tin cậy 75%)

Các luật R1, R2 có độ tin cậy (confidence) là 75%, điều này có nghĩa là 75% học sinh với các thông tin: th i gian online Facebook từ 1 gi đến 3 gi và thỉnh tho ng

online Facebook thì dự đoán kết qu học tập hoặc nếu th i gian online Facebook từ 1

gi đến 3 gi và ch yếu online để phục vụ việc học tập thì dự đoán kết qu học tập là

lo i khá

1.4 Ti u k tăch ngă1

Khai phá dữ liệu là một trong những lĩnh vực đư và đang tr thành h ớng nghiên

c u thu hút đ ợc sự quan tâm c a nhiều chuyên gia về công nghệ thông tin trên toàn thế giới Điều này ch ng tỏ rằng những u thế, lợi ích và kh năng ng dụng thực tế to lớn cu khai phá dữ liệu Trong ch ơng này luận văn trình bày một số kiến th c tổng quan về quá trình khám phá tri th c, những khái niệm và những kiến th c cơ b n nhất

về khai phá dữ liệu để làm cơ s cho vấn đề nghiên c u ch ơng 2

Trang 39

C H NGă2

CÂY QUY TăĐ NH VÀ LU T K T H P

2.1 Th c tr ng s d ng Facebook c a h c sinh THPT Tp Kon Tum

2.1.1 Thực tr ng sử dụng Facebook c a học sinh THPT hiện nay

Từ khi Internet xuất hiện cho đến nay đư mang l i nhiều thay đổi trong đ i sống, kinh tế, xư hội nói chung M ng máy tính ngày càng đ ợc m rộng, nhiều tiện ích trên

m ng xư hội đư thu hút ng i sử dụng ngày càng nhiều, đặc biệt là l a tuổi học sinh

THPT tỉnh Kon Tum nói chung hiện nay l a tuổi học sinh THPT th ng sử dụng điện tho i thông minh để truy cập m ng xư hội, hiện t ợng này ngày càng tr nên phổ biến Qua kh o sát đối t ợng học sinh các tr ng THPT trên địa bàn thành phố Kon Tum cho thấy phần lớn học sinh (97,6%) đều có s hữu một tài kho n Facebook, một

số rất ít (2,4%) là không sử dụng Facebook

2.1.1.1 Mục đích online Facebook c a học sinh

Theo kh o sát, mặc dù mục đích sử dụng c a mỗi học sinh khi tham gia m ng xư hội Facebook rất phong phú, rất đa d ng song có một điểm chung là Facebook đ ợc xem nh một phần quan trọng không thể thiếu trong cuộc sống hàng ngày c a các em Kết qu lấy phiếu thăm dò cho thấy, học sinh sử dụng Facebook với nhiều mục đích khác nhau, song mục đích chiếm tỉ lệ cao nhất là: Tìm kiếm thông tin phục vụ học tập (72,3%); Gi i trí, tán gẫu, chơi game (58,3%); Chia sẻ thông tin (59,6%)

Có thể nói, với nhiều tính năng, tiện ích và dễ dàng sử dụng nên m ng xư hội Facebook đư đáp ng đầy đ mục đích nhu cầu c a mỗi học sinh Vì vậy, Facebook đư thu hút các b n trẻ online ngày càng nhiều Thực tế cho thấy, các tr ng THPT trên địa bàn thành phố Kon Tum, khi học sinh sử dụng m ng xư hội Facebook cũng có sự khác biệt: đó là khác biệt về giới tính, trình độ… Theo đó, học sinh nữ dùng Facebook nhiều hơn học sinh nam; học sinh lớp 10 dùng Facebook với mục đích gi i trí hơn là tìm hiểu tài liệu phục vụ học tập, ng ợc l i học lớp 12 dùng Facebook ch yếu là phục

vụ việc học tập hơn là gi i trí, kết b n chia sẽ thông tin điều này cũng dễ hiểu vì các

em lớp 12 là năm cuối cấp nên các em quan tâm đến việc học tập để chuẩn bị dự thi tốt nghiệp phổ thông quốc gia và thi tuyển sinh đ i học

B ng 2.1 - Sự khác biệt về giới tính c a học sinh khi sử dụng Facebook

1 Tìm hiểu tài liệu phục vụ học tập 38,5% 61,5%

2 Gi i trí, tán gẫu, chơi games 38,9% 61,1%

3 Chia sẻ thông tin, kết b n 41,3% 58,7%

Trang 40

B ng 2.2 - Sự khác biệt về trình độ c a học sinh khi sử dụng Facebook

1 Tìm hiểu tài liệu phục vụ học tập 63,2% 70,6% 74,4%

2 Gi i trí, tán gẫu, chơi games 67,7% 52,7% 42,1%

3 Chia sẻ thông tin, kết b n 65,0% 60,3% 45,2%

2.1.1.2 Ph ơng tiện, địa điểm online Facebook

Theo kết qu kh o sát, học sinh THPT có xu h ớng online Facebook nhiều nhất

thông qua ph ơng tiện điện tho i thông minh (71,7%) Bên c nh đó, cũng có học sinh online Facebook bằng các thiết bị khác nh : Laptop (19,4%), rất ít dùng máy tính để

bàn (8,9%)… điều này cho thấy điện tho i di động là ph ơng tiện thuận lợi nhất để học sinh online Facebook mọi lúc, mọi nơi có kết nối m ng Internet

Về địa điểm truy cập Facebook, phần lớn học sinh đ ợc kh o sát đều cho biết địa

điểm online Facebook phổ biến nhất là khi nhà (ngoài thời gian đến tr ờng học)

2.1.1.3 Thời điểm online Facebook

Qua kh o sát thăm dò, phần lớn học sinh cho biết th i điểm mà các em online Facebook là không giống nhau, rất nhiều học sinh online bất c lúc nào khi nhà

(47,7%), có em online vào buổi tối khi đang học bài (25,6%), cũng không ít học sinh

online tranh th gi nghỉ tr a (26,7%)

2.1.1.4 Thời gian online Facebook

Th i gian sử dụng Facebook c a học sinh cũng có sự khác biệt do phụ thuộc vào nhiều yếu tố chi phối nh : quỹ th i gian, th i điểm online, mục đích online… theo kết

qu kh o sát cho thấy về th i gian online Facebook trung bình trong ngày c a mỗi học

sinh nh sau: Phần lớn học sinh online nhiều hơn 3 gi đồng hồ (32,8%), hoặc từ 1 gi đến 3 gi (36,3%), cũng có không ít học sinh online d ới một gi (30,9%)

2.1.2 nh hưởng c a Facebook đến kết qu học tập c a học sinh

2.1.2.1 nh h ởng tích cực

Việc tìm kiếm thông tin phục vụ học tập: Facebook cũng đóng vai trò rất quan

trọng trong lĩnh vực giáo dục, học sinh có thể truy cập Facebook để tìm thông tin liên quan đến môn học, có thể trao đổi bài tập với nhau, học sinh có thể trao đổi trực tuyến thông qua m ng Internet nh có tài kho n Facebook Điều này giúp học sinh tiết kiệm rất nhiều th i gian hay dễ dàng trao đổi trực tuyến với giáo viên khi có những câu hỏi, bài tập khó cần đ ợc gi i đáp.[1]

Trao đổi vấn đề học tập thông qua hệ thống Messenger c a ạacebook: Học sinh

có thể dùng Messenger để t o nhóm trao đổi vấn đề học tập một cách nhanh chóng Với Messenger học sinh có thể gửi tài liệu, liên l c với nhau bất kể th i gian và không

gian khi có kết nối m ng Internet

Chia sẻ thông tin, kết nối b n bứ, giới thiệu b n thân: Ngày nay, ngoài việc học

Ngày đăng: 24/04/2022, 15:35

HÌNH ẢNH LIÊN QUAN

hình Tên hình Trang - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
h ình Tên hình Trang (Trang 11)
Hình 1. 1- Quá trình khám phá tri th c - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 1. 1- Quá trình khám phá tri th c (Trang 17)
1.1.2. Quá trình khám phá tri th c - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
1.1.2. Quá trình khám phá tri th c (Trang 17)
Hình 1.2 - Quá trình khai phá dữ liệu - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 1.2 Quá trình khai phá dữ liệu (Trang 18)
kết qu phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mơ hình phân lớp - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
k ết qu phân lớp trùng khít với dữ liệu thực tế vì quá trình xây dựng mơ hình phân lớp (Trang 24)
Hình 1. 7- Cây quyết định phân lớp nút [SLOLHT] - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 1. 7- Cây quyết định phân lớp nút [SLOLHT] (Trang 31)
Hình 1. 8- Mơ hình cây quyết định hồn chỉnh sau quá trình phân lớp - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 1. 8- Mơ hình cây quyết định hồn chỉnh sau quá trình phân lớp (Trang 34)
Từ tập dữ liệu huấn luyện mơ hình, ta quét tồn bộ cơ s dữ liệu 1st scan - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
t ập dữ liệu huấn luyện mơ hình, ta quét tồn bộ cơ s dữ liệu 1st scan (Trang 37)
Hình 1. 9- Quá trình xây dựng mơ hình luật kết hợp - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 1. 9- Quá trình xây dựng mơ hình luật kết hợp (Trang 38)
Hình 2. 1- Màn hình to Project cho các mơ hình - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 2. 1- Màn hình to Project cho các mơ hình (Trang 47)
Hình 2.3 – Lựa chọn server name, mật khẩu, CSDL cho mơ hình - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 2.3 – Lựa chọn server name, mật khẩu, CSDL cho mơ hình (Trang 48)
Hình 2.4 - Đặt tên và lu dữ liệu nguồn Data Source - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 2.4 Đặt tên và lu dữ liệu nguồn Data Source (Trang 48)
- Chọn Next  chọn b ng dữ liệu để to Data Source View cho mơ hình - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
h ọn Next  chọn b ng dữ liệu để to Data Source View cho mơ hình (Trang 49)
Hình 2. 7- Lựa chọn mơ hình cây quyết định - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 2. 7- Lựa chọn mơ hình cây quyết định (Trang 50)
Hình 2. 9- Kết qu tính Entropy cho các thuộc tính - Ứng dụng khai phá dữ liệu để phân tích ảnh hưởng của facebook đến kết quả học tập học sinh THPT
Hình 2. 9- Kết qu tính Entropy cho các thuộc tính (Trang 51)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm