1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp

72 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 3,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nếu đứng trên góc nhìn để giải quyết các bài toán được đặt ra thì một số kỹ thuậtsau được áp dụng trong KPDL: Phát hiện bất thường: Phát hiện ngoại lệ/ thay đổi/ sai lệch Trong quá trình

Trang 2

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

ỨNG DỤNG KHAI PHÁ DỮ LIỆU WEB XÂY DỰNG WEBSITE TRANG TIN VỀ TÌNH HÌNH DỊCH BỆNHVIÊM ĐƯỜNG HÔ HẤP CẤP COVID-19

BÙI PHƯƠNG ANH

Trang 3

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

• • • •

ỨNG DỤNG KHAI PHÁ DỮ LIỆU WEB XÂY DỰNG

WEBSITE TRANG TIN VỀ TÌNH HÌNH DỊCH BỆNH

VIÊM ĐƯỜNG HÔ HẤP CẤP COVID-19

Giáo viên hướng dẫn Sinh viên thực hiện

Mã sinh viên Lớp

Khóa Hệ

: TS Chu Thị Hồng Hải : Bùi Phương Anh : 19A4040001 : HTTTA : 19 : Đại học chính quy

Trang 4

Khóa luận tốt nghiệp

LỜI CẢM ƠN

Kính thưa Quý Thầy Cô!

Sau thời gian nghiên cứu, gắn bó học tập tại trường Học viện Ngân hàng dưới sựdẫn dắt của giảng viên trong trường, em nhận được nhiều kiến thức quý báu trongchuyên

ngành và ngoài cuộc sống, đó là hành trang đầu tiên khi em ra trường bước vào đời Vànhân dịp này, em xin gửi lời cám ơn chân thành tới Thầy, Cô trong Học viện Ngânhàng,

đặc biệt là GVHD TS Chu Thị Hồng Hải, người trực tiếp hướng dẫn, thầy luôn tận tìnhgiúp đỡ, sữa chữa lỗi để em hoàn thành đề tài khóa luận tốt nghiệp này

Do hạn chế về kiến thức cũng như thời gian, nên những nội dung trong khóa luậnkhông tránh khỏi sai sót, hạn chế Vì vậy, em rất mong sự góp ý quý báu từ Thầy Cô đểkhóa luận của em được hoàn thiện hơn

Cuối lời, em xin trân trọng cảm ơn các thầy cô giáo đang giảng dạy tại Khoa Hệthống thông tin quản lý - Học viện Ngân hàng đặc biệt là giáo viên hướng dẫn, Tiến sỹChu Thị Hồng Hải đã tận tình giúp đỡ, tạo điều kiện cho em trong suốt quá trình thựchiện và hoàn thành bài khóa luận tốt nghiệp này

Em xin chân thành cám ơn!

Hà Nội, ngày 14 tháng 06 năm 2020

Sinh viên thực hiện

Trang 5

LỜI CAM ĐOAN

Em xin cam đoan đây là công trình nghiên cứu của riêng em, được hoàn thiệndưới

sự hướng dẫn của TS.Chu Thị Hồng Hải - Giảng viên Khoa Hệ thống thông tin quản lý

- Học viện Ngân hàng Các nội dung nghiên cứu, kết quả nêu trong khóa luận là hoàntoàn trung thực Những số liệu thông tin phục vụ cho việc phân tích đánh giá được thuthập từ các nguồn đã được trích rõ trong Danh mục tài liệu Ngoài ra, khóa luận có sửdụng một số nhận xét, đánh giá, thông tin từ một số tài liệu đều có trích dẫn và chúthích

nguồn gốc

Nếu phát hiện có bất kỳ sự gian lận nào, em xin hoàn toàn chịu trách nhiệm vềnội

dung khóa luận của mình

Bùi Phương Anh

Trang 6

Khóa luận tốt nghiệp

NHẬN XÉT

(Của giáo viên hướng dẫn)

về các mặt: Mục đích của đề tài; Tính thời sự và ứng dụng của đề tài; Bố cục vàhình thức trình bầy đề tài; Ket quả thực hiện đề tài; Ý thức, thái độ của sinh viên trongquá trình thực hiện đề tài

Kết luận

Hà Nội, ngày tháng năm 2020

Giáo viên hướng dẫn

(Ký tên)

Trang 7

MỤC LỤC LỜI CẢM ƠN I LỜI CAM ĐOAN II DANH MỤC CÁC CHỮ VIẾT TẮT VI DANH MỤC BẢNG BIỂU VII DANH MỤC HÌNH VẼ VIII

LỜI MỞ ĐẦU 1

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU 2

1.1 Tổng quan về khai phá dữ liệu 2

1.1.1 Khái niệm khai phá dữ liệu 2

1.1.2 Các kỹ thuật áp dụng trong khai phá dữ liệu 3

1.1.3 Kiến trúc của một hệ thống khai phá dữ liệu 5

1.1.4 Lợi ích của khai phá dữ liệu 6

1.1.5 Ứng dụng của khai phá dữ liệu 6

1.2 Khai phá dữ liệu web 9

1.2.1 Khái niệm khai phá dữ liệu web 9

1.2.2 Lợi ích của khai phá dữ liệu web 10

1.2.3 Các kiểu dữ liệu web 11

1.3 Một số phương pháp tiếp cận trong khai phá dữ liệu Web 12

1.3.1 Phương pháp khai phá nội dung Web 12

1.3.2 Khai phá cấu trúc web 16

1.3.3 Khai phá sử dụng web 17

1.4 Tổng quan về trích chọn thông tin và Xử lý ngôn ngữ tự nhiên 17

1.4.1 Trích chọn thông tin 17

1.4.2 Xử lý ngôn ngữ tự nhiên 19

1.5 Kết luận chương 20

CHƯƠNG 2: THỰC TRẠNG CUNG CẤP THÔNG TIN VỀ DỊCH BỆNH VIÊM ĐƯỜNG HÔ HẤP CẤP COVID-19 TRÊN WEB 21

2.1 Thực trạng ở Việt Nam 21

2.1.1 Bối cảnh dịch bệnh ở Việt Nam 22

2.1.2 Thực trạng cung cấp thông tin tại Việt Nam 23

2.1.3 Một số website chính thống cung cấp thông tin tại Việt Nam 25

2.2 Thực trạng thế giới 29

2.2.1 Bối cảnh trên thế giới 30

2.2.2 Thực trạng cung cấp thông tin trên thế giới 31

2.2.3 Một số website và ứng dụng cung cấp thông tin tiêu biểu trên thế giới 32

2.3 Kết luận chương 35

Trang 8

STT Viết tắt Cụm từ tiếng Anh Cụm từ tiếng Việt

Khám phá tri thức trong cơ

sở dữ liệu

Khóa luận tốt nghiệp

CHƯƠNG 3: ỨNG DỤNG KHAI PHÁ DỮ LIỆU XÂY DỰNG WEBSITE TRANG

TIN VỀ DỊCH BỆNH VIÊM ĐƯỜNG HÔ HẤP CẤP COVID-19 36

3.1 Phát biểu bài toán 36

3.2 Bài toán 1 - Trích chọn thông tin từ web 36

3.2.1 Pha 1 38

3.2.2 Pha 2 42

3.3 Bài toán 2 - Xây dựng website 44

3.3.1 Mô hình hệ thống 44

3.3.2 Thiết kế cơ sở dữ liệu 45

3.3.3 Triển khai 48

CHƯƠNG 4: THỰC NGHIỆM 51

4.1 Môi trường và công cụ tiến hành thực nghiệm 51

4.2 Thu thập thông tin cho cơ sở dữ liệu 52

4.3 Xây dựng trang tin 54

4.4 Kết luận chương 58

KẾT LUẬN 59

DANH MỤC TÀI LIỆU THAM KHẢO 60

Khóa luận tốt nghiệp

DANH MỤC CÁC CHỮ VIẾT TẮT

Trang 10

Khóa luận tốt nghiệp

DANH MỤC BẢNG BIỂU

Bảng 1: Tập các từ khóa liên quan đến bệnh COVID-19 39

Bảng 2: Tập các từ đồng nghĩa có thể gặp trong quá trình trích chọn 40

Bảng 3: Bảng dim_vietnam_province 46

Bảng 4: Bảng nowdata_total 47

Bảng 5: Bảng nowdata_detail 47

Bảng 6: Bảng history_data 47

Bảng 7: Bảng dim_country 47

Bảng 8: Bảng world_now 48

Trang 11

DANH MỤC HÌNH VẼ

Hình 1.1: Quá trình khám phá tri thức 3

Hình 1.2: Kiến trúc hệ thống khai phá dữ liệu 5

Hình 1.3: Cấu trúc của web mining 9

Hình 1.4: Các kiểu dữ liệu web 11

Hình 1.5: Quy trình khai phá văn bản 13

Hình 2.1: Thống kê về sự tin tưởng vào thông tintrong nước vềCOVID-19 25

Hình 2.2: Trang tin về tình hình dịch bệnh viêm đường hô hấp COVID-19 của bộ y tế '

27 Hình 2.3: Tờ khai y tế online 27

Hình 2.4: App sức khỏe của Bộ y tế 28

Hình 2.5: Trang tin sức khỏe toàn dân 28

Hình 2.6: Fanpage Thông tin Chính phủ 29

Hình 2.7: Trang tin nCoV2019.live 33

Hình 2.8: Trang tin của WHO 33

Hình 2.9: Trang tin Thông tin chiếndịch chống COVID của Tokyo Nhật Bản 34

Hình 2.10: Ứng dụng COVIDSafe tạiÚc 34

Hình 3.1: Quá trình phát hiện và trích chọn thông tin về tình hình dịch bệnh COVID19 37

Hình 3.2: Thành phần phát hiện thông tin 38

Hình 3.3: Tiêu đề có chứa từ đồng nghĩa của tên dịch bệnh 39

Hình 3.4: Mô hình tổng quát khi xây dựng trang tin 44

Hình 3.5: Mô hình thực thể liên kết 45

Hình 3.6: Sơ đồ biểu diễn quan hệ 48

Hình 3.7: Các bước triển khai bài toán 2 48

Hình 3.8: Phác thảo thiết kế hệ trang tin 49

Hình 4.1: Kết quả của thu thập dữ liệu và tiền xử lý dữ liệu 52

Hình 4.2:Sử dụng trigger để lọc dữ liệu 53

Hình 4.3: Trích thông tin và kết nối tới database 53

Hình 4.4: Kết quả của quá trình thu thập thông tin 54

Hình 4.5: Thiết kế trang tin thông qua FineReport 55

Hình 4.6: Khối 2- Số liệu tổng thể 55

Hình 4.7: Khối 3- Ca nhiễm từng thành phố 55

Hình 4.8: Khối 4- Top 5 Tỉnh/ TP cósốca nhiễm cao nhất 56

Hình 4.9: Khối 5- Bản đồ Việt Nam 56

Hình 4.10: Bản đồ thế giới 56

Hình 4.11: Số ca nhiễm cụ thể 57

Hình 4.12: Bản đồ thể hiện xu hướng số ca nhiễm/ khỏi qua từng ngày 57

Hình 4.13: Kết quả của quá trình xây dựng trang tin 57

Trang 12

Khóa luận tốt nghiệp

là trong năm 2020, ngày từ những ngày đầu năm cả thế giới đã đón một trận đại dịchgây ra bởi một loại chủng virut có tên virut Corona và căn bệnh của nó có tên phổ biếnhiện tại là COVID-19 Đã có hàng triệu người nhiễm và hàng trăm nghìn người tửvong,

đây là con số lớn đối với những căn bệnh truyền nhiễm Qua thực tế ở từng giai đoạncủa trận đại dịch, thì việc tuyên truyền thông tin tốt, chính xác, kịp thời nâng cao ý thứcphòng tránh là một trong những phương pháp quan trọng giúp hạn chế số ca nhiễm, hạnchế lây lan

Tuy nhiên do nguồn thông tin hiện tại rất đa dạng từ nhiều nguồn khác nhau,nhiều

thông tin mang tính cá nhân hóa cao nên không mang tính chính xác tin cậy cũng nhưnhiều nguồn tin không được cập nhật theo thời gian thực không phản ảnh được tìnhhình

hiện tại Đó cũng là lý do em chọn đề tài “Ứng dụng khai phá dữ liệu xây dựng trang

tin về tình hình dịch bệnh viêm đường hô hấp cấp COVID-19” với mong muốn áp

dụng những kiến thức đã học về khai phá dữ liệu trích chọn thông tin và tổng hợp từnhững nguồn tin chính thống đưa lên trang tin với cấu trúc đơn giản nhưng cung cấpđầy đủ tổng quan thông tin cần thiết cho người dân về tình hình dịch bệnh hiện tại tạiViệt Nam Và mong đây cũng là một mô hình có thể ứng dụng, thay đổi dễ dàng phùhợp cho những chủ đề trong đó cần cung cấp thông tin

Chi tiết bài khóa luận được chia thành 4 chương như sau:

Chương 1: Cơ sở lý thuyết về khai phá dữ liệu

Chương 2: Thực trạng cung cấp thông tin về tình hình dịch bệnh viêm đường hôhấp cấp COVID-19

Chương 3: Ứng dụng khai phá dữ liệu xây dựng website trang tin về tình hình

viêm đường hô hấp cấp COVID-19

Chương 4: Thực nghiệm

Trang 13

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VỀ KHAI PHÁ DỮ LIỆU

Ngày nay theo ước tính cứ khoảng 20 tháng thì lượng dữ liệu trên thế giới tăng gấp đôi Số lượng dữ liệu quá lớn sẽ càng lấy được nhiều thông tin nhưng đặt ra thách thức hơn khi dữ liệu rác cũng rất khổng lồ Vì vậy rất cần thiết phải sử dụng khai phá

dữ liệu lọc ra những thông tin quan trọng trong tập dữ liệu khổng lồ đó thông qua các luật các kỹ thuật của khai phá dữ liệu Trong chương 1 của khóa này, sẽ trình bày cơ sở

lý thuyết về khai phá dữ liệu giúp hiểu rõ hơn về khái niệm, kỹ thuật, kiến trúc, ứng dụng

của khai phá dữ liệu trong thực tế.

1.1 Tổng quan về khai phá dữ liệu

1.1.1 Khái niệm khai phá dữ liệu

Trong bối cảnh hiện nay - thời đại của công nghệ thông tin thì khối lượng dữ liệuđược tạo ra từng giây từng phút đang tăng lên một cách chóng mặt dẫn đến sự bùng nổ

dữ liệu có thể thu thập được Dữ liệu được hiểu đơn giản là những mệnh đề phản ánhthực tại, nó có thể được biểu diễn dưới dạng ký hiệu, chữ viết, số, hình ảnh, âm thanhhoặc một số dạng tương tự như vậy Đặc biệt trong dữ liệu thì chứ thông tin và thôngtin thì chứa tri thức chúng ta cần Vì vậy việc khai phá và chắt lọc ra những thông tincần thiết trong khối dữ liệu khổng lồ này là việc hết sức cần thiết Khai phá dữ liệu(KPDL) là một lĩnh vực liên ngành của khoa học máy tính và thống kê Mục tiêu tổngthể của KPDL là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc

dễ hiểu để sử dụng tiếp Ngoài bước khai thác ban đầu nó còn liên quan đến các khíacạnh quản lý dữ liệu, cơ sở dữ liệu (CSDL), suy xét mô hình và suy luận thông kê, xử

lý kết quả, cập nhật trực tuyến KPDL hiện đang là một ngành hết sức hứa hẹn và đầytriển vọng đối hầu hết các lĩnh vực nói chung và doanh nghiệp nói riêng Việc KPDL để

có được những thông tin, tri thức từ một CSDL lớn sẽ giúp các đơn vị, doanh nghiệpđưa ra những giải pháp, hướng đi mới trong lĩnh vực của mình nhằm tăng lợi nhuận vàphù hợp với xu hướng phát triển của thế giới Đặc biệt một số lĩnh vực như y tế, haygiáo dục lưu giữ những hồ sơ lớn về con người, KPDL sẽ giúp được nhiều vấn đề khókhăn trong tương lai

Tóm lại, KPDL là quá trình khai phá, trích xuất, khai thác và sử dụng những dữ

liệu có giá trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho

dữ liệu, trung tâm lưu trữ dữ liệu, và nó là một bước trong quy trình “khám phá tri

thức”

Trang 14

Khóa luận tốt nghiệp

Quy trình khám phá tri thức được biểu diễn qua hình vẽ dưới đây:

Hình 1.1: Quá trình khám phá tri thức

Quá trình khám phá tri thức (Knowledge Discovery Process - KDD Process) làmột chuỗi lặp các bước và mục tiêu thống nhất của quy trình là trích xuất kiến thức từ

dữ liệu trong bối cảnh cơ sở dữ liệu lớn Khai phá dữ liệu là một bước trong quy trình,

có tác dụng phân tích dữ liệu và mục tiêu KPDL là KDD Do đó hai thuật ngữ KPDLvà

KDD được coi là hai lĩnh vực tương đương, nhưng nếu phân tích sâu cụ thể thì KPDL

sẽ là một bước trong quy trình KDD và KDD là ở một bậc cao hơn của KPDL

1.1.2 Các kỹ thuật áp dụng trong khai phá dữ liệu

KPDL là một lĩnh vực liên ngành, nơi hội tụ của nhiều học thuyết và công nghệ

Nó là sự giao thoa giữa quản lý CSDL, thống kê, học máy, trí tuệ nhân tạo và một sốngành khoa học khác

Nếu đứng trên góc nhìn của lĩnh vực học máy các kỹ thuật trong KPDL bao gồm:

Học có giám sát: Khi có các biến đầu vào (x), biến đầu ra (Y) và sử dụng thuật

toán để tìm hiểu hàm ánh xạ từ đầu vào đến đầu ra Y = f (X) Mục tiêu là ước tính hàmánh xạ tốt đến mức khi bạn có dữ liệu đầu vào mới (x) mà bạn có thể dự đoán các biếnđầu ra (Y) cho dữ liệu đó Hay cũng có thể hiểu là bắt đầu từ việc phân tích một tập dữliệu đào tạo đã biết, thuật toán học tạo ra một hàm được suy ra để đưa ra dự đoán vềcác

giá trị đầu ra Từ đó hệ thống có thể cung cấp các đầu ra cho bất kỳ đầu vào mới nàosau

Trang 15

Khóa luận tốt nghiệp

ứng Mục tiêu cho việc học tập không giám sát là mô hình hóa cấu trúc cơ bản hoặc

phân phối trong dữ liệu để tìm hiểu thêm về dữ liệu Hệ thống không tìm ra đầu ra

được gắn nhãn (Y) Nó nằm ở giữa học tập có giám sát và không giám sát Thường thì

số ít dữ dữ liệu được gán nhãn và phần lớn là không được gán nhãn Do việc gán nhãn

dữ liệu có thể tốn kém hoặc tốn thời gian vì để gán nhãn dữ liệu thì thường yêu cầu

quyền truy cập vào các tên miền Trong khi đó những dữ liệu không gán nhãn thì rẻ, dễ

dàng thu thập và lưu trữ Do vậy khi áp dụng có thể kết hợp kỹ thuật học có giám sát và

học không giám sát Có thể sử dụng các kỹ thuật học tập không giám sát để khám phá

và tìm hiểu cấu trúc trong các biến đầu vào Và cũng có thể sử dụng các kỹ thuật học có

giám sát để đưa ra dự đoán tốt nhất cho dữ liệu chưa được gắn nhãn, đưa dữ liệu đó trở

lại thuật toán học được giám sát làm dữ liệu huấn luyện và sử dụng mô hình để đưa ra

dự đoán về dữ liệu chưa xem mới

Nếu đứng trên góc nhìn để giải quyết các bài toán được đặt ra thì một số kỹ thuậtsau được áp dụng trong KPDL:

Phát hiện bất thường: (Phát hiện ngoại lệ/ thay đổi/ sai lệch) Trong quá trình khai

phá, trong nhiều trường hợp chỉ cần tìm ra được một quy luật chung sẽ giúp làm rõ bộ

dữ liệu, vậy nên xác định những ngoại lệ sẽ giúp bạn tìm ra luồng phân tích chính xác

hơn cho bộ dữ liệu

Luật kết hợp: Sử dụng các mô hình học máy để tìm kiếm các sự kiện hoặc thuộc

tính cụ thể có tính tương quan cao với sự kiện hoặc thuộc tính khác Một luật kết hợp

thường có 2 phần tiền đề và hệ quả (If-Then) Tiền đề được xác định trong CSDL còn

hệ quả là một phần dữ liệu khác được kết hợp với tiền đề Algorithm là một thuật toán

tiêu biểu trong kỹ thuật luật kết hợp này

Phân cụm: Là quá trình phân vùng, gom dữ liệu thành cùng một nhóm Dữ liệu

trong cùng 1 nhóm tương tự nhau hơn so với trong nhóm khác

Phân loại: Là nhiệm vụ tổng quát hóa cấu trúc đã biết để áp dụng cho dữ liệu

mới

Hồi quy: Được sử dụng chủ yếu như một hình thức lập kế hoạch và mô hình hóa,

được sử dụng để xác định khả năng của một biến nhất định, với sự có mặt của các biến

khác

Dự đoán: Là một trong những kỹ thuật khai thác dữ liệu có giá trị nhất, vì nó

được

sử dụng để chiếu các loại dữ liệu sẽ thấy trong tương lai Trong nhiều trường hợp, chỉ

Khóa luận tốt nghiệp

cần nhận ra và hiểu xu hướng dữ liệu trong quá khứ là đủ để đưa ra một dự đoán có phầnchính xác về những gì sẽ xảy ra trong tương lai

1.1.3 Kiến trúc của một hệ thống khai phá dữ liệu

Trang 16

này là nguồn nhập (input) của các kỹ thuật tích hợp và làm sạch dữ liệu.

- Database hay data warehouse server: Thành phần chịu trách nhiệm chuẩn bị dữ

liệu thích hợp cho các yêu cầu khai phá dữ liệu

- Knowledge base: Thành phần chứa tri thức miền, được dùng để hướng dẫn quá

trình tìm kiếm, đánh giá các mẫu kết quả được tìm thấy Tri thức miền có thể là các phâncấp khái niệm, niềm tin của người sử dụng, các ràng buộc hay các ngưỡng giá trị, siêu

dữ liệu

- Data mining engine: Thành phần chứa các khối chức năng thực hiện các tác vụ

khai phá dữ liệu

- Pattern evaluation module: Thành phần này làm việc với các độ đo (và các

ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy lànhững mẫu được quan tâm bởi người sử dụng Có thể được tích hợp vào thành phầnData mining engine

- User interface: Thành phần hỗ trợ sự tương tác giữa người sử dụng và hệ thống

Trang 17

liệu Đồng thời được cung cấp thông tin hỗ trợ việc tìm kiếm, thực hiện khai phá dữ liệusâu hơn thông qua các kết quả khai phá trung gian Người sử dụng cũng có thể xem cáclược đồ cơ sở dữ liệu/kho dữ liệu, các cấu trúc dữ liệu; đánh giá các mẫu khai phá được;trực quan hóa các mẫu này ở các dạng khác nhau.

1.1.4 Lợi ích của khai phá dữ liệu

Hiện nay, sự xuất hiện thuật ngữ IoT (Internet of Things) vạn vật dễ dàng kết nối,gắn kết với nhau thông qua internet, cho phép truyền tải dữ liệu một cách nhanh chóng.IoT giúp cho mọi lĩnh vực, ngành nghề phát triển, hoạt động có hiệu quả hơn, phát hiệnnhững rủi ro tiềm ẩn và giúp tìm kiếm cơ hội mới, gia tăng lợi nhuận Do đó khối lượng

dữ liệu, nhu cầu thu thập, phân tích dữ liệu từ đa nguồn của các cá nhân, đơn vị, tổ chứcngày càng lớn Vì vậy KPDL đóng vai trò thực sự quan trọng trong quá trình chạy đuacông nghệ hiện nay Lợi ích của khai phá dữ liệu được thấy trong rất nhiều ngành nhưngnhìn chung đều hướng đến việc:

- Giúp ra quyết định tự động

- Phân tích dự đoán hỗ trợ đưa ra dự báo chính xác

- Giảm thiểu chi phí

- Giám sát trong thời gian thực

- Tạo ra lợi thế cạnh tranh

- Dự đoán xu hướng tương lai

- Tối ưu hóa các dự liệu tiềm ẩn từ các trang web

1.1.5 Ứng dụng của khai phá dữ liệu

KPDL được ứng dụng thực tiễn rất nhiều trong kinh doanh và trong việc tìm kiếmchắt lọc thông tin từ những kho dữ liệu khổng lồ từ môi trường internet Đây là 2 lĩnhvực nổi bật nhất khi nhắc đến KPDL

1.1.5.1 Kinh doanh thông minh

Kinh doanh thông minh (KDTM) biến dữ liệu thành những hiểu biết thúc đẩy giátrị doanh nghiệp Thông qua việc sử dụng khai phá dữ liệu, trực quan hóa dữ liệu, sửdụng kỹ thuật và công nghệ mô hình hóa dữ liệu, các nhà phân tích có thể xác định các

xu hướng có thể giúp các bộ phận, nhà quản lý và giám đốc điều hành khác đưa ra quyếtđịnh kinh doanh để hiện đại hóa và cải thiện quy trình trong tổ chức Hơn nữa có thể tậndụng những dữ liệu thu thập được để so sánh dữ liệu với các đối thủ canh tranh và xuhướng của ngành để đưa ra những giải pháp tốt nhất

Khóa luận tốt nghiệp

Trang 19

Neu như KDTM không có sự tham gia của KPDL thì các doanh nghiệp không thểhiểu được tâm lý khách hàng, điểm mạnh, điểm yếu của đối thủ, dự đoán xu hươngtương lai từ đó đưa ra những quyết định thiếu chính xác và giảm hiệu quả, lợi nhuậncho

tuệ doanh nghiệp khi nói đến việc làm sạch, chuẩn hóa và sử dụng dữ liệu kinh doanh.Nó

cũng góp phần vào khả năng của bạn sử dụng dữ liệu đó để đưa ra dự đoán chính xácvà

đáng tin cậy có thể cho phép doanh nghiệp hoạt động ở cấp độ cao hơn là chỉ dựa vàodữ

liệu lịch sử mà bạn có sẵn và đoán được kết quả trong tương lai

1.1.5.1 Công cụ tìm kiếm

Công cụ tìm kiếm có nguồn gốc từ một phần mềm nhằm tìm kiếm các trang webtheo nội dung yêu cầu của người dùng dựa trên những thông tin có sẵn Mà bản chất trữlượng của những thông tin này là một CSDL cực lớn Kết quả tìm kiếm dựa trên các từkhóa (keyword) được người sử dụng đưa vào khung tìm kiếm và được trả về một danhsách các kết quả phù hợp nhất với những gì người dùng đang cố gắng tìm Danh sáchbao gồm nhiều dạng như các trang web, hình ảnh, video hay một số dạng tệp khác.Công

cụ tìm kiếm là một công cụ được hoạt động bởi những thuật toán hoặc một sự kết hợpđầu vào giữa những thuật toán và con người Công cụ tìm kiếm web về cơ bản là cácứng dụng khai thác dữ liệu rất lớn Vì các công cụ tìm kiếm lớn chứa hàng triệu và đôikhi hàng tỷ trang, nhiều công cụ tìm kiếm hiển thị kết quả tùy thuộc vào mức độ quantrọng của chúng Tầm quan trọng này thường được xác định bằng cách sử dụng cácthuật

toán khác nhau Ví dụ về một công cụ tìm kiếm trực quan

Như được minh họa, nguồn của tất cả dữ liệu của công cụ tìm kiếm được thu thậpbằng cách sử dụng trình thu thập dữ liệu hoặc trình thu thập dữ liệu truy cập từng trangtrên Internet và thu thập thông tin của nó.Khi một trang được thu thập thông tin, dữ liệutrong trang được xử lý và lập chỉ mục Thông thường, nó hoạt động theo các bước dướiđây:

- Loại bỏ các từ dừng lại

- Ghi lại các từ còn lại trên trang và tần suất chúng xảy ra

- Ghi lại liên kết đến các trang khác

- Ghi thông tin về bất kỳ hình ảnh, âm thanh và phương tiện nhúng trên trang

Trang 20

Khóa luận tốt nghiệp

Dữ liệu thu thập được sử dụng để xếp hạng mỗi trang Các bảng xếp hạng này sau

đó xác định trang nào sẽ hiển thị trong kết quả tìm kiếm và theo thứ tự nào Cuối cùng,một khi dữ liệu được xử lý, nó được chia thành các tệp, được chèn vào cơ sở dữ liệuhoặc được tải vào bộ nhớ nơi truy cập khi tìm kiếm được thực hiện

Công cụ tìm kiếm đặt ra những thách thức lớn để khai thác dữ liệu Đầu tiên, họphải xử lý một lượng dữ liệu khổng lồ và ngày càng tăng Thông thường, dữ liệu đókhông thể được xử lý bằng một hoặc một vài máy Thay vào đó, các công cụ tìm kiếmthường cần sử dụng các điện toán đám mây, bao gồm hàng ngàn hoặc thậm chí hàngtrăm nghìn máy tính hợp tác khai thác lượng dữ liệu khổng lồ Các phương pháp khaithác dữ liệu trên các điện toán đám mây và các bộ dữ liệu phân tán lớn là một lĩnh vựcmới đang được mở rộng nghiên cứu và phát triển

Thứ hai, các công cụ tìm kiếm Web thường phải xử lý dữ liệu trực tuyến Mộtcông

cụ tìm kiếm có thể đủ khả năng xây dựng một mô hình ngoại tuyến trên các tập dữ liệukhổng lồ Để thực hiện việc này, nó có thể xây dựng một trình phân loại truy vấn chỉđịnh truy vấn tìm kiếm cho các danh mục được xác định trước dựa trên chủ đề truy vấn(Ví dụ: Khi bạn tìm kiếm với từ khóa là Amazon thì nó có thể trả về kết quả là tên củamột công ty công nghệ đa quốc gia của Mỹ, cũng có thể là tên của một dòng sông) Cho

dù một mô hình được xây dựng offline, ứng dụng của mô hình trực tuyến phải đủnhanh

để trả lời các truy vấn của người dùng trong thời gian thực

Một thách thức khác là duy trì và tăng dần cập nhật một mô hình trên các luồngdữ

liệu đang phát triển nhanh Ví dụ: bộ phân loại truy vấn có thể cần được duy trì liên tục

vì các truy vấn mới tiếp tục xuất hiện các danh mục được xác định trước và phân phối

dữ liệu có thể thay đổi Hầu hết các phương pháp đào tạo mô hình hiện có là ngoạituyến

và tĩnh và do đó không thể được sử dụng trong kịch bản như vậy

Thứ ba, các công cụ tìm kiếm Web thường phải xử lý các truy vấn chỉ được yêucầu một số lượng rất nhỏ Giả sử một công cụ tìm kiếm muốn cung cấp các đề xuất truyvấn nhận biết ngữ cảnh Đó là, khi người dùng đặt ra một truy vấn, công cụ tìm kiếm sẽ

cố gắng suy ra bối cảnh của truy vấn bằng cách sử dụng hồ sơ của người dùng và lịch

sử truy vấn của anh ta để trả về các câu trả lời tùy chỉnh hơn trong một phần nhỏ củamột giây Tuy nhiên, mặc dù tổng số truy vấn được hỏi có thể rất lớn, hầu hết các truyvấn có thể chỉ được hỏi một lần hoặc một vài lần Dữ liệu sai lệch nghiêm trọng nhưvậy

là thách thức đối với nhiều phương pháp khai thác dữ liệu và học máy

Trang 21

1.2 Khai phá dữ liệu web

1.2.1 Khái niệm khai phá dữ liệu web

Internet đã tạo ra môi trường và tiền đề cho các trang web ra đời và sự ra đời củacác trang web làm cho internet càng trở nên hấp dẫn Không thể phủ nhận internet làmột kho kiến thức khổng lồ, nó là một kênh thông tin đa dạng đa lĩnh vực từ khoa họcđến đời sống, y tế, giáo dục, giải trí, xã hội, Nguồn gốc của sự phát triển mạnh mẽnày chính là chi phí duy trì thấp So sánh với một công cụ truyền tải khác như báo giấy,tạp chí thì việc duy trì một trang web có chí phí thấp hơn rất nhiều Hơn nữa các trangweb có lợi thế về dung lượng truyền tải, không bị giới hạn khuôn khổ số trang nên cóthể cung cấp một lượng thông tin rất lớn, phong phú và chi tiết Nói chung internet làmột môi trường đa dạng được coi như một kho dữ liệu khổng lồ với nội dung và hìnhthức đa dạng bao gồm âm thanh, hình ảnh, video, Internet là một kênh đa phươngtiện nhưng cũng chỉ là một sự kết hợp của tập hợp các cơ sở dữ liệu không đồng nhất,các chương trình giao tiếp với người dùng Vậy nên chỉ đơn thuần là khai phá dữ liệuvăn bản thì chưa đủ, chủ yếu phải đào sâu vào khai phá dữ liệu web mới có thể khaithác

được nhiều thông tin từ kho dữ liệu này Nhìn chung thì nội dung khai phá web được

chia làm 3 loại:

Hình 1.3: Cấu trúc của web mining

Khái niệm về khai phá web thì có rất nhiều nhưng nhìn chung, khái phá web được

hiểu là: Khai phá Web là ứng dụng của các kỹ thuật khai phá dữ liệu để tự động khám

phá các mẫu, cấu trúc và thông tin từ Web Mục đích chính của khai phá Web là khám

phá những thông tin hữu ích từ World Wide Web nhằm cải thiện cấu trúc, thiết kếwebsite, đưa ra những tri thức giúp phát triển thương mại điện tử hay những trang tintổng hợp thông tin mới Khai phá Web ngày càng được quan tâm và phát triển nhiều

Trang 22

Khóa luận tốt nghiệp

hơn trong hiện tại Các bước khai phá web cụ thể như sau:

- Tìm kiếm nguồn tài nguyên: Thực hiện tìm kiếm và lấy các tài liệu Web phụcvụ

cho việc khai phá

- Lựa chọn và tiền xử lý dữ liệu: Lựa chọn và tiền xử lý tự động các loại thôngtin

từ nguồn tài nguyên Web đã lấy về

- Tổng hợp: Tự động khám phá các mẫu chung tại các Web site riêng lẻ cũng nhưnhiều Website với nhau

- Phân tích: Đánh giá, giải thích, biểu diễn các mẫu khai phá được

1.2.2 Lợi ích của khai phá dữ liệu web

Khai thác dữ liệu là một phần quan trọng của quá trình khám phá tri thức màchúng

ta có thể phân tích một tập hợp dữ liệu khổng lồ và nhận được kiến thức ẩn và hữu ích.Khai thác dữ liệu được áp dụng hiệu quả không chỉ trong môi trường kinh doanh màcòn trong các lĩnh vực khác như dự báo thời tiết, y học, giao thông vận tải, y tế, bảohiểm, chính phủ, v.v Khai thác dữ liệu có rất nhiều lợi thế khi sử dụng trong một ngành

phẩm cụ thể sẽ thu hút nhiều khách hàng hơn

Tài chính / Ngân hàng: Khai thác dữ liệu cung cấp cho các tổ chức tài chínhthông

tin về thông tin cho vay và báo cáo tín dụng Bằng cách xây dựng mô hình từ dữ liệukhách hàng lịch sử, ngân hàng và tổ chức tài chính có thể xác định các khoản nợ tốt vàxấu Ngoài ra, khai thác dữ liệu giúp các ngân hàng phát hiện các giao dịch thẻ tín dụnggian lận để bảo vệ chủ sở hữu thẻ tín dụng

Chế tạo: Bằng cách áp dụng khai thác dữ liệu trong dữ liệu kỹ thuật vận hành, cácnhà sản xuất có thể phát hiện thiết bị bị lỗi và xác định các tham số điều khiển tối ưu

Ví dụ, các nhà sản xuất chất bán dẫn có một thách thức là mong muôn ngay trong điềukiên môi trường sản xuất khác nhau thì chất lượng chất bán dẫn sẽ là như nhau Điều

Trang 23

này rất khó để thực hiện nên khai phá dữ liệu đã được áp dụng để xác định phạm vi củacác tham số điều khiển của việc sản xuất và áp dụng cho những nhà máy khác.

Chính phủ: Khai thác dữ liệu giúp cơ quan chính phủ bằng cách đào và phân tíchcác hồ sơ về giao dịch tài chính để xây dựng các mô hình có thể phát hiện hoạt độngrửa

tiền hoặc hoạt động tội phạm

1.2.3 Các kiểu dữ liệu web

Có thể khái quát các kiểu dữ liệu web qua hình dưới đây

Hình 1.4: Các kiểu dữ liệu web

Các đối tượng của khai phá Web bao gồm: Server logs, Web pages, Webhyperlink

structures, dữ liệu thị trường trực tuyến và các thông tin khác

Web logs: Khi người dùng duyệt Web, dịch vụ sẽ phân ra 3 loại dữ liệu đăng

Web hyperlink structure: Các trang Web được liên kết với nhau bằng các siêu

liên kết, điều này rất quan trọng để khai phá thông tin Do các siêu liên kết Web lànguồn

tài nguyên rất xác thực

Dữ liệu thị trường trực tuyến: Như lưu trữ thông tin thương mại điện tử trong

các site thương mại điện tử Các thông tin khác: Chủ yếu bao gồm các đăng ký ngườidùng, nó có thể giúp cho việc khai phá tốt hơn

Trang 24

Khóa luận tốt nghiệp

1.3 Một số phương pháp tiếp cận trong khai phá dữ liệu Web

1.3.1 Phương pháp khai phá nội dung Web

Khai phá nội dung của web chủ yếu tập trung vào nội dung chứa bên trong cáctrang web các nội dung này thông thường bao gồm các dạng như: hình ảnh, âm thanh,văn bản Khai phá nội dung web có liên quan nhưng khác với khai phá dữ liệu và khaiphá văn bản Nó liên quan đến khai phá dữ liệu vì nhiều kỹ thuật khai thác dữ liệu cóthể được áp dụng trong khai phá nội dung Web Liên quan đến khai thác văn bản vìphần

lớn nội dung web là văn bản Tuy nhiên, nó cũng có sự khác biệt vì dữ liệu Web chủyếu là bán cấu trúc hoặc không có cấu trúc, trong khi khai phá dữ liệu chủ yếu liênquan

đến dữ liệu có cấu trúc Khai thác nội dung web cũng khác với khai thác văn bản vì tínhchất bán cấu trúc của Web, trong khi khai thác văn bản tập trung vào các văn bản phicấu trúc Do đó, khai thác nội dung web đòi hỏi các ứng dụng sáng tạo về khai thác dữliệu, kỹ thuật khai thác văn bản và có các phương pháp tiếp cận độc đáo của riêng nó.Trong vài năm qua, khai thác nội dung web đã trở nên phát triển mạnh mẽ vì sự hữu íchcủa nó Điều này cũng không quá ngạc nhiên khi hiện nay nội dung trên web thực sựkhổng lồ và việc thu lợi ích kinh tế đáng kể từ việc khai thác này Nhưng do tính chấtkhông đồng nhất và thiếu cấu trúc dữ liệu, việc tự động phát hiện thông tin kiến thứcvẫn còn đặt ra nhiều thách thức mới

1.3.1.1 Khaiphá kết quả tìm kiếm

Các công cụ tìm kiếm là nguồn thông tin đầu tiên vì chúng là điểm khởi đầu chonghiên cứu và tóm tắt nội dung của các kết quả truy vấn là một kỹ thuật sáng tạo để cóđược kết quả phản hồi mong muốn từ hệ thống Vì vậy hiện nay người ta có xu hướngtích hợp các công cụ tóm tắt kết quả tìm kiếm trong công cụ tìm kiếm để làm tăng giátrị thông tin cần tìm qua các từ khóa Trong các máy tìm kiếm, sau khi đã tìm ra nhữngtrang web thỏa mãn yêu cầu người dùng, thì tiếp đó một việc không kém quan trọng làphải sắp xếp, chọn lọc theo mức độ hợp lệ với yêu cầu người dùng Quá trình nàythường

sử dụng thông tin như tiêu đề trang, URL, content-type, các liên kết trong trang web đểtiến hành phân lớp và đưa ra các tập con các kết quả tốt nhất cho người dùng Trongquá

trình phân loại thông tin không tránh khỏi việc thu thập những thông tin không cónhiều

giá trị đối với việc phân tích, ta có thể áp dụng kỹ thuật phân cụm để chia ra nhữngnhóm

thông tin giống nhau Nghĩa là trong những thông tin đã thu thập về ta chia thànhnhững

Trang 25

hơn Cuối cùng, mục tiêu của bất kỳ công cụ tìm kiếm nào là sự hài lòng của ngườidùng, điều này có thể được thể hiện trong việc người dùng có tìm thấy câu trả lời chotruy vấn của mình hay không; và anh ấy đã dành bao nhiêu thời gian để tìm kiếm Cómột bản tóm tắt các kết quả có liên quan hàng đầu có thể cung cấp cho người dùng80%

câu trả lời chỉ trong vài giây - và trong nhiều trường hợp, 80% đó là đủ Các công cụtóm tắt kết quả có thể làm hài lòng người dùng mà không cần phải đi sâu vào cácnguồn

riêng lẻ Nếu người dùng muốn tìm hiểu sâu hơn, những phần tóm tắt có thể cho ngườidùng ý tưởng tốt về chất lượng của các nguồn, giúp người dùng tổng quát hơn vềnhững

nguồn có thể sử dụng

1.3.1.2 Khaiphá văn bản Web

Khai phá văn bản (KPVB) web chủ yếu là áp dụng các kĩ thuật khai phá dữ liệuđể

lấy ra những thông tin hữu ích từ dữ liệu của văn bản web đó Khai phá văn bản webcũng gần giống như khai phá văn bản thường (text mining) và vì cũng được áp dụngnhững kĩ thuật của khai phá dữ liệu nên khai phá văn bản web có liên quan mật thiết tớiKPDL, tìm kiếm các thông tin và xử lý các ngôn ngữ tự nhiên Khai phá văn bảnthường

khai phá hầu hết các loại dữ liệu: có cấu trúc, không cấu trúc và bán cấu trúc Mục đíchchính của KPVB là lấy ra thông tin từ những dữ liệu đã khoanh vùng, phân loại thôngtin để phù hợp với chủ đề mong muốn, tìm hiểu trạng thái chung của mỗi tài liệu Quytrình của KPVB được mô tả qua hình ảnh sau:

Hình 1.5: Quy trình khai phá văn bản

a Nguồn dữ liệu

Nguồn dữ liệu web thường là những văn bản có trong những website, đây là mộtloại văn bản text được gán trên các thẻ HTML và được định dạng sao cho phù hợp vớinhu cầu nội dung từng trang Khi khai phá từ những nguồn dữ liệu này ta sẽ tiến hànhthông qua các ứng dụng truy xuất thông tin

b Tiền xử lý

Đây là quá trình quan trọng trước khi chuyển tiếp đến các bước sau trong quytrình

Trang 26

Khóa luận tốt nghiệp

KPVB Các phương pháp thu thập dữ liệu thường được kiểm soát một cách lỏng lẻo,dẫn đến các giá trị ngoài phạm vi, các kết hợp dữ liệu không phù hợp (ví dụ: Giới tính:Nam, Mang thai: Có) Vì vậy phải trải qua bước tiền xử lý sàng lọc dữ liệu làm cho tập

dữ liệu được “sạch” hơn trước khi tiến hành biểu diễn, phân tích Áp dụng những kỹthuật trong khai phá dữ liệu để thể hiện và làm rõ dữ liệu Các bước tiền xử lý thườngdiễn ra như sau:

- (1): Tìm và xác định rõ chủ đề mà người dùng đề cập đến, thông tin người dùngmuốn có là gì và xác định các mối liên hệ giữa các thông tin có trong dữ liệu

- (2): Chuẩn hóa và sắp xếp lại những thông tin này

- (3): Dữ liệu trong kết quả đầu ra cuối cùng phải được đảm bảo một số tiêu chínhư: Dữ liệu được thống nhất, giảm thiểu số chiều và tăng hiệu quả cho việc lọc thôngtin, loại bỏ những thuộc tính gây nhiễu

c Biểu diễn dữ liệu

Bản chất của một website được cấu thành từ các thẻ HTML và văn bản web lànhững văn bản dạng text gắn trên các thẻ này Sau khi tách ra khỏi các thẻ HTML tađược các dữ liệu văn bản thô Sau đó tiếp tục tiến hành loại bỏ đi các từ nối, những từchứa ít hàm lượng thông tin, loại bỏ các từ có tần suất xuất hiện thấp giảm thiểu nhiễurồi chuyển sang phân lớp để có được các tập dữ liệu

d Xử lý dữ liệu, rút ra các mẫu

Tiến hành phân lớp những dữ liệu đã được tách ra khỏi cấu trúc của web, sử dụngcác luật để tiến hành phân lớp dữ liệu đó Gọi các dữ liệu đó là 1 nhóm đối tượng cầnxác định và ta có tập hợp các lớp được xác định trước phụ thuộc vào chủ đề mà tamuốn

lấy thông tin từ khai phá Xác định xem các đối tượng đó thuộc nhóm nào chính là ta đãtiến hành phân lớp Trong quá trình phân lớp ta cũng có thế đưa ra các mẫu để đốichiếu

từ đó tiến hành phân lớp một cách chính xác Những nhóm có lượng thông tin khôngphù hợp có thể tiếp tục được loại bỏ, những nhóm còn lại là những tập dữ liệu cónhững

đặc trưng cụ thể sẽ được chuyển sang bước khai phá dữ liệu

e Khaiphá dữ liệu văn bản

ý nghĩa chính của văn bản đang đọc mà không nhất thiết phải xem toàn bộ nội dung của

Trang 27

văn bản Phương pháp này thường được sử dụng bên trong searching engine dùng đểthể hiện ra các văn bản trích dẫn Công cụ này luôn chỉ ra được cho người dùng nhữngcâu mang tính chất dự báo trong khi tiến hành tìm kiếm và trả về kết quả Một trongnhững cách hữu hiệu nhất để nắm bắt và thu thập được ý nghĩa của văn bản đó đính làthông qua việc sử dụng hệ thống các thuật toán khác nhau Dựa vào đó thì quá trình tìmkiếm sẽ đem lại hiệu quả một cách tốt hơn và phù hợp với những mong muốn và sự lựachọn của người tiêu dùng.

qua người sử dụng Thông thường có 2 phương pháp được sử dụng để phân lớp đó làthuật toán phân lớp Navie Bayesian và K-Nearest Neighbor để thực thi công việc khaiphá thông tin văn bản Đối với phân lớp văn bản nhiệm vụ đầu tiên là chúng ta phảiphân

loại được các tài liệu, công việc thứ hai là phải xác định được các đặc trưng thông qua

số lượng các đặc trưng của tập tài liệu đã được phân lớp bằng cách sử dụng bất kì mộtthuật toán nào đó Khi đó đối với các tài liệu có tính chất và độ tương tự cao sẽ nằmcùng với nhau trong một lớp Độ tương tự sẽ được đo bằng các hàm đánh giá xác địnhtrước, trong trường hợp số lượng tài liệu tương tự ít thì nó sẽ trở về số 0 trong trườnghợp ngược lại nếu nó không giống như sự lựa chọn của phân lớp đã xác định trước thìtrường hợp này được coi như là không phù hợp và chúng ta phải lựa chọn lại phân lớp.Đối với việc lựa chọn có hai giai đoạn đó là: Huấn luyện và phân lớp

Thuật toán phân cụm phân cấp

- Trong tài liệu xác định;

- Chọn ngẫu nhiên 2 cụm;

- Lặp lại công việc

Sau quá trình của phương pháp sắp xếp các liên kết thì sẽ có một cây được tạothành,

cây này phản ánh một cách rõ ràng và chi tiết mối quan hệ với nhau về độ tương tự củacác tài liệu Phương pháp này đem lại sự chính xác là khá cao tuy nhiên bất lợi của nóchính là tốc độ xử lý tương đối chậm nếu để đem ra so sánh độ tương tự có trong tất cả

Trang 28

Khóa luận tốt nghiệp

các cụm Trong trường hợp mà tập tài liệu này có kích thước quá lớn thì chúng takhông

thể sử dụng phương pháp này được

Thuật toán phân cụm phân hoạch

- Việc đầu tiên phải làm đó là tiến hành chia tập tài liệu của chúng ta thành cáccụm khởi đầu dựa và việc tối ưu hóa đánh giá theo một nguyên tắc nhất định;

- Công việc trên được tiến hành liên tục và lặp lại đến khi nào tất cả các tài liệu đãđược đưa vào bên trong các cụm xác định;

Đối với phương pháp này thì điểm mạnh là kết quả phân cụm sẽ được tiến hành mộtcách nhanh chóng với sự ổn định tương đối cao Nhưng chúng ta phải xác định trướcđó

đâu là các phần tử khởi đầu và bên cạnh đó là số lượng các phần tử này, điều này sẽ ảnhhưởng một cách trực tiếp tới hiệu quả của công việc phân cụm

- Phân tích và dự đoán các xu hướng

Việc phân tích các tài liệu web mang lại một lợi thế vô cùng lớn đó chính là việcchúng ta có thể nhìn nhận và phân tích được quan hệ phân phối đối với bộ dữ liệuthông

qua mỗi giai đoạn khác nhau Hơn nữa chúng ta cũng có thể tiến hành dự đoán được sựphát triển trong tương lai

- Đánh giá chất lượng mẫu

KPDL Web được coi như là một quá trình nhỏ của học máy Trong trường hợp nàykết quả đầu ra của việc học máy chính là các biểu mẫu tri thức Một trong những yếu tốquan trọng của học máy đó chính là đánh giá kết quả mẫu Các tài liệu sẽ được tiếnhành

phân tích và áp dụng phương pháp phân lớp để đưa vào các tập huấn luyện, sau đó sẽđược kiểm tra Việc học sẽ được lặp lại và tập huấn luyện, tập kiểm tra sẽ được kiểmthử Bước cuối cùng là dùng chất lượng trung bình để đánh giá

1.3.2 Khai phá cấu trúc web

Khai phá cấu trúc web là khám phá kiến thức hữu ích từ cấu trúc của các liên kếtgiữa các trang web Một website càng nhiều liên kết càng thể hiện lượng thông tin chứatrong đó lớn, lượng thông tin trong các siêu liên kết chứa lượng thông tin lớn hơn gấpnhiều lần so với văn bản thường Các liên kết trỏ tới một trang web chỉ ra mức độ quantrọng của trang web đó, trong khi các liên kết đi ra từ một trang web thể hiện các trang

có liên quan tới chủ đề đề cập trong trang hiện tại

Trang 29

Access Pattern Tracking và Customizied Usage tracking

- (1) General Access Pattern Tracking: Phân tích các mẫu hồ sơ web để biết được

đối với những sản phẩm cần được đẩy mạnh

- (2) Customizied Usage Tracking: Phân tích xu hướng cá nhân, hay có thể gọi là

Trích xuất thông tin (Information extraction) là quá trình phân tích, xử lý dữ liệu

để trích xuất các thông tin hữu ích, có cấu trúc từ nguồn thông tin phi cấu trúc hoặc báncấu trúc Thông thường quá trình này bao gồm ba bước chính là: xác định thực thể(NER:

Named Entity Recognition), xác định mối liên hệ (Relation Extraction) và trích xuất sựkiện (Event Extraction)

1.4.1.1 Xác định thực thể

Bước đầu tiên trong quá trình Trích xuất thông tin là việc xác định các thực thể(entity) xuất hiện trong đoạn dữ liệu rồi tiến hành phân loại thực thể này (được gọi là

Trang 30

Khóa luận tốt nghiệp

áp dụng các sequence model như MEMM hoặc CRF Tuy nhiên công việc này thườnggặp khó khăn do tính không rõ ràng của các từ Ví dụ như từ ‘Washington’ có thể đượcphân loại là Tên người (PERSON) như tổng thống Washington hoặc Địa danh(LOCATION) như thủ đô Washington,

Ngoài ra, một khái niệm khác có liên quan đến NER là Coreference Resolution.Coreference Resolution được sử dụng để tìm tất cả các từ đại diện cho cùng một thựcthể nhất định trong đoạn văn bản Ví dụ như trong câu ‘I like Tom because he is so nice

to me’ thì từ ‘he’ chính là từ để chỉ ‘Tom’

Bên cạnh vai trò trong việc xác định mối liên hệ (Relation Extraction) và pháthiện

sự kiện (Event Extraction) thì NER còn được áp dụng trong nhiều bài toán liên quanđến

Xử lý ngôn ngữ tự nhiên Ví dụ như trong việc phân tích Sentiment thì NER giúp tabiết

được đánh giá của người dùng đối với một thực thể nhất định (có thể là cơ quan, tổchức,

địa danh, ) hoặc trong hệ thống Question Answering, NER giúp biết được người dùngmuốn hỏi về đối tượng nào,

1.4.1.2 Tìm mối liên hệ giữa các thực thể

Sau khi xác định NER và Coreference Resolution, công việc tiếp theo ta cần thựchiện là tìm mối liên hệ giữa các thực thể trong đoạn văn bản Quá trình này được gọi làRelation Extraction Ví dụ như trong câu ‘Bob works in Google’ thì kết quả của quátrình Relation Extraction sẽ cho ta kết quả của mối liên hệ giữa Bob (tên người) vàGoogle (công ty) là Work_For (vì Bob làm việc cho Google)

Thông thường việc tìm mối liên hệ giữa các entity có thể thực hiện bằng cách sửdụng phương pháp truyền thống (sử dụng lexico-syntactic patterns) hoặc sử dụng các

kỹ thuật Machine Learning như Supervised Learning, Semisupervised RelationExtraction với Bootstrapping, Distant Supervision hoặc Unsupervised RelationExtraction

1.4.1.3 Phát hiện và xác định các sự kiện

Event Extraction là quá trình phát hiện và xác định các sự kiện trong một đoạn dữliệu, trong đó có sự tham gia của các entity đã được xác định trong các bước trước Quátrình này cũng bao gồm cả Event Coreference và Time Extraction Tương tự nhưCoreference Resolution đã giải thích ở trên, Event Coreference được dùng để xác địnhcác sự kiện trùng lặp, cùng nói về một sự kiện chung còn Time Extraction dùng để xácđịnh yếu tố thời gian của sự kiện như khi nào sự kiện xảy ra hoặc xảy ra trong thời gianbao lâu,

Trang 31

Event Extraction có thể được thực hiện bằng việc sử dụng các tập luật based),

(rule-sử dụng các phương pháp thống kê (statistical approachs) hoặc (rule-sử dụng kỹ thuậtMachine Learning như Sequence Models, sử dụng Multi-class Classifier để phân loại

sự kiện và các thuộc tính của nó,

Quy trình trong 1 dự án xử lý ngôn ngữ tự nhiên sẽ gồm 7 bước nhứng trong khóaluận sẽ chỉ tập trung tại bước 1 là những nền tảng của xử lý ngôn ngữ tự nhiên

nội dung Nội dung cơ bản của bước 1 bao gồm:

Trích xuất cấu trúc - xác định các trường và khối nội dung dựa trên việc gắn thẻXác định và đánh dấu ranh giới câu, cụm từ và đoạn văn - những điểm đánh dấunày rất quan trọng khi thực hiện trích xuất thực thể và NLP vì chúng đóng vai trò là cácngắt hữu ích trong đó phân tích xảy ra

Nhận dạng ngôn ngữ - sẽ phát hiện ngôn ngữ của con người cho toàn bộ tài liệu

và cho từng đoạn hoặc câu Các trình phát hiện ngôn ngữ là rất quan trọng để xác địnhnhững thuật toán và từ điển ngôn ngữ nào sẽ áp dụng cho văn bản

Mã thông báo - để phân chia các luồng ký tự thành các mã thông báo có thểđược

sử dụng để xử lý và hiểu thêm Mã thông báo có thể là từ, số, số nhận dạng hoặc dấuchấm câu (tùy thuộc vào trường hợp sử dụng)

Chuẩn hóa và gắn thẻ từ viết tắt - các từ viết tắt có thể được chỉ định là NhẫnI.B.M hoặc IBM vì vậy những thứ này nên được gắn thẻ và chuẩn hóa Công nghệ tìmkiếm công nghệ xử lý mã thông báo có tính năng này

Trang 32

Khóa luận tốt nghiệp

Bổ ngữ / Phát âm - giảm các biến thể từ thành các dạng đơn giản hơn có thể giúptăng mức độ bao phủ của các tiện ích NLP

Giải mã - đối với một số ngôn ngữ (điển hình là tiếng Đức, tiếng Scandinavi vàtiếng Cyrillic), các từ ghép sẽ cần được chia thành các phần nhỏ hơn để cho phép NLPchính xác

Trích xuất thực thể - xác định và trích xuất các thực thể (con người, địa điểm,công

ty, v.v.) là một bước cần thiết để đơn giản hóa việc xử lý xuôi dòng Có một số phươngpháp khác nhau:

Trích xuất Regex - tốt cho số điện thoại, số ID (ví dụ: SSN, giấy phép lái xe, v.v.),địa chỉ email, số, URL, hashtag, số thẻ tín dụng và các thực thể tương tự

Trích xuất từ điển - sử dụng một từ điển các chuỗi mã thông báo và xác định khicác chuỗi đó xảy ra trong văn bản Điều này tốt cho các thực thể được biết đến, chẳnghạn như màu sắc, đơn vị, kích cỡ, nhân viên, nhóm kinh doanh, tên thuốc, sản phẩm,nhãn hiệu, v.v

Trích xuất dựa trên mẫu phức tạp - tốt cho tên người (được tạo từ các thành phần

đã biết), tên doanh nghiệp (được tạo từ các thành phần đã biết) và kịch bản trích xuấtdựa trên ngữ cảnh (ví dụ: trích xuất một mục dựa trên ngữ cảnh của nó) khá thườngxuyên và khi độ chính xác cao được ưa thích hơn thu hồi cao

Trích xuất thống kê - sử dụng phân tích thống kê để thực hiện trích xuất ngữcảnh

Điều này tốt cho tên người, tên công ty, thực thể địa lý mà trước đây không biết và bêntrong văn bản có cấu trúc tốt (ví dụ: văn bản học thuật hoặc báo chí) Khai thác thống

kê có xu hướng được sử dụng khi thu hồi cao được ưa thích hơn độ chính xác cao.Trích xuất cụm từ - trích xuất chuỗi các mã thông báo (cụm từ) có ý nghĩa mạnh

mẽ, độc lập với các từ khi được xử lý riêng Các trình tự này nên được coi là một đơnvị

khi thực hiện NLP

1.5 Ket luận chương

Trong chương 1 đã nêu khái quát nhất lý thuyết về khai phá dữ liệu giúp ta hiểu

Trang 33

CHƯƠNG 2: THỰC TRẠNG CUNG CẤP THÔNG TIN VỀ DỊCH BỆNH VIÊM ĐƯỜNG HÔ HẤP CẤP COVID-19 TRÊN WEB

Trong chương này, sẽ đề cập đến bối cảnh dịch bệnh, thực trạng cung cấp thông tin, công nghệ được sử dụng tại Việt Nam và trên thế giới Những vấn đề được đề cập ở trong chương này sẽ giúp hiểu hơn về tình hình dịch bệnh hiện tại, cung cấp thêm luận điểm cho lý do chọn bài toán thực tế ở chương 3 Đồng thời cũng là một phần cơ sở thông tin để giúp giải bài toán hiệu quả.

2.1 Thực trạng ở Việt Nam

Hiện nay muốn cập nhật thông tin thì có vô vàn nguồn thông tin có thể ứng dụng,

từ những kênh thông tin truyền thống như báo giấy, tivi, radio, loa phường, truyềnmiệng

hay đến những nguồn thông tin hiện đại hơn thông qua internet như báo điện tử,website,

mạng xã hội, Thông tin cũng rất đa dạng trong tất cả các lĩnh vực: chính trị, kinh tế,văn hóa, xã hội, thể thao, giáo dục, y tế đồng thời việc tự do ngôn luận và phát triểncủa các trang mạng xã hội cũng tạo nên nhiều thông tin mang tính cá nhân hóa Ai cũng

có thể đưa ra suy nghĩ và ý kiến riêng của mình về một vấn đề sự kiện nào đó Vì vậy,

số lượng thông tin được đưa ra và lưu chuyển là rất lớn nhưng chính vì đó việc xác địnhthông tin cần thiết và chính xác hay không cũng trở nên khó khăn hơn Khi cần phảichủ

động tìm kiếm và chắt lọc thông tin Hơn nữa chính phủ cũng có nhiều chủ trương vàgiải pháp nhằm giúp người dân tiếp cận thông tin hiệu quả Đặc biệt là các tỉnh miềnnúi, cơ sở vật chất thiếu thốn được quan tâm tạo điều kiện bổ sung cơ sở vật chất,nguồn

lực cán bộ, triển khai những mô hình hợp lý để đảm bảo người dân nắm rõ luật và tiếpcận thông tin được nhanh chóng nhất

Mới gần đây nhất là dịch bệnh viêm đường hô hấp cấp Covid-19, một đại dịch lâynhiễm được cảnh báo ở mức độ thế giới Qua hơn 5 tháng kể từ khi có dịch bênh, ViệtNam vẫn luôn kiểm soát bệnh dịch và khống chế tốt nhất có thể Tất cả mọi người dânđều biết đến những thông tin về dịch bệnh, phòng tránh và làm theo chỉ thị của chínhphủ Các cách thức đưa tin và tuyên truyền đến người dân thực sự hiệu quả, được đánhgiá cao khi không chỉ đưa tin qua các chương trình thời sự mà còn tận dụng triệt đểmạng xã hội hay qua đường truyền điện thoại Đồng thời cũng xử phạt nghiêm khắc aitruyền bá, đưa tin sai lệch gây hoang mang Cũng nhờ 1 phần lớn đó, công tác chốngdịch của nước ta diễn ra hiệu quả, khi tổng số ca nhiễm bệnh vẫn đang dưới con số 400người, hầu hết đã bình phục và chưa có ai tử vong

Trang 34

Khóa luận tốt nghiệp

2.1.1 Bối cảnh dịch bệnh ở Việt Nam

Đại dịch viêm đường hô hấp cấp COVID-19 được đánh giá là một trong nhữngđại

dịch nguy hiểm cấp độ cao, vượt lên trên tất cả những dịch bệnh gây chết người nhưEbola ở Congo, Zika năm 2016 và Ebola năm 2014 ở Tây Phi Đây đều là nhữngtrường

hợp được báo động nguy hiểm ở mức quốc tế Tại Việt Nam tính đến hiện nay thì cóthể

chia toàn cảnh dịch bệnh thành 3 giai đoạn chính

Giai đoạn 1: Bắt đầu từ tối ngày 23/01/2020 (29 Tết Canh Tý), Bệnh viện Chợ

Ray đã xác nhận 2 bệnh nhân (BN) dương tính với virut Corona chủng mới CoV-2) đầu tiên tại Việt Nam Đó là 2 cha con người Trung Quốc, người đàn ông (66tuổi) đến từ Vũ Hán cùng vợ sang thăm con trai tại Long An Trong thời gian ở tại NhaTrang (Khánh Hòa) đã lây bệnh cho 1 nữ nhân viên của khách sạn Sau đó TPHCMcũng

(SARS-xác nhận thêm 1 ca nhiễm là Việt Kiều trở về nước và đã quá cảnh tại sân bay ở VũHán

ô dịch trong giai đoạn đầu tiên bắt nguồn từ 6 nhân viên của một công ty Nhật Bảnđược

gửi sang Vũ Hán tập huấn từ tháng 11 và trở về Việt Nam vào ngày 17/1 Trong đóbệnh

nhân số 5 quê xã Sơn Lôi, huyện Bình Xuyên, Vĩnh Phúc đã lây nhiễm cho 6 ngườikhác

trong gia đình Tại giai đoạn này, Trung tâm phòng chống dịch bệnh khẩn cấp

COVID-19 được kích hoạt, toàn bộ học sinh được nghỉ học, cách ly toàn bộ xã Sơn Lôi (VĩnhPhúc) Đây đều là những bước quan trọng, phương pháp mạnh mẽ nhất trong giai đoạn

1 để phát hiện sớm nguồn lây, cách ly kịp thời, khoanh vùng nhanh, dập dịch triệt để.Tổng số bệnh nhân trong giai đoạn 1 tính đến ngày 25/2 là 16 ca nhiễm

Giai đoạn 2: Sau hơn 20 ngày không có ca nhiễm mới, khi chỉ còn vài ngày là

Việt

Nam có thể công bố hết dịch thì vào ngày 6/3/2020 UBND thành phố Hà Nội đã phảihọp khẩn trong đêm khi xuất hiện bệnh nhân thứ 17 nhiễm COVID-19 Cùng với đó,thêm 20 bệnh nhân được công bố nhiễm dịch đều trên cùng chuyến VN0054 bay từLondon (Anh) về Việt Nam Chỉ vài ngày sau khi bệnh nhân 17 được biết dương tínhvới virus, bênh nhân số 34 tại Bình Thuận đã được xác nhận nhiễm bệnh và trở thànhbệnh nhân siêu lây nhiễm khi đã lây cho 11 người khác Với BN17 và BN34, Việt Nambước sang giai đoạn 2 của cuộc chiến chống dịch Giai đoạn này có 68 bệnh nhânnhiễm

mới, trong đó có 59 người đến từ nước ngoài Nước ta vẫn áp dụng những mục tiêu

Trang 35

quyết định tạm dừng cấp thị thực cho người nước ngoài nhập cảnh Việt Nam trong 30ngày đồng thời bắt buộc cách ly 14 ngày với mọi trường hợp nhập cảnh.

Giai đoạn 3: Đây là giai đoạn hết sức khó khăn khi có nguy cơ lây lan trong cộng

đồng và mất dấu F0 Chiều ngày 20/03, Bộ y tế đã công bố 2 BN nhiễm COVID-19 thứ

86 và 87 là 2 nữ điều dưỡng tại bệnh viện Bạch Mai (Hà Nội) Đáng chú ý là 2 BN nàyđều không tiếp xúc trực tiếp với các bệnh nhân đã nhiễm trước đó Cùng ngày, Bộ y tếcũng thông báo thêm BN91 là phi công của Vietnam Airlines trở về từ Anh Ba bệnhnhân này đã mở đầu cho giai đoạn 3 của dịch COVID-19 tại Việt Nam Nhà nước đã cónhững biện pháp mạnh mẽ và quyết liệt hơn trong giai đoạn chống dịch khó khăn này.Hai ổ dịch lớn trong giai đoạn này là bệnh viện Bạch Mai (Hà Nội) và quán bar Bulha(TPHCM) khi có 45 bệnh nhân liên quan 27 BN là nhân viên Công ty TNHH TrườngSinh - công ty cung cấp đồ ăn, nước uống cho bệnh viện này, 18 BN liên quan tới ổdịch

quán bar Bulha Đáng lo ngại hơn là tất cả đều không truy vết được dấu của nguồn lâynhiễm (F0) Trước nguy cơ lây nhiễm lan rộng khó kiểm soát, cả Hà Nội và TPHCMđều thực hiện đóng cửa các cơ sở kinh doanh không thiết yếu, phun khử khuẩn, phongtỏa bệnh viện Bạch Mai để sàng lọc những ca nghi nhiễm như nhân viên, bệnh nhân vàngười nhà bệnh nhân dự kiến lên đến 40000 người Thủ tướng cũng kí chỉ thị số 15quyết liệt phòng chống dịch, hạn chế tụ tập đông người Ra thêm chỉ thị số 16, thựchiện

“Cách ly toàn xã hội” trong vòng 15 ngày, yêu cầu mọi người dân ở nhà, chỉ ra đườngkhi thực sự cần thiết, giữ khoảng cách an toàn 2m, không tụ tập quá 2 người tại nơicông

cộng, văn phòng, bệnh viện trường học

Hiện tại, tính đến ngày 19/05/2020 Việt Nam có 324 ca nhiễm, không có ca nàotử

vong và hơn 90% bệnh nhân khỏi bệnh Đã 33 ngày Việt Nam không có ca nhiễm mới

từ cộng đồng, các hoạt động thường ngày cũng dần dần trở lại để phát triển đất nước.Tuy nguy cơ lây nhiễm trong cộng đồng hiện nay rất thấp nhưng vẫn còn tiềm ẩn Mọingười cần thích nghi mới trạng thái “bình thường mới”, không lơ là với các biện phápphòng bệnh được y tế khuyến cáo

2.1.2 Thực trạng cung cấp thông tin tại Việt Nam

Trong công cuộc chống dịch COVID-19, Việt Nam được báo chí nước ngoài cangợi rất nhiều khi đã đạt “kết quả phi thường” vì đã nhiều ngày không phát hiện những

ca nhiễm mới và không có ca tử vong nào Người ta cũng gọi câu chuyện chống dịchcủa Việt Nam là “thành công ngoại lệ” khi Việt Nam là đất nước có đường biên giới dàivới Trung Quốc, nước nhỏ dân đông và có thu nhập tương đối thấp mà chống dịch vẫn

Trang 36

Khóa luận tốt nghiệp

rất hiệu quả Có rất nhiều những yếu tố bất lợi đối với Việt Nam khi tham gia công cuộc

này nhưng do đâu mà Việt Nam lại thành công đến vậy?

Góp phần không nhỏ trong trận chiến này phải kể đến cách thức cung cấp, truyền

thông tin từ nhà nước đến với dân.Với tư tưởng phòng còn hơn chữa thì ngay từ khi canhiễm đầu tiên tại Trung Quốc được công bố, nước ta đã ngay lập tức tuyên truyềncách

hạn chế xâm nhập của virut như rửa tay, đeo khẩu trang thường xuyên qua các kênhthông

tin báo, đài, thời sự Sau đó, khi bắt đầu bước vào giai đoạn 1 của chiến dịch nhiềukênh

thông tin được phát huy hơn như công thông tin của các tỉnh thành phố cũng dần đưatin

những ca nhiễm bệnh theo tin tức được công bố Tuy nhiên tại giai đoạn đầu này, trangthông tin của bộ y tế phát huy chưa hiệu quả khi các thông tin có độ trễ lớn Nhiều tintức

về các ca nhiễm còn cập nhập sau một số cổng thông tin thành phố Đà Nang, tỉnhQuảng

Ninh các thông tin vẫn được cập nhật chính qua tin tức thời sự và các trang báo Tạithời

điểm này, tin tức cũng rất đa dạng trên các trang mạng xã hội như Facebook nơi cónhiều

độ tuổi sử dụng và mức độ phổ biến lớn Đa dạng bài viết mang tính cá nhân hóa cao,suy

đoán, tung tin giả gây hoang mang dư luận, rất khó để phân biệt được tin tức là đúnghay

sai khi một tin được quá nhiều chia sẻ người khẳng định nó Chính vì thế, ngay lập tứcBộ

y tế đã cho ra mắt ngay trang tin điện tử chính thức về nCov và một app mang tên “Sứckhỏe Việt Nam” giúp người dân nắm bắt về tình hình dịch bệnh và trang bị thêm nhữngkiến thức về phòng chống dịch bệnh Trên Facebook cũng có một fanpage “Thông tinchính

phủ” đã được xác nhận uy tín để cập nhật thông tin hằng ngày về COVID-19 và thêmnhững

tin tức nổi bật liên quan đến Việt Nam Hơn nữa, đã có những quy định xử phạt về việctung tin sai lệch sự thật về dịch bệnh, lên án mạnh mẽ những hành vi sai trái dẹp bỏ tinđồn

thất thiệt

Ngày đăng: 07/04/2022, 11:20

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Submitted to Banking Academy, Khóa luận 2019 - Ứng dụng khai phá dữ liệutrích chọn thông tin sự kiện y tế trên các trang web tiếng việt, Tạ Quốc Anh [2] Giáo trình tại FPT University, FPT Polytechnic Sách, tạp chí
Tiêu đề: Ứng dụng khai phá dữ liệu trích chọn thông tin sự kiện y tế trên các trang web tiếng việt
Tác giả: Tạ Quốc Anh
Nhà XB: Banking Academy
Năm: 2019
[3] Research Scholar, Manonmaniam Sundaranar University, Tirunelveli 2Assistant Professor, Sarah Tucker College, Manonmaniam Sundaranar University, Tirunelveli, Jan 2019 Khác
[4] The Annals of the University of Petrosani, Economics Khác
[5] Department of Computer and information Science Faculty of Science and Technology University of Macau Av. Padre Tomás, S.J., Taipa, Macao S.A.R., China Khác
[6] The Role of Web Content Mining and Web Usage Mining in Improving SearchResult Delivery, Department of Computer Science and Engineering, H.V.P.M’s College of Engg. & Tech, Amravati University, India Khác

HÌNH ẢNH LIÊN QUAN

WEBSITE TRANG TIN VỀ TÌNH HÌNH DỊCH BỆNH - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
WEBSITE TRANG TIN VỀ TÌNH HÌNH DỊCH BỆNH (Trang 3)
Quy trình khám phá tri thức được biểu diễn qua hình vẽ dưới đây: - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
uy trình khám phá tri thức được biểu diễn qua hình vẽ dưới đây: (Trang 14)
ứng. Mục tiêu cho việc học tập không giám sát làmô hình hóa cấu trúc cơ bản hoặc phân phối trong dữ liệu để tìm hiểu thêm về dữ liệu - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
ng. Mục tiêu cho việc học tập không giám sát làmô hình hóa cấu trúc cơ bản hoặc phân phối trong dữ liệu để tìm hiểu thêm về dữ liệu (Trang 15)
Hình 1.3: Cấu trúc của web mining - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 1.3 Cấu trúc của web mining (Trang 21)
Có thể khái quát các kiểu dữ liệu web qua hình dưới đây. - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
th ể khái quát các kiểu dữ liệu web qua hình dưới đây (Trang 23)
Hình 1.5: Quy trình khai phá văn bản - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 1.5 Quy trình khai phá văn bản (Trang 25)
Hình 2.1: Thống kê về sự tin tưởng vào thông tintrong nước vềCOVID-19 - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 2.1 Thống kê về sự tin tưởng vào thông tintrong nước vềCOVID-19 (Trang 37)
Hình 2.3: Tờ khaiy tế Online - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 2.3 Tờ khaiy tế Online (Trang 39)
Hình 2.2: Trang tin về tình hình dịch bệnh viêmđường hô hấpCOVID-19của bộ y tế - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 2.2 Trang tin về tình hình dịch bệnh viêmđường hô hấpCOVID-19của bộ y tế (Trang 39)
Hình 2.6: Fanpage Thông tin Chính phủ - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 2.6 Fanpage Thông tin Chính phủ (Trang 40)
điện thoại theo dõi tình hình, khai báo thông tin hay tìm kiếm nguồn gốc lây lan một cách - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
i ện thoại theo dõi tình hình, khai báo thông tin hay tìm kiếm nguồn gốc lây lan một cách (Trang 44)
Hình 2.8: Trang tin của WHO - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 2.8 Trang tin của WHO (Trang 45)
sắc nhẹ nhàng, hơi rối mắt vì nhiều bảng biểu. - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
s ắc nhẹ nhàng, hơi rối mắt vì nhiều bảng biểu (Trang 46)
Hình 2.9: Trang tin Thông tin chiếndịch chống COVID của Tokyo Nhật Bản - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 2.9 Trang tin Thông tin chiếndịch chống COVID của Tokyo Nhật Bản (Trang 46)
Hình 3.1: Quá trình phát hiện và trích chọn thông tin về tình hình dịch bệnh COVID19 - Ứng dụng khai phá dữ liệu web xây dựng website trang tin về tình hình dịch bệnh viêm đường hô hấp cấp covid 19,khóa luận tốt nghiệp
Hình 3.1 Quá trình phát hiện và trích chọn thông tin về tình hình dịch bệnh COVID19 (Trang 49)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w