1. Trang chủ
  2. » Tất cả

Đồ án Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh

74 4 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích dữ liệu tuyển sinh cho Trường đại học Giao thông Vận tải TP. Hồ Chí Minh
Tác giả Trần Thị Thu Trang, Tiếu Thị Thanh Ngân, Nguyễn Thanh Trúc, Nguyễn Thị Bích Ngọc
Người hướng dẫn ThS. Đặng Nhân Cách
Trường học Trường Đại học Giao thông Vận tải TP. Hồ Chí Minh
Chuyên ngành Công Nghệ Thông Tin
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2020
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 74
Dung lượng 1,92 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Những dữ liệu này đòi hỏi cần phải có những công cụ, phương pháp có thể khai phá và chuyển đổi dữ liệu thành các thông tin bổ ích, dễ phân loại, dễ sử dụng, từ đó dẫn đến sự ra đời của k

Trang 1

ĐẠI HỌC GIAO THÔNG VẬN TẢI TP HỒ CHÍ MINH

Gi ảng viên hướng dẫn: ThS Đặng Nhân Cách

Sinh viên th ực hiện: Trần Thị Thu Trang – 1751150069 – KM17

Tiếu Thị Thanh Ngân – 1751120034 – CN17A Nguyễn Thanh Trúc – 1751150071 – KM17 Nguyễn Thị Bích Ngọc – 1751150039 – KM17

Ngành: Công Nghệ Thông Tin

Chuyên ngành: Truyền thông và mạng máy tính

Công Nghệ Thông Tin

Khóa: 2017 – 2021

Trang 2

NH ẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

TP Hồ Chí Minh, ngày tháng năm 2020

Gi ảng viên hướng dẫn (Kí và ghi rõ h ọ tên)

Trang 3

NH ẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN

TP H ồ Chí Minh, ngày tháng năm 2020

Gi ảng viên phản biện (Kí và ghi rõ h ọ tên)

Trang 4

M ỤC LỤC

M ỤC LỤC i

DANH M ỤC HÌNH ẢNH iv

DANH M ỤC BẢNG BIỂU viii

DANH M ỤC VIẾT TẮT ix

L ỜI MỞ ĐẦU 1

LỜI CẢM ƠN 4

LỜI CAM ĐOAN 5

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ NGHIÊN CỨU 6

1.1 Cơ sở lý thuyết 6

Khái ni ệm của khai phá dữ liệu 6

Các phương pháp khai phá dữ liệu 6

Quy trình khai phá dữ liệu 6

Lợi ích của khai phá dữ liệu 8

1.2 Ngôn ngữ lập trình Python 8

Khái ni ệm 8

Tính năng 9

T ại sao nên sử dụng Python? 9

1.3 Thư viện Python 10

Thư viện BeautifulSoup4 10

Thư viện Request 11

Thư viện FeedPaser 12

Trang 5

Xử lý ngôn ngữ tự nhiên (Natural Language Processing) 13

Thư viện NLTK 14

1.4 Thu th ập dữ liệu từ Website 14

1.5 Th ế nào là StopWords? 16

Khái ni ệm 16

Cách lo ại bỏ StopWords 16

1.6 Phần mềm Export Comments 17

1.7 Google Colaboratory 18

1.8 WordCloud 19

1.9 Youtube API v3 19

Khái ni ệm 19

Cách th ức hoạt động 20

1.10 Google Analytics 21

Giới thiệu về Analytics 21

Công dụng của Google Analytics 21

Cách thức hoạt động của Google Analytics 22

CHƯƠNG 2: KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU 23

2.1 D ữ liệu Website tuyensinh.ut.edu.vn 23

2.1.1 Khai phá d ữ liệu Website 24

2.1.2 X ử lý dữ liệu 26

2.2 Dữ liệu Youtube 27

2.2.1 Khai phá dữ liệu 28

Trang 6

2.2.2 Xử lý dữ liệu 32

2.3 D ữ liệu Facebook 34

2.3.1 Khai phá d ữ liệu 35

2.3.2 X ử lý dữ liệu 38

CHƯƠNG 3: PHÂN TÍCH DỮ LIỆU 42

3.1 D ữ liệu Website 42

3.2 Dữ liệu Youtube 45

3.3 Dữ liệu Facebook 48

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54

4.1 K ết quả đạt được và hạn chế 54

4 2 Hướng phát triển của đề tài và kiến nghị 55

TÀI LI ỆU THAM KHẢO 56

PH Ụ LỤC 58

Trang 7

DANH M ỤC HÌNH ẢNH

Hình 1.1 Làm th ế nào để xử lý dữ liệu? 7

Hình 1.2 Quy trình khai phá tri th ức KDD 7

Hình 1.3 Python 8

Hình 1.4 S ử dụng BeautifulSoup4 11

Hình 1.5 Kết quả của BeautifulSoup4 11

Hình 1.6 Code sử dụng feedparser 13

Hình 1.7 K ết quả của feedparser 13

Hình 1.8 Ví d ụ Stopwords 16

Hình 1.9 StopWords theo t ần suất 17

Hình 1.10 Ph ần mềm Export Comments 17

Hình 1.11 Google Colaboratory 18

Hình 1.12 WordCloud theo word list 19

Hình 1.13 Youtube API v3 20

Hình 1.14 Google Analytics 21

Hình 2.1 Giao di ện Website 23

Hình 2.2 Giao di ện Website (2) 24

Hình 2.3 Form liên h ệ 24

Hình 2.4 File content987.txt 25

Hình 2.5 File content10.txt 25

Hình 2.6 File locweb.txt 25

Trang 8

Hình 2.7 Kết nối Google Drive 26

Hình 2.8 L ấy dữ liệu từ file 26

Hình 2.9 X ử lý Stopwords 26

Hình 2.10 Wordcloud d ữ liệu Website (1) 27

Hình 2.11 Wordcloud d ữ liệu Website (2) 27

Hình 2.12 L ấy Key API Youtube (1) 28

Hình 2.13 Lấy Key API Youtube (2) 28

Hình 2.14 Lấy Key API Youtube (3) 29

Hình 2.15 Lấy Key API Youtube (4) 29

Hình 2.16 L ấy Key API Youtube (5) 29

Hình 2.17 L ấy Key API Youtube (6) 30

Hình 2.18 L ấy Key API Youtube (7) 30

Hình 2.19 File json youtube_credentials.json 30

Hình 2.20 File youtube_credentials.py.ipynb 30

Hình 2.21 Cài đặt thư viện và liên kết với Drive 31

Hình 2.22 Tạo đối tượng liên kết với API 31

Hình 2.23 Import file 31

Hình 2.24 L ấy comments từ Youtube 32

Hình 2.25 L ấy ID video Youtube 32

Hình 2.26 L ấy dữ liệu từ comments Youtube 33

Hình 2.27 Lấy comments từ Youtube 33

Hình 2.28 File chuanhoa_youtube.txt 33

Trang 9

Hình 2.29 Wordcloud comment từ Youtube 34

Hình 2.30 Giao di ện trang Tuyển sinh Facebook 34

Hình 2.31 T ổng hợp bài viết 35

Hình 2.32 Ph ần mềm Export Comments 35

Hình 2.33 D ữ liệu comments Facebook 36

Hình 2.34 K ết nối Google Drive 36

Hình 2.35 Tách comments 36

Hình 2.36 File content789.txt 36

Hình 2.37 File content10.txt 37

Hình 2.38 File locfb.txt 37

Hình 2.39 File truocchuanhoa.txt 37

Hình 2.40 File sauchuanhoa.txt 38

Hình 2.41 K ết nối Google Drive 38

Hình 2.42 Lấy dữ liệu từ Google Drive 38

Hình 2.43 Loại bỏ URL 39

Hình 2.44 Loại bỏ biểu tượng cảm xúc 39

Hình 2.45 Chu ẩn hóa từ 39

Hình 2.46 Chu ẩn hóa từ 40

Hình 2.47 V ẽ Wordcloud 40

Hình 2.48 Wordcloud d ữ liệu Facebook (1) 41

Hình 2.49 Wordcloud dữ liệu Facebook (2) 41

Hình 3.1 Wordcloud dữ liệu Website (1) 42

Trang 10

Hình 3.2 Wordcloud dữ liệu Website (2) 42

Hình 3.3 Keyword Website tháng 7,8,9 43

Hình 3.4 Keywords Website tháng 10 43

Hình 3.5 Bi ểu đồ dữ liệu thu được 44

Hình 3.6 D ữ liệu thống kê từ Google Analytics 45

Hình 3.7 S ố người truy cập theo độ tuổi 45

Hình 3.9 Wordcloud dữ liệu Facebook (1) 48

Hình 3.10 Wordcloud dữ liệu Facebook (2) 48

Hình 3.11 Keywords Facebook tháng 7,8,9 49

Hình 3.12 Keywords Facebook tháng 10 49

Hình 3.13 S ố người tiếp cận bài viết từ 1/7-30/9 50

Hình 3.14 S ố người tiếp cận bài viết từ 1/10-30/10 50

Hình 3.15 S ố lượt tương tác từ 1/7-30/9 51

Hình 3.16 Số lượt tương tác từ 2/10-7/10 51

Hình 3.17 Biểu đồ thể hiện tổng lượt truy cập theo tỉnh thành 52

Hình 3.18 Biểu đồ thể hiện lượt truy cập theo giới tính và độ tuổi 53

Trang 11

DANH M ỤC BẢNG BIỂU

Trang 12

DANH M ỤC VIẾT TẮT

API Application Programming Interface Giao diện lập trình ứng dụngAPT Advanced persistent threat Tấn công có chủ đích

CMS Content Management System Hệ quản trị nội dung

CPU Central Processing Unit Bộ xử lý trung tâm

GPU Graphics Processing Unit Bộ xử lý đồ họa

HTML Hypertext Markup Language Ngôn ngữ lập trình

HTTP Hypertext Transfer Protocol Giao thức truyền tải siêu văn

RDF Resource Description Framework Khung phần mềm mô tả tài

nguyên

REST REpresentational State Transfer Kiến trúc chuyển trạng thái

đại diệnRSS Really Simple Syndication Dịch vụ cung cấp tin tức đơn

giản

Trang 13

SSL Secure Sockets Layer Lớp ổ cắm mạng bảo mật

TPU Tensor processing unit Bộ xử lý Tensor

URL Uniform Resource Locator Tham chiếu tài nguyên mạngXML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng

XML-RPC Remote Procedure Call XML

Mã hóa và trao đổi dữ liệu

bằng ngôn ngữ đánh dấu mở

rộng

Trang 14

L ỜI MỞ ĐẦU

Chúng ta đang sống trongthời đại 4.0, mạng xã hội đang phát triển với tốc độ nhanh chóng kèm theo là những tác động tích cực và tiêu cực đến nhiều lĩnh vực: giáo dục, chính trị, đời sống, giải trí,… Theo đó thông tin được chia sẻ rộng rãi đến mọi người qua nhiều khía cạnh cũng như các mục đích khác nhau Có thể nói mạng xã hội có vai trò nhất định và dần trở thành công cụ giúp ích cho các mục tiêu cá nhân và mục tiêu xã hội

của con người

Cùng với sự phát triển đáng kinh ngạc là sự bùng nổ dữ liệu, các giao dịch mua bán, hồ sơ giao dịch chứng khoán, mô tả sản phẩm, hồ sơ công ty, hồ sơ nhân sự, … được tạo ra ngày một nhiều bởi các doanh nghiệp lớn nhỏ trên toàn thế giới Những dữ liệu này đòi hỏi cần phải có những công cụ, phương pháp có thể khai phá và chuyển đổi

dữ liệu thành các thông tin bổ ích, dễ phân loại, dễ sử dụng, từ đó dẫn đến sự ra đời của khai phá dữ liệu

Nhiều vấn đề được đưa vào khai phá và phân tích dữ liệu như: doanh thu kinh tế, vấn đề tình hình chính trị, bệnh dịch, Website, mạng xã hội, thị trường mỹ phẩm, Bên cạnh đó phân tích dữ liệu tuyển sinh cũng là một vấn đề quan trọng giúp cho công tác tuyển sinh của các trường đại học thành công

Lý do ch ọn đề tài:

Ngày nay nhiều trường đại học đang gặp nhiều khó khăn trong việc tư vấn tuyển sinh cho học sinh các trường THPT đã có nhiều phương pháp được đề xuất để tư vấn ngành nghề cho phù hợp với năng lực, sở thích của học sinh

Nhiều năm thực hiện tư vấn tuyển sinh, nhà trường chưa tận dụng được kho dữ

liệu, … để phân tích về xu hướng, về đặc trưng vùng miền, về tuổi tác, giới tính, … qua

đó chúng em thấy dữ liệu này hữu ích cần được nghiên cứu để tìm ra giá trị giúp cho tư vấn tuyển sinh

Trang 15

Hiểu được tầm quan trọng của vấn đề này, chúng em quyết định chọn đề tài “Phân tích dữ liệu tuyển sinh cho Trường Đại học Giao thông vận tải TP Hồ Chí Minh” nhằm khai phá và phân tích dữ liệu có nội dung liên quan đến tuyển sinh năm 2020

M ục đích nghiên cứu:

Thông qua các trang mạng xã hội lớn như: Facebook, Youtube và Website tuyển sinh trường Đại học Giao thông vận tải TP Hồ Chí Minh Chúng em sẽ tiến hành lấy các thông tin liên quan đến tuyển sinh sau đó thực hiện xử lý và phân tích dữ liệu Từ đó tiến hành phân tích dữ liệu tuyển sinh củaTrường Đại học Giao thông vận tải TP Hồ Chí Minh, dùng các phương pháp phân tích dữ liệu để đưa ra kết quả cụ thể

Nhi ệm vụ nghiên cứu:

• Tìm hiểu về các khái niệm, phương pháp, quy trình khai phá dữ liệu

• Sử dụng các công cụ và kỹ thuật để xử lý dữ liệu

• Dùng ngôn ngữ Python để thực hiện khai phá và xử lý dữ liệu

• Xây dựng tập keywords chứa nội dung liên quan đến vấn đề tuyển sinh

• Thực hiện phân tích và vẽ Wordcloud để thể hiện dữ liệu thu được

• Xây dựng biểu đồ thống kê dữ liệu tuyển sinh

• Đưa ra các kiến nghị cho việc tuyển sinh Trường Đại học Giao thông vận tải TP

Hồ Chí Minh trong năm học 2021-2022 sắp tới

Đối tượng nghiên cứu và phạm vi nghiên cứu:

Đối tượng nghiên cứu: người dùng mạng xã hội có nhu cầu tìm hiểu về vấn đề tuyển sinh tại trường

Phạm vi nghiên cứu: Dữ liệu thu thập từ Fanpage Facebook, Website và kênh Youtube tuyển sinh của Trường Đại học Giao Thông Vận Tải TP Hồ Chí Minh

Phạm vi thời gian: 01/07/2020 đến 30/10/2020

Trang 16

K ết quả nghiên cứu:

Đề tài cung cấp kết quả đánh giá bao quát và khách quan nhất có thể liên quan đến vấn đề tuyển sinh của Trường Đại học Giao thông vận tải TP Hồ Chí Minh từ những tập keywords được phân tích và xử lý

B ố cục đề tài:

Chương 1: Cơ sở lý thuyết và công nghệ

• Các khái niệm và lý thuyết có liên quan

• Ngôn ngữ lập trình Python và thư viện

• Các công cụ có sẵn nhằm khai phá dữ liệu

Chương 2: Khai phá và xử lý dữ liệu

• Khai phá dữ liệu và xử lý dữ liệu

Chương 3: Phân tích dữ liệu

• Phân tích dữ liệu tuyển sinh của Trường Đại học Giao thông vận tải TP Hồ Chí Minh năm 2020

Chương 4: Kết luận và hướng phát triển

• Những kết quả đạt được và hạn chế trong nghiên cứu

• Hướng phát triển và các kiến nghị

Trang 17

Với vốn kiến thức mà thầy đã truyền đạt, không chỉ giúp chúng em trong quá trình

thực hiện nghiên cứu và báo cáo mà còn phục vụ cho công việc tương lai của chúng em Chúng em xin cảm ơn các thầy cô giáo trong Trường Đại học Giao thông vận tải

TP Hồ Chí Minh nói chung và trong khoa Công nghệ thông tin nói riêng đã cung cấp chúng em kiến thức, giúp chúng em có cơ sở lý thuyết vững vàng Tạo điều kiện tốt cho chúng em thực hiện được đề tài này

Cuối cùng, chúng em xin chân thành cảm ơn và kính chúc quý thầy cô dồi dào sức khỏe để tiếp tục dẫn dắt thêm nhiều lớp sinh viên tài giỏi

TP Hồ Chí Minh, ngày 2 tháng 12 năm 2020

Nhóm sinh viên thực hiện

Ký tên

Tiếu Thị Thanh Ngân Nguyễn Thị Bích Ngọc Trần Thị Thu Trang Nguyễn Thanh Trúc

Trang 18

L ỜI CAM ĐOAN

Chúng em xin cam đoan đề tài báo cáo cho kì thực tập tốt nghiệp “Phân tích dữ liệu tuyển sinh của Trường Đại học Giao thông vận tải TP Hồ Chí Minh” là một công trình nghiên cứu độc lập, các số liệu và cách thức nghiên cứu trong đề tài báo cáo này là trung thực và chưa được công bố trong bất kì bài nghiên cứu nào

Đề tài là một báo cáo mà chúng em đã nghiên cứu và xây dựng trong quá trình học tập tại trường

Mọi sự giúp đỡ cho việc thực hiện đề tài này đã được cảm ơn và các thông tin được

đề cập có nguồn gốc rõ ràng và được phép công bố Chúng em xin cam đoan nếu có vấn

đề gì thì chúng em sẽ chịu hoàn toàn mọi trách nhiệm về bài làm của mình

Trang 19

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ NGHIÊN CỨU

1.1 Cơ sở lý thuyết

Khái niệm của khai phá dữ liệu

Khai phá dữ liệu hay còn được gọi là Data Mining, là quá trình khai phá và phân tích số lượng lớn dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ, quy luật tìm ẩn, các thông tin có giá trị Data Mining, khai phá và sử dụng các dữ liện để

phục vụ cho báo cáo, các công việc trong tương lai

Các phương pháp khai phá dữ liệu

Phân tích (Classification): Là phương pháp cho phép phân loại các dữ liệu khác nhau theo các lớp khác nhau dựa trên các yếu tố, tính chất tương đồng

Phân tích hồi quy (Regression): Khám phá chức năng học dự đoán, ánh xạ một

mục dữ liệu thành biến dự đoán giá trị thực

Phân tích phân cụm (Clustering): Là việc khám phá các nhóm và các cấu trúc trong dữ liệu để phân vào các Cluster Các đối tượng trong cùng một cụm có các điểm chung, tương đồng nhau

Tổng hợp (Summaziration): Cung cấp phương pháp trình bày ngắn gọn hơn của tập dữ liệu, bao gồm việc trực quan hóa dữ liệu

Mô hình ràng buộc (Depedence Modeling): Là quá trình phân tích các biến dữ liệu, đối tượng nghiên cứu để tìm ra các khả năng kết hợp, luật kết hợp của chúng

Dò tìm biến đổi và độ lệch (Change and Diavation Detection): Phân tích để phát hiện các dữ liệu bất thường, từ đó khám phá ra được những thay đổi quan trọng

Quy trình khai phá dữ liệu

Với số lượng dữ liệu khổng lồ trên toàn cầu, chúng ta phải đưa ra được một giải pháp để có thể xử lý được chúng một cách tối ưu

Trang 20

Hình 1.1 Làm th ế nào để xử lý dữ liệu?

Ở đây chúng ta sẽ thực hiện theo quy trình khai phá tri thức - Knowledge Discovery from Data (KDD)

Hình 1.2 Quy trình khai phá tri thức KDD

Các bước của quy trình khai phá tri thức KDD:

− Làm sạch dữ liệu (Data cleaning)

− Tích hợp dữ liệu (Data integration)

Trang 21

− Chọn lọc dữ liệu (Data selection)

− Biến đổi dữ liệu (Data transformation)

− Khai phá dữ liệu (Data mining)

− Đánh giá mẫu (Pattern evaluation)

− Biểu diễn tri thức (Knowledge presentation)

Lợi ích của khai phá dữ liệu

Theo chức năng, nhiệm vụ chung:

− Phân tích và quản lý thị trường

− Phân tích bên trong công ty và quản lý rủi ro

− Phát hiện và ngăn chặn hành vi phạm tội, lừa đảo

− Ngoài ra Data Mining còn được ứng dụng trong nhiều ngành, lĩnh vực cụ

thể (tài chính ngân hàng, y tế, chăm sóc sức khỏe, viễn thông, sales và marketing)

Ngoài ra còn được ứng dụng trong các lĩnh vực sinh học, bảo mật và phòng

chống tội phạm, giáo dục,…

1.2 Ngôn ngữ lập trình Python

Khái niệm

Hình 1.3 Python

Trang 22

Python là một ngôn ngữ lập trình thông dịch, hướng đối tượng, ngôn ngữ lập trình cấp cao được giải thích với ngữ nghĩa động Python có thiết kế của nó rất thuận tiện cho việc đọc hiểu code, đơn giản và rõ ràng cho người mới bắt đầu lập trình Ngôn ngữ lập trình Python được thiết kế bởi Guido van Rossum và phát hành 1991

Python có cấu trúc dữ liệu cao cấp và mạnh mẽ, cách tiếp cận đơn giản nhưng hiệu quả đối với lập trình hướng đối tượng Với ưu điểm dễ học, dễ đọc, dễ nhớ làm cho nó trở thành một ngôn ngữ lý tưởng để viết script và phát triển ứng dụng trong nhiều lĩnh vực, ở hầu hết các nền tảng

Tính năng

Một số tính năng của Python:

− Ngôn ngữ lập trình đơn giản, dễ học

− Miễn phí, mã nguồn mở

− Khả năng di chuyển

− Khả năng mở rộng và có thể nhúng

− Ngôn ngữ thông dịch cao cấp

− Thư viện tiêu chuẩn lớn để giải quyết những tác vụ phổ biến

− Hướng đối tượng

Tại sao nên sử dụng Python?

Sở hữu cú pháp đơn giản

Yêu cầu về các biến không quá khắt khe

Có thể viết code ít hơn

Cộng đồng người sử dụng lớn và hỗ trợ nhau tốt

Python được ứng dụng trong nhiều lĩnh vực:

− Lập trình ứng dụng Website Ngôn ngữ tốt để dạy lập trình

− Khoa học và tính toán

− Tạo nguyên mẫu phần mềm

Trang 23

1.3 Thư viện Python

Thư viện BeautifulSoup4

BeautifulSoup4 là một thư viện giúp chúng ta dễ dàng lấy thông tin từ các Website BeautifulSoup4 cung cấp một vài phương thức đơn giản và thành ngữ Python

để điều hướng, tìm kiếm và sửa đổi cây phân tích cú pháp

BeautifulSoup4 là một bộ thư viện hỗ trợ thực hiện việc crawling một cách đơn giản và screen-scraping hiệu quả nhanh chóng

Cài đặt BeautifulSoup4 (phiên bản 4.9.2) bằng “!pip install beautifulsoup4” Ngoài ra, chúng ta có thể thực hiện theo 4 cách là thông qua APT, PIP,

− Qua APT: “sudo apt-get install python-bs4”

− Qua PIP: “sudo pip install beautifulsoup4”

− Qua EasyInstall: “sudo easy_install beautifulsoup4”

− Qua source:

• Vào trang download của Beautiful Soup rồi download phiên bản mà bạn

muốn sử dụng

• Giải nén source bằng lệnh: “tar -vfx <Path to BeautifulSoup tar file>”

• Thay đổi thư mục hiện thời bằng lệnh: “cd <Path to BeautifulSoup source folder>/”

• Cài đặt: “python setup.py install”

Đoạn code dưới đây thực hiện tìm kiếm và in ra các link có tại Website tuyển sinh của Trường Đại học Giao thông vận tải TP Hồ Chí Minh

Trang 24

Hình 1.4 S ử dụng BeautifulSoup4

Thư viện Request

Là một trong những thư viện Python phổ biến nhất hiện nay Thư viện Request được sử dụng để làm cho các tác vụ HTTP trở nên đơn giản và thân thiện hơn với con người

Đây là một thư viện dễ sử dụng với nhiều tính năng khác nhau, từ việc truyền các tham số trong URL cho đến gửi các header tùy biến và xác minh SSL

Cách cài đặt:

− Mặc định thì thư viện này không được install kèm python nên muốn dùng thì cần phải tải nó Để install nó thì chỉ cần chạy lệnh “!pip install requests”

− Để kiểm tra đã thành công hay chưa thì chỉ cần import module request vào

với câu lệnh “import requests”

Trang 25

Thư viện FeedPaser

Feedparser là một thư viện Python phân tích các nguồn cấp dữ liệu, bao gồm: Atom, RSS, and RDF

Sử dụng Feedparser là một lựa chọn tốt hơn so với việc rolling bằng minidom

hoặc BeautifulSoup Feedparser hỗ trợ tự động chuyển hướng theo HTTP, và làm sạch HTML Ngoài ra có hỗ trợ cho các nguồn cấp dữ liệu xác thực và cho proxy HTTP Cách cài đặt: Phương pháp tốt nhất để cài đặt FeedParser (hoặc gần như bất kỳ gói Python nào) là sử dụng pip, trình quản lý gói của Python

− Mở dòng lệnh: Bạn có thể làm điều này bằng cách nhấp vào Start, sau đó nhập cmd vào run textbox Hoặc tạo một dòng lệnh mới ngay trên cửa sổ

phần mềm Python của bạn

− Đảm bảo kết nối Internet của bạn ở trạng thái hoạt động

− Nhập vào “!pip install feedparser” và nhấn enter (và đợi pip tải xuống và cài đặt FeedParser)

− Nếu cố gắng sử dụng pip không thành công vì một số lý do, hãy thử:

• Nhập vào C:\Python34\Scripts\pip install feedparser (hoặc bất cứ nơi nào bạn đã cài đặt Python)

• Đóng dòng lệnh và mở lại trong chế độ quản trị viên (nhấp vào Start, nhập 'cmd', nhấp chuột phải, chọn "Run as Administrator"), nếu nó không thành công do lỗi cấp phép

Dưới đây là ví dụ cho việc sử dụng Feedparser để trích xuất dữ liệu từ nguồn cấp RSS hoặc Atom Trích xuất dữ liệu từ Website tuyển sinh của Trường Đại học Giao thông vận tải TP Hồ Chí Minh

Trang 26

Hình 1.6 Code s ử dụng feedparser

Xử lý ngôn ngữ tự nhiên (Natural Language Processing)

Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp

NLP bao gồm các kỹ thuật, phương pháp thao tác trên ngôn ngữ tự nhiên bằng máy tính Trong NLP có 2 quan điểm cơ bản:

− Thực hiện xử lý các từ ngữ bằng máy tính

− Làm sao cho máy tính hiểu được các ngôn ngữ

NLP được ứng dụng trong nhiều lĩnh vực từ việc chế tạo các hệ thống máy dịch,

xử lý văn bản và ngôn ngữ, tìm kiếm thông tin, tóm tắt và phân loại văn bản Hay đặc

biệt hơn chính là Data Mining và Web Mining

Trang 27

Thư viện NLTK

Thư viện NLTK (Natural Language Toolkit - Bộ công cụ ngôn ngữ tự nhiên) là nền tảng hàng đầu trong việc xây dựng các chương trình Python nhằm làm việc với ngôn ngữ loài người

NLTK khiến cho lập trình trở nên dễ dàng hơn với việc cung cấp hơn 50 tài nguyên từ vựng, cùng với một bộ thư viện để xử lý văn bản nhằm phân loại, mã hóa, gắn thẻ, phân tích cú pháp và lập luận ngữ nghĩa Và đặc biệt hơn là có một diễn đàn

thảo luận tích cực

Được mệnh danh là một công cụ tuyệt vời cho việc giảng dạy và làm việc, ngôn ngữ học tính toán sử dụng Python

Một vài tính năng có thể làm với NLTK:

− Tokenize and tag some text

− Identify named entities

− Display a parse tree

Có thể cài đặt NLTK đơn giản bằng cách:

Để install chỉ cần chạy lệnh “!pip install nltk”

Sau đó dùng lệnh “import nltk” để kiểm tra xem nltk đã được cài đặt hay chưa

1.4 Thu thập dữ liệu từ Website

Website là một tập hợp các trang thông tin (gồm nhiều Webpage) có chứa nội dung dạng văn bản, chữ số, âm thanh, hình ảnh, video được lưu trữ trên máy chủ (Web Server) và có thể truy cập từ xa thông qua mạng Internet

Một Website là tập tin HTML hoặc XHTML có thể truy cập bằng giao thức HTTP hoặc HTTPS Website có thể được xây dựng bằng nhiều ngôn ngữ lập trình khác nhau (PHP, NET, Java, Ruby on Rails )

Hiện nay, để một Website có thể vận hành trên môi trường Worldwide, cần bắt buộc có 3 phần chính:

− Tên miền (là tên riêng và duy nhất của Website)

Trang 28

− Hosting (là các máy chủ chứa các tệp tin nguồn)

− Source code (là các tệp tin html, xhtml hoặc một bộ code/cms)

Website được tương tác và hiển thị đến với người dùng thông qua các phần mềm

gọi là "Trình duyệt Website" Website được tạo nên bởi các nhà thiết kế Website (Website Developer)

Dữ liệu Website là các thông tin mật và ảnh hưởng trực tiếp đến hoạt động kinh doanh của doanh nghiệp, … và các dữ liệu này không cố định mà thay đổi, cập nhật thường xuyên dựa vào các tác vụ của người dùng hay lưu lượng bán hàng trong năm Thu thập dữ liệu Website là quy trình được thực hiện trước khi tiến hành đi đến phân tích dữ liệu Website, bởi vì phải có dữ liệu thì mới có cái để phân tích Dữ liệu Website sau khi được thu thập chưa qua xử lý gọi là Raw data, loại dữ liệu này vẫn đang chứa rất nhiều thông tin nhiễu, thông tin không cần thiết

Phân tích dữ liệu Website là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý nghĩa trong dữ liệu Đặc biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại, phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên cứu hoạt động để định lượng hiệu suất

Các tổ chức có thể áp dụng phân tích dữ liệu kinh doanh để mô tả, dự đoán và cải thiện hiệu suất kinh doanh

Ứng dụng của phân tích dữ liệu:

− Tối ưu hóa Marketing

− Phân tích dữ liệu con người

− Phân tích dữ liệu danh mục

− Phân tích dữ liệu rủi ro

− Phân tích dữ liệu kỹ thuật số

− Phân tích dữ liệu an ninh

Trang 29

Có rất nhiều cách đề loại bỏ StopWords nhưng có hai cách chính là:

Dùng từ điển: Đây là cách đơn giản nhất, chúng ta tiến hành filter văn bản, loại

bỏ những từ xuất hiện trong từ điển StopWords

Ví dụ: List StopWords: “cậu; của; cứ; dù; này; nọ; kia; để;….”

Trang 30

Hình 1.9 StopWords theo tần suất

Trang 31

Bên cạnh đó, Export Comments cũng có một số hạn chế như: Mỗi post chỉ lấy được

tối đa 60-100 comments, muốn lấy thêm phải tốn phí, đôi khi 10-30% comments là từ người dụng cá nhân mang tính riêng tư và sẽ không được xuất Điều này đã gây ảnh hưởng đến tính khách quan trong quá trình phân tích và đánh giá dữ liệu

1.7 Google Colaboratory

Google Colaboratory viết tắt là Google Colab, là một sản phẩm của Google Research, cho phép người dùng viết và chạy các dòng code Python thông qua trình duyệt, đặc biệt phù hợp với Data Analytics, Machine Learning và giáo dục Về mặt kỹ thuật, Colab không yêu cầu cài đặt hay cấu hình máy tính để sử dụng, mọi thứ có thể chạy thông qua trình duyệt, chúng ta có thể sử dụng tài nguyên máy tính từ CPU tốc độ cao

và cả GPU(Tesla k8o) và TPUs(TPUv2) đều được cung cấp

Các thao tác thực hiện trên Google Colab khá dễ dàng Do được phát triển trên Jupyter Notebook nên việc sử dụng Google Colab cũng tương tự như khi sử dụng Jupyter Notebook (file tạo ra trong Google Colab cũng có đuôi ipynb như trong Jupyter Notebook)

Google Colab là một công cụ sử dụng miễn phí, là một công cụ lý tưởng để rèn luyện kỹ năng lập trình Python thông qua các thư viện của Deep Learning Google Colab cài đặt sẵn những thư viện rất phổ biến trong nghiên cứu Deep Learning như Pytorch, TensorFlow, Keras và OpenCV

Hình 1.11 Google Colaboratory

Trang 32

1.8 WordCloud

WordCloud là một hình ảnh được tạo thành từ các từ với nhau giống như một hình dạng đám mây Kích thước của một từ cho thấy tầm quan trọng của nó, ví dụ tần suất nó xuất hiện trong một văn bản

Mọi người thường sử dụng các WordCloud để dễ dàng tạo ra một bản tóm tắt của các tài liệu lớn (báo cáo, bài phát biểu), trực quan hóa dữ liệu (bảng, khảo sát) Trong quá trình thực hiện đề tài nhóm đã dùng WordCloud để xử lý những keywords được lọc

Hình 1.12 WordCloud theo word list

1.9 Youtube API v3

Khái niệm

Giao diện lập trình ứng dụng YouTube (YouTube Application Programming Interface hay API YouTube) cho phép các nhà phát triển truy cập số liệu thống kê video và dữ liệu kênh YouTube thông qua hai loại cuộc gọi: REST và XML-RPC

Trang 33

Google mô tả Tài nguyên API của YouTube là "API và Công cụ cho phép bạn mang

trải nghiệm YouTube đến trang Website, ứng dụng hoặc thiết bị của bạn”

Hình 1.13 Youtube API v3

Cách thức hoạt động

Youtube API v3 là API cung cấp quyền truy cập vào dữ liệu YouTube, chẳng hạn như video, danh sách phát và kênh Chúng ta có thể sử dụng API để tìm kết quả tìm kiếm và truy xuất, chèn, cập nhật và xóa các tài nguyên như video hoặc danh sách phát, trích xuất thông tin về video như số lượt like, lượt comment, nội dung comment, lượng like comment

Để sử dụng API của YouTube, người dùng phải có ID - đây là một thuộc tính

bổ sung được đính kèm với tài khoản YouTube của chính người dùng

Thông tin có sẵn cho các nhà phát triển tương tự như thông tin có thể có được

bằng cách truy cập nhiều nguồn cấp RSS của YouTube Vì sự tích hợp của Google và YouTube, có thể đăng nhập vào YouTube bằng tài khoản Google hiện có

Nhóm có thực hiện hướng dẫn đăng ký đầy đủ phục vụ cho việc khai phá dữ liệu

tại Youtube

Trang 34

1.10 Google Analytics

Giới thiệu về Analytics

Công cụ phân tích là một công cụ tập trung vào người dùng, linh hoạt, nhanh chóng và miễn phí dành cho khách hàng của Google Analytics Công cụ này giúp bạn khám phá, tìm hiểu, so sánh và hành động đối với các đối tượng của mình

Hình 1.14 Google Analytics

Công dụng của Google Analytics

Công cụ phân tích cho phép bạn đào sâu vào dữ liệu Google Analytics để có thông tin chi tiết và biến các thông tin đó thành hành động Bạn có thể tìm nạp dữ liệu

từ Google Ads

Công cụ phân tích cho phép bạn dễ dàng xác định cấu hình và chuyển đổi giữa một số kỹ thuật phân tích Bạn có thể xem chi tiết, sắp xếp và tái cấu trúc dữ liệu, thêm và xóa các thứ nguyên cũng như chỉ số một cách nhanh chóng và dễ dàng Hãy

sử dụng các bộ lọc và phân khúc để tập trung vào dữ liệu phù hợp nhất với bạn Sau khi đã khám phá các tập dữ liệu thú vị, bạn có thể xuất các tập dữ liệu đó dưới dạng phân khúc hoặc đối tượng của Google Analytics Bạn có thể chia sẻ bản phân tích của mình với các bên liên quan trong toàn tổ chức và cho bên ngoài Bạn cũng có thể xuất dữ liệu để sử dụng trong các công cụ khác

Trang 35

Cách thức hoạt động của Google Analytics

Công cụ phân tích nhóm các công việc đã lưu của bạn trong Trung tâm phân tích Trung tâm phân tích giúp bạn dễ dàng tìm thấy tất cả các bản phân tích mà bạn

đã tạo hoặc đã chia sẻ với bạn

Một bản phân tích bao gồm một hoặc nhiều tab, mỗi tab có thể hiển thị dữ liệu của bạn bằng cách sử dụng kỹ thuật phân tích cụ thể

Kỹ thuật chi phối các hệ thống phân tích dữ liệu trong tab Các kỹ thuật này cung

cấp chức năng nâng cao so với các kỹ thuật tương tự có trong Google Analytics chuẩn Google Analytics hiện hỗ trợ các kỹ thuật sau:

− Khám phá trình bày dữ liệu của bạn theo bố cục bảng chéo quen thuộc

Bạn cũng có thể áp dụng nhiều kiểu trực quan trong kỹ thuật khám phá, bao gồm cả biểu đồ cột, biểu đồ hình tròn, biểu đồ dạng đường, biểu đồ phân tán và bản đồ địa lý

− Kỹ thuật phân tích phễu hình ảnh hóa hành trình của người dùng thông qua trang Website hoặc ứng dụng của bạn Hãy sử dụng các phễu để tối ưu hóa trải nghiệm người dùng và xác định các đối tượng hoạt động tốt hoặc đối tượng hoạt động kém

− Chồng chéo phân khúc sử dụng biểu đồ Venn để cho thấy mức độ liên quan giữa các phân khúc người dùng Hãy sử dụng kỹ thuật này để xác định các phân khúc người dùng mới đáp ứng các tiêu chí phức tạp

− Kỹ thuật khám phá người dùng cho bạn biết những người dùng hình thành các phân khúc mà bạn tạo hoặc nhập Bạn cũng có thể tìm hiểu chi tiết về

hoạt động của từng người dùng

− Kỹ thuật phân tích đường dẫn hiển thị hành trình của người dùng trong biểu đồ cây Hãy sử dụng phân tích đường dẫn để khám phá cách người dùng tương tác với trang Website và ứng dụng của bạn

Trang 36

CHƯƠNG 2: KHAI PHÁ VÀ XỬ LÝ DỮ LIỆU

Để có dữ liệu phục vụ cho việc phân tích, ở chương 2 chúng em sẽ tiến hành khai phá và xử lý dữ liệu từ trang Webisite Tuyển sinh – Trường Đại học Giao thông vận tải

TP Hồ Chí Minh, Fanpage Facebook Tuyển sinh đại học Giao thông vận tải TP Hồ Chí Minh và kênh Youtube TRƯỜNG ĐH GIAO THÔNG VẬN TẢI TP HỒ CHÍ MINH

2.1 D ữ liệu Website tuyensinh.ut.edu.vn

Website Tuyển sinh – Trường Đại học Giao thông vận tải TP Hồ Chí Minh với địa chỉ tuyensinh.ut.edu.vn nơi chứa thông tin về các ngành đào tạo, cập nhật các thông tin công khai, thông báo về chương trình đào tạo, kết quả tuyển sinh hằng năm nhằm mang đến nguồn thông tin giúp cho mọi người có thể tìm hiểu về trường cũng như các ngành đào tạo

Trang 37

2.1.1 Khai phá d ữ liệu Website

Bước 1: Tiến hành thu thập dữ liệu

Website là một trang tin tức có form liên hệ là cầu nối giúp cho mọi người liên

hệ với các quản trị viên Website

Chúng em tiến hành thu thập các liên hệ của mọi người thông qua form liên hệ

và tổng hợp trên file txt

Ngày đăng: 19/03/2023, 05:48

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w