1. Trang chủ
  2. » Giáo Dục - Đào Tạo

báo cáo chuyên đề lập TRÌNH ỨNG DỤNG DEMO

17 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 1,47 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Cài đặt NetBeans Đầu tiên, thực hiện tải NetBeans từ đường liên kết sau xem hình 1: https://netbeans.org/downloads/ Hình 1: Giao diện tải NetBean Nếu hệ thống chưa được cài đặt JDK, tả

Trang 1

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA

VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ

Mã số:

Tên báo cáo chuyên đề:

LẬP TRÌNH ỨNG DỤNG DEMO

Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm

Người chủ trì thực hiện chuyên đề: ThS Võ Thị Hồng Thắm

Bình Dương, 06/2019

Trang 2

1 LẤY DỮ LIỆU TỪ TRANG WEB

Phần này trình bày cách cài đặt mô-đun thu thập dữ liệu

a Cài đặt NetBeans

Đầu tiên, thực hiện tải NetBeans từ đường liên kết sau (xem hình 1):

https://netbeans.org/downloads/

Hình 1: Giao diện tải NetBean

Nếu hệ thống chưa được cài đặt JDK, tải và cài JDK trước theo đường liên kết sau (xem hình 2):

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Trang 3

Hình 2: giao diện tải JDK

Chọn một trong 2 để cài vào hệ thống

b Vận hành mô – đun crawler

Cấu hình các đường dẫn liên kết đến các trang web cần thu thập dữ liệu trong fiel config.txt Hệ thống sẽ tự động tải dữ liệu khi được kích hoạt Dữ liệu được lưu trữ theo cấu trúc đã được thiết kế

Hình 3 trình bày đoạn mã vận hành mô – đun crawler

Trang 4

Hình 3: Vận hành mô – đun crawler

2 XỬ LÝ DỮ LIỆU

Phần này trình bày cách cài đặt Apache Spark trên window 10

a Cài đặt Scala 2.10.5

Tải Scala từ https://scala-lang.org/download/2.10.5.html (xem hình 4) Giải nén và lưu vào ổ đĩa D:\Scala

Hình 4: Giao diện tải Scala Thiết lập các biến môi trường:

Trang 5

o Variable name: SCALA_HOME:

o Variable value: D:\Scala

Thiết lập các biến hệ thống:

o Variable: Path

o Value: %SCALA_HOME%\bin

b Cài đặt Java 8

Tải Java 8 theo đường dẫn

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

Thiết lập các biến môi trường:

Biến người dùng:

o Variable name: JAVA_HOME

o Variable value: C:\Program Files\Java\jdk1.8.0_131

Biến người dùng

o Variable: Path

o Value: %JAVA_HOME%\bin

c Cài đặt Spark 1.6.3

Tải Apache Spark từ đường dẫn http://spark.apache.org/downloads.html

(xem hình 5)

Giải nén và lưu trữ vào D:\Server\spark

Trang 6

Hình 5: Giao diện tải Spark

Thiết lập các biến môi trường:

Biến người dùng:

o Variable name: SPARK_HOME

o Variable value: D:\Server\spark

Biến người dùng:

o Variable: Path

o Value: %SPARK_HOME%\bin

d Cài đặt Windows Utilities 2.6.x

Tải file winutils.exe từ đường dẫn

https://github.com/steveloughran/winutils/tree/master/hadoop-2.6.4/bin

Lưu file vào D:\Server\hadoop-

winutils\2.6.4\bin

Chọn đường dẫn phù hợp với phiên bản đang dử dụng (Xem hình 6)

Trang 7

Hình 6: Giao diện tải winutils Thiết lập các biến môi trường:

Biến người dùng:

o Variable name: HADOOP_HOME

o Variable value: D:\Server\hadoop-winutils\2.6.4

Biến người dùng:

o Variable: Path

o Value: %HADOOP_HOME%\bin

e Chạy Spark trên command line để kiểm tra kết quả cài đặt (xem

hình 7)

Hình 7: Kiểm tra kết quả cài đặt Windows Utilities

f Cài đặt Maven 3.3

Tải Maven from the link:

Trang 8

http://apache.mivzakim.net/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.zip

Giải nén và lưu ở C:\Program Files

Thiết lập các biến môi trường:

Biến người dùng:

o Variable name: MAVEN_HOME

o Variable value: C:\Program Files\apache-maven-3.3.9

Biến người dùng:

o Variable: Path

o Value: %MAVEN_HOME%\bin Thiết lập MAVEN cho IntelliJ IDEA:

Biến người dùng:

o Variable name: M2_HOME

o Variable value: C:\Program Files\apache-maven-3.3.9

Biến người dùng:

o Variable: Path

o Value: %M2_HOME%\bin

g Kiểm tra việc cài đặt Maven và JDK 8 (xem hình 8)

Hình 8: Kiểm tra kết quả cài đặt JDK và Maven

Trang 9

3 ỨNG DỤNG CƠ SỞ DỮ LIỆU ĐỒ THỊ

a Cài đặt Neo4j 3.2

Tải Neo4j từ đường dẫn https://neo4j.com/download/other-releases/ (xem hình 9)

Hình 9: Giao diện tải Neo4j

b Cài đặt apache-tomcat-9.x

Tải Apache Tomcat từ đường dẫn https://tomcat.apache.org/download-90.cgi

Tải tập tin nén: apache-tomcat-9.0.0.M22-windowx64.zip (xem hình 10)

Hình 10: Giao diện tải apache-tomcat

c Install IntelliJ IDEA

Tải từ đường dẫn

https://www.jetbrains.com/idea/download/#section=windows (xem hình 11)

Trang 10

Hình 11: Giao diện tải IntelliJ IDEA

Chọn phiên bản ultimate có hỗ trợ phát triển web

d Tải vis.js

Tải vis.min.js và vis.js.css tại http://visjs.org/

Có thể thêm vào thư viện của project

Thực hiện theo hướng dẫn sau đây

e Import library in libs

Mở File  Project Structure  SDKs tab Sau đó, click vào nút dấu cộng màu xanh lá cây để mở thư viện: ${project_path}/libs

f Import local library in libs sử dụng command line

Có 6 thành phần chính cần thêm vào thư viện (xem hình 12)

Hình 12: Các thành phần cần thêm vào thư viện

Các bước thực hiện:

1 Tải tập tin jar từ trang web

2 Tạo thư mục lưu trữ tập tin vừa tải về

3 Thực thi lệnh sau

Trang 11

mvn install:install-file -Dfile= -DgroupId= -DartifactId= -Dversion= Dpackaging=

Ví dụ: Muốn thêm file jar vào thư mục ${project_dir} của thư viện, chạy

lệnh:

mvn install:install-file

-Dfile=${project_dir}/src/main/resources/libs/commons-math-1.2.jar

-DgroupId=org.apache.commons.math

-DartifactId=commons-math

-Dversion=1.2

-Dpackaging=jar

4 Tiếp theo, trong tập tin pom.xml, thêm đoạn mã sau:

<dependency>

<groupId> org.apache.commons.math </groupId>

<artifactId> commons-math </artifactId>

<version>1.2 </version>

</dependency>

4 KẾT QUẢ TÍNH TOÁN CỦA THUẬT TOÁN TF-IDF

Bảng 1 trình bày kết quả rút trích một số từ khóa dựa vào thuật toán TF-IDF, tính toán theo công thức của thuật toán và so sánh với kết quả chạy chương trình

được lưu vào cơ sở dữ liệu đồ thị

Bảng 1: Kết quả rút trích một số từ khóa dựa vào thuật toán TF-IDF, tính toán thử trên

03 bài báo

Từ rút trích

từ bài báo 1

Số từ

TF

Số tài liệu Log(3/số tài

liệu) TF-IDF

Apple 5 0.172413793 2 0.405465108 0.069907777

thương_hiệu 2 0.068965517 1 1.098612289 0.075766365 đắt_giá 1 0.034482759 1 1.098612289 0.037883182

Trang 12

hành_tinh 1 0.034482759 1 1.098612289 0.037883182

thống_trị 1 0.034482759 1 1.098612289 0.037883182

táo 1 0.034482759 1 1.098612289 0.037883182

khuyết 1 0.034482759 1 1.098612289 0.037883182

sở_hữu 1 0.034482759 1 1.098612289 0.037883182

sát_thủ 1 0.034482759 1 1.098612289 0.037883182

smartphone 1 0.034482759 2 0.405465108 0.013981555

Android 1 0.034482759 1 1.098612289 0.037883182

iPhone 2 0.068965517 3 0 0

thú_nhận 1 0.034482759 1 1.098612289 0.037883182

lỗi 1 0.034482759 2 0.405465108 0.013981555

kết 1 0.034482759 1 1.098612289 0.037883182

nối_mạng 1 0.034482759 1 1.098612289 0.037883182

Apple_Watch 1 0.034482759 1 1.098612289 0.037883182

sản_xuất 1 0.034482759 2 0.405465108 0.013981555

đại_trà 1 0.034482759 1 1.098612289 0.037883182 dữ_liệu 1 0.034482759 1 1.098612289 0.037883182

Face 1 0.034482759 1 1.098612289 0.037883182

ID 1 0.034482759 1 1.098612289 0.037883182

đánh_cắp 1 0.034482759 1 1.098612289 0.037883182

Trang 13

Từ rút

trích từ bài

báo 2

Số từ

TF

Số tài liệu

Log(3/số tài liệu) TF-IDF

iPhone 3 0.073170732 3 0 0

Plus 3 0.073170732 2 0.405465108 0.029668179

đánh_bại 3 0.073170732 1 1.098612289 0.080386265 camera 4 0.097560976 1 1.098612289 0.107181687

smartphone 4 0.097560976 2 0.405465108 0.039557572

Samsung 4 0.097560976 1 1.098612289 0.107181687

trải_nghiệm 2 0.048780488 1 1.098612289 0.053590843

cây_bút 1 0.024390244 1 1.098612289 0.026795422

công_nghệ 2 0.048780488 1 1.098612289 0.053590843

kết_luận 1 0.024390244 1 1.098612289 0.026795422

Trang 14

coi 1 0.024390244 1 1.098612289 0.026795422

vua 1 0.024390244 1 1.098612289 0.026795422

sản_xuất 1 0.024390244 2 0.405465108 0.009889393

ra_mắt 1 0.024390244 1 1.098612289 0.026795422

Galaxy 1 0.024390244 1 1.098612289 0.026795422

S7 1 0.024390244 1 1.098612289 0.026795422

đầu 1 0.024390244 1 1.098612289 0.026795422 người_dùng 1 0.024390244 1 1.098612289 0.026795422 máy 1 0.024390244 1 1.098612289 0.026795422

chuyên_gia 1 0.024390244 1 1.098612289 0.026795422

lên_tiếng 1 0.024390244 1 1.098612289 0.026795422

mẫu 1 0.024390244 1 1.098612289 0.026795422

điện_thoại 1 0.024390244 1 1.098612289 0.026795422 Apple 1 0.024390244 2 0.405465108 0.009889393

Trang 15

Từ rút trích

từ bài báo 3

Số từ

TF

Số tài liệu

Log(3/số tài liệu) TF-IDF

Pin 3 0.15 1 1.098612289 0.164791843

Plus 3 0.15 2 0.405465108 0.060819766

dòng 1 0.05 1 1.098612289 0.054930614

ưu_điểm 1 0.05 1 1.098612289 0.054930614 vượt_trội 1 0.05 1 1.098612289 0.054930614 ai_ngờ 1 0.05 1 1.098612289 0.054930614

hàng 1 0.05 1 1.098612289 0.054930614

tố 1 0.05 1 1.098612289 0.054930614

mắc 1 0.05 1 1.098612289 0.054930614

lỗi 1 0.05 2 0.405465108 0.020273255

Trang 16

đàm_thoại 1 0.05 1 1.098612289 0.054930614

Trang 17

5 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ

Bình Dương, ngày 20 tháng 06 năm 2019

Người chủ trì thực hiện chuyên đề

Võ Thị Hồng Thắm

Ngày đăng: 21/06/2021, 21:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w