1. Trang chủ
  2. » Luận Văn - Báo Cáo

Biểu diễn kết quả theo dõi các chủ đề trên tạp chí điện tử với thuật toán rút trích từ khóa và cơ sở dữ liệu đồ thị, thiết kế giao diện và chức năng phần mềm hỗ trợ người dùng sử dụng thuật toán

8 14 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 8
Dung lượng 743,67 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã s

Trang 1

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA

VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ

Mã số:

Tên báo cáo chuyên đề:

THIẾT KẾ GIAO DIỆN VÀ CHỨC NĂNG PHẦN MỀM

HỖ TRỢ NGƯỜI DÙNG SỬ DỤNG THUẬT TOÁN

Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm

Người chủ trì thực hiện chuyên đề: ThS Võ Thị Hồng Thắm

Bình Dương, 06/2019

Trang 2

1 THIẾT KẾ GIAO DIỆN

Hệ thống được xây dựng gồm các mô-đun: bộ thu thập thông tin, bộ xử lý và bộ hiển thị Ngoài ra, một mô-đun TF-IDF được lập trình bằng ngôn ngữ lập trình Python phục vụ cho việc so sánh các đầu ra của nó với các đầu ra của hệ thống được hiện thực bằng ngôn ngữ lập trình Java Phần 1.1 sau đây mô tả một số kỹ thuật và công cụ được dùng để xây dựng hệ thống Hệ thống bao gồm các chức năng được mô tả trong phần 1.2 Thu thập dữ liệu và kết quả đầu ra được minh họa trong phần 1.3 Cấu trúc lưu trữ

và một số truy vấn cơ sở dữ liệu được làm rõ trong phần 1.4

1.1 Các Framework dùng để lập trình

Để phát triển hệ thống, một số công cụ và thư viện được sử dụng Phần này đề cập ngắn gọn tên và phiên bản của các công cụ này Đó là: Scala 2.10.5, Java 8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x, IntelliJ IDEA và Vis.js Ngoài ra, hệ thống cũng sử dụng VnTokenizer [13] và danh sách từ dừng được tải xuống từ github được bổ sung thêm một số ký tự xuất hiện trong văn bản nhưng không có bất kỳ ý nghĩa nào vào danh sách này (có thể xem danh sách từ dừng ở phần phụ lục của chuyên đề)

1.2 Các tính năng chính

Hình 1 cho thấy hệ thống có 6 hàm cơ bản chính bao gồm: (1) Hiển thị dòng đời của một từ khóa cụ thể; (2) Lấy N từ khóa chính của một bài viết; (3) Hiển thị dòng thời gian của các từ khóa trong một chủ đề; (4) Thống kê việc sử dụng từ khóa; (5) Hiển thị n từ khóa hàng đầu trong một chuyên mục; và (6) Hiển thị trực quan các bài báo ở dạng biểu đồ cây Xem chi tiết hình minh họa các tính năng này ở hình 2, các ảnh minh họa được đánh số tương ứng

Các tính năng của hệ thống

(1) - Hiển thị dòng đời của

một từ khóa cụ thể

(2) - Lấy N từ khóa chính

của một bài viết

(3) - Hiển thị dòng thời gian

(4) - Thống kê việc sử dụng

từ khóa (5) Hiển thị n từ khóa hàng đầu trong một chuyên mục

Trang 3

Có một số chức năng chính được trình bày như sau Hình 2 cho thấy danh sách n

từ khóa trong một bài viết (n = 7) Người dùng có thể xác định giá trị cho n Số phần trăm theo sau từ khóa là tỷ lệ giữa tần số của từ khóa này và tổng số từ khóa của bài viết này

Hình 2 GUI cho các từ khóa hàng đầu trong một bài viết

Hình 3 minh họa số lượng bài viết sử dụng một từ khóa Có thể thấy từ khóa

“iphone” được sử dụng 12 lần trong chuyên mục công nghệ “CongNghe” vào ngày 28 tháng 9 năm 2017, 1 lần trong chuyên mục thời sự ‘ThoiSu” vào ngày 30 tháng 9 năm

2017 và chuyên mục “PhapLuat” vào ngày 3-4 tháng 10 năm 2017

Trang 4

Hình 3 GUI cho số lượng bài viết có sử dụng từ khóa “iphone”

Hình 4 trình bày danh sách n các từ khóa (n = 10) hàng đầu được trích xuất từ một chuyên mục Có thể thấy rằng chuyên mục "ThoiSu" có các từ khóa bao gồm: phó, bệnh_viện, thuốc, rác, ngạch, lao_động, bổ_nhiệm, tổng_cục, vv

Hình 4 GUI rút trích từ khóa hàng đầu từ một chuyên mục

Trang 5

Hình 5 GUI cho hiển thị các bài báo dạng cây và xem nội dung của bài báo

1.3 Các tập dữ liệu

Hệ thống tạo các bộ dữ liệu bao gồm: tập dữ liệu các bài báo, tập dữ liệu của các bài báo sau bước tiền xử lý, tập dữ liệu của n các từ khóa quan trọng hàng đầu của các bài viết, tập dữ liệu của n các từ khóa hàng đầu của chuyên mục Các bộ dữ liệu này được cấu trúc như sau:

Tập dữ liệu của các bài báo bao gồm các bài báo được thu thập và sắp xếp trong các thư mục Ngày/Chuyên mục /Bài báo Các tệp bài báo này là các tệp văn bản Tên tệp là tiêu đề bài viết và tệp chứa thông tin bao gồm tiêu đề, mô tả và nội dung

Tập dữ liệu của các bài báo đã qua bước tiền xử lý có cấu trúc tương tự với tập

dữ liệu các bài báo Điều khác biệt duy nhất là nội dung của các bài báo được tiền xử

lý bằng cách tách từ và loại bỏ từ dừng

Tập dữ liệu của các từ khóa hàng đầu của bài viết được lưu trong các tệp văn bản

có cấu trúc 4 trường bao gồm: ngày (Date), mã bài báo (ArticleID), từ khóa (KeyWord) và tần số (Weight)

Tập dữ liệu của các từ khóa hàng đầu của chuyên mục có cấu trúc tương tự với tập dữ liệu của các từ khóa hàng đầu của bài báo Tập dữ liệu này được lưu dưới dạng tệp văn bản chứa với 4 trường bao gồm: ngày (Date), mã chuyên mục (ColumnID), từ khóa (KeyWord) và chỉ số xếp hạng (ImportanceIndex)

Trang 6

1.4 Lưu trữ và truy vấn cơ sở dữ liệu đồ thị

Hình 6 mô tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị Cấu trúc lưu trữ chung có 5 nút: Gốc, Ngày, Cột, Bài viết và Từ khóa (Root, Day, Column, Article, KeyWord) Ví dụ sau đây sẽ làm rõ hơn về cách lưu trữ

Hình 6 Cấu trúc lưu trữ chung và ví dụ

Bảng 1 mô tả các thuộc tính của các nút và các mối quan hệ Mỗi nút hoặc mối quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan

Bảng 1 Các thuộc tính của nút và mối quan hệ STT Tên nút/mối

quan hệ

Thuộc tính Mô tả

4 Article ID; Path; Title Node

6 Presents Weight Relationship

7 Written_in ImportanceIndex Relationship

Trang 7

2 TÀI LIỆU THAM KHẢO

1 Le Hong Phuong, N.T.M., A.R Huyen, and H.T Vinh, A hybrid approach to

word segmentation of Vietnamese texts Language and Automata Theory and

Applications, 2008: p 240

Trang 8

3 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ

Bình Dương, ngày 20 tháng 06 năm 2019

Người chủ trì thực hiện chuyên đề

Võ Thị Hồng Thắm

Ngày đăng: 20/07/2021, 08:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm