TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã s
Trang 1TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA
VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ
Mã số:
Tên báo cáo chuyên đề:
THIẾT KẾ GIAO DIỆN VÀ CHỨC NĂNG PHẦN MỀM
HỖ TRỢ NGƯỜI DÙNG SỬ DỤNG THUẬT TOÁN
Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm
Người chủ trì thực hiện chuyên đề: ThS Võ Thị Hồng Thắm
Bình Dương, 06/2019
Trang 21 THIẾT KẾ GIAO DIỆN
Hệ thống được xây dựng gồm các mô-đun: bộ thu thập thông tin, bộ xử lý và bộ hiển thị Ngoài ra, một mô-đun TF-IDF được lập trình bằng ngôn ngữ lập trình Python phục vụ cho việc so sánh các đầu ra của nó với các đầu ra của hệ thống được hiện thực bằng ngôn ngữ lập trình Java Phần 1.1 sau đây mô tả một số kỹ thuật và công cụ được dùng để xây dựng hệ thống Hệ thống bao gồm các chức năng được mô tả trong phần 1.2 Thu thập dữ liệu và kết quả đầu ra được minh họa trong phần 1.3 Cấu trúc lưu trữ
và một số truy vấn cơ sở dữ liệu được làm rõ trong phần 1.4
1.1 Các Framework dùng để lập trình
Để phát triển hệ thống, một số công cụ và thư viện được sử dụng Phần này đề cập ngắn gọn tên và phiên bản của các công cụ này Đó là: Scala 2.10.5, Java 8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x, IntelliJ IDEA và Vis.js Ngoài ra, hệ thống cũng sử dụng VnTokenizer [13] và danh sách từ dừng được tải xuống từ github được bổ sung thêm một số ký tự xuất hiện trong văn bản nhưng không có bất kỳ ý nghĩa nào vào danh sách này (có thể xem danh sách từ dừng ở phần phụ lục của chuyên đề)
1.2 Các tính năng chính
Hình 1 cho thấy hệ thống có 6 hàm cơ bản chính bao gồm: (1) Hiển thị dòng đời của một từ khóa cụ thể; (2) Lấy N từ khóa chính của một bài viết; (3) Hiển thị dòng thời gian của các từ khóa trong một chủ đề; (4) Thống kê việc sử dụng từ khóa; (5) Hiển thị n từ khóa hàng đầu trong một chuyên mục; và (6) Hiển thị trực quan các bài báo ở dạng biểu đồ cây Xem chi tiết hình minh họa các tính năng này ở hình 2, các ảnh minh họa được đánh số tương ứng
Các tính năng của hệ thống
(1) - Hiển thị dòng đời của
một từ khóa cụ thể
(2) - Lấy N từ khóa chính
của một bài viết
(3) - Hiển thị dòng thời gian
(4) - Thống kê việc sử dụng
từ khóa (5) Hiển thị n từ khóa hàng đầu trong một chuyên mục
Trang 3Có một số chức năng chính được trình bày như sau Hình 2 cho thấy danh sách n
từ khóa trong một bài viết (n = 7) Người dùng có thể xác định giá trị cho n Số phần trăm theo sau từ khóa là tỷ lệ giữa tần số của từ khóa này và tổng số từ khóa của bài viết này
Hình 2 GUI cho các từ khóa hàng đầu trong một bài viết
Hình 3 minh họa số lượng bài viết sử dụng một từ khóa Có thể thấy từ khóa
“iphone” được sử dụng 12 lần trong chuyên mục công nghệ “CongNghe” vào ngày 28 tháng 9 năm 2017, 1 lần trong chuyên mục thời sự ‘ThoiSu” vào ngày 30 tháng 9 năm
2017 và chuyên mục “PhapLuat” vào ngày 3-4 tháng 10 năm 2017
Trang 4Hình 3 GUI cho số lượng bài viết có sử dụng từ khóa “iphone”
Hình 4 trình bày danh sách n các từ khóa (n = 10) hàng đầu được trích xuất từ một chuyên mục Có thể thấy rằng chuyên mục "ThoiSu" có các từ khóa bao gồm: phó, bệnh_viện, thuốc, rác, ngạch, lao_động, bổ_nhiệm, tổng_cục, vv
Hình 4 GUI rút trích từ khóa hàng đầu từ một chuyên mục
Trang 5Hình 5 GUI cho hiển thị các bài báo dạng cây và xem nội dung của bài báo
1.3 Các tập dữ liệu
Hệ thống tạo các bộ dữ liệu bao gồm: tập dữ liệu các bài báo, tập dữ liệu của các bài báo sau bước tiền xử lý, tập dữ liệu của n các từ khóa quan trọng hàng đầu của các bài viết, tập dữ liệu của n các từ khóa hàng đầu của chuyên mục Các bộ dữ liệu này được cấu trúc như sau:
Tập dữ liệu của các bài báo bao gồm các bài báo được thu thập và sắp xếp trong các thư mục Ngày/Chuyên mục /Bài báo Các tệp bài báo này là các tệp văn bản Tên tệp là tiêu đề bài viết và tệp chứa thông tin bao gồm tiêu đề, mô tả và nội dung
Tập dữ liệu của các bài báo đã qua bước tiền xử lý có cấu trúc tương tự với tập
dữ liệu các bài báo Điều khác biệt duy nhất là nội dung của các bài báo được tiền xử
lý bằng cách tách từ và loại bỏ từ dừng
Tập dữ liệu của các từ khóa hàng đầu của bài viết được lưu trong các tệp văn bản
có cấu trúc 4 trường bao gồm: ngày (Date), mã bài báo (ArticleID), từ khóa (KeyWord) và tần số (Weight)
Tập dữ liệu của các từ khóa hàng đầu của chuyên mục có cấu trúc tương tự với tập dữ liệu của các từ khóa hàng đầu của bài báo Tập dữ liệu này được lưu dưới dạng tệp văn bản chứa với 4 trường bao gồm: ngày (Date), mã chuyên mục (ColumnID), từ khóa (KeyWord) và chỉ số xếp hạng (ImportanceIndex)
Trang 61.4 Lưu trữ và truy vấn cơ sở dữ liệu đồ thị
Hình 6 mô tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị Cấu trúc lưu trữ chung có 5 nút: Gốc, Ngày, Cột, Bài viết và Từ khóa (Root, Day, Column, Article, KeyWord) Ví dụ sau đây sẽ làm rõ hơn về cách lưu trữ
Hình 6 Cấu trúc lưu trữ chung và ví dụ
Bảng 1 mô tả các thuộc tính của các nút và các mối quan hệ Mỗi nút hoặc mối quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan
Bảng 1 Các thuộc tính của nút và mối quan hệ STT Tên nút/mối
quan hệ
Thuộc tính Mô tả
4 Article ID; Path; Title Node
6 Presents Weight Relationship
7 Written_in ImportanceIndex Relationship
Trang 72 TÀI LIỆU THAM KHẢO
1 Le Hong Phuong, N.T.M., A.R Huyen, and H.T Vinh, A hybrid approach to
word segmentation of Vietnamese texts Language and Automata Theory and
Applications, 2008: p 240
Trang 83 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ
Bình Dương, ngày 20 tháng 06 năm 2019
Người chủ trì thực hiện chuyên đề
Võ Thị Hồng Thắm