1. Trang chủ
  2. » Luận Văn - Báo Cáo

Biểu diễn kết quả theo dõi các chủ đề trên tạp chí điện tử với thuật toán rút trích từ khóa và cơ sở dữ liệu đồ thị, phát biểu bài toán

4 4 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 309,85 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã s

Trang 1

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT

KHOA KỸ THUẬT CÔNG NGHỆ

Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA

VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ

Mã số:

Tên báo cáo chuyên đề: PHÁT BIỂU BÀI TOÁN

Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm

Người chủ trì thực hiện chuyên đề: ThS Võ Thị Hồng Thắm

Bình Dương, 06/2019

Trang 2

1 VẤN ĐỀ NGHIÊN CỨU

Có trung bình hơn 100 bài báo được đăng hàng ngày trên mỗi tờ báo trực tuyến

Để đọc một bài báo, một người trung bình mất ít nhất 2 phút Cho nên, để đọc hết số lượng này, ít nhất tiêu tốn hơn 3 giờ Hiện tại, có hơn 20 tờ báo trực tuyến ở Việt Nam

Để tìm được thông tin mình mong muốn cũng như nắm bắt các chủ đề mình quan tâm, người dùng phải mất rất nhiều thời gian để đọc và tóm tắt thông tin Do đó, chuyên đề này thực hiện việc xây dựng một hệ thống tự động thu thập các bài báo từ các tờ báo trực tuyến, quản lý và khai thác thông tin từ các bài báo đó để giúp người dùng tìm chủ

đề mà họ quan tâm một cách nhanh chóng đồng thời hỗ trợ hiển thị trực quan, giúp người dùng dễ dàng theo dõi sự tiến triển của các chủ đề đó

Mục đích chính của hệ thống này là giải đáp các câu hỏi như:

 “Từ khóa của bài viết là gì?”,

 “Những từ khóa có giá trị nào được sử dụng rộng rãi trong chủ đề cụ thể nào đó?”,

 “Từ khóa nào được sử dụng phổ biến nhất gần đây?” ,

 "Đâu là dòng đời của từ khóa?",

 "Từ khóa nào được sử dụng nhiều nhất?",

 "Chủ đề được quan tâm trong một khoảng thời gian là gì?"

Do đó, đóng góp chính của đề tài là phát triển một hệ thống thu thập, lưu trữ, khai thác và hiển thị trực quan luồng dữ liệu dòng văn bản các bài báo đăng tải hàng ngày từ các tạp chí trực tuyến Việt Nam Hệ thống được đề xuất này hoàn toàn mới và cần thiết ở Việt Nam và có thể dễ dàng chuyển đổi để áp dụng cho các ngôn ngữ khác tại các quốc gia khác Đóng góp của đề tài trong việc phát triển hệ thống này có thể được mô tả như sau

Đầu tiên, có thể kể đến một số kỹ thuật chính được nghiên cứu và áp dụng bao gồm:

 Thu thập thông tin trên web,

 Xử lý luồng văn bản, và

 Hiển thị luồng văn bản dưới dạng đồ thị

Tiếp theo, hệ thống được thiết kế và triển khai với 3 mô-đun chính bao gồm:

Trang 3

 Bộ thu thập thông tin,

 Bộ xử lý, và

 Bộ hiển thị trực quan chính là một giao diện web được sử dụng để hiển thị kết quả từ truy vấn của người dùng

Và cuối cùng, bước thực nghiệm và phân tích kết quả thực nghiệm được tiến hành Ba mô-đun có thể được mô tả ngắn gọn dưới dạng các thành phần Bộ thu thập thông tin được sử dụng để tự động thu thập dữ liệu từ các tạp chí trực tuyến Dữ liệu được thu thập bởi Bộ thu thập thông tin cần phải được xử lý trước và bước tiền xử lý khá phức tạp do tính chất đặc trưng của ngôn ngữ tiếng Việt Sau khi tiền xử lý dữ liệu, các từ khóa có tần suất xuất hiện cao nhất được tìm thấy bằng kỹ thuật TF_IDF

Từ những từ khóa đó, các chủ đề được thảo luận trong cả các bài báo và chuyên mục (mỗi bài viết được chia thành một số loại được gọi là chuyên mục) có thể được nhận

ra Kết quả được tính toán được lưu trữ trong cơ sở dữ liệu đồ thị theo yêu cầu của người dùng Dữ liệu thu thập được và qua bước tiền xử lý cũng được lưu trữ thành các

bộ dữ liệu có thể phục vụ cho việc để kiểm tra, phân tích và đánh giá các thuật toán khác liên quan đến xử lý văn bản và xử lý ngôn ngữ tự nhiên Dữ liệu đầu ra được lưu trữ để so sánh, đánh giá tính hiệu quả của thuật toán cũng như được sử dụng cho các thuật toán đầu vào khác như phân cụm, phân loại, phát hiện các từ khóa tương tự, v.v Tóm lại, chuyên đề này trình bày một thiết kế hệ thống chung, minh họa các thành phần chính của hệ thống, mô tả các thuật toán liên quan, thực hiện và thảo luận các kết quả thử nghiệm và hướng phát triển trong tương lai Chuyên đề cũng mô tả cấu trúc các bộ dữ liệu, thảo luận về độ chính xác khi chọn danh sách n từ khóa được tính toán bằng thuật toán TF-IDF Vì vậy, đóng góp của đề tài bao gồm phát triển ứng dụng đọc báo thông minh và tạo các tập dữ liệu có thể được sử dụng để thực hiện sâu hơn các nghiên cứu có liên quan

Trang 4

2 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ

Bình Dương, ngày 20 tháng 06 năm 2019

Người chủ trì thực hiện chuyên đề

Võ Thị Hồng Thắm

Ngày đăng: 20/07/2021, 08:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w