TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã s
Trang 1TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA
VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ
Mã số:
Tên báo cáo chuyên đề: PHÁT BIỂU BÀI TOÁN
Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm
Người chủ trì thực hiện chuyên đề: ThS Võ Thị Hồng Thắm
Bình Dương, 06/2019
Trang 21 VẤN ĐỀ NGHIÊN CỨU
Có trung bình hơn 100 bài báo được đăng hàng ngày trên mỗi tờ báo trực tuyến
Để đọc một bài báo, một người trung bình mất ít nhất 2 phút Cho nên, để đọc hết số lượng này, ít nhất tiêu tốn hơn 3 giờ Hiện tại, có hơn 20 tờ báo trực tuyến ở Việt Nam
Để tìm được thông tin mình mong muốn cũng như nắm bắt các chủ đề mình quan tâm, người dùng phải mất rất nhiều thời gian để đọc và tóm tắt thông tin Do đó, chuyên đề này thực hiện việc xây dựng một hệ thống tự động thu thập các bài báo từ các tờ báo trực tuyến, quản lý và khai thác thông tin từ các bài báo đó để giúp người dùng tìm chủ
đề mà họ quan tâm một cách nhanh chóng đồng thời hỗ trợ hiển thị trực quan, giúp người dùng dễ dàng theo dõi sự tiến triển của các chủ đề đó
Mục đích chính của hệ thống này là giải đáp các câu hỏi như:
“Từ khóa của bài viết là gì?”,
“Những từ khóa có giá trị nào được sử dụng rộng rãi trong chủ đề cụ thể nào đó?”,
“Từ khóa nào được sử dụng phổ biến nhất gần đây?” ,
"Đâu là dòng đời của từ khóa?",
"Từ khóa nào được sử dụng nhiều nhất?",
"Chủ đề được quan tâm trong một khoảng thời gian là gì?"
Do đó, đóng góp chính của đề tài là phát triển một hệ thống thu thập, lưu trữ, khai thác và hiển thị trực quan luồng dữ liệu dòng văn bản các bài báo đăng tải hàng ngày từ các tạp chí trực tuyến Việt Nam Hệ thống được đề xuất này hoàn toàn mới và cần thiết ở Việt Nam và có thể dễ dàng chuyển đổi để áp dụng cho các ngôn ngữ khác tại các quốc gia khác Đóng góp của đề tài trong việc phát triển hệ thống này có thể được mô tả như sau
Đầu tiên, có thể kể đến một số kỹ thuật chính được nghiên cứu và áp dụng bao gồm:
Thu thập thông tin trên web,
Xử lý luồng văn bản, và
Hiển thị luồng văn bản dưới dạng đồ thị
Tiếp theo, hệ thống được thiết kế và triển khai với 3 mô-đun chính bao gồm:
Trang 3 Bộ thu thập thông tin,
Bộ xử lý, và
Bộ hiển thị trực quan chính là một giao diện web được sử dụng để hiển thị kết quả từ truy vấn của người dùng
Và cuối cùng, bước thực nghiệm và phân tích kết quả thực nghiệm được tiến hành Ba mô-đun có thể được mô tả ngắn gọn dưới dạng các thành phần Bộ thu thập thông tin được sử dụng để tự động thu thập dữ liệu từ các tạp chí trực tuyến Dữ liệu được thu thập bởi Bộ thu thập thông tin cần phải được xử lý trước và bước tiền xử lý khá phức tạp do tính chất đặc trưng của ngôn ngữ tiếng Việt Sau khi tiền xử lý dữ liệu, các từ khóa có tần suất xuất hiện cao nhất được tìm thấy bằng kỹ thuật TF_IDF
Từ những từ khóa đó, các chủ đề được thảo luận trong cả các bài báo và chuyên mục (mỗi bài viết được chia thành một số loại được gọi là chuyên mục) có thể được nhận
ra Kết quả được tính toán được lưu trữ trong cơ sở dữ liệu đồ thị theo yêu cầu của người dùng Dữ liệu thu thập được và qua bước tiền xử lý cũng được lưu trữ thành các
bộ dữ liệu có thể phục vụ cho việc để kiểm tra, phân tích và đánh giá các thuật toán khác liên quan đến xử lý văn bản và xử lý ngôn ngữ tự nhiên Dữ liệu đầu ra được lưu trữ để so sánh, đánh giá tính hiệu quả của thuật toán cũng như được sử dụng cho các thuật toán đầu vào khác như phân cụm, phân loại, phát hiện các từ khóa tương tự, v.v Tóm lại, chuyên đề này trình bày một thiết kế hệ thống chung, minh họa các thành phần chính của hệ thống, mô tả các thuật toán liên quan, thực hiện và thảo luận các kết quả thử nghiệm và hướng phát triển trong tương lai Chuyên đề cũng mô tả cấu trúc các bộ dữ liệu, thảo luận về độ chính xác khi chọn danh sách n từ khóa được tính toán bằng thuật toán TF-IDF Vì vậy, đóng góp của đề tài bao gồm phát triển ứng dụng đọc báo thông minh và tạo các tập dữ liệu có thể được sử dụng để thực hiện sâu hơn các nghiên cứu có liên quan
Trang 42 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ
Bình Dương, ngày 20 tháng 06 năm 2019
Người chủ trì thực hiện chuyên đề
Võ Thị Hồng Thắm