TRƯỜNG ĐẠI HỌC THỦ DẦU MỘTKHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ • • Mã s
Trang 1TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TOÁN RÚT TRÍCH TỪ KHÓA
VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ
• •
Mã số:
rp /V 1 r _ Ị _ -> Ạ Tên báo cáo chuyên đề:
THIẾT KẾ GIAO DIỆN VÀ CHỨC NĂNG PHẦN MỀM
HỖ TRỢ NGƯỜI DÙNG SỬ DỤNG THUẬT TOÁN
• • •
Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm
Người chủ trì thực hiện chuyên đề: ThS Võ Thị Hồng Thắm
Bình Dương, 06/2019
Trang 21 THIẾT KẾ GIAO DIỆN
Hệ thống được xây dựng gồm các mô-đun: bộ thu thập thông tin, bộ xử lý và bộ hiển thị Ngoài ra, một mô-đun TF-IDF được lập trình bằng ngôn ngữ lập trình Python phục vụ cho việc so sánh các đầu ra của nó với các đầu ra của hệ thống được hiện thực bằng ngôn ngữ lập trình Java Phần 1.1 sau đây mô tả một số kỹ thuật và công cụ được dùng để xây dựng hệ thống Hệ thống bao gồm các chức năng được mô tả trong phần 1.2 Thu thập dữ liệu và kết quả đầu ra được minh họa trong phần 1.3 Cấu trúc lưu trữ
và một số truy vấn cơ sở dữ liệu được làm rõ trong phần 1.4
1.1 Các Framework dùng để lập trình
Để phát triển hệ thống, một số công cụ và thư viện được sử dụng Phần này đề cập ngắn gọn tên và phiên bản của các công cụ này Đó là: Scala 2.10.5, Java 8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x, IntelliJ IDEA và Vis.js Ngoài ra, hệ thống cũng sử dụng VnTokenizer [13] và danh sách từ dừng được tải xuống từ github được bổ sung thêm một số ký tự xuất hiện trong văn bản nhưng không có bất kỳ ý nghĩa nào vào danh sách này (có thể xem danh sách từ dừng ở phần phụ lục của chuyên đề)
1.2 Các tính năng chính
Hình 1 cho thấy hệ thống có 6 hàm cơ bản chính bao gồm: (1) Hiển thị dòng đời của một từ khóa cụ thể; (2) Lấy N từ khóa chính của một bài viết; (3) Hiển thị dòng thời gian của các từ khóa trong một chủ đề; (4) Thống kê việc sử dụng từ khóa; (5) Hiển thị
n từ khóa hàng đầu trong một chuyên mục; và (6) Hiển thị trực quan các bài báo ở dạng biểu đồ cây Xem chi tiết hình minh họa các tính năng này ở hình 2, các ảnh minh họa được đánh số tương ứng
Trang 3theo sau từ khóa là tỷ lệ giữa tần số của từ khóa này và tổng số từ khóa của bài viết này.
Hình 2 GUI cho các từ khóa hàng đầu trong một bài viết
Hình 3 minh họa số lượng bài viết sử dụng một từ khóa Có thể thấy từ khóa
“iphone” được sử dụng 12 lần trong chuyên mục công nghệ “CongNghe” vào ngày 28 tháng 9 năm 2017, 1 lần trong chuyên mục thời sự ‘ThoiSu” vào ngày 30 tháng 9 năm
2017 và chuyên mục “PhapLuat” vào ngày 3-4 tháng 10 năm 2017
Háti2S0%i
Home About
News Graph
o Paper's content PapeflD 28 Thi trường giao due phó thống Quan hé bát đói xứng giũa ngươi bán vá người mua
Cãc chuyên gta cnl ra ràng mổl quan nê giừa người ban va ngươi mua trong "thỊ trướng giáo dục’ hiên nay đang la mối quan né Dát đói xứng
-Thưa nhãn bản chát th| tnrong cùa giao due tư nhăn tai Viét Nam các Chuyên gia cũng Chỉ ra ràng mỗi quan hẻ giữa người bân và người mua trong th| trưởng này đang lâ mói quan hê bát đối xứng »“Các trường phải lam thu đẻ mua quyên tư chù’ » Nên chám dưt quán tỳ gứo đuc kiẻu tem phiẻu Trường tư thi hoat đổng theo thi trường Tai hỏi tnảo vê Chát lương giào dục phổ thỏng do ủy ban Vàn hóa Giáo due vá Thanh mèn Thiêu niên Nhi đồng cùa Quốc hõi tố chức ngày 22'9 môt nỗi đung đưoc cãc đai Diéu thào lưản lá vắn
đẻ quàn lý giáo due bao gồm cà quản lý' hè tnống giáo due ngoài cồng láp TS Pham Đỗ Nhát Tiên nguvên tro
ly Bỗ tiuớng Sỗ GD-Đ la ngưòi kíẻn đinh quan diêm giáo due phổ thông công láp nẻn la dich vu công tmẻt trướng ngoái cõng lãp thi đưọc điêu tiêt theo quy luầt của Kinh tẻ thi trương Theo ỏng Tiên trướng ngoái cõng lẳp nẻn được tự xac định học phi túy tneo cnát lưọng tneo nnu càu người hoc va mat bàno thl trưòno Trươna xốc đinh sai thl cũno oéna
Trang 4Hình 3 GUI cho số lượng bài viết có sử dụng từ khóa “iphone”
Hình 4 trình bày danh sách n các từ khóa (n = 10) hàng đầu được trích xuất từ một chuyên mục Có thể thấy rằng chuyên mục "ThoiSu" có các từ khóa bao gồm: phó, bệnh_viện, thuốc, rác, ngạch, lao_động, bổ_nhiệm, tổng_cục, vv
Hình 4 GUI rút trích từ khóa hàng đầu từ một chuyên mục
Trang 5Hình 5 GUI cho hiển thị các bài báo dạng cây và xem nội dung của bài báo
1.3 Các tập dữ liệu
Hệ thống tạo các bộ dữ liệu bao gồm: tập dữ liệu các bài báo, tập dữ liệu của các bài báo sau bước tiền xử lý, tập dữ liệu của n các từ khóa quan trọng hàng đầu của các bài viết, tập dữ liệu của n các từ khóa hàng đầu của chuyên mục Các bộ dữ liệu này được cấu trúc như sau:
Tập dữ liệu của các bài báo bao gồm các bài báo được thu thập và sắp xếp trong các thư mục Ngày/Chuyên mục /Bài báo Các tệp bài báo này là các tệp văn bản Tên tệp là tiêu đề bài viết và tệp chứa thông tin bao gồm tiêu đề, mô tả và nội dung
Tập dữ liệu của các bài báo đã qua bước tiền xử lý có cấu trúc tương tự với tập dữ liệu các bài báo Điều khác biệt duy nhất là nội dung của các bài báo được tiền xử lý bằng cách tách từ và loại bỏ từ dừng
Tập dữ liệu của các từ khóa hàng đầu của bài viết được lưu trong các tệp văn bản
có cấu trúc 4 trường bao gồm: ngày (Date), mã bài báo (ArticleID), từ khóa (KeyWord)
và tần số (Weight)
Tập dữ liệu của các từ khóa hàng đầu của chuyên mục có cấu trúc tương tự với tập
dữ liệu của các từ khóa hàng đầu của bài báo Tập dữ liệu này được lưu dưới dạng tệp văn bản chứa với 4 trường bao gồm: ngày (Date), mã chuyên mục (ColumnID), từ khóa (KeyWord) và chỉ số xếp hạng (ImportanceIndex)
28/09/2017
01/102017
Th«G(O Ĩ
„ft.r
02/10/2017
-JL
04/10/2017
29/092017
PapenD 400 Phõ chù tich Thanh Hóa hai lần bổ nhtém màn tốc* nử trường phòng - VnExpress
Khi làm giám đốc sổ xây đung ông Ngỗ Vân Tuấn cổ nhiều vĩ phạm, gôm việc hai làn ký quyêl định bố nmẻm bá Qưỹnh Anh -VnExpress Ngày 29/9, ữy ban Kiém ưa Tinh ùy Thanh Hóa thông bão két luân sai pham cùa tâp thẻ cá nhãn liên quan
vụ viẻc bổ nhiêm "thân tóc* bà Trân vũ Quýnh Anh - nguyên Trưởng phông quàn lỹ nhà và thl trương bát đỏng sàn Sở Xây đung Phố chù tích tinh từng VI pham như thê náo Theo công bố, tai cuộc hop ngày 29/9 San Cháp hành Đàng bổ tinh Thanh Hóa đã uẻu qưyèt thồng nhát kỷ luật khién trách õng Ngô Vãn Tuân - Phô chù tích UBND tinh (nguyẻn Giám đốc sờ xây dưng giai đoạn 2010 - 2015) ỏng Tuán lá người kỹ hai quyết đinh cát nhác bá Tràn Vũ Quýnh Anh tứ chuyên viên lén chức Phó rổi Trưởng phóng Quàn lý nhà và thi trường bát đỏng sán sở xây dưng ưong khí bà náy chưa đù điẻu kiên vẻ trinh độ trung cáp lý luân chinh tri
và thâm niên cổng tác ở tĩnh vực phu trách Ngoái sai pham ưong viéc bổ nhiêm bà Quýnh Anh thòi kỷ làm Giám đốc sờ Xây dựng õng Ngó Vân Tuắn côn kỹ mãnh lãp mõi ba Ban thuỗc sở ưái mâm quyèn gôm náno lưc hoat đõno xãv duno ưẽn đia băn
O UãU
394 411 ip
■ /P/Ve
///% sa
, _ 0 XX \ \1 \l / //
Phó chù tích Thanh Hóa hal lăn bó nhiêm than tỗc nữ trưởng phòng - vnExpress
- WT '
Trang 61.4 Lưu trữ và truy vấn cơ sở dữ liệu đồ thị
Hình 6 mô tả cách dữ liệu được lưu trữ với cơ sở dữ liệu đồ thị Cấu trúc lưu trữ chung có 5 nút: Gốc, Ngày, Cột, Bài viết và Từ khóa (Root, Day, Column, Article, KeyWord) Ví dụ sau đây sẽ làm rõ hơn về cách lưu trữ
Hình 6 Cấu trúc lưu trữ chung và ví dụ
Bảng 1 mô tả các thuộc tính của các nút và các mối quan hệ Mỗi nút hoặc mối quan hệ có các thuộc tính được sử dụng để lưu trữ dữ liệu có liên quan
Bảng 1 Các thuộc tính của nút và mối quan hệ
rp.A r / A • Tên nút/mối quan hệ
Trang 73 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ
Bình Dương, ngày 20 tháng 06 năm 2019
Người chủ trì thực hiện chuyên đề
Võ Thị Hồng Thắm