1. Trang chủ
  2. » Thể loại khác

Nghiên cứu công nghệ khai phá dữ liệu văn bản áp dụng cho các trang tin tức trên các thiết bị cầm tay (PDAS & SMARTPHONES) : Luận văn ThS. Công nghệ thông tin: 1 01 10

4 24 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 413,64 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆVŨ NGỌC ANH NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC TRÊN CÁC THIẾT BỊ CẦM TAY PDAS & SMARTPHONES LUẬN VĂN THẠC SỸ HÀ NỘI -

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ NGỌC ANH

NGHIÊN CỨU CÔNG NGHỆ KHAI PHÁ DỮ LIỆU VĂN BẢN, ÁP DỤNG CHO CÁC TRANG TIN TỨC

TRÊN CÁC THIẾT BỊ CẦM TAY (PDAS &

SMARTPHONES)

LUẬN VĂN THẠC SỸ

HÀ NỘI - 2006

Trang 2

1

MỤC LỤC

LỜI CAM ĐOAN

MỤC LỤC

TÓM TẮT 3

CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 4

CHÚ GIẢI KÝ HIỆU VÀ MÔ HÌNH 5

CÁC HÌNH MINH HỌA 6

MỞ ĐẦU 7

CHƯƠNG 1 XÂY DỰNG KÊNH CUNG CẤP TIN ĐIỆN TỬ TRÊN THIẾT BỊ CẦM TAY 10

1.1 Báo điện tử và công nghệ Internet không dây 10

1.1.1 Báo điện tử - một thành tựu của Internet 10

1.1.2 Sự phát triển của các thiết bị cầm tay 11

1.1.3 Công nghệ kết nối internet không dây 12

1.2 Bài toán xây dựng kênh tin tức điện tử trên thiết bị cầm tay 13

1.2.1 Mô tả bài toán 13

1.2.2 Mô tả các chức năng cơ bản của hệ thống 14

1.3 Hướng tiếp cận giải quyết bài toán 14

Chương 2 THUẬT TOÁN RTDM VÀ ỨNG DỤNG TRONG TRÍCH XUẤT TIN 16

2.1 Khái niệm “Chi phí chuyển đổi cây” 16

2.2 Thuật toán RTDM 20

2.3 Áp dụng RTDM trích xuất tin tức tự động 27

2.3.1 Phân cụm trang 29

2.3.2 Trích xuất mẫu chung 30

2.3.3 Khớp dữ liệu 33

Trang 3

2

2.3.4 Gán nhãn dữ liệu 35

Chương 3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG 37

3.1.Giới thiệu 37

3.2 Mô hình Use Case: 38

3.2 Mô hình lớp 43

3.4 Danh sách các thực thể 45

3.5 Mô hình thực thể liên kết 45

Chương 4 KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 46

4.1 Giới thiệu chung về hệ thống 46

4.2 Thực nghiệm và đánh giá kết quả 46

KẾT LUẬN 50

TÀI LIỆU THAM KHẢO 51

PHỤ LỤC MÔ TẢ CHI TIẾT CÁC THỰC THỂ 54

Trang 4

3

TÓM TẮT

Luận văn quan tâm nghiên cứu các giải pháp trích chọn thông tin trên Web nhằm xây dựng một hệ thống cung cấp tin tức trên các thiết bị cầm tay thông minh mà tin tức này được trích chọn từ các báo điện tử tiếng Việt

Luận văn sử dụng thuật toán RTDM (Restricted Top-Down Mapping) do

Davi de Castro Reis và các đồng tác giả đề xuất [28], một thuật toán được đánh giá rất hiệu quả trong việc trích chọn tin tức tức tự động thông qua việc phân tích cấu trúc cây Hiện nay RTDM được dùng như là thành phần lõi chính của hệ thống trích xuất tin tức có tên là AkwanClipping (Akwan Information Technologies, http://www.akwan.com, thuộc công ty Google tại Braxin) cung cấp tin tức hàng ngày của các tờ báo phổ biến nhất tại Braxin Luận văn đã tiến hành chi tiết và hoàn thiện các phần nội dung không công

bố của thuật toán RTDM, đồng thời tiến hành xây dựng một hệ thống kênh cung cấp tin điện tử trên các thiết bị cầm tay thông minh Hệ thống thử nghiệm việc trích chọn tin tức trên các báo điện tử tiếng Việt phổ dụng hiện nay và đã cho kết quả đáng khích lệ Chúng tôi đang tiến hành cải tiến tốc độ làm việc của hệ thống nhằm tiến tới đưa hệ thống vào hoạt động thực tế

Ngày đăng: 23/09/2020, 23:05

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w