Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Tuy nhiên, việc đọc báo trên các thiết bị di động còn nhiều bất tiện vì khung màn hình nhỏ của thiết bị di động không cho phép hiển thị trang web được thiết kế cho máy tính để bàn, phông

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

NGUYỄN THỊ KHUYẾN

NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THÔNG TIN TỪ CÁC TRANG WEB

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Đà Nẵng - Năm 2016

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG

NGUYỄN THỊ KHUYẾN

NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THÔNG TIN TỪ CÁC TRANG WEB

Chuyên ngành: Hệ thống thông tin

Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Người hướng dẫn khoa học: TS HUỲNH CÔNG PHÁP

Đà Nẵng - Năm 2016

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn trực tiếp của thầy TS Huỳnh Công Pháp

Các số liệu kết quả nêu trong luận văn là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác

Tác giả

NGUYỄN THỊ KHUYẾN

Trang 4

MỤC LỤC

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục tiêu và nhiệm vụ 3

3 Đối tượng và phạm vi nghiên cứu 3

4 Phương pháp nghiên cứu 3

5 Ý nghĩa khoa học và thực tiễn của đề tài 4

6 Bố cục của luận văn 4

CHƯƠNG 1 CƠ SỞ LÝ THUYẾT 6

1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 6

1.1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên 6

1.1.2 Khái niệm cơ bản về ngôn ngữ tự nhiên 7

1.1.3 Khái niệm cơ bản về xử lý ngôn ngữ tự nhiên 7

1.2 KHAI PHÁ DỮ LIỆU 12

1.2.1 Định nghĩa khai phá dữ liệu 12

1.2.2 Các dạng dữ liệu trong khai phá dữ liệu 13

1.2.3 Các hướng nghiên cứu trong khai phá dữ liệu 14

1.2.4 Các ứng dụng của khai phá dữ liệu 14

1.3 KHAI PHÁ DỮ LIỆU WEB 15

1.3.1 Khái quát về khai phá dữ liệu web 15

1.3.2 Các bước của quá trình khai phá dữ liệu web 16

1.3.3 Các lĩnh vực của khai phá dữ liệu web 18

1.3.4 Những khó khăn và thuận lợi trong khai phá dữ liệu web 19

1.4 TỔNG KẾT CHƯƠNG 1 20

CHƯƠNG 2 GIẢI PHÁP TRÍCH RÚT VÀ TỔNG HỢP THÔNG TIN ĐỂ XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH 21

2.1 BÀI TOÁN TRÍCH RÚT THÔNG TIN 21

2.1.1 Giới thiệu sơ lược về bài toán trích rút thông tin 21

Trang 5

2.1.2 Dữ liệu của bài toán trích rút thông tin 24

2.1.3 Hướng tiếp cận giải quyết bài toán trích rút thông tin 25

2.1.4 Phân loại các hệ thống trích rút thông tin 26

2.2 BÀI TOÁN TRÍCH RÚT THÔNG TIN TỪ TRANG WEB 27

2.2.1 Trích rút thông tin từ trang web dựa trên cấu trúc cây DOM 28

2.2.2 Giới thiệu về trích rút thông tin sử dụng biểu thức chính quy 35

2.3 ÁP DỤNG PHƯƠNG PHÁP TRÍCH RÚT THÔNG TIN ĐỂ XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH 37

2.3.1 Các chức năng chính của ứng dụng đọc tin nhanh 38

2.3.2 Các phương pháp xây dựng trang tin cho ứng dụng 39

2.3.3 Sử dụng cây DOM để trích rút thông tin cho ứng dụng đọc tin nhanh 41

2.3.4 Giới thiệu về thuật toán trích rút thân văn bản Body Text Extraction 49

2.3.5 Các giải pháp tổng hợp thông tin cho ứng dụng 50

CHƯƠNG 3 PHÁT TRIỂN ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT THÔNG TIN TỪ CÁC TRANG WEB 52

3.1 CÀI ĐẶT MÔI TRƯỜNG PHẦN CỨNG VÀ PHẦN MỀM 52

3.1.1 Một số hệ thống đọc tin nhanh đã được xây dựng 52

3.1.2 Xây dựng ứng dụng chạy độc lập trên thiết bị di động 54

3.1.3 Lựa chọn công cụ và môi trường lập trình android 55

3.1.4 Cài đặt JDK và cấu hình biến môi trường 56

3.1.5 Cài đặt phần mềm Android Studio 57

3.1.6 Cài đặt máy ảo Genymotion 58

3.1.7 Các công cụ phần mềm khác 62

3.2 CÁC CHỨC NĂNG CƠ BẢN CỦA HỆ THỐNG ĐỌC TIN NHANH 62 3.2.1 Chức năng tạo tài khoản và đăng nhập hệ thống 63

Trang 6

3.2.2 Chức năng xem thông tin tài khoản 63

3.2.3 Chức năng cập nhật thông tin tài khoản 63

3.2.4 Chức năng quản lý các trang tin tức 64

3.2.5 Chức năng đọc tin dựa vào trang tin người dùng đã lưu 64

3.2.6 Chức năng đọc tin dựa trên việc người dùng cung cấp RSS 64

3.2.7 Chức năng đọc tin mặc định của hệ thống 65

3.3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG ĐỌC TIN NHANH 65

3.3.1 Xác định tác nhân và ca sử dụng 65

3.3.2 Biểu đồ Use Case 67

3.3.3 Sơ đồ hoạt động của ứng dụng đọc tin nhanh 70

3.3.4 Mô hình thực thể liên kết 74

3.3.5 Thiết kế cơ sở dữ liệu của ứng dụng 76

3.4 CÀI ĐẶT VÀ THỬ NGHIỆM ỨNG DỤNG 78

3.4.1 Giao diện trang đăng nhập 78

3.4.2 Giao diện của trang đăng ký tài khoán 79

3.4.3 Giao diện của trang danh mục chức năng 80

3.4.4 Giao diện của trang thông tin người dùng 81

3.4.5 Giao diện của trang chủ 82

3.4.6 Giao diện của trang đọc tin RSS 83

3.4.7 Giao diện chức năng quản lý trang 84

3.4.8 Giao diện chức năng đọc tin tức tổng hợp 85

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 91 DANH MỤC TÀI LIỆU THAM KHẢO

QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao)

PHỤ LỤC

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

Tiếng nước ngoài

ADV Android Virtual Device

CSO Computer Science Ontology

DAML DARPA Agent Markup Language

DOM Document Object Model

DTD Document Type Definition

FTP File Transfer Protocol

GPRS General Packet Radio Service

HTML HyperText Markup Language

HTTP The Hypertext Transfer Protocol

IE Information Extraction

IEEE Institute of Electrical and Electronics Engineers ISBN International Standard Book Number

KDD Knowledge Discovery in Database

LSI Latent Semantic Indexing

NISR National Institute of Standards and Technology RDF Resource Description Framework

RDFS Resource Description Framework Schema URL Uniform Resource Locator

URI Uniform Resource Identifier

XHTML Extensible HyperText Markup Language

XML eXtensible Markup Language

Tiếng Việt

CSDL Cơ sở dữ liệu

Trang 9

2.4 Ví dụ xây dựng cây DOM sử dụng hộp ảo 302.5 Mô tả mẫu trích tiêu đề và nội dung bài báo 312.6 Các bước trích rút thông tin dựa trên cấu trúc cây DOM 422.7 Truy vấn nội dung trang web bằng CSS Selector Queries 432.8 Cây DOM để trích rút thông tin bảng xếp hạng 44

2.10 Cấu trúc HTML của trang web thethao247 46

2.11 Thông tin Bảng Xếp Hạng Bóng Đá của trang web

2.12 Cấu trúc mã HTML Bảng Xếp Hạng trang web thethao247 473.1 Sơ đồ ứng dụng đọc tin nhanh trên thiết bị di động 533.2 Một số ứng dụng đọc tin tức trên kho ứng dụng Play Store 55

3.4 Cửa sổ cài đặt Plugin trong Android Studio 59

3.8 Biểu đồ Use Case của hệ thống đọc tin nhanh 673.9 Sơ đồ hoạt động đăng ký tài khoản mới 70

Trang 10

Số hiệu

3.11 Sơ đồ hoạt động xem thông tin tài khoản 713.12 Sơ đồ hoạt động người dùng quản lý trang đã lưu 713.13 Sơ đồ hoạt động người dùng xem tin từ các trang đã lưu 723.14 Sơ đồ hoạt động người dùng xem tin mặc định của hệ thống 72

3.15 Sơ đồ hoạt động người dùng xem tin bằng cách cung cấp

3.16 Sơ đồ hoạt động admin quản lý tài khoản của người dùng 733.17 Sơ đồ hoạt động admin quản lý các bài viết mặc định 743.18 Mô hình thực thể liên kết của hệ thống 74

3.22 Giao diện trang thông tin người dùng 82

3.27 Giao diện chức năng xem tin tức về giá vàng 853.28 Giao diện chức năng xem tin dự báo thời tiết 863.29 Giao diện chức năng xem thông tin tỉ giá ngoại tệ 873.30 Giao diện chức năng xem kết quả xổ số 873.31 Giao diện trang đọc tin tức bảng xếp hạng bóng đá 883.32 Trang đọc tin tức lịch thi đấu bóng đá 89

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Ngày nay công nghệ thông đóng một vai trò rất quan trọng trong hầu hết các lĩnh vực của đời sống xã hội Sự phát triển nhanh chóng của của công nghệ thông tin nói chung và công nghệ World Wide Web nói riêng đã tạo ra một nguồn tài nguyên thông tin vô cùng rộng lớn, một kho tàng tri thức phong phú cho nhân loại Tuy nhiên, nguồn tài nguyên thông tin này không biểu diễn một cách tập trung mà nằm rải rác phân tán khắp nơi trên mạng, không được sắp xếp, phân loại như mong muốn đã gây không ít những khó khăn cho con người khi tìm kiếm và khai thác thông tin Trong hoàn cảnh đó, trích rút và tổng hợp thông tin ra đời giúp việc tìm kiếm và thu thập thông tin trở nên hiệu quả, tiết kiệm thời gian và công sức trong việc sàng lọc và tổng hợp tri thức

Như tìm hiểu, tôi biết được trích rút thông tin là một trong những phương thức điển hình của chủ đề khai thác nguồn thông tin bao gồm:

- Tìm kiếm thông tin (Information Retrieval)

- Tóm lược văn bản (Text Summarization)

- Trích rút thông tin (Information Extraction)

Trích rút thông tin là phương thức trích chọn để lấy ra thông tin hữu ích

từ kho thông tin chưa được tổng hợp chọn lọc Trích rút thông tin từ trang web là công nghệ bao gồm nhiều phương thức giúp trích xuất một phần thông tin hữu ích theo mục đích từ các trang web chứa nhiều danh mục, chủ đề, nội dung khác nhau Khi sử dụng công nghệ trích rút thông tin, con người không còn phải mất nhiều thời gian để đọc hết các kết quả tìm kiếm trên mạng hay các trang web với nhiều những thông tin, nội dung dung không liên quan để lọc ra những tin cần thiết Ví dụ như khi chúng ta đọc báo trên mạng, các trang web chứa đầy các nội dung quảng cáo, các danh mục, các bài viết Để

Trang 12

biết được kết quả bóng đá, xổ số, bảng tin chứng khoán hay một mục nào đó, chúng ta phải lướt hết nội dung của trang web và tìm ra phần nội dung cần thiết Việc làm đó không những lãng phí thời gian mà còn gây ra tình trạng tốn lưu lượng, tốn bộ nhớ

Như chúng ra đã biết, một thành quả lớn của công nghệ thông tin và công nghệ Internet đó là sự ra đời của báo điện tử đã thay đổi diện mạo của phương thức tiếp cận tri thức, cũng như thay đổi trong thói quen đọc báo của con người so với trước đây Với ưu thế về tốc độ và khả năng vươn xa, Internet giúp cho độc giả có thể tiếp cận tin tức mọi lúc, mọi nơi với sự hỗ trợ của các thiết bị di động thông minh như điện thoại di động thông minh (smartphone), thiết bị đọc sách thông minh (playbook), máy tính cầm tay thông minh (tablet), Ngày nay các thiết bị di động thông minh ngày càng phổ biến với giá cả ngày càng hạ đã trở thành công cụ truy cập thông tin đắc lực không thể thay thế Các thiết bị di động thông minh không những giao diện đẹp, thiết bị gọn nhẹ, mà còn hỗ trợ truy cập Internet với nhiều loại hình như mạng 3G, mạng không dây, GPRS,… đã tạo tiền đề cho việc đáp ứng nhu cầu xem tin tức, đọc báo điện tử ngày càng được phổ biến và trở thành nhu cầu thiết yếu, không thể thay thế của người dùng

Tuy nhiên, việc đọc báo trên các thiết bị di động còn nhiều bất tiện vì khung màn hình nhỏ của thiết bị di động không cho phép hiển thị trang web được thiết kế cho máy tính để bàn, phông chữ thường bị lỗi, thông tin quảng cáo và tiêu đề của ứng dụng cũng được tải về cùng lúc với ứng dụng làm giảm tốc độ và gây khó chịu cho người dùng,… Chính vì vậy, mục đích của luận văn này là xây dựng một hệ thống cho phép dễ dàng và thuận tiện xem tin tức tiếng Việt của báo điện tử bất kỳ trên thiết bị di động thông minh, mà chi tiết hơn là trên thiết bị di động hệ điều hành android

Đó cũng chính là lý do tôi chọn đề tài “Nghiên Cứu, Xây Dựng Ứng

Trang 13

Dụng Đọc Tin Nhanh Bằng Cách Trích Rút Và Tổng Hợp Thông Tin Từ Các Trang Web”

Luận văn tập trung nghiên cứu các phương pháp trích rút và tổng hợp thông tin từ trang web Trên cơ sở đó xây dựng ứng dụng đọc tin nhanh thiết

bị di động android dựa trên phương pháp trích rút và tổng hợp thông tin từ các trang web tiếng Việt Đồng thời luận văn cũng tập trung nghiên cứu khắc phục hạn chế của các ứng dụng đọc đã từng được xây dựng trước đó như tình trạng trùng lặp thông tin, các quảng cáo, tiêu đề của ứng dụng chiếm diện tích

và tốn lưu lượng ứng dụng

2 Mục tiêu và nhiệm vụ

Mục tiêu của luận văn là nghiên cứu và đề xuất các phương pháp trích rút, tổng hợp thông tin từ trang web Sau đó áp dụng thuật toán trích rút thông tin để xây dựng ứng dụng thiết bị di động sử dụng hệ điều hành android

Luận văn tập trung vào nghiên cứu tìm hiểu những nội dung sau đây:

Thứ nhất, nghiên cứu các nội dung lý thuyết liên về xử lý ngôn ngữ tự

nhiên, khai phá dữ liệu web

Thứ hai, nghiên cứu các thuật toán trích rút thông tin từ trang web

Từ những lý thuyết và kiến thức thu được sau khi nghiên cứu những

nội dung trên, luận văn tập trung vào “Xây dựng ứng dụng đọc tin nhanh trên thiết bị di động android” đáp ứng nhu cầu cập nhật tin tức nhanh chóng hiệu

quả

3 Đối tượng và phạm vi nghiên cứu

Luận văn nghiên cứu xây dựng ứng dụng đọc tin nhanh trên thiết bị di động, nhưng chỉ tập trung vào thiết bị di động android

4 Phương pháp nghiên cứu

Luận văn sử dụng các phương pháp nghiên cứu sau:

Thứ nhất, tổng hợp các kết quả nghiên cứu từ các tư liệu liên quan về

Trang 14

xử lý ngôn ngữ tự nhiên, khai phá dữ liệu, khai phá dữ liệu web và kỹ thuật trích rút thông tin từ trang web

Thứ hai, phân tích đánh giá các phương pháp và đề xuất các giải pháp

lựa chọn để xây dựng ứng dụng có hiệu quả nhất

Từ những giải pháp lựa chọn đã đề xuất, chọn ra một phương pháp hiệu quả để áp dụng cho việc xây dựng ứng dụng đọc tin nhanh trên thiết bị di động android

5 Ý nghĩa khoa học và thực tiễn của đề tài

Đề tài tập trung nghiên cứu, tìm hiểu về phương pháp trích rút thông tin

tự động từ trang web, là phương pháp mà hầu hết tất cả các trang web tổng hợp tin đều sử dụng để trích rút thông tin từ các nguồn Nhất là việc trùng lặp thông tin khiến cho người dùng tiêu tốn thời gian và công sức để tổng hợp thông tin

Luận văn đề xuất một hướng tiếp cận mới trong việc trích rút thông tin

từ trang web đó là thông tin được lấy về tự động để tăng tính hiệu quả Tin tức lấy về được tổng hợp để làm tăng thêm hiệu quả tìm kiếm, trích lọc, chia sẻ thông tin

Sau khi thực nghiên cứu các phương pháp trích rút thông tin, sẽ góp phần làm cơ sở cho việc tổng hợp thông tin, phân loại, lọc dữ liệu

6 Bố cục của luận văn

Luận văn gồm ba chương, sau phần mở đầu giới thiệu về lý do chọn đề tài, mục tiêu và nhiệm vụ, đối tượng và phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn của đề tài là:

Chương 1, “Cơ sở lý thuyết” giới thiệu sơ bộ về xử lý ngôn ngữ tự

nhiên, những khái niệm liên quan đến khai phá dữ liệu, khai phá dữ liệu web

Chương 2, “Giải pháp trích rút và tổng hợp thông tin để xây dựng ứng dụng đọc tin nhanh” trình bày sơ lược về trích rút thông tin, các phương pháp

Trang 15

trích rút thông tin từ trang web cụ thể và giải pháp trích rút thông tin cho ứng dụng đọc tin nhanh

Chương 3, “Phát triển ứng dụng đọc tin nhanh bằng cách trích rút thông tin từ các trang web” tập trung nghiên cứu phân tích xây dựng kiến trúc

tổng thể của hệ thống gồm các thành phần liên quan, cách vận hành, từ kiến trúc tổng thể đã xây dựng tiếp tục triển khai thiết kế các thành phần, xây dựng

cơ sở dữ liệu cho ứng dụng và cài đặt ứng dụng trên thiết bị android Bên cạnh đó, chương này cũng tập trung trình bày về chú giải ngữ nghĩa, mô hình tổng quát cho hệ thống trích rút thông tin

Phần kết luận, tổng hợp những kết quả nghiên cứu chính của luận văn,

chỉ ra một số hạn chế chưa hoàn thiện cài đặt, đồng thời, luận văn cũng đề xuất một số hướng nghiên cứu cụ thể trong tương lai của tác giả luận văn

Trang 16

CHƯƠNG 1

CƠ SỞ LÝ THUYẾT

Trích rút thông tin là một trong những ứng dụng quan trọng của xử lý ngôn ngữ tự nhiên Vì vậy, khởi đầu của việc nghiên cứu và phân tích nội dung của luận văn là tìm hiểu các khái niệm liên quan đến xử lý ngôn ngữ tự nhiên Chương này cũng đề cập đến những nội dung cơ bản liên quan đến khai phá dữ liệu, khai phá dữ liệu web, là những chủ đề liên quan mật thiết đến phương pháp trích rút thông tin Những kiến thức trình bày trong chương này là là cơ sở lý thuyết tổng quan nhất liên quan đến trích rút thông tin sẽ trình bày ở các chương tiếp theo

1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN

1.1.1 Giới thiệu về xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ là xử lý thông tin đầu vào là “dữ liệu ngôn ngữ”, tức là

dữ liệu “văn bản” hay “tiếng nói” Các dữ liệu liên quan đến ngôn ngữ viết

(văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính của con người

và lưu trữ dưới dạng điện tử Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc hoặc bán cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các bảng biểu Theo đánh giá của công ty Oracle, hiện có đến 80% dữ liệu không có cấu trúc trong lượng dữ liệu của loài người đang có Với sự ra đời và phổ biến của Internet, của báo điện tử, máy tính cá nhân, viễn thông, thiết bị âm thanh… Người người ai cũng có thể tạo ra dữ liệu văn bản hay tiếng nói Vấn đề là làm sao ta có thể xử lý chúng, tức là chuyển chúng từ dạng ta chưa hiểu được thành các dạng có thể hiểu và giải thích được, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho mình [2]

Trong thực tế, ứng dụng của xử lý ngôn ngữ tự nhiên dùng để giải quyết một số bài toán như nhận dạng chữ viết, tóm tắt văn bản, khai phá dữ

Trang 17

liệu và phát hiện tri thức

1.1.2 Khái niệm cơ bản về ngôn ngữ tự nhiên

Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn hay sự thật thuộc lịch sử và siêu việt Nhiều ngôn ngữ sử dụng điệu bộ,

âm thanh, ký hiệu hay chữ viết tắt và cố gắng truyền khái niệm, ý nghĩa, và ý nghĩ nhưng nhiều khi những khía cạnh này nằm sát quá nên khó biệt nó

1.1.3 Khái niệm cơ bản về xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (Natural Language Processing) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp [1]

a Các bước của quá trình xử lý ngôn ngữ tự nhiên

Thông thường quá trình xử lý ngôn ngữ tự nhiên trải qua năm bước cơ bản bao gồm phân tích hình thái, phân tích cú pháp, phân tích ngữ nghĩa, tích hợp văn bản, phân tích thực nghĩa

hề đơn giản

* Phân tích cú pháp

Trong bước này dãy các từ sẽ được biến đổi thành các cấu trúc thể hiện

Trang 18

sự liên kết giữa các từ này, và sẽ có những dãy từ bị loại do phạm vào các luật văn phạm

b Các bài toán và ứng dụng của xử lý ngôn ngữ tự nhiên

Các ứng dụng cơ bản của xử lý ngôn ngữ tự nhiên thông thường bao gồm chế tạo các hệ thống máy dịch ví dụ như hệ thống dịch tự động Google Translation, xử lý văn bản và ngôn ngữ, tìm kiếm thông tin, trích rút thông tin, tóm tắt văn bản, nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, phân loại văn bản, khai phá dữ liệu, khai phá dữ liệu web

Xử lý ngôn ngữ tự nhiên là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ, công cụ hoàn hảo nhất của tư duy và giao tiếp

Trong đó bao gồm các bài toán ứng dụng phổ biến nhất dưới đây

* Dịch tự động (Machine Translate)

Dịch tự động hay còn được gọi là dịch máy Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ nguồn) sang một hoặc

Trang 19

nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch, điển hình như hệ thống dịch tự động Google Translation [15]

* Nhận dạng chữ viết (Character Recognition)

Có hai kiểu nhận dạng chữ viết:

Thứ nhất là nhận dạng chữ in (Optical Character Recognition) Ví dụ nhận dạng chữ trên sách giáo khoa rồi chuyển nó thành dạng văn bản điện tử như dưới định dạng doc của phần mềm Microsoft Word [15]

Phức tạp hơn là nhận dạng chữ viết tay, hay còn gọi là công nghệ nhận dạng ký tự thông minh (Intelligent Character Recognition - ICR) là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay, có khó khăn bởi vì chữ viết tay không có khuôn dạng rõ ràng và thay đổi từ người này sang người khác

Với chương trình nhận dạng chữ viết in có thể chuyển hàng ngàn đầu sách trong thư viện thành văn bản điện tử trong thời gian ngắn

Còn công nghệ nhận dạng chữ viết tay thường được sử dụng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định như tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký, [16]

Nhận dạng chữ viết của con người có ứng dụng trong khoa học hình sự

và bảo mật thông tin như nhận dạng chữ ký điện tử

* Nhận dạng tiếng nói (Speech Recognition)

Nhận dạng tiếng nói là công nghệ xử lý tiếng nói sau đó chuyển từ tiếng nói sang dạng văn bản tương ứng Nhận dạng tiếng nói giúp thao tác của con người trên các thiết bị nhanh hơn và đơn giản hơn, chẳng hạn thay vì gõ một tài liệu nào đó chúng ta chỉ cần đọc nó lên và trình soạn thảo sẽ tự ghi nó

Trang 20

ra Đây cũng là bước đầu tiên cần phải thực hiện trong ước mơ thực hiện giao tiếp giữa con người với robot Nhận dạng tiếng nói có khả năng trợ giúp rất nhiều cho người khiếm thị

* Tổng hợp tiếng nói (Text To Speech)

Từ một văn bản tự động tổng hợp thành tiếng nói Thay vì phải tự đọc một cuốn sách hay nội dung một trang web, nó tự động đọc cho chúng ta Giống như nhận dạng tiếng nói, tổng hợp tiếng nói là sự trợ giúp tốt cho người khiếm thị, nhưng ngược lại nó là bước cuối cùng trong giao tiếp giữa robot với người

* Tìm kiếm thông tin hay truy vấn thông tin (Information Retrieval)

Mục đích của hệ thống truy vấn thông tin là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu thông tin Định nghĩa chính xác cho nhu cầu thông tin là “câu truy vấn” (query), và các thông tin được chọn là “tài liệu” (documents) Một hệ thống tìm kiếm thông tin có hai chức năng chính,

đó là lập chỉ mục (indexing) và tìm kiếm (interrogation)

Hệ thống truy vấn thông tin được chia làm hai loại như sau:

Hệ thống tìm kiếm thông tin dựa trên từ khóa: Là cách sử dụng từ khóa

biểu diễn tài liệu và câu truy vấn Trong đó, từ khóa sẽ được dùng để lập chỉ mục cho các tài liệu

Hệ thống tìm kiếm thông tin dựa trên khái niệm: Dùng khái niệm để

biểu diễn tài liệu và câu truy vấn, dựa vào các khái niệm để lập chỉ mục

* Tóm tắt văn bản (Text Summarization)

Nội dung của tóm tắt văn bản là từ một văn bản dài, hệ thống sẽ tóm tắt thành một văn bản ngắn hơn nhưng vẫn chứa những nội dung thiết yếu nhất

* Phân loại văn bản (Text Classification)

Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm

Trang 21

các chủ đề cho trước Đây là một bài toán rất thường gặp trong thực tế

Ví dụ một nhà chuyên phân tích thị thường chứng khoán, anh ta cần phải tổng hợp rất nhiều tài liệu, bài viết về thị trường chứng khoán để đọc và đưa ra phán đoán của mình Tuy nhiên, anh ta không thể đọc tất cả các bài viết, bài báo hay các tài liệu để phân loại chúng đâu là tài liệu chứng khoán sau đó anh ta mới đọc kỹ chúng cho mục đích của anh ta Lý do của vấn đề này là bởi ví số lượng bài viết, bài báo hiện nay rất nhiều, đặc biệt là trên Internet, nếu để đọc hết được tất cả tài liệu đó thì sẽ mất rất nhiều thời gian

Một ví dụ khác trong thực tế là việc phân loại thư rác Khi một email được gửi đến hộp thư, nếu để người dùng phải đọc tất cả các mail thì sẽ tốn rất nhiều thời gian vì thư rác rất nhiều Vì vậy, cần có một hệ thống phân loại đâu là thư rác và đâu là email tốt Để giải bài toán này đã có rất nhiều phương pháp được đưa ra như thuật toán Naive Bayes, K-NN (K-Nearest-Neighbor), cây quyết định (Decision Tree), mạng Neuron nhân tạo (Artificial Neural Network), thuật toán SVM (Support Vector Machine) Các phương pháp đều cho kết quả khá tốt cho bài toán này [4]

* Khai phá dữ liệu, khai phá dữ liệu web và phát hiện tri thức

Từ rất nhiều tài liệu khác nhau phát hiện ra tri thức mới Thực tế để làm được điều này rất khó, nó gần như là mô phỏng quá trình học tập, khám phá khoa học của con người, là lĩnh vực đang trong giai đoạn đầu phát triển

Ở mức độ đơn giản khi kết hợp với máy tìm kiếm nó cho phép đặt câu hỏi để từ đó công cụ tự tìm ra câu trả lời dựa trên các thông tin trên web mặc cho việc trước đó có câu trả lời lưu trên web hay không Giống như trang

Yahoo! hỏi và đáp, là nơi chuyên đặt các câu hỏi để người khác trả lời Nói

một cách nôm na là nó đã biết xử lý dữ liệu để trả lời câu hỏi của người sử dụng, thay vì máy móc đáp trả những gì chỉ có sẵn trong bộ nhớ

Trang 22

* Trích rút thông tin (Information Extraction)

Trích rút thông tin được biết đến với các tên gọi khác như trích chọn thông tin, trích xuất thông tin, tách thông tin, chiết suất thông tin Công nghệ trích rút thông tin được dùng để tìm ra các thông tin cấu trúc, thông tin cần thiết từ một tài liệu Trong khi đó truy vấn thông tin là tìm ra các tài liệu liên quan, hoặc một phần tài liệu liên quan từ kho dữ liệu cục bộ như thư viện số hoặc từ Internet để phản hồi cho người dùng tùy vào một truy vấn cụ thể

1.2 KHAI PHÁ DỮ LIỆU

1.2.1 Định nghĩa khai phá dữ liệu

Khai phá dữ liệu (Data Mining) được định nghĩa như một quá trình chắt lọc hay khám phá tri thức từ một lượng lớn dữ liệu Nói một cách khác, khai phá dữ liệu là quá trình trích ra những thông tin dùng được, đúng và chưa biết trước từ cơ sở dữ liệu lớn, rồi dùng thông tin này để ra các quyết định [5]

Khai phá dữ liệu là một bước của quá trình khám phá tri thức trong cơ

sở dữ liệu (Knowledge Discovery in Database, viết tắt là KDD) Khám phá tri thức trong CSDL là lĩnh vực liên quan đến các ngành như xác suất thống kê, học máy, trực quan hóa dữ liệu và tính toán song song,… Quá trình khai phá tri thức trong cơ sở dữ liệu có thể chia thành các bước thực hiện như sau:

Bước 1: Trích chọn dữ liệu

Ở bước này các dữ liệu liên quan trực tiếp đến nhiệm vụ của quá trình KDD sẽ được thu thập từ các nguồn dữ liệu ban đầu

Bước 2: Tiền xử lý dữ liệu

Có nhiệm vụ làm sạch, loại bỏ nhiễu, rút gọn và rời rạc hóa dữ liệu

Bước 3: Biến đổi dữ liệu

Nhằm chuẩn hóa và làm mịn dữ liệu để chuyển dữ liệu về dạng thuận lợi nhất phục vụ cho việc khai phá

Bước 4: Khai phá dữ liệu

Trang 23

Dùng các kỹ thuật phân tích để khai thác dữ liệu, trích chọn các mẫu thông tin cần thiết,… Công đoạn này được xem là mất thời gian và cũng là quan trọng nhất trong quá trình KDD

Bước 5: Đánh giá và biểu diễn tri thức

Các thông tin và mối liên hệ giữa chúng vừa khám phá trong công đoạn trước được biểu diễn dưới các dạng trực quan đồng thời được đánh giá theo những tiêu chí nhất định

1.2.2 Các dạng dữ liệu trong khai phá dữ liệu

a Văn bản (Full Text)

Dữ liệu dạng văn bản là một dạng dữ liệu phi cấu trúc với thông tin chỉ gồm các tài liệu dạng văn bản Cơ sở dữ liệu văn bản là một CSDL phi cấu trúc mà dữ liệu bao gồm các tài liệu và thuộc tính của tài liệu, thường được tổ chức như một tổ hợp của hai thành phần gồm một CSDL có cấu trúc thông thường (chứa đặc điểm của các tài liệu) và các tài liệu

b Siêu văn bản (Hypertext)

Đó là loại văn bản không phải đọc theo dạng liên tục đơn, nó có thể được đọc theo các thứ tự khác nhau, đặc biệt là văn bản và ảnh đồ họa (graphic) là các dạng có mối liên kết với nhau theo cách mà người đọc có thể không cần đọc một cách liên tục Như vậy văn bản siêu văn bản bao gồm dạng chữ viết không liên tục, chúng được phân nhánh và cho phép người đọc

có thể chọn cách đọc theo ý muốn của mình Bên cạnh đó, siêu văn bản cũng

là một dạng văn bản đặc biệt nên cũng có thể bao gồm các chữ viết liên tục (là dạng phổ biến nhất của chữ viết)

Có hai khái niệm về Hypertext cần quan tâm:

Tài liệu siêu văn bản (Hypertext Document): Là một tài liệu văn bản

đơn trong hệ thống siêu văn bản Nếu tưởng tượng hệ thống siêu văn bản là một đồ thị thì các tài liệu tương ứng các nút

Trang 24

Liên kết siêu văn bản (Hypertext Link): Là một tham chiếu để nối một

tài liệu siêu văn bản này với một tài liệu siêu văn bản khác

1.2.3 Các hướng nghiên cứu trong khai phá dữ liệu

Có thể chia khai phá dữ liệu thành các hướng chính như sau:

Mô tả khái niệm (Concept Description): Thiên về mô tả, tổng hợp và

tóm tắt khái niệm

Luật kết hợp (Association Rules): Là dạng luật biểu diễn tri thức ở dạng

khá đơn giản

Phân lớp và dự đoán (Classification & Prediction): Xếp một đối tượng

vào một trong những lớp đã biết trước

Phân cụm (Clustering): Xếp các đối tượng theo từng cụm (số lượng

cũng như tên của cụm chưa được biết trước) Người ta còn gọi phân cụm là học không giám sát

Khai phá chuỗi (Sequential/Temporal Patterns): Tương tự như khai

phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian

1.2.4 Các ứng dụng của khai phá dữ liệu

Khai phá dữ liệu được ứng dụng trong nhiều lĩnh vực khác nhau nhằm khai thác nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin Việc ứng dụng thành công khai phá dữ liệu đã mang lại những hiệu quả thiết thực cho các hoạt động diễn ra hàng ngày trong đời sống

Các lĩnh vực hiện tại có ứng dụng khai phá dữ liệu gồm có:

Bảo hiểm, tài chính và thị trường chứng khoán: Khai phá dữ liệu được

ứng dụng trong việc phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận

Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định: Khai phá dữ liệu

được ứng dụng để thống kê, phân tích các dữ liệu của hệ thống và xây dựng

Trang 25

hệ thống hỗ trợ ra quyết định

Điều trị y học và chăm sóc y tế: Một số thông tin về chuẩn đoán bệnh

lưu trong các hệ thống quản lý bệnh viện Phân tích mối liên hệ giữa các triệu chứng bệnh, chuẩn đoán và phương pháp điều trị

Sản xuất và chế biến: Quy trình, phương pháp chế biến và xử lý sự cố Khai phá dữ liệu, khai phá dữ liệu web: Các ứng dụng bao gồm phân

lớp văn bản và các trang web, tóm tắt văn bản

Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật

học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene và một số bệnh di truyền

Mạng viễn thông: Phân tích các cuộc gọi điện thoại và hệ thống giám

sát lỗi, sự cố, chất lượng dịch vụ

1.3 KHAI PHÁ DỮ LIỆU WEB

1.3.1 Khái quát về khai phá dữ liệu web

Với Internet con người đã làm quen với các trang web cùng với vô vàn các thông tin Thông tin trên các trang web đa dạng về mặt nội dung cũng như hình thức Sự phát triển nhanh chóng đó đã sinh ra một khối lượng khổng lồ các dữ liệu dạng siêu văn bản dưới dạng trang web

Các dữ liệu trong các CSDL truyền thống thì thường là loại dữ liệu đồng nhất về ngôn ngữ, định dạng, còn dữ liệu web thì thường không đồng nhất Vì vậy cần có một phương pháp để chuyển đổi nội dung phi cấu trúc trên thành dạng dữ liệu tập trung, dễ sử dụng Khai phá dữ liệu web ra đời để đáp ứng nhu cầu đó

Cấu trúc nội dung của một văn bản web được mô tả như trong Hình 1.1 bao gồm nhiều phần như Content Data (Free text, HTML file, XML file, Dynamic content, Multimedia), User Profile Data, Usage Data, Struct Data (Static Link, Dynamic Link)

Trang 26

Hình 1.1 Cấu trúc nội dung của một văn bản web

1.3.2 Các bước của quá trình khai phá dữ liệu web

Quá trình khai phá dữ liệu web thường trải qua các bước như lựa chọn

dữ liệu, tiền xử lý dữ liệu, biểu diễn văn bản và trích rút đặc trưng Chúng ta

có thể hiểu rằng khai phá dữ liệu web như là việc trích chọn ra các thành phần được quan tâm hay được đánh giá là có ích cùng các thông tin tiềm năng từ các tài nguyên hoặc các hoạt động liên quan tới World Wide Web Một cách trực quan có thể quan niệm khai phá dữ liệu web là sự kết hợp giữa khai phá dữ liệu, xử lý ngôn ngữ tự nhiên và công nghệ World Wide Web [9]

Để có một kết quả khai phá dữ liệu tốt chúng ta cần tiến hành tiền xử

lý dữ liệu, để có được dữ liệu rõ ràng, chính xác, xoá bỏ dữ liệu hỗn độn và

dư thừa Sau bước tiền xử lý dữ liệu, tập dữ liệu đạt được thường có những

Trang 27

c Biểu diễn văn bản

Khai phá văn bản web là khai phá các tập tài liệu HTML Do đó chúng

ta sẽ phải biến đổi và biểu diễn dữ liệu thích hợp cho quá trình xử lý Mô hình TF-IDF thường được sử dụng để vector hoá dữ liệu Tuy nhiên việc biểu diễn

sử dụng mô hình TF-IDF sẽ dẫn đến số chiều vector khá lớn

d Trích rút đặc trưng

Trích rút các đặc trưng là một phương pháp được sử dụng để giải quyết

số chiều vector đặc trưng lớn thu được từ khâu khai phá văn bản Sau khi tập hợp, lựa chọn và trích ra tập văn bản hình thành nên các đặc trưng cơ bản, nó

sẽ là cơ sở để khai phá dữ liệu Từ đó ta có thể thực hiện trích, phân loại, phân cụm, phân tích và dự đoán (xem Hình 1.2 [9])

Hình 1.2 Các bước của quá trình khai phá dữ liệu web

Trang 28

1.3.3 Các lĩnh vực của khai phá dữ liệu web

Các lĩnh vực của khai phá dữ liệu web bao gồm khai phá nội dung trang web (Web Content), khai phá cấu trúc web (Web Structure) và khai phá

sử dụng web (Web Usage)

a Khai phá nội dung trang web (Web Content Mining)

Khai phá nội dung trang web (Web Content Mining) là các quá trình xử

lý để lấy ra các tri thức từ nội dung các trang web bản hoặc mô tả của chúng

Có hai chiến lược khai phá nội dung web:

Một là, khai phá trực tiếp nội dung của trang web

Hai là, nâng cao khả năng tìm kiếm nội dung của các công cụ khác như

máy tìm kiếm

Các định nghĩa liên quan đến khai phá nội dung web:

* Web Page Content

Nghĩa là sẽ sử dụng chỉ các từ trong văn bản mà không tính đến các liên kết giữa các văn bản Đây chính là khai phá dữ liệu dạng văn bản, liên quan tới việc truy xuất các thông tin từ các văn bản có cấu trúc, văn bản siêu liên kết, hay các văn bản bán cấu trúc Lĩnh vực này liên quan chủ yếu tới việc khai phá bản thân nội dung các trang web

* Search Engine Result

Tìm kiếm trong kết quả Trong các máy tìm kiếm, sau khi đã tìm ra các trang web thoả mãn yêu cầu người dùng, còn một công việc không kém phần quan trọng, đó là phải sắp xếp, chọn lọc kết quả theo mức độ hợp lệ với yêu cầu người dùng

Quá trình này thường sử dụng các thông tin như tiêu đề trang, URL, Content-Type, các liên kết trong trang web, để tiến hành phân lớp và đưa ra tập con các kết quả tốt nhất cho người dùng

Trang 29

b Khai phá cấu trúc web (Web Structure Mining)

Nhờ vào các kết nối giữa các văn bản siêu liên kết, World Wide Web

có thể chứa đựng nhiều thông tin hơn là chỉ các thông tin ở bên trong văn bản

Ví dụ, các liên kết trỏ tới một trang web chỉ ra mức độ quan trọng của trang web đó, trong khi các liên kết đi ra từ một trang web thể hiện các trang có liên quan tới chủ đề đề cập trong trang hiện tại Nội dung của khai phá cấu trúc web là các quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang web

c Khai phá sử dụng web (Web Usage/Log Mining)

Khai phá sử dụng web (Web Usage/Log Mining) là việc xử lý để lấy ra các thông tin hữu ích trong các thông tin truy cập web

* General Access Pattern Tracking

Phân tích các Web Log để khám phá ra các mẫu truy cập của người dùng trong trang web

* Customized Usage Tracking

Phân tích các mẫu truy cập của người dùng tại mỗi thời điểm để biết xu hướng truy cập trang web của đối tượng người dùng tại thời điểm khác nhau

1.3.4 Những khó khăn và thuận lợi trong khai phá dữ liệu web

Một số khó khăn gặp phải trong quá trình khai phá dữ liệu web đó là trang web dường như quá lớn để tổ chức thành kho dữ liệu phục vụ cho khai phá dữ liệu, độ phức tạp của trang web lớn hơn rất nhiều so với những tài liệu văn bản truyền thống khác, web là một nguồn tài nguyên thông tin có độ thay đổi cao, phục vụ một cộng đồng người dùng rộng lớn và đa dạng và chỉ một phần rất nhỏ của thông tin trên web là thực sự hữu ích

Về mặt thuận lợi thuận lợi, web bao gồm không chỉ có các trang mà còn có cả các siêu lên kết trỏ từ trang này tới trang khác Một máy chủ web thường đăng ký một bản ghi đầu vào (Weblog Entry) cho mọi lần truy cập

Trang 30

1.4 TỔNG KẾT CHƯƠNG 1

Toàn bộ bộ nội dung của chương đã trình bày những lý thuyết tổng quan về xử lý ngôn ngữ tự nhiên, khai phá dữ liệu, khai phá dữ liệu web Qua

đó thấy được trích rút thông tin là một trong những ứng dụng quan trọng của

xử lý ngôn ngữ tự nhiên và khai phá dữ liệu web Trích rút thông tin được biết đến với các tên gọi khác như trích chọn thông tin, trích xuất thông tin, tách thông tin, chiết suất thông tin Công nghệ trích rút thông tin được dùng để tìm

ra các thông tin cấu trúc, thông tin cần thiết từ một tài liệu, phân biệt với truy vấn thông tin là tìm ra các tài liệu liên quan, hoặc một phần tài liệu liên quan

từ kho dữ liệu cục bộ

Trang 31

CHƯƠNG 2

GIẢI PHÁP TRÍCH RÚT VÀ TỔNG HỢP THÔNG TIN ĐỂ

XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH

Nội dung chương này sẽ trình bày khái quát về trích rút thông tin như định nghĩa, các loại dữ liệu trong bài toán trích rút thông tin, các hướng tiếp cận giải quyết bài toán và phân loại hệ thống trích rút thông tin Dựa vào cái nhìn khái quát nhất về trích rút thông tin, luận văn sẽ tiến hành phân tích, đánh giá và lựa chọn những giải pháp tối ưu nhất Đồng thời luận văn sẽ đưa

ra các giải pháp về môi trường phát triển hệ thống, cũng như các giải pháp về trích rút thông tin ở mức độ ý tưởng và trừu tượng hóa để tiến hành xây dựng

hệ thống đọc tin nhanh

Qua quá trình tìm hiểu, tôi biết được trang web là một trong những dạng cơ bản của dữ liệu bán cấu trúc, vì vậy các thuật toán liên quan đến dữ liệu bán cấu trúc cũng được áp dụng cho bài toán trích rút thông tin từ trang web Trong phần giải pháp trích rút thông tin để xây dựng hệ thống, luận văn

đề cập đến các giải thuật trong bài toán trích rút thông tin cho dữ liệu bán cấu trúc là phương pháp phân tích mã HTML dựa trên cấu trúc cây DOM, sử dụng biểu thức chính quy và thuật toán trích rút thân văn bản Body Text Extraction Đồng thời luận văn cũng phân tích một số ưu nhược điểm của hai phương pháp này để lựa chọn ra phương pháp tối ưu nhất cho việc xây dựng ứng dụng

2.1 BÀI TOÁN TRÍCH RÚT THÔNG TIN

2.1.1 Giới thiệu sơ lược về bài toán trích rút thông tin

Trích rút thông tin (IE – Information Extraction) là một lĩnh vực của khai phá dữ liệu (Data Mining), có nhiệm vụ lấy ra những mẩu thông tin có ích với người dùng từ các nguồn ở những định dạng không đồng nhất và

Trang 32

chuyển thành một dạng đồng nhất Dữ liệu sau khi trích chọn được sử dụng, trình bày trực tiếp cho người dùng, lưu vào cơ sở dữ liệu để xử lý sau đó hay

sử dụng cho những hệ thống tìm kiếm thông tin như một dữ liệu đã qua bước tiền xử lý

Ví dụ với một báo cáo thời tiết có thể trích rút được thông tin về các vùng, thời gian, nhiệt độ cao hay thấp Với một trang web về kinh doanh sản phẩm trực tuyến có thể trích rút được thông tin về tên sản phẩm, thuộc tính của sản phẩm và giá của sản phẩm đó

Nói một cách đơn giản, trích rút thông tin là quá trình xử lý thông tin,

đầu vào là một văn bản và đầu ra là các thông tin “có giá trị” với người dùng Thông tin “có giá trị” ở đây có thể hiểu là các thực thể, các thuộc tính mô tả

thực thể và mối quan hệ giữa các thực thể Dữ liệu được trích rút ra có nội dung và cấu trúc thỏa mãn yêu cầu người dùng

Hình 2.1 minh họa quá trình trích rút thông tin từ văn bản không có cấu trúc và tổ chức lại thành dữ liệu có cấu trúc

Hình 2.1 Bài toán trích rút thông tin cho dữ liệu không có cấu trúc

Trang 33

Bài toán nhận đầu vào là một văn bản không có cấu trúc, nhiệm vụ của trích rút thông tin là trích ra các dữ liệu liên quan tới Bill Gate gồm: Chức vụ (CEO), công ty làm việc (Microsoft Corporation, Microsoft), người thành lập (founder) và tên quỹ (Free Software Foundation)… Sau đó dữ liệu sẽ được tổ chức lại có cấu trúc và lưu vào trong cơ sở dữ liệu Đây là một nhiệm vụ trong hội nghị KDD năm 2003, ở đó những người (đội) tham gia phải trích chọn các thông tin từ các văn bản cho trước và điền vào các trường trong cơ sở dữ liệu (Filling slots in a database from sub-segments of text) [8]

Có thể phát biểu bài toán trích rút thông tin như sau:

Đầu vào của bài toán: Văn bản có cấu trúc bất kỳ

Đầu ra của bài toán: Thông tin “có ích” được tổ chức dưới dạng cấu

trúc

Mục tiêu chính của trích rút thông tin là tìm ra những thông tin cấu trúc

từ văn bản không cấu trúc hoăc bán cấu trúc Trích rút thông tin sẽ tìm cách chuyển thông tin trong văn bản không hay bán cấu trúc về dạng có cấu trúc và

có thể biểu diễn hay thể hiện chúng một cách hình thức dưới dạng một tập tin

có cấu trúc XML hay một bảng cấu trúc như là bảng trong cơ sở dữ liệu

Một khi dữ liệu, thông tin từ các nguồn khác nhau, từ Internet có thể biểu diễn một cách hình thức, có cấu trúc Từ đó chúng ta có thể sử dụng các

kỹ thuật phân tích, khai phá dữ liệu để khám phá ra các mẫu thông tin hữu ích Chẳng hạn việc cấu trúc lại các mẫu tin quảng cáo, mẫu tin bán hàng trên Internet có thể giúp hỗ trợ tư vấn, định hướng người dùng khi mua sắm Việc trích rút và cấu trúc lại các mẫu tin tìm người, tìm việc sẽ giúp cho quá trình phân tích thông tin nghề nghiệp, xu hướng công việc,… hỗ trợ cho các người tìm việc, cũng như nhà tuyển dụng

Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung của tài liệu văn bản, nhưng hệ thống phải có khả năng phân tích tài liệu và tìm

Trang 34

kiếm các thông tin liên quan mà hệ thống mong muốn được tìm thấy Các kỹ thuật trích rút thông tin có thể áp dụng cho bất kỳ tập tài liệu nào mà chúng ta cần rút ra những thông tin chính yếu, cần thiết cũng như các sự kiện liên quan Các kho dữ liệu văn bản về một lĩnh vực trên Internet là ví dụ điển hình, thông tin trên đó có thể tồn tại ở nhiều nơi khác nhau, dưới nhiều định dạng khác nhau Sẽ rất hữu ích cho các khảo sát, ứng dụng liên quan đến một lĩnh vực nếu như những thông tin lĩnh vực liên quan được rút trích và tích hợp lại thành một hình thức thống nhất và biểu diễn một cách có cấu trúc Khi đó thông tin trên Internet sẽ được chuyển vào một cơ sở dữ liệu có cấu trúc phục

vụ cho các mục đích phân tích và khai thác khác nhau

2.1.2 Dữ liệu của bài toán trích rút thông tin

Dữ liệu thông thường của bài toán trích rút thông tin được chia thành

ba dạng cơ bản bao gồm dữ liệu có cấu trúc dữ liệu không có cấu trúc và dữ liệu bán cấu trúc

a Dữ liệu có cấu trúc (Structured Data)

Dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị CSDL quan hệ như

MS SQL server hay MySQL, trong đó các thực thể và thuộc tính được định nghĩa sẵn

b Dữ liệu không có cấu trúc (Unstructured Data)

Dữ liệu không cấu trúc thường dùng để chỉ dữ liệu ở dạng tự do và không cần có cấu trúc định nghĩa sẵn ví dụ như ngôn ngữ tự nhiên

c Dữ liệu bán cấu trúc (Semistructrured Data)

Là dữ liệu có cấu trúc nhưng không hoàn toàn tường minh, nó không tuân theo những cấu trúc, cách thức cấu trúc của bảng và các mô hình dữ liệu trong CSDL, nhưng nó chứa những thẻ, những đánh dấu tới những phần tử ngữ nghĩa riêng biệt của các bản ghi và các trường riêng biệt bên trong dữ liệu Các trang web thông thường là một dạng tiêu biểu của dữ liệu bán cấu

Trang 35

trúc Những thành phần có cấu trúc trong trang web đó là dữ liệu được lấy từ tầng cơ sở dữ liệu có cấu trúc bên dưới và hiện thị trên web thông qua các thẻ HTML

Hình 2.2 mô tả dữ liệu bán cấu trúc của một trang web đọc tin tức Dữ liệu này chứa tên danh mục tin tức, tiêu đề của các mẩu tin tức, hình ảnh hoặc video minh họa Các thông tin ứng với từng mẩu tin được mô tả dưới dạng mã HTML đã định trước Dữ liệu này được lấy từ tầng cơ sở dữ liệu (có cấu trúc) bên dưới và hiển thị trên trang web thông qua các thẻ HTML, đây chính là thành phần có cấu trúc của trang web

Hình 2.2 Ví dụ về tính cấu trúc của trang web bán cấu trúc

2.1.3 Hướng tiếp cận giải quyết bài toán trích rút thông tin

Có nhiều hướng tiếp cận để giải quyết bài toán trích rút thông tin, tuy

nhiên nếu dựa trên “đặc trưng dữ liệu” thì bài toán trích rút thông tin có thể

giải quyết bằng một số kỹ thuật sau:

a Dữ liệu có cấu trúc

Đối với dữ liệu có cấu trúc, việc trích rút thông tin là khá đơn giản Vì các thông tin đã được biểu diễn theo những định dạng chuẩn của bảng, thực thể,… được lưu trong CSDL, nên có thể trích rút được những thông tin cần

Trang 36

thiết một các dễ dàng thông qua các truy vấn người dùng Ví dụ dữ liệu có cấu trúc được lưu trữ trong hệ quản trị cơ sở dữ liệu MS SQL, MySQL có thể trích rút được những thông tin cần thiết dựa vào các câu lệnh SQL như SELECT, JOIN

b Dữ liệu không có cấu trúc

Với dữ liệu không có cấu trúc, bài toán trích rút thông tin có thể coi là bài toán nhận dạng và trích rút thực thể (Entity Recognition) như tên người, tên tổ chức, vị trí, ngày tháng, số Hình 2.1 là một ví dụ minh họa trích rút thực thể của dữ liệu không có cấu trúc

Để giải quyết bài toán trích xuất thực thể thì có nhiều cách tiếp cận như phương pháp HMM, SVM hay CRF…ngoài ra còn một giải thuật khá nổi tiếng đó là giải thuật DIPRE - Dual Iterative Pattern Relation Expansion của BRin trong việc trích xuất cặp thực thể quan hệ tên sách và tác giả đối với trang http://amazon.com

c Dữ liệu bán cấu trúc

Các trang web đại diện cho dữ liệu loại bán cấu trúc Có hai kỹ thuật thường xuyên được dùng để trích rút thông tin trên web đó là sử dụng cấu trúc cây DOM và sử dụng biểu thức chính quy

2.1.4 Phân loại các hệ thống trích rút thông tin

Theo những chuyên gia về trích rút thông tin của GATE [14] thì những

hệ thống trích rút thông tin sẽ tiến hành phân tích văn bản nhằm trích ra những thông tin cần thiết theo các dạng được định nghĩa trước, chẳng hạn như những sự kiện, các thực thể và các mối quan hệ Ngày nay, có rất nhiều hệ thống trích rút thông tin từ web được các nhà phát triển nghiên cứu và xây dựng Có nhiều tiêu chí để phân loại một hệ thống trích chọn thông tin từ web như dựa vào mức độ can thiệp của con người, dựa vào tầng dữ liệu được rút trích, dựa vào các phương pháp trích rút thông tin

Trang 37

a Dựa vào mức độ can thiệp của con người

Dựa vào mức độ can thiệp của con người trong quá trình trích rút thông tin, các hệ thống rút trích thông tin có thể được chia ra làm bốn loại bao gồm thủ công, có giám sát, bán giám sát, không giám sát Trong đó, các hệ thống hoàn toàn tự động, không có sự can thiệp của con người đang được quan tâm nhiều nhất

b Dựa vào tầng dữ liệu được rút trích

Một trang web sẽ có nhiều trang HTML, một trang HTML sẽ có nhiều bản ghi (record) và một bản ghi sẽ có nhiều thuộc tính Do đó, dựa vào kết quả thông tin rút trích được ở tầng nào, các hệ thống rút trích được chia ra làm bốn loại bao gồm tầng thuộc tính (attribute), tầng bản ghi (record), tầng trang HTML (page), tầng trang web (site)

Hiện tại các hệ thống xử lý ở tầng thuộc tính và record chiếm đa số Đến nay, vẫn chưa thấy xuất hiện các hệ thống rút trích thông tin ở tầng site

c Dựa vào các phương pháp rút trích thông tin

Các hệ thống rút trích thông tin cũng được chia thành ba dạng:

Các hệ thống dựa trên các phương pháp thủ công: Sử dụng các phương

pháp gán nhãn, các cách lấy thông tin trực tiếp từ cơ sở dữ liệu hoặc từ các dịch vụ web (Web Service)

Các hệ thống dựa trên các phương pháp Heuristic: Các phương pháp

thống kê, tập luật, sử dụng các mẫu thông tin, dựa vào cấu trúc cây,… được

sử dụng để rút trích thông tin

Các hệ thống dựa trên các phương pháp học: Sử dụng các phương

pháp mô hình Markov, CRFs, ngữ nghĩa, học trên cấu trúc cây,… để giúp cho các hệ thống hiểu và rút trích thông tin chính xác hơn

2.2 BÀI TOÁN TRÍCH RÚT THÔNG TIN TỪ TRANG WEB

Dữ liệu web là một trong những dạng cơ bản của dữ liệu bán cấu trúc

Trang 38

Vì vậy các phương pháp cũng như thuật toán trích rút thông tin cho dữ liệu bán cấu trúc cũng được áp dụng cho bài toán trích rút thông tin từ trang web

Sau đây là một số phương pháp sử dụng trong bài toán trích rút thông tin cho dữ liệu bán cấu trúc:

2.2.1 Trích rút thông tin từ trang web dựa trên cấu trúc cây DOM

a Khái nhiệm cây DOM [7]

Phương pháp sử dụng cây DOM sẽ phân tích mã nguồn HTML dưới dạng một cây các node, mỗi node là một thẻ HTML, quá trình trích rút thông tin sẽ dựa vào đường đi từ gốc đến node chứa thông tin cần trích rút

Theo W3C [17] thì DOM (Document Object Model) là một giao diện lập trình ứng dụng (API) cho các văn bản HTML hợp lệ và các văn bản XML

có cấu trúc chặt chẽ Nó định nghĩa cấu trúc logic của các văn bản và cách thức một văn bản được truy cập và thao tác [15]

Ví dụ về một bảng được lấy từ văn bản HTML:

Hình 2.3 Dạng biểu diễn cây DOM của mã HTML

Cây DOM được xây dựng dựa trên các thẻ HTML, trong đó nút gốc chính là thẻ ngoài cùng (TABLE), sau đó đến các thẻ lồng bên trong và lá

Trang 39

chính là các nội dung Như vậy việc trích chọn thông tin trên cây DOM chính

là việc duyệt cây thông qua các cặp thẻ HTML Như vậy, việc trích rút thông tin từ cây DOM phía trên như sau: Duyệt lần lượt qua các nút cây DOM đến khi nào gặp lá Khi đó, giá trị tại nút chính là thông tin cần trích rút Ví dụ:

Trích rút thông tin Aeolian thì sẽ duyệt cây DOM như sau: TBODY -> TR ->

TD -> Aeolian

b Phương pháp xây dựng cây DOM [7]

Xây dựng cây DOM từ những trang web đầu vào là một bước cần thiết trong nhiều giải thuật trích rút dữ liệu

Có hai phương pháp cơ bản để xây dựng các cây DOM:

* Sử dụng các thẻ riêng biệt [7]

Hầu hết các thẻ HTML làm việc trong một cặp Mỗi cặp chứa một thẻ

mở <> và một thẻ đóng </> Bên trong mỗi cặp thẻ có thể có những cặp thẻ khác, kết quả là cấu trúc trở nên chồng chéo Xây dựng một cây DOM từ một trang web bằng cách sử dụng mã HTML của nó là một vấn đề cần thiết Trong một cây DOM, mỗi cặp thẻ là một node, những cặp thẻ ẩn bên trong là node con của node hiện tại Có hai nhiệm vụ cần thi hành đó là:

Làm sạch mã HTML: Một vài thẻ không cần thẻ đóng (như <li>,

<hr>,<p>) mặc dù chúng có thẻ đóng Bởi vậy một thẻ đóng nên được chèn vào để tất cả các thẻ được cân bằng Các thẻ được định dạng không tốt cũng cần thiết được sửa chữa Một thẻ sai thường là một thẻ đóng, đó là thẻ cắt

ngang các khối ẩn bên trong Ví dụ: <tr> … <td> … </tr> … </td>, sẽ rất

khó để sửa lỗi trường hợp này nếu tồn tại sự chồng chéo đa cấp Có một vài phần mềm mã nguồn mở để làm sạch mã HTML, một số những phần mềm thông dụng như: JTidy, NekoHTML, HTMLCleaner

Xây dựng cây: Chúng ta có thể đi theo các khối con của các thẻ HTML

để xây dựng được cây DOM

Trang 40

* Sử dụng các thẻ và các hộp thông tin trực quan Visual Cue

Thay vì phân tích mã HTML để sửa lỗi, có thể sử dụng sự biểu diễn hoặc các thông tin trực quan (ví dụ địa chỉ trên màn hình mà các thẻ được biểu diễn)

để suy luận mối quan hệ có cấu trúc của các thẻ và có thể xây dựng được cây DOM Phương thức xây dựng có thể phân tích mã HTML thành cây DOM, miễn là trình duyệt có thể hiển thị được đoạn mã đó một cách chính xác

Trong một trình duyệt web, mỗi phần tử HTML (chứa đựng một thẻ

mở, các thuộc tính tùy chọn, nội dung HTML được nhúng tùy ý và một thẻ đóng, thẻ này có thể thiếu) được biểu diễn như một hình chữ nhật Thông tin trực quan này có thể lấy được sau khi mã HTML được biểu diễn trên trình duyệt Một cây DOM sau đó có thể được xây dựng dựa vào các thông tin trực quan này Các bước xử lý như sau:

- Tìm 4 đường biên của hình chữ nhật ứng với mỗi phần tử HTML thông qua việc công cụ trình diễn của trình duyệt ví dụ như trình duyệt Internet Explorer

- Theo sự tuần tự của các thẻ mở kiểm tra xem một hình chữ nhật có nằm trong một hình chữ nhật khác không để xây dựng cây DOM Hình 2.5 minh họa về sử dụng hộp thông tin trực quan Visual Cue gồm đoạn HTML, tọa độ ranh giới, và cây kết quả Đoạn mã HTML này có ba lỗi,

sử dụng thông tin trực quan có thể dễ dàng xây dựng được cây DOM

Hình 2.4 Ví dụ xây dựng cây DOM sử dụng hộp ảo

Tiêu đề	Nghiên Cứu, Xây Dựng Ứng Dụng Đọc Tin Nhanh Bằng Cách Trích Rút Và Tổng Hợp Thông Tin Từ Các Trang Web
Tác giả	Nguyễn Thị Khuyến
Người hướng dẫn	TS. Huỳnh Công Pháp
Trường học	Đại học Đà Nẵng
Chuyên ngành	Hệ thống thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2016
Thành phố	Đà Nẵng

Định dạng
Số trang	110
Dung lượng	3,63 MB