1. Trang chủ
  2. » Luận Văn - Báo Cáo

KHAI PHÁ dữ LIỆU NÂNG CAO

83 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 1,46 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Theo họ, phân tích văn bản là một khái niệm rộng hơn bao gồm tìm kiếm thông tin tìm kiếm và xác định các tài liệu có liên quan cho một tập khóa là thuật ngữ, cũng như trích xuất thông ti

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI VIỆN TOÁN ỨNG DỤNG VÀ TIN HỌC

KHAI PHÁ DỮ LIỆU NÂNG CAO

BÁO CÁO CUỐI KỲ

Giảng viên hướng dẫn: TS LÊ CHÍ NGỌC Sinh viên thực hiện:

NGUYỄN THỊ PHƯƠNG THANH 20163641

HÀ NỘI – 20192

Trang 2

Mục lục

CHƯƠNG 7 – KHAI PHÁ DỮ LIỆU NÂNG CAO 3

7.1 Khai phá dữ liệu văn bản 3

7.1.1 Khái niệm 3

7.1.2 Xử lý ngôn ngữ tự nhiên 8

7.1.3 Các ứng dụng 13

7.1.4 Các bước khai phá dữ liệu văn bản 19

7.2 Khai phá dữ liệu Web 29

7.2.1 Tổng quan 29

7.2.2 Khai phá nội dung 31

7.2.3 Khai phá cấu trúc 33

7.2.4 Máy tìm kiếm và tối ưu máy tìm kiếm 34

7.2.5 Phân tích sử dụng 41

7.3 Khai phá dữ liệu mạng xã hội 52

7.3.1 Khái niệm 52

7.3.2 Các đặc trưng của mạng xã hội 55

7.3.3 Phân tích cộng đồng 57

7.3.4 Phân tích ảnh hưởng 60

7.3.5 Phân tích hành vi 62

7.4 Phân tích khách hàng 65

7.4.1 Phân tích dựa trên đặc trưng 65

7.4.2 Phân tích bình luận, đánh giá 66

7.4.3 Phân tích dựa trên hành vi 67

7.4.4 Hệ khuyến nghị 71

7.4.5 Phân tích dựa trên mạng xã hội 82

Trang 3

CHƯƠNG 7 – KHAI PHÁ DỮ LIỆU NÂNG CAO

7.1 Khai phá dữ liệu văn bản

Mặc dù mục tiêu bao trùm cho cả phân tích văn bản và khai phá văn bản là biến dữ liệu phi cấu trúc thành thông tin hành động thông qua ứng dụng của phân tích và xử lý ngôn ngữ tự nhiên (Natural language processing – NLP), định nghĩa của chúng đến một mức nào đó có phần khác nhau, ít nhất là theo một số chuyên gia trong lĩnh vực này Theo họ, phân tích văn bản là một khái niệm rộng hơn bao gồm tìm kiếm thông tin (tìm kiếm và xác định các tài liệu có liên quan cho một tập khóa là thuật ngữ), cũng như trích xuất thông tin, khai thác dữ liệu và khai thác Web, trong khi đó khai phá văn bản chủ yếu tập trung vào phát hiện tri thức mới và hữu ích từ các nguồn dữ liệu văn bản Hình 7.1.1 minh họa mối quan hệ giữa phân tích văn bản và khai phá văn bản cùng với các lĩnh vực ứng dụng liên quan khác Phần dưới cùng của hình 7.1.1 liệt kê các môn học chính (nền tảng của ngôi nhà) đóng vai trò mang tính quyết định trong sự phát triển gia tăng các lĩnh vực ứng dụng phổ biến hơn Dựa trên định nghĩa của phân tích văn bản và khai phá văn bản này, người ta có thể đưa ra công thức đơn giản như sau:

Trang 4

𝑃ℎâ𝑛 𝑡í𝑐ℎ 𝑣ă𝑛 𝑏ả𝑛

= 𝑇ì𝑚 𝑘𝑖ế𝑚 𝑡ℎô𝑛𝑔 𝑡𝑖𝑛 + 𝑇𝑟í𝑐ℎ 𝑥𝑢ấ𝑡 𝑡ℎô𝑛𝑔 𝑡𝑖𝑛+ 𝐾ℎ𝑎𝑖 𝑝ℎá 𝑑ữ 𝑙𝑖ệ𝑢 + 𝐾ℎ𝑎𝑖 𝑝ℎá 𝑊𝑒𝑏

hoặc đơn giản là

𝑃ℎâ𝑛 𝑡í𝑐ℎ 𝑣ă𝑛 𝑏ả𝑛 = 𝑇ì𝑚 𝑘𝑖ế𝑚 𝑡ℎô𝑛𝑔 𝑡𝑖𝑛 + 𝐾ℎ𝑎𝑖 𝑝ℎá 𝑣ă𝑛 𝑏ả𝑛

Hình 7.1.1 – Phân tích văn bản, các lĩnh vực ứng dụng liên quan và các

môn học bổ trợ

Thuật ngữ phân tích văn bản được sử dụng phổ biến hơn trong bối cảnh ứng dụng thương mại, khai phá văn bản thường được sử dụng trong giới nghiên cứu học thuật Mặc dù đôi lúc chúng có thể được định nghĩa khác nhau, phân tích văn bản và khai phá văn bản thường được sử dụng đồng nghĩa

Khai phá văn bản (được biết đến như khai phá dữ liệu văn bản hay

khám phá tri thức trong cơ sở dữ liệu văn bản) là quá trình trích xuất mẫu

Trang 5

bán tự động (thông tin hữu ích và tri thức) từ lượng lớn các nguồn dữ liệu phi cấu trúc Nhớ rằng khai phá dữ liệu là quá trình xác định tính hợp lệ, mới

lạ, có khả năng hữu ích và cuối cùng là có nghĩa của các mẫu trong dữ liệu được lưu trữ trong cơ sở dữ liệu có cấu trúc, nơi dữ liệu được sắp xếp trong các bản ghi được cấu trúc bởi các biến rõ ràng, có thứ tự hoặc liên tục Khai phá văn bản giống khai phá dữ liệu ở chỗ nó cũng có cùng mục đích và sử dụng cùng quy trình, nhưng với khai phá văn bản, đầu vào của quá trình là tập hợp các tệp dữ liệu phi cấu trúc (hoặc bán cấu trúc) như tài liệu Word, tệp PDF, đoạn trích văn bản, tệp XML,… Về bản chất, khai phá văn bản có thể coi là một quá trình (với hai bước chính) bắt đầu với việc áp đặt cấu trúc trên các nguồn dữ liệu dựa trên văn bản, tiếp đến là trích xuất thông tin liên quan và tri thức từ dữ liệu dựa trên văn bản có cấu trúc này, sử dụng các kỹ thuật và công cụ khai phá dữ liệu

Khai phá văn bản đem lại lợi ích rõ ràng ở những lĩnh vực có lượng lớn dữ liệu văn bản được tạo ra, chẳng hạn như luật (thủ tục tòa án), nghiên cứu học thuật (các bài báo nghiên cứu), tài chính (báo cáo hàng quý), y khoa (tóm tắt ra viện), sinh học (sự tác động qua lại của các phần tử), công nghệ (bằng sáng chế), và tiếp thị (ý kiến khách hàng) Ví dụ, các tương tác dựa trên văn bản tự do với khách hàng dưới dạng khiếu nại (hoặc khen ngợi) và yêu cầu bảo hành có thể được sự dụng để xác định một cách khách quan đặc tính của sản phẩm và dịch vụ được cho là kém hoàn hảo và có thể sử dụng như đầu vào để phát triển sản phẩm và phân bổ dịch vụ tốt hơn Tương tự, các chương trình tiếp cận thị trường tạo ra lượng lớn dữ liệu Bằng cách không hạn chế việc phản hồi về sản phẩm cũng như dịch vụ ở dạng đã được

hệ thống hóa, khách hàng có thể trình bày ý nghĩ theo cách riêng của họ về sản phẩm và dịch vụ của công ty Một lĩnh vực khác trong xử lý tự động văn bản phi cấu trúc đã có nhiều tác động trong truyền thông và thư điện tử Khai phá văn bản không chỉ có thể được sử dụng để phân loại và lọc thư rác, mà còn có thể được sử dụng để tự động ưu tiên thư dựa trên độ quan trọng cũng

Trang 6

như tạo phản hồi tự động (Weng and Liu, 2004) Sau đây là một trong những lĩnh vực ứng dụng phổ biến nhất của khai phá văn bản:

• Trích xuất thông tin: Xác định các cụm từ khóa và mối quan hệ trong văn bản bằng cách tìm kiếm các đối tượng và trình tự được xác định trước trong văn bản bằng các mẫu phù hợp Có lẽ hình thức được sử dụng phổ biến nhất trong trích xuất thông tin là trích xuất tên thực thể Trích xuất tên thực thể bao gồm nhận dạng tên thực thể (tên người, tổ chức, địa danh, biểu thức thời gian và một số loại biểu thức số nào đó,

sử dụng các tri thức sẵn có về lĩnh vực), lời giải có cùng tham chiếu (phát hiện đồng tham chiếu và liên kết anaphoric giữa các thực thể văn bản) và trích xuất quan hệ (xác định mối quan hệ giữa các thực thể)

• Theo dõi chủ đề: Dựa trên hồ sơ người dùng và tài liệu người dùng xem, khai phá văn bản có thể dự đoán các tài liệu mà người dùng quan tâm

• Tổng kết: Tóm tắt tài liệu để tiết kiệm thời gian cho người đọc

• Phân loại: Xác định các chủ đề chính của tài liệu và sau đó đặt tài liệu thành một tập các danh mục được định nghĩa trước dựa trên các chủ

• Trả lời câu hỏi: Tìm ra câu trả lời tốt nhất cho câu hỏi thông qua so khớp mẫu với mô hình hướng tri thức

Trang 7

Dưới đây là danh sách mô tả một số thuật ngữ được sử dụng phổ biến trong khai phá văn bản:

• Dữ liệu phi cấu trúc (trái ngược dữ liệu có cấu trúc): Dữ liệu có cấu trúc

có định dạng được xác định trước Nó thường được tổ chức thành các bản ghi được lưu trữ trong cơ sở dữ liệu Ngược lại, dữ liệu phi cấu trúc không

có định dạng được xác định trước, được lưu trữ dưới dạng tài liệu văn bản Về bản chất, dữ liệu có cấu trúc là để máy tính xử lý còn dữ liệu phi cấu trúc là để con người xử lý

• Corpus/Corpora: Trong ngôn ngữ học, là một dữ liệu tập hợp nhiều văn bản và có cấu trúc (bây giờ thường được lưu trữ và xử lý điện tử) được chuẩn bị cho mục đích khám phá tri thức

• Terms: Là một từ đơn hoặc cụm từ được trích rút trực tiếp từ Corpus của

một miền cụ thể bằng phương pháp xử lý ngôn ngữ tự nhiên (NLP)

• Concepts (Khái niệm): là đặc trưng được tạo ra từ tập hợp các tài liệu bằng các phương pháp như phân loại, thống kê, dựa trên quy tắc hoặc lai tạo So với thuật ngữ, khái niệm là kết quả của sự trừu tượng cấp cao hơn

• Stemming: là quá trình biến đổi một từ về dạng gốc (được gọi là stem hoặc root form) bằng cách loại bỏ một số ký tự nằm ở cuối từ mà nó nghĩ rằng là biến thể của từ

• Stop word (hay noise word): là những từ được lọc ra trước hoặc sau quá trình xử lý ngôn ngữ tự nhiên

• Synonyms and polysemes: từ đồng nghĩa và từ nhiều nghĩa Từ đồng nghĩa là các từ khác nhau về mặt cú pháp những giống nhau về ngữ nghĩa

Từ nhiều nghĩa (hay còn gọi là đồng âm) là từ giống nhau về cú pháp

những khác nhau về nghĩa

• Tokenizing: một token là một khối văn bản được phân loại trong câu

Khối văn bản tương ứng với token được phân loại theo chức năng của nó

Trang 8

• Term dictionary: Một tập các thuật ngữ dành riêng cho 1 lĩnh vực nào đó

có thể được sử dụng hạn chế thuật ngữ trích xuất (trích rút) trong một

Corpus

• Word frequency: Số lần xuất hiện của một từ trong một tài liệu cụ thể

• Part of speech tagging: Quá trình đánh dấu từ trong văn bản (danh từ,

các cột, tần số trong các ô có dạng là giá trị nguyên

• Singular value decomposition (phân tích giá trị kỳ dị): Một phương pháp giảm chiều dữ liệu sử dụng cho ma trận sự kiện, chuyển ma trận thành kích thước có thể quản lý bằng cách tạo một đại diện trung gian của các tần số bằng phương pháp thao tác ma trận tương tự như phân tích thành

phần chính

7.1.2 Xử lý ngôn ngữ tự nhiên

Một số ứng dụng khai phá văn bản những ngày đầu sử dụng một biểu diễn đơn giản được gọi là bag-of-words khi mô tả cấu trúc cho một tập hợp các tài liệu dựa trên văn bản theo thứ tự để phân loại chúng thành hai hoặc nhiều lớp được xác định trước hoặc phân cụm chúng thành nhóm Trong mô hình bag-of-words, văn bản được trình bày dưới dạng một tập hợp các từ, không quan tâm đến ngữ pháp hoặc trật tự Mô hình bag-of-words vẫn được sử dụng trong một số công cụ phân loại tài liệu đơn giản Chẳng hạn, trong việc lọc thư rác, một thông điệp email có thể được mô hình thành một bộ các từ không

Trang 9

có thứ tự (một túi các từ) được so sánh với hai túi định trước khác nhau Một túi chứa đầy các từ được tìm thấy trong tin nhắn rác và cái còn lại chứa đầy những từ được tìm thấy trong e-mail hợp lệ Mặc dù một số từ có khả năng được tìm thấy trong cả hai túi, túi “rác” sẽ chứa các từ liên quan đến thư rác

như stock, Viagra, và buy thường xuyên hơn so với túi hợp lệ, sẽ chứa nhiều

từ liên quan đến người dùng hay bạn bè ở nơi làm việc Mức độ khớp giữa một túi những từ trong e-mail cụ thể và hai túi chứa các mô tả xác định e-mail là thư rác hoặc hợp lệ

Đương nhiên, chúng ta (con người) không sử dụng từ ngữ mà không

có một số trật tự hoặc cấu trúc Chúng ta sử dụng từ trong câu, có cấu trúc ngữ nghĩa cũng như cú pháp Do đó, các kỹ thuật tự động (như khai phá văn bản) cần tìm cách ngoài bag-of-words để được phiên dịch và kết hợp ngày càng nhiều cấu trúc ngữ nghĩa vào thao tác của chúng Xu hướng hiện nay trong khai phá văn bản là hướng tới bao gồm nhiều tính năng nâng cao có thể thu được bằng cách xử lý ngôn ngữ tự nhiên

Xứ lý ngôn ngữ tự nhiên (Natural language processing – NLP) là

một thành phần quan trọng trong khai phá văn bản và là một lĩnh vực của trí tuệ nhân tạo và ngôn ngữ học tính toán Nó nghiên cứu vấn đề “hiểu” về ngôn ngữ tự nhiên của con người, với góc nhìn chuyển đổi các miêu tả ngôn ngữ của con người (như tài liệu văn bản) thành các biểu diễn hình thức hơn (dưới dạng dữ liệu số và ký hiệu) dễ dàng hơn cho các chương trình máy tính thao tác Mục tiêu của NLP là vượt ra ngoài thao tác văn bản theo cú pháp (mà thường được gọi là đếm từ) để hiểu và xử lý ngôn ngữ tự nhiên một cách thực

sự, xem xét các ràng buộc về ngữ pháp và ngữ nghĩa cũng như bối cảnh

Định nghĩa và phạm vi của từ “hiểu” là một trong những chủ đề thảo luận chính trong NLP Xét rằng ngôn ngữ tự nhiên của con người là mơ hồ

và để thật sự hiểu ý nghĩa đòi hỏi kiến thức sâu rộng về một chủ đề (ngoài những gì trong các từ, câu và đoạn văn), liệu máy tính sẽ rất khó có thể hiểu ngôn ngữ tự nhiên theo cùng một cách và với độ chính xác như con người

Trang 10

NLP đã đi một chặng đường dài từ những ngày đếm từ đơn giản, nhưng nó còn dài hơn khi có thể đi đến thực sự hiểu ngôn ngữ tự nhiên của con người Sau đây là một vài những thách thức thường liên quan đến việc thực hiện NLP:

• Gán nhãn từ loại (Part-of-speech tagging): Rất khó để đánh dấu các thuật ngữ trong một văn bản tương ứng với một từ loại cụ thể (như danh từ, động từ, tính từ, trạng từ, v.v.) bởi vì từ loại không chỉ phụ thuộc vào định nghĩa của thuật ngữ mà còn trên ngữ cảnh mà nó được

sử dụng

• Tách văn bản (Text segmentation): Một số ngôn ngữ viết, chẳng hạn như tiếng Trung, tiếng Nhật và Tiếng Thái, không có ranh giới giữa các từ đơn Trong các trường hợp này, tác vụ phân tích cú pháp văn bản yêu cầu xác định ranh giới từ, thường là một nhiệm vụ khó khăn Giống những thách thức trong phân tách lời nói xuất hiện khi phân tích ngôn ngữ nói, bởi vì âm thanh đại diện cho các chữ cái và từ nối tiếp nhau

• Word sense disambiguation: Nhiều từ có hơn một nghĩa Chọn nghĩa đem lại ý nghĩa nhất được hoàn thành bằng cách tính đến ngữ cảnh

mà từ đó được sử dụng

• Nhập nhằng ngữ pháp (Syntactic ambiguity): Ngữ pháp trong ngôn

ngữ tự nhiên là không rõ ràng, nhiều cấu trúc câu có thể thường cần được xem xét Chọn cấu trúc phù hợp nhất thường đòi hỏi một sự kết hợp giữa ngữ nghĩa và ngữ cảnh thông tin

• Đầu vào không hoàn thiện hoặc không đúng quy luật (Imperfect or irregular input): Giọng nước ngoài hoặc vùng miền và các trở ngại về giọng nói trong lời nói và lỗi đánh máy hoặc ngữ pháp trong văn bản làm cho việc xử lý ngôn ngữ trở nên khó khăn hơn

Trang 11

• Hành vi lời nói (Speech acts): Một câu thường có thể được coi là một hành vi của người nói Các cấu trúc câu đứng một mình có thể không chứa đủ thông tin để xác định hành động này Ví dụ, “Bạn có thể qua môn học không? Yêu cầu một câu trả lời có/không đơn giản, trong khi

“Bạn có thể vượt qua đường không?” là một yêu cầu cho một hành động vật lý được thực hiện

Ước mơ từ lâu của cộng đồng trí tuệ nhân tạo là có thuật toán có khả năng tự động đọc và thu thập tri thức từ văn bản Bằng cách áp dụng thuật toán học tập vào văn bản được phân tích cú pháp, các nhà nghiên cứu từ phòng thí nghiệm NLP của Đại học Stanford đã phát triển các phương pháp

có thể tự động xác định các khái niệm và mối quan hệ giữa các khái niệm trong văn bản Bằng cách áp dụng một quy trình duy nhất cho số lượng lớn văn bản, thuật toán của họ sẽ tự động thu được hàng trăm ngàn mục kiến thức trên thế giới và sử dụng chúng để tạo ra các kho lưu trữ được tăng cường

đáng kể cho WordNet WordNet là một cơ sở dữ liệu được mã hóa bằng tay

của các từ tiếng Anh, định nghĩa của chúng, các bộ từ đồng nghĩa và quan hệ ngữ nghĩa khác nhau giữa các bộ từ đồng nghĩa Đây là một nguồn lực chính cho các ứng dụng NLP, nhưng nó đã được chứng minh là rất tốn kém để xây dựng và bảo trì thủ công Bằng cách tự động đưa kiến thức vào WordNet, tiềm năng hiện có để tạo ra WordNet một nguồn tài nguyên thậm chí còn lớn hơn và toàn diện hơn cho NLP ở một phần nhỏ của giá cả Một lĩnh vực nổi bật nơi các lợi ích của NLP và WordNet đã được thu hoạch là trong quản lý quan hệ khách hàng (CRM) Nói rộng ra, mục tiêu của CRM là tối đa hóa giá trị khách hàng bằng cách hiểu rõ hơn và đáp ứng hiệu quả nhu cầu thực tế và nhận thức của họ Một lĩnh vực quan trọng của CRM, nơi NLP đang thực hiện một tác động đáng kể, là phân tích tình cảm phân tích tình cảm là một

kỹ thuật được sử dụng để phát hiện ý kiến thuận lợi và bất lợi đối với các sản phẩm và dịch vụ cụ thể bằng cách sử dụng số lượng lớn các nguồn dữ liệu

Trang 12

văn bản (phản hồi của khách hàng dưới dạng bài đăng trên Web) Khai phá văn bản cũng được sử dụng để đánh giá các lời phàn nàn công khai

NLP đã thành công áp dụng trong nhiều lĩnh vực khác nhau cho nhiều nhiệm vụ thông qua các chương trình máy tính để tự động xử lý ngôn ngữ tự nhiên của con người mà trước đây chỉ có thể được thực hiện bởi con người Sau đây là một trong những nhiệm vụ phổ biến nhất:

• Trả lời câu hỏi: Nhiệm vụ tự động trả lời một câu hỏi được đặt ra trong ngôn ngữ tự nhiên, nghĩa là tạo ra một câu trả lời bằng ngôn ngữ của con người khi được nhận một câu hỏi ngôn ngữ của con người Để tìm câu trả lời cho một câu hỏi, chương trình máy tính có thể sử dụng cơ

sở dữ liệu cấu trúc hoặc bộ các tài liệu ngôn ngữ tự nhiên (văn bản Corpus như World Wide Web)

• Tóm tắt tự động: Là việc tạo ra một phiên bản tóm tắt của một văn bản tài liệu bởi một chương trình máy tính có chứa những điểm quan trọng nhất của tài liệu gốc

• Sinh ra ngôn ngữ tự nhiên: Hệ thống chuyển đổi thông tin từ cơ sở dữ liệu máy tính thành ngôn ngữ con người

• Hiểu ngôn ngữ tự nhiên: Các hệ thống chuyển đổi các mẫu ngôn ngữ của con người thành các biểu diễn hình thức hơn để các chương trình máy tính dễ dàng hơn vận dụng

• Dịch máy: Dịch tự động ngôn ngữ của một người sang ngôn ngữ khác

• Đọc ngôn ngữ nước ngoài: Một chương trình máy tính hỗ trợ đọc, phát

âm từ

• Viết ngôn ngữ nước ngoài: Chương trình hỗ trợ viết từ nước ngoài

• Nhận dạng giọng nói: Chuyển từ được nói thành đầu vào máy tính có thể đọc Đưa ra âm thanh của người nói, hệ thống tạo ra một văn bản như đọc chép chính tả

Trang 13

• Chuyển văn bản thành tiếng nói: Cũng được gọi là tổng hợp giọng nói Một chương trình máy tính tự động chuyển đổi văn bản thành lời nói của con người

• Kiểm tra văn bản: Một chương trình máy tính đọc và kiểm tra văn bản

để phát hiện và sửa chữa lỗi nếu có

• Nhận dạng đặc trưng quang học: Dịch tự động các hình ảnh của văn bản viết tay, đánh máy hoặc in (thường được chụp lại bởi máy quét) thành các tài liệu văn bản có thể điều khiển bởi máy tính

Sự thành công và phổ biến của khai thác văn bản phụ thuộc rất lớn vào những tiến bộ trong NLP trong cả thế hệ cũng như sự hiểu biết về ngôn ngữ của con người NLP cho phép trích xuất các đặc trưng từ văn bản phi cấu trúc để có nhiều kỹ thuật khai phá dữ liệu có thể được sử dụng để trích xuất tri thức (các dạng và mối quan hệ mới lạ và hữu ích) từ nó Trong chiều hướng đó, nói một cách đơn giản, khai phá văn bản là sự kết hợp giữa NLP và khai phá dữ liệu

Ứng dụng tiếp thị

Khai phá văn bản có thể được sử dụng để phân tích dữ liệu phi cấu trúc được tạo bởi các trung tâm cuộc gọi Văn bản được tạo bởi ghi chú của trung tâm cuộc gọi cũng như bản ghi âm các cuộc hội thoại bằng giọng nói với khách hàng có thể được phân tích bằng thuật toán khai phá văn bản để trích xuất thông tin mới lạ, hành vi nhận thức của khách hàng về sản phẩm và dịch vụ

Trang 14

một công ty Ngoài ra, blog, đánh giá của người dùng về sản phẩm tại các trang Web độc lập, và các bài đăng trên bảng thảo luận là một mỏ vàng để nhận biết cảm nghĩ khách hàng Tập hợp thông tin phong phú này khi được phân tích chính xác, có thể được sử dụng để tăng sự hài lòng và giá trị trọn đời của khách hàng

Khai phá văn bản đã trở nên vô giá đối với quản lý quan hệ khách hàng Các công ty có thể sử dụng khai phá văn bản để phân tích các tập dữ liệu văn bản phi cấu trúc phong phú, kết hợp với dữ liệu có cấu trúc liên quan được trích xuất từ cơ sở dữ liệu của tổ chức để dự đoán nhận thức của khách hàng và hành vi mua hàng tiếp theo Coussement và Van den Poel (2009) đã

áp dụng thành công khai phá văn bản để cải thiện đáng kể khả năng của một

mô hình dự đoán khách hàng có rời đi hay không, hỗ trợ công ty xác định chính xác các chiến thuật duy trì

Ghani và cộng sự (2006) đã sử dụng khai phá văn bản để phát triển một hệ thống có khả năng suy luận ngầm và các thuộc tính chi tiết của sản phẩm để tăng cường khả năng phân tích cơ sở dữ liệu của nhà bán lẻ Việc coi các sản phẩm là tập hợp các cặp giá trị thuộc tính chứ không phải là các thực thể nguyên tử có khả năng tăng hiệu quả của nhiều ứng dụng kinh doanh, bao gồm dự báo nhu cầu, tối ưu hóa sản phẩm, khuyến nghị sản phẩm, so sánh các loại sản phẩm giữa các nhà bán lẻ và nhà sản xuất, và lựa chọn nhà cung cấp sản phẩm Hệ thống đề xuất cho phép một công việc để đại diện cho các sản phẩm của mình về các thuộc tính và giá trị thuộc tính mà không cần nhiều nỗ lực thủ công Hệ thống học các thuộc tính này bằng cách áp dụng các kỹ thuật học có giám sát và bán giám sát vào các mô tả sản phẩm được tìm thấy trên các trang web của nhà bán lẻ

Ứng dụng bảo mật

Một trong những ứng dụng khai phá văn bản lớn nhất và nổi bật nhất trong lĩnh vực bảo mật có lẽ là hệ thống giám sát ECHELON phân loại mức độ

Trang 15

cao Như tin đồn, ECHELON được coi là có khả năng xác định nội dung của các cuộc gọi điện thoại, fax, e-mail và các loại dữ liệu và thông tin bị chặn khác được gửi qua vệ tinh, mạng điện thoại chuyển mạch công cộng và kết nối sóng cực ngắn

Năm 2007, EUROPOL đã phát triển một hệ thống tích hợp có khả năng truy cập, lưu trữ và phân tích một lượng lớn các nguồn dữ liệu có cấu trúc và phi cấu trúc để theo dõi tội phạm có tổ chức xuyên quốc gia Nó được gọi là Hệ thống phân tích tổng thể hỗ trợ thông tin (Overall Analysis System for Intelligence Support - OASIS), hệ thống này tích hợp các công nghệ khai phá dữ liệu và văn bản tiên tiến nhất hiện có trên thị trường hiện nay Hệ thống đã cho phép EUROPOL đạt được tiến bộ đáng kể trong việc hỗ trợ các mục đích thực thi pháp luật của mình ở cấp quốc tế (EUROPOL, 2007)

Cục Điều tra Liên bang Hoa Kỳ (FBI) và Cơ quan Tình báo Trung ương (CIA), dưới sự chỉ đạo của Bộ An ninh Nội địa, đang cùng phát triển một hệ thống siêu máy tính khai phá dữ liệu và văn bản Hệ thống dự kiến sẽ tạo ra một kho dữ liệu khổng lồ cùng với một loạt các mô-đun khai thác dữ liệu và văn bản để đáp ứng nhu cầu khám phá tri thức của các cơ quan thực thi pháp luật liên bang, tiểu bang và địa phương Trước dự án này, FBI và CIA mỗi người có cơ sở dữ liệu riêng, với rất ít hoặc không có kết nối với nhau

Một ứng dụng liên quan đến bảo mật khác trong khai phá văn bản là trong lĩnh vực phát hiện nói dối Áp dụng khai phá văn bản cho một tập lớn báo cáo tội phạm trong thế giới thực, Fuller et al (2008) đã phát triển các mô hình dự đoán để phân biệt lừa đảo từ những người trung thực Sử dụng một tập hợp các tín hiệu phong phú được trích xuất từ các báo cáo văn bản, mô hình đã dự đoán các mẫu nắm giữ với độ chính xác 70%, được cho là thành công đáng kể khi xem xét các tín hiệu chỉ được trích xuất từ văn bản báo cáo (không có dấu hiệu bằng lời nói hoặc hình ảnh có mặt) Hơn nữa, so với khác

Trang 16

kỹ thuật phát hiện lừa dối, chẳng hạn như polygrap (dụng cụ đa ký - trong y học), phương pháp này là không xâm phạm và áp dụng rộng rãi cho không chỉ dữ liệu văn bản, mà còn (có khả năng) cho các bản ghi âm giọng nói

Ứng dụng chẩn đoán lâm sàng

Khai phá văn bản có tiềm năng lớn trong lĩnh vực y tế nói chung và y sinh nói riêng vì nhiều lý do Đầu tiên, các tài liệu xuất bản và các cửa hàng xuất bản (đặc biệt là với sự ra đời của các tạp chí nguồn mở) trong lĩnh vực này đang mở rộng theo tỷ lệ cấp số nhân Thứ hai, so với hầu hết các lĩnh vực khác, tài liệu y khoa được chuẩn hóa hơn và có trật tự, làm cho nó trở thành một nguồn thông tin có thể khai thác được nhiều hơn nữa Cuối cùng, thuật ngữ được sử dụng trong tài liệu này là tương đối ổn định, có một bản thể luận

đã chuẩn hóa Sau đây là một vài dẫn chứng nghiên cứu trong đó kỹ thuật khai phá văn bản đã được sử dụng thành công trong việc trích xuất các mẫu dạng lạ từ văn học y sinh

Các kỹ thuật thí nghiệm như phân tích microarray DNA, phân tích biểu hiện chuỗi gen (SAGE) và proteomics khối phổ, đang tạo ra một lượng lớn dữ liệu liên quan đến gen và protein Như trong bất kỳ thử nghiệm nào khác, cần phải phân tích lượng dữ liệu khổng lồ này trong bối cảnh thông tin

đã biết trước đó về các thực thể sinh học đang được nghiên cứu Tài liệu khoa học là một nguồn thông tin đặc biệt có giá trị để xác nhận và giải thích thí nghiệm Do đó, việc phát triển các công cụ khai thác văn bản tự động để hỗ trợ cho việc giải thích như vậy là một trong những thách thức chính trong nghiên cứu tin sinh học hiện nay

Biết vị trí của protein trong tế bào có thể giúp làm rõ vai trò của nó trong phương pháp sinh học và để xác định khả năng của nó như là thuốc Nhiều hệ thống định vị được mô tả trong tài liệu; một số tập trung vào các

cơ quan cụ thể, trong khi những người khác cố gắng phân tích một loạt các

cơ quan Shatkay et al (2007) đề xuất một hệ thống toàn diện sử dụng một

Trang 17

số loại trình tự và đặc trưng dựa trên văn bản để dự đoán vị trí của protein

Sự mới lạ chính của hệ thống của họ nằm ở cách nó chọn các nguồn văn bản

và các đặc trưng của nó và tích hợp chúng với các đặc trưng theo trình tự Họ

đã thử nghiệm hệ thống trên các bộ dữ liệu được sử dụng trước đó và trên dữ liệu mới thiết lập đặc biệt để kiểm tra khả năng dự đoán của nó Kết quả cho thấy hệ thống của họ liên tục đánh bại các kết quả báo cáo trước đó

Chun và cộng sự (2006) đã mô tả một hệ thống trích xuất các mối quan hệ gen bệnh từ tài liệu truy cập thông qua MedLine Họ đã xây dựng một từ điển về tên bệnh và gen từ sáu cơ sở dữ liệu công cộng và trích xuất các mối liên hệ bằng cách so khớp từ điển Bởi vì kết hợp từ điển tạo ra một

số lượng lớn các kết quả dương tính giả, họ đã phát triển một phương pháp học máy dựa trên nhận dạng thực thể có tên (NER) để lọc ra các chẩn đoán gen/bệnh sai Họ thấy rằng sự thành công của việc trích xuất mỗi liên phụ thuộc rất nhiều vào hiệu suất của bộ lọc NER và bộ lọc đã cải thiện độ chính xác của trích xuất mối liên hệ bằng 26,7% với sự giảm thiểu chi phí

Hình 7.1.2 cho thấy một mô tả đơn giản của một quá trình phân tích văn bản nhiều cấp để khám phá các mối quan hệ protein gen (hay tương tác protein - protein) trong tài liệu y sinh (Nakov et al., 2005) Như có thể thấy trong ví dụ đơn giản này sử dụng một câu đơn giản từ văn bản y sinh, đầu tiên (ở ba cấp độ dưới cùng) văn bản được mã hóa sử dụng gán nhãn từ loại

và phân tích ngữ pháp theo chiều rộng Các thuật ngữ (từ) được mã hóa sau

đó so khớp (và phiên dịch) với biểu diễn phân cấp của miền bản thể luận để rút ra mối quan hệ protein - gen Áp dụng phương pháp này (có thể một số biến thể của nó) đối với tài liệu y sinh cung cấp tiềm năng lớn để giải mã sự phức tạp trong Dự án mã gen người

Trang 18

Hình 7.1.2 – Phân tích văn bản nhiều cấp trong việc xác định tương tác

Gen/Protein

Ứng dụng trong học thuật

Vấn đề khai thác văn bản có tầm quan trọng lớn đối với các nhà xuất bản nắm giữ cơ sở dữ liệu thông tin lớn, yêu cầu lập chỉ mục để truy xuất tốt hơn Điều này đặc biệt đúng trong khoa học, trong đó thông tin đặc biệt thường được chứa trong văn bản

Các tổ chức học thuật cũng đã khởi đầu áp dụng khai phá văn bản Ví dụ, Trung tâm khai phá văn bản quốc gia, một nỗ lực hợp tác giữa các trường đại học Manchester và Liverpool, cung cấp các công cụ tùy chỉnh, phương tiện nghiên cứu và tư vấn về khai phá văn bản cho cộng đồng học thuật Với sự tập trung ban đầu vào khai phá văn bản trong các ngành khoa học sinh học

và y sinh, nghiên cứu đã mở rộng sang các ngành khoa học xã hội Ở Hoa

Kỳ, Trường Thông tin tại Đại học California, Berkeley, đang phát triển một chương trình có tên BioText để hỗ trợ các nhà nghiên cứu sinh học trong khai phá và phân tích văn bản

Trang 19

7.1.4 Các bước khai phá dữ liệu văn bản

Để thành công, các nghiên cứu khai phá văn bản phải tuân theo phương pháp luận hợp lý dựa trên sự rèn luyện tốt nhất Một mô hình quy trình được chuẩn hóa là cần thiết tương tự như CRISP-DM, đó là tiêu chuẩn công nghiệp cho các dự án khai phá dữ liệu Mặc dù hầu hết các phần của CRISP-DM cũng

có thể áp dụng cho các dự án khai thác văn bản, một mô hình quy trình cụ thể để khai phá văn bản sẽ bao gồm các hoạt động tiền xử lý dữ liệu phức tạp hơn nhiều Hình 7.1.3 mô tả một lược đồ ngữ cảnh cấp cao của một quy trình khai phá văn bản điển hình (Delen và Crossland, 2008)

Hình 7.1.3 – Lược đồ ngữ cảnh trong quá trình khai phá văn bản

Lược đồ ngữ cảnh này trình bày phạm vi của quá trình khai phá văn bản, nhấn mạnh các giao diện của nó với môi trường rộng lớn hơn Về bản chất,

nó vẽ các ranh giới xung quanh quy trình cụ thể để xác định rõ ràng những

gì được bao gồm trong (và loại trừ khỏi) quá trình khai phá văn bản

Trang 20

Như sơ đồ ngữ cảnh chỉ ra, đầu vào quá trình (mũi tên sang phải) khám phá tri thức dựa trên văn bản là dữ liệu phi cấu trúc cũng như có cấu trúc được thu thập, lưu trữ và cung cấp cho quá trình Đầu ra của quá trình (mũi tên sang trái) là kiến thức cụ thể theo ngữ cảnh có thể được sử dụng để ra quyết định Các điều khiển, còn được gọi là các ràng buộc của quá trình (mũi tên xuống) bao gồm các giới hạn phần mềm và phần cứng, các vấn đề riêng

tư và những khó khăn liên quan đến việc xử lý văn bản được trình bày trong biểu mẫu của ngôn ngữ tự nhiên Các cơ chế của quá trình (mũi tên lên) bao gồm các kỹ thuật phù hợp, công cụ phần mềm và chuyên môn về lĩnh vực Mục đích chính của khai phá văn bản (trong bối cảnh khám phá tri thức) là

xử lý dữ liệu phi cấu trúc (văn bản) (cùng với dữ liệu có cấu trúc, nếu có liên quan đến vấn đề đang được giải quyết và có sẵn) để trích xuất các mẫu có ý nghĩa và có thể hành động để đưa ra quyết định tốt hơn

Ở mức rất cao, quy trình khai thác văn bản có thể được chia thành ba tác vụ liên tiếp, mỗi tác vụ có đầu vào cụ thể để tạo đầu ra nhất định (xem Hình 7.1.4) Nếu vì một số lý do, đầu ra của một nhiệm vụ không như mong đợi, một sự chuyển hướng theo chiều ngược lại để thực hiện nhiệm vụ trước

đó là cần thiết

Hình 7.1.4 – Ba bước quá trình khai phá văn bản

Trang 21

Tác vụ 1: Xây dựng Corpus

Mục địch chính trong tác vụ này là thu thập tất cả tài liệu liên quan đến nội dung lĩnh vực tìm hiểu trong nghiên cứu Việc thu thập này có thể bao gồm văn bản tài liệu, tệp XML, email, trang Web và những ghi chú Thêm vào đó

là các dữ liệu có sẵn như văn bản, bản ghi âm hoặc có thể là những bản sao chép lại sử dụng thuật giải nhận dạng tiếng nói và trở thành một phần dữ liệu văn bản thu thập

Sau khi thu thập, các tài liệu văn bản được sao chép và tổ chức theo cách sao cho tất cả chúng đều ở dạng biểu diễn giống nhau (ví dụ: tệp văn bản ASCII) để xử lý máy tính Việc tổ chức các tài liệu có thể đơn giản như một tập các đoạn trích văn bản được số hóa được lưu trữ trong một thư mục tệp hoặc nó có thể là một danh sách các liên kết đến một tập hợp các trang web trong một lĩnh vực cụ thể Nhiều công cụ phần mềm khai thác văn bản

có sẵn trên thị trường có thể chấp nhận chúng làm đầu vào và chuyển đổi chúng thành một tệp nhãn để xử lý Ngoài ra, tệp nhãn có thể được chuẩn bị bên ngoài phần mềm khai phá văn bản và sau đó được trình bày dưới dạng đầu vào cho ứng dụng khai phá văn bản

Tác vụ 2: Tạo ma trận sự kiện

Trong tác vụ này, các tài liệu số hóa và có tổ chức (kho văn bản) được sử dụng để tạo ma trận sự kiện (TDM) Trong TDM, các hàng đại diện cho các tài liệu và cột đại diện cho các thuật ngữ Mối quan hệ giữa các thuật ngữ và tài liệu được đặc trưng bởi các chỉ số

Mục tiêu là chuyển đổi danh sách các tài liệu có tổ chức (kho văn bản) thành TDM trong đó các ô được lấp đầy với các chỉ số phù hợp Giả định là bản chất của một tài liệu có thể được trình bày với một danh sách và tần suất của các thuật ngữ được sử dụng trong tài liệu đó Tuy nhiên, phải chăng tất

cả các thuật ngữ đều quan trọng khi mô tả tài liệu? Rõ ràng, câu trả lời là

Trang 22

không Một số thuật ngữ, chẳng hạn như bài báo, động từ phụ trợ và thuật ngữ được sử dụng trong hầu hết tất cả các tài liệu trong kho (corpus), không

có sự biệt và do đó nên được loại trừ từ quá trình lập chỉ mục Danh sách các thuật ngữ này, thường được gọi là thuật ngữ kết thúc hoặc từ kết thúc, là đặc trưng cho lĩnh vực nghiên cứu và cần được xác định bởi các chuyên gia trong lĩnh vực đó Mặt khác, người ta có thể chọn một tập hợp các thuật ngữ được xác định trước theo đó các tài liệu sẽ được lập chỉ mục (danh sách các thuật ngữ này được gọi một cách thuận tiện bao gồm các thuật ngữ hoặc từ điển) Ngoài ra, các từ đồng nghĩa và các cụm từ cụ thể (ví dụ: Tháp Eiffel) cũng

có thể được cung cấp để nhập chỉ mục chính xác hơn

Một cách lọc khác sẽ diễn ra để tạo chính xác các chỉ số là stemming

Ví dụ, stemming sẽ đảm bảo rằng modeling và modeled sẽ được công nhận

là model

Thế hệ đầu tiên của TDM bao gồm tất cả các thuật ngữ duy nhất được xác định trong văn bản (như các cột của nó), không bao gồm các cột trong danh sách thuật ngữ kết thúc; tất cả các tài liệu (như các hàng của nó); số lần xuất hiện của mỗi thuật ngữ cho mỗi tài liệu (dưới dạng giá trị ô của nó) Nếu kho văn bản bao gồm một số lượng lớn tài liệu thì đó là một cơ hội rất tốt khiến TDM sẽ có một số lượng lớn các thuật ngữ Xử lý một ma trận lớn như vậy có thể tốn thời gian và quan trọng hơn là có thể dẫn đến trích rút các mẫu không chính xác Tại thời điểm này, người ta phải quyết định vấn đề đó là: Biểu diễn tốt nhất của các chỉ số là gì và làm thế nào chúng ta có thể giảm kích thước của ma trận này xuống kích thước có thể quản lý được?

Biểu diễn chỉ mục: Một khi các tài liệu đầu vào được lập chỉ mục và

tần số từ ban đầu (theo tài liệu) được tính toán, một số biến đổi bổ sung có thể được thực hiện để tóm tắt và tổng hợp các thông tin trích xuất Các tần số thuật ngữ thô thường phản ánh mức độ nổi bật hoặc quan trọng của một từ trong mỗi tài liệu Cụ thể, các từ xuất hiện với tần suất lớn hơn trong tài liệu

Trang 23

là mô tả tốt hơn nội dung của tài liệu đó Tuy nhiên, không hợp lý khi cho rằng từ đó có số lượng bản thân tỷ lệ thuận với tầm quan trọng của nó như là

mô tả của các tài liệu Ví dụ: nếu một từ xuất hiện một lần trong tài liệu A, nhưng ba lần trong tài liệu B, thì không nhất thiết phải kết luận rằng từ này trong mô tả tài liệu B quan trọng gấp ba lần tài liệu A Để có TDM phù hợp hơn để phân tích thêm, các chỉ số thô này cần được chuẩn hóa Sau đây là một vài trong số các phương pháp chuẩn hóa được sử dụng phổ biến nhất (StatSoft, 2009):

• Log frequencies: Các tần số thô có thể được ánh xạ bằng cách sử dụng chức năng log Sự ánh xạ này sẽ làm giảm bớt tần số thô và cách chúng ảnh hưởng đến kết quả phân tích tiếp theo

Trong công thức, wf là tần số từ (hoặc thuật ngữ) thô và f (wf) là kết quả của ánh xạ log Ánh xạ này được áp dụng cho tất cả các tần số thô trong TDM trong đó tần số dương

• Binary frequencies: Tương tự trên, một phép biến đổi thậm chí đơn giản hơn có thể được sử dụng để liệt kê liệu một thuật ngữ được sử dụng trong một tài liệu:

Kết quả, ma trận TDM sẽ chỉ chứa 1 và 0 để biểu thị sự hiện diện hoặc

sự vắng mặt của các từ tương ứng Một lần nữa, sự ánh xạ này sẽ làm giảm ảnh hưởng của tần số thô vào các tính toán và phân tích tiếp theo

• Inverse document frequencies: Một vấn đề khác mà người ta có thể muốn xem xét cẩn thận hơn và phản ánh trong các chỉ số được sử dụng trong các phân tích sâu hơn là tần số tài liệu tương quan (df) của các

thuật ngữ khác nhau Ví dụ: một thuật ngữ như đoán có thể xảy ra

thường xuyên trong tất cả các tài liệu, trong khi một thuật ngữ khác,

chẳng hạn như phần mềm, có thể chỉ xuất hiện một vài lần Lý do là

Trang 24

người ta có thể đoán bối cảnh, bất kể chủ đề cụ thể, trong khi phần mềm là thuật ngữ chỉ có khả năng xảy ra trong các tài liệu liên quan đến phần mềm máy tính Một ánh xạ phổ biến và rất hữu ích phản ánh

cả tính đặc trưng của từ (tần số tài liệu) cũng như tần số xuất hiện chung của chúng (tần số thuật ngữ) là tần số được gọi là tần số tài liệu nghịch đảo (Manning và Schutze, 2009) Ánh xạ này cho tài liệu từ thứ i và thứ j được viết là:

Trong công thức này, N là tổng số tài liệu và dfi là tần số tài liệu cho

từ thứ i (số của tài liệu có chứa từ này) Vì thế, có thể thấy rằng công thức này bao gồm cả việc giảm tần số từ đơn giản thông qua chức năng ghi nhật ký (được mô tả ở đây) và hệ số trọng số để đánh giá thành 0 nếu từ xuất hiện trong tất cả các tài liệu (log(N/N = 1)=0) và giá trị tối đa khi một từ chỉ xảy ra trong một tài liệu duy nhất (tức là log (N/1) = log (N)) Nó có thể dễ dàng nhận thấy cách ánh xạ này sẽ tạo ra các chỉ số phản ánh cả tần suất xuất hiện của các từ cũng như các đặc trưng ngữ nghĩa của chúng đối với các tài liệu bao gồm trong phân tích Đây là chuyển đổi được sử dụng phổ biến nhất trong lĩnh vực này

Giảm chiều ma trận: Bởi vì TDM thường rất lớn và khá thưa thớt (hầu hết

các ô chứa đầy số không), câu hỏi đặt ra là “Làm thế nào chúng ta có giảm kích thước của ma trận này xuống kích thước có thể quản lý?” Một số tùy chọn có sẵn để quản lý kích thước ma trận:

• Một chuyên gia lĩnh vực đi qua danh sách các thuật ngữ và loại bỏ những thuật ngữ không có ý nghĩa cho bối cảnh của nghiên cứu

• Loại bỏ các thuật ngữ rất ít lần xuất hiện trong rất ít tài liệu

Trang 25

• Chuyển đổi ma trận bằng cách sử dụng phương pháp phân tích giá trị suy biến

Singular value decomposition (SVD) (phân tích giá trị suy biến):

liên quan chặt chẽ đến phân tích thành phần chính, làm giảm chiều toàn cục của ma trận đầu vào (số lượng đầu vào tài liệu theo số lượng thuật ngữ được trích xuất) đến một không gian chiều thấp hơn, nơi đó mỗi đoạn liên tục thể hiện mức độ biến đổi lớn nhất có thể (giữa các từ và tài liệu) Lý tưởng nhất, các nhà phân tích có thể xác định hai hoặc ba chiều nổi bật nhất chiếm phần lớn sự thay đổi giữa các từ và tài liệu, do đó xác định không gian ngữ nghĩa tiềm ẩn tổ chức các từ và tài liệu trong phân tích Khi các chiều như vậy được xác định, ý nghĩa của những gì được chứa trong các tài liệu đã được trích

ngữ, trong đó m là số lượng tài liệu đầu vào và n là số lượng thuật ngữ được chọn để phân tích SVD tính toán ma trận trực giao Um.r, Vn.r và ma trận

Tác vụ 3: Trích rút tri thức

Sử dụng TDM có cấu trúc tốt và có khả năng mở rộng với các dữ liệu có cấu trúc yếu tố khác, mẫu mới được trích xuất trong bối cảnh của vấn đề cụ thể Các hạng mục chính của trích rút tri thức là phân lớp, phân cụm, kết hợp và phân tích xu hướng

Classification (phân lớp): Có thể cho rằng chủ đề khám phá tri thức phổ biến

nhất trong phân tích nguồn dữ liệu phức tạp là phân lớp các đối tượng nhất định Nhiệm vụ là phân loại một đối tượng dữ liệu nhất định vào một tập các danh mục (hoặc các lớp) được xác định trước Vì nó áp dụng cho lĩnh vực khai phá văn bản, tác vụ được gọi là phân loại văn bản, trong đó cho một tập hợp các danh mục (chủ đề, khái niệm) nhất định và tập các tài liệu văn bản, mục tiêu là tìm đúng chủ đề hoặc khái niệm cho mỗi tài liệu bằng các mô

Trang 26

hình được phát triển với bộ dữ liệu đào tạo bao gồm cả tài liệu và danh mục tài liệu thực tế Ngày nay, phân loại văn bản tự động được áp dụng trong nhiều ngữ cảnh, bao gồm lập chỉ mục văn bản tự động hoặc bán tự động (tương tác), lọc thư rác, phân loại trang Web, tự động tạo siêu dữ liệu, phát hiện thể loại và nhiều thứ khác

Hai cách tiếp cận chính để phân loại văn bản là kỹ thuật tri thức và học máy Với cách tiếp cận kỹ thuật tri thức, một chuyên gia về các danh mục được

mã hóa vào hệ thống hoặc khai báo hoặc dưới dạng các quy tắc phân loại thủ tục Với cách tiếp cận là học máy, một quy trình chung xây dựng một bộ phân loại bằng cách học hỏi từ một tập hợp các ví dụ đã được phân loại Khi

số lượng tài liệu tăng theo tỷ lệ mũ, xu hướng là chuyển sang cách tiếp cận học máy

Clustering (phân cụm): phân cụm là một quá trình không giám sát, theo đó

các đối tượng được phân vào các nhóm được gọi là cụm So với phân lớp, một tập các đối tượng đào tạo được phân loại được sử dụng để phát triển một

mô hình dựa trên các đặc trưng sau đó phân loại một đối tượng chưa được gắn nhãn mới, trong phân cụm vấn đề là để nhóm một tập các đối tượng không ghi nhãn (ví dụ: tài liệu, nhận xét của khách hàng, Web) thành các cụm có ý nghĩa mà không có bất kỳ tri thức trước đó

Phân cụm rất hữu ích trong một loạt các ứng dụng, từ truy xuất tài liệu đến cho phép tìm kiếm nội dung Web tốt hơn Trên thực tế, một trong những ứng dụng nổi bật của phân cụm là phân tích và điều hướng các tập văn bản rất lớn, chẳng hạn như các trang Web Các giả định cơ bản là các tài liệu liên quan có xu hướng giống nhau hơn so với những tài liệu không liên quan Nếu giả định này đúng, việc phân cụm các tài liệu dựa trên sự giống nhau trong nội dung của chúng cải thiện hiệu quả tìm kiếm

Trang 27

• Improved search recall: có thể cải thiện việc gọi lại dựa trên truy vấn tìm kiếm theo cách mà khi một truy vấn khớp với một tài liệu thì toàn bộ cụm của nó được trả về

• Improved search precision: Phân cụm có thể nhóm các tài liệu liên quan, sắp xếp chúng và trả về kết quả là nhóm tài liệu có liên quan nhất

Hai phương pháp phân cụm phổ biến nhất là phân tán/gom cụm và phân cụm truy vấn đặc trưng:

• Phân tán/Gom: Phương pháp duyệt tài liệu này sử dụng phân cụm để tăng cường hiệu quả của việc duyệt tài liệu của con người khi một truy vấn tìm kiếm cụ thể không thể được xây dựng Theo một nghĩa nào

đó, phương thức này tự động tạo ra một bảng nội dung, điều chỉnh và sửa đổi nó để đáp ứng với lựa chọn của người dùng

• Truy vấn đặc trưng: Phương pháp này sử dụng một cách tiếp cận phân cụm có thứ bâc nơi các tài liệu phù hợp nhất với truy vấn được đặt ra xuất hiện trong các cụm nhỏ chặt chẽ được lồng trong các cụm lớn hơn chứa các tài liệu ít giống nhau hơn, tạo ra một phổ mức độ phù hợp giữa các tài liệu Phương pháp này thực hiện nhất quán tốt cho các bộ tài liệu kích cỡ lớn

Association: Luật kết hợp trong khai phá dự liệu là một kỹ thuật phổ biến và

được nghiên cứu kỹ lưỡng để khám phá mối quan hệ giữa các biến trong cơ

sở dữ liệu lớn Ý tưởng chính trong việc tạo ra luật kết hợp là xác định các tập thường xuyên đi cùng nhau

Trong khai phá văn bản, các luật kết hợp đặc biệt đề cập đến các mối quan

hệ trực tiếp giữa khái niệm (thuật ngữ) hoặc bộ khái niệm

Khai phá văn bản với các quy tắc kết hợp đã được sử dụng để phân tích tài liệu xuất bản (tin tức và bài báo học thuật được đăng trên Web) để lập biểu

Trang 28

đồ cho sự bùng phát và tiến bộ cúm gia cầm (Mahgoub et al., 2008) Ý tưởng

là tự động xác định sự liên kết giữa các khu vực địa lý, lan rộng giữa các loài

và các biện pháp đối phó (phương pháp điều trị)

Trend analysis (phân tích xu hướng): Gần đây các phương pháp phân tích xu

hướng trong khai phá văn bản đã được dựa trên quan điểm rằng các loại phân phối khái niệm khác nhau là các chức năng của tập tài liệu; nghĩa là, các bộ khác nhau dẫn đến các bản phân phối khái niệm khác nhau cho cùng một tập hợp các khái niệm Do đó, có thể so sánh hai bản phân phối khác giống hệt nhau ngoại trừ chúng là từ các tập khác nhau Một hướng đáng chú ý nữa là

có hai tập hợp từ cùng một nguồn (chẳng hạn như từ cùng một tập các tạp chí học thuật) nhưng từ các thời điểm khác nhau Delen và Crossland (2008)

áp dụng phân tích xu hướng cho một số lượng lớn các bài báo học thuật (được xuất bản trong ba tạp chí học thuật được đánh giá cao nhất) để xác định sự phát triển của các khái niệm chính trong lĩnh vực hệ thống thông tin

Trang 29

7.2 Khai phá dữ liệu Web

7.2.1 Tổng quan

Web: Cơ hội và thách thức

Sự phát triển nhanh chóng của Web trong vài thập kỷ gần đây khiến nó trở thành nguồn dữ liệu có thể truy cập công khai lớn nhất trên thế giới Cùng với sự phát triển mạnh mẽ của Web thì nó cũng có nhiều đặc điểm độc đáo, khiến cho Khai phá thông tin và kiến thức hữu ích từ web trở thành một nhiệm vụ hấp dẫn và đầy thách thức Những đặc điểm độc của Web có thể kể đến như:

Lượng dữ liệu/thông tin trên Web rất lớn và vẫn đang tăng lên Phạm vi của

thông tin cũng rất rộng và đa dạng Người ta có thể tìm thấy thông tin về hầu hết mọi thứ trên Web

Tất cả các loại dữ liệu đều tồn tại trên Web Ví dụ: các bảng có cấu trúc, các

trang Web bán cấu trúc, văn bản phi cấu trúc và các tệp đa phương tiện (hình ảnh, âm thanh và video)

Thông tin trên Web không đồng nhất Do quyền tác giả đa dạng của các trang

Web, nhiều trang có thể trình bày thông tin giống hoặc tương tự bằng các từ và/hoặc định dạng hoàn toàn khác nhau Điều này làm cho việc tích hợp thông tin từ nhiều trang trở thành một vấn đề đầy thách thức

Một lượng đáng kể thông tin trên Web được liên kết với nhau Các liên kết

tồn tại giữa các trang web trong một trang web và trên các trang web khác nhau Trong một trang web, liên kết đóng vai trò là cơ chế tổ chức thông tin Trên các trang web khác nhau, các liên kết thể hiện sự truyền đạt thẩm quyền ngầm đến các trang mục tiêu Nghĩa là, những trang được liên kết (hoặc trỏ) với nhiều trang khác thường là trang chất lượng cao hoặc trang có thẩm quyền đơn giản chỉ vì nhiều người tin tưởng chúng

Thông tin trên Web quá “ồn ào” Sự “ồn ào” đến từ hai nguồn chính Đầu tiên,

một trang Web thông thường chứa nhiều mẩu thông tin, ví dụ như: nội dung chính của trang, liên kết điều hướng, quảng cáo, thông báo bản quyền, chính

Trang 30

sách bảo mật, Đối với một ứng dụng cụ thể, chỉ một phần thông tin trong đó là hữu ích Phần còn lại được coi là nhiễu Để thực hiện phân tích thông tin và Khai phá dữ liệu Web một cách hiệu quả thì cần phải loại bỏ được nhiễu này Thứ hai,

do thực tế là Web không có kiểm soát chất lượng thông tin, tức là, người ta có thể viết hầu hết mọi thứ mình thích, một lượng lớn thông tin trên Web có chất lượng thấp, sai lầm hoặc thậm chí sai lệch

Web cũng là hướng dịch vụ Hầu hết các trang web thương mại cho phép mọi

người thực hiện các hoạt động hữu ích tại trang web của họ, ví dụ: để mua sản phẩm, thanh toán hóa đơn,

Web rất năng động Thông tin trên Web thay đổi liên tục Theo kịp sự thay đổi

và theo dõi sự thay đổi là những vấn đề quan trọng đối với nhiều ứng dụng

Web là một xã hội ảo Web không chỉ là về dữ liệu, thông tin và dịch vụ, mà

còn về sự tương tác giữa mọi người, các tổ chức và hệ thống tự động Người ta

có thể giao tiếp với mọi người ở bất cứ đâu trên thế giới một cách dễ dàng và ngay lập tức, đồng thời cũng có thể thể hiện quan điểm của một người với bất

kỳ thứ gì trên các diễn đàn Internet, blog và các trang web đánh giá

Tất cả những đặc điểm trên thể hiện cả thách thức và cơ hội Khai phá thông tin

và kiến thức từ Web

Khai phá dữ liệu Web là gì?

Khai phá dữ liệu Web chính là dùng những kỹ thuật Khai phá dữ liệu truyền thống để Khai phá những thông tin, kiến thức từ Web Tuy nhiên, Khai phá Web không hoàn toàn là một ứng dụng Khai phá dữ liệu Do sự phong phú và đa dạng của thông tin và các đặc điểm cụ thể khác của Web đã thảo luận ở trên, Khai phá Web đã phát triển nhiều thuật toán riêng của nó trong vài thập kỷ qua

Phân loại khai phá dữ liệu Web

Dựa trên các loại dữ liệu chính được sử dụng trong quy trình Khai phá, các tác

vụ Khai phá Web có thể được phân thành ba loại: Khai phá cấu trúc web, Khai phá nội dung Web và Khai phá sử dụng Web

Trang 31

Hình 7.2.1: Phân loại khai phá Web

Quá trình khai phá dữ liệu Web thông thường

Quá trình Khai phá Web thì nó cũng tương tự như quá trình Khai phá dữ liệu Khác biệt nhiều nhất nằm trong việc thu thập dữ liệu Trong Khai phá dữ liệu truyền thống, dữ liệu thường được thu thập và lưu trữ trong kho dữ liệu Còn đối với Khai phá Web, thu thập dữ liệu là một nhiệm vụ quan trọng, đặc biệt đối với Khai phá nội dung

và cấu trúc Web, bao gồm thu thập một số lượng lớn các trang web mục tiêu Sau khi

dữ liệu được thu thập, chúng tôi sẽ trải qua quy trình ba bước tương tự: tiền xử lý dữ liệu, Khai phá dữ liệu Web và xử lý hậu kỳ Tuy nhiên, các kỹ thuật được sử dụng cho từng bước có thể hoàn toàn khác với các kỹ thuật được sử dụng trong Khai phá dữ liệu truyền thống

7.2.2 Khai phá nội dung

Khai phá nội dung Web là gì?

Khai phá nội dung Web hay Khai phá thông tin, kiến thức hữu ích từ nội dung trang Web Ví dụ: chúng ta có thể tự động phân loại và phân cụm các trang Web theo

Trang 32

chủ đề của chúng Các tác vụ này tương tự như các nhiệm vụ trong Khai phá dữ liệu truyền thống Tuy nhiên, chúng ta cũng có thể trích xuất dữ liệu hữu ích như mô tả sản phẩm, bài đăng của diễn đàn, cho nhiều mục đích Hơn nữa, chúng tôi có thể Khai phá đánh giá của khách hàng và bài đăng trên diễn đàn để khám phá cảm xúc của người tiêu dùng Đây không phải là nhiệm vụ Khai phá dữ liệu truyền thống

Nguồn dữ liệu và mô tả dữ liệu

Dữ liệu nội dung trong một trang web là tập các đối tượng và mối quan hệ được truyền tải đến người dùng Hầu hết dữ liệu này là sự kết hợp của các tài liệu văn bản và hình ảnh Các nguồn dữ liệu được sử dụng để phân phối hoặc tạo dữ liệu này bao gồm các trang HTML/XML tĩnh, các tệp đa phương tiện, các trang web động và các bản ghi

từ cơ sở dữ liệu Dữ liệu nội dung trang cũng bao gồm các siêu dữ liệu (meta-data) có nghĩa hoặc có cấu trúc được nhúng trong trang hoặc từng trang riêng lẻ, chẳng hạn như

từ khóa mô tả, thuộc tính tài liệu, semantic tags hoặc biến HTTP Tên miền cơ bản cho trang web cũng được coi là một phần của dữ liệu nội dung, chúng có thể bao gồm hệ thống phân cấp của nội dung trang, chẳng hạn như các loại sản phẩm, các biểu diễn rõ ràng về nội dung ngữ nghĩa và các mối quan hệ thông qua một ngôn ngữ bản thể như RDF hoặc lược đồ cơ sở dữ liệu trên dữ liệu có trong cơ sở dữ liệu vận hành

Ứng dụng của Khai phá nội dung trong thực tế

Phân loại cảm xúc: Bài toán này coi việc khai phá nội dung là một vấn đề phân

loại văn bản Nó phân loại một văn bản đánh giá là tích cực hoặc tiêu cực Ví dụ: đưa

ra đánh giá sản phẩm, hệ thống sẽ xác định xem đánh giá thể hiện cảm xúc tích cực hay tiêu cực của người đánh giá Việc phân loại này thường ở cấp độ tài liệu

So sánh câu và khai thác quan hệ: So sánh trực tiếp một đối tượng với một

hoặc nhiều đối tượng tương tự khác Ví dụ: câu sau đây so sánh hai camera: Thời lượng pin của camera A ngắn hơn nhiều so với camera B Khách hàng muốn xác định các câu như vậy và trích xuất các mối quan hệ so sánh được thể hiện trong đó

Trang 33

Khai phá nội dung web cũng có thể được sử dụng để nâng cao kết quả được tạo ra bởi máy tìm kiếm Trong thực tế, tìm kiếm có lẽ là ứng dụng phổ biến nhất của

Khai phá nội dung Web và Khai phá cấu trúc Web Tìm kiếm trên Web để lấy thông tin về một chủ đề cụ thể (được trình bày dưới dạng tập hợp từ khóa hoặc câu) thường trả về một vài trang Web chất lượng cao có liên quan và số lượng lớn các trang Web không sử dụng được Việc sử dụng một từ khóa phù hợp và các trang Web tìm kiếm sẽ cải thiện kết quả tìm kiếm và thứ hạng của các trang có liên quan Ý tưởng về trang Web tìm kiếm bắt nguồn từ công việc truy xuất thông tin trước đó bằng cách sử dụng trích dẫn giữa các bài báo để đánh giá tác động của các tài liệu nghiên cứu (Miller, 2005) Mặc dù đó là nguồn gốc của ý tưởng, nhưng có những khác biệt đáng kể giữa các trích dẫn trong các bài báo nghiên cứu và liên kết trên các trang Web Đầu tiên, không phải mọi liên kết đều thể hiện kết quả tìm kiếm (một số liên kết được tạo cho mục đích điều hướng và một số liên kết dành cho quảng cáo phải trả tiền) Mặc dù vậy, nếu phần lớn các liên kết phản ánh kết quả tìm kiếm, thì điều này vẫn là đúng Thứ hai,

vì lợi ích thương mại và cạnh tranh, một tổ chức sẽ hiếm khi để trang Web của mình trỏ đến các tổ chức đối thủ Ví dụ: Microsoft có thể không muốn các liên kết trên các trang Web của mình trỏ tới các trang web của Apple Thứ ba, các trang Web tìm kiếm hiếm khi được mô tả Ví dụ: trang Web chính của Yahoo! có thể không chứa phần tự

mô tả rõ ràng rằng trên thực tế nó là một công cụ tìm kiếm Web

7.2.3 Khai phá cấu trúc

Khai phá cấu trúc web là gì?

Khai phá cấu trúc web phát hiện ra kiến thức hữu ích từ các liên kết (gọi tắt là các liên kết), đại diện cho cấu trúc của Web Phân tích các liên kết là rất quan trọng trong việc tìm hiểu mối liên hệ giữa một số lượng lớn các trang web, dẫn đến sự hiểu biết tốt hơn về một cộng đồng hoặc nhóm cụ thể Ví dụ từ các liên kết, chúng ta có thể khám phá các trang web quan trọng Chúng ta cũng có thể khám phá các cộng đồng

Trang 34

người dùng có chung sở thích Khai phá dữ liệu truyền thống không thực hiện các tác

vụ như vậy vì thường thì dữ liệu không có cấu trúc liên kết trong bảng quan hệ

Nguồn dữ liệu và mô tả dữ liệu

Dữ liệu cấu trúc thể hiện quan điểm của nhà thiết kế đối với việc tổ chức nội dung trong trang web Việc này được nắm bắt thông qua cấu trúc liên kết trong trang web đó giữa các trang web với nhau, được phản ánh thông qua các liên kết Dữ liệu cấu trúc cũng bao gồm cấu trúc nội trang của một trang Ví dụ: cả tài liệu HTML và XML

có thể được biểu diễn dưới dạng cấu trúc cây trên không gian của các thẻ trong trang Cấu trúc liên kết cho một trang web thường được thể hiện bởi một “site map” được tạo

tự động Một công cụ lập “site map” phải có khả năng nắm bắt và thể hiện các mối quan

hệ giữa các trang và trong nội bộ Đối với các trang được tạo động, các công cụ lập

“site map” phải kết hợp nội dung về các ứng dụng và tập lệnh cơ bản tạo nội dung HTML hoặc phải có khả năng tạo các phân đoạn nội dung bằng cách lấy mẫu các tham

số được truyền cho các ứng dụng hoặc tập lệnh đó

7.2.4 Máy tìm kiếm và tối ưu máy tìm kiếm

Tổng quan về Máy tìm kiếm

Trong thời đại ngày nay, không thể phủ nhận tầm quan trọng của các công cụ tìm kiếm Internet (hay Máy tìm kiếm) Khi kích thước và độ phức tạp của World Wide Web tăng lên, việc tìm kiếm những gì bạn muốn đang trở thành một quá trình phức tạp

và tốn nhiều công sức Mọi người sử dụng các công cụ tìm kiếm vì nhiều lý do Họ sử dụng chúng để tìm hiểu về một sản phẩm hoặc dịch vụ trước khi mua (bao gồm cả những người khác đang bán nó, giá ở các địa điểm/người bán khác nhau, những vấn đề phổ biến mà mọi người đang thảo luận về nó, mức độ hài lòng của người mua trước, những sản phẩm hoặc dịch vụ khác có thể tốt hơn, ) và tìm kiếm địa điểm sẽ đến, người để gặp gỡ và những việc cần làm Theo một nghĩa nào đó, các công cụ tìm kiếm

đã trở thành trung tâm của hầu hết các giao dịch dựa trên Internet và các hoạt động khác Thành công đáng kinh ngạc và sự phổ biến của Google, công ty công cụ tìm kiếm

Trang 35

phổ biến nhất, là một minh chứng tốt cho tuyên bố này Điều mà có vẻ bí ẩn với mọi người là một công cụ tìm kiếm thực sự là thế nào để tìm kiếm Nói một cách đơn giản nhất, công cụ tìm kiếm là một chương trình phần mềm tìm kiếm tài liệu (trang web hoặc tệp Internet) dựa trên các từ khóa (từ riêng lẻ, thuật ngữ nhiều từ hoặc câu hoàn chỉnh)

mà người dùng đã cung cấp phải làm với chủ đề yêu cầu của họ Các công cụ tìm kiếm

là con ngựa của Internet, đáp ứng hàng tỷ truy vấn bằng hàng trăm ngôn ngữ khác nhau mỗi ngày

Về mặt kỹ thuật, Máy tìm kiếm là thuật ngữ phổ biến cho hệ thống truy xuất thông tin Mặc dù các công cụ tìm kiếm Web là phổ biến nhất, các Máy tìm kiếm thường được sử dụng trong ngữ cảnh khác với Web, chẳng hạn như công cụ tìm kiếm trên máy tính để bàn hoặc công cụ tìm kiếm tài liệu Như bạn sẽ thấy trong phần này, nhiều khái niệm và kỹ thuật của phân tích văn bản và khai phá văn bản cũng được áp dụng ở đây Mục tiêu tổng thể của Máy tìm kiếm là trả về một hoặc nhiều tài liệu/trang (nếu là nhiều tài liệu/trang, danh sách thứ tự thứ hạng thường được cung cấp) phù hợp nhất với truy vấn của người dùng Hai số liệu thường được sử dụng để đánh giá các công cụ tìm kiếm

là tính hiệu quả - effectiveness (hoặc chất lượng của việc tìm kiếm các tài liệu/trang phù hợp) và hiệu suất - efficiency (hoặc tốc độ nhanh chóng trả lời phản hồi) Hai số liệu này có xu hướng tỉ lệ nghịch với nhau; cải thiện cái này có xu hướng làm xấu đi cái kia Thông thường, dựa trên sự mong đợi của người dùng, các công cụ tìm kiếm tập trung vào một trong hai tiêu chí Công cụ tìm kiếm tốt hơn là những công cụ xuất sắc trong cả hai cùng một lúc Bởi vì các Máy tìm kiếm (search engines) không chỉ tìm kiếm mà trên thực tế, tìm và trả lại các tài liệu/trang, có lẽ một tên thích hợp hơn cho chúng sẽ là các công cụ tìm kiếm (finding engines)

Máy tìm kiếm hoạt động như thế nào?

Bây giờ chúng ta hãy mổ xẻ một công cụ tìm kiếm và nhìn vào bên trong nó Ở

cấp độ cao nhất, một hệ thống công cụ tìm kiếm bao gồm hai chu trình chính: chu trình

phát triển và chu trình phản hồi (xem cấu trúc của công cụ tìm kiếm Internet điển

hình trong Hình 7.2.3) Trong khi một chu trình giao tiếp với World Wide Web, thì chu

Trang 36

trình còn lại giao tiếp với người dùng Người ta có thể nghĩ về chu trình phát triển là một quy trình sản xuất (sản xuất và kiểm kê tài liệu/trang) và chu trình phản hồi là quy trình bán lẻ (cung cấp cho khách hàng/người dùng những gì họ muốn) Trong phần sau đây, hai chu trình được giải thích chi tiết hơn

Hình 7.2.2: Cấu trúc của công cụ tìm kiếm Internet điển hình

Chu trình phát triển (Development Cycle)

Hai thành phần chính của chu trình phát triển là Trình thu thập dữ liệu Web và

Trình chỉ mục tài liệu Mục đích của chu trình này là tạo ra một cơ sở dữ liệu khổng

lồ gồm các tài liệu/trang được tổ chức và lập chỉ mục dựa trên nội dung và giá trị thông tin của chúng Lý do phát triển một kho tài liệu/trang như vậy là khá rõ ràng: Do quy

mô và độ phức tạp của nó, việc tìm kiếm trên Web để tìm các trang đáp ứng với truy vấn của người dùng là không thực tế (hoặc khả thi trong khung thời gian hợp lý) Sau khi được tạo, cơ sở dữ liệu này cho phép các công cụ tìm kiếm phản hồi nhanh chóng

và chính xác các truy vấn của người dùng

Trình thu thập dữ liệu Web (Web Crawler)

Trình thu thập dữ liệu Web (còn được gọi là trình thu thập dữ liệu hoặc trình thu thập thông tin trên web) là một phần mềm duyệt hệ thống (thu thập thông tin) một cách có hệ thống trên World Wide Web cho mục đích tìm kiếm và tìm nạp các

Trang 37

trang Web Thông thường các trình thu thập dữ liệu Web sao chép tất cả các trang

họ truy cập để xử lý sau bởi các chức năng khác của công cụ tìm kiếm

Trình thu thập dữ liệu Web bắt đầu với một danh sách các URL cần truy cập, được liệt kê trong trình lập lịch biểu và thường được gọi là các hạt giống Các URL này có thể đến từ các bài đăng được tạo bởi Webmaster hoặc thường xuyên hơn, chúng đến từ các siêu liên kết nội bộ của các tài liệu/trang được thu thập trước đó Khi trình thu thập thông tin truy cập các URL này, nó sẽ xác định tất cả các liên kết trong trang và thêm chúng vào danh sách các URL cần truy cập (ví dụ: trình lập lịch biểu) Các URL trong công cụ lên lịch được truy cập đệ quy theo một tập hợp các luật được xác định bởi công cụ tìm kiếm cụ thể Vì có số lượng lớn các trang web,

mà trình thu thập thông tin chỉ có thể tải xuống một số lượng hạn chế trong số đó trong một thời gian nhất định, do đó nó có thể cần phải ưu tiên tải xuống

Trình chỉ mục tài liệu (Document Indexer)

Khi các tài liệu được tìm thấy và tìm nạp bởi trình thu thập thông tin, chúng được lưu trữ trong một khu vực tạm thời để người lập chỉ mục tài liệu lấy và xử lý Trình chỉ mục tài liệu chịu trách nhiệm xử lý các tài liệu (trang Web hoặc tệp tài liệu) và đặt chúng vào cơ sở dữ liệu tài liệu Để chuyển đổi các tài liệu/trang thành định dạng mong muốn và dễ tìm kiếm, bộ chỉ mục tài liệu thực hiện các tác vụ sau

Bước 1: Tiền xử lý tài liệu

Bởi các tài liệu được trình thu thập thông tin tìm nạp có thể ở các định dạng khác nhau, để dễ xử lý hơn nữa, trong bước này tất cả chúng được chuyển đổi thành một loại biểu diễn tiêu chuẩn Chẳng hạn, các loại nội dung khác nhau (văn bản, liên kết, hình ảnh, v.v.) có thể được tách biệt với nhau, được định dạng (nếu cần) và được lưu trữ ở một nơi để xử lý thêm

Bước 2: Phân tích tài liệu

Bước này về cơ bản là ứng dụng các công cụ và kỹ thuật khai phá văn bản (xử lý ngôn ngữ tự nhiên) vào tập tài liệu/trang Trong bước này, đầu tiên các tài liệu đã chuẩn hóa được phân tích thành các thành phần của nó để

Trang 38

xác định các từ/thuật ngữ xứng đáng với chỉ mục Sau đó, bằng cách sử dụng một bộ quy tắc, các từ/thuật ngữ được lập chỉ mục Cụ thể hơn, sử dụng quy tắc mã hóa (tokenization rules), các từ/thuật ngữ/thực thể được trích xuất từ các câu trong các tài liệu này Sử dụng kiểm tra từ vựng, các lỗi chính tả và các bất thường khác trong các từ/thuật ngữ này đều được sửa chữa Không phải tất cả thuật ngữ đều phải phân biệt Các từ/thuật ngữ không phân biệt (còn được gọi là từ dừng) được loại khỏi danh sách các từ/thuật ngữ có giá trị chỉ số Bởi vì cùng một từ/thuật ngữ có thể ở nhiều dạng khác nhau, nên thuật toán stemming được áp dụng để đưa các từ/thuật ngữ về dạng gốc của chúng Một lần nữa, sử dụng kiểm tra từ vựng và các nguồn ngôn ngữ khác (ví dụ: WordNet), từ đồng nghĩa và từ đồng âm được xác định và tập từ/thuật ngữ được xử lý trước khi chuyển sang giai đoạn lập chỉ mục

Bước 3: Tạo Ma trận thuật ngữ theo tài liệu

Trong bước này, các mối quan hệ giữa các từ/thuật ngữ và tài liệu/trang được xác định Trọng số có thể đơn giản như gán 1 cho sự hiện diện hoặc 0 khi không có từ/thuật ngữ trong tài liệu/trang Trong thực tế các lược đồ trọng số phức tạp hơn sẽ được sử dụng Chẳng hạn, trái ngược với nhị phân, người ta có thể chọn gán tần suất xuất hiện (số lần cùng một từ/thuật ngữ được tìm thấy trong một tài liệu) làm trọng số Như chúng ta đã thấy trong khai phá văn bản, nghiên cứu và thực hành khai phá văn bản đã chỉ ra

rõ ràng rằng trọng số tốt nhất có thể đến từ việc sử dụng tần số thuật ngữ chia cho tần số tài liệu nghịch đảo (TF/IDF) Thuật toán này đo tần suất xuất hiện của từng từ/thuật ngữ trong một tài liệu và sau đó so sánh tần số đó với tần suất xuất hiện trong tập tài liệu Như chúng ta đã biết, không phải tất cả các từ/thuật ngữ tần số cao đều là những tài liệu tốt; và một tài liệu tốt trong trường hợp này có thể không tốt trong trường hợp khác Khi lược đồ trọng

số được xác định, các trọng số được tính toán thì file chỉ mục theo tài liệu sẽ được tạo

Trang 39

Chu trình phản hồi (Response Cycle)

Hai thành phần chính của chu trình phản hồi là bộ phân tích truy vấn và bộ so khớp/xếp hạng tài liệu

Bộ phân tích truy vấn (Query analyzer)

Bộ phân tích truy vấn chịu trách nhiệm nhận yêu cầu tìm kiếm từ người dùng (thông qua giao diện máy chủ Web của công cụ tìm kiếm) và chuyển đổi nó thành cấu trúc dữ liệu được chuẩn hóa, để có thể dễ dàng truy vấn/khớp với các mục trong

cơ sở dữ liệu tài liệu Cách trình phân tích truy vấn thực hiện những gì được cho là khá giống với những gì trình chỉ mục tài liệu thực hiện (như chúng tôi vừa giải thích) Trình phân tích truy vấn phân tích chuỗi tìm kiếm thành các từ/thuật ngữ riêng lẻ bằng cách sử dụng một loạt các tác vụ bao gồm mã hóa, loại bỏ các từ dừng, stemming và định nghĩa từ/thuật ngữ (xác định lỗi chính tả, từ đồng nghĩa và từ đồng nghĩa) Sự gần giống nhau giữa bộ phân tích truy vấn và bộ chỉ mục tài liệu không phải là ngẫu nhiên Trong thực tế, nó khá logic, bởi vì cả hai đều đang làm việc với cơ sở dữ liệu tài liệu; một là đưa vào tài liệu/trang bằng cách sử dụng một cấu trúc chỉ mục cụ thể và cái còn lại là chuyển đổi một chuỗi truy vấn thành cùng cấu trúc để có thể sử dụng nó để nhanh chóng định vị hầu hết các tài liệu/trang có liên quan

Bộ so khớp/xếp hạng tài liệu (Document matching/ranker)

Đây là nơi dữ liệu truy vấn có cấu trúc được khớp với cơ sở dữ liệu tài liệu

để tìm các tài liệu/trang có liên quan nhất và cũng xếp chúng theo thứ tự mức độ liên quan/mức độ quan trọng Năng lực của bước này có lẽ là thành phần quan trọng nhất khi các công cụ tìm kiếm khác nhau được so sánh với nhau Mỗi công cụ tìm kiếm có thuật toán riêng (thường là độc quyền) mà nó sử dụng để thực hiện bước quan trọng này

Tối ưu hóa Máy tìm kiếm

Tối ưu hóa Máy tìm kiếm (SEO) là hoạt động có chủ ý ảnh hưởng đến khả năng hiển thị của trang web thương mại điện tử hoặc trang web trong kết quả tìm kiếm tự

Trang 40

nhiên (không trả tiền hoặc không phải trả tiền) của công cụ tìm kiếm Nói chung, xếp hạng cao hơn trên trang kết quả tìm kiếm và càng xuất hiện nhiều hơn trong danh sách kết quả tìm kiếm, càng nhiều khách truy cập từ máy tìm kiếm mà khách sử dụng Là một chiến lược tiếp thị trên Internet, SEO xem xét cách các công cụ tìm kiếm hoạt động, những gì mọi người tìm kiếm, các thuật ngữ hoặc từ khóa tìm kiếm thực tế được nhập vào các công cụ tìm kiếm và công cụ tìm kiếm nào được ưa thích bởi đối tượng mục tiêu của họ Tối ưu hóa một trang web có thể bao gồm chỉnh sửa nội dung, HTML và

mã hóa liên quan để tăng mức độ liên quan của nó với các từ khóa cụ thể và để loại bỏ các rào cản đối với các hoạt động lập chỉ mục của các công cụ tìm kiếm Quảng cáo một trang web để tăng số lượng liên kết ngược, hoặc liên kết trong chính trang đó, là một chiến thuật SEO khác

Trong những ngày đầu, để được lập chỉ mục, tất cả các Quản trị viên web cần làm là gửi địa chỉ của một trang hoặc URL tới các công cụ khác nhau, sau đó sẽ gửi một “Crawl” và “Spider” đến thu thập dữ liệu trang đó, trích xuất các liên kết đến các trang khác từ nó và trả lại thông tin tìm thấy trên trang cho máy chủ để lập chỉ mục Quá trình, như đã giải thích trước đó, liên quan đến một công cụ tìm kiếm tải xuống một trang và lưu trữ nó trên máy chủ của công cụ tìm kiếm, trong đó một chương trình thứ hai, được gọi là bộ chỉ mục, trích xuất thông tin khác nhau về trang, chẳng hạn như các từ mà nó chứa và ở đâu những từ này được định vị, cũng như bất kỳ trọng lượng nào cho các từ cụ thể và tất cả các liên kết mà trang chứa, sau đó được đặt vào một lịch trình để thu thập thông tin vào một ngày sau đó Ngày nay, các công cụ tìm kiếm không còn phụ thuộc vào các Webmaster gửi URL (mặc dù họ vẫn có thể); thay vào đó, họ chủ động và liên tục thu thập dữ liệu trên Web và tìm kiếm, tìm nạp và lập chỉ mục mọi thứ về nó

Ngày đăng: 04/08/2020, 00:42

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w