1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân giải nhập nhằng thực thể trong mạng xã hội twitter

59 14 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 2,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu của luận văn này là thực hiện việc phân giải nhập nhằng thực thể trong các mẫu tin tweet tải trên mạng xã hội Twitter, nhằm mục đích xác định đúng các thực thể được đề cập đến t

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

VĂN KHÁNH DUY

PHÂN GIẢI NHẬP NHẰNG THỰC THỂ TRONG MẠNG XÃ HỘI TWITTER

Chuyên ngành: Khoa Học Máy Tính

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 7 năm 2014

Trang 2

Công trình được hoàn thành tại: Trường Đại Học Bách Khoa – ĐHQG-HCM

Cán bộ hướng dẫn khoa học: TS Nguyễn Thanh Hiên

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1:

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2:

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại: Trường Đại Học Bách Khoa, ĐHQG TP HCM ngày … tháng … năm ……

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1

2

3

4

5

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA…………

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: VĂN KHÁNH DUY MSHV: 12070502

Ngày, tháng, năm sinh: 18/02/1988 Nơi sinh: TP TRÀ VINH

Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60480101

I TÊN ĐỀ TÀI: PHÂN GIẢI NHẬP NHẰNG THỰC THỂ TRONG MẠNG XÃ HỘI TWITTER ……

NHIỆM VỤ VÀ NỘI DUNG:

II NGÀY GIAO NHIỆM VỤ: 20/01/2014……… ……

III NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014.….………

IV CÁN BỘ HƯỚNG DẪN: TS NGUYỄN THANH HIÊN TP HCM, ngày tháng năm 20… CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA….………

TS NGUYỄN THANH HIÊN

Trang 4

LỜI CẢM ƠN

Trước hết, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy hướng dẫn của tôi, TS NGUYỄN THANH HIÊN Trong suốt quá trình làm luận văn này, thầy đã tận tình chỉ dẫn tôi từng bước và thường xuyên khích lệ, động viên tôi Sự hướng dẫn và lời khuyên quý báu từ thầy là một nhân tố không thể thiếu để tôi có thể hoàn thành được luận văn này

Tôi xin gửi lời cảm ơn đến gia đình tôi, những người luôn ủng hộ, cổ vũ và tạo điều kiện tốt nhất cho việc học tập và nghiên cứu của tôi

Xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý thầy cô tại trường Đại học Bách Khoa Tp.HCM, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính

Cuối cùng, tôi xin gửi lời cảm ơn đến ThS Huỳnh Minh Huy, một người bạn thân luôn ở bên cạnh động viên và cho tôi nhiều chỉ dẫn, lời khuyên thiết thực

Trang 5

TÓM TẮT

Ngày nay, mạng xã hội trực tuyến như Twitter hoặc Facebook ngày càng trở nên phổ biến và đang trở thành các kênh truyền tải và chia sẻ thông tin chính yếu Chính vì vậy, việc khai thác đúng cách nguồn dữ liệu trên các mạng xã hội trực tuyến sẽ tạo ra các thông tin có giá trị có thể sử dụng vào nhiều mục đích khác nhau Chúng tôi quan tâm các tin tải trên các mạng xã hội, trong đó các cụm từ có thể bị nhập nhằng, không rõ ràng gây khó khăn cho các hệ thống phân tích văn bản

Do đó, một bài toán đang thu hút rất nhiều quan tâm nghiên cứu là làm sao xác định đúng các thực thể trong các tin đăng tải trên các mạng xã hội trực tuyến

Mục tiêu của luận văn này là thực hiện việc phân giải nhập nhằng thực thể trong các mẫu tin (tweet) tải trên mạng xã hội Twitter, nhằm mục đích xác định đúng các thực thể được đề cập đến trong các mẫu tin đó Với đặc thù là nội dung của tweet ngắn, nhiễu và bất quy tắc nên việc phân giải nhập nhằng thực thể trong các tweet thật sự khó khăn và thách thức Trong nghiên cứu này, chúng tôi dựa trên các công trình nghiên cứu về liên kết thực thể trong các tài liệu tiếng Anh giàu ngữ cảnh, như các tin tức trên các báo, để xây dựng hệ thống phân giải nhập nhằng cho các tweet tiếng Anh và tiếng Việt Chúng tôi xây dựng tập dữ liệu tiếng Việt bao gồm 524 tweet tiếng Việt và sử dụng tập dữ liệu tiếng Anh được cung cấp bởi Meij gồm 562 tweet tiếng Anh Chúng tôi thực hiện đánh giá hệ thống và hiệu suất đạt được tương đối tốt cho cả hai ngôn ngữ

Trang 6

To date, many popular online social networks (OSNs) such as Twitter and Facebook, or social media in general, have become a channel for users to share information with each other The popularity of online social media together with their diversity have drastically changed humans’ attitude towards communications and information sharing over the internet However, the useful information may contain several terms (mentions) whose meanings are ambiguous and unclear, thus, make it difficult for text analysis systems Hence, the task of disambiguation whose the requirements are to determine correct meaning of ambiguous terms have been attracting attention of research over the world

The purpose of this thesis is to develope an entity disambiguation system for tweets on Twitter Since, the content of postings on Twitter is noisy, irregular, short (a message posted on Twitter has maximum 140 characters), and temporal dynamics; entity disambiguation for tweet is a critical challenging task In this research, we adapt an entity linking methods for long texts in literature to tweet for both Vietnamese and English We build a Vietnamse dataset include 524 Vietnamese tweets and use a public English dataset by Meij include 562 English tweets The evaluation results show that our system performs quite well on both datasets

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy bằng cấp ở một trường khác

TP.HCM, ngày … tháng … năm 20…

Văn Khánh Duy

Trang 8

MỤC LỤC

MỤC LỤC i

DANH MỤC HÌNH iii

DANH MỤC BẢNG iv

CHƯƠNG 1 TỔNG QUAN 1

1.1 Giới thiệu 1

1.2 Bài toán và phạm vi 4

1.3 Các công trình liên quan 4

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 11

2.1 Wikipedia 11

2.2 Thực thể và nhãn tham chiếu 14

2.3 Học máy 15

2.4 Đánh giá chéo 20

2.5 Các độ đo căn bản 21

CHƯƠNG 3 PHƯƠNG PHÁP ĐỀ XUẤT 22

3.1 Nhận diện nhãn tham chiếu 22

3.2 Truy hồi ứng viên 25

3.3 Phân giải nhập nhằng thực thể 26

3.3.1 Phương pháp nền 26

3.3.2 Các đặc trưng 27

3.3.3 Phương pháp khác 29

3.4 Lặp cải thiện dần 29

CHƯƠNG 4 ĐÁNH GIÁ PHƯƠNG PHÁP 31

4.1 Tập huấn luyện 31

4.2 Tập đánh giá 31

4.3 Đánh giá hiệu suất và kết quả thí nghiệm 32

Trang 9

4.4 Các lỗi ảnh hưởng đến hiệu suất của hệ thống 40

CHƯƠNG 5 TỔNG KẾT 42

5.1 Các đóng góp 42

5.2 Hướng phát triển 43

TÀI LIỆU THAM KHẢO 44

Trang 10

DANH MỤC HÌNH

Hình 1.1 Ví dụ phân giải nhập nhằng thực thể 3

Hình 1.2 Ví dụ về phân giải nhập nhằng thực thể 5

Hình 1.3 Mô tả tổng quan hệ thống của Meij 6

Hình 1.4 Mô tả tổng quan hệ thống của Cassidy 8

Hình 1.5 Mô tả tổng quan hệ thống của Liu 9

Hình 1.6 Mô hình phân giải nhập nhằng thực thể của Huỳnh Minh Huy [6] 10

Hình 2.1 Trang thực thể “Vịnh Hạ Long” trong Wikipedia tiếng Việt 13

Hình 2.2 Hai trang chuyển hướng “ManU” và “Manchester United FC” của trang thực thể “Manchester United F.C.” 14

Hình 2.3 Trang phân giải nhập nhằng 15

Hình 2.4 Minh họa về phân loại trong Wikipedia 16

Hình 2.5 Ví dụ về cây quyết định 19

Hình 3.1 Giải thuật nhận dạng nhãn tham chiếu n-gram 25

Hình 3.2 Mô hình tổng quát về hệ thống ED-Tweet 26

Hình 3.3 Lặp cải thiện dần của Nguyễn Thanh Hiên [13] 30

Trang 11

DANH MỤC BẢNG

Bảng 3.1 Kết quả đánh giá của Meij [4] 27

Bảng 4.1 Hiệu suất của giai đoạn nhận diện nhãn tham chiếu 32

Bảng 4.2 Hiệu suất phân giải nhập nhằng không kết hợp lặp cải thiện dần cho C4.5, Random Forest và Bagging C4.5 33

Bảng 4.3 Hiệu suất phân giải nhập nhằng có lặp cải thiện dần cho C4.5, Random Forest và Bagging C4.5 35

Bảng 4.4 Hiệu suất làm giàu ngữ cảnh, không lặp cải thiện dần cho C4.5, Random Forest và Bagging C4.5 36

Bảng 4.5 Hiệu suất hệ thống dùng Random Forest, không lặp cải thiện dần 38

Bảng 4.6 Hiệu suất hệ thống dùng Random Forest, có lặp cải thiện dần 38

Bảng 4.7 So sánh hiệu suất giai đoạn phân giải nhập nhằng 39

Bảng 4.8 So sánh hiệu suất toàn hệ thống 40

Trang 12

Một trong những mạng xã hội phổ biến hiện nay là Twitter Twitter là dịch vụ mạng xã hội miễn phí cho phép người sử dụng đọc, nhắn và cập nhật các mẫu tin nhỏ gọi là tweet Giới hạn về độ dài của tweet là 140 ký tự, có tính tương thích với tin SMS (Short Message Service), mang đến cho cộng đồng mạng một hình thức tốc

ký đáng chú ý, đã được sử dụng rộng rãi đối với SMS1

Với hơn hàng triệu người dùng và hàng trăm triệu tweet mỗi ngày [1]thì việc khai thác những thông tin hữu ích trên đó có thể giúp con người sử dụng vào nhiều mục đích khác nhau

Có rất nhiều công trình nghiên cứu liên quan đến khai thác thông tin trên Twitter như: phân tích thông tin, ý kiến người dùng, sản phẩm ưa chuộng hay thông tin của nhà sản xuất được người tiêu dùng ưa chuộng; rút trích thông tin, tìm hiểu và khám phá chủ đề để phát hiện sở thích của người dùng [2]; tìm những sự kiện mà người dùng quan tâm; hay theo dõi tình trạng sức khỏe của người dùng để phát hiện

và thống kê tình hình sức khỏe xã hội [3];phát hiện thông tin đồn nhảm,…

1

http://vi.wikipedia.org/wiki/Twitter

Trang 13

Ví dụ 1: Một người dùng A chia sẽ trên Twitter và các bạn bè của A cũng chia

sẽ ngược trở lại, nội dung như sau:

A: “Nào là Clear, Head and Shoulder, Pantene cái nào cũng ko hết gàu

, hichic ”

B: “Dove xài tốt lắm! @A ơi…”

C: “X-Men number 1, tui thử rùi nè ;-)”

B: “Ờ,… X-Men cũng ok”

A: “ok, tớ sẽ mua X-Men xài… Hi vọng hít gàu và lẹp trai ^^”

B: “n.mai tui đi mua X-Men xài luôn!”

Phân tích ví dụ trên, ta thấy: người dùng A đang có xu hướng chuyển sang sử dụng dầu gội đầu X-Men và không thích dầu gội Clear, Head and Shoulder và Pantene Hai người bạn B và C cũng sử dụng dầu gội X-Men Với ví dụ 1, chúng ta

có thể khai thác thông tin trên phục vụ cho nhu cầu phát hiện và phân tích hành vi,

sở thích dùng cho việc quảng cáo, thu thập thông tin ý kiến người dùng Nhưng vấn

đề đặt ra là làm sao cho máy tính có thể hiểu được “X-Men” là một nhãn hiệu dầu gội đầu “X-Men” hay là tên của bộ phim “X-Men” Tương tự, “Head and Shoulder” cũng là tên của một nhãn hiệu dầu gội hay là hai đối tượng là “Head” và

“Shoulder”

Đối với một tweet thì văn phong hoàn toàn không theo một chuẩn hay quy luật nào cả Nó chỉ phụ thuộc vào sở thích hay theo văn phong của người viết Cho nên, việc phân tích ngữ nghĩa, cú pháp, nhận diện được thực thể trở nên khó khăn

Ví dụ 2: Một tweet có nội dung như sau:

A: “Ronaldo, thần tượng của tui ^_^, huyền thoại của Brazil, anh hùng

của Real-Madrid !”

“Ronaldo” là một nhãn tham chiếu có thể nói đến “Ronaldo Luís Nazário de”

và “Cristiano Ronaldo” Nhưng với ví dụ 2, thì “Ronaldo” đang đề cập trong tweet

là “Ronaldo Luís Nazário de Lima” của đội tuyển Brazil, đã từng thi đấu ở câu lạc

bộ Real Madrid Không phải đề cập đến “Cristiano Ronaldo” của đội tuyển Bồ Đào

Nha, cũng là một cầu thủ đang thi đấu tại Real Madrid

Vấn đề đặt ra là làm sao để máy có thể tự động nhận diện được các thực thể được đề cập trong các tweet góp phần cho máy hiểu ngữ nghĩa của tweet Mục tiêu

Trang 14

đặt ra là để máy tính hay các hệ thống tự động có thể phân tích và hiểu được nội dung của tweet Chẳng hạn như ở ví dụ trên, việc hiểu đúng nội dung của các tweet

giúp cho hệ thống phân tích đúng rằng người dùng A đang nói về “Ronaldo Luís

Nazário de Lima” và xu thế là người này rất quan tâm về những tin tức có liên quan

đến “Ronaldo Luís Nazário de Lima” (Hình 1.1 minh họa cho ví dụ 2)

Hình 1.1 Ví dụ phân giải nhập nhằng thực thể

Ví dụ 3: Một tweet có nội dung sau:

A: “Đường lythuongkiet và 3-2 đang kẹt xe” (Lúc 16h40, tại TP Hồ Chí Minh)

Với ví dụ 3 này, nội dung của tweet đang đề cập đến 3 cụm từ chính là

“lythuongkiet”, “3-2” và “TP Hồ Chí Minh” Như vậy, “lythuongkiet” đang nói về hai đối tượng là “Lý Thường Kiệt” và một con đường có tên là “Lý Thường Kiệt” Đối với “3-2” thì đang nói về 2 đối tượng là con đường “3 tháng 2” và ngày “3 tháng 2” Việc hiểu rõ được 2 đối tượng “lythuongkiet” và “3-2” được căn cứ vào ngữ nghĩa xung quanh 2 đối tượng này là “kẹt xe” và “TP Hồ Chí Minh” Dựa trên các yếu tố này, ta hiểu được là “lythuongkiet” là đang nói về con đường “Lý Thường

Trang 15

Kiệt” và “3-2” thì đang nói về con đường “3 tháng 2” (Hình1.2 minh họa cho ví dụ

3) Nhưng trong ví dụ này, để máy tính có thể hiểu được 2 đối tượng “lythuongkiet”

và “3-2” là một vấn đề gây ra không ít khó khăn Nguyên nhân là do cụm từ

“lythuongkiet” hay “3-2” bị ảnh hưởng bởi văn phong của người viết và ngữ cảnh

của tweet đó Chính vì vậy, văn phong của người viết có ảnh hưởng rất lớn đến việc nhận diện và hiểu đúng của máy tính

1.2 Bài toán và phạm vi

Chúng tôi tập trung và thực hiện việc phân giải nhập nhằng thực thể trong các tweet tải trên mạng xã hội Twitter, bao gồm cả tweet tiếng Anh và tweet tiếng Việt Tuy nhiên, giữa tiếng Anh và tiếng Việt lại có những đặc trưng khác nhau, vì vậy tùy vào ngôn ngữ mà chúng tôi thực hiện việc chọn lựa các đặc trưng, phương pháp

và thuật toán phù hợp để đạt được kết quả tốt nhất Chúng tôi chỉ quan tâm đến các thực thể tồn tại trong Wikipedia

1.3 Các công trình liên quan

Bài toán phân giải nhập nhằng thực thể chú trọng đến việc phân giải các thực thể và đa số được áp dụng cho các văn bản chính quy (có nội dung dài và tương đối đầy đủ về mặt ngữ nghĩa) Đối với các văn bản tiếng Anh thường được viết tuân theo các luật như tên riêng phải viết hoa, tên phải được đặt trước họ, đầu câu phải viết hoa, không có các ký hiệu đặc biệt (như: ^^, ;-),…) Còn đối với tiếng Việt thì phải viết đúng chính tả, bỏ dấu đúng quy định, tên riêng phải viết hoa,… Cho nên, việc phân giải nhập nhằng thực thể cho một văn bản chính quy thì khác với việc phải phân giải nhập nhằng thực thể cho mạng xã hội Vấn đề khác biệt mà chúng tôi

đề cập ở đây đó là quá trình nhận diện các thực thể xuất hiện trong nội dung tweet

và quá trình phân giải nhập nhằng cho các thực thể đó

Các công trình nghiên cứu liên kết thực thể hay phân giải nhập nhằng thực thể cho tweet thực hiện theo nhiều hướng và phương pháp khác nhau Một số công trình nghiên cứu gần đây và nổi bật như công trình của Meij, Cassidy, Liu,…

Trang 16

Hình 1.2 Ví dụ về phân giải nhập nhằng thực thể Công trình nghiên cứu của Meij

Công trình của Meij [4] chủ yếu là tìm các khái niệm có liên quan đến nội dung của tweet tiếng Anh (Hình 1.3 mô tả về hệ thống của Meij) Các khái niệm đƣợc tác giả đề cập ở đây là các trang thực thể trong Wikipedia

Trang 17

Hình 1.3 Mô tả tổng quan hệ thống của Meij

Hệ thống này sử dụng phương pháp n-gram để tìm các nhãn tham chiếu có thể trong nội dung của tweet Một n-gram được xem là nhãn tham chiếu nếu n-gram đó

so khớp với một nhãn liên kết trong Wikipedia Sau đó, tiến hành tìm các thực thể ứng viên cho các nhãn tham chiếu vừa tìm được

Giai đoạn cuối cùng là dùng học máy để cho điểm và xếp hạng cho các thực thể ứng viên Cho nên, mục tiêu chính của hệ thống này chủ yếu là tìm và cho điểm các thực thể ứng viên để thu được khái niệm gần nhất cho các nhãn tham chiếu trong tweet

Công trình nghiên cứu của Cassidy

Khác với nghiên cứu của Meij, nghiên cứu của Cassidy [1] dùng một hệ thống phân giải nhập nhằng dành cho văn bản tiếng Anh gọi là GLOW [5] để áp dụng cho quá trình phân giải nhập nhằng thực thể cho tweet (Hình 1.4 mô tả về hệ thống của Cassidy) GLOW dựa trên việc sử dụng các đặc trưng cục bộ và toàn cục như: mối quan hệ giữa nhãn tham chiếu và thực thể, mối quan hệ giữa các thực thể với nhau

và mối quan hệ giữa các nhãn tham chiếu với nhau Điểm khác biệt là nội dung của tweet thì quá ngắn và quá ít thực thể, thiếu ngữ cảnh; trong khi đó hệ thống GLOW lại dùng cho văn bản dài và giàu ngữ cảnh; cho nên nghiên cứu này lấy ý tưởng chính là làm giàu ngữ cảnh cho tweet Việc làm giàu ngữ cảnh cho tweet được tác giả thực hiện theo hai phương pháp chính là: gom nhóm các tweet theo tác giả và

Trang 18

gom nhóm các tweet theo chủ đề Thế nhưng, với việc làm giàu ngữ cảnh như vậy cho tweet thì gặp phải một số vấn đề cần quan tâm Đó là:

- Nếu gom nhóm theo tác giả thì không thể xác định là các tweet này có liên quan nội dung với nhau hay không Cho nên, ngữ cảnh được tạo ra khi gom nhóm theo phương pháp này sẽ rời rạc và mức độ liên quan về ngữ nghĩa sẽ không cao

- Nếu gom nhóm theo chủ đề thì các tweet có thể cùng một chủ đề nhưng về mức độ ý nghĩa của từng tweet thì không rõ ràng

Tóm lại, nghiên cứu này chủ yếu là gom nhóm các tweet thành một văn bản theo các tiêu chí khác nhau nhằm làm giàu ngữ cảnh cho tweet và cuối cùng sử dụng một hệ thống phân giải nhập nhằng thực thể GLOW để phân giải cho các tweet được gom nhóm đó

Công trình nghiên cứu của Liu

Công trình của Liu [2] sử dụng các đặc trưng cục bộ và toàn cục để thực hiện việc liên kết thực thể cho các tweet (Hình 1.5 mô tả về hệ thống của Liu) Việc liên kết thực thể cũng dựa trên các đặc điểm mối quan hệ giữa nhãn tham chiếu với thực thể, mối quan hệ thực thể với thực thể và mối quan hệ giữa các nhãn tham chiếu với nhau

Chính vì đặc điểm của nội dung tweet là không phải là văn bản chính quy, xuất hiện nhiều nội dung viết tắt hoặc có thể bị sai chính tả do người đăng tweet nên hệ thống này chủ yếu là nhấn mạnh vào phần nhận diện các nhãn tham chiếu trong tweet Ở phần nhận diện nhãn tham chiếu này, tác giả xây dựng sẵn một danh sách chứa các nhãn tham chiếu được rút trích từ Wikipedia và các thực thể (trang thực thể trong Wikipedia) mà các nhãn tham chiếu này liên kết đến

Khi một tweet đưa vào hệ thống, nếu không tìm thấy nhãn tham chiếu từ tweet

đó thì hệ thống sẽ cố thử tìm các nhãn tham chiếu có thể dựa trên công thức tính khoảng cách sửa đổi (Edit Distance) [2] Nếu cuối cùng vẫn không tìm được thì sẽ loại bỏ nhãn tham chiếu đang xét

Ở giai đoạn phân giải nhập nhằng thực thể cho tweet thì tác giả dùng thuật toán leo đồi tham lam để tìm các trọng số để thu được kết quả tốt nhất để sử dụng cho việc cho điểm và xếp hạng các thực thể ứng viên (Hình 1.5 mô tả về hệ thống của Liu)

Trang 19

Hình 1.4 Mô tả tổng quan hệ thống của Cassidy

Ngoài các công trình nghiên cứu về phân giải nhập nhằng thực thể hay liên kết thực thể cho mạng xã hội thì chúng tôi cũng tìm hiểu thêm về các công trình nghiên cứu khác về phân giải nhập nhằng thực thể trên văn bản

Nói chung các phương pháp tiếp cận cho bài toán phân giải nhập nhằng thực thể dựa trên 3 loại đặc trưng chính là: cục bộ (local), toàn cục (global) hoặc tập thể (collective) Các phương pháp cục bộ đều cho rằng các nhãn tham chiếu là độc lập với nhau và phân giải dựa trên tương thích ngữ cảnh cục bộ của nhãn tham chiếu và

các ứng viên

Các phương pháp toàn cục và tập thể thì cho rằng các thực thể tồn tại trong một văn bản có liên hệ ngữ nghĩa (Semantic Relatedness) với nhau nên việc xác định thực thể cho các nhãn tham chiếu không độc lập mà phụ thuộc lẫn nhau Trong khi phương pháp toàn cục phân giải lần lượt từng nhãn tham chiếu thì phương pháp tập thể lại phân giải các nhãn tham chiếu một cách đồng thời [6]

Trang 20

Hình 1.5 Mô tả tổng quan hệ thống của Liu Công trình nghiên cứu của Huỳnh Minh Huy:

Công trình nghiên cứu của Huỳnh Minh Huy [6] sử dụng phương pháp học máy

để phân giải nhập nhằng thực thể trong văn bản tiếng Anh kết hợp truy hồi ứng viên với nhãn tham chiếu đại diện (Hình 1.7 mô tả về hệ thống của Huỳnh Minh Huy) Với danh sách các thực thể ứng viên tìm được thì tác giả dùng heuristic để lọc và loại bỏ các ứng viên không liên quan, đồng thời thực hiện việc gom cụm các thực thể ứng viên nằm ngoài nguồn tri thức Nguồn tri thức họ sử dụng là Wikipedia Giải thuật học máy được chọn là Bagging C4.5 Ngoài ra, công trình nghiên cứu này còn sử dụng thêm phương pháp lặp cải thiện dần cho quá trình cho điểm và sắp hạng Phương pháp lặp cải thiện dần được đề xuất bởi [7]

Tweet

Danh sách nhãn tham chiếu Wikipedia

Hệ thống của Liu

Nhãn tham chiếu

Nhãn tham chiếu

Thực thể

Nhãn tham chiếu

Trang 21

Hình 1.6 Mô hình phân giải nhập nhằng thực thể của Huỳnh Minh Huy [6]

Văn bản đã đƣợc phân giải Văn bản thô

Liên kết thực thể

Trang 22

có phiên bản tiếng Anh Chỉ hơn ba năm sau, vào tháng 3 năm 2004, đã có 6,000 người đóng góp tích cực cho 600,000 bài viết với 50 thứ tiếng Cho đến hôm nay đã

có hơn 4,300,000 bài viết ở riêng phiên bản tiếng Anh, hơn 30,000,000 bài viết ở tất

cả phiên bản ngôn ngữ Mỗi ngày hàng trăm nghìn người ghé thăm từ khắp nơi để thực hiện hàng chục nghìn sửa đổi cũng như bắt đầu nhiều bài viết mới

Riêng với Wikipedia tiếng Việt được thành lập vào tháng 10 năm 2003 Hiện nay đã có 929,212 bài viết bằng tiếng Việt, với 2,369,340 trang tất cả1 Wikipedia tiếng Anh (tiếng Anh: English Wikipedia) là phiên bản tiếng Anh của dự án Wikipedia Được thành lập vào ngày 15 tháng 1 năm 2001 và đạt 3,791,560 bài viết vào đầu tháng 11 năm 2011, Wikipedia tiếng Anh đã trở thành phiên bản Wikipedia đầu tiên và lớn nhất, gấp 3 lần số lượng bài viết so với phiên bản lớn thứ hai - Wikipedia tiếng Đức Đến năm 2009, khoảng 22.3% số lượng bài viết trên tất cả các Wikipedia thuộc về Wikipedia tiếng Anh, nhưng ưu thế này cũng dần giảm bớt kể

từ giữa năm 2003, khi các dự án Wikipedia khác phát triển

Có nhiều nghiên cứu đánh giá về Wikipedia, như nghiên cứu đánh giá về độ tin cậy; họ đã chỉ ra rằng độ chính xác của Wikipedia có thể sánh ngang với các nguồn tri thức đóng khác như trong nhiên cứu của Giles [7], trong đó tác giả so sánh

2

http://vi.wikipedia.org/wiki/Wikipedia:Giới_thiệu

Trang 23

Wikipedia và từ điển bách khoa toàn thư Britannica Tác giả thu thập ngẫu nhiên 41 bài viết về các chủ đề liên quan đến khoa học trên cả hai từ điển bách khoa, kết quả

có 162 lỗi trên các bài viết của Wikipedia so với 123 lỗi của các bài viết lấy từ Britannica Ngoài ra, còn có một số nghiên cứu khác của Weaver và CS [8] đánh giá mức độ chính xác của liên kết giữa các bài viết trong Wikipedia đạt 97% Điều này có thể phần nào khẳng định rằng Wikipedia có mức độ tin cậy cao và là nguồn tri thức đáng giá [6] Trong phạm vi luận văn này, chúng tôi sử dụng Wikipedia làm

cơ sở tri thức cụ thể như sau:

Wikipedia tiếng Anh: được xử lý vào ngày 04 tháng 3 năm 2014, gồm:

Trang thực thể là thành phần quan trọng nhất của Wikipedia Mỗi trang thực thể

là một bài viết biểu diễn cho một thực thể duy nhất tồn tại trong Wikipedia và được xác định bằng một tiêu đề Đối với những trang thực thể bị nhập nhằng thì tiêu đề của chúng sẽ có phần làm rõ nghĩa theo sau Ví dụ như "Tree" có thể là "Tree (graph theory)" (là cây trong lý thuyết đồ thị) hoặc cũng có thể là "Tree (data structure)" (là một dạng cấu trúc dữ liệu được dùng trong ngành khoa học máy tính)

Trang chuyển hướng

Đối với một trang thực thể thì ngoài tiêu đề dùng để xác định trang thực thể đó thì trang thực thể này cũng có thể có tên gọi khác hay bí danh khác Cho nên Wikipedia biểu diễn các tên gọi khác hay bí danh của trang thực thể đó bằng các

Trang 24

trang chuyển hướng Mỗi trang chuyển hướng đại diện cho một tên gọi khác hay bí danh và trang chuyển hướng đó sẽ tham chiếu đến trang thực thể

Hình 2.1 Trang thực thể “Vịnh Hạ Long” trong Wikipedia tiếng Việt

Trong Hình 2.2, chúng ta thấy trang thực thể có tiêu đề là “Manchester United F.C.” có tên gọi khác là “ManU” và “Manchester United FC” đều nói về

“Manchester United F.C.” Do đó, hai trang chuyển hướng của “Manchester United

F.C.” là “ManU” và “Manchester United FC”

Trang phân giải nhập nhằng

Trang chuyển hướng là tên gọi khác hay bí danh của một trang thực thể thì Wikipedia còn xây dựng trang phân giải nhập nhằng Trang phân giải nhập nhằng này được dùng khi các trang thực thể có tên gọi gần giống nhau hay tương tự nhau Nghĩa là cùng một tên gọi nhưng lại biểu diễn cho các trang thực thể khác Với lý

do đó, Wikipedia xây dựng trang phân giải nhập nhằng giúp cho người đọc có thể tìm được các trang thực thể mà họ cần

Hình 2.3 cho thấy, Ocean (disambiguation) là trang phân giải nhập nhằng Trang này chứa các trang thực thể khác có tên gọi giống hoặc tương đương với nó

Ví dụ này cho thấy có rất nhiều trang có cùng tên gọi gần giống với nhau Nên Wikipedia sử dụng trang phân giải nhập nhằng này hỗ trợ giúp người dùng tìm kiếm trang thực thể nhanh và dễ hiểu hơn

Trang 25

Hình 2.2 Hai trang chuyển hướng “ManU” và “Manchester United FC” của trang

thực thể “Manchester United F.C.”

Trang thể loại

Trang thể loại chứa các trang thể loại con của nó Với mục tiêu là để dễ dàng cho người dùng thì Wikipedia khuyến khích người viết bài phân loại bài viết của họ theo một cây phân cấp thể loại cho trước Cây thể loại phân cấp này có cấu trúc rất phức tạp

2.2 Thực thể và nhãn tham chiếu

Thực thể

Theo KIM, thực thể (entity) là một đối tượng hoặc một tập các đối tượng nào

đó có một sự tồn tại riêng biệt, hữu hình trong thế giới thực (George W Bush, WTO,…) hay có thể tồn tại ở dạng vô hình, trừu tượng (hình tròn, hình vuông,…)

Trang 26

Trong luận văn này, chúng tôi chỉ xét ở mức độ thực thể, không xét ở mức độ thực thể có tên

Hình 2.3 Trang phân giải nhập nhằng Nhãn tham chiếu

Trong nội dung văn bản, thực thể đƣợc biểu diễn bởi tên riêng, danh từ, đại từ, hình ảnh,… đƣợc gọi là nhãn tham chiếu Hay có thể hiểu cách khác, nhãn tham chiếu là biểu diễn với nhiều dạng khác nhau của thực thể Trong luận văn này chúng

tôi chỉ đề cập và sử dụng các nhãn tham chiếu thể hiện ở dạng ngôn từ

2.3 Học máy

Học máy, có tài liệu gọi là Máy học, (tiếng Anh: Machine Learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống "học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể Ví dụ như các máy có thể "học" cách phân loại thư điện tử xem có phải thư rác (spam)

Trang 27

hay không và tự động xếp thư vào thư mục tuơng ứng Học máy rất gần với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ3

Hình 2.4 Minh họa về phân loại trong Wikipedia

Có rất nhiều giải thuật học máy đƣợc đề xuất nhƣ: cây quyết định, mạng Neutron, K-means, Random Forest, Support Vector Machine (SVM),… Nhƣng tổng quát ta có thể phân loại các giải thuật học máy thành từng nhóm nhƣ sau:

- Học máy có giám sát (Supervised Learning) Đối với nhóm giải thuật

này, tập dữ liệu huấn luyện sẽ đƣợc cung cấp câu trả lời chính xác ngay ban đầu Nội dung của một mẫu dữ liệu huấn luyện sẽ bao gồm các giá trị của

3

http://vi.Wikipedia.org/wiki/Học_máy

Trang 28

các vector đặc trưng Kết quả thu được của quá trình học này là một mô hình sử dụng cho việc dự đoán câu trả lời của một mẫu dữ liệu mới

- Học máy không giám sát (Unsupervised Learning) Giải thuật học máy

này cũng tương tự như học có giám sát nhưng đối với mỗi mẫu dữ liệu huấn luyện chỉ bao gồm các giá trị của các vector đặc trưng mà không cho trước câu trả lời Giải thuật học máy sẽ cố gắng gom nhóm (clustering) các mẫu

dữ liệu huấn luyện đầu vào dựa vào sự tương tự của chúng hay nói cách khác chúng tự mình đưa ra câu trả lời Thông thường thì độ chính xác của phương pháp học máy không giám sát sẽ thấp hơn học máy có giám sát

- Học máy bán giám sát (Semi-Supervised Learning) Học máy bán giám

sát là sự kết hợp giữa học máy có giám sát và học máy không giám sát Đối với học máy thông thường thì kết quả thu được tốt khi dùng một lượng lớn

dữ liệu huấn luyện Tuy nhiên, chi phí để xây dựng tập dữ liệu này sẽ rất tốn kém Vì vậy, ý tưởng của học máy bán giám sát là sử dụng một lượng nhỏ

dữ liệu đã được gán nhãn kết hợp với một lượng lớn các dữ liệu chưa gán nhãn để xây dựng tập dữ liệu Phương pháp này tiết kiệm chi phí, có ý nghĩa thực tiễn cao, nhưng cho hiệu quả chấp nhận được

- Học máy tăng cường (Reinforcement Learning) Các bài toán thực tế còn

bị phụ thuộc vào môi trường xung quanh nó Cho nên, ngay tại một thời điểm thì môi trường sẽ cung cấp thông tin phản hồi ngay tại thời điểm đó, giúp cho việc học máy đưa ra kết quả chính xác hơn Cho nên giải thuật học máy tăng cường này có ý nghĩa rất lớn đối với các bài toán thời gian thực (real time)

Bootstrap Aggregating

Bootstrap Aggregating (hay còn gọi là Bagging), là một siêu giải thuật (meta algorithm) trong học máy, được đề xuất bởi Leo Breiman4 vào năm 1994 để cải thiện việc phân lớp bằng cách kết hợp phân loại các tập dữ liệu huấn luyện ngẫu nhiên Ngoài Boostrap Aggregating còn có các siêu giải thuật khác như Boosting hay Feature Selected

Bagging là giải thuật tổ hợp các kết quả khác nhau của cùng một giải thuật học máy, nhưng cho những tập huấn luyện riêng lẻ khác nhau được trích dẫn từ tập huấn

luyện ban đầu Siêu giải thuật Bagging có thể được mô tả như sau:

4

http://en.Wikipedia.org/wiki/Leo_Breiman

Trang 29

- Cho một tập dữ liệu huấn luyện D có kích thước là n, siêu giải thuật Bagging sẽ tạo ra m tập dữ liệu con D1 đến D m có kích thước k < n Điều kiện để tạo tập dữ liệu con D i bằng cách chọn ngẫu nhiên các mẫu dữ liệu

trong tập dữ liệu huấn luyện D Do các mẫu dữ liệu được lấy ngẫu nhiên nên các tập dữ liệu con D 1 đến D m có thể chứa các mẫu dữ liệu trùng nhau

và cũng có thể có các mẫu trong tập dữ liệu huấn luyện D không xuất hiện trong các tập con D 1 đến D m Cách chọn và lấy dữ liệu như vậy được gọi là bootstrap

- Từ m tập dữ liệu con, siêu giải thuật sẽ tạo ra m mô hình huấn luyện con

khác nhau Kết quả cuối cùng của siêu giải thuật đó là một mô hình được

xây dựng bằng cách tập hợp các mô hình của m tập con và thực hiện việc

lấy trung bình kết quả đầu ra đối với bài toán hồi quy hoặc thực hiện phương pháp bỏ phiếu để chọn kết quả đầu ra đối với bài toán gán nhãn

- Riêng đối với bài toán gán nhãn thì siêu giải thuật sẽ lấy các kết quả đầu ra của các mô hình con Sau đó, siêu giải thuật sẽ tiến hành chọn ra nhãn chiếm ưu thế nhiều nhất để làm nhãn cuối cùng gán cho kết quả của siêu giải thuật

- Với cách chia và xử lý như vậy, siêu giải thuật góp phần cải thiện cho độ ổn định và độ chính xác cho thuật toán

Giải thuật học máy C4.5

C4.5 là một giải thuật học máy dựa trên cây quyết định (Decision tree) được phát triển bởi Ross Quinlan5 Đây là giải thuật mở rộng của giải thuật ID3 cũng do Ross Quinlan phát triển Cây quyết định được sinh ra bởi C4.5 có thể dùng để làm giải thuật phân loại [6]

Giải thuật C4.5 được mô tả như sau:

- Kiểm tra những trường hợp nền (base case)

- Với mỗi đặc trưng a của dữ liệu huấn luyện: thực hiện tìm tỉ lệ thông tin

thu được đã tiền xử lý (normalized information gain ratio) tương ứng của

Ngày đăng: 27/01/2021, 10:12

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w