1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ liệu twitter

59 205 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 59
Dung lượng 0,98 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

19 2.4 Áp dụng độ tương đồng cho bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter.. Thông qua tìm hiểu và phân tích các phương pháp khai phá quan điểm trên các miền dữ liệ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Trang 3

i

MỤC LỤC

Trang

LỜI CẢM ƠN! iv

LỜI CAM ĐOAN v

DANH MỤC CÁC TỪ VIẾT TẮT vi

DANH MỤC CÁC BẢNG vii

DANH MỤC HÌNH VẼ viii

LỜI MỞ ĐẦU 1

CHƯƠNG I: KHÁI QUÁT VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM TRÊN MẠNG XÃ HỘI TWITTER 3

1.1 Mạng xã hội Twitter 3

1.1.1 Mạng xã hội 3

1.1.2 Giới thiệu về mạng xã hội Twitter 3

1.1.3 Dữ liệu trên Twitter 6

1.2 Phát biểu bài toán 7

1.2.1 Bài toán tóm tắt quan điểm 7

1.2.2 Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter 7

1.2.3 Ý nghĩa của bài toán tóm tắt quan điểm về thực thể trên mạng xã hội 7

1.2.4 Khó khăn và thách thức 9

1.3 Tóm tắt chương 1 9

CHƯƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 10

2.1 Một số nghiên cứu liên quan 10

2.2 Hệ thống phân lớp quan điểm 11

2.2.1 Các đặc trưng chủ yếu để phân lớp quan điểm 11

Trang 4

ii

2.3 Bài toán phân loại và các thuật toán phân loại 13

2.3.1 Thuật toán phân loại SVM 14

2.4 Độ tương đồng 17

2.4.1 Độ đo Euclid 18

2.4.2 Độ đo cosin 19

2.4.3 Độ đo Lenvenshtein 19

2.4 Áp dụng độ tương đồng cho bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter 21

2.5 Tóm tắt chương 2 22

CHƯƠNG III: MÔ HÌNH ĐỀ XUẤT 23

3.1 Mô hình giải quyết bài toán 23

3.2 Giải quyết chi tiết các pha 24

3.2.1 Crawl dữ liệu liên quan đến thực thể 24

3.2.2 Xây dựng bộ dữ liệu training cho việc phân loại 27

3.2.3 Tiền xử lý và chuẩn hóa dữ liệu 28

3.2.4 Xây dựng bộ phân lớp tích cực - tiêu cực và áp dụng cho tập dữ liệu vừa được crawl và chuẩn hóa 33

3.2.5 Áp dụng bộ phân loại dữ liệu học được cho dữ liệu chưa được gán nhãn và trực quan hóa kết quả 33

3.3 Tóm tắt chương 3 33

CHƯƠNG IV: THỰC NGHIỆM VÀ ĐÁNH GIÁ 35

4.1 Hướng tiếp cận thực nghiệm 35

4.2 Môi trường thực nghiệm 35

4.2.1 Cấu hình phần cứng 35

4.2.2 Công cụ phần mềm 36

Trang 5

iii

4.3 Dữ liệu 38

4.4 Thực nghiệm 39

4.4.1 Xây dựng bộ phân lớp chủ quan khách quan 39

4.4.2 Kết quả phân loại 42

4.4.3 Đánh giá kết quả 43

4.5 Tóm tắt chương 4 44

KẾT LUẬN VÀ ĐỊNH HƯỚNG TIẾP THEO 45

TÀI LIỆU THAM KHẢO 47

Trang 6

iv

LỜI CẢM ƠN!

Lời đầu tiên, em xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến PGS.TS Lê Thanh Hương đã tận tình hướng dẫn và chỉ bảo em trong suốt quá trình thực hiện luận văn tốt nghiệp

Em xin chân thành cảm ơn các thầy, cô trong trường Đại học Bách Khoa đã tạo mọi điều kiện thuận lợi cho em học tập và nghiên cứu

Em cũng xin gửi lời cảm ơn các bạn trong lớp CNTT-2014B đã ủng hộ và khuyến khích em trong suốt quá trình học tập tại trường

Cuối cùng, em xin được gửi lời cảm ơn vô hạn tới gia đình và bạn bè, những người đã luôn bên cạnh, giúp đỡ và động viên em trong suốt quá trình học tập cũng như trong suốt quá trình thực hiện khóa luận này

Em xin chân thành cảm ơn!

Trang 7

v

LỜI CAM ĐOAN

Tôi xin cam đoan phương pháp nghiên cứu kỹ thuật tóm tắt quan điểm từ dữ liệu Twitter và thực nghiệm được trình bày trong luận văn này là công trình nghiên cứu của bản thân được thực hiện dưới sự hướng dẫn của PGS.TS Lê Thanh Hương Các số liệu có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luận văn được thu thập trong quá trình nghiên cứu là trung thực chưa từng được ai công bố trước đây Tất cả các tài liệu tham khảo từ các nghiên cứu liên quan đều có nguồn gốc rõ ràng từ danh mục tài liệu tham khảo trong khóa luận Nếu phát

văn của mình

Hà Nội, tháng 10 năm 2016

Trang 8

vi

DANH MỤC CÁC TỪ VIẾT TẮT

Trang 9

vii

DANH MỤC CÁC BẢNG

Bảng 1: Ví dụ về biểu tƣợng cảm xúc 30

Bảng 2: Cấu hình phần cứng 36

Bảng 3: Công cụ phần mềm 36

Bảng 4: Thống kê cho dữ liệu SemEval 38

Bảng 5: Thống kê cho dữ liệu Twitter140 39

Bảng 6: Bảng thuộc tính 41

Bảng 7: Chi tiết thuộc tính sử dụng trong các mô hình: 41

Bảng 8: Kết quả phân loại trên tập dữ liệu SemEval 42

Bảng 9: Kết quả phân loại trên tập dữ liệu Twitter 140 52

Trang 10

viii

DANH MỤC HÌNH VẼ

Hình 1: Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm 24

Hình 2: Phương pháp SVM với Linear kernel 16

Hình 3: Mô hình đề xuất giải quyết bài toán phân tích quan điểm 23

Hình 4: Kết quả phân loại cho tập dữ liệu SemEval 42

Hình 5: Kết quả phân loại cho tập dữ liệu Twitter140 43

Trang 11

1

LỜI MỞ ĐẦU

Sự bùng nổ ngày càng mạnh mẽ của mạng xã hội mở ra nhiều cơ hội cho các tổ chức, các nhân thu thập, tìm kiếm thông tin cũng như xử lý chúng và nhiều bài toán được đặt ra để khai thác nguồn thông tin dồi dào từ mạng xã hội

Tóm tắt quan điểm là một trong những bài toán khai thác thông tin, giúp người dùng có thể có được những thông tin mong muốn về quan điểm Tóm tắt quan điểm giúp người dùng tìm được những tài liệu quan điểm liên quan đến truy vấn Tóm tắt quan điểm còn bao gồm nội dung tổng hợp quan điểm từ các tài liệu quan điểm thu hồi được

Với sự phát triển nhanh chóng cùng các API hỗ trợ, mạng xã hội Twitter đã trở thành một nguồn cung cấp nhiều thông tin quan điểm cho những người nghiên cứu về mạng xã hội

Đã có nhiều công trình nghiên cứu, chẳng hạn [1, 6, 9, 12, 15, 21] liên quan đến bài toán tóm tắt quan điểm theo các phương pháp khác nhau từ nhiều nguồn dữ liệu Nói riêng, nhiều công trình nghiên cứu về phân tích quan điểm trên Twitter đã được công bố [2, 3, 7, 13, 21]

Thông qua tìm hiểu và phân tích các phương pháp khai phá quan điểm trên các miền dữ liệu khác nhau [5, 14, 19, 20], luận văn tập trung nghiên cứu bài toán tóm tắt quan điểm trên mạng xã hội Twitter và đề xuất mô hình giải quyết bài toán

Nội dung của khoá luận được chia thành các chương như sau:

Chương 1: Trình bày về bài toán tóm tắt quan điểm về thực thể trên mạng xã

hội Chương này bắt đầu bằng việc giới thiệu về mạng xã hội, mạng xã hội Twitter với dữ liệu của nó Sau đó bài toán tóm tắt quan điểm trên mạng xã hội được phát biểu; cùng với đó là những trình bày về ý nghĩa của bài toán cũng như các khó khăn thách thức trong việc giải quyết nó

Chương 2: Trình bày tóm tắt khái quát các công trình nghiên cứu liên quan,

Trang 12

2

đồng thời trình bày những ưu điểm, nhược điểm của các phương pháp nghiên cứu liên quan đĩ Thuật tốn SVM và thuật tốn Nạve Bayes được sử dụng cho việc phân lớp quan điểm được giới thiệu Tiếp đĩ, tác giả trình bày về một số độ đo và các thuộc tính cĩ thể trích xuất của tweet

Chương 3: Đưa ra mơ hình giải quyết bài tốn tĩm tắt quan điểm trên mạng

xã hội Twitter Các pha trong mơ hình và phương pháp giải quyết chi tiết ở từng pha được mơ tả Tác giả cũng giới thiệu dữ liệu, từ điển được dùng cho bài tốn

Chương 4: Thực nghiệm và đánh giá Chương này chỉ ra từng bước tiến hành

thực nghiệm và đánh giá các kết quả thực nghiệm thu được

Phần kết luận và định hướng tiếp theo của luận văn: Tĩm lược những điểm

chính của luận văn Chỉ ra những điểm cần khắc phục, đồng thời đưa ra những hướng nghiên cứu trong thời gian sắp tới

Trang 13

3

CHƯƠNG I: KHÁI QUÁT VỀ BÀI TOÁN PHÂN TÍCH QUAN ĐIỂM

TRÊN MẠNG XÃ HỘI TWITTER 1.1 Mạng xã hội Twitter

1.1.1 Mạng xã hội

Mạng xã hội, hay còn gọi là mạng xã hội ảo (tiếng Anh: social network) là dịch vụ kết nối các thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau, không phân biệt không gian và thời gian Những người tham gia vào dịch vụ mạng xã hội còn được gọi là cư dân mạng

Dịch vụ mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file, blog và xã luận Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới Các dịch vụ này có nhiều phương cách để các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên trường hoặc tên thành phố), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích

cá nhân (như thể thao, phim ảnh, sách báo, hoặc ca nhạc), lĩnh vực quan tâm (như kinh doanh, mua bán…)

Hiện nay thế giới có hàng trăm dịch vụ mạng xã hội khác nhau, với Twitter và Facebook nỏi tiếng nhất trong thị trường Bắc Mỹ và Tây Âu, Orkut và Hi5 tại Nam

Mỹ, Friendster tại châu Á và các đảo quốc Thái Bình Dương Dịch vụ mạng xã hội khác gặt hái được thành công đáng kể theo vùng miền như Bebo tại Anh Quốc, CyWorld tại Hàn Quốc, Mixi tại Nhật Bản và tại Việt Nam xuất hiện nhiều các dịch

vụ mạng xã hội như Zing Me…

1.1.2 Giới thiệu về mạng xã hội Twitter

Ra đời vào ngày 21/03/2006 bởi Jack Dorsey và July, Twitter là dịch vụ mạng

xã hội miễn phí cho phép người dùng sử dụng đọc, nhắn và cập nhật các mẩu tin nhỏ gọi là tweet, một dạng tiểu blog Những mẩu tweet được giới hạn tối đa 140 ký

tự được lan truyền nhanh chống trong phạm vi nhóm bạn của người nhắn hoặc có

Trang 14

Dưới đây là một số khái niệm trong Twitter:

- Twitter là 1 trang micro-blog và cũng là một mạng nhắn tin

- Tweet là một đoạn văn (một SMS) của người dùng tạo ra

- Follow theo dõi

- Follower của bạn là số người đang theo dõi bạn

- Following của bạn là số người bạn đang theo dõi

- Mention (hoặc Reply) là một từ hoặc một cụm từ bắt đầu bằng các ký hiệu

“@”, là hành động đánh dấu tên người dùng để trả lời hoặc đề cập đến người đó

- Hashtag là một từ hoặc một cụm từ bắt đầu bằng ký hiệu “#” được gọi là biểu tượng băm, nó là một hình thức thẻ siêu dữ liệu, các tweets có thể được gắn thẻ bằng một hay nhiều từ Ví dụ “#Wikipedia is an #encyclopedia”

- Hashtag cung cấp một phương tiện của nhóm các tin nhắn như vậy, vì thế ta

có thể tìm kiếm các hashtag và nhận được tập hợp các tin nhắn đó

- Url (link) trên các tweets đều được rút gọn lại để tránh các kiểu lợi dụng đường link nhằm lừa đảo hay phát tán phần mềm độc hại và để giúp hiện thị tốt trên tweet (vì tweet chỉ có 140 ký tự) Công cụ của Twitter rút gọn link nhưng vẫn hiển thị tên miền đầy đủ để người dùng có thể biết họ bấm vào đường link nào

Cơ chế kết nối

Ở mạng xã hội Facebook người dùng đã quá quen thuộc với hình thức tương tác hai chiều Có nghĩa là một người kết bạn với bạn thì cần phải có sự xác nhận của

Trang 15

Điểm mạnh của Twitter là số người follow bạn không giới hạn, còn số lượng người kết nối bạn bè trong Facebook thì giới hạn với con số 5000 Do đó, Twitter thường được ưa thích sử dụng bởi các doanh nghiệp, thương hiệu, hay những ngôi sao nổi tiếng nhằm cập nhật những thông tin về mình cho những người quan tâm

Vì vậy, những diễn viên, ca sĩ, ngôi sao bóng đá… trên thế giới thường sử dụng mạng xã hội này

Hiện nay thì Facebook đã có hình thức Fanpage tương tự như cơ chế một chiều để đáp ứng việc theo dõi

Cơ chế cập nhật

Có một điểm đặc biệt và khác với nhiều mạng xã hội khác ở Twitter chính là việc chỉ cho phép tweet với 140 ký tự Đây cũng là một trong những lý do tại sao đa

số người Việt Nam không thích mạng xã hội này Thế nhưng tại sao lại như vậy?

Đó là vì nếu như bạn ở Mỹ và một số nước mà Twitter phát triển, bạn có thể nhận được những cập nhật từ người mà bạn quan tâm thông qua tin nhắn SMS Mà

đa phần các thiết bị di động chỉ giới hạn số ký tự cho một tin nhắn là 160 ký tự Vậy vì sao lại không phải là 160 ký tự mà là 140 ký tự? Đó là vì 20 ký tự kia được dành để hiển thị cho tên người cập nhật

Mặt khác, việc cập nhật một status với số lượng ký tự ít ỏi này cũng tạo nên một thói quen cho người dùng Nhất là đối với thời buổi bận rộn hiện nay

Tuy nhiên, hiện nay Twitter chưa hỗ trợ phần gửi tin nhắn SMS ở Việt Nam

Trang 16

chỉ cần tweet lên Twitter thì bạn bè thân của bạn sẽ biết được mà không cần phải gọi điện thoại hay nhắn tin Ví dụ như bạn sắp đi Sài Gòn, bạn có thể tweet lên “Chuẩn bị đi Sài Gòn” Những bạn bè thân của bạn sẽ nhận được thông điệp này một cách nhanh chóng và có thể sắp xếp để gặp bạn

cấp thông tin đến với người tiêu dùng của họ thông qua việc tweet lên Twitter Người dùng cũng dễ dàng nhận được các thông tin hỗ trợ và những chương trình khuyến mãi, hay các thông tin về sản phẩm mới

 Đối với các ngôi sao có nhiều fan hâm mộ: Các ngôi sao có thể cập nhật những gì mình đang làm, những chương trình mà mình tham gia, các buổi biểu diễn… Các fan hâm mộ cũng có thể nhận được thông tin này một cách nhanh nhất trực tiếp từ chính thần tượng của họ

Qua đó, các bạn cũng thấy rằng không cần phải thông qua các báo đài, bạn vẫn

có thể nhận được thông tin một cách nhanh nhất, trực tiếp từ người bạn cần theo dõi Ngoài ra, Twitter còn có cơ chế retweet, tức là tweet lại thông tin từ người khác

đã tweet Đây cũng chính là một trong những điểm mạnh của Twitter, thông tin lan truyền một cách nhanh chóng

1.1.3 Dữ liệu trên Twitter

Dữ liệu trên Twiteer chủ yếu là tiếng anh, dữ liệu mỗi tweet có độ dài tối đa là

140 ký tự Các tweet thường rất ngắn, nhiều từ viết tắt, thiếu hoặc sai chính tả Tweets thường chứa thêm reply (“@”), hashtag (“#”), URL (link)

Trang 17

7

1.2 Phát biểu bài toán

1.2.1 Bài toán tóm tắt quan điểm

Bài toán tóm tắt quan điểm là một trong các bài toán khai thác thông tin, giúp người dùng có thể có được những thông tin mong muốn về quan điểm

Phân tích được những câu, những tài liệu liên quan đến truy vấn, tương tự công việc của tìm kiếm web Phân lớp câu, tài liệu được tóm tắt theo quan điểm tích cực hay tiêu cực Đây chính là nhiệm vụ chính của phần này

Bài toán tóm tắt quan điểm:

Đầu vào: Truy vấn (tên một thực thể, một người dùng, một câu nói…);

Đầu ra: Các tài liệu mang quan điểm liên quan đến truy vấn

1.2.2 Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter

Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter là một bài toán tóm tắt quan điểm với truy vấn thu hẹp trong phạm vi là thực thể trên dữ liệu Twitter

Bài toán tóm tắt quan điểm về thực thể trên mạng xã hội Twitter:

Đầu vào: Tên thực thể (ví dụ: iphone, samsung, acer…)

Đầu ra: Đánh giá quan điểm về thực thể

Bài toán này được thực hiện trên miền dữ liệu tiếng anh trên Twitter - Mạng

xã hội ngày càng lớn mạnh, Twitter là một trong top 10 mạng xã hội phổ biến nhất (Twitter có số lượng người dùng đứng thứ 2) và Twitter cung cấp nhiều API giúp chúng ta có thể sử dụng Do Twitter hạn chế số lượng ký tự (tối đa 140) và chưa hỗ trợ gửi tin nhắn ở Việt Nam nên lượng người dùng Twitter ở Việt Nam tương đối ít

Do vậy tác giả chọn tóm tắt quan điểm về thực thể trên mạng xã hội Twitter với dữ liệu là tiếng anh

1.2.3 Ý nghĩa của bài toán tóm tắt quan điểm về thực thể trên mạng xã hội

Trong những năm gần đây, chúng ta chứng kiến một thực tiễn là các bài viết

Trang 18

8

mang quan điểm trên các phương tiện xã hội đã giúp định hình lại các doanh nghiệp, và tạo ảnh hưởng tình cảm và cảm xúc công cộng, đã ảnh hưởng sâu sắc tới các hệ thống xã hội và chính trị của chúng ta Tóm tắt quan điểm (hay Phân tích tình cảm), là lĩnh vực nghiên cứu về phân tích quan điểm, tình cảm, đánh giá, thẩm định, thái độ, và cảm xúc của con người đối với các thực thể như sản phẩm, dịch vụ, tổ chức, cá nhân, vấn đề, sự kiện, chủ đề, và các thuộc tính của chúng

Với sự bùng nổ của các phương tiện xã hội chứa đựng các bài viết (thảo luận, chú thích, đánh giá…), các cá nhân và thực thể xã hội đang sử dụng ngày càng nhiều nội dung trong phương tiện xã hội để đưa ra quyết định Nếu một người muốn mua một sản phẩm tiêu dùng, họ có thể tham khảo rất nhiều đánh giá và thảo luận

về sản phẩm đó của cộng đồng người tiêu dùng tại các diễn đàn công cộng trên các websie Nếu một tổ chức/doanh nghiệp muốn thu thập quan điểm công chúng về sản phẩm của mình, tổ chức/doanh nghiệp đó có thể tham khảo thông tin phong phú được công bố công khai trên các phương tiện xã hội Cùng với việc lớn mạnh của mạng xã hội nói chung và mạng xã hội Twitter nói riêng, việc phân tích quan điểm

về thực thể trên Twitter càng có nhiều ý nghĩa Tóm tắt quan điểm về thực thể từ người sử dụng Twitter cho thấy quan điểm chung của cộng đồng về thực thể đó Khảo sát quan điểm rất có ích, ví dụ nếu một người muốn mua một chiếc điện thoại Iphone 6 nhưng họ chưa có kinh nghiệm sử dụng chiếc điện thoại đó, họ có thể hỏi hoặc tham khảo quan điểm từ gia đình, bạn bè… Ngoài ra họ có thể lên các diễn đàn, các trang mạng xã hội để tìm hiểu quan điểm của những người đã dùng chiếc điện thoại đó

Nếu có khảo sát quan điểm về chiếc điện thoại Iphone 6 theo thời gian, người dùng có thể thấy được một cách nhìn nhận quan điểm về cộng đồng về chiếc điện thoại Iphone, xu hướng về sự thay đổi quan điểm cộng đồng về điện thoại Iphone 6 Theo thời gian, Iphone 6 cũng có sự thay đổi nên quan điểm của cộng đồng người dùng cũng thay đổi theo

Trang 19

9

1.2.4 Khó khăn và thách thức

Dữ liệu Twitter rất ngắn (tối đa là 140 ký tự), có rất nhiều từ viết tắt, từ lóng,

từ sai chính tả và viết không đúng cú pháp, chất lượng và độ tin cậy thấp Những yếu tố này làm giảm hiệu quả khai thác quan điểm dựa trên NPL truyền thống

1.3 Tóm tắt chương 1

Chương 1 tác giả đã giới thiệu về mạng xã hội Twitter và bài toán tóm tắt quan điểm, giới thiệu bài toán toán tắt quan điểm về thực thể trên mạng xã hội Twitter, lý do sử dụng Twitter để tóm tắt quan điểm, cho biết tầm quan tọng của bài toán và những khó khăn thách thức gặp phải khi giải quyết bài toán

Chương tiếp theo của luận án, tác giả sẽ trình bày về các cơ sở lý thuyết và các nghiên cứu liên quan đến bài toán này

Trang 20

10

CHƯƠNG II: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

Khi các mạng xã hội như Twitter hay Facebook bùng nổ và lan rộng như là xu hướng giao tiếp của thế giới mới, lượng dữ liệu từ các tài khoản người dùng của mỗi mạng xã hội này chính là những dữ liệu rất quý báu cho những nhà phân tích

dữ liệu Thay vì cách làm truyền thống như là đưa ra các bài khảo sát trên các kênh online, thì với mạng xã hội ta có thể tiếp cận được rất nhiều nguồn thông tin từ một lượng người dùng lớn hơn mà không tốn nhiều nhân lực để thực hiện Twitter là mạng xã hội có đặc trưng với các hashtag, tức là các từ khóa mà mỗi người dùng có thể đưa vào trong 1 dòng trạng thái (tweet) của mình Chính nhờ các hashtag này, bằng việc tìm các tweet liên quan đến 1 hashtag nào đó, chính là chúng ta đang tìm

ra các tweet liên quan đển hashtag đó Các tweet này chính là các thông tin từ chủ nhân nó, và có thể mang ít nhiều quan điểm tích cực hoặc tiêu cực về hashtag Vì vậy, đã có nhiều công trình nghiên cứu để tóm tắt các quan điểm của người dùng từ mạng xã hội Twitter Trong khóa luận này, tác giả cũng dựa trên các nghiên cứu trước đó và đề xuất một số cải tiến cho việc tóm tắt quan điểm

2.1 Một số nghiên cứu liên quan

Tóm tắt quan điểm là bài toán tiến hành phân tích các quan điểm trong một nguồn tài liệu, trong đó có các mạng xã hội, chẳng hạn như Twitter Tóm tắt quan điểm có nhiều ứng dụng và được dựa trên các giải pháp công nghệ tiên tiến vì vậy thu hút sự quan tâm đặc biệt của nhiều nhóm nghiên cứu trên thế giới

Ý tưởng chủ yếu của các bài toán này là trích lọc đặc trưng từ các tweet và đưa vào bộ phân loại Một số bài báo gần đây đã bắt đầu sử dụng các mô hình chủ

đề hay như áp dụng các thuật toán Deep learning vào để đưa ra kết quả tốt hơn Các đặc trưng được sử dụng thường liên quan đến các n-gram, một số tính chất đặc trưng của short text và twitter Nhiều công trình nghiên cứu về tóm tắt quan điểm đã được công bố [1,6,9,12,15,16,21] Trên cơ sở tìm hiểu và phân tích các công trình nghiên cứu liên quan, đặc biệt là các công trình [1, 2, 6, 21], tác giả khảo sát các

Trang 21

11

phương pháp tóm tắt quan điểm trên nhiều miền, nhiều lĩnh vực Từ đó, tác giả đề nghị một mô hình tóm tắt quan điểm trên mạng xã hội Twitter, với các đặc trưng được chọn lọc là hiệu quả ở các nghiên cứu trước đó, cùng với đó là mô hình đưa ra quan điểm theo thời gian thực, giúp cho việc xử lý và phản ứng trước các vấn đề một cách tốt hơn

2.2 Hệ thống phân lớp quan điểm

2.2.1 Các đặc trưng chủ yếu để phân lớp quan điểm

- Đặc trưng từ điển và n-gram: Một trong các cách biểu diễn một đoạn

tweet là sử dụng các vector từ và các n-gram Ta xây dựng một bộ từ điển với các từ

là các từ xuất hiện trong tất cả các tweet cần phân tích (bao gồm cả tập trainning và tập testing) Dựa vào bộ từ điển, ta có thể xây dựng các vector từ điển dựa vào tần suất xuất hiện của các từ của từ điển trong tweet đó dựa trên cách biểu diễn bag-of-words, hoặc chọn 1 biểu diễn khác là tf-idf Đây là các biểu diễn đưa ra các đặc trưng cổ điển và quen thuộc nhất Trong luận án này ta sử dụng cách biểu diễn bag-of-words

Cần chú ý hơn là khi xây dựng bộ từ điển, ta có thể thêm các cặp từ bigram, trigram để làm giàu thêm thông tin cho vector Các thuộc tính bigram, trigram thực chất là các cụm từ (bigram: cặp 2 từ, trigram: cặp 3 từ) có tần suất xuất hiện lớn trong các tweet và cũng chứa các thông tin quan trọng Các n-gram này sẽ bổ sung thêm thông tin khi mã hóa vector tweet, hứa hẹn cải thiện kết quả phân loại

- Đặc trưng từ loại: Các nghiên cứu trước đó chỉ ra rằng các đặc trưng từ loại

đóng vai trò quan trọng trong thể hiện quan điểm của tweet Để thể hiện quan điểm, trong các tweet sẽ thường có các từ thể hiện cảm xúc thông qua các tính từ hoặc trạng từ Việc sử dụng các động từ theo các cách khác nhau cũng thể hiện các quan điểm tích cực hoặc tiêu cực theo cách cách khác nhau, đặc biệt trong ngôn ngữ tiếng anh Chính vì vậy các đặc trưng từ loại là các đặc trưng cần phải có trong vector tweet

- Đặc trưng dựa trên các biểu tượng cảm xúc: Để thể hiện cảm xúc, các

Trang 22

12

mạng xã hội đặc biệt như Twitter cung cấp cho người dùng các biểu tượng cảm xúc được mã hóa bởi các kí tự đặc biệt Do các biểu tượng đặc biệt là hữu hạn nên ta có thể dễ dàng thống kê và phân chia chúng thành 4 nhóm extreme positive, positive, negative, extreme negative

- Đặc trưng của từ đặc biệt kéo dài: Trong tweet, thường sẽ thêm 1 số từ

được viết theo văn nói và ngôn ngữ internet, đặc biệt là các từ bị kéo dài so với từ gốc như coooolllll ~ cool Ta có thể phát hiện ra số lượng các từ như vậy bằng regular expression Và các từ này đều ảnh hưởng đến quan điểm của tweet theo cả tiêu cực và tích cực Chính vì vậy ta sẽ thêm số lượng từ kéo dài là 1 đặc trưng của vector tweet

- Đặc trưng dựa trên số lượng các kí tự đặc biệt: Các nghiên cứu và thống

kê trước đã chỉ ra rằng, khi 1 tweet chứa các kí tự đặc biệt như *, !, ?, “ thì người ta nhận thấy rằng, các kí tự đặc biệt này cũng ảnh hưởng đến cảm xúc của tweet Dễ nhận thấy các kí tự này cũng thường được thể hiện biểu cảm của tweet về vấn đề nó nói đến, hay tức là chủ đề mà ta cần tóm tắt quan điểm

- Dựa vào bộ từ điển AFFIN: AFFIN là một bộ từ điển phân cực bao gồm

2490 từ với các trọng số từ -5 (negative) đến +5 (positive) Đây là một nguồn dữ liệu quý để có thể đưa ra các thuộc tính tốt cho vector tweet Nhưng với số lượng từ

ít ỏi trong bộ từ điển, luận án đưa ra 1 cách mở rộng bộ từ điển này sử dụng bộ từ điển có sẵn Wordnet Nếu một từ có trong AFFIN, ta sẽ thu được trọng số của nó Nếu từ đó không có trong AFFIN, ta sẽ tìm tất cả các từ đồng nghĩa (synonyms) với

nó trong bộ từ điển Wordnet Nếu một trong các từ này xuất hiện trong AFFIN, ta lấy giá trị trọng số của từ ban đầu bằng với trọng số của từ đồng nghĩa đó xuất hiện trong AFFIN

Dựa vào bộ từ điển AFFIN trên, với 1 tweet ta có thể trích xuất ra được các thuộc tính như:

- Số lượng từ mang ý nghĩa tích cực

- Số lượng từ mang ý nghĩa tiêu cực

Trang 23

13

- Số lượng từ in hoa mang ý nghĩa tích cực

- Số lượng từ in hoa mang ý nghĩa tiêu cực

- Có từ in hoa hoặc không có (1 – có, 0 – không)

2.3 Bài toán phân loại và các thuật toán phân loại

Bài toán phân loại dữ liệu là một trong những bài toán cơ bản của học máy hiện đại, được ứng dụng trong rất nhiều hệ thống trí tuệ nhân tao Phân loại dữ liệu

là một cách học có giám sát, sử dụng các dữ liệu đã biết để dự đoán các dữ liệu chưa biết Đặc điểm của bài toán phân loại chính là ta sẽ có 2 tập dữ liệu trainning

và testing Chúng ta sẽ áp dụng các thuật toán học có giám sát trên tập training với các dữ liệu đã được gán nhãn sẵn theo một cách nào đó (có thể là do con người, ),

sử dụng các tham số mô hình học được để dự đoán nhãn cho tập dữ liệu testing bao gồm các dữ liệu chưa có nhãn

Cụ thể hơn, bài toán phân loại dữ liệu là một trong những giải pháp phù hợp nhất cho bài toán tóm tắt quan điểm Cách làm có thể diễn tả như sau:

- Download các tweet về một chủ đề nào đó về và tiền xử lý

- Sử dụng 1 kĩ thuật nào đó hoặc tài nguyên con người để gán nhãn 1 cách

chính xác cho 1 số lượng tweet nào đó ta vừa lấy về vào 1 trong 3 nhãn: negative,

neutral, positive Các dữ liệu được gán nhãn thủ công như thế này gọi là tập

Trang 24

14

2.3.1 Thuật toán phân loại SVM

Support Vector Machine (SVM) là một phương pháp học có giám sát, được sử dụng một cách rộng rãi cho các bài toán phân lớp hoặc phân tích hồi quy Thuật toán SVM lần đầu tiên được đưa ra bởi Vladimir Vapnik vào năm 1995 Ý tưởng của phương pháp này là tìm ra được các siêu phẳng phân cách các lớp một cách rõ rệt nhất dựa trên việc tối ưu lề cực đại giữa các siêu phẳng này Để có thể hiểu rõ hơn về phương pháp, chúng ta hãy xét 1 ví dụ đơn giản nhất của bài toán phân lớp với số lượng lớp tối thiểu bằng 2:

Mục tiêu của thuật toán SVM là học ra 1 siêu phẳng chia cách 2 lớp dữ liệu một cách rõ ràng nhất Việc này thể hiện thông qua việc tối ưu lề cực đại - tức là tổng khoảng cách của 2 phần tử thuộc 2 lớp gần siêu phẳng đó nhất đến siêu phẳng đó

Để có thể minh họa rõ hơn, ta xét một ví dụ đơn giản với bài toán phân loại 2 lớp Giả sử ta có 1 tập dữ liệu mẫu {xi, yi} Trong đó các xi là các vector đã được phân loại sẵn thành 2 lớp là lớp dương và lớp âm

Hình 1: Mặt siêu phẳng phân chia tập dữ liệu thành hai lớp dương và âm

Trang 25

15

- Các vector xi có lớp dương thì yi sẽ mang giá trị +1

- Các vector xi có lớp âm thì yi sẽ mang giá trị -1

Trong trường hợp này, bộ phân loại sẽ chia mặt phẳng các vector ra thành 2 phần sao cho 2 phần này càng cách xa nhau, càng tách bạch nhau nhất có thể Cụ thể hơn, ta sẽ phải học ra được 1 siêu phẳng sao cho khoảng cách giữa 2 phần am và dương là tổng khoảng cách của phần tử lớp âm gần siêu phẳng nhất và phần tử lớp dương gần siêu phẳng nhất, tổng khoảng cách này chính là lớn nhất Ví dụ trên 1 không gian 2 chiều thì siêu phẳng này chính là 1 đường thẳng có dạng y = ax + b

Ta phải học ra siêu phẳng này bởi các phương pháp tối ưu

Sau khi học ra được siêu phẳng này, việc phân loại trở nên rất đơn giản Các mặt siêu phẳng này trong không gian mẫu có phương trình là: f(x) = wx + b = 0

của nó, ta chỉ cần xét dấu của f(xm) như sau:

- yi = 1 nếu f(xm) > 0

- yi = -1 nếu f(xm) < 0

Tức nếu f(xm) > 0 → yi = 1, xm thuộc về lớp dương,

nếu f(xm) < 0 → yi = -1, xm thuộc về lớp âm

Để tối ưu được 2 tham số w và b thì có rất nhiều cách làm khác nhau, ở đây ta

sẽ sử dụng phương pháp SVM với Linear kernel để giải quyết bài toán

Trang 26

16

Hình 2: Phương pháp SVM với Linear kernel

2.3.2 Thuật tốn phân loại Nạve Bayes

Các phương pháp sử dụng Nạve Bayes là một tập hợp các phương pháp học

cĩ giám sát sử dụng định lý Bayes với giả thiết “ngây thơ” rằng các vector dữ liệu

là độc lập với nhau Giả sử ta cĩ 1 lớp y và các vector dữ liệu là x1, x2,…,xn Định lý Bayes chỉ ra rằng

Trang 27

Sau khi học ra được các tham số cho phân phối sác xuất trong mỗi lớp bằng việc sử dụng các phương pháp tối ưu thì việc dự đoán nhãn cho 1 dữ liệu mới rất dễ dàng

Trong luận án này, tác giả sử dụng các bộ phân loại SVM với nhân tuyến tính,

2.4 Độ tương đồng

Trong toán học, một độ đo là một hàm số cho tương ứng với một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đó của một tập hợp cho sẵn

Nó là một khái niệm quan trọng trong giải tích và trong lý thuyết xác suất

Ví dụ, độ đo đếm được định nghĩa bởi μ(S) = số phần tử của S

Rất khó để đo sự giống nhau, sự tương đồng Sự tương đồng là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng hoặcegh hai đặc trưng

Ví dụ, trong mô hình không gian vector, ta sử dụng độ đo cosine để độ tương đồng giữa hai văn bản (hai câu), mỗi văn bản (mỗi câu) được biểu diễn bởi một vector

Xét ví dụ gồm 2 câu sau:

Trang 28

18

- “Microsoft có công nghệ nhận diện ảnh rất tốt”

- “Công nghệ nhận diện ảnh của Microsoft rất tốt”

Ta có thể nhận thấy hai câu trên có sự tương đồng cao, tuy nhiên chúng ta cần phải có một độ đo để có thể tính được độ tương đồng của chúng Bài toán độ tương đồng câu được sử dụng phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên và có nhiều kết quả khả quan Một số phương pháp được sử dụng để tính độ đo này như [8,12,15,21]:

Phương pháp sử dụng thống kê: độ đo cosine, độ đo khoảng cách euclid, độ đo lenvenshtein

Mỗi loại dữ liệu thì lại có các độ đo phù hợp khác nhau Ví dụ dữ liệu ảnh thì

độ đo Euclid phù hợp, nhưng trong các bài toán NLP khi biểu diễn câu thành vector dựa trên dạng TF thì lại phù hợp hơn với các độ đo levenshtein, hay khi biểu diễn dưới dạng TF-IDF thì lại phù hợp với độ đo cosin

Về tốc độ thì phương pháp sử dụng thống kê sử dụng tần số xuất hiện của từ trong câu có tốc độ xử lý nhanh, tốn ít chi phí, trong khi đó các phương pháp sử dụng các tập dữ liệu chuẩn về ngôn ngữ để tìm ra mối quan hệ giữa các từ: Wordnet, Brown Corpus, Penn TreeBank

Các phương pháp sử dụng xử lý ngôn ngữ tự nhiên: một số cách tiếp cận đặc trưng được đưa ra là sử dụng phân tích cấu trúc ngữ pháp, sử dụng mạng ngữ nghĩa đối với từ, như sử dụng Wordnet corpus hoặc Brown corpus Phương pháp xử lý ngôn ngữ tự nhiên xử lý chậm hơn, tốn nhiều chi phí hơn tuy nhiên khi xét về mặt ngữ nghĩa thì cao hơn phương pháp thống kê

2.4.1 Độ đo Euclid

Độ đo Euclid giữa 2 vector a = (a1, a2, …., an), b = (b1, b2, …., bn) được tính bằng công thức:

Trang 29

19

Đây là khoảng cách giữa 2 vector a, b trong không gian Euclid nên khi khoảng cách càng lớn, 2 vector này càng giống nhau, khoảng cách càng nhỏ thì càng khác nhau

2.4.3 Độ đo Lenvenshtein

Khoảng cách chuẩn Levenshtein dựa trên từ

Khoảng cách Levenshtein (được Vladimir Levenshtein đề ra vào năm 1965) thể hiện khoảng cách khác biệt giữa hai chuỗi kí tự Khoảng cách Levenshtein giữa xâu s và xâu t là số bước ít nhất biến đổi xâu s thành xâu t thông qua ba phép biến đổi là:

1 kitten -> sitten (thay "k" bằng "s")

2 sitten -> sittin (thay "e" bằng "i")

Ngày đăng: 25/07/2017, 21:44

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Agarwal, Apoorv and Xie, Boyi and Vovsha, Ilia and Rambow, Owen and Passonneau, Rebecca, Sentiment Analysis of Twitter Data, In Proceedings of the Workshop on Language in Social Media (LSM 2011), 2011 Sách, tạp chí
Tiêu đề: Sentiment Analysis of Twitter Data
[3] Barbosa, Luciano and Junlan Feng, Robust, Sentiment detection on twitter from biased and noisy data, Proceedings of the International Conference on Computational Linguistics (COLING-2010), 2010 Sách, tạp chí
Tiêu đề: Sentiment detection on twitter from biased and noisy data
[4] Bo Han, Paul Cook, Timothy Baldwin, Automatically constructing a normalisation dictionary for microblogs, 1 Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL 2012), Jeju Island, Korea, 2012, pp 421–432 Sách, tạp chí
Tiêu đề: Automatically constructing a normalisation dictionary for microblogs
[5] Bo Pang and Lillian Lee, Opinion Mining and Sentiment Analysis, Foundations and Trends in Information Retrieval, 2008, pp. 1–135 Sách, tạp chí
Tiêu đề: Opinion Mining and Sentiment Analysis
[6] Bing Liu, Sentiment Analysis and Opinion Mining, Morgan &amp; Claypool Publishers, May 2012 Sách, tạp chí
Tiêu đề: Sentiment Analysis and Opinion Mining
[7] Davidov, Dmitry and Tsur, Oren and Rappoport, Ari, Enhanced sentiment learning using Twitter hashtags and smileys, in Proceedings of the 23rd International Conference on Computational Linguistics: Posters, 2010, 241-249 Sách, tạp chí
Tiêu đề: Enhanced sentiment learning using Twitter hashtags and smileys
[8]Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro, Semantic Similarity Between Sentences Through Approximate Tree Matching, IbPRIA (2), 2005, 638-646 Sách, tạp chí
Tiêu đề: Semantic Similarity Between Sentences Through Approximate Tree Matching
[9]Gerani, S. Carman, M. J.; and Crestani, F. 2009, Investigating Learning Approaches for Blog Post Opinion Retrieval, In ECIR, 2009 Sách, tạp chí
Tiêu đề: Investigating Learning Approaches for Blog Post Opinion Retrieval
[10]T. Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features, Proceedings of the European Conference on Machine Learning, Springer, 1998 Sách, tạp chí
Tiêu đề: Text Categorization with Support Vector Machines: "Learning with Many Relevant Features
[11]I. Kloumann, C. Danforth, K. Harris, C. Bliss, and P. Dodds, Positivity of the English language, PLoS ONE 7(1), 2012, pp. 1-7 Sách, tạp chí
Tiêu đề: Positivity of the English language
[12] Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey, Efficient Information Retrieval Using Measures of Semantic Similarity, Conference on Software, Knowledge, Information Management and Applications, Chiang Mai, Thailand, December 2006, 94- 98 Sách, tạp chí
Tiêu đề: Efficient Information Retrieval Using Measures of Semantic Similarity
[13]Pak, A., and Paroubek, P. 2010, Twitter as a corpus for sentiment analysis and opinion mining, In Proc. of LREC, 2010.[14]Samuel Brody, Nicholas Diakopoulos,Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs, EMNLP 2011: 562-570 Sách, tạp chí
Tiêu đề: Twitter as a corpus for sentiment analysis and opinion mining", In Proc. of LREC, 2010. [14]Samuel Brody, Nicholas Diakopoulos, "Cooooooooooooooollllllllllllll!!!!!!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs
[15]P. Senellart and V. D. Blondel, Automatic discovery of similar words, Survey of Text Mining II: Clustering, Classification and Retrieval (M. W. Berry and M.Castellanos, editors),Springer-Verlag, January 2008, pp 25–44 Sách, tạp chí
Tiêu đề: Automatic discovery of similar words
[16]Shengli Wu, Fusing Blog Opinion Retrieval Results for Better Effectiveness, Database and Expert Systems Applications (DEXA), 2011 22nd International Workshop on, 2011, pp 195-199 Sách, tạp chí
Tiêu đề: Fusing Blog Opinion Retrieval Results for Better Effectiveness
[17]Turney, Peter D, Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews, Proceedings of Annual Meeting of the Association for Computational Linguistics (ACL-2002), 2002 Sách, tạp chí
Tiêu đề: Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews
[19]Wiebe, Janyce and Ellen Riloff, Creating subjective and objective sentence classifiers from unannotated texts, Computational Linguistics and Sách, tạp chí
Tiêu đề: Creating subjective and objective sentence classifiers from unannotated texts

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w