1. Trang chủ
  2. » Luận Văn - Báo Cáo

Deep learning for sentiment analysis

30 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Deep Learning in Sentiment Analysis
Tác giả Phan Minh Toàn
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn tốt nghiệp
Năm xuất bản 2015
Thành phố Hà Nội
Định dạng
Số trang 30
Dung lượng 1,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân tích cảm xúc (Sentiment Analysis còn được gọi là khai thác ý kiến) là một lĩnh vực tìm kiếm tích cực trong xử lý ngôn ngữ tự nhiên. Nhiệm vụ nhằm xác định, trích xuất và sắp xếp các cảm xúc từ các văn bản do người dùng tạo trong các mạng xã hội, blog hoặc các bài đánh giá sản phẩm. Trong hai thập kỷ qua, nhiều nghiên cứu trong tài liệu đã khai thác các phương pháp tiếp cận máy học để giải quyết các nhiệm vụ phân tích tình cảm từ các khía cạnh khác nhau. Vì hiệu suất của người học máy phụ thuộc nhiều vào các lựa chọn biểu diễn dữ liệu, nhiều nghiên cứu dành để xây dựng trình trích xuất tính năng mạnh mẽ với chuyên môn về miền và kỹ thuật cẩn thận. Gần đây, các phương pháp học sâu nổi lên như những mô hình tính toán mạnh mẽ giúp khám phá các bản tái hiện ngữ nghĩa phức tạp của văn bản một cách tự động từ dữ liệu mà không cần kỹ thuật tính năng. Những cách tiếp cận này đã cải thiện tình trạng của nghệ thuật trong nhiều nhiệm vụ phân tích tình cảm, bao gồm phân loại tình cảm, trích xuất ý kiến, phân tích tình cảm chi tiết, v.v.

Trang 1

Deep Learning in Sentiment Analysis

Phan Minh Toàn

Abstract

Phân tích cảm xúc (Sentiment Analysis - còn

được gọi là khai thác ý kiến) là một lĩnh vực

tìm kiếm tích cực trong xử lý ngôn ngữ tự

nhiên Nhiệm vụ nhằm xác định, trích xuất

và sắp xếp các cảm xúc từ các văn bản do

người dùng tạo trong các mạng xã hội, blog

hoặc các bài đánh giá sản phẩm Trong hai

thập kỷ qua, nhiều nghiên cứu trong tài liệu

đã khai thác các phương pháp tiếp cận máy

học để giải quyết các nhiệm vụ phân tích tình

cảm từ các khía cạnh khác nhau Vì hiệu suất

của người học máy phụ thuộc nhiều vào các

lựa chọn biểu diễn dữ liệu, nhiều nghiên cứu

dành để xây dựng trình trích xuất tính năng

mạnh mẽ với chuyên môn về miền và kỹ

thuật cẩn thận Gần đây, các phương pháp

học sâu nổi lên như những mô hình tính toán

mạnh mẽ giúp khám phá các bản tái hiện ngữ

nghĩa phức tạp của văn bản một cách tự động

từ dữ liệu mà không cần kỹ thuật tính năng

Những cách tiếp cận này đã cải thiện tình

trạng của nghệ thuật trong nhiều nhiệm vụ

phân tích tình cảm, bao gồm phân loại tình

cảm, trích xuất ý kiến, phân tích tình cảm chi

tiết, v.v

1 Introduction

Phân tích cảm xúc (còn được gọi là khai thác ý

kiến) là một lĩnh vực tự động phân tích ý kiến, tình

cảm, cảm xúc của mọi người từ các văn bản do

người dùng tạo (Pang và cộng sự 2008; Liu 2012)

Phân tích cảm xúc là một lĩnh vực nghiên cứu

rất tích cực trong xử lý ngôn ngữ tự nhiên (Manning

và cộng sự 1999; Jurafsky 2000), và cũng được

nghiên cứu rộng rãi trong khai thác dữ liệu, khai

thác web và phân tích truyền thông xã hội vì cảm xúc là yếu tố ảnh hưởng chính đến hành vi của con người

Với sự phát triển nhanh chóng của các phương tiện truyền thông xã hội như Twitter, Facebook và các trang web đánh giá như IMDB, Amazon, Yelp, phân tích tình cảm thu hút sự chú ý ngày càng tăng

từ cả cộng đồng nghiên cứu và ngành (Bảng 1)

Mục tiêu Sentiment

Người đưa ra

ý kiến

Thời điểm đưa ra ý kiến

iPhone tích cực Alice 04/06/2015 Màn hình

cảm ứng tích cực Alice 04/06/2015 Giá tiêu cực Alice 04/06/2015 Bảng 1: Một ví dụ minh họa cho định nghĩa của tình cảm

Theo định nghĩa từ (Liu 2012), tình cảm (hoặc một ý kiến) được biểu thị dưới dạng ngũ phân e, a,

s, h, t, trong đó e là tên của một thực thể, a là khía cạnh của e, s là tình cảm trên khía cạnh a của thực thể e, h là người có ý kiến và t là thời điểm mà ý kiến được thể hiện bởi h

Theo định nghĩa này, tình cảm có thể là tình cảm tích cực (positive), tiêu cực (negative) hoặc trung lập (neutral) hoặc điểm số xếp hạng thể hiện độ mạnh / cường độ của tình cảm (ví dụ: 1–5 sao) trên các trang web đánh giá như Yelp và Amazon Thực thể có thể là một sản phẩm, dịch vụ, tổ chức chủ đề hoặc sự kiện (Hu và Liu 2004; Deng và Wiebe 2015)

Một ví dụ để giải thích định nghĩa của

"sentiment" Giả sử một người dùng có tên Alice đã đăng một bài đánh giá “Tôi đã mua một chiếc iPhone cách đây vài ngày Đó là một chiếc điện thoại đẹp Màn hình cảm ứng thực sự rất tuyệt Tuy

Trang 2

nhiên giá hơi cao một chút.” vào ngày 4 tháng 6

năm 2015

Ba loại sentiment có liên quan trong ví dụ này,

như được trình bày trong Bảng 1

Dựa trên định nghĩa của "sentiment", sentiment

analysis nhằm mục đích khám phá tất cả các nhóm

sentiment trong một tài liệu Các nhiệm vụ phân

tích cảm xúc được bắt nguồn từ năm thành phần của

sentiment

Ví dụ, phân loại cảm xúc ở cấp độ tài liệu / câu

(Pang và cộng sự 2002; Turney 2002) nhắm vào

thành phần thứ ba (sentiment như là positive,

negative và neutral) trong khi bỏ qua các khía cạnh

khác Việc trích xuất ý kiến chi tiết tập trung vào

bốn thành phần đầu tiên của bài toán sentiment

Phân loại tình cảm phụ thuộc vào mục tiêu tập trung

vào khía cạnh thứ hai và thứ ba

Trong hai thập kỷ qua, các phương pháp dựa

trên học máy đã thống trị hầu hết các nhiệm vụ phân

tích cảm xúc Vì biểu diễn tính năng ảnh hưởng lớn

đến hiệu suất của người học máy (LeCun và cộng

sự 2015; Goodfellow và cộng sự 2016), rất nhiều

nghiên cứu trong tài liệu tập trung vào các tính năng

hiệu quả cùng với chuyên môn về domain và kỹ

thuật cẩn thận Nhưng điều này có thể tránh được

bằng các thuật toán học biểu diễn, thuật toán này tự

động khám phá các biểu diễn văn bản giải thích và

phân biệt từ dữ liệu

Học sâu là một loại phương pháp tiếp cận học

đại diện, học nhiều cấp độ biểu diễn với mạng

nơ-ron phi tuyến, mỗi cấp độ biến đổi biểu diễn ở một

cấp độ thành biểu diễn ở cấp độ cao hơn và trừu

tượng hơn Các biểu diễn đã học có thể được sử

dụng một cách tự nhiên như đặc trưng và áp dụng

cho các nhiệm vụ phát hiện hoặc phân loại

Tác giả sẽ giới thiệu các thuật toán học sâu thành

công để phân tích cảm xúc Ký hiệu “Deep

learning” trong chương này là viết tắt của việc sử

dụng các phương pháp tiếp cận mạng nơ-ron để học

các đặc trưng/biểu diễn văn bản liên tục và có giá

trị thực một cách tự động từ dữ liệu

Phần trình bày sẽ được thể hiện theo thứ sau:

• Vì từ là đơn vị tính toán cơ bản của ngôn ngữ tự nhiên, trước tiên sẽ mô tả các phương pháp để học lặp lại từ liên tục (continuous word representation), còn được gọi là word embedding Các word embedding này có thể được sử dụng làm đầu vào cho các nhiệm vụ phân tích cảm xúc (sentiment analysis task) sau

• Tiếp theo là trình bày các phương pháp cấu tạo ngữ nghĩa tính toán các biểu diễn của các biểu thức dài hơn (ví dụ: câu hoặc văn bản) cho nhiệm vụ phân loại cảm xúc

ở cấp độ câu / tài liệu (Socher và cộng sự 2013; Li và cộng sự 2015; Kalchbrenner

và cộng sự 2014)

• Sau đó bằng các mô hình tuần tự thần kinh (neural squential models) để trích xuất ý kiến chi tiết

• Cuối cùng tổng kết và kết luận bài báo này và đưa ra một số hướng đi trong tương lai

2 Sentiment-Specific Word Embedding

Biểu diễn từ hay còn gọi là word representation

nhằm mục đích biểu diễn các khía cạnh của từ nghĩa

từ Một cách đơn giản là mã hóa một từ dưới dạng

one hot vector Nó có cùng độ dài với kích thước

của từ vựng và chỉ có một chiều là 1, với tất cả các chiều khác là 0 Tuy nhiên, cách biểu diễn một từ theo dạng one hot word chỉ mã hóa các chỉ số của

từ trong tập từ vựng, với cách biểu diễn này sẽ không thể hiện được thông tin cũng như mối quan

hệ về cấu trúc của các từ trong từ điển

Và ta có một cách tiếp cận khác cũng khá phổ biến là khám phá sự giống nhau giữa các từ là bằng cách học thông tin của các cụm từ (Brown và cộng

sự 1992; Baker và McCallum 1998)

Mỗi từ thường được liên kết với một lớp rời rạc,

và các từ trong cùng một lớp tương tự nhau về một mặt nào đó Điều này giúp cho cách biểu diễn dạng one-hot trên kích thước từ vựng nhỏ hơn Thay vì

mô tả sự tương tự với một biến rời rạc dựa trên kết

Trang 3

quả phân cụm tương ứng với phân vùng mềm hoặc

cứng của tập hợp các từ, nhiều nhà nghiên cứu

nhắm mục tiêu vào việc học một vectơ liên tục và

có giá trị thực cho mỗi từ, còn được gọi là nhúng từ

(Word Embedding)

Các thuật toán embedding learning hiện tại

thường dựa trên giả thuyết phân phối (Harris 1954),

trong đó nói rằng các từ trong ngữ cảnh tương tự có

nghĩa tương tự Dựa trên ý tưởng này, nhiều

phương pháp phân tích nhân tử ma trận có thể được

xem như mô hình hóa các biểu diễn từ Ví dụ:

phương pháp lập chỉ mục ngữ nghĩa tiềm ẩn hay

còn gọi là Latent Semantic Indexing (LSI)

(Deerwester và cộng sự 1990) có thể được coi là

học cách linear embedding với mục tiêu tái tạo, sử

dụng ma trận “term-document” thống kê từ xuất

hiện, ví dụ: mỗi hàng là viết tắt của một từ hoặc

thuật ngữ và mỗi cột tương ứng với một tài liệu

riêng lẻ trong kho ngữ liệu Hyperspace Analogue

to Language (Lund và Burgess 1996) sử dụng ma

trận thống kê số từ cùng xuất hiện, trong đó cả hàng

và cột tương ứng với các từ và các mục nhập đại

diện cho số lần một từ nhất định xuất hiện trong ngữ

cảnh của một từ khác

Hellinger PCA (Lebret và cộng sự 2013) cũng

tìm hiểu cách word embedding qua thống kê đồng

xuất hiện "term-term" Vì các phương pháp phân

tích nhân tử của ma trận tiêu chuẩn hay gọi là

matrix factorization không kết hợp thông tin cụ thể

về nhiệm vụ thực hiện của task, nên không đủ hiệu

quả để biểu diễn thông Supervised Senmentic

Indexing (Bai và cộng sự 2010) giải quyết vấn đề

này và xem xét thông tin cụ thể của riêng

supervised task (ví dụ: Truy xuất thông tin) Họ học

mô hình embedding của dữ liệu thông qua margin

rank loss DSSM (Huang và cộng sự 2013; Shen và

cộng sự 2014) cũng đưa ra mô hình học text

embedding với nhiệm vụ cụ thể kết hợp week

supervised trong bài toán truy xuất thông tin (IR)

Một công trình tiên phong khám phá các phương

pháp tiếp cận mạng nơ-ron được đưa ra bởi (Bengio

và cộng sự 2003), giới thiệu một mô hình ngôn ngữ

xác suất thần kinh học hay còn gọi là neural

probabilitistic language model đưa ra cách một biểu diễn liên tục cho các từ và một hàm xác suất cho các chuỗi từ dựa trên các biểu diễn từ này Cho một

từ và các từ ngữ cảnh đứng trước nó, thuật toán đầu tiên ánh xạ tất cả các từ này thành các vectơ liên tục với một bảng tra cứu (lookup table) được chia sẻ Sau đó, các vectơ từ được đưa vào một mạng nơ-ron chuyển tiếp với softmax làm lớp đầu ra để dự đoán xác suất có điều kiện của từ tiếp theo Các tham số của mạng nơ-ron và bảng tra cứu được ước tính chung với sự lan truyền ngược

Theo Bengio và cộng sự (2003) đề xuất một số phương pháp tiếp cận nhằm tăng tốc độ xử lý training hoặc nắm bắt thông tin ngữ nghĩa phong phú hơn

Bengio và cộng sự (2003) giới thiệu một kiến trúc thần kinh bằng cách nối các vectơ của từ ngữ cảnh và từ hiện tại, và sử dụng importance sampling

để tối ưu hóa mô hình một cách hiệu quả với

“positive samples” và “negative samples” được quan sát

Morin và Bengio (2005) phát triển hàm softmax theo dạng phân cấp để phân rã xác suất có điều kiện với cây nhị phân phân cấp

Mnih và Hinton (2007) giới thiệu mô hình ngôn ngữ log- bilinear

Collobert và Weston (2008) huấn luyện mô hình wording embedding với hàm ranking-type hinge loss bằng cách thay thế từ ở giữa trong cửa sổ bằng

từ được chọn ngẫu nhiên

Mikolov và cộng sự (2013a, b) giới thiệu túi từ liên tục (CBOW) hay còn gọi là continous bag-of-word và continous skip-gram, đồng thời đưa ra mô hình word2vec khá phổ biến Mô hình CBOW dự đoán từ hiện tại dựa trên việc embeddings ngữ cảnh của nó và mô hình skip-gram dự đoán các từ xung quanh khi embedding từ hiện tại

Mnih và Kavukcuoglu (2013) đẩy nhanh quy trình wording embedding với phương pháp Noise Contrastive Estimation (Gutmann và Hyvärinen 2012)

Ngoài ra còn có nhiều thuật toán được phát triển

để thu thập thông tin ngữ nghĩa phong phú hơn như:

Trang 4

• Bao gồm thông tin tài liệu toàn cầu –

global document information (Huang và

cộng sự 2012)

• Word morphemes (Qiu và cộng sự 2014)

• Ngữ cảnh dựa trên phụ thuộc hay gọi là

dependency-based contexts (Levy và

Goldberg 2014)

• Từ đồng sự xuất hiện word-wor

co-occcurence (Levy và Goldberg 2014)

• Phần tích khía cạnh của các từ không rõ

ràng hay gọi là sence of ambiguous

words (Li và Jurafsky 2015)

• Phân tích thông tin từ vựng ngữ nghĩa

hay gọi là semantic lexical infor-mation

trong WordNet (Faruqui và cộng sự

2014)

• Phân tích quan hệ thứ bậc giữa các từ

(Yogatama và cộng sự 2015)

Các thuật toán mạng nơ-ron nói trên thường chỉ

sử dụng các ngữ cảnh của từ để học cách biểu diễn

word embedding

Kết quả là, các từ có ngữ cảnh tương tự nhưng

phân cực cảm xúc trái ngược nhau như “good” và

“bad” được ánh xạ thành các vectơ gần trong không

gian emdedding Điều này có ý nghĩa đối với một

số tác vụ như gắn thẻ POS vì hai từ có cách sử dụng

và vai trò ngữ pháp tương tự nhau, nhưng điều này

có vấn đề đối với khi phân tích theo khía cạnh tình

cảm là "good" và "bad" có thái cực tình cảm trái

ngược nhau Để học cách biểu diễn như vậy thì

word embedding được thiết kế riêng cho các nhiệm

vụ phân tích cảm xúc (sentiment analysis task), một

số nghiên cứu mã hóa sentiment của văn bản trong

biểu diễn từ liên tục

Maas và cộng sự (2011) giới thiệu một mô hình

chủ đề xác suất bằng cách suy ra cực của một câu

dựa trên việc nhúng mỗi từ mà nó chứa

Labutov và Lipson (2013) đã thực hiện embed

lại một word embedding hiện có với mô hình hồi

quy logistic bằng tận dụng thông tin suppervied liên quan đến phân tích sentiment các câu như một nhiệm vụ

Tang và cộng sự (2014) mở rộng mô hình C&W

và phát triển ba mạng nơ-ron để học cách embedding word cụ thể theo sentiment từ các tweet Tang và cộng sự (2014) sử dụng các tweet có chứa biểu tượng cảm xúc tích cực và tiêu cực làm

dữ liệu để huấn luyện Các tín hiệu biểu tượng cảm xúc tích cực và tiêu cực được coi là week sentiment suppervision

Tác giả mô tả hai phương pháp tiếp cận theo sentiment cụ thể là kết hợp phân tích sentiment của các giai đoạn để học cách word embedding

Mô hình của Tang và cộng sự (2016c) mở rộng

mô hình dựa trên ngữ cảnh của Collobert và Weston (2008), và mô hình của Tang và cộng sự (2016a) mở rộng mô hình dựa trên bối cảnh của Mikolov và cộng sự (2013b)

Ý tưởng cơ bản của mô hình dựa trên ngữ cảnh (Collobert và Weston 2008) là gán cho một cặp từ ngữ cảnh thực (wi, hi) một điểm số cao hơn một một điểm nhiễu (wn, hi) bởi 1 margin Mô hình được học để tối thiếu hóa hàm loss hinge, trong đó

T là kho dữ liệu đào tạo thì hàm loss sẽ có dạng:

Hàm scoring 𝑓𝜃(𝑤, ℎ) đạt được với một mạng nơron chuyển tiếp Với giá trị đầu vào kết hợp thông của từ hiện tại wi và thông tin ngữ cảnh của

từ hi, và giá trị đầu ra của của mạng là sẽ là 1 lớp tuyến tính với 1 node đại diện cho sự tương tích giữa w, h Trong quá trình huấn luyện thì 1 điểm

nhiễu 𝑤𝑛 sẽ được chọn ngẫu nhiên trong tập từ vựng

Ý tưởng cơ bản về phương pháp tiếp cận sentiment cụ thể của Tang và cộng sự (2014) là nếu gold sentiment của một chuỗi từ là positive, thì positive score được dự đoán phải cao hơn negative score Tương tự như vậy, nếu gold sentiment phân

𝑙𝑜𝑠𝑠 = ∑ 𝑚𝑎𝑥(0, 1 − 𝑓𝜃(𝑤𝑖, ℎ𝑖)

(𝑤𝑖,ℎ𝑖)∈𝑇

+ 𝑓𝜃(𝑤𝑛, ℎ𝑖))

(1)

Trang 5

cực của một chuỗi từ là negative, thì positive score

của nó phải nhỏ hơn negative score

Ví dụ: nếu một chuỗi từ được liên kết với hai

điểm [𝑓𝑝𝑜𝑠𝑟𝑎𝑛𝑘, 𝑓𝑛𝑒𝑔𝑟𝑎𝑛𝑘], với các giá trị [0.7, 0.1] có thể

được hiểu là positive case vì positive score là 0.7

lớn hơn negative score là 0.1 Bằng cách tương tự

đó, đối với kết quả [-0.2, 0.6] thì sẽ là negative case

Mô hình xếp hạng dựa trên mạng nơ-ron được

đưa ra trong Hình 1b, có một số điểm tương đồng

với (Collobert và Weston 2008) Như được minh

họa, mô hình xếp hạng là một mạng nơ-ron truyền

về thẳng bao gồm bốn lớp (lookup→ linear →

hTanh → linear) Giá trị vectơ đầu ra của mô hình

xếp hạng là thứ hạng 𝑓𝑟𝑎𝑛𝑘, trong đó C = 2 cho phân

loại binary positive và binary negative

Hàm loss margin ranking dùng huấn luyến cho

mô hình được mô tả như bên dưới:

Trong đó T là training corpus, 𝑓0𝑟𝑎𝑛𝑘 là positive

score được dự đoán, 𝑓0𝑟𝑎𝑛𝑘 là negative score được

dự đoán, 𝛿𝑠(𝑡) là một hàm chỉ báo phản ánh thái

cực gold sentiment (positive hoặc negative) của

một câu

Với một ý tưởng tương tự, một phần mở rộng của mô hình skip-gram (Mikolov và cộng sự 2013b) được phát triển để học cách embedding words theo sentiment cụ thể Cho trước 1 từ 𝑤𝑖, mô hình skip-gram ánh xạ nó thành biễu diễn liên tục

𝑒𝑖 để dự báo thông ngữ cảnh của từ 𝑤𝑖, cụ thể là

𝑤𝑖−2, 𝑤𝑖−1, 𝑤𝑖+1, 𝑤𝑖+2 Hàm mục tiêu của mô hình skip-gram là tối đa hóa trung bình trị phân phối log:

Trong đó T là sự xuất hiện của mỗi cụm từ trong

kho ngữ liệu, c là kích thước cửa sổ, 𝑒𝑖 là bedding của cụm từ hiện tại 𝑤𝑖, 𝑤𝑖+𝑗 là các từ ngữ cảnh của 𝑤𝑖, 𝑝(𝑤𝑖+𝑗|𝑒𝑖) được tính theo hàm softmax

em-Mô hình sentiment-specific được đưa ra trong

Hình 2b Với bộ ba 〈𝑤𝑖, 𝑠𝑗, 𝑝𝑜𝑙𝑗〉 làm đầu vào, trong đó 𝑤𝑖 là một cụm từ có trong câu 𝑠𝑗 có gold

Trang 6

sentiment polarity là 𝑝𝑜𝑙𝑗, mục tiêu của việc huấn

luyện là không chỉ sử dụng việc embedding thông

của 𝑤𝑖 để dự đoán các từ ngữ cảnh của nó mà còn

để sử dụng biểu diễn câu 𝑠𝑒𝑗 để dự đoán gold

sentiment polarity của 𝑠𝑗, cụ thể là 𝑝𝑜𝑙𝑗 Vectơ câu

được tính bằng cách lấy trung bình các embedding

của từ trong một câu Hàm mục tiêu là tối đa hóa

trọng số trung bình của hàm lỗi ở dưới đây:

Trong đó S là sự xuất hiện của mỗi câu trong

ngữ liệu, α trọng số ngữ cảnh và các phần tình cảm,

∑ 𝑝𝑜𝑙𝑘 𝑗𝑘 = 1 Đối với phân loại nhị phân giữa

positive và negative thì phân phối của positive là từ [0, 1] là dương và của negative [0, 1]

Có nhiều cách khác nhau để hướng dẫn quá trình học embedding với thông tin sentiment của văn bản Ví dụ, mô hình của Tang và cộng sự (2014)

mở rộng mô hình xếp hạng của Collobert và Weston (2008) và sử dụng vectơ ẩn (hidden - vector) của văn bản để dự đoán nhãn cảm xúc Ren và cộng sự (2016b) mở rộng SSWE và dự đoán thêm về phân phối chủ đề của văn bản dựa trên n-gam đầu vào Hai cách tiếp cận này được đưa

ra trong Hình 3

3 Sentence-level Sentiment Classification

Sentence-level sentiment analysis tập trung vào việc phân lớp các hướng ý kiến (sentiment polarities) của một câu cho trước Thông thường, chúng ta chia các hướng ý kiến thành 2 hoặc 3 loại Trong đó + đại diện cho hướng ý kiến tích cực, -

Trang 7

đại diện cho hướng tiêu cực và 0 là trung lập

(neutral)

Khi vận dụng Neural Networks, sentence-level

sentiment analysis có thể được mô hình thành một

bài toán có 2 bước (a two-phase framwork) Bước

đầu tiên là biểu diễn câu (sentence representation)

thông qua việc sử dụng các câu trúc nơ-ron tân tiến

(sophisticated neural structures), và bước còn lại là

phân lớp mà ở đó có thể được giải bằng một hàm

softmax (Hình 4)

Về cơ bản, khi sử dụng word embedding để biểu

diễn các từ, chúng ta có thể sử dụng các phương

pháp pooling để có được một biểu diễn đơn giản

cho một câu Một hàm pooling có thể bắt được các

đặc trưng nổi bật của một chuỗi đầu vào với chiều

dài không cố định

Tang và cộng sự (2004) vận dụng 3 phương

pháp pooling để kiểm chứng sentiment-encoded

word embeddings mà họ đề xuất Đây chỉ là một ví

dụ đơn giản của việc biểu diễn câu Trong thực tế,

nhiều tiến bộ trong biểu diễn câu cho bài toán

sentence classification đã vượt qua phương pháp

trên Một số cấu trúc Neural Networks tiên tiến đã

đã được đề xuất Nói chung lại, các nghiên cứu liên

quan có thể được chia làm 4 loại:

(1) Convolutional netral networks

(2) Recurrent neural networks

(3) Recursive neral networks

(4) Enhanced sentence representation by auxilary resources

3.1 Convolutional Neural Networks

Khi sử dụng các phương pháp pooling để tạo ra biểu diễn cho câu, chúng ta chỉ có thể lấy được các đặc trưng của từ (word-level features) Điều này có nghĩa là khi thứ tự của từ trong câu thay đổi, kết quả biểu diễn của câu không thay đổi Trong các

mô hình thống kê cổ điển, n-gram word feature được vận dụng để cải thiện vấn đề trên và hiệu xuất của bài toán đã được cải thiện Còn đối với các mô hình Neural Networks, một tầng convolution có thể được khai thác để đạt được kết quả tương tự Nói một cách chi tiết, một tầng convolution thực hiện các biến đổi phi tuyến tính thông qua việc duyệt chuỗi đầu vào với một filter cục bộ có kích thước cố định (a fixed-size local filter)

Thông thường, convolutional neural networks (CNN) là một loại network mà nó tích lợp một tầng convolution và một tầng pooling lại với nhau và CNN đã được nghiên cứu rộng rãi cho bài toán sentence-level sentiment classification (Hình 5)

Nghiên cứu đầu tiên được thực hiện thông qua việc trực tiếp áp dụng một mạng CNN chuẩn bởi Collobert và cộng sự (2011) Nghiên cứu trên đạt được biểu diễn câu thông qua việc sử dụng một tầng Hình 4 Framework của sentiment classification

Hình 5 Framework của CNN

Trang 8

convolution trên một chuỗi của các word

embeddings đầu vào, và tiếp tục sử dụng một tầng

max pooling trên các hidden vectors đạt được

Kalchbrenner và cộng sự (2014) mở rộng mạng

CNN chuẩn để đạt được biểu diễn câu tốt hơn ở 2

phương diện Đầu tiên, họ sử dụng dynamic k-max

pooling, trong đó top-k giá trị được giữ lại trong lúc

vận dụng pooling thay vì chỉ có một giá trị cho mỗi

chiều trong tầng max pool đơn giản Giá trị của k

được định nghĩa một cách linh động dựa vào chiều

dài của câu Tiếp theo đó, họ mở rộng mạng số

lượng tầng của mạng CNN, sử dụng nhiều cầu trúc

mạng CNN, việc này dựa vào một nhận định

(intuition) là Neural Networks sâu hơn có thể bắt

được nhiều đặc trưng hơn (Hình 6)

Một vài biến thể của CNN đã được nghiên cứu

để đạt được những biểu diễn câu tốt hơn Trong đó

nổi bật nhất là thao tác phi tuyến, gián đoạn tích

chập được đề xuất bởi Lei và cộng sự (2015) (Hình

Một số nghiên cứu khác tập trung vào các word embeddings đầu vào không đồng nhất Ví dụ, Kim (2014) thực hiện nghiên cứu 3 phương pháp khác nhau cho việc sử dụng word embedding Tác giả sử dụng 2 loại embeddings, một embedding loại khởi tạo ngẫu nhiên và một pretrained embedding, và cho phép tham số của các embeddings được thay đổi trong quá trình huấn luyện Cuối cùng, họ kết hợp 2 loại embeddings và đề xuất các mạng CNN

đa kênh dựa trên word embeddings không đồng nhất (Hình 8)

Hình 6 Multilayer CNNs

Hình 7 Mô hình phi tuyến, gián đoạn tích chập

Trang 9

Sau đó nghiên cứu trên được mở rộng bởi Yin

và Schütze (2015), họ sử dụng nhiều loại word

embeddings cho các CNNs đa kênh Và thêm vào

đó họ khai thác các kỹ thuật mở rộng cho

pretraining việc khởi tạo các trọng số của mô hình

Tuy nhiên, một phiên bản đơn giản hơn được trình

bài bởi Zhang và cộng sự (2016d), với một hiệu

xuất tốt hơn

Một mở rộng của các word embedings là cải

thiện việc biểu diễn từ thông qua đặc trưng ở mức

ký tự (character-level features) Mạng Neural

Network được để xây dựng biểu diễn của từ dựa

trên chuỗi ký tự đầu sử dụng cùng ý tưởng với việc

xây dựng biểu diễn của câu từ chuỗi các từ đầu vào

Vì vậy chúng ta cũng có thể áp dụng một cấu trúc

mạng CNN chuẩn lên chuỗi các character

embedding để có được các biểu diễn từ dos Santos

và Gatti (2014) đã nghiên cứu sự hiệu quả của việc

mở rộng này Các biểu diễn từ được nối với nhau

với những word embeddings ban đầu vì thế có thể

cải thiện được các biểu diễn từ cuối cùng để mã hóa

câu (Hình 9)

3.2 Recurrent Neural Networks

Các cấu trúc của mạng CNN sử dụng một cửa sổ từ với kích thước cố định (a fixed-size of word window) để bắt các đặc trưng kết hợp xung quanh một vị trí cho trước, lưu trữ lại những thông tin tiềm năng Tuy nhiên, nó bỏ qua các đặc trưng xa (long-distance feature) mà những đặc trưng lại phản ánh thông tin về ngữ nghĩa, do đó những đặc trưng này đặc biệt quan trọng trong việc giải mã các câu của ngôn ngữ tự nhiên Những đặc trưng phụ thuộc này được giải quyết thông qua mạng RNN, và đã cho ra kết quả tốt Nói một cách cụ thể, một mạng RNN chuẩn tính toán các hidden output một cách tuần tự Wang và cộng sự (2015) đề xuất nghiên cứu đầu tiên trong việc sử dụng mạng LSTM cho bài toán tweet sentiment analysis Đầu tiên họ áp dụng một mạng RNN chuẩn trên một chuỗi các embedding đầu vào Sau đó các tác giả thay thế RNN bằng LSTM-RNN, bởi vì mạng RNN chuẩn có thể sẽ bị tác động bởi vấn đề gradient explosion và diminish, còn LSTM thì tốt hơn nhiều bằng cách sử dụng 3 cổng và một memory cell để kết nối các vectors đầu vào và đầu ra Chi tiết tại Hình 10

Hình 8 Multichannel CNNs Hình 9 Biểu diễn từ thông qua đặc trưng ở mức

ký tự

Trang 10

Tiếp theo đó, Teng và cộng sự (2016) mở rộng

giải thuật trên ở 2 điểm (Hình 11) Đầu tiên, họ

dùng bidirectional LSMT thay vì một left-to-right

LSTM độc lập Bi-LSTM có thể biểu diễn một câu

hoàn thiện hơn, mà ở đó mỗi hidden output của mỗi

điểm có thể có liên kết với cả những từ phía trước

và phía sau của nó Thứ hai là họ mô hình bài toán

sentence-levlel sentiment classification như một

vấn đề học có câu trúc (structural learning

problem), việc dự đoán hướng (polarities) cho tất

cả các từ có ngữ nghĩa trong một câu và kết nối

chúng lại với nhau để tạo thành minh chứng để xác

định xu hướng ngữ nghĩa (sentiment polarity)

Thông qua việc sử dụng biderectional LSTM, mô

hình của họ có thể kết hợp một cách hiệu quả các

từ vựng (lexicons) được sử dụng rộng rãi trong các

mô hình thống kê truyền thống

CNN và RNN mô hình hóa các câu văn trong

ngôn ngữ tự nhiên bằng những cách hoàn toàn

khác Ví dụ, CNN có thể bắt được các đặc trưng kết

hợp cục bộ tốt hơn, còn RNN thì hiệu quả trong

việc học các đặc trưng xa (long-distance

dependencies) Vì thế một ý tưởng rõ ràng là kết hợp chúng lại với nhau, để có được lợi thế của cả 2

mô hình học Zhang và cộng sự (2016c) đề xuất một

mô hình dependency-sensitive CNN, mà ở đó nó kết hợp của LSTM và CNN, tạo nên một cấu trúc mạng CNN cũng có khả năng bắt các phụ thuộc ở

xa (Hình 12) Cụ thể là đầu tiên họ xây dựng một left-to-right LSTM trên các word embedding đầu vào, và rồi một mạng CNN được xây dựng trên các hidden outputs của mạng LSTM Vì thế mô hình cuối cùng có thể tận dụng hoàn toàn cả các đặc trưng cục bộ và các đặc trưng toàn cục

Hình 11 Framework của Teng và cộng sự (2016)

Hình 12 Sự kết hợp giữa RNN và CNN Hình 10 Sentence representation bằng mạng RNN

Trang 11

3.3 Recursive Neural Networks

Recursive neural network được đề xuất để mô hình

các đầu vào có cấu trúc dạng cây được sinh ra bởi

các bộ tách ngữ pháp Socher và cộng sự (2012)

trình bài một recursive matrix-vector neural

network để kết hợp 2 nút lá để tạo ra biểu diễn của

nút cha Bằng cách này việc biểu diễn câu được xây

dựng một cách lặp lại từ dưới lên (bottom to up)

Đầu tiên họ tiến hành tiền xử lý các cây đầu vào,

chuyển đổi chúng thành một cây nhị phân mà ở đó

mỗi nút cha có 2 nút con Sau đó họ sử dụng một

mạng recursive neural network trên cây nhị phân

này thông qua việc sử dụng các phép toán

matrix-vector

Thêm vào đó, Socher và cộng sự (2013) áp dụng

các phép toán tensor bậc thấp (low-rank tensor

operations), để thay thế các phép toán

matrix-vector, để tính toán các biểu diễn của nút cha Mô

hình này đạt được hiệu suất cao hơn nhờ vào sự kết

hợp của các tensors đơn giản hơn so với các phép

toán matrix-vector, và mô hình cũng có số lượng

tham số ít hơn Thêm vào đó, họ xác định các xu

hướng ý kiến (sentiment polarities) trên các nút

không phải là nút gốc của cây ngữ pháp, vì thế mô

hình có thể bắt được việc chuyển đổi của các hướng

ý kiến từ các cụm đến các câu (the transition of

sentiments from phrases to sentences) Chi tiết

tham khảo Hình 13

Hướng nghiên cứu này được mở rộng theo 3

hướng khác nhau Đầu tiên, nhiều nghiên cứu cố

gắng tìm các phép toán kết hợp tốt hơn để xây dựng

cây Ví dụ, một số nghiên cứu chỉ đơn giản sử dụng

một hàm tuyến tính dạng 𝒉𝑝= 𝑓(𝑊1𝒉𝑙+ 𝑊2𝒉𝑟)

để kết hợp các nút lá Phương pháp này đơn giản hơn, nhưng nó phải chịu ảnh hưởng từ vấn đề gradient explosion hoặc diminish, việc này làm cho việc học các tham số trở nên cực kì khó Lấy ý tưởng từ nghiên cứu của LSTM-RNN, một số nghiên cứu đã đề suất việc tích hợp LSTM cho recursive neural network Các nghiên cứu nổi bật gồm Tai và cộng sự (2015) và Zhu và cộng sự (2015), cả 2 đã cho thấy sự hiệu quả của LSTM trên các cấu trúc cây

Thứ hai là recursive neural network để biểu diễn câu có thể được cải thiện thông qua việc kết hợp đa kênh Dong và cộng sự (2014b) nghiên cứu về tính hiệu quả của những kết hợp như vậy Họ áp dụng C

kết hợp đồng nhất, thu được C output hidden

vectors, và chúng tiếp tục được sử dụng để biểu diễn các nút cha thông qua việc tích hợp cơ chế attention Họ áp dụng phương pháp này trên những recursive neural networks đơn giản và đạt được kết quả với hiệu xuất ổn định và tốt hơn trên nhiều bộ

dữ liệu đánh giá Chi tiết tham khảo Hình 14

Hình 13 Recursive neural network

Trang 12

Hướng nghiên cứu thứ 3 là xem xét việc sử dụng

các cấu trúc deeper neural network giống như của

nghiên cứu về multilayer CNN Nói một cách ngắn

gọn, ở tầng đầu tiên, recursive neural network được

áp dụng lên các word embeddings đầu vào Khi tất

cả các output hidden vectors đã sẵn sàng, một mạng

recursive neural network y như vậy có thể được sử

dụng thêm một lần nữa Phương pháp này được

nghiên cứu thông qua thực nghiệm bởi Irsoy và

Cardie (2014a) (Hình 15)

Kết quả thực nghiệm cho thấy deeper recursive

neural network có thể đem lại hiệu suất cao hơn một

single-layer recursive neural network

Tất cả những nghiên cứu trên xây dựng

recursive neural network dựa trên những cây ngữ

pháp nhị phân được xây dựng cẩn thận, mà chúng thì ít khi thỏa mãn Do đó chúng đòi hỏi một việc tiền xử lý nhất định để chuyển đổi cây ngữ pháp ban đầu sang cây nhị phân, và quá trình này thường

dễ có vấn đề khi không có sự tham gia của các chuyên gia Sau đó, một vài nghiên cứu đã đề xuất việc mô hình các cây trực tiếp với số lượng nút là không có giới hạn Ví dụ, Mou và cộng sự (2015)

và Ma và cộng sự (2015) cả hai đã trình bài một phép pooling dựa trên các nút con để kết hợp các inputs với chiều dài không cố định Teng and Zhang (2016) thực hiện quá trình pooling thông qua việc xem xét các nút con bên trái và bên phải Thêm vào

đó, họ đề xuất sử dụng bidirectional LSTM recursive neural network, và xem xét một phép toán top-to-down recursive, giống với mạng bidirec-tional LSTM-RNN

Một trong những điều đáng chú ý là, một vài nghiên cứu xem xét việc biểu diễn câu thông qua việc sử dụng recursive neural network mà không cần sử dụng tới cây ngữ pháp Cũng nghiên cứu này

đề suất các cấu trúc cây giả (pseudo tree structures) dựa trên những câu đầu vào chưa qua xử lý (raw sentence inputs) Ví dụ, Zhao và cộng sự (2015) xây dụng một pseudo-directed acyclic graph để áp dụng recursive neural network (Hình 16)

Thêm vào đó Chen và cộng sự (2015) sử dụng một phương pháp đơn giản hơn để xây dựng một cấu trúc cây cho một câu một cách tự động (Hình 17) Cả hai nghiên cứu đạt được kết quả tốt gần như nhau cho setence-level sentiment analysis

Hình 14 Recursive neural network với

multi-compositions

Hình 15 Multilayer recursive neural network

Hình 16 Pseudo-directed acyclic graph của Zhao và cộng sự (2015)

Trang 13

3.4 Integration of External Resources

Các phương pháp được liệt kê ở trên vận dụng

nhiều cấu trúc neural network để xây dựng biểu

diễn cho câu, với sự tham gia chỉ từ thông tin về các

câu đầu vào, bao gồm các từ, các cây ngữ pháp Gần

đây, một nhánh nghiên cứu quan trọng khác cho

việc cải thiện các biểu diễn của câu thông qua việc

tích hợp với các tài nguyên ngoài (external

resources) Các tài nguyên đáng kể có thể được chia

thành 3 loại bao gồm các kho ngữ liệu thô lớn để

huấn luyện trước tham số cho các mô hình giám sát,

external humman-annotated hoặc automatically

extracted sentiment lexicons, và cuối cùng là kiến

thức nền của những bài toán nhất định, ví dụ là

Twitter sentiment classification

Việc khám phá các kho dữ liệu thô lớn để cải

thiện việc biểu diễn câu đã được thực hiện bởi một

số nghiên cứu Và trong những nghiên cứu này, mô

hình sequence autoencoder được đề xuất bởi Hill

và cộng sự (2016) là tiêu biểu nhất Trong mô hình

này, đầu tiên các câu được biểu diễn thông qua

LSTM-RNN encoder, và sau đó mô hình cố gắng sinh lại câu ban đầu từng từ một, vì thế tham số của

mô hình được học theo giám sát trong kiến trúc này (Hình 18) Đặc biệt, Gan và cộng sự (2016) đề xuất một CNN encoder thay thế, với mục tiêu giải quyết vấn đề kém hiệu quả trong LSTM-RNN

External sentiment lexicons đã được nghiên cứu nhiều trong các mô hình thống kê, mà trong đó có rất ít nghiên cứu về việc vận dụng chúng vào các

mô hình Neural Networks, mặc dù đã có nhiều nghiên cứu trong việc tự động hóa việc xây dựng các sentiment lexicons Tuy vậy, Teng và cộng sự (2016) tích hợp context-sensitive lexicon features vào một LSTM-RNN neural network, xem xét điểm của các sentence-level sentiment như một weighted sum của điểm của các negation words và sentiment words trước đó Qian và cộng sự (2017) tiếp tục cải thiện hướng nghiên cứu này, nghiên cứu của Qian liên quan đến việc tìm hiểu sentiment shifting effect của sentiment, negation và intensity words, sau đó đề xuất một mô hình linguistically regularized LSTM cho sentence-level sentiment analysis

Có vài nghiên cứu để xem xét tới những thông tin khác cho sentence-level sentiment analysis

trong một số bài toán tương ứng nhất định Như trong Twitter sentiment classification, chúng ta có thể sử dụng một vài thông tin liên quan đến ngữ cảnh, bao gồm các tweets trước đó của tác giả của tweet đang được xem xét, hoặc những đoạn tweets giao tiếp xuanh quanh đoạn tweet này, và những

Hình 17 Cấu trúc cây nhị phân pseudo của

Chen và cộng sự (2015)

Hình 18 Autoencoder bằng LSTM-RNN

Trang 14

đoạn tweets có cùng topic Những thông tin này có

thể được sử dụng như thông tin ngữ cảnh để hỗ trợ

cho việc quyết định xu hướng ý kiến của một tweet

Ren và cộng sự (2016a) khám phá những thông tin

liên quan này trong một mô hình neural network

thông qua việc thêm vào một phần ngữ cảnh cho

kiến trúc của mạng ban đầu, sau đó họ áp dụng một

pooling neural network trên một tập các từ có thông

tin ngữ cảnh nổi bật (Hình 19)

Gần đây, Mishra và cộng sự (2017) đề xuất một

tích hợp của cognitive features từ gaze data để cải

thiện sentence-level sentiment analysis, đạt được

thông qua việc thêm một cấu trúc mạng CNN để

mô hình hóa các gaze features

4 Document-Level Sentiment Classification

Document-level sentiment classification hướng tới

việc nhận ra ý kiến của một văn bản (Pang và cộng

sự 2002; Turney 2002) Các ý kiến này được phân

thành 2 loại, loại đầu tiên là thumbs up and thumbs

down (Pang và cộng sự 2002) hoặc chúng có thể

được phân theo hạng từ 1-5 sao như trong các trang

review (Pang và Lee 2005)

Trong các nghiên cứu, các phương pháp về phân

loại ý kiến hiện có thể được nhóm thành 2 hướng:

hướng dựa trên từ vựng (lexicon-based) và hướng

dựa trên kho ngữ liệu (corpus-based) Các phương

pháp dựa trên từ vựng (Turney 2002; Taboada và

cộng sự 2011) đa số sử dụng một từ điển của những

từ ý kiến cùng với xu hướng ý kiến của chúng, và kết hợp với negation và intensification để tính toán

ra xu hướng ý kiến của từng văn bản Một phương pháp tiêu biểu dựa trên từ vựng được đưa ra bởi (Turney 2002) có 3 bước Đầu tiên các cụm từ được chiết xuất ra, trong trường hợp từ loại của chúng (POS tags) tuân thủ theo các mẫu được định nghĩa trước Sau đó xu hướng ý kiến của từng cụm từ được ước lượng thông qua phương pháp PMI

(pointwise mutual information), đó là một phương pháp đo độ phụ thuộc dựa trên thống kê giữa 2 cụm

từ Trong nghiên cứu của Turney, điểm PMI được tính toán bằng cách sử dụng một công cụ tìm kiếm

và đếm số lượng cụm từ tìm được Cuối cùng Turney lấy điểm trung bình của tất cả các cụm từ trong một review để phân loại xu hướng ý kiến của

nó Ding và cộng sự (2008) sử dụng các từ mang nghĩ phủ định như ‘not’, ‘never’, ‘cannot’ và các giới từ thể hiện sự trái ngược như ‘but’ để cải thiện hiệu suất của phương pháp dựa trên từ vựng Taboada và cộng sự (2011) kết hợp intensification

và các từ mang nghĩa phủ định với các từ vựng mang nghĩa quyết định ý kiến được kết hợp với xu hướng ý kiến của chúng

Các phương pháp dựa trên các bộ ngữ liệu xem bài toán sentiment classification như một trường hợp đặc biệt của bài toán text categorization (Pang và cộng sự 2002) Phần lớn các phương pháp này xây dựng một công cụ phân lớp ý kiến (a sentiment Hình 19 Sentiment classification với contextual features

Trang 15

classifier) từ những văn bản được gắng với xu

hướng ý kiến của chúng Việc xây dựng các văn bản

này có thể được thực hiện bằng cách gắn nhãn một

cách thủ công, hoặc được tự động thu thập thông

qua các dấu hiệu của ý kiến như emoticons trong

các tweets hoặc thông qua điểm reivew của mọi

người Pang và cộng sự (2002) đi đầu trong việc

xem bài toán sentiment classification của các

reviews như một trường hợp đặc biệt của text

categorization và đầu tiên tìm hiểu tới việc áp dụng

các giải thuật machine learning Họ áp dụng Naive

Bayes, Maximum Entropy, và Support Vector

Machines (SVM) với các nhiều bộ đặc trưng Trong

các thí nghiệm của họ, hiệu suất cao nhất đạt được

là khi sử dụng SMV với các đặc trưng xây dựng

trên phương pháp bag-of-words Tiếp nối với

nghiên cứu của Pang, nhiều nghiên cứu tập trung

vào việc thiết kế hoặc xây dựng các đặc trưng hiệu

quả để đạt được một hiệu suất phân loại cao hơn

Trong các bài toán liên quan đến phim và reviews,

Wang và Manning (2012) trình bài giải thuật

NBSVM, đó là một sự đánh đổi giữa Naive Bayes

và đặc trưng NB (NB-features) được cải thiện bởi

SVM Paltoglou và Thelwall (2010) học các trọng

số thuộc tính thông qua việc vận dụng các biến thể

của hàm tính trọng số từ Information Retrieval, như

là tf.idf và các biến thể BM25 của nó Nakagawa và

cộng sự (2010) tận dụng các cây phụ thuộc, luật

polarity-shifting và các trường điều kiện ngẫu

nhiên (conditional random fields) với hidden

variables để tính toán đặc trưng của văn bản

Nguồn gốc khơi dậy về việc phát triển các

phương pháp neural network là do việc chiết xuất

đặc trưng rất tốn công (labor intensive) Thay vào

đó các phương pháp sử dụng Neural Network có

khả năng phát hiện các nhân tố cần thiết và làm cho

các giải thuật học trở lên ít phụ thuộc vào việc chiết

xuất đặc trưng một cách thủ công Bespalov và

cộng sự (2011) trình bài mỗi từ như một vector

(embedding), và rồi tạo các vectors cho các cụm với

temporal convolution network Các document

embedding được tính toán bằng cách lấy trung bình

các vectors của các cụm Le and Mikolov (2014)

mở rộng phương pháp skip-gram và CBOW chuẩn của Mikolov và cộng sự (2013b) để học các embeddings cho câu và văn bản Họ biểu diễn mỗi văn bản thành một dense vector, mà dense vector này được huấn luyện để dự đoán ra lại chính các từ trong văn bản Đặc biệt, mô hình PV-DM mở rộng

mô hình skip-gram bằng cách lấy trung bình/nối các vector của văn bản với các vector của thông tin ngữ cảnh để dự đoán từ ở giữa Các mô hình của Denil và cộng sự (2014); Tang và cộng sự (2015a); Bhatia và cộng sự (2015); Yang và cộng sự (2016); Zhang và cộng sự (2016c) có cùng ý tưởng như vậy Chúng mô hình hóa các embedding của các câu từ các từ, và rồi sử dụng các vectors của các câu để tạo

ra vector cho văn bản Đặc biệt Denil và cộng sự (2014) sử dụng convolutional network như vậy như một thành phần để mô hình hóa các câu và các văn bản Tang và cộng sự (2015a) sử dụng convolutional neural network để tính toán các vectors cho các câu, và rồi sử dụng bidirectional gated recurrent neural network để tính toán ra document embedding (Hình 20) Mô hình của Bhatia và cộng sự (2015) tính toán các document vectors dựa trên cấu trúc đạt được từ RST parse

Ngày đăng: 21/06/2023, 23:56