Phân tích cảm xúc (Sentiment Analysis còn được gọi là khai thác ý kiến) là một lĩnh vực tìm kiếm tích cực trong xử lý ngôn ngữ tự nhiên. Nhiệm vụ nhằm xác định, trích xuất và sắp xếp các cảm xúc từ các văn bản do người dùng tạo trong các mạng xã hội, blog hoặc các bài đánh giá sản phẩm. Trong hai thập kỷ qua, nhiều nghiên cứu trong tài liệu đã khai thác các phương pháp tiếp cận máy học để giải quyết các nhiệm vụ phân tích tình cảm từ các khía cạnh khác nhau. Vì hiệu suất của người học máy phụ thuộc nhiều vào các lựa chọn biểu diễn dữ liệu, nhiều nghiên cứu dành để xây dựng trình trích xuất tính năng mạnh mẽ với chuyên môn về miền và kỹ thuật cẩn thận. Gần đây, các phương pháp học sâu nổi lên như những mô hình tính toán mạnh mẽ giúp khám phá các bản tái hiện ngữ nghĩa phức tạp của văn bản một cách tự động từ dữ liệu mà không cần kỹ thuật tính năng. Những cách tiếp cận này đã cải thiện tình trạng của nghệ thuật trong nhiều nhiệm vụ phân tích tình cảm, bao gồm phân loại tình cảm, trích xuất ý kiến, phân tích tình cảm chi tiết, v.v.
Trang 1Deep Learning in Sentiment Analysis
Phan Minh Toàn
Abstract
Phân tích cảm xúc (Sentiment Analysis - còn
được gọi là khai thác ý kiến) là một lĩnh vực
tìm kiếm tích cực trong xử lý ngôn ngữ tự
nhiên Nhiệm vụ nhằm xác định, trích xuất
và sắp xếp các cảm xúc từ các văn bản do
người dùng tạo trong các mạng xã hội, blog
hoặc các bài đánh giá sản phẩm Trong hai
thập kỷ qua, nhiều nghiên cứu trong tài liệu
đã khai thác các phương pháp tiếp cận máy
học để giải quyết các nhiệm vụ phân tích tình
cảm từ các khía cạnh khác nhau Vì hiệu suất
của người học máy phụ thuộc nhiều vào các
lựa chọn biểu diễn dữ liệu, nhiều nghiên cứu
dành để xây dựng trình trích xuất tính năng
mạnh mẽ với chuyên môn về miền và kỹ
thuật cẩn thận Gần đây, các phương pháp
học sâu nổi lên như những mô hình tính toán
mạnh mẽ giúp khám phá các bản tái hiện ngữ
nghĩa phức tạp của văn bản một cách tự động
từ dữ liệu mà không cần kỹ thuật tính năng
Những cách tiếp cận này đã cải thiện tình
trạng của nghệ thuật trong nhiều nhiệm vụ
phân tích tình cảm, bao gồm phân loại tình
cảm, trích xuất ý kiến, phân tích tình cảm chi
tiết, v.v
1 Introduction
Phân tích cảm xúc (còn được gọi là khai thác ý
kiến) là một lĩnh vực tự động phân tích ý kiến, tình
cảm, cảm xúc của mọi người từ các văn bản do
người dùng tạo (Pang và cộng sự 2008; Liu 2012)
Phân tích cảm xúc là một lĩnh vực nghiên cứu
rất tích cực trong xử lý ngôn ngữ tự nhiên (Manning
và cộng sự 1999; Jurafsky 2000), và cũng được
nghiên cứu rộng rãi trong khai thác dữ liệu, khai
thác web và phân tích truyền thông xã hội vì cảm xúc là yếu tố ảnh hưởng chính đến hành vi của con người
Với sự phát triển nhanh chóng của các phương tiện truyền thông xã hội như Twitter, Facebook và các trang web đánh giá như IMDB, Amazon, Yelp, phân tích tình cảm thu hút sự chú ý ngày càng tăng
từ cả cộng đồng nghiên cứu và ngành (Bảng 1)
Mục tiêu Sentiment
Người đưa ra
ý kiến
Thời điểm đưa ra ý kiến
iPhone tích cực Alice 04/06/2015 Màn hình
cảm ứng tích cực Alice 04/06/2015 Giá tiêu cực Alice 04/06/2015 Bảng 1: Một ví dụ minh họa cho định nghĩa của tình cảm
Theo định nghĩa từ (Liu 2012), tình cảm (hoặc một ý kiến) được biểu thị dưới dạng ngũ phân e, a,
s, h, t, trong đó e là tên của một thực thể, a là khía cạnh của e, s là tình cảm trên khía cạnh a của thực thể e, h là người có ý kiến và t là thời điểm mà ý kiến được thể hiện bởi h
Theo định nghĩa này, tình cảm có thể là tình cảm tích cực (positive), tiêu cực (negative) hoặc trung lập (neutral) hoặc điểm số xếp hạng thể hiện độ mạnh / cường độ của tình cảm (ví dụ: 1–5 sao) trên các trang web đánh giá như Yelp và Amazon Thực thể có thể là một sản phẩm, dịch vụ, tổ chức chủ đề hoặc sự kiện (Hu và Liu 2004; Deng và Wiebe 2015)
Một ví dụ để giải thích định nghĩa của
"sentiment" Giả sử một người dùng có tên Alice đã đăng một bài đánh giá “Tôi đã mua một chiếc iPhone cách đây vài ngày Đó là một chiếc điện thoại đẹp Màn hình cảm ứng thực sự rất tuyệt Tuy
Trang 2nhiên giá hơi cao một chút.” vào ngày 4 tháng 6
năm 2015
Ba loại sentiment có liên quan trong ví dụ này,
như được trình bày trong Bảng 1
Dựa trên định nghĩa của "sentiment", sentiment
analysis nhằm mục đích khám phá tất cả các nhóm
sentiment trong một tài liệu Các nhiệm vụ phân
tích cảm xúc được bắt nguồn từ năm thành phần của
sentiment
Ví dụ, phân loại cảm xúc ở cấp độ tài liệu / câu
(Pang và cộng sự 2002; Turney 2002) nhắm vào
thành phần thứ ba (sentiment như là positive,
negative và neutral) trong khi bỏ qua các khía cạnh
khác Việc trích xuất ý kiến chi tiết tập trung vào
bốn thành phần đầu tiên của bài toán sentiment
Phân loại tình cảm phụ thuộc vào mục tiêu tập trung
vào khía cạnh thứ hai và thứ ba
Trong hai thập kỷ qua, các phương pháp dựa
trên học máy đã thống trị hầu hết các nhiệm vụ phân
tích cảm xúc Vì biểu diễn tính năng ảnh hưởng lớn
đến hiệu suất của người học máy (LeCun và cộng
sự 2015; Goodfellow và cộng sự 2016), rất nhiều
nghiên cứu trong tài liệu tập trung vào các tính năng
hiệu quả cùng với chuyên môn về domain và kỹ
thuật cẩn thận Nhưng điều này có thể tránh được
bằng các thuật toán học biểu diễn, thuật toán này tự
động khám phá các biểu diễn văn bản giải thích và
phân biệt từ dữ liệu
Học sâu là một loại phương pháp tiếp cận học
đại diện, học nhiều cấp độ biểu diễn với mạng
nơ-ron phi tuyến, mỗi cấp độ biến đổi biểu diễn ở một
cấp độ thành biểu diễn ở cấp độ cao hơn và trừu
tượng hơn Các biểu diễn đã học có thể được sử
dụng một cách tự nhiên như đặc trưng và áp dụng
cho các nhiệm vụ phát hiện hoặc phân loại
Tác giả sẽ giới thiệu các thuật toán học sâu thành
công để phân tích cảm xúc Ký hiệu “Deep
learning” trong chương này là viết tắt của việc sử
dụng các phương pháp tiếp cận mạng nơ-ron để học
các đặc trưng/biểu diễn văn bản liên tục và có giá
trị thực một cách tự động từ dữ liệu
Phần trình bày sẽ được thể hiện theo thứ sau:
• Vì từ là đơn vị tính toán cơ bản của ngôn ngữ tự nhiên, trước tiên sẽ mô tả các phương pháp để học lặp lại từ liên tục (continuous word representation), còn được gọi là word embedding Các word embedding này có thể được sử dụng làm đầu vào cho các nhiệm vụ phân tích cảm xúc (sentiment analysis task) sau
• Tiếp theo là trình bày các phương pháp cấu tạo ngữ nghĩa tính toán các biểu diễn của các biểu thức dài hơn (ví dụ: câu hoặc văn bản) cho nhiệm vụ phân loại cảm xúc
ở cấp độ câu / tài liệu (Socher và cộng sự 2013; Li và cộng sự 2015; Kalchbrenner
và cộng sự 2014)
• Sau đó bằng các mô hình tuần tự thần kinh (neural squential models) để trích xuất ý kiến chi tiết
• Cuối cùng tổng kết và kết luận bài báo này và đưa ra một số hướng đi trong tương lai
2 Sentiment-Specific Word Embedding
Biểu diễn từ hay còn gọi là word representation
nhằm mục đích biểu diễn các khía cạnh của từ nghĩa
từ Một cách đơn giản là mã hóa một từ dưới dạng
one hot vector Nó có cùng độ dài với kích thước
của từ vựng và chỉ có một chiều là 1, với tất cả các chiều khác là 0 Tuy nhiên, cách biểu diễn một từ theo dạng one hot word chỉ mã hóa các chỉ số của
từ trong tập từ vựng, với cách biểu diễn này sẽ không thể hiện được thông tin cũng như mối quan
hệ về cấu trúc của các từ trong từ điển
Và ta có một cách tiếp cận khác cũng khá phổ biến là khám phá sự giống nhau giữa các từ là bằng cách học thông tin của các cụm từ (Brown và cộng
sự 1992; Baker và McCallum 1998)
Mỗi từ thường được liên kết với một lớp rời rạc,
và các từ trong cùng một lớp tương tự nhau về một mặt nào đó Điều này giúp cho cách biểu diễn dạng one-hot trên kích thước từ vựng nhỏ hơn Thay vì
mô tả sự tương tự với một biến rời rạc dựa trên kết
Trang 3quả phân cụm tương ứng với phân vùng mềm hoặc
cứng của tập hợp các từ, nhiều nhà nghiên cứu
nhắm mục tiêu vào việc học một vectơ liên tục và
có giá trị thực cho mỗi từ, còn được gọi là nhúng từ
(Word Embedding)
Các thuật toán embedding learning hiện tại
thường dựa trên giả thuyết phân phối (Harris 1954),
trong đó nói rằng các từ trong ngữ cảnh tương tự có
nghĩa tương tự Dựa trên ý tưởng này, nhiều
phương pháp phân tích nhân tử ma trận có thể được
xem như mô hình hóa các biểu diễn từ Ví dụ:
phương pháp lập chỉ mục ngữ nghĩa tiềm ẩn hay
còn gọi là Latent Semantic Indexing (LSI)
(Deerwester và cộng sự 1990) có thể được coi là
học cách linear embedding với mục tiêu tái tạo, sử
dụng ma trận “term-document” thống kê từ xuất
hiện, ví dụ: mỗi hàng là viết tắt của một từ hoặc
thuật ngữ và mỗi cột tương ứng với một tài liệu
riêng lẻ trong kho ngữ liệu Hyperspace Analogue
to Language (Lund và Burgess 1996) sử dụng ma
trận thống kê số từ cùng xuất hiện, trong đó cả hàng
và cột tương ứng với các từ và các mục nhập đại
diện cho số lần một từ nhất định xuất hiện trong ngữ
cảnh của một từ khác
Hellinger PCA (Lebret và cộng sự 2013) cũng
tìm hiểu cách word embedding qua thống kê đồng
xuất hiện "term-term" Vì các phương pháp phân
tích nhân tử của ma trận tiêu chuẩn hay gọi là
matrix factorization không kết hợp thông tin cụ thể
về nhiệm vụ thực hiện của task, nên không đủ hiệu
quả để biểu diễn thông Supervised Senmentic
Indexing (Bai và cộng sự 2010) giải quyết vấn đề
này và xem xét thông tin cụ thể của riêng
supervised task (ví dụ: Truy xuất thông tin) Họ học
mô hình embedding của dữ liệu thông qua margin
rank loss DSSM (Huang và cộng sự 2013; Shen và
cộng sự 2014) cũng đưa ra mô hình học text
embedding với nhiệm vụ cụ thể kết hợp week
supervised trong bài toán truy xuất thông tin (IR)
Một công trình tiên phong khám phá các phương
pháp tiếp cận mạng nơ-ron được đưa ra bởi (Bengio
và cộng sự 2003), giới thiệu một mô hình ngôn ngữ
xác suất thần kinh học hay còn gọi là neural
probabilitistic language model đưa ra cách một biểu diễn liên tục cho các từ và một hàm xác suất cho các chuỗi từ dựa trên các biểu diễn từ này Cho một
từ và các từ ngữ cảnh đứng trước nó, thuật toán đầu tiên ánh xạ tất cả các từ này thành các vectơ liên tục với một bảng tra cứu (lookup table) được chia sẻ Sau đó, các vectơ từ được đưa vào một mạng nơ-ron chuyển tiếp với softmax làm lớp đầu ra để dự đoán xác suất có điều kiện của từ tiếp theo Các tham số của mạng nơ-ron và bảng tra cứu được ước tính chung với sự lan truyền ngược
Theo Bengio và cộng sự (2003) đề xuất một số phương pháp tiếp cận nhằm tăng tốc độ xử lý training hoặc nắm bắt thông tin ngữ nghĩa phong phú hơn
Bengio và cộng sự (2003) giới thiệu một kiến trúc thần kinh bằng cách nối các vectơ của từ ngữ cảnh và từ hiện tại, và sử dụng importance sampling
để tối ưu hóa mô hình một cách hiệu quả với
“positive samples” và “negative samples” được quan sát
Morin và Bengio (2005) phát triển hàm softmax theo dạng phân cấp để phân rã xác suất có điều kiện với cây nhị phân phân cấp
Mnih và Hinton (2007) giới thiệu mô hình ngôn ngữ log- bilinear
Collobert và Weston (2008) huấn luyện mô hình wording embedding với hàm ranking-type hinge loss bằng cách thay thế từ ở giữa trong cửa sổ bằng
từ được chọn ngẫu nhiên
Mikolov và cộng sự (2013a, b) giới thiệu túi từ liên tục (CBOW) hay còn gọi là continous bag-of-word và continous skip-gram, đồng thời đưa ra mô hình word2vec khá phổ biến Mô hình CBOW dự đoán từ hiện tại dựa trên việc embeddings ngữ cảnh của nó và mô hình skip-gram dự đoán các từ xung quanh khi embedding từ hiện tại
Mnih và Kavukcuoglu (2013) đẩy nhanh quy trình wording embedding với phương pháp Noise Contrastive Estimation (Gutmann và Hyvärinen 2012)
Ngoài ra còn có nhiều thuật toán được phát triển
để thu thập thông tin ngữ nghĩa phong phú hơn như:
Trang 4• Bao gồm thông tin tài liệu toàn cầu –
global document information (Huang và
cộng sự 2012)
• Word morphemes (Qiu và cộng sự 2014)
• Ngữ cảnh dựa trên phụ thuộc hay gọi là
dependency-based contexts (Levy và
Goldberg 2014)
• Từ đồng sự xuất hiện word-wor
co-occcurence (Levy và Goldberg 2014)
• Phần tích khía cạnh của các từ không rõ
ràng hay gọi là sence of ambiguous
words (Li và Jurafsky 2015)
• Phân tích thông tin từ vựng ngữ nghĩa
hay gọi là semantic lexical infor-mation
trong WordNet (Faruqui và cộng sự
2014)
• Phân tích quan hệ thứ bậc giữa các từ
(Yogatama và cộng sự 2015)
Các thuật toán mạng nơ-ron nói trên thường chỉ
sử dụng các ngữ cảnh của từ để học cách biểu diễn
word embedding
Kết quả là, các từ có ngữ cảnh tương tự nhưng
phân cực cảm xúc trái ngược nhau như “good” và
“bad” được ánh xạ thành các vectơ gần trong không
gian emdedding Điều này có ý nghĩa đối với một
số tác vụ như gắn thẻ POS vì hai từ có cách sử dụng
và vai trò ngữ pháp tương tự nhau, nhưng điều này
có vấn đề đối với khi phân tích theo khía cạnh tình
cảm là "good" và "bad" có thái cực tình cảm trái
ngược nhau Để học cách biểu diễn như vậy thì
word embedding được thiết kế riêng cho các nhiệm
vụ phân tích cảm xúc (sentiment analysis task), một
số nghiên cứu mã hóa sentiment của văn bản trong
biểu diễn từ liên tục
Maas và cộng sự (2011) giới thiệu một mô hình
chủ đề xác suất bằng cách suy ra cực của một câu
dựa trên việc nhúng mỗi từ mà nó chứa
Labutov và Lipson (2013) đã thực hiện embed
lại một word embedding hiện có với mô hình hồi
quy logistic bằng tận dụng thông tin suppervied liên quan đến phân tích sentiment các câu như một nhiệm vụ
Tang và cộng sự (2014) mở rộng mô hình C&W
và phát triển ba mạng nơ-ron để học cách embedding word cụ thể theo sentiment từ các tweet Tang và cộng sự (2014) sử dụng các tweet có chứa biểu tượng cảm xúc tích cực và tiêu cực làm
dữ liệu để huấn luyện Các tín hiệu biểu tượng cảm xúc tích cực và tiêu cực được coi là week sentiment suppervision
Tác giả mô tả hai phương pháp tiếp cận theo sentiment cụ thể là kết hợp phân tích sentiment của các giai đoạn để học cách word embedding
Mô hình của Tang và cộng sự (2016c) mở rộng
mô hình dựa trên ngữ cảnh của Collobert và Weston (2008), và mô hình của Tang và cộng sự (2016a) mở rộng mô hình dựa trên bối cảnh của Mikolov và cộng sự (2013b)
Ý tưởng cơ bản của mô hình dựa trên ngữ cảnh (Collobert và Weston 2008) là gán cho một cặp từ ngữ cảnh thực (wi, hi) một điểm số cao hơn một một điểm nhiễu (wn, hi) bởi 1 margin Mô hình được học để tối thiếu hóa hàm loss hinge, trong đó
T là kho dữ liệu đào tạo thì hàm loss sẽ có dạng:
Hàm scoring 𝑓𝜃(𝑤, ℎ) đạt được với một mạng nơron chuyển tiếp Với giá trị đầu vào kết hợp thông của từ hiện tại wi và thông tin ngữ cảnh của
từ hi, và giá trị đầu ra của của mạng là sẽ là 1 lớp tuyến tính với 1 node đại diện cho sự tương tích giữa w, h Trong quá trình huấn luyện thì 1 điểm
nhiễu 𝑤𝑛 sẽ được chọn ngẫu nhiên trong tập từ vựng
Ý tưởng cơ bản về phương pháp tiếp cận sentiment cụ thể của Tang và cộng sự (2014) là nếu gold sentiment của một chuỗi từ là positive, thì positive score được dự đoán phải cao hơn negative score Tương tự như vậy, nếu gold sentiment phân
𝑙𝑜𝑠𝑠 = ∑ 𝑚𝑎𝑥(0, 1 − 𝑓𝜃(𝑤𝑖, ℎ𝑖)
(𝑤𝑖,ℎ𝑖)∈𝑇
+ 𝑓𝜃(𝑤𝑛, ℎ𝑖))
(1)
Trang 5cực của một chuỗi từ là negative, thì positive score
của nó phải nhỏ hơn negative score
Ví dụ: nếu một chuỗi từ được liên kết với hai
điểm [𝑓𝑝𝑜𝑠𝑟𝑎𝑛𝑘, 𝑓𝑛𝑒𝑔𝑟𝑎𝑛𝑘], với các giá trị [0.7, 0.1] có thể
được hiểu là positive case vì positive score là 0.7
lớn hơn negative score là 0.1 Bằng cách tương tự
đó, đối với kết quả [-0.2, 0.6] thì sẽ là negative case
Mô hình xếp hạng dựa trên mạng nơ-ron được
đưa ra trong Hình 1b, có một số điểm tương đồng
với (Collobert và Weston 2008) Như được minh
họa, mô hình xếp hạng là một mạng nơ-ron truyền
về thẳng bao gồm bốn lớp (lookup→ linear →
hTanh → linear) Giá trị vectơ đầu ra của mô hình
xếp hạng là thứ hạng 𝑓𝑟𝑎𝑛𝑘, trong đó C = 2 cho phân
loại binary positive và binary negative
Hàm loss margin ranking dùng huấn luyến cho
mô hình được mô tả như bên dưới:
Trong đó T là training corpus, 𝑓0𝑟𝑎𝑛𝑘 là positive
score được dự đoán, 𝑓0𝑟𝑎𝑛𝑘 là negative score được
dự đoán, 𝛿𝑠(𝑡) là một hàm chỉ báo phản ánh thái
cực gold sentiment (positive hoặc negative) của
một câu
Với một ý tưởng tương tự, một phần mở rộng của mô hình skip-gram (Mikolov và cộng sự 2013b) được phát triển để học cách embedding words theo sentiment cụ thể Cho trước 1 từ 𝑤𝑖, mô hình skip-gram ánh xạ nó thành biễu diễn liên tục
𝑒𝑖 để dự báo thông ngữ cảnh của từ 𝑤𝑖, cụ thể là
𝑤𝑖−2, 𝑤𝑖−1, 𝑤𝑖+1, 𝑤𝑖+2 Hàm mục tiêu của mô hình skip-gram là tối đa hóa trung bình trị phân phối log:
Trong đó T là sự xuất hiện của mỗi cụm từ trong
kho ngữ liệu, c là kích thước cửa sổ, 𝑒𝑖 là bedding của cụm từ hiện tại 𝑤𝑖, 𝑤𝑖+𝑗 là các từ ngữ cảnh của 𝑤𝑖, 𝑝(𝑤𝑖+𝑗|𝑒𝑖) được tính theo hàm softmax
em-Mô hình sentiment-specific được đưa ra trong
Hình 2b Với bộ ba 〈𝑤𝑖, 𝑠𝑗, 𝑝𝑜𝑙𝑗〉 làm đầu vào, trong đó 𝑤𝑖 là một cụm từ có trong câu 𝑠𝑗 có gold
Trang 6sentiment polarity là 𝑝𝑜𝑙𝑗, mục tiêu của việc huấn
luyện là không chỉ sử dụng việc embedding thông
của 𝑤𝑖 để dự đoán các từ ngữ cảnh của nó mà còn
để sử dụng biểu diễn câu 𝑠𝑒𝑗 để dự đoán gold
sentiment polarity của 𝑠𝑗, cụ thể là 𝑝𝑜𝑙𝑗 Vectơ câu
được tính bằng cách lấy trung bình các embedding
của từ trong một câu Hàm mục tiêu là tối đa hóa
trọng số trung bình của hàm lỗi ở dưới đây:
Trong đó S là sự xuất hiện của mỗi câu trong
ngữ liệu, α trọng số ngữ cảnh và các phần tình cảm,
∑ 𝑝𝑜𝑙𝑘 𝑗𝑘 = 1 Đối với phân loại nhị phân giữa
positive và negative thì phân phối của positive là từ [0, 1] là dương và của negative [0, 1]
Có nhiều cách khác nhau để hướng dẫn quá trình học embedding với thông tin sentiment của văn bản Ví dụ, mô hình của Tang và cộng sự (2014)
mở rộng mô hình xếp hạng của Collobert và Weston (2008) và sử dụng vectơ ẩn (hidden - vector) của văn bản để dự đoán nhãn cảm xúc Ren và cộng sự (2016b) mở rộng SSWE và dự đoán thêm về phân phối chủ đề của văn bản dựa trên n-gam đầu vào Hai cách tiếp cận này được đưa
ra trong Hình 3
3 Sentence-level Sentiment Classification
Sentence-level sentiment analysis tập trung vào việc phân lớp các hướng ý kiến (sentiment polarities) của một câu cho trước Thông thường, chúng ta chia các hướng ý kiến thành 2 hoặc 3 loại Trong đó + đại diện cho hướng ý kiến tích cực, -
Trang 7đại diện cho hướng tiêu cực và 0 là trung lập
(neutral)
Khi vận dụng Neural Networks, sentence-level
sentiment analysis có thể được mô hình thành một
bài toán có 2 bước (a two-phase framwork) Bước
đầu tiên là biểu diễn câu (sentence representation)
thông qua việc sử dụng các câu trúc nơ-ron tân tiến
(sophisticated neural structures), và bước còn lại là
phân lớp mà ở đó có thể được giải bằng một hàm
softmax (Hình 4)
Về cơ bản, khi sử dụng word embedding để biểu
diễn các từ, chúng ta có thể sử dụng các phương
pháp pooling để có được một biểu diễn đơn giản
cho một câu Một hàm pooling có thể bắt được các
đặc trưng nổi bật của một chuỗi đầu vào với chiều
dài không cố định
Tang và cộng sự (2004) vận dụng 3 phương
pháp pooling để kiểm chứng sentiment-encoded
word embeddings mà họ đề xuất Đây chỉ là một ví
dụ đơn giản của việc biểu diễn câu Trong thực tế,
nhiều tiến bộ trong biểu diễn câu cho bài toán
sentence classification đã vượt qua phương pháp
trên Một số cấu trúc Neural Networks tiên tiến đã
đã được đề xuất Nói chung lại, các nghiên cứu liên
quan có thể được chia làm 4 loại:
(1) Convolutional netral networks
(2) Recurrent neural networks
(3) Recursive neral networks
(4) Enhanced sentence representation by auxilary resources
3.1 Convolutional Neural Networks
Khi sử dụng các phương pháp pooling để tạo ra biểu diễn cho câu, chúng ta chỉ có thể lấy được các đặc trưng của từ (word-level features) Điều này có nghĩa là khi thứ tự của từ trong câu thay đổi, kết quả biểu diễn của câu không thay đổi Trong các
mô hình thống kê cổ điển, n-gram word feature được vận dụng để cải thiện vấn đề trên và hiệu xuất của bài toán đã được cải thiện Còn đối với các mô hình Neural Networks, một tầng convolution có thể được khai thác để đạt được kết quả tương tự Nói một cách chi tiết, một tầng convolution thực hiện các biến đổi phi tuyến tính thông qua việc duyệt chuỗi đầu vào với một filter cục bộ có kích thước cố định (a fixed-size local filter)
Thông thường, convolutional neural networks (CNN) là một loại network mà nó tích lợp một tầng convolution và một tầng pooling lại với nhau và CNN đã được nghiên cứu rộng rãi cho bài toán sentence-level sentiment classification (Hình 5)
Nghiên cứu đầu tiên được thực hiện thông qua việc trực tiếp áp dụng một mạng CNN chuẩn bởi Collobert và cộng sự (2011) Nghiên cứu trên đạt được biểu diễn câu thông qua việc sử dụng một tầng Hình 4 Framework của sentiment classification
Hình 5 Framework của CNN
Trang 8convolution trên một chuỗi của các word
embeddings đầu vào, và tiếp tục sử dụng một tầng
max pooling trên các hidden vectors đạt được
Kalchbrenner và cộng sự (2014) mở rộng mạng
CNN chuẩn để đạt được biểu diễn câu tốt hơn ở 2
phương diện Đầu tiên, họ sử dụng dynamic k-max
pooling, trong đó top-k giá trị được giữ lại trong lúc
vận dụng pooling thay vì chỉ có một giá trị cho mỗi
chiều trong tầng max pool đơn giản Giá trị của k
được định nghĩa một cách linh động dựa vào chiều
dài của câu Tiếp theo đó, họ mở rộng mạng số
lượng tầng của mạng CNN, sử dụng nhiều cầu trúc
mạng CNN, việc này dựa vào một nhận định
(intuition) là Neural Networks sâu hơn có thể bắt
được nhiều đặc trưng hơn (Hình 6)
Một vài biến thể của CNN đã được nghiên cứu
để đạt được những biểu diễn câu tốt hơn Trong đó
nổi bật nhất là thao tác phi tuyến, gián đoạn tích
chập được đề xuất bởi Lei và cộng sự (2015) (Hình
Một số nghiên cứu khác tập trung vào các word embeddings đầu vào không đồng nhất Ví dụ, Kim (2014) thực hiện nghiên cứu 3 phương pháp khác nhau cho việc sử dụng word embedding Tác giả sử dụng 2 loại embeddings, một embedding loại khởi tạo ngẫu nhiên và một pretrained embedding, và cho phép tham số của các embeddings được thay đổi trong quá trình huấn luyện Cuối cùng, họ kết hợp 2 loại embeddings và đề xuất các mạng CNN
đa kênh dựa trên word embeddings không đồng nhất (Hình 8)
Hình 6 Multilayer CNNs
Hình 7 Mô hình phi tuyến, gián đoạn tích chập
Trang 9Sau đó nghiên cứu trên được mở rộng bởi Yin
và Schütze (2015), họ sử dụng nhiều loại word
embeddings cho các CNNs đa kênh Và thêm vào
đó họ khai thác các kỹ thuật mở rộng cho
pretraining việc khởi tạo các trọng số của mô hình
Tuy nhiên, một phiên bản đơn giản hơn được trình
bài bởi Zhang và cộng sự (2016d), với một hiệu
xuất tốt hơn
Một mở rộng của các word embedings là cải
thiện việc biểu diễn từ thông qua đặc trưng ở mức
ký tự (character-level features) Mạng Neural
Network được để xây dựng biểu diễn của từ dựa
trên chuỗi ký tự đầu sử dụng cùng ý tưởng với việc
xây dựng biểu diễn của câu từ chuỗi các từ đầu vào
Vì vậy chúng ta cũng có thể áp dụng một cấu trúc
mạng CNN chuẩn lên chuỗi các character
embedding để có được các biểu diễn từ dos Santos
và Gatti (2014) đã nghiên cứu sự hiệu quả của việc
mở rộng này Các biểu diễn từ được nối với nhau
với những word embeddings ban đầu vì thế có thể
cải thiện được các biểu diễn từ cuối cùng để mã hóa
câu (Hình 9)
3.2 Recurrent Neural Networks
Các cấu trúc của mạng CNN sử dụng một cửa sổ từ với kích thước cố định (a fixed-size of word window) để bắt các đặc trưng kết hợp xung quanh một vị trí cho trước, lưu trữ lại những thông tin tiềm năng Tuy nhiên, nó bỏ qua các đặc trưng xa (long-distance feature) mà những đặc trưng lại phản ánh thông tin về ngữ nghĩa, do đó những đặc trưng này đặc biệt quan trọng trong việc giải mã các câu của ngôn ngữ tự nhiên Những đặc trưng phụ thuộc này được giải quyết thông qua mạng RNN, và đã cho ra kết quả tốt Nói một cách cụ thể, một mạng RNN chuẩn tính toán các hidden output một cách tuần tự Wang và cộng sự (2015) đề xuất nghiên cứu đầu tiên trong việc sử dụng mạng LSTM cho bài toán tweet sentiment analysis Đầu tiên họ áp dụng một mạng RNN chuẩn trên một chuỗi các embedding đầu vào Sau đó các tác giả thay thế RNN bằng LSTM-RNN, bởi vì mạng RNN chuẩn có thể sẽ bị tác động bởi vấn đề gradient explosion và diminish, còn LSTM thì tốt hơn nhiều bằng cách sử dụng 3 cổng và một memory cell để kết nối các vectors đầu vào và đầu ra Chi tiết tại Hình 10
Hình 8 Multichannel CNNs Hình 9 Biểu diễn từ thông qua đặc trưng ở mức
ký tự
Trang 10Tiếp theo đó, Teng và cộng sự (2016) mở rộng
giải thuật trên ở 2 điểm (Hình 11) Đầu tiên, họ
dùng bidirectional LSMT thay vì một left-to-right
LSTM độc lập Bi-LSTM có thể biểu diễn một câu
hoàn thiện hơn, mà ở đó mỗi hidden output của mỗi
điểm có thể có liên kết với cả những từ phía trước
và phía sau của nó Thứ hai là họ mô hình bài toán
sentence-levlel sentiment classification như một
vấn đề học có câu trúc (structural learning
problem), việc dự đoán hướng (polarities) cho tất
cả các từ có ngữ nghĩa trong một câu và kết nối
chúng lại với nhau để tạo thành minh chứng để xác
định xu hướng ngữ nghĩa (sentiment polarity)
Thông qua việc sử dụng biderectional LSTM, mô
hình của họ có thể kết hợp một cách hiệu quả các
từ vựng (lexicons) được sử dụng rộng rãi trong các
mô hình thống kê truyền thống
CNN và RNN mô hình hóa các câu văn trong
ngôn ngữ tự nhiên bằng những cách hoàn toàn
khác Ví dụ, CNN có thể bắt được các đặc trưng kết
hợp cục bộ tốt hơn, còn RNN thì hiệu quả trong
việc học các đặc trưng xa (long-distance
dependencies) Vì thế một ý tưởng rõ ràng là kết hợp chúng lại với nhau, để có được lợi thế của cả 2
mô hình học Zhang và cộng sự (2016c) đề xuất một
mô hình dependency-sensitive CNN, mà ở đó nó kết hợp của LSTM và CNN, tạo nên một cấu trúc mạng CNN cũng có khả năng bắt các phụ thuộc ở
xa (Hình 12) Cụ thể là đầu tiên họ xây dựng một left-to-right LSTM trên các word embedding đầu vào, và rồi một mạng CNN được xây dựng trên các hidden outputs của mạng LSTM Vì thế mô hình cuối cùng có thể tận dụng hoàn toàn cả các đặc trưng cục bộ và các đặc trưng toàn cục
Hình 11 Framework của Teng và cộng sự (2016)
Hình 12 Sự kết hợp giữa RNN và CNN Hình 10 Sentence representation bằng mạng RNN
Trang 113.3 Recursive Neural Networks
Recursive neural network được đề xuất để mô hình
các đầu vào có cấu trúc dạng cây được sinh ra bởi
các bộ tách ngữ pháp Socher và cộng sự (2012)
trình bài một recursive matrix-vector neural
network để kết hợp 2 nút lá để tạo ra biểu diễn của
nút cha Bằng cách này việc biểu diễn câu được xây
dựng một cách lặp lại từ dưới lên (bottom to up)
Đầu tiên họ tiến hành tiền xử lý các cây đầu vào,
chuyển đổi chúng thành một cây nhị phân mà ở đó
mỗi nút cha có 2 nút con Sau đó họ sử dụng một
mạng recursive neural network trên cây nhị phân
này thông qua việc sử dụng các phép toán
matrix-vector
Thêm vào đó, Socher và cộng sự (2013) áp dụng
các phép toán tensor bậc thấp (low-rank tensor
operations), để thay thế các phép toán
matrix-vector, để tính toán các biểu diễn của nút cha Mô
hình này đạt được hiệu suất cao hơn nhờ vào sự kết
hợp của các tensors đơn giản hơn so với các phép
toán matrix-vector, và mô hình cũng có số lượng
tham số ít hơn Thêm vào đó, họ xác định các xu
hướng ý kiến (sentiment polarities) trên các nút
không phải là nút gốc của cây ngữ pháp, vì thế mô
hình có thể bắt được việc chuyển đổi của các hướng
ý kiến từ các cụm đến các câu (the transition of
sentiments from phrases to sentences) Chi tiết
tham khảo Hình 13
Hướng nghiên cứu này được mở rộng theo 3
hướng khác nhau Đầu tiên, nhiều nghiên cứu cố
gắng tìm các phép toán kết hợp tốt hơn để xây dựng
cây Ví dụ, một số nghiên cứu chỉ đơn giản sử dụng
một hàm tuyến tính dạng 𝒉𝑝= 𝑓(𝑊1𝒉𝑙+ 𝑊2𝒉𝑟)
để kết hợp các nút lá Phương pháp này đơn giản hơn, nhưng nó phải chịu ảnh hưởng từ vấn đề gradient explosion hoặc diminish, việc này làm cho việc học các tham số trở nên cực kì khó Lấy ý tưởng từ nghiên cứu của LSTM-RNN, một số nghiên cứu đã đề suất việc tích hợp LSTM cho recursive neural network Các nghiên cứu nổi bật gồm Tai và cộng sự (2015) và Zhu và cộng sự (2015), cả 2 đã cho thấy sự hiệu quả của LSTM trên các cấu trúc cây
Thứ hai là recursive neural network để biểu diễn câu có thể được cải thiện thông qua việc kết hợp đa kênh Dong và cộng sự (2014b) nghiên cứu về tính hiệu quả của những kết hợp như vậy Họ áp dụng C
kết hợp đồng nhất, thu được C output hidden
vectors, và chúng tiếp tục được sử dụng để biểu diễn các nút cha thông qua việc tích hợp cơ chế attention Họ áp dụng phương pháp này trên những recursive neural networks đơn giản và đạt được kết quả với hiệu xuất ổn định và tốt hơn trên nhiều bộ
dữ liệu đánh giá Chi tiết tham khảo Hình 14
Hình 13 Recursive neural network
Trang 12Hướng nghiên cứu thứ 3 là xem xét việc sử dụng
các cấu trúc deeper neural network giống như của
nghiên cứu về multilayer CNN Nói một cách ngắn
gọn, ở tầng đầu tiên, recursive neural network được
áp dụng lên các word embeddings đầu vào Khi tất
cả các output hidden vectors đã sẵn sàng, một mạng
recursive neural network y như vậy có thể được sử
dụng thêm một lần nữa Phương pháp này được
nghiên cứu thông qua thực nghiệm bởi Irsoy và
Cardie (2014a) (Hình 15)
Kết quả thực nghiệm cho thấy deeper recursive
neural network có thể đem lại hiệu suất cao hơn một
single-layer recursive neural network
Tất cả những nghiên cứu trên xây dựng
recursive neural network dựa trên những cây ngữ
pháp nhị phân được xây dựng cẩn thận, mà chúng thì ít khi thỏa mãn Do đó chúng đòi hỏi một việc tiền xử lý nhất định để chuyển đổi cây ngữ pháp ban đầu sang cây nhị phân, và quá trình này thường
dễ có vấn đề khi không có sự tham gia của các chuyên gia Sau đó, một vài nghiên cứu đã đề xuất việc mô hình các cây trực tiếp với số lượng nút là không có giới hạn Ví dụ, Mou và cộng sự (2015)
và Ma và cộng sự (2015) cả hai đã trình bài một phép pooling dựa trên các nút con để kết hợp các inputs với chiều dài không cố định Teng and Zhang (2016) thực hiện quá trình pooling thông qua việc xem xét các nút con bên trái và bên phải Thêm vào
đó, họ đề xuất sử dụng bidirectional LSTM recursive neural network, và xem xét một phép toán top-to-down recursive, giống với mạng bidirec-tional LSTM-RNN
Một trong những điều đáng chú ý là, một vài nghiên cứu xem xét việc biểu diễn câu thông qua việc sử dụng recursive neural network mà không cần sử dụng tới cây ngữ pháp Cũng nghiên cứu này
đề suất các cấu trúc cây giả (pseudo tree structures) dựa trên những câu đầu vào chưa qua xử lý (raw sentence inputs) Ví dụ, Zhao và cộng sự (2015) xây dụng một pseudo-directed acyclic graph để áp dụng recursive neural network (Hình 16)
Thêm vào đó Chen và cộng sự (2015) sử dụng một phương pháp đơn giản hơn để xây dựng một cấu trúc cây cho một câu một cách tự động (Hình 17) Cả hai nghiên cứu đạt được kết quả tốt gần như nhau cho setence-level sentiment analysis
Hình 14 Recursive neural network với
multi-compositions
Hình 15 Multilayer recursive neural network
Hình 16 Pseudo-directed acyclic graph của Zhao và cộng sự (2015)
Trang 133.4 Integration of External Resources
Các phương pháp được liệt kê ở trên vận dụng
nhiều cấu trúc neural network để xây dựng biểu
diễn cho câu, với sự tham gia chỉ từ thông tin về các
câu đầu vào, bao gồm các từ, các cây ngữ pháp Gần
đây, một nhánh nghiên cứu quan trọng khác cho
việc cải thiện các biểu diễn của câu thông qua việc
tích hợp với các tài nguyên ngoài (external
resources) Các tài nguyên đáng kể có thể được chia
thành 3 loại bao gồm các kho ngữ liệu thô lớn để
huấn luyện trước tham số cho các mô hình giám sát,
external humman-annotated hoặc automatically
extracted sentiment lexicons, và cuối cùng là kiến
thức nền của những bài toán nhất định, ví dụ là
Twitter sentiment classification
Việc khám phá các kho dữ liệu thô lớn để cải
thiện việc biểu diễn câu đã được thực hiện bởi một
số nghiên cứu Và trong những nghiên cứu này, mô
hình sequence autoencoder được đề xuất bởi Hill
và cộng sự (2016) là tiêu biểu nhất Trong mô hình
này, đầu tiên các câu được biểu diễn thông qua
LSTM-RNN encoder, và sau đó mô hình cố gắng sinh lại câu ban đầu từng từ một, vì thế tham số của
mô hình được học theo giám sát trong kiến trúc này (Hình 18) Đặc biệt, Gan và cộng sự (2016) đề xuất một CNN encoder thay thế, với mục tiêu giải quyết vấn đề kém hiệu quả trong LSTM-RNN
External sentiment lexicons đã được nghiên cứu nhiều trong các mô hình thống kê, mà trong đó có rất ít nghiên cứu về việc vận dụng chúng vào các
mô hình Neural Networks, mặc dù đã có nhiều nghiên cứu trong việc tự động hóa việc xây dựng các sentiment lexicons Tuy vậy, Teng và cộng sự (2016) tích hợp context-sensitive lexicon features vào một LSTM-RNN neural network, xem xét điểm của các sentence-level sentiment như một weighted sum của điểm của các negation words và sentiment words trước đó Qian và cộng sự (2017) tiếp tục cải thiện hướng nghiên cứu này, nghiên cứu của Qian liên quan đến việc tìm hiểu sentiment shifting effect của sentiment, negation và intensity words, sau đó đề xuất một mô hình linguistically regularized LSTM cho sentence-level sentiment analysis
Có vài nghiên cứu để xem xét tới những thông tin khác cho sentence-level sentiment analysis
trong một số bài toán tương ứng nhất định Như trong Twitter sentiment classification, chúng ta có thể sử dụng một vài thông tin liên quan đến ngữ cảnh, bao gồm các tweets trước đó của tác giả của tweet đang được xem xét, hoặc những đoạn tweets giao tiếp xuanh quanh đoạn tweet này, và những
Hình 17 Cấu trúc cây nhị phân pseudo của
Chen và cộng sự (2015)
Hình 18 Autoencoder bằng LSTM-RNN
Trang 14đoạn tweets có cùng topic Những thông tin này có
thể được sử dụng như thông tin ngữ cảnh để hỗ trợ
cho việc quyết định xu hướng ý kiến của một tweet
Ren và cộng sự (2016a) khám phá những thông tin
liên quan này trong một mô hình neural network
thông qua việc thêm vào một phần ngữ cảnh cho
kiến trúc của mạng ban đầu, sau đó họ áp dụng một
pooling neural network trên một tập các từ có thông
tin ngữ cảnh nổi bật (Hình 19)
Gần đây, Mishra và cộng sự (2017) đề xuất một
tích hợp của cognitive features từ gaze data để cải
thiện sentence-level sentiment analysis, đạt được
thông qua việc thêm một cấu trúc mạng CNN để
mô hình hóa các gaze features
4 Document-Level Sentiment Classification
Document-level sentiment classification hướng tới
việc nhận ra ý kiến của một văn bản (Pang và cộng
sự 2002; Turney 2002) Các ý kiến này được phân
thành 2 loại, loại đầu tiên là thumbs up and thumbs
down (Pang và cộng sự 2002) hoặc chúng có thể
được phân theo hạng từ 1-5 sao như trong các trang
review (Pang và Lee 2005)
Trong các nghiên cứu, các phương pháp về phân
loại ý kiến hiện có thể được nhóm thành 2 hướng:
hướng dựa trên từ vựng (lexicon-based) và hướng
dựa trên kho ngữ liệu (corpus-based) Các phương
pháp dựa trên từ vựng (Turney 2002; Taboada và
cộng sự 2011) đa số sử dụng một từ điển của những
từ ý kiến cùng với xu hướng ý kiến của chúng, và kết hợp với negation và intensification để tính toán
ra xu hướng ý kiến của từng văn bản Một phương pháp tiêu biểu dựa trên từ vựng được đưa ra bởi (Turney 2002) có 3 bước Đầu tiên các cụm từ được chiết xuất ra, trong trường hợp từ loại của chúng (POS tags) tuân thủ theo các mẫu được định nghĩa trước Sau đó xu hướng ý kiến của từng cụm từ được ước lượng thông qua phương pháp PMI
(pointwise mutual information), đó là một phương pháp đo độ phụ thuộc dựa trên thống kê giữa 2 cụm
từ Trong nghiên cứu của Turney, điểm PMI được tính toán bằng cách sử dụng một công cụ tìm kiếm
và đếm số lượng cụm từ tìm được Cuối cùng Turney lấy điểm trung bình của tất cả các cụm từ trong một review để phân loại xu hướng ý kiến của
nó Ding và cộng sự (2008) sử dụng các từ mang nghĩ phủ định như ‘not’, ‘never’, ‘cannot’ và các giới từ thể hiện sự trái ngược như ‘but’ để cải thiện hiệu suất của phương pháp dựa trên từ vựng Taboada và cộng sự (2011) kết hợp intensification
và các từ mang nghĩa phủ định với các từ vựng mang nghĩa quyết định ý kiến được kết hợp với xu hướng ý kiến của chúng
Các phương pháp dựa trên các bộ ngữ liệu xem bài toán sentiment classification như một trường hợp đặc biệt của bài toán text categorization (Pang và cộng sự 2002) Phần lớn các phương pháp này xây dựng một công cụ phân lớp ý kiến (a sentiment Hình 19 Sentiment classification với contextual features
Trang 15classifier) từ những văn bản được gắng với xu
hướng ý kiến của chúng Việc xây dựng các văn bản
này có thể được thực hiện bằng cách gắn nhãn một
cách thủ công, hoặc được tự động thu thập thông
qua các dấu hiệu của ý kiến như emoticons trong
các tweets hoặc thông qua điểm reivew của mọi
người Pang và cộng sự (2002) đi đầu trong việc
xem bài toán sentiment classification của các
reviews như một trường hợp đặc biệt của text
categorization và đầu tiên tìm hiểu tới việc áp dụng
các giải thuật machine learning Họ áp dụng Naive
Bayes, Maximum Entropy, và Support Vector
Machines (SVM) với các nhiều bộ đặc trưng Trong
các thí nghiệm của họ, hiệu suất cao nhất đạt được
là khi sử dụng SMV với các đặc trưng xây dựng
trên phương pháp bag-of-words Tiếp nối với
nghiên cứu của Pang, nhiều nghiên cứu tập trung
vào việc thiết kế hoặc xây dựng các đặc trưng hiệu
quả để đạt được một hiệu suất phân loại cao hơn
Trong các bài toán liên quan đến phim và reviews,
Wang và Manning (2012) trình bài giải thuật
NBSVM, đó là một sự đánh đổi giữa Naive Bayes
và đặc trưng NB (NB-features) được cải thiện bởi
SVM Paltoglou và Thelwall (2010) học các trọng
số thuộc tính thông qua việc vận dụng các biến thể
của hàm tính trọng số từ Information Retrieval, như
là tf.idf và các biến thể BM25 của nó Nakagawa và
cộng sự (2010) tận dụng các cây phụ thuộc, luật
polarity-shifting và các trường điều kiện ngẫu
nhiên (conditional random fields) với hidden
variables để tính toán đặc trưng của văn bản
Nguồn gốc khơi dậy về việc phát triển các
phương pháp neural network là do việc chiết xuất
đặc trưng rất tốn công (labor intensive) Thay vào
đó các phương pháp sử dụng Neural Network có
khả năng phát hiện các nhân tố cần thiết và làm cho
các giải thuật học trở lên ít phụ thuộc vào việc chiết
xuất đặc trưng một cách thủ công Bespalov và
cộng sự (2011) trình bài mỗi từ như một vector
(embedding), và rồi tạo các vectors cho các cụm với
temporal convolution network Các document
embedding được tính toán bằng cách lấy trung bình
các vectors của các cụm Le and Mikolov (2014)
mở rộng phương pháp skip-gram và CBOW chuẩn của Mikolov và cộng sự (2013b) để học các embeddings cho câu và văn bản Họ biểu diễn mỗi văn bản thành một dense vector, mà dense vector này được huấn luyện để dự đoán ra lại chính các từ trong văn bản Đặc biệt, mô hình PV-DM mở rộng
mô hình skip-gram bằng cách lấy trung bình/nối các vector của văn bản với các vector của thông tin ngữ cảnh để dự đoán từ ở giữa Các mô hình của Denil và cộng sự (2014); Tang và cộng sự (2015a); Bhatia và cộng sự (2015); Yang và cộng sự (2016); Zhang và cộng sự (2016c) có cùng ý tưởng như vậy Chúng mô hình hóa các embedding của các câu từ các từ, và rồi sử dụng các vectors của các câu để tạo
ra vector cho văn bản Đặc biệt Denil và cộng sự (2014) sử dụng convolutional network như vậy như một thành phần để mô hình hóa các câu và các văn bản Tang và cộng sự (2015a) sử dụng convolutional neural network để tính toán các vectors cho các câu, và rồi sử dụng bidirectional gated recurrent neural network để tính toán ra document embedding (Hình 20) Mô hình của Bhatia và cộng sự (2015) tính toán các document vectors dựa trên cấu trúc đạt được từ RST parse