Bài báo đề xuất phương pháp cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh giá xe ô tô. Bài báo có đánh giá kết quả của phương pháp đề xuất bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang báo mạng tiếng Việt với phương pháp học máy Support Vector Machine, và đối sánh kết quả với phương pháp học sâu – Deep learning – không dựa vào từ điển cảm xúc. Mời các bạn cùng tham khảo!
Trang 1Một Cải Tiến Từ Điển Cảm Xúc Tiếng Việt
Theo Chủ Đề
Nguyễn Ngọc Duy, Lê Minh Hóa Khoa Công nghệ Thông tin II, Học Viện Công Nghệ Bưu Chính Viễn Thông Email:duynn, hoasac@ptithcm.edu.vn
Abstract —Môi trường internet mang lại nguồn tài nguyên phong
phú là các ý kiến về các vấn đề xã hội cũng như đánh giá sản
phẩm của người dùng Vấn đề khai thác cảm xúc của các cá
nhân, thăm dò ý kiến cộng đồng về những vấn đề nổi bật trong
cuộc sống, các sản phẩm trong kinh doanh từ nguồn tài nguyên
này rất được chú trọng Cảm xúc thường được thể hiện rất tinh
tế liên quan đến ngôn ngữ và văn hóa Để khai thác nguồn tài
nguyên này ở khía cạnh cảm xúc thì từ điển cảm xúc là một
thành phần cơ bản quan trọng Bài báo này đề xuất phương pháp
cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ
tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc
trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh
giá xe ô tô Bài báo có đánh giá kết quả của phương pháp đề xuất
bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang
báo mạng tiếng Việt với phương pháp học máy Support Vector
Machine, và đối sánh kết quả với phương pháp học sâu – Deep
learning – không dựa vào từ điển cảm xúc
Keywords- Từ điển, ý kiến, cảm xúc, từ điển cảm xúc, phân loại
cảm xúc, phân tích cảm xúc
I GIỚITHIỆU Ngày nay internet đã trở nên rất phổ biến ở Việt Nam cũng
như trên thế giới Thông tin trên internet gia tăng rất nhanh
Trong môi trường này, mọi người có thể thể hiện suy nghĩ về
mọi vấn đề trong cuộc sống như văn hóa, kinh tế mà không
bị ràng buộc nào về chuẩn mực ngôn ngữ Mỗi ý kiến như vậy
ngoài ý nghĩ thông tin còn chứa cả cảm xúc của người viết
Đây là nguồn tài nguyên rất giá trị Vì vậy nhu cầu khai thác
nguồn tài nguyên này là rất lớn Khi phân tích cảm xúc, vấn đề
quan trọng là nhận diện các thực thể cảm xúc, xác định mức độ
cảm xúc mà nó thể hiện lên văn bản Đã có nhiều bộ từ điển
cảm xúc được thực hiện bằng nhiều phương pháp xác định
trọng số cảm xúc đã được đề xuất Là một ngôn ngữ phổ biến,
tiếng Anh đã có những bộ từ điển cảm xúc tốt như
SentiWordNet [13], SenticNet [4] Vì vậy, tiếng Anh đã có
nhiều công trình nghiên cứu về phân tích cảm xúc có chất
lượng cao
Với tiếng Việt, việc nghiên cứu xây dựng từ điển cảm xúc
còn đang ở giai đoạn ban đầu Các công trình đã được giới
thiệu như [8], [11], [14], hoặc bộ từ điển được biết đến khá
rộng rãi VietSentiWordNet, được xây dựng trên cơ sở chuyển
ngữ từ các bộ từ điển SentiWordNet tiếng Anh Nhiều phương
pháp chọn mục từ tiếng Việt được xem là phù hợp với một từ
tiếng Anh đã được đề xuất Tuy vậy, điều này vẫn còn nhiều
hạn chế, dẫn đến hạn chế khả năng nhận diện cảm xúc ở các văn bản tiếng Việt Do đó, các bài toán liên quan đến phân tích cảm xúc tiếng Việt cũng sẽ bị hạn chế Vì thế, nhu cầu về một
bộ từ điển cảm xúc tiếng Việt xây dựng dựa trên đặc trưng ngôn ngữ tiếng Việt là rất lớn Bài báo này đề xuất cải tiến phương pháp xác định trọng số cảm xúc cho các mục từ tiếng Việt dùng trong lĩnh vực hẹp là các văn bản tiếng Việt đánh giá
xe ô tô đã được đề xuất ở công trình [2] Để đánh giá sự hiệu quả của phương pháp đề xuất, bài sẽ thử nghiệm phân loại cảm xúc bằng phương pháp học máy Support Vector Machine – SVM dựa trên từ điển cảm xúc được xây dựng bằng phương pháp này Để có cơ sở so sánh, bài báo cũng thử nghiệm phân loại cảm xúc bằng phương pháp học sâu (Deep Learning) không dựa trên từ điển cảm xúc
Để đánh giá sự hiệu quả của từ điển đề xuất, bài báo sẽ dùng phương pháp học máy Support Vector Machine – SVM
và phương pháp học sâu (Deep Learning)
Mô hình học sâu đã được biết đến từ lâu khi đã mang lại cho các lĩnh vực xử lý ảnh và xử lý tín hiệu những kết quả rất tốt Đối với lĩnh vực xử lý ngôn ngữ tự nhiên thì học sâu chỉ mới được quan tâm trong thời gian gần đây Yoon Kim [17] tiên phong ứng dụng học sâu vào lĩnh vực xử lý ngôn ngữ tự nhiên với mô hình mạng nơron tích chập (Convolution Neural Network) dùng cho phân loại cảm xúc như ở hình 1 Mô hình chia thành các tầng độc lập Tầng Word Embedding là ma trận trọng số của của các từ trong kho ngữ liệu
Ma trận này được xây dựng trên cơ sở thống kê về từ vựng của kho ngữ liệu [18], từ đó xác định mối tương quan giữa các
từ có trong kho ngữ liệu Phương pháp này đòi hỏi kho ngữ liệu thật phong phú để có thể biểu diễn được hết các từ trong một ngôn ngữ
Word Embedding Layer
Convolutional Layer Pooling Layer Fully connected layer
Hình 1: Mô hình Convolutional Neural Network cơ bản
Trang 2II CÔNGTRÌNHLIÊNQUAN
Do từ điển cảm xúc có ý nghĩa rất lớn đối với bài toán phân
tích cảm xúc để khai thác nguồn nguyên ý kiến trên mạng
internet Đã có rất nhiều phương pháp xây dựng từ điển cảm
xúc được giới thiệu Tiếng Anh là ngôn ngữ phổ biến nên cũng
là ngôn ngữ có nhiều bộ từ điển được biết đến nhiều nhất Các
ngôn ngữ ít phổ biến hơn cũng được các nhà khoa học quan
tâm xây dựng bộ từ điển cảm xúc cho ngôn ngữ mình vì sự cần
thiết của nó
Bộ từ điển SentiWordNet [13] là bộ từ điển cảm xúc tiếng
Anh được sử dụng rất rộng rãi Stefano Baccianella và các
cộng sự dựa trên quan hệ ngữ nghĩa của từ điển WordNet để
tính toán ra giá trị cảm xúc cho các mục từ SentiWordNet có
gần 120 ngàn mục từ được gán trị cảm xúc Bên cạnh
SentiWordNet, một bộ từ điển cảm xúc khác cho tiếng Anh
cũng được biết đến rộng rãi là SenticNet [4] do Erik Cambria
và các cộng sự xây dựng SenticNet hiện có khoảng 50 ngàn
mục từ được gán trị cảm xúc Điểm chung của các bộ từ điển
cảm xúc này là có quá trình phát triển lâu dài, được xây dựng
dựa trên kho ngữ liệu phong phú và một bộ từ điển chất lượng
về quan hệ ngữ nghĩa đặc trưng cho tiếng Anh là WordNet
Những ngôn ngữ ít phổ biến như tiếng Tây Tạng [6], tiếng
Việt [8, 11, 14] cũng có các công trình xây dựng bộ từ điển
cảm xúc Các bộ từ điển này thường lấy một bộ từ điển cảm
xúc phổ biến của tiếng Anh như SentiWordNet để chuyển ngữ
kết hợp với các phương pháp như dựa trên thông tin tương hỗ
[6], tính toán mờ [8] nhằm tăng độ phù hợp với đặc trưng của
ngôn ngữ bản xứ
Vấn đế phức tạp khi dùng phương pháp chuyển ngữ là có
nhiều mục từ tiếng bản xứ ứng với một mục từ tiếng Anh Các
công trình trên đã phải đề xuất nhiều giải pháp để chọn mục từ
tiếng bản xứ được xem là phù hợp nhất với một mục từ tiếng
Anh Tuy vậy, điều này rõ ràng vẫn sẽ có những hạn chế khả
năng nhận diện cảm xúc ở các văn bản tiếng bản xứ
III PHƯƠNGPHÁPTIẾPCẬN
Mô hình tính trọng số cảm xúc của một từ hoặc một cụm từ
ở bài báo không thay đổi so với [2] như hình 2 Kho ngữ liệu
cảm xúc của bài báo này là những văn bản ý kiến đánh giá xe ô
tô tiếng Việt Các câu chứa thông tin chủ quan (cảm xúc) của
người viết sẽ được chọn vào kho ngữ liệu Tập từ hạt giống là
những từ đơn hoặc từ ghép thường dùng để khen hoặc chê một
thành phần (khía cạnh) hoặc tổng thể chiếc xe Các từ hạt giống
được gán trọng số cảm xúc -1 hoặc 1 tương ứng với ý khen
hoặc chê Các mục từ trong Từ điển tiếng Việt được tính trị
cảm xúc theo tập từ hạt giống
3.1 Kho ngữ liệu cảm xúc
Kho ngữ liệu là tập các văn bản đã được gán nhãn cảm xúc
Quá trình thu thập dữ liệu sẽ cần chi phí lớn về thời gian và
công sức nếu thực hiện bằng phương pháp thủ công Tuy
nhiên, để đảm bảo chất lượng cho kho ngữ liệu bài báo vẫn xây
dựng kho ngữ liệu bằng phương pháp này
Kho ngữ liệu của bài báo là tập hợp gần 2500 văn bản với
hơn 4000 câu (xem chi tiết ở bảng 5) được xác định cảm xúc
theo phương pháp thủ công kết hợp với các công cụ đã có sẵn trong giai đoạn phân đoạn từ và gán nhãn từ loại [16]
Quá trình tạo kho ngữ liệu được thực hiện như sau:
Bước 1: Thu thập dữ liệu là các ý kiến đánh giá (review) trên các trang báo trực tuyến có chuyên mục đánh giá xe ô tô như VNExpress.net, danhgiaxe.com, otosaigon.com … để tạo tập dữ liệu thô
Bước 2: Tách câu Loại bỏ các câu không có dấu tiếng Việt Gán nhãn cảm xúc cho câu
Bước 3: Loại bỏ các câu chứa thông tin mang tính khách quan, không chứa cảm xúc
Bước 4: Phân đoạn từ và gán nhãn từ loại
3.2 Phương pháp tính trọng số cảm xúc 3.2.1 Xây dựng tập từ cảm xúc cơ sở Đối tượng xe ô tô có rất nhiều đặc tính kỹ thuật Các ý kiến đánh giá có thể chỉ tập trung vào một hoặc một vài khía cạnh đặc tính kỹ thuật Các khía cạnh kỹ thuật của xe ô tô thường được xem xét đánh giá, so sánh là: tổng thể, động cơ, nội và ngoại thất, an toàn, giá cả, v.v… Các mục từ thường được dùng trong đánh giá, khen/chê ở mỗi khía cạnh sẽ được chọn làm từ hạt giống Ví dụ:
– Giá: đắt/rẻ, chát/ngon … – Động cơ: mạnh/yếu, bốc/ì … – Nội thất: sang/tệ, chắc chắn/ọp ẹp … – Tổng thể: hầm hố/ẻo lả …
Mỗi từ/cụm từ được gán trọng số cảm xúc là 1 hoặc -1 tương ứng với ý kiến khen hoặc chê Các từ hạt giống được chọn gồm cả từ đơn (nhạy, độc, đẹp …) và từ phức (hầm hố,
ọp ẹp …)
3.2.2 Sơ lược đặc trưng về từ và cụm từ trong ngôn ngữ tiếng Việt
Theo tác giả Nguyễn Tài Cẩn [1], trong tiếng Việt, khả năng kết hợp của các từ có những đặc trưng rất quan trọng: Phó từ đứng trước động từ, tính từ: Thường bổ sung một
số ý nghĩa liên quan đến hành động, trạng thái, đặc điểm, tính chất nêu ở động từ hoặc tính từ như: quan hệ thời gian, mức độ,
sự tiếp diễn tương tự, sự phủ định, sự cầu khiến Ví dụ: đã, rất, cũng, chưa
Phó từ đứng sau động từ, tính từ: Thường bổ sung ý nghĩa
về đến hành động, trạng thái, đặc điểm, tính chất của động từ hoặc tính từ về mức độ, khả năng, kết quả và hướng Ví dụ: lắm, quá
Hình 2: Mô hình tính trọng số cảm xúc
Tính trọng số cảm xúc
Từ điển cảm xúc
Từ điển tiếng Việt
Tập từ hạt giống Kho ngữ liệu
cảm xúc
Trang 3)) 1 ( log 1
) 1 ( log2 n
2
(1 log (1 (n 1) ))
Những phó từ thường gặp: đã, đang, cũng, sẽ, vẫn, còn,
đều, được, rất, thật, lắm, quá
Dựa vào các đặc trưng trên của tiếng Việt, bài báo sẽ tính
toán trọng số cảm xúc cho các từ ghép để mở rộng từ điển cảm
xúc Bài báo này chỉ tính trọng số cảm xúc cho các cụm từ gồm
một phó từ chỉ cấp độ kết hợp với một tính từ hoặc động từ
Các phó từ được chia thành các mức cao, khá, thấp, kém và
mức không khi ghép chung với tính từ và động từ Bảng 1 liệt
kê một số phó từ cùng cấp độ
Bảng 1: Một số phó từ cùng mức độ
vô cùng thật tương đối chả
Ví dụ: cực kỳ đẹp > thật đẹp > đẹp > khá đẹp > cũng đẹp >
không đẹp
Khi các phó từ đứng trước tính từ hoặc động từ sẽ làm tăng
mức độ cảm xúc của cụm tính từ hoặc cụm động từ tương ứng
Ngược lại sẽ làm giảm mức cảm xúc của cụm từ nếu chúng
đứng sau
Ví dụ: thật đẹp > đẹp thật
Trọng số cảm xúc của một từ, cụm từ thể hiện mức độ cảm
xúc mà người đọc cảm nhận Độ lớn, nhỏ về trọng cảm xúc của
các từ, cụm từ thể hiện mối tương quan giữa chúng về khả
năng giúp người đọc cảm nhận được ý kiến, cảm xúc người
viết thể hiện trong văn bản
Xét hai phát biểu như sau:
1 “Chiếc xe này rất bốc”
2 “Chiếc xe này rất đẹp”
Cụm động từ “rất bốc” ở câu 1 cho người đọc nhận định
rằng người viết có cảm xúc rất tích cực về chiếc xe, ở khía
cạnh vận hành của nó Với câu 2 thì cụm tính từ “rất đẹp” cho
chúng ta nhận định rằng người viết đánh giá rất cao phần thiết
kế ngoại hình của xe Tổng quan là rất khen chiếc xe Tuy
nhiên, có thể nói cụm động từ “rất bốc” và tính từ “rất đẹp”
có mức độ tác động về mặt cảm xúc đến người đọc là khác
nhau Câu 2 nhận xét về khía cạnh tĩnh của xe ô tô với cụm
tính từ “rất đẹp” Trong khi đó, câu 1 nhận xét về khía cạnh
động của xe với cụm động từ “rất bốc” Hiệu quả tác động về
cảm xúc của câu 1 với cụm động từ “rất bốc” đến người đọc sẽ
lớn hơn Tương tự, khi nói động cơ của xe là “rất tiết kiệm” sẽ
có hiệu quả cảm xúc hơn khen xe chạy “rất êm” Do đó, bài
báo sẽ chia thang độ cảm xúc của cụm động từ lớn hơn cụm
tính từ
Tính trọng số cảm xúc cho cụm tính từ
Bài báo này sử dụng công thức đề xuất của [2] để tính trọng
số cảm xúc T cho cụm tính từ có dạng như công thức (1)
T = (1)
Trong đó:
n: cơ sở xác định độ chênh lệch cảm xúc giữa các cụm
từ
n: là giá trị độ chia như trong bảng 2, n [-2; 2]
: hệ số độ mịn giữa các trọng số cảm xúc của các điểm chia trên thang, 0 < < 0.25
Hệ số xác định dấu của trị cảm xúc, = 1
: độ chênh lệch trị cảm xúc giữa các các cụm từ so với từ hạt giống
Bảng 2: Thang độ của cụm tính từ
2 cực kỳ sang 1.5 sang cực kỳ
1 quá sang 0.5 sang quá
0 sang -1 khá sang -2 hơi sang không sang
Trị cảm xúc của cụm tính từ theo giá trị như bảng 3 Bảng 3: Trọng số cảm xúc của từ ghép giữa phó từ và tính từ
= 0.1 = 0.15 = 0.2
2 cực kỳ sang 1.263 1.379 1.485 1.5 sang cực kỳ 1.202 1.293 1.379
Tính trọng số cảm xúc cho cụm động từ Như đã đề cập ở phần trên, cụm động từ sẽ có trị cảm xúc lớn hơn cụm tính từ Bài báo đề xuất sẽ lớn hơn cụm tính từ 1 (một) thang độ so với cụm tính từ Trọng số cảm xúc T của cụm động từ được tính bởi công thức (2)
T = (2) Trị cảm xúc của cụm động từ theo giá trị như bảng 4 Bảng 4: Trọng số cảm xúc của từ ghép giữa phó từ và động từ
= 0.1 = 0.15 = 0.2
Trang 4) , (
) , ( ) , (
2 1
2 1 2
w w pmi w
w
) ( ) (
)
&
( log ) ,
(
2 1 2 1 2 2 1
w p w p w w p w
w
PMI
)) , ( ( log ) , ( )
,
2
1
2 1
w w p w w p w
w
h
w
w
)
SO
1.5 bốc cực kỳ 1.322 1.459 1.585
3.2.3 Tính trọng số cảm xúc theo phương pháp thông tin
tương hỗ (PMI)
Từ hạt giống và các từ dẫn xuất, bài báo tiếp tục tính trọng
số cảm xúc của các từ khác trong từ điển tiếng Việt trên cơ sở
quan hệ tương hỗ thông tin Mối quan hệ này được xác định
theo thông tin tương hỗ từng điểm (pointwise mutual
information - PMI) [9] Phương pháp này giúp xác định độ phụ
thuộc qua lại giữa hai mục từ trong một tập ngữ liệu Các bước
tính như sau:
Bước 1: Tính PMI như công thức (2):
p(w1), p(w2): xác suất của từ w1, w2 trong kho ngữ liệu,
p(w1&w2): xác suất từ w1 và từ w2 cùng trong kho ngữ
liệu
Bước 2: Chuẩn hóa PMI [7] theo công thức (3) để có giá trị
npmi(w1;w2) [-1;1]
Trong đó:
là entropy của
cặp từ w1 và w2
npmi(w1;w2) = 1 khi w1 và w2 xuất hiện cùng nhau,
npmi(w1;w2) = -1 khi w1 và w2 không bao giờ xuất hiện
cùng nhau
Bước 3: Tính trọng số cảm xúc theo mô hình thông tin tương
hỗ theo công thức (4):
w+, w-: các từ hạt giống có trọng số cảm xúc dương và cảm
xúc âm
IV THỬNGHIỆM 4.1 Dữ liệu thử nghiệm
Dùng từ điển với trọng số cảm xúc được tính theo phương
pháp đề xuất của bài báo với số liệu trình bày trong bảng 5, bài
báo thử nghiệm phân loại cảm xúc cho tập dữ liệu văn bản ý kiến
đánh giá xe ô tô có số liệu như bảng 6 Số câu của các lớp ý kiến
“khen”, “chê” và “trung tính” tương đương nhau, độ chênh lệch
là không đáng kể
Bảng 5: Số liệu của từ điển đề xuất
Số từ được gán trọng số cảm xúc 1014 Bảng 6: Số liệu về kho ngữ liệu
Số câu đã tách thành câu đơn theo khía cạnh được gán nhãn dùng cho huấn luyện 4.413
Số câu được gán nhãn dùng cho thử
tính, chê)
4.2 Phương pháp thử nghiệm 4.2.1 Phương pháp học máy Support Vector Machine Các vector đặc trưng cảm xúc của câu dùng cho phương pháp này có số chiều là số khía cạnh của xe ô tô mà các nhà sản xuất thường dùng khi giới thiệu về xe, gọi là các khía cạnh chuẩn Các khía cạnh chuẩn cụ thể bài báo dùng làm các phần
tử tạo nên các vector trong thử nghiệm bằng phương pháp SVM: động cơ, giá bán, vận hành, an toàn, ngoại thất, nội thất, tiện nghi, kích thước, trọng lượng, tổng thể
4.2.2 Mô hình học sâu (deep learning) Bài báo thử nghiệm phân loại cảm xúc bằng mạng nơron tích chập (Convolution Neural Network – CNN) dùng thư viện TensorFlow Thông số cấu hình của CNN cho thử nghiệm trình bày ở bảng 7
Bảng 7: Các thông số cấu hình cho CNN
Hệ số L2 được chọn thủ công qua quá trình thử nghiệm
Ma trận ở tầng Word Embedding được xây dựng bằng công
cụ word2vec Thông số cấu hình công cụ word2vec được mô tả
ở bảng 8
Trang 5Bảng 8: Thông số cấu hình công cụ word2vec
Kích thước vector từ (size) 300
Khoảng cách từ dự đoán lớn nhất (window) 10
Tần suất từ tối thiểu (min_count) 2
4.3 Kết quả thử nghiệm
Dùng công thức tính độ đúng (Accuracy), độ chính xác
(Precision) độ truy hồi (Recall) như trong [15] Kết quả thử
nghiệm đánh giá bộ từ điền với một số hệ số độ mịn , đối với
công thức (1), được trình bày ở bảng 9, bảng 10, bảng 11 Bảng
12 trình bày kết quả thử nghiệm của phương pháp học sâu
Bảng 9: Kết quả thử nghiệm với SVM khi = 0,2
Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)
74.83
Bảng 10: Kết quả thử nghiệm với SVM khi = 0,15
Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)
73.02
Bảng 11: Kết quả thử nghiệm với SVM khi = 0,1
Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)
70.29
Bảng 12: Kết quả thử nghiệm với CNN
Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)
73.24
– Khi độ mịn về trọng số cảm xúc của cụm tính từ hoặc cụm
động từ càng thấp ( càng lớn) giữa các điểm của thang đo thì
các độ đo càng tăng Độ đo tốt nhất của bộ từ điển trong các
trường hợp thử nghiệm là ứng với = 0.2 (bảng 9) Như vậy,
nếu trọng số cảm xúc giữa các điểm của thang đo không chênh
lệch nhiều sẽ làm giảm khả năng phân loại cảm xúc của
phương pháp thử nghiệm SVM
– Độ đúng (Accuracy) đạt được với phương pháp SVM tốt nhất đạt 74.83% ở trường hợp = 0.2 (bảng 9) là một kết quả khá tốt Điều này cho thấy từ điển xây dựng bằng phương pháp bài báo đề xuất có chất lượng khá cao đối với phương pháp học máy SVM
– Độ chính xác (Precision) của lớp khen trong cả ba trường hợp thử nghiệm với phương pháp SVM đều tốt hơn hai lớp còn lại Độ chính xác chênh lệch giữa các lớp cảm xúc còn lớn Trong cả ba trường hợp, độ đo của lớp trung tính là rất thấp Điều này có thế nó, từ điển chưa có hiệu quả với trường hợp các ý kiến là chưa thật rõ ràng
– Độ đo truy hồi (Recall) chỉ tốt trong trường hợp từ điển xây dựng với = 0.2 (bảng 9) Hai trường hợp còn lại cho kết quả không được tốt (bảng 10 và bảng 11)
– Phương pháp học sâu thu được kết quả (bảng 12) tương đương phương pháp SVM ở trường hợp = 0.15 (bảng 10) Đây là phương pháp không phụ thuộc từ điển cảm xúc, nhưng cần một kho ngữ liệu dùng cho huấn luyện phong phú Vì vậy, với một kho ngữ liệu chưa thật sự phong phú có thể là nguyên nhân phương pháp chưa thể hiện hết khả năng
V KẾTLUẬNVÀHƯỚNGPHÁTTRIỂN Bài báo đã giới thiệu một phương pháp tính toán trọng số cảm xúc cho bộ từ điển cảm xúc tiếng Việt trong phạm vi một miền xác định là lĩnh vực đánh giá xe ô tô Việc phân biệt trị cảm xúc giữa từ loại tính từ và động từ đã cải thiện được hiệu năng phân loại ý kiến so với việc không phân biệt từ loại Do phương pháp tính trọng số cảm xúc dựa trên thông tin tương hỗ nên việc có được kho ngữ liệu phong phú cũng có thể nâng cao chất lượng cho từ điển Bên cạnh đó, việc thử nghiệm phương pháp xây dựng từ điển bài báo đã đề xuất cho các miền dữ liệu khác cũng sẽ được quan tâm nghiên cứu
TÀILIỆUTHAMKHẢO
[1] Nguyễn Tài Cẩn, “Ngữ pháp tiếng Việt”, Đại học Quốc gia Hà Nội, Hà Nội, 1996
[2] Nguyen Ngoc Duy, “Xây dựng từ điển cảm xúc tiếng Việt theo chủ đề”,
Kỷ yếu hội thảo quốc gia về Điện tử, Truyền thông và Công nghệ Thông tin, 2017, pages 89-94
[3] Nguyễn Ngọc Duy, Phan Thị Tươi, “Tóm tắt văn bản trên cơ sở phân loại
ý kiến độc giả của báo mạng tiếng Việt”, Tạp chí Phát triển Khoa học và Công nghệ, Đại học Quốc gia Thành phố Hồ Chí Minh, K5, 19, pp
53-61, 2016
[4] Erik Cambria, Daniel Olsher, Dheeraj Rajagopal, “SenticNet 3: a common and common-sense knowledge base for cognition-driven sentiment analysis”, Proceedings of the 28th AAAI Conference on Artificial Intelligence, pp 1515-1521, 2014
[5] Peter D Turney, “Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews”, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, USA, pp 417-424, 2002
[6] Zhen Zhang and Lirong Qiu, “A Sentiment Calculation Method Based on Tibetan Semantic Relations”, International Journal of Database Theory and Application Vol 9, No 9, pp 149-156, 2016
[7] Bouma, Gerlof, “Normalized Pointwise Mutual Information in Collocation Extraction”, Proceedings of the Biennial GSCL Conference,
pp 31-40, 2009
[8] Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of Verb Phrases for Vietnamese”, Proceedings of the Conference on Computational Linguistics and Speech Processing ROCLING, pp
204-213, 2016
Trang 6[9] Kenneth Ward Church, Patrick Hanks – Word association norms, mutual
information, and lexicography, Journal Computational Linguistics 16 (1)
(1990) 22-29
[10] Yoon Kim, “Convolutional neural networks for sentence classification”,
in Proceedings of the 2014 Conference on Empirical Methods in
Natural Language Processing, EMNLP, 2014, pages 1746-1751
[11] Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of
Adjective Phrases for Vietnamese”, The 10th International Workshop,
MIWAI, Chiang Mai, Thailand, pp 288-296, 2016
[12] Ashequl Qadir, “Detecting oipnion sentences specific to product features
in customer reviews using typed dependency relations”, Events in
Emerging Text Types (eETTs) - Borovets, Bulgaria, University of
Wolverhampton, UK, pp 38–43, 2009
[13] Stefano Baccianella, Andrea Esuli, Fabrizio Sebastiani, “SentiWordNet
3.0: An Enhanced Lexical Resource for Sentiment Analysis and
Opinion Mining”, in Proceedings of the International Conference on
Language Resources and Evaluation, 2010, pages 17-23
[14] Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, “Domain
Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text”,
Proceedings of the 8th International Workshop on Multi-disciplinary Trends in Artificial Intelligence, pp 136-148, 2014
[15] Sotiris Kotsiantis, Dimitris Kanellopoulos, and Panayiotis Pintelas,
“Handling imbalanced datasets: A review, GESTS International Transactions on Computer Science and Engineering Vol 30, No 1, pp 25-36, 2006
[16] Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen, Minh Le Nguyen, “From Treebank Conversion to Automatic Dependency Parsing for Vietnamese”, International Conference on Application of Natural Language to Information Systems, pp 196-207,
2014
[17] Yoon Kim, “Convolutional neural networks for sentence classification”,
in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pages 1746-1751 [18] Xin Rong, “word2vec parameter learning explained”, arXiv preprint arXiv:1411.2738, 2014