1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề

6 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 790,88 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài báo đề xuất phương pháp cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh giá xe ô tô. Bài báo có đánh giá kết quả của phương pháp đề xuất bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang báo mạng tiếng Việt với phương pháp học máy Support Vector Machine, và đối sánh kết quả với phương pháp học sâu – Deep learning – không dựa vào từ điển cảm xúc. Mời các bạn cùng tham khảo!

Trang 1

Một Cải Tiến Từ Điển Cảm Xúc Tiếng Việt

Theo Chủ Đề

Nguyễn Ngọc Duy, Lê Minh Hóa Khoa Công nghệ Thông tin II, Học Viện Công Nghệ Bưu Chính Viễn Thông Email:duynn, hoasac@ptithcm.edu.vn

Abstract —Môi trường internet mang lại nguồn tài nguyên phong

phú là các ý kiến về các vấn đề xã hội cũng như đánh giá sản

phẩm của người dùng Vấn đề khai thác cảm xúc của các cá

nhân, thăm dò ý kiến cộng đồng về những vấn đề nổi bật trong

cuộc sống, các sản phẩm trong kinh doanh từ nguồn tài nguyên

này rất được chú trọng Cảm xúc thường được thể hiện rất tinh

tế liên quan đến ngôn ngữ và văn hóa Để khai thác nguồn tài

nguyên này ở khía cạnh cảm xúc thì từ điển cảm xúc là một

thành phần cơ bản quan trọng Bài báo này đề xuất phương pháp

cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ

tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc

trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh

giá xe ô tô Bài báo có đánh giá kết quả của phương pháp đề xuất

bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang

báo mạng tiếng Việt với phương pháp học máy Support Vector

Machine, và đối sánh kết quả với phương pháp học sâu – Deep

learning – không dựa vào từ điển cảm xúc

Keywords- Từ điển, ý kiến, cảm xúc, từ điển cảm xúc, phân loại

cảm xúc, phân tích cảm xúc

I GIỚITHIỆU Ngày nay internet đã trở nên rất phổ biến ở Việt Nam cũng

như trên thế giới Thông tin trên internet gia tăng rất nhanh

Trong môi trường này, mọi người có thể thể hiện suy nghĩ về

mọi vấn đề trong cuộc sống như văn hóa, kinh tế mà không

bị ràng buộc nào về chuẩn mực ngôn ngữ Mỗi ý kiến như vậy

ngoài ý nghĩ thông tin còn chứa cả cảm xúc của người viết

Đây là nguồn tài nguyên rất giá trị Vì vậy nhu cầu khai thác

nguồn tài nguyên này là rất lớn Khi phân tích cảm xúc, vấn đề

quan trọng là nhận diện các thực thể cảm xúc, xác định mức độ

cảm xúc mà nó thể hiện lên văn bản Đã có nhiều bộ từ điển

cảm xúc được thực hiện bằng nhiều phương pháp xác định

trọng số cảm xúc đã được đề xuất Là một ngôn ngữ phổ biến,

tiếng Anh đã có những bộ từ điển cảm xúc tốt như

SentiWordNet [13], SenticNet [4] Vì vậy, tiếng Anh đã có

nhiều công trình nghiên cứu về phân tích cảm xúc có chất

lượng cao

Với tiếng Việt, việc nghiên cứu xây dựng từ điển cảm xúc

còn đang ở giai đoạn ban đầu Các công trình đã được giới

thiệu như [8], [11], [14], hoặc bộ từ điển được biết đến khá

rộng rãi VietSentiWordNet, được xây dựng trên cơ sở chuyển

ngữ từ các bộ từ điển SentiWordNet tiếng Anh Nhiều phương

pháp chọn mục từ tiếng Việt được xem là phù hợp với một từ

tiếng Anh đã được đề xuất Tuy vậy, điều này vẫn còn nhiều

hạn chế, dẫn đến hạn chế khả năng nhận diện cảm xúc ở các văn bản tiếng Việt Do đó, các bài toán liên quan đến phân tích cảm xúc tiếng Việt cũng sẽ bị hạn chế Vì thế, nhu cầu về một

bộ từ điển cảm xúc tiếng Việt xây dựng dựa trên đặc trưng ngôn ngữ tiếng Việt là rất lớn Bài báo này đề xuất cải tiến phương pháp xác định trọng số cảm xúc cho các mục từ tiếng Việt dùng trong lĩnh vực hẹp là các văn bản tiếng Việt đánh giá

xe ô tô đã được đề xuất ở công trình [2] Để đánh giá sự hiệu quả của phương pháp đề xuất, bài sẽ thử nghiệm phân loại cảm xúc bằng phương pháp học máy Support Vector Machine – SVM dựa trên từ điển cảm xúc được xây dựng bằng phương pháp này Để có cơ sở so sánh, bài báo cũng thử nghiệm phân loại cảm xúc bằng phương pháp học sâu (Deep Learning) không dựa trên từ điển cảm xúc

Để đánh giá sự hiệu quả của từ điển đề xuất, bài báo sẽ dùng phương pháp học máy Support Vector Machine – SVM

và phương pháp học sâu (Deep Learning)

Mô hình học sâu đã được biết đến từ lâu khi đã mang lại cho các lĩnh vực xử lý ảnh và xử lý tín hiệu những kết quả rất tốt Đối với lĩnh vực xử lý ngôn ngữ tự nhiên thì học sâu chỉ mới được quan tâm trong thời gian gần đây Yoon Kim [17] tiên phong ứng dụng học sâu vào lĩnh vực xử lý ngôn ngữ tự nhiên với mô hình mạng nơron tích chập (Convolution Neural Network) dùng cho phân loại cảm xúc như ở hình 1 Mô hình chia thành các tầng độc lập Tầng Word Embedding là ma trận trọng số của của các từ trong kho ngữ liệu

Ma trận này được xây dựng trên cơ sở thống kê về từ vựng của kho ngữ liệu [18], từ đó xác định mối tương quan giữa các

từ có trong kho ngữ liệu Phương pháp này đòi hỏi kho ngữ liệu thật phong phú để có thể biểu diễn được hết các từ trong một ngôn ngữ

Word Embedding Layer

Convolutional Layer Pooling Layer Fully connected layer

Hình 1: Mô hình Convolutional Neural Network cơ bản

Trang 2

II CÔNGTRÌNHLIÊNQUAN

Do từ điển cảm xúc có ý nghĩa rất lớn đối với bài toán phân

tích cảm xúc để khai thác nguồn nguyên ý kiến trên mạng

internet Đã có rất nhiều phương pháp xây dựng từ điển cảm

xúc được giới thiệu Tiếng Anh là ngôn ngữ phổ biến nên cũng

là ngôn ngữ có nhiều bộ từ điển được biết đến nhiều nhất Các

ngôn ngữ ít phổ biến hơn cũng được các nhà khoa học quan

tâm xây dựng bộ từ điển cảm xúc cho ngôn ngữ mình vì sự cần

thiết của nó

Bộ từ điển SentiWordNet [13] là bộ từ điển cảm xúc tiếng

Anh được sử dụng rất rộng rãi Stefano Baccianella và các

cộng sự dựa trên quan hệ ngữ nghĩa của từ điển WordNet để

tính toán ra giá trị cảm xúc cho các mục từ SentiWordNet có

gần 120 ngàn mục từ được gán trị cảm xúc Bên cạnh

SentiWordNet, một bộ từ điển cảm xúc khác cho tiếng Anh

cũng được biết đến rộng rãi là SenticNet [4] do Erik Cambria

và các cộng sự xây dựng SenticNet hiện có khoảng 50 ngàn

mục từ được gán trị cảm xúc Điểm chung của các bộ từ điển

cảm xúc này là có quá trình phát triển lâu dài, được xây dựng

dựa trên kho ngữ liệu phong phú và một bộ từ điển chất lượng

về quan hệ ngữ nghĩa đặc trưng cho tiếng Anh là WordNet

Những ngôn ngữ ít phổ biến như tiếng Tây Tạng [6], tiếng

Việt [8, 11, 14] cũng có các công trình xây dựng bộ từ điển

cảm xúc Các bộ từ điển này thường lấy một bộ từ điển cảm

xúc phổ biến của tiếng Anh như SentiWordNet để chuyển ngữ

kết hợp với các phương pháp như dựa trên thông tin tương hỗ

[6], tính toán mờ [8] nhằm tăng độ phù hợp với đặc trưng của

ngôn ngữ bản xứ

Vấn đế phức tạp khi dùng phương pháp chuyển ngữ là có

nhiều mục từ tiếng bản xứ ứng với một mục từ tiếng Anh Các

công trình trên đã phải đề xuất nhiều giải pháp để chọn mục từ

tiếng bản xứ được xem là phù hợp nhất với một mục từ tiếng

Anh Tuy vậy, điều này rõ ràng vẫn sẽ có những hạn chế khả

năng nhận diện cảm xúc ở các văn bản tiếng bản xứ

III PHƯƠNGPHÁPTIẾPCẬN

Mô hình tính trọng số cảm xúc của một từ hoặc một cụm từ

ở bài báo không thay đổi so với [2] như hình 2 Kho ngữ liệu

cảm xúc của bài báo này là những văn bản ý kiến đánh giá xe ô

tô tiếng Việt Các câu chứa thông tin chủ quan (cảm xúc) của

người viết sẽ được chọn vào kho ngữ liệu Tập từ hạt giống là

những từ đơn hoặc từ ghép thường dùng để khen hoặc chê một

thành phần (khía cạnh) hoặc tổng thể chiếc xe Các từ hạt giống

được gán trọng số cảm xúc -1 hoặc 1 tương ứng với ý khen

hoặc chê Các mục từ trong Từ điển tiếng Việt được tính trị

cảm xúc theo tập từ hạt giống

3.1 Kho ngữ liệu cảm xúc

Kho ngữ liệu là tập các văn bản đã được gán nhãn cảm xúc

Quá trình thu thập dữ liệu sẽ cần chi phí lớn về thời gian và

công sức nếu thực hiện bằng phương pháp thủ công Tuy

nhiên, để đảm bảo chất lượng cho kho ngữ liệu bài báo vẫn xây

dựng kho ngữ liệu bằng phương pháp này

Kho ngữ liệu của bài báo là tập hợp gần 2500 văn bản với

hơn 4000 câu (xem chi tiết ở bảng 5) được xác định cảm xúc

theo phương pháp thủ công kết hợp với các công cụ đã có sẵn trong giai đoạn phân đoạn từ và gán nhãn từ loại [16]

Quá trình tạo kho ngữ liệu được thực hiện như sau:

Bước 1: Thu thập dữ liệu là các ý kiến đánh giá (review) trên các trang báo trực tuyến có chuyên mục đánh giá xe ô tô như VNExpress.net, danhgiaxe.com, otosaigon.com … để tạo tập dữ liệu thô

Bước 2: Tách câu Loại bỏ các câu không có dấu tiếng Việt Gán nhãn cảm xúc cho câu

Bước 3: Loại bỏ các câu chứa thông tin mang tính khách quan, không chứa cảm xúc

Bước 4: Phân đoạn từ và gán nhãn từ loại

3.2 Phương pháp tính trọng số cảm xúc 3.2.1 Xây dựng tập từ cảm xúc cơ sở Đối tượng xe ô tô có rất nhiều đặc tính kỹ thuật Các ý kiến đánh giá có thể chỉ tập trung vào một hoặc một vài khía cạnh đặc tính kỹ thuật Các khía cạnh kỹ thuật của xe ô tô thường được xem xét đánh giá, so sánh là: tổng thể, động cơ, nội và ngoại thất, an toàn, giá cả, v.v… Các mục từ thường được dùng trong đánh giá, khen/chê ở mỗi khía cạnh sẽ được chọn làm từ hạt giống Ví dụ:

– Giá: đắt/rẻ, chát/ngon … – Động cơ: mạnh/yếu, bốc/ì … – Nội thất: sang/tệ, chắc chắn/ọp ẹp … – Tổng thể: hầm hố/ẻo lả …

Mỗi từ/cụm từ được gán trọng số cảm xúc là 1 hoặc -1 tương ứng với ý kiến khen hoặc chê Các từ hạt giống được chọn gồm cả từ đơn (nhạy, độc, đẹp …) và từ phức (hầm hố,

ọp ẹp …)

3.2.2 Sơ lược đặc trưng về từ và cụm từ trong ngôn ngữ tiếng Việt

Theo tác giả Nguyễn Tài Cẩn [1], trong tiếng Việt, khả năng kết hợp của các từ có những đặc trưng rất quan trọng: Phó từ đứng trước động từ, tính từ: Thường bổ sung một

số ý nghĩa liên quan đến hành động, trạng thái, đặc điểm, tính chất nêu ở động từ hoặc tính từ như: quan hệ thời gian, mức độ,

sự tiếp diễn tương tự, sự phủ định, sự cầu khiến Ví dụ: đã, rất, cũng, chưa

Phó từ đứng sau động từ, tính từ: Thường bổ sung ý nghĩa

về đến hành động, trạng thái, đặc điểm, tính chất của động từ hoặc tính từ về mức độ, khả năng, kết quả và hướng Ví dụ: lắm, quá

Hình 2: Mô hình tính trọng số cảm xúc

Tính trọng số cảm xúc

Từ điển cảm xúc

Từ điển tiếng Việt

Tập từ hạt giống Kho ngữ liệu

cảm xúc

Trang 3

)) 1 ( log 1

) 1 ( log2 n

2

(1 log (1 (n 1) ))

Những phó từ thường gặp: đã, đang, cũng, sẽ, vẫn, còn,

đều, được, rất, thật, lắm, quá

Dựa vào các đặc trưng trên của tiếng Việt, bài báo sẽ tính

toán trọng số cảm xúc cho các từ ghép để mở rộng từ điển cảm

xúc Bài báo này chỉ tính trọng số cảm xúc cho các cụm từ gồm

một phó từ chỉ cấp độ kết hợp với một tính từ hoặc động từ

Các phó từ được chia thành các mức cao, khá, thấp, kém và

mức không khi ghép chung với tính từ và động từ Bảng 1 liệt

kê một số phó từ cùng cấp độ

Bảng 1: Một số phó từ cùng mức độ

vô cùng thật tương đối chả

Ví dụ: cực kỳ đẹp > thật đẹp > đẹp > khá đẹp > cũng đẹp >

không đẹp

Khi các phó từ đứng trước tính từ hoặc động từ sẽ làm tăng

mức độ cảm xúc của cụm tính từ hoặc cụm động từ tương ứng

Ngược lại sẽ làm giảm mức cảm xúc của cụm từ nếu chúng

đứng sau

Ví dụ: thật đẹp > đẹp thật

Trọng số cảm xúc của một từ, cụm từ thể hiện mức độ cảm

xúc mà người đọc cảm nhận Độ lớn, nhỏ về trọng cảm xúc của

các từ, cụm từ thể hiện mối tương quan giữa chúng về khả

năng giúp người đọc cảm nhận được ý kiến, cảm xúc người

viết thể hiện trong văn bản

Xét hai phát biểu như sau:

1 “Chiếc xe này rất bốc”

2 “Chiếc xe này rất đẹp”

Cụm động từ “rất bốc” ở câu 1 cho người đọc nhận định

rằng người viết có cảm xúc rất tích cực về chiếc xe, ở khía

cạnh vận hành của nó Với câu 2 thì cụm tính từ “rất đẹp” cho

chúng ta nhận định rằng người viết đánh giá rất cao phần thiết

kế ngoại hình của xe Tổng quan là rất khen chiếc xe Tuy

nhiên, có thể nói cụm động từ “rất bốc” và tính từ “rất đẹp”

có mức độ tác động về mặt cảm xúc đến người đọc là khác

nhau Câu 2 nhận xét về khía cạnh tĩnh của xe ô tô với cụm

tính từ “rất đẹp” Trong khi đó, câu 1 nhận xét về khía cạnh

động của xe với cụm động từ “rất bốc” Hiệu quả tác động về

cảm xúc của câu 1 với cụm động từ “rất bốc” đến người đọc sẽ

lớn hơn Tương tự, khi nói động cơ của xe là “rất tiết kiệm” sẽ

có hiệu quả cảm xúc hơn khen xe chạy “rất êm” Do đó, bài

báo sẽ chia thang độ cảm xúc của cụm động từ lớn hơn cụm

tính từ

Tính trọng số cảm xúc cho cụm tính từ

Bài báo này sử dụng công thức đề xuất của [2] để tính trọng

số cảm xúc T cho cụm tính từ có dạng như công thức (1)

T = (1)

Trong đó:

 n: cơ sở xác định độ chênh lệch cảm xúc giữa các cụm

từ

 n: là giá trị độ chia như trong bảng 2, n  [-2; 2]

 : hệ số độ mịn giữa các trọng số cảm xúc của các điểm chia trên thang, 0 <   < 0.25

 Hệ số  xác định dấu của trị cảm xúc,  =  1

 : độ chênh lệch trị cảm xúc giữa các các cụm từ so với từ hạt giống

Bảng 2: Thang độ của cụm tính từ

2 cực kỳ sang 1.5 sang cực kỳ

1 quá sang 0.5 sang quá

0 sang -1 khá sang -2 hơi sang không sang

Trị cảm xúc của cụm tính từ theo giá trị  như bảng 3 Bảng 3: Trọng số cảm xúc của từ ghép giữa phó từ và tính từ

 = 0.1  = 0.15  = 0.2

2 cực kỳ sang 1.263 1.379 1.485 1.5 sang cực kỳ 1.202 1.293 1.379

Tính trọng số cảm xúc cho cụm động từ Như đã đề cập ở phần trên, cụm động từ sẽ có trị cảm xúc lớn hơn cụm tính từ Bài báo đề xuất sẽ lớn hơn cụm tính từ 1 (một) thang độ so với cụm tính từ Trọng số cảm xúc T của cụm động từ được tính bởi công thức (2)

T = (2) Trị cảm xúc của cụm động từ theo giá trị  như bảng 4 Bảng 4: Trọng số cảm xúc của từ ghép giữa phó từ và động từ

 = 0.1  = 0.15  = 0.2

Trang 4

) , (

) , ( ) , (

2 1

2 1 2

w w pmi w

w

) ( ) (

)

&

( log ) ,

(

2 1 2 1 2 2 1

w p w p w w p w

w

PMI

)) , ( ( log ) , ( )

,

2

1

2 1

w w p w w p w

w

h

w

w

   

)

SO

1.5 bốc cực kỳ 1.322 1.459 1.585

3.2.3 Tính trọng số cảm xúc theo phương pháp thông tin

tương hỗ (PMI)

Từ hạt giống và các từ dẫn xuất, bài báo tiếp tục tính trọng

số cảm xúc của các từ khác trong từ điển tiếng Việt trên cơ sở

quan hệ tương hỗ thông tin Mối quan hệ này được xác định

theo thông tin tương hỗ từng điểm (pointwise mutual

information - PMI) [9] Phương pháp này giúp xác định độ phụ

thuộc qua lại giữa hai mục từ trong một tập ngữ liệu Các bước

tính như sau:

Bước 1: Tính PMI như công thức (2):

 p(w1), p(w2): xác suất của từ w1, w2 trong kho ngữ liệu,

 p(w1&w2): xác suất từ w1 và từ w2 cùng trong kho ngữ

liệu

Bước 2: Chuẩn hóa PMI [7] theo công thức (3) để có giá trị

npmi(w1;w2)  [-1;1]

Trong đó:

 là entropy của

cặp từ w1 và w2

 npmi(w1;w2) = 1 khi w1 và w2 xuất hiện cùng nhau,

 npmi(w1;w2) = -1 khi w1 và w2 không bao giờ xuất hiện

cùng nhau

Bước 3: Tính trọng số cảm xúc theo mô hình thông tin tương

hỗ theo công thức (4):

w+, w-: các từ hạt giống có trọng số cảm xúc dương và cảm

xúc âm

IV THỬNGHIỆM 4.1 Dữ liệu thử nghiệm

Dùng từ điển với trọng số cảm xúc được tính theo phương

pháp đề xuất của bài báo với số liệu trình bày trong bảng 5, bài

báo thử nghiệm phân loại cảm xúc cho tập dữ liệu văn bản ý kiến

đánh giá xe ô tô có số liệu như bảng 6 Số câu của các lớp ý kiến

“khen”, “chê” và “trung tính” tương đương nhau, độ chênh lệch

là không đáng kể

Bảng 5: Số liệu của từ điển đề xuất

Số từ được gán trọng số cảm xúc 1014 Bảng 6: Số liệu về kho ngữ liệu

Số câu đã tách thành câu đơn theo khía cạnh được gán nhãn dùng cho huấn luyện 4.413

Số câu được gán nhãn dùng cho thử

tính, chê)

4.2 Phương pháp thử nghiệm 4.2.1 Phương pháp học máy Support Vector Machine Các vector đặc trưng cảm xúc của câu dùng cho phương pháp này có số chiều là số khía cạnh của xe ô tô mà các nhà sản xuất thường dùng khi giới thiệu về xe, gọi là các khía cạnh chuẩn Các khía cạnh chuẩn cụ thể bài báo dùng làm các phần

tử tạo nên các vector trong thử nghiệm bằng phương pháp SVM: động cơ, giá bán, vận hành, an toàn, ngoại thất, nội thất, tiện nghi, kích thước, trọng lượng, tổng thể

4.2.2 Mô hình học sâu (deep learning) Bài báo thử nghiệm phân loại cảm xúc bằng mạng nơron tích chập (Convolution Neural Network – CNN) dùng thư viện TensorFlow Thông số cấu hình của CNN cho thử nghiệm trình bày ở bảng 7

Bảng 7: Các thông số cấu hình cho CNN

Hệ số L2 được chọn thủ công qua quá trình thử nghiệm

Ma trận ở tầng Word Embedding được xây dựng bằng công

cụ word2vec Thông số cấu hình công cụ word2vec được mô tả

ở bảng 8

Trang 5

Bảng 8: Thông số cấu hình công cụ word2vec

Kích thước vector từ (size) 300

Khoảng cách từ dự đoán lớn nhất (window) 10

Tần suất từ tối thiểu (min_count) 2

4.3 Kết quả thử nghiệm

Dùng công thức tính độ đúng (Accuracy), độ chính xác

(Precision) độ truy hồi (Recall) như trong [15] Kết quả thử

nghiệm đánh giá bộ từ điền với một số hệ số độ mịn , đối với

công thức (1), được trình bày ở bảng 9, bảng 10, bảng 11 Bảng

12 trình bày kết quả thử nghiệm của phương pháp học sâu

Bảng 9: Kết quả thử nghiệm với SVM khi  = 0,2

Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)

74.83

Bảng 10: Kết quả thử nghiệm với SVM khi  = 0,15

Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)

73.02

Bảng 11: Kết quả thử nghiệm với SVM khi  = 0,1

Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)

70.29

Bảng 12: Kết quả thử nghiệm với CNN

Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%)

73.24

– Khi độ mịn về trọng số cảm xúc của cụm tính từ hoặc cụm

động từ càng thấp ( càng lớn) giữa các điểm của thang đo thì

các độ đo càng tăng Độ đo tốt nhất của bộ từ điển trong các

trường hợp thử nghiệm là ứng với  = 0.2 (bảng 9) Như vậy,

nếu trọng số cảm xúc giữa các điểm của thang đo không chênh

lệch nhiều sẽ làm giảm khả năng phân loại cảm xúc của

phương pháp thử nghiệm SVM

– Độ đúng (Accuracy) đạt được với phương pháp SVM tốt nhất đạt 74.83% ở trường hợp  = 0.2 (bảng 9) là một kết quả khá tốt Điều này cho thấy từ điển xây dựng bằng phương pháp bài báo đề xuất có chất lượng khá cao đối với phương pháp học máy SVM

– Độ chính xác (Precision) của lớp khen trong cả ba trường hợp thử nghiệm với phương pháp SVM đều tốt hơn hai lớp còn lại Độ chính xác chênh lệch giữa các lớp cảm xúc còn lớn Trong cả ba trường hợp, độ đo của lớp trung tính là rất thấp Điều này có thế nó, từ điển chưa có hiệu quả với trường hợp các ý kiến là chưa thật rõ ràng

– Độ đo truy hồi (Recall) chỉ tốt trong trường hợp từ điển xây dựng với  = 0.2 (bảng 9) Hai trường hợp còn lại cho kết quả không được tốt (bảng 10 và bảng 11)

– Phương pháp học sâu thu được kết quả (bảng 12) tương đương phương pháp SVM ở trường hợp  = 0.15 (bảng 10) Đây là phương pháp không phụ thuộc từ điển cảm xúc, nhưng cần một kho ngữ liệu dùng cho huấn luyện phong phú Vì vậy, với một kho ngữ liệu chưa thật sự phong phú có thể là nguyên nhân phương pháp chưa thể hiện hết khả năng

V KẾTLUẬNVÀHƯỚNGPHÁTTRIỂN Bài báo đã giới thiệu một phương pháp tính toán trọng số cảm xúc cho bộ từ điển cảm xúc tiếng Việt trong phạm vi một miền xác định là lĩnh vực đánh giá xe ô tô Việc phân biệt trị cảm xúc giữa từ loại tính từ và động từ đã cải thiện được hiệu năng phân loại ý kiến so với việc không phân biệt từ loại Do phương pháp tính trọng số cảm xúc dựa trên thông tin tương hỗ nên việc có được kho ngữ liệu phong phú cũng có thể nâng cao chất lượng cho từ điển Bên cạnh đó, việc thử nghiệm phương pháp xây dựng từ điển bài báo đã đề xuất cho các miền dữ liệu khác cũng sẽ được quan tâm nghiên cứu

TÀILIỆUTHAMKHẢO

[1] Nguyễn Tài Cẩn, “Ngữ pháp tiếng Việt”, Đại học Quốc gia Hà Nội, Hà Nội, 1996

[2] Nguyen Ngoc Duy, “Xây dựng từ điển cảm xúc tiếng Việt theo chủ đề”,

Kỷ yếu hội thảo quốc gia về Điện tử, Truyền thông và Công nghệ Thông tin, 2017, pages 89-94

[3] Nguyễn Ngọc Duy, Phan Thị Tươi, “Tóm tắt văn bản trên cơ sở phân loại

ý kiến độc giả của báo mạng tiếng Việt”, Tạp chí Phát triển Khoa học và Công nghệ, Đại học Quốc gia Thành phố Hồ Chí Minh, K5, 19, pp

53-61, 2016

[4] Erik Cambria, Daniel Olsher, Dheeraj Rajagopal, “SenticNet 3: a common and common-sense knowledge base for cognition-driven sentiment analysis”, Proceedings of the 28th AAAI Conference on Artificial Intelligence, pp 1515-1521, 2014

[5] Peter D Turney, “Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews”, Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, USA, pp 417-424, 2002

[6] Zhen Zhang and Lirong Qiu, “A Sentiment Calculation Method Based on Tibetan Semantic Relations”, International Journal of Database Theory and Application Vol 9, No 9, pp 149-156, 2016

[7] Bouma, Gerlof, “Normalized Pointwise Mutual Information in Collocation Extraction”, Proceedings of the Biennial GSCL Conference,

pp 31-40, 2009

[8] Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of Verb Phrases for Vietnamese”, Proceedings of the Conference on Computational Linguistics and Speech Processing ROCLING, pp

204-213, 2016

Trang 6

[9] Kenneth Ward Church, Patrick Hanks – Word association norms, mutual

information, and lexicography, Journal Computational Linguistics 16 (1)

(1990) 22-29

[10] Yoon Kim, “Convolutional neural networks for sentence classification”,

in Proceedings of the 2014 Conference on Empirical Methods in

Natural Language Processing, EMNLP, 2014, pages 1746-1751

[11] Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of

Adjective Phrases for Vietnamese”, The 10th International Workshop,

MIWAI, Chiang Mai, Thailand, pp 288-296, 2016

[12] Ashequl Qadir, “Detecting oipnion sentences specific to product features

in customer reviews using typed dependency relations”, Events in

Emerging Text Types (eETTs) - Borovets, Bulgaria, University of

Wolverhampton, UK, pp 38–43, 2009

[13] Stefano Baccianella, Andrea Esuli, Fabrizio Sebastiani, “SentiWordNet

3.0: An Enhanced Lexical Resource for Sentiment Analysis and

Opinion Mining”, in Proceedings of the International Conference on

Language Resources and Evaluation, 2010, pages 17-23

[14] Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, “Domain

Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text”,

Proceedings of the 8th International Workshop on Multi-disciplinary Trends in Artificial Intelligence, pp 136-148, 2014

[15] Sotiris Kotsiantis, Dimitris Kanellopoulos, and Panayiotis Pintelas,

“Handling imbalanced datasets: A review, GESTS International Transactions on Computer Science and Engineering Vol 30, No 1, pp 25-36, 2006

[16] Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen, Minh Le Nguyen, “From Treebank Conversion to Automatic Dependency Parsing for Vietnamese”, International Conference on Application of Natural Language to Information Systems, pp 196-207,

2014

[17] Yoon Kim, “Convolutional neural networks for sentence classification”,

in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, EMNLP, 2014, pages 1746-1751 [18] Xin Rong, “word2vec parameter learning explained”, arXiv preprint arXiv:1411.2738, 2014

Ngày đăng: 27/04/2022, 10:29

HÌNH ẢNH LIÊN QUAN

Mô hình học sâu đã được biết đến từ lâu khi đã mang lại cho các lĩnh vực xử lý ảnh và xử lý tín hiệu những kết quả rất  tốt - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
h ình học sâu đã được biết đến từ lâu khi đã mang lại cho các lĩnh vực xử lý ảnh và xử lý tín hiệu những kết quả rất tốt (Trang 1)
Mô hình tính trọng số cảm xúc của một từ hoặc một cụm từ ở bài báo không thay đổi so với [2] như hình 2 - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
h ình tính trọng số cảm xúc của một từ hoặc một cụm từ ở bài báo không thay đổi so với [2] như hình 2 (Trang 2)
Bảng 2: Thang độ của cụm tính từ. - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
Bảng 2 Thang độ của cụm tính từ (Trang 3)
Trị cảm xúc của cụm tính từ theo giá trị  như bảng 3. Bảng 3 : Trọng số cảm xúc của từ ghép giữa phó từ và tính từ  - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
r ị cảm xúc của cụm tính từ theo giá trị  như bảng 3. Bảng 3 : Trọng số cảm xúc của từ ghép giữa phó từ và tính từ (Trang 3)
Bảng 1: Một số phó từ cùng mức độ - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
Bảng 1 Một số phó từ cùng mức độ (Trang 3)
Bước 3: Tính trọng số cảm xúc theo mô hình thông tin tương hỗ theo công thức (4):  - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
c 3: Tính trọng số cảm xúc theo mô hình thông tin tương hỗ theo công thức (4): (Trang 4)
Bảng 5: Số liệu của từ điển đề xuất Thành phần  Số lượng  - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
Bảng 5 Số liệu của từ điển đề xuất Thành phần Số lượng (Trang 4)
Bảng 8: Thông số cấu hình công cụ word2vec - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
Bảng 8 Thông số cấu hình công cụ word2vec (Trang 5)
Bảng 9: Kết quả thử nghiệm với SVM khi = 0,2 Lớp Độ chính xác   (%) Độ truy hồi  (%)  Độ đúng  (%)  - Một cải tiến từ điển cảm xúc Tiếng Việt theo chủ đề
Bảng 9 Kết quả thử nghiệm với SVM khi = 0,2 Lớp Độ chính xác (%) Độ truy hồi (%) Độ đúng (%) (Trang 5)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w