1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt ý kiến trên cơ sở phân loại cảm xúc

104 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 104
Dung lượng 9,77 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để thực hiện đề tài cho đối tượng đã nêu trên, phù hợp với phạm vi nghiên cứu, luận văn sẽ thực hiện các bước: Xây dựng tập dữ liệu về cảm xúc cho tiếng Việt bao gồm từ điển cảm xúc đơn

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA -

NGUYỄN NGỌC DUY

TÓM TẮT Ý KIẾN TRÊN CƠ SỞ PHÂN LOẠI CẢM XÚC

Chuyên ngành: Khoa Học Máy Tính

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 12 năm 2014

Trang 2

CÔNG TRÌNH NÀY ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG-HCM

Cán bộ hướng dẫn khoa học: GS.TS Phan Thị Tươi

Cán bộ chấm nhận xét 1: PGS.TS Quản Thành Thơ………

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2: PGS.TS Đỗ Phúc ………

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 05 tháng 01 năm 2015 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1 Chủ tịch: GS.TS Cao Hoàng Trụ ……

2 Thư ký: TS Lê Thanh Vân …………

3 Phản biện 1: PGS.TS Quản Thành Thơ

4 Phản biện 2: PGS.TS Đỗ Phúc .……

5 Ủy viên: TS Võ Thị Ngọc Châu ……

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CH Ủ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KT Máy tính

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc Lập – Tự Do – Hạnh Phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Ngọc Duy MSHV: 11078001

Ngày, tháng, năm sinh: 02/04/1975 Nơi sinh: Tp Hồ Chí Minh

1 Tên đề tài:

TÓM TẮT Ý KIẾN TRÊN CƠ SỞ PHÂN LOẠI CẢM XÚC

2 NHIỆM VỤ VÀ NỘI DUNG:

Nghiên cứu các phương pháp xác định cảm xúc (sentiment) ở các mức: từ, cụm từ, câu, văn bản

‒ Nghiên cứu các phương pháp phân loại cảm xúc ở các mức

‒ Nghiên cứu các phương pháp tóm tắt văn bản truyền thống

‒ Đề xuất phương pháp tóm tắt ý kiến trên cơ sở các nét cảm xúc

‒ Áp dụng tóm tắt ý kiến tiếng Việt trên mạng xã hội trên cơ sở phân loại cảm xúc ở mức văn bản

3 NGÀY GIAO NHIỆM VỤ: 07/07/2014

4 NGÀY HOÀN THÀNH NHIỆM VỤ: 08/12/2014

5 HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: GS.TS Phan Thị Tươi

Trang 4

LỜI CẢM ƠN

Tôi xin gởi lời cảm ơn chân thành và sâu sắc nhất đến GS.TS Phan Thị Tươi Cảm ơn Giáo sư đã tận tình chỉ bảo, hướng dẫn, định hướng cho tôi trong suốt thời gian thực hiện Luận văn Cảm ơn Giáo sư đã chia sẻ cho tôi những kinh nghiệm quý báu trong nghiên cứu khoa học Những điều đó đã giúp tôi rất nhiều trong việc thực hiện Luận văn cũng như trong công tác giảng dạy và nghiên cứu của tôi sau này Xin chân thành cảm ơn đến quý Thầy Cô trong Khoa Khoa học và Kỹ Thuật Máy Tính đã truyền đạt cho tôi những kiến thức quý báu trong suốt quá trình học tập tại trường

Tôi cũng xin cảm ơn gia đình đã động viên và tạo mọi điều kiện tốt nhất để tôi

có thể theo đuổi việc học tập và nghiên cứu Con xin cảm ơn Cha Mẹ, nhờ công ơn trời biển của Người mà con mới có được thành quả như ngày hôm nay Con xin hứa

sẽ tiếp tục cố gắng phấn đấu để vươn cao hơn nữa Xin cám ơn từng thành viên trong gia đình tôi, vợ và các con, các anh chị em đã giúp đỡ, động viên tôi rất nhiều trong suốt thời gian vừa công tác vừa học tập nghiên cứu Xin cám ơn các đồng nghiệp đã hỗ trợ tôi trong thời gian qua vì học tập nghiên cứu có những lúc chưa hoàn thành nhiệm vụ trong công việc

Nguyễn Ngọc Duy

Trang 5

Trong thời đại ngày nay, thông tin về mọi lĩnh vực của cuộc sống là tràn ngập, đặc biệt trong môi trường mạng internet Đây là nguồn tài nguyên khổng lồ hữu ích cho mọi lĩnh vực của cuộc sống Để khai thác được nguồn tài nguyên này thì phương thức khai thác thủ công là không hiệu quả vì chi phí về thời gian là quá lớn

Vì vậy, nếu có một hệ thống tự động trong quá trình thu thập thông tin từ mạng internet và xử lý chúng theo hướng phân loại ý kiến trên cơ sở phân loại cảm xúc thì

sẽ hết sức hữu ích và hiệu quả về nhiều mặt

Để xây dựng thành công một hệ thống như vậy đòi hỏi một quá trình nghiên cứu lâu dài Đã có nhiều công trình nghiên cứu về lĩnh vực này cho tiếng Anh với những kết quả rất khả quan Tuy nhiên các nghiên cứu tương tự đối với tiếng Việt còn hạn chế

Phân tích cảm xúc thể hiện trong các ý kiến không giống như phân tích nội dung, ngữ nghĩa với văn bản tiêu chuẩn Ý kiến mang tính cảm xúc có nhiều mức

độ Ngoài hai mức tương tự như hai cực của cảm xúc (ủng hộ - tích cực, phản đối – tiêu cực), còn có những ý kiến thể hiện cảm xúc ở những mức độ nhẹ hơn mức tích cực hoặc tiêu cực, và cũng có thể là mức trung hòa

Nội dung luận văn sẽ tập trung nghiên cứu xây dựng mô hình phân loại cảm xúc cho tiếng Việt và mô hình tóm tắt Mô hình phân loại cảm xúc sẽ xây dựng trên đối tượng là các văn bản không tiêu chuẩn, là nguồn thông tin thu thập trên các tờ báo mạng cùng với ý kiến của các đọc giả Các ý kiến sẽ được phân lớp theo ba mức positive, negative và neutral dựa trên bộ từ điển cảm xúc tiếng Việt đơn giản

Trang 6

ABSTRACT

An accurate information helps us to decide most diversiflied problems of life For example, the manufaturers want to know customers, which have used or have not used a product kind of some products, how they evaluate their product Goverment plans to issue decree, so they should survey to know, how people responed it

Nowaday, people can review all information of life from many information sources, especial from internet Exploiting information resource by manual extraction is taken long time So, we need to have an automatic system to summary huge information from internet and process it in the way of emotion classification Then, people can get big benefit and effect from result of this system

Building successful of this system requires a long process of research There are many kinds of this system for English with effective result, but for Vietnamese are rare

The opinion classification is different from classification of text content in standard from Emotion has some levels It has not only two polarity points as positive or negative, but also has agreement or disagreement scores betwen positive and negative or neutral

The thesis focuses on building the model, that summarises sentiment documents, for Vietnamese Thesis’s model processes documents, what are not in standard form Information on online newspaper has been collected with reader’s opinions

Trang 7

LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác

Ngày 08 tháng 12 năm 2014

Nguyễn Ngọc Duy

Trang 8

MỤC LỤC

Chương 1: GIỚI THIỆU 1

1.1 Lý do chọn đề tài 1

1.2 Mục đích nghiên cứu 1

1.3 Đối tượng và phạm vi nghiên cứu 1

1.4 Phương pháp nghiên cứu 2

Chương 2: TỔNG QUAN 3

2.1 Các công trình liên quan 3

2.2 Mô hình tổng quan 4

Chương 3: CƠ SỞ LÝ THUYẾT 6

3.1 Giới thiệu 6

3.2 Tổng quan 6

3.3 Tóm tắt văn bản 7

3.4 Tóm tắt ý kiến 22

3.5 Tập ngữ liệu 24

3.6 Tóm tắt ý kiến trên cơ sở phân loại cảm xúc 27

3.7 Phương pháp thực hiện đề tài 32

Chương 4: MÔ HÌNH HỆ THỐNG VÀ PHƯƠNG PHÁP THỰC HIỆN 34

4.1 Mô hình tóm tắt ý kiến dựa trên phân loại cảm xúc 34

4.2 Phương pháp thực hiện 37

Chương 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ 49

5.1 Dữ liệu thử nghiệm 49

5.2 Kết quả và đánh giá 53

A Kết quả thử nghiệm 53

B Đánh giá 64

Chương 6: KẾT LUẬN 77

DANH MỤC TÀI LIỆU THAM KHẢO 78

PHỤ LỤC 80

Trang 9

Chương 1: GIỚI THIỆU

1.1 Lý do chọn đề tài

"Phần lớn người khác nghĩ gì" luôn là một phần quan trọng của thông tin đối với hầu hết chúng ta trong quá trình ra quyết định đối với mọi vấn đề trong cuộc sống Chuẩn bị đi mua một món hàng, chúng ta muốn biết những người đã sử dụng đánh giá thế nào về chức năng hay giá trị sử dụng của loại sản phẩm này? nên chọn thương hiệu nào trong số những thương hiệu hiện thời cho loại sản phẩm này? Nhà sản xuất chuẩn bị kế hoạch sản xuất một mặt hàng muốn biết người tiêu dùng là những người đã và cả những người chưa sử dụng, đánh giá thế nào về dòng sản phẩm này? Chính phủ dự định ban hành một nghị định mới muốn biết nhân dân ủng

hộ thế nào đối với nghị định mới này sau khi đưa ra bản dự thảo?

Để có được một số liệu đủ tin cậy trả lời cho những câu hỏi như trên đòi hỏi chi phí về thời gian và tài chính rất lớn cho quá trình thu thập và xử lý thông tin theo phương pháp thủ công Trong thời đại ngày nay, thông tin về mọi lĩnh vực của cuộc sống là vô cùng phong phú, đặc biệt trong môi trường mạng internet Vì vậy, nếu có một hệ thống tự động thu thập thông tin từ mạng internet và xử lý chúng theo hướng phân loại ý kiến trên cơ sở phân loại cảm xúc thì sẽ hiệu quả về nhiều mặt Muốn xây dựng thành công một hệ thống như vậy đòi hỏi một quá trình nghiên cứu lâu dài Trên thế giới, một số công trình nghiên cứu về lĩnh vực này cho tiếng Anh đã thu được những kết quả rất khả quan Đối với tiếng Việt thì những công trình nghiên cứu về lĩnh vực này còn hạn chế Vì thế tác giả khi thực hiện đề tài gặp nhiều khó khăn và thách thức

1.2 Mục đích nghiên cứu

Xây dựng mô hình tóm tắt các ý kiến trên cơ sở phân loại cảm xúc cho các trang báo có ghi nhận ý kiến đọc giả và các trang mạng xã hội tiếng Việt Để thực hiện mục tiêu của đề tài, cần thực hiện các bước:

– Nghiên cứu các lý thuyết, giải thuật tóm tắt và phân loại cảm xúc

– Nghiên cứu những đặc tính cơ bản của văn phạm tiếng Việt

– Xây dựng mô hình tóm tắt ý kiến trên cơ sở phân loại cảm xúc cho tiếng Việt

– Áp dụng cho việc tóm tắt ý kiến trên cơ sở phân loại cảm xúc cho các

trang báo có ghi nhận ý kiến đọc giả và các trang mạng xã hội tiếng Việt

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: tóm tắt các ý kiến trên cơ sở phân loại cảm xúc trong ngôn ngữ tiếng Việt

Trang 10

Phạm vi nghiên cứu: xây dựng mô hình tóm tắt ý kiến trên cơ sở phân loại cảm xúc cho một chủ đề cụ thể trong tiếng Việt trên các trang báo có ghi nhận ý kiến đọc giả hay các trang mạng xã hội

Để thực hiện đề tài cho đối tượng đã nêu trên, phù hợp với phạm vi nghiên cứu, luận văn sẽ thực hiện các bước:

Xây dựng tập dữ liệu về cảm xúc cho tiếng Việt bao gồm từ điển cảm xúc đơn giản, kho ngữ liệu đã được phân loại về cảm xúc (đơn giản)

Xây dựng mô hình tóm tắt ý kiến trên cơ sở phân loại cảm xúc

1.4 Phương pháp nghiên cứu

Để thực hiện đề tài luận văn, cần nghiên cứu :

– Các cơ sở lý thuyết về xử lý ngôn ngữ tự nhiên cho tiếng Việt, tóm tắt văn bản và lý thuyết về phân loại cảm xúc

– Đề xuất phương pháp hiện thực đề tài trên cơ sở áp dụng và phát triển các phương pháp hiện đại và những đặc tính riêng biệt của tiếng Việt

Trang 11

và xã hội

Được hỗ trợ bởi sự phát triển nhanh chóng của Internet và các công nghệ Web 2.0, sự phát triển mạnh mẽ của mạng xã hội, diễn đàn, "blog" như là một hiện tượng của thế giới Việc trao đổi quan điểm và tranh luận về vấn đề liên quan đến cuộc sống đã đạt đến quy mô toàn cầu Người ta thể hiện và tìm kiếm ý kiến trên các blog, diễn đàn, trong đánh giá và bình luận - dẫn đến việc tạo ra số lượng lớn dữ liệu mà không thể xử lý bằng phương pháp thủ công Việc phân tích về tiềm năng khách hàng, các công ty, số liệu công cộng và các tổ chức v.v … đã mang lại nhiều kết quả hữu ích cho nhiều đối tượng khác nhau Tuy nhiên, với những nghiên cứu ở quy mô lớn về phân tích ý kiến cho tiếp thị, nghiên cứu xã hội học hay chính trị, hỗ trợ ra quyết định thì hệ thống tự động tóm tắt các ý kiến dựa trên cơ sở phân loại cảm xúc là thật sự cần thiết

2.1.2 Các công trình liên quan

Hướng nghiên cứu phân tích cảm xúc cho văn bản tiếng Anh trên thế giới đã được bắt đầu từ đầu những năm 2000 và đã có nhiều kết quả rất tốt được ghi nhận [10]

Các tác giả [11] đã thực nghiệm phân lớp cảm xúc với ba mức cảm xúc (cao, trung bình và thấp) cho mổi lớp cảm xúc (tích cực và tiêu cực) Kho ngữ liệu mà các tác giả này sử dụng là 51 blog với kết quả có độ chính xác khá cao trên 90% Các tác giả [15] thử nghiệm hệ thống của mình, với vài phương pháp khác nhau, cũng có được kết quả chính xác trên 80%

Các công trình mà các tác giả trên thế giới thực hiện với nhiều lĩnh vực khác nhau như giải trí (bình luận phim), thương mại (đánh giá sản phẩm), xã hội (tình trạng thất nghiệp …), …

Trang 12

Các nghiên cứu cho tiếng Việt trong hướng này, theo hiểu biết của tác giả, còn rất hạn chế

Sau khi phân cực cảm xúc, các ý kiến cần được tóm tắt để giảm bớt sự cồng kềnh và phức tạp Điều này đặc biệt có ý nghĩa nếu số lượng ý kiến là lớn

Tiền xử lý Tóm tắt

tóm tắt, tổng hợp

Phân cực cảm xúc

Rút trích

đặc trưng

Output Input

Trang 13

Kỹ thuật tóm tắt cho đối tượng trong văn bản có cảm xúc sẽ có điểm khác biệt với tóm tắt cho các đối tượng theo nội dung Những câu chứa cảm xúc có thể không

có liên hệ với đối tượng chủ đề về mặt ngữ nghĩa

Ví dụ:

Một ý kiến có thể chỉ gồm một câu duy nhất: “Quá tuyệt vời!”

Khi đó, nếu tìm kiếm mối liên hệ về nội dung với chủ đề sẽ rất khó khăn, đặc biệt trong trường hợp tóm tắt tự động bằng máy Vì vậy, nếu tóm tắt theo nội dung thì tính cảm xúc của văn bản này rất nhiều khả năng sẽ bị bỏ qua Trong khi, nếu xét

về cảm xúc, đây là một văn bản có giá trị rất cao, không thể bỏ qua khi tóm tắt, tổng hợp ý kiến

Vì những lý do nêu trên mà quá trình tóm tắt nên được thực hiện ở công đoạn sau cùng của quá trình xử lý để tránh công đoạn này lược bỏ những ý nội dung mang cảm xúc quan trọng của ý kiến

- Tập ý kiến:

Với một bài báo có ghi nhận các ý kiến (comment) của đọc giả, các ý kiến cần được xem là các văn bản độc lập Vì vậy, khi rút trích cũng như trong các quá trình

xử lý sau đó, các ý kiến vẫn sẽ được đối xử như các văn bản độc lập

Nội dung bài báo chủ đề có thể có một hoặc nhiều đối tượng Các ý kiến thể hiện cảm xúc vì thế cũng có thể chỉ cảm xúc cho từng đối tượng cụ thể Các ý kiến

vì thế có thể là positive đối với đối tượng này và negative đối với đối tượng khác

- Tập ý kiến đã tóm tắt, tổng hợp:

Kết quả chúng ta thu được của quá trình xử lý là các tập ý kiến đã được phân lớp: các ý kiến tích cực (positive), ý kiến tiêu cực (negative) và ý kiến trung hòa (neutral)

Tùy theo quá trình phân tích, phân tích mức văn bản (đầu vào của mô – đun phân cực cảm xúc là toàn bộ một ý kiến) hay phân tích mức câu (đầu vào của mô – đun phân cực cảm xúc là từng câu của một ý kiến), mà chúng ta sẽ thu được những kết quả có sự khác biệt trong mỗi lớp ý kiến

Trang 14

Chương 3: CƠ SỞ LÝ THUYẾT

ở mức cơ bản Quá trình thứ hai là quá trình thực hiện tóm tắt các ý kiến trong mỗi lớp cảm xúc Các ý kiến trên các diễn đàn, trên các trang mạng xã hội hoặc trên các trang báo mạng thường ngắn gọn Tuy nhiên, với một lượng ý kiến lớn thì việc đọc nguyên văn tất cả các ý kiến đòi hỏi chi phí rất lớn về thời gian và công sức Ngoài

ra, việc phải đọc và xử lý thủ công một lượng lớn thông tin sẽ làm cho kết quả thu được không có hiệu quả cao Do đó, nhu cầu xử lý tóm tắt cho mỗi ý kiến cần được đặt ra

Việc tóm tắt ý kiến cho mỗi lớp cảm xúc có nhiều cách thức khác nhau như: tóm tắt dạng rút trích các ý thể hiện cảm xúc theo chủ đề ở mức cao nhất hoặc sát với chủ đề nhất; hoặc tóm tắt dạng tóm lược ý của người viết

Trong phạm vi luận văn này tác giả sẽ thực hiện tóm tắt theo cách rút trích các

ý thể hiện cảm xúc theo chủ đề ở mức cao nhất hoặc sát với chủ đề nhất

3.2 Tổng quan

Phân tích cảm xúc cho các ý kiến khác hẳn với phân tích văn bản tiêu chuẩn Văn bản tiêu chuẩn có thể phân loại theo chủ đề cụ thể, có thể là vài loại hay nhiều hơn nữa Chẳng hạn, trong một tập các văn bản cần tóm tắt sẽ có thể có nhiều chủ

đề Do đó, kết quả của quá trình tóm tắt sẽ là rất nhiều loại tương ứng với các chủ

đề có thể có trong tập văn bản ban đầu Trong khi đó, sản phẩm thu được sau quá trình phân tích cảm xúc cho một chủ đề thường chỉ là kết luận về tính tích cực, tiêu cực hay trung hòa của các ý kiến thể hiện trong tập văn bản đang xem xét, không quan tâm đến chủ thể của các ý kiến Các chủ đề của phân tích cảm xúc không bị giới hạn trong một phạm vi nào

Ý kiến mang tính cảm xúc có nhiều mức độ Ngoài hai mức tương tự như hai cực của cảm xúc (ủng hộ - tích cực, phản đối – tiêu cực), còn có những ý kiến thể hiện cảm xúc ở những mức độ nhẹ hơn mức tích cực hoặc tiêu cực, và cũng có thể

là mức trung lập

Nội dung luận văn sẽ tập trung nghiên cứu xây dựng mô hình tóm tắt văn bản,

và mô hình phần loại cảm xúc cho tiếng Việt Mô hình phân loại cảm xúc sẽ xây

Trang 15

dựng trên đối tượng là các văn bản không tiêu chuẩn, là nguồn thông tin thu thập trên các diễn đàn, các trang mạng xã hội, …

Lý thuyết và mô hình tóm tắt văn bản cho tiếng Việt hiện đã được nghiên cứu khá nhiều và cũng đã thu được những kết quả nhất định Vì vậy, luận văn sẽ chỉ trình bày mang tính tổng hợp và chọn lọc phương pháp tóm tắt văn bản tiếng Việt phù hợp với định hướng tóm tắt ý kiến, cảm xúc thể hiện trong văn bản không tiêu chuẩn

Trên cơ sở lý thuyết về tóm tắt văn bản và phân loại cảm xúc sẽ xây dựng mô

hình Tóm tắt ý kiến trên cơ sở phân loại cảm xúc Từ đó xây dựng chương trình, có

kế thừa và phát triển từ nguồn phần mềm mã nguồn mở GATE, để tóm tắt ý kiến dựa vào cảm xúc đối với nguồn thông tin là các diễn đàn, blog và mạng xã hội Đối tượng chính mà chương trình sẽ tập trung khai thác thông tin là các trang báo ghi nhận ý kiến bạn đọc đối với mỗi bài báo

3.3 Tóm tắt văn bản

3.3.1 Một số khái niệm cơ bản

Tóm tắt văn bản là quá trình làm giảm độ dài và độ phức tạp của một văn bản, trong khi vẫn giữ lại được các nội dung có giá trị của nó Tóm tắt văn bản là tìm kiếm một thể hiện ngắn gọn, súc tích về nội dung cho văn bản gốc

Chất lượng tóm tắt thể hiện ở độ rút gọn và độ chính xác về nội dung của văn bản tóm tắt so với văn bản gốc

Bài toán tóm tắt văn bản có thể phát biểu như hình 3.1:

Đầu vào: Một văn bản hoặc một tập hợp nhiều văn bản

Đầu ra: Nội dung ngắn gọn (đã được tóm tắt), hoặc một tập các nội

dung ngắn gọn tương ứng với văn bản hoặc tập văn bản đầu vào

Tóm tắt của một văn bản là một thể hiện ngắn gọn nội dung của văn bản đó Tùy theo mục đích sử dụng mà người ta sẽ thực hiện tóm tắt văn bản theo những tiêu chí khác nhau Vì vậy, mỗi văn bản sẽ có thể có hơn một bản tóm tắt Tuy nhiên, về cơ bản, ta có thể chia thành hai loại tóm tắt cho văn bản dựa trên cách xây dựng chúng như sau:

- Tóm tắt rút trích (Extract Summarization): Các bản tóm tắt được xây dựng bằng cách rút ra các câu chứa nội dung chính, quan trọng trong văn bản gốc gọi là

Trang 16

tóm tắt rút trích Các câu được rút trích là giữ nguyên, không thay đổi so với nó trong văn bản gốc

- Tóm tắt tóm lược (Abstract Summarization): Các bản tóm tắt mà một số thành phần của nó không xuất hiện trong văn bản gốc mà do tác giả đưa vào gọi là tóm tắt tóm lược Ví dụ: các câu, các thành ngữ, các chú giải, … được tác giả đưa thêm vào thay thế cho các đối tượng có trong văn bản gốc

Các tiêu chí trong tóm tắt văn bản

Khác với tóm tắt bằng phương pháp thủ công, bản tóm tắt cho một văn bản hoặc một tập các văn bản được thực hiện tự động bằng máy cần được xem xét, đánh giá một cách khoa học với các tiêu chí rõ ràng và có thể được lượng hóa bằng các công thức Thực hiện việc tóm tắt hoặc đánh giá một bản tóm tắt thường dựa trên sự thỏa mãn một số tiêu chí sau:

- Hệ số rút gọn

Hệ số rút gọn, hay còn gọi là độ nén, đặc trưng cho độ cô đọng nội dung của bản tóm tắt Hệ số rút gọn được tính bằng chiều dài của bản tóm tắt so với chiều dài của văn bản gốc Giá trị độ cô đọng càng cao thì độ cô đọng của văn bản càng lớn; văn bản tóm tắt càng ngắn gọn thì hệ số rút gọn càng nhỏ Hệ số rút gọn thông tin (đơn vị %) được tính bằng công thứ 3.1 và 3.2 như sau:

+ Độ dài (tính theo từ hoặc theo ký tự) của văn bản tóm tắt trên độ dài của văn bản gốc:

100%

length Sum c

(

) (

×

=

Text Sentence

Sum unt SentenceCo

- Tiêu chí về nội dung:

Tiêu chí này đặt ra dựa trên các yếu tố sau:

+ Tính đúng đắn so với văn bản gốc;

+ Tính phù hợp với nhu cầu của người dùng

Tính phù hợp với nhu cầu của người dùng có thể hiểu là tóm tắt được tạo ra là tóm tắt khái quát (generic summarization) hay tóm tắt theo yêu cầu (user focused summarization)

Tóm tắt khái quát là tóm tắt bao gồm toàn bộ các thông tin quan trọng có trong văn bản gốc, không cần phân loại theo đối tượng hay chủ đề Còn tóm tắt theo yêu

Trang 17

cầu sẽ chỉ chứa những nội dung liên quan tới thông tin yêu cầu (information query)

mà người dùng đặt ra (tóm tắt theo đối tượng, theo khía cạnh, …) Hình thức tóm tắt theo yêu cầu thường gắn liền với việc phân loại theo chủ đề

- Các tiêu chí khác

+ Tóm tắt rút trích (Extract): cần tránh sự đứt mạch, sự lặp lại, tránh các danh sách liệt kê, …

+ Tóm tắt tóm lược (Abstract): văn bản tóm cần có sự liền mạch về nội dung; về ngữ pháp cần sự chính xác

3.3.2 Một số giải thuật tóm tắt văn bản

Phần sau đây là tổng hợp một số giải thuật xây dựng tóm tắt văn bản đã được công bố trên thế giới Các giải thuật này được thực hiện theo cách trích rút ra những câu/đoạn có ý nghĩa quan trọng nhất đối với tiêu chí tóm tắt trong văn bản gốc – các giải thuật thuộc loại xây dựng tóm tắt rút trích

a Giải thuật dựa trên giá trị trọng số của thực thể (Determining Term Weights)

Các giải thuật dựa trên giá trị trọng số của thực thể (DTS) là các giải thuật đơn giản nhất Tuy nhiên, các công trình nghiên cứu cho đến nay vẫn cho thấy tính hiệu quả của chúng Các giải thuật này được kế thừa từ giải thuật đánh giá trọng số trong lĩnh vực tìm kiếm thông tin (Information Retrievel) Nội dung cơ bản của các giải thuật này là dựa vào việc tính toán giá trị trọng số cho mỗi thực thể xuất hiện trong câu Từ đó tính toán giá trị trọng số cho mỗi câu trong văn bản Cuối cùng là trích rút các câu có giá trị trọng số cao nhất theo một tỷ lệ định trước [7]

 Tần suất thực thể (term frequency):

Tần suất của một từ w trong văn bản d, ký hiệu TF(w,d), là số lần xuất hiện

của từ w trong văn bản d

 Tần suất văn bản (document frequency):

Tần suất văn bản của một từ w, ký hiệu DF(w), là số lượng văn bản mà từ w

có xuất hiện Nghịch đảo của tần suất văn bản (inverse document frequyency) của một từ w, ký hiệu IDF(w) được cho bởi công thức:

IDF(w) = 1 + log(|D| / DF(w)) (3.3) trong đó |D| là số lượng văn bản trong tập văn bản nguồn

 Tần suất TF-IDF (term document frequency):

Kết hợp hai loại tần suất thực thể và tần suất văn bản như trình bày ở phần trên

ta có:

TF-IDF(w,d) = TF(w,d) * IDF(w) (3.4)

Trang 18

Một sốt ý nghĩa rút ra từ công thức 3.4:

Chỉ số TF(w) của một từ w cao khi từ đó xuất hiện nhiều lần trong văn bản Tức là, nội dung của nó trong văn bản có giá trị cao

Chỉ số IDF(w) của một từ w cao nếu từ đó xuất hiện trong một số ít văn

bản Tức là từ đó có giá trị phân biệt văn bản cao Như vậy, các từ có giá trị

TF-IDF(w,d) cao sẽ đặc trưng cho một văn bản

 Tần suất TF-ISF (term sentence frequency):

Tần suất TF-ISF tương tự như tần suất TF-IDF(w,d), nhưng khác nhau ở đặc

điểm TF-ISF dùng để xem xét đánh giá giá trị từ w trong câu s chứ không phải trong

văn bản d Độ đo TF-ISF(w,s), được xác định bởi công thức 3.5:

TF-ISF(w,s) = TF(w,s) * ISF(w) (3.5)

trong đó TF(w,s) là số lần xuất hiện của từ w trong câu s

Nghịch đảo ISF(w) được xác định theo công thức 3.6:

ISF(w) = 1 + log(|S| / SF(w)), (3.6)

Trong đó: + SF(w) là số lượng câu có chứa từ w,

+ |S| là số câu trong văn bản

 Tần suất trung bình của câu

Với mỗi câu s, tần suất trung bình TF-ISF của câu (ký hiệu Avg-TF-ISF(s))

được tính bằng trung bình số học TF-ISF(w,s) của tất cả các từ w trong câu Công

thức xác định tần suất trung bình của câu là:

) (

)) , ( (

) (

) 1

s W

s i ISF TF s

ISF TF Avg

s W

trong đó W(s) là số lượng các từ trong câu

b. Giải thuật sử dụng các đặc trưng tóm tắt kết hợp các thuật toán học máy (Summarization using Machine Learning Algorithm - SMLA)

Các giải thuật sử dụng thuật toán học máy (SMLA) là những giải thuật đã được nghiên cứu từ lâu và khá phổ biến Đã có nhiều nghiên cứu phát triển dựa trên giải thuật này Các giải thuật này thể hiện rõ các đặc trưng, tính chất của việc tóm tắt văn bản Có thể xếp phương pháp sử dụng các giải thuật này vào nhóm các phương pháp “vét nông” để tìm ra kết quả tốt nhất cho tóm tắt rút trích

Các đặc trưng của tóm tắt (Summaried Features)

Đặc trưng của tóm tắt là một đặc điểm nào đó của một thành phần trong văn bản thể hiện giá trị cao về nội dung Vì vậy, nhiều khả năng nó được sử dụng để tạo nên văn bản tóm tắt

Trang 19

Ví dụ trong giải thuật dựa vào tính giá trị trung bình tần suất ở phần a bên

trên, ta chọn những câu có giá trị Avg-TF-ISF cao để đưa vào bản tóm tắt Từ đó suy ra độ đo Avg-TF-ISF cũng là một đặc trưng của văn bản tóm tắt

Có rất nhiều đặc trưng tóm tắt đã được chỉ ra từ các công trình nghiên cứu, một số đặc trưng cơ bản là:

 Độ dài câu (Sentence Length feature):

Các nghiên cứu đã cho thấy, những câu có độ dài quá ngắn (có số từ hoặc số

ký tự ít hơn một giá trị cho trước nào đó) khó có thể được sử dụng để tạo Tóm tắt

 Vị trí câu (Sentence Position feature):

Thông thường, các câu chứa ý chính thường nằm ở một số vị trí đặc biệt nào

đó trong văn bản, hay trong đoạn văn thuộc văn bản Ví dụ: Một hoặc hai câu đầu tiên của mỗi văn bản, mỗi đoạn văn thường chứa nội dung có khả năng cao để tạo tóm tắt Một số câu gần cuối cùng của văn bản, đoạn văn cũng có những giá trị tương tự Tuy nhiên, câu cuối cùng lại thường không được sử dụng để tạo nên văn bản tóm tắt

 Đặc trưng về nội dung tiêu đề (Title feature):

Tiêu đề của một văn bản thường có tính khái quát cao về nội dung của văn bản Câu chứa các thực thể xuất hiện trong tiêu đề thường có giá trị cho bản tóm tắt

 Đặc trưng về các thực thể đặc biệt (Fixed-phrases feature):

Các câu có chứa các thực thể tóm lược (Cue phrases) như “tóm lại”, “tổng quát”, “tổng hợp”,… hoặc các thực thể nhấn mạnh (emphasizer) như “quan trọng”,

“riêng biệt”,… thì chúng thường có khả năng được sử dụng để tạo nên bản tóm tắt

 Từ viết hoa (Uppercase word feature):

Từ viết hoa thường là viết tắt cho một thực thể dài hoặc một tên riêng nào đó

Ví dụ Tp.HCM là viết tắt của Thành phố Hồ Chí Minh Trong thực tế, các câu chứa các định nghĩa viết hoa thường chứa những nội dung quan trọng để sử dụng cho bản tóm tắt

 Dựa trên cây nhị phân (Binary Tree):

Cây nhị phân thường được sử dụng khi cần tính độ tương tự giữa các thành phần liền kề nhau trong một văn bản Vị trí của một câu trong cây nhị phân xác định

độ tương quan về nội dung với các thành phần liền kề với nó Từ đó, có thể xác định khả năng nó có được sử dụng cho bản tóm tắt hay không

Kết hợp các đặc trưng để tạo tóm tắt (Features Combination)

Có rất nhiều các đặc trưng đối với mỗi văn bản Vấn đề đặt ra là kết hợp các đặc trưng này để xây dựng bản tóm tắt như thế nào

Trang 20

 Với mỗi đặc trưng tóm tắt được liệt kê sử dụng, mỗi văn bản đầu vào sẽ cho ra kết quả theo mô hình như hình 3.2:

Xuất: Dãy các trọng số w1(s1), w2(s2),…wn(sn) đánh giá giá trị của câu/thành

phần văn bản theo đặc trưng F

Hình 3.2: Giải thuật đánh giá mỗi đặc trưng tóm tắt

 Mô hình kết hợp các đặc trưng của văn bản gốc để tạo văn bản tóm tắt thể hiện như hình 3.3:

Trang 21

Xuất: Dãy các trọng số W1(s1), W2(s2),…Wn(sn) đánh giá giá trị của câu/thành

phần văn bản tham gia tĩm tắt

Hình 3.4: Giải thuật kết hợp các đặc trưng tĩm tắt

 Ở bước rút trích, các câu cĩ giá trị trọng số đặc trưng cao nhất sẽ được rút

ra theo một tỷ lệ được cho trước

Ứng dụng giải thuật học máy (Machine Learning Algorithm)

Vấn đề khĩ khăn đối với mơ hình kết hợp đặc trưng là ta chưa thể biết trước được sự kết hợp nào giữa các đặc trưng sẽ cho kết quả tĩm tắt tốt Điều này cĩ thể được giải quyết bằng cách sử dụng một tập các văn bản mẫu đã được tĩm tắt sẵn và

áp dụng các giải thuật học máy để rút ra một sự kết hợp tốt nhất các đặc trưng cĩ thể Mục đích của giải thuật học máy là để tìm ra các hệ số ki cho mỗi đặc trưng Fi Một số giải thuật học máy phổ biến khác như: giải thuật sử dụng các luật thống

kê Nạve Bayes, giải thuật C4.5, giải thuật SCDF, giải thuật AQ, … Trong đĩ, giải thuật áp dụng các luật Nạve Bayes thường được sử dụng rộng rãi nhất vì sự đơn giản nhưng hiệu quả cao của nĩ

Giả sử các giá trị ki chỉ gồm 0 hoặc 1, ta cĩ thể sử dụng luật xác suất Nạve Bayes để quyết định ki Luật xác suất Nạve Bayes được phát biểu như sau:

Ký hiệu P(A) là xác suất xảy ra sự kiện A; P(A|B) là xác suất xảy ra A khi đã biết B P(A|B) được tính theo cơng thức 3.8:

( | ) ( ) ( | )

k k

j j

j j

(3.9) (3.10)

Trang 22

áp dụng và kết hợp với các đặc trưng đơn giản nhất Tuy nhiên, không phải càng nhiều đặc trưng kết hợp với nhau thì kết quả cho ra kết quả càng tốt

Các giải thuật được trình bày ở trên có thể được xếp vào nhóm các giải thuật dựa trên thống kê các từ trong văn bản và lượng giá ý nghĩa của thống kê này Do chưa xét đến ngữ nghĩa của chúng trong văn bản nên các giải thuật trên được xếp vào loại “vét nông” (shallow approaches) [7]

Một số phương pháp tóm tắt dựa trên việc phân tích ngữ nghĩa và các đặc tính ngôn ngữ học của văn bản (discourse features) Có thể xếp các phương pháp này vào loại “vét sâu” (deep approaches)

c Áp dụng các đặc trưng liên kết ngữ nghĩa (Summarization using Cohesion Features)

– Một số định nghĩa cơ bản:

• Cohesion:

Trong văn bản có các liên kết giữa các thành phần của văn bản để biểu hiện quan hệ về mặt ngữ nghĩa Chúng được gọi là Cohesion Có hai loại liên kết Cohesion trong văn bản: liên kết về mặt ngữ pháp (Gramatical Cohesion) và liên kết

về mặt từ vựng (Lexical Cohesion)

• Gramatical Cohesion:

Là các liên kết về nội dung trong văn bản được tạo ra trong ngữ cảnh cụ thể

với cấu trúc ngữ pháp của các câu

Ví dụ: Minh có một chiếc máy tính Nó rất đẹp

Ở ví dụ trên, thực thể “máy tính” và “nó” có một liên kết Liên kết này được phát hiện và chỉ có giá trị trong ngữ cảnh cụ thể này

• Lexical Cohesion:

Là các liên kết về nội dung trong văn bản được tạo ra bởi sự đồng nhất về ý

nghĩa của các từ vựng

Ví dụ: Dũng rất thích máy tính Anh ấy đã mua một chiếc laptop mới

Liên kết tồn tại trong tình huống này “máy tính” và “laptop” là do chúng mang

ý nghĩa tương đồng nhau

• Lexical Chain: chuỗi từ vựng

Mô hình các chuỗi từ vựng lần đâu được giới thiệu bởi Morris và Hirst Các chuỗi từ vựng về cơ bản khai thác sự kết dính giữa một số từ có liên hệ với nhau Chuỗi các từ vựng có thể được thực hiện trong một tài liệu nguồn bằng cách nhóm những tập hợp các từ có liên hệ với nhau về nghĩa Sự đồng nhất, đồng nghĩa và sự khái quát là những mối tương quan giữa các từ Chúng có thể nhóm các từ đó vào cùng một chuỗi từ vựng Một số trường hợp các từ có thể nhóm lại là:

Trang 23

 Hai danh từ giống nhau và được dùng cùng hướng như nhau:

(Ngôi nhà thật đẹp Ngôi nhà được làm bằng gỗ)

 Hai danh từ được dùng với cùng hướng như nhau:

(Con chó chạy nhanh Chiếc xe máy của tôi chạy nhanh hơn)

 Hai danh từ có mối liên hệ cao thấp giữa chúng theo hướng sử dụng:

(Tôi có chiếc xe Yamaha Đó là chiếc Exciter)

 Hướng sử dụng của hai danh từ là anh em ruột trong mối quan hệ cao thấp thuộc dạng cây

(Chiếc xe tải chạy rất nhanh Chiếc xe hơi chạy nhanh hơn)

Trong quá trình thực hiện thực tế, các cá thể danh từ phải được nhóm theo những mối liên hệ như trên Nhưng mỗi danh từ chỉ có thể thuộc về một chuỗi từ vựng Một số khó khăn trong việc xác định một danh từ nên thuộc vào chuỗi từ vựng nào Chẳng hạn, một danh từ có thể tương ứng với một số hướng sử dụng khác nhau Và vì thế, hệ thống tóm tắt phải quyết định hướng nào sẽ được sử dụng Ví

dụ, thực thể “nhà” trong hướng sử dụng 1 là nơi để ở Ngoài ra nó còn hướng sử

dụng 2 là cơ quan lập pháp

Thêm vào đó, ngay cả nếu hướng sử dụng từ của một cá thể từ nào đó có thể được xác định, chúng ta cũng có thể nhóm các cá thể từ đó vào những chuỗi từ vựng khác bởi nó có thể có liên quan đến những từ trong những chuỗi khác Ví dụ, hướng sử dụng của một từ có thể giống hướng của từ khác trong một nhóm, trong khi có thể có mối liên hệ cao thấp với hướng sử dụng của một từ trong một nhóm khác Điều quan trọng cần đạt được là những từ phải được nhóm lại sao cho sự nhóm nói chung là tối ưu trong việc tạo thành những chuỗi từ vựng dài nhất/mạnh nhất có thể Vì vậy có thể định nghĩa: những từ được nhóm vào cùng một chuỗi khi chúng là có thiên hướng có cùng khái niệm cơ bản

– Liên kết ngữ nghĩa ứng dụng trong tóm tắt văn bản:

Phương pháp áp dụng liên kết ngữ nghĩa trong văn bản có thể được chia thành hai giai đoạn tổng quát như sau:

Giai đoạn 1: Dùng mô hình đồ thị để biểu diễn văn bản Trong đó:

 Nút là các từ, cụm từ, thực thể; các câu hoặc các đoạn văn

 Cạnh giữa các nút: Có trọng số hoặc không có trọng số Chúng thể hiện mối tương quan về mặt ý nghĩa nội dung của các nút với nhau

Giai đoạn 2: Dựa vào đồ thị, chọn ra các thành phần có liên kết nhiều nhất

tương đồng với ý nghĩa nó sẽ mang nội dung chính của văn bản

Trong các giải thuật tóm tắt văn bản áp dụng liên kết ngữ nghĩa, giải thuật sử dụng các chuỗi từ vựng là một trong các giải thuật được nghiên cứu nhiều nhất đối với hầu hết ngôn ngữ

Trang 24

d Áp dụng các đặc trưng liên kết cấu trúc (Summarization using Coherence Features)

Khái niệm về liên kết cấu trúc (Coherence)

Coherence:

Trong văn bản có các liên kết giữa các thành phần của văn bản để biểu hiện quan hệ về mặt cấu trúc nội dung Chúng được gọi là các liên kết coherence Có thể phân ra các loại liên kết coherence sau:

Liên kết theo cấu trúc định dạng tài liệu (Document format)

Ví dụ: cấu trúc một văn bản gồm nhiều chương, nhiều phần Khi đó, các chương, các phần có mối quan hệ liên kết cấu trúc định dạng tài liệu với nhau

Liên kết theo cấu trúc tu từ (Rhetorical structure)

Đây là loại liên kết cấu trúc quan trọng nhất Liên kết tu từ là loại liên kết giữa các thành phần văn bản có liên hệ bổ trợ cho nhau về mặt nội dung

Ví dụ: Anh ấy làm việc rất chăm chỉ Vì vậy anh ấy được thăng chức

Trong ví dụ trên, mệnh đề sau là kết quả của mệnh đề trước, được phát hiện qua từ “vì vậy” Hai mệnh đề này có mối liên kết theo cấu trúc tu từ với nhau

Liên kết theo cấu trúc kể (narrative structure):

Các thành phần liên kết về mặt nội dung tiếp diễn nhau

– Áp dụng liên kết cấu trúc cho tóm tắt văn bản

Để áp dụng liên kết cầu trúc vào tóm tắt văn bản, trước hết cần phải thực hiện giải quyết bài toán phân tích cú pháp văn bản Đây là một bài toán có độ tính toán cao và đòi hỏi những phân tích ngôn ngữ học rất phức tạp

e Giải thuật áp dụng chuỗi từ vựng để tóm tắt văn bản (Summarization using Lexical Chains)

Giải thuật này được công bố đầu tiên bởi Regina Barzilay và Michael Elhadad (Using Lexical Chains for Text Summarization - 1997) Bản chất của giải thuật này

là xây dựng các chuỗi từ vựng từ văn bản gốc sao cho độ dài các chuỗi này là lớn nhất Sau đó đánh giá điểm số và chọn ra các chuỗi có điểm số cao nhất Tóm tắt được trích rút từ văn bản gốc bằng cách với mỗi chuỗi có trọng số lớn, các câu cần tìm là các câu chứa nội dung liên quan tới chuỗi từ vựng đó Trong công trình của mình, Barzilay có đề cập tới việc sử dụng thư viện WordNet (mỗi từ được giải nghĩa theo nhiều hướng sử dụng, mỗi hướng sử dụng được biểu thị bởi một tập hợp

các từ đồng nghĩa Tập hợp đó gọi là synset)

Giải thuật Barzilay [9] đưa ra là:

Bước 1: Đọc văn bản và lọc ra tập các thực thể là các danh từ

Bước 2: Với mỗi thực thể tìm được ở bước 1 thực hiện:

(a) Dựa vào WordNet tìm xem các chuỗi từ vựng với hướng sử dụng cụ thể có

Trang 25

liên quan tới thực thể không Nếu có thì thực hiện tiếp (b), nếu không thì thực hiện bước (c)

(b) Nếu có nhiều hơn một chuỗi từ vựng đã có liên quan tới thực thể thì chọn các liên kết mạnh nhất để đưa thực thể này vào chuỗi từ vựng đó Cập nhật lại chuỗi từ vựng và hướng sử dụng

(c) Nếu không có thì thêm một chuỗi từ vựng mới chỉ bao gồm thực thể này

và tất cả các hướng sử dụng có thể của nó

Bước 3: Tính điểm cho mỗi chuỗi từ vựng bằng công thức:

Score(chain) = Length * HI

Bước 4: Chọn ra các chuỗi có điểm cao nhất Với mỗi chuỗi này, thực hiện tìm

và rút trong văn bản câu đầu tiên chứa một thành phần của chuỗi

Trong các nghiên áp dụng chuỗi từ vựng để tóm tắt văn bản sau này đều có áp dụng thêm một số kỹ thuật khác để tăng hiệu quả và giảm tốc độ tính toán các chuỗi

từ vựng Kết quả của phương pháp này đối với tóm tắt văn bản được đánh giá cao xong khả năng áp dụng đối với bài toán Tóm tắt tiếng Việt gặp nhiều hạn chế bởi hai vấn đề:

 Chưa có một thư viện WordNet hoàn chỉnh cho tiếng Việt

 Sự phân biệt giữa các danh từ, động từ, trợ từ,… trong ngữ pháp tiếng Việt

là rất phức tạp khi so với ngữ pháp tiếng Anh

3.3.3 Biểu diễn văn bản theo mô hình không gian vector

Mỗi văn bản sẽ được đặc trưng bằng một vector nhiều chiều Các thành phần của các vector chính là các thực thể xuất hiện trong văn bản Mỗi thực thể được gán một giá trị trọng số, với trọng số không chỉ mang giá trị 0 hay 1, mà có thể mang các giá trị khác tùy theo cách đánh giá, tính toán Giá trị của trọng số được tính bởi

một hàm f Công thức tính hàm f được phân ra với các mô hình con trong không

gian vector Một số mô hình con như: mô hình Boolean, mô hình tần suất TF, mô hình vector thưa, … [7]

- Mô hình Boolean

Trong mô hình này hàm f xác định các giá trị rời rạc với duy nhất hai giá trị

đúng và sai (true và false hoặc 0 và 1) Hàm f tương ứng với thực thể ti sẽ cho ra giá

trị đúng khi và chỉ khi thực thể i xuất hiện trong văn bản đó, và ngược lại sẽ cho ra

giá trị sai

Trang 26

Giả sử có một cơ sở dữ liệu gồm m văn bản, D = {d1, d2, …, dm} Mỗi văn bản được biểu diễn dưới dạng một vector gồm có n thực thể, T = {t1, t2,…, tn} Gọi W = {wij} là ma trận trọng số Trong ma trận trọng số, w ij là giá trị trọng số của thực thể

t i trong văn bản d j Trọng số w ij đươc xác định dựa theo công thức 3.11:

1 , nếu t i có mặt trong d j

0 , nếu ngược lại

Do các trọng số là các giá trị 0 hoặc 1 biểu diễn cho việc có hoặc không có mặt của các thực thể Vì vậy, hạn chế của mô hình này là không thể hiện được mức

độ ảnh hưởng khác nhau của các thực thể trên văn bản

- Mô hình tần suất TF

Các giá trị w ij được tính dựa trên tần số xuất hiện của thực thể trong văn bản

Gọi f ij là số lần xuất hiện của thực thể t i trong văn bản d j Khi đó, có thể xác định w ij

bởi một trong các công thức sau:

với việc văn bản d j càng phụ thuộc vào thực thể t i Tức là, thực thể t i mang nhiều

thông tin trong văn bản d j

- Mô hình nghịch đảo tần số văn bản IDF

Giá trị wij được tính như sau:

log m/hi = log(m) – log(hi), nếu thực thể t i xuất hiện

Trong đó: m là số lượng văn bản,

h i là số văn bản mà thực thể t i xuất hiện trong đó

Có thể thấy trọng số w ij tỷ lệ nghịch với h i Càng có ít văn bản có chứa t i thì w ij

càng cao Trọng số w ij mang ý nghĩa phân biệt các văn bản với nhau dựa trên một từ

ít xuất hiện Tức là, khi một từ xuất hiện càng ít trong tài liệu thì khả năng phân biệt các tài liệu dựa trên từ đó càng cao

Trang 27

Trọng số w ij trong TF-IDF có ý nghĩa kết hợp sự quan trọng của t i trong văn

bản d j với giá trị phân biệt bởi t igiữa văn bản d với các văn bản khác

- Mô hình vector thưa

Trọng số w ij được tính bằng tần số xuất hiện của thực thể t i trong văn bản d j

độ hiếm của thực thể ti trong toàn bộ cơ sở dữ liệu

Trong mô hình biểu diễn trên thì việc tính toán sẽ là khá phức tạp và cồng kềnh do các văn bản thường có nhiều thực thể Cũng vì vậy, các vector sẽ có số chiều rất lớn Điều này cũng dẫn đến việc lưu trữ các vector đặc trưng cho văn bản thường tốn rất nhiều bộ nhớ Để khắc phục điều đó, người ta dùng mô hình biểu diễn bằng vector thưa

Điểm cơ bản của mô hình vector thưa là thay vì biểu diễn toàn bộ thực thể có trong từ điển thì người ta chỉ biểu diễn các thực thể có trong hệ cơ sở dữ liệu Với bài toán tóm tắt văn bản, khi sử dụng mô hình vector thưa đặc biệt phải lưu ý tính chính xác của lời giải khi đã loại bỏ bớt thông tin

Trong khi đó, với bài toán phân loại cảm xúc thì vấn đề số chiều của vector sẽ không là vấn đề lớn Vì các thực thể cảm xúc trong một văn bản thường không quá nhiều

- Các công thức tính toán trên mô hình không gian vector

Đặc điểm quan trọng của biểu diễn văn bản theo không gian vector là có thể dùng các phép toán để tính toán hai văn bản dựa trên tính toán hai vector biểu diễn của chúng Hai văn bản là hai vector Vì vậy, khoảng cách hay góc giữa hai vector đều có thể đại diện cho sự liên quan giữa hai văn bản tương ứng Nhờ đó, dữ liệu tính toán trên văn bản có thể được lượng giá một cách chính xác

Một yêu cầu quan trọng khi tính toán trên các vector là các vector phải được chuẩn hóa về số chiều

Các công thức biểu diễn văn bản theo mô hình không gian vector:

Trang 28

 Độ tương đồng giữa hai vector

Mức độ tương đồng của hai vector tương đương với góc lệch giữa hai vector

đó Trong Hình 3.5, để xác định mức độ tương đồng giữa vector q và hai vector d1

và d2 chúng ta xác định góc lệch giữa vector q đối với vector d1 và vector d2 Việc xác định góc lệch giữa hai vector là tương đối phức tạp Nếu chỉ xác định độ tương đồng của vector q đối với các vector d1 và d2 thì chúng ta chỉ cần xác định giá trị Cosin giữa vector q và các vector d1 và d2

Ứng dụng trong mô hình hóa văn bản như một vector, giả sử hai văn bản X, Y được biểu diễn dưới dạng mô hình tần suất bằng hai vector X= {x1 , x 2 , …, x n } và Y=

{y 1 , y 2 , …, y n } Khi đó, độ tương tự giữa hai văn bản được tính theo công thức Cosin:

i i

n

i i i

y x

y x Y

X

Y X Y

X Co Y X

Sim

1

2 1

2

1

|

|

|

|

)

, sin(

) ,



 Vector trọng tâm của nhóm

Giả sử có một nhóm văn bản D = {d 1 , d 2 , …, d m } có lần lượt các vector biểu

diễn là v 1 , v 2 , …, v n Khi đó, vector trọng tâm của nhóm văn bản được tính theo công thức:

m

v V

m i i cent

=

vv

(3.18)

Trang 29

 Độ tương tự giữa hai nhóm

Giả sử có hai nhóm văn bản D1, D2 Độ tương tự giữa hai nhóm được tính bằng

độ tương tự giữa hai vector trọng tâm của hai nhóm:

Sim(D 1 ,D 2 ) = Sim(V cent1 ,V cent2 ) (3.19)

3.3.4 Các đại lượng đánh giá độ chính xác

Để đánh giá sự chính xác của của quá trình thực hiện tóm tắt văn bản, hai giá trị sau được sử dụng: độ chính xác (precision) và độ bao (recall)

Hình 3.7: Precision và Recall Giả sử một văn bản cần tóm tắt trong đó có a câu đúng (dựa theo tập tóm tắt mẫu), b câu mà hệ thống tìm kiếm được và c là giao của a và b

* Độ chính xác (Precision)

Độ chính xác hay giá trị Precision được tính bằng:

c precision

a

Ví dụ: Một văn bản có 40 câu Tóm tắt được cho là chính xác tuyệt đối do tác giả tạo ra bao gồm 15 câu Văn bản này được đưa vào hệ thống tóm tắt tự động và cho ra một số kết quả như bảng 3.1 (một số tính toán tương ứng với kết quả tìm được là 6, 10, 20 câu):

Bảng 3.1: Minh họa các giá trị Precision và Recall

Hệ thống tìm

được (b)

Kết quả chuyên gia xác định (a)

Kết quả c=a∩b

Recall Precision

Trang 30

10 15 6 0.40 (6/15) 0.60 (6/10)

Có thể thấy nếu giá trị Precision càng cao thì giá trị Recall càng thấp và ngược

lại Recall càng cao thì Precision càng thấp Để đánh giá chính xác kết quả của một

hệ thống không thể chỉ dựa vào một trong hai giá trị này mà phải kết hợp cả hai Giá

trị precision = recall khi kích thước tập kết quả tìm được bằng với kích thước tập

kết quả mong muốn

3.4 Tóm tắt ý kiến

3.4.1 Các khái niệm cơ bản

Những khó khăn trong khai thác ý kiến, cảm xúc

a) Làm sao để phân cực cảm xúc (tích cực, tiêu cực, trung lập)?

Cảm xúc thường được thể hiện một cách tinh tế Vì vậy, xác định được cảm xúc sẽ khó hơn rất nhiều so với xác định chủ đề được thể hiện trong văn bản Không thể đơn giản xác định được cảm xúc mà chỉ dựa vào một câu hay một phần nào đó của tài liệu

Có thể phân cực cảm xúc bằng các từ và cụm từ và tần suất xuất hiện của chúng Tuy nhiên, mỗi cá nhân có thể có những chọn lựa khác nhau cho cùng một

từ hoặc cụm từ

Mô hình học máy unigram có thể hiệu quả hơn chọn từ khóa

Vấn đề phụ thuộc thứ tự xuất hiện của các chủ thể cũng rất quan trọng để phân cực cảm xúc

Ví dụ: “A thì tốt hơn B” và “B thì tốt hơn A” sẽ thể cảm xúc trái ngược hoàn toàn khi xem xét những nhận định về A

b) Làm sao phân biệt được giữa sự kiện và ý kiến?

Cùng một hình thức thể hiện, trong những lĩnh vực khác nhau cũng có thể có những cảm xúc khác nhau

Ví dụ: Với câu “Đi đọc sách”

 Sẽ là tiêu cực nếu trong ngữ cảnh đánh giá một bộ phim

 Sẽ là tích cực nếu trong ngữ cảnh điểm sách

Xét đoạn văn sau:

“Bộ phim lẽ ra là rực rỡ Dường như nó có một kịch bản lớn, dàn diễn viên

hàng đầu , ngoại cảnh cũng tốt, và diễn viên chính cũng đã cố gắng diễn tốt Tuy nhiên, nó không thể rực rỡ nổi”

 Phần đầu (2 câu) là nội dung miêu tả thực tế

 Câu cuối thể hiện cảm xúc tiêu cực – một lời chê

Trang 31

Như vậy, những từ như “tốt”, “rực rỡ”, … ở 2 câu đầu chỉ dùng để miêu tả

thực tế, không phải những lời thể hiện cảm xúc tích cực

3.4.2 Phương pháp tiếp cận

Một số phương pháp hiện đang được sử dụng trong phân tích cảm xúc:

 Phương pháp phân tích cảm xúc mức văn bản (Document)

 Phương pháp phân tích cảm xúc mức câu (Sentence)

 Phương pháp phân tích cảm xúc mức đặc trưng (Feature)

+ Tần suất xuất hiện của từ/cụm từ

+ Vị trí xuất hiện của từ/cụm từ

+ Ngữ nghĩa của câu phụ thuộc thông tin phát ngôn

+ Câu có thể vừa là chủ quan, vừa là khách quan

+ Với mỗi loại câu khác nhau (câu hỏi, câu châm biếm, câu điêu kiện) thì cần những cách xử lý khác nhau

• Hướng tiếp cận:

+ Phân loại: Chủ quan và khách quan

+ Phân lớp cảm xúc: Tích cực, tiêu cực, trung lập

Trang 32

• Các loại ý kiến của câu:

+ Ý kiến tường minh: thể hiện trong câu chủ quan

+ Ý kiến ngầm định: thể hiện trong câu khách quan

• Các hướng tiếp cận:

+ Khai thác sự đồng xuất hiện của các danh từ và cụm danh từ

+ Khai thác mối liên hệ với từ khóa

+ Phương pháp không giám sát:

+ Dựa vào tập ngữ liệu (corpus)

+ Dựa vào luật

+ Phương pháp lan truyền kép: Dựa vào quan hệ phụ thuộc cú pháp: từ

khóa đã biết → khía cạnh; khía cạnh tìm được → từ khóa mới

3.5 Tập ngữ liệu

Ngữ liệu sử dụng trong luận văn này sẽ được trích từ Web, giới hạn trong các bài bài báo mạng tiếng Việt có ghi nhận ý kiến của đọc giả Trong luận văn này tác giả lựa chọn trang báo mạng VNExpress Cơ quan chủ quản của VNExpress là Bộ Khoa học Công nghệ Tờ báo ra đời từ năm 2001 Đây là tờ báo mạng được đánh giá là có nhiều đọc giả nhất hiện nay Với lượng đọc giả đông đảo, các bài viết về các chủ đề kinh tế, thương mại, khoa học và công nghệ, xã hội và thể thao, luôn thu được một số lượng lớn ý kiến người đọc Một bài báo về cơ bản được định dạng như Hình 3.8 ở trang bên

Nội dung trích xuất từ trang báo dùng cho việc phân tích như sau:

– Nội dung bài báo (bài viết chủ đề): có thể có kèm hình ảnh, là phần chủ đạo của trang web Luận văn sẽ trích xuất phần bài viết mà không kèm theo hình ảnh và chú thích của nó

– Các ý kiến: Cuối mỗi bài báo là phần thể hiện ý kiến của đọc giả Đây là đối tượng nghiên cứu chính của luận văn này Các ý kiến này được trang báo đặt trong mục “Ý kiến bạn đọc”

Trang 33

Hình 3.8: Bài báo làm dữ liệu đầu vào

Các nội dung khác có trong trang báo như quảng cáo, các đường link đến các bái báo khác sẽ được bỏ qua

Trang 34

Với mỗi ý kiến còn có phần thể hiện số lượng người thích Do luận văn tập trung vào phân tích cảm xúc trong nội dung ý kiến nên số liệu về số lượng người thích sẽ được bỏ qua

Để có thể phân tích, đánh giá và tóm tắt các ý kiến về mặt cảm xúc, luận văn sẽ rút trích tạo tập ngữ liệu là các ý kiến dành cho bài báo theo các thành phần được tổ chức như sau:

– Với phân tích là mức câu, cấu trúc lưu trữ gồm các thành phần:

Bảng 3.2: Cấu trúc dữ liệu phân tích ở mức câu

LabelOfSentence Positive, negative,

neutral

Nhãn cảm xúc cho mỗi câu

– Với phân tíchở mức văn bản có cấu trúc lưu trữ được thể hiện ở bang 3.3

Label positive, negative, Nhãn phân loại cảm xúc của ý kiến

Trang 35

neutral

đặc trưng ở phần trên

FeatureDetail

Các trọng số cảm xúc tương ứng với các đặc trưng như trên nhưng được lưu tách biệt

theo từng câu

Ví dụ:

3.6 Tóm tắt ý kiến trên cơ sở phân loại cảm xúc

3.6.1 Các khái niệm và nguyên tắc cơ bản

Kỹ thuật nền tảng cho phân tích cảm xúc và khai thác ý kiến là phân lớp

(classification) Kỹ thuật phân lớp gồm: hồi quy (regression) và xếp hạng (ranking)

Vấn đề trích rút thường là phương tiện để đạt được các mục tiêu xa hơn đó là cung cấp bản tóm tắt hiệu quả với các thông tin trích xuất cho người dùng

a Phân định và định mức cảm xúc

Có thể phân cảm xúc của một vấn đề về hai cực: tích cực và tiêu cực Tuy nhiên, có thể có những cảm xúc không đạt mức ở một trong hai cực này Vì thế, phải có những mức độ nằm giữa hai cực

Một số khái niệm: phân lớp cực cảm xúc (sentiment polarity classification), phân lớp cảm xúc (sentiment classification)

− Quan hệ giữa các phạm trù: Dựa trên phân tích các câu so sánh chúng ta có

thể có được thông tin về ý kiến của tác giả văn bản

Trang 36

Ví dụ:

“Tôi thích mô hình mới hơn mô hình cũ”

“Tôi thấy mô hình mới đáng giá hơn mô hình cũ”

Cả hai ví dụ trên đều thể hiện cảm xúc tích cực đối với "mô hình mới" Các câu so sánh phù hợp với cách phân loại cực (tích cực, tiêu cực hoặc trung hòa)

− Suy luận đánh giá (Rating inference): để xác định đánh giá của tác giả đối với một vấn đề cần một thang đa điểm (ví dụ 5 điểm) Điều này có nghĩa chúng ta cần phân loại văn bản theo hướng đa lớp để thông tin đánh giá được mịn hơn Mỗi lớp có thể có vốn từ vựng riêng của nó Một ý kiến trung lập có thể là hỗn hợp của ý kiến tích cực và tiêu cực Trong bối cảnh kinh doanh, một ý kiến trung lập thường gần nghĩa với ý kiến tích cực

b Phát hiện và xác định quan điểm chủ quan

− Để xác định xem một câu là chủ quan hay không thường dựa vào các tính

từ của câu đó (thể hiện mức độ mạnh, yếu của ý kiến)

− Trong mỗi lĩnh vực khác nhau sẽ có sự đánh giá khác nhau về mức độ cảm xúc

c Phân tích cảm xúc theo chủ đề

Đây là dạng phân lớp cảm xúc mức văn bản Trong những văn bản này có thể

có những câu mà người sử dụng không quan tâm Vì vậy, người ta thường cố gắng loại bỏ những đoạn này

Hướng phân tích này rất thuận lợi khi phân tích xác định các chủ đề và tách các ý kiến liên quan đến người sử dụng

d Quan điểm và góc nhìn

Phân tích cảm xúc và ý kiến cho các văn bản về chính trị sẽ định hướng tập trung vào thái độ chung thể hiện qua văn bản mà không nhât thiết phải nhắm vào một vấn đề cụ thể hoặc chủ đề hẹp

e Thông tin không căn cứ khác trong văn bản

− Dựa trên văn bản xác định tâm trạng

− Các tâm trạng: tức giận, ghê tởm, sợ hãi, vui, buồn, ngạc nhiên, …

Một vấn đề khác cần xem xét trong bối cảnh tình báo và an ninh là phát hiện các văn bản trong ngôn từ lừa đảo

Trang 37

3.6.2 Các đặc trưng hướng dữ liệu của văn bản

a Tần suất xuất hiện và sự có mặt của thực thể:

Đây là phương pháp truyền thống trong tìm kiếm thông tin tiêu biểu cho một đoạn văn như vector đặc trưng, trong đó các mục tương ứng với các thực thể (term)

Tần suất các thực thể (term) truyền thống quan trọng, phổ biến như tf-idf

Tuy nhiên, phương pháp xác định cảm xúc dựa vào sự hiện diện của thực thể

có hiệu năng cao hơn là dựa vào tần suất xuất hiện chúng

Ý tưởng của phương pháp dựa vào sự xuất hiện thực thể là: dùng vector đặc trưng với mỗi phần tử là một thực thể mà nếu nó xuất hiện thì sẽ có giá trị 1, ngược lại là 0

Kết quả thu được từ phương pháp này thể hiện được một đặc điểm khác nhau rất quan trọng giữa phân loại dựa theo chủ đề và phân lớp theo phân định mức cảm xúc Trong khi chủ đề có nhiều khả năng được nhấn mạnh bởi sự xuất hiện thường xuyên của từ khóa nhất định, cảm xúc tổng thể có thể không thường được làm nổi bật lên bằng cách lặp lại sự xuất hiện của một số thực thể

b Thực thể dựa trên đặc trưng quan trọng hơn theo phương pháp unigram

Đôi lúc vị trí của từ cho biết khía cạnh ý nghĩa của nó Vị trí của một từ trong văn bản (ở đầu, ở giữa hay ở cuối) có tiềm năng rất lớn ảnh hưởng đến việc xác định trạng thái chủ quan hay mức độ cảm xúc trong toàn văn bản Vì vậy, thông tin

về vị trí của từ có thể dùng để mã hóa vào vector đặc tính

Vấn đề hiệu năng của các phương pháp n-gram còn chưa được phân định rõ ràng trong định mức cảm xúc Có những nghiên cứu cho rằng unigrams hiệu quả hơn bigrams; có nghiên cứu lại chứng minh bigrams và trigrams hiệu quả hơn Ngoài các phương pháp sử dụng n-gram hay vị trí từ, một số nghiên cứu sử dụng phương pháp “Khoảng tương phản” (contrastive distance – xác định mức độ tương phản của một cặp từ để định mức cảm xúc) để tính toán khía cạnh trong hệ thống đánh giá – suy luận

c Từ loại (Parts of Speech)

Thông tin từ loại thường dùng trong phân tích và khai phá ý kiến, cảm xúc vì

nó thường mang ý nghĩa thông qua loại từ mà nó đại diện

Tính từ được dùng như là các đặc trưng Một trong những công trình đầu tiên

về dự đoán hướng ngữ nghĩa của từ dựa theo số liệu đối với các tính từ là tài liệu [16]

Việc xác định tính chủ quan cho thấy mối tương quan cao giữa sự hiện diện của tính từ và câu mang tính chủ quan Nhiều nghiên cứu cho thấy tính từ là đối

Trang 38

tượng chỉ thị cho cảm xúc Với phương pháp học không giám sát thì thì tính từ được dùng với vai trò hướng dẫn trong chọn lựa nét đặc trưng để phân lớp cảm xúc Không chỉ tính từ mới là những nhân tố giúp nhận diện cảm xúc của văn bản,

mà trạng từ cũng là nhân tố quan trọng trong vấn đề này

d. Cú pháp

Một số nhà nghiên cứu đã thử kết hợp cú pháp và tập các đặc trưng Kiểu phân tích ngôn ngữ sâu như vậy được xem là phù hợp với các đoạn văn bản ngắn Hai cách phân lớp mức câu (sentence – level classification) là phân lớp loại cảm xúc (sentiment polarity classification) và nhận diện phương thức (modality identification – ý kiến, xác nhận hoặc mô tả), trên cơ sở nâng cao giải thuật phân tích cú pháp (thông qua cây phân tích) bằng cách dùng cây phân tích theo đặc trưng

có hiệu năng cao hơn khi chỉ dựa theo nghĩa của cụm từ (không có sự khác biệt đáng kể khi dùng n-gram dựa theo đặc trưng) [17]

e Các đặc trưng theo chủ đề

Sự tương tác giữa chủ đề và cảm xúc có vai trò quan trọng trong phân tích cảm xúc

Ví dụ:

Câu 1: “Walmart cho biết lợi nhuận tăng”

Câu 2: “Theo kế hoạch, lợi nhuận đã tăng”

Cả hai câu trên cùng để diễn đạt thông tin lợi nhuận của một đơn vị kinh doanh tăng so với thời điểm trước đó Với những người quan tâm thì thông tin này gây được cảm xúc tích cực Tuy nhiên, một đoạn văn bản dùng cho việc thông báo (Câu 1) sẽ chỉ tạo ra cảm xúc cho người đọc, mà không phải để thể hiện cảm xúc của người viết như Câu 2

Mối tương quan giữa cảm xúc và chủ đề cũng được mô tả bằng cây phân tích

cú pháp, đặc biệt là ở công đoạn trích rút cảm xúc

Chúng ta có hai hướng tiếp cận chính cho gán nhãn từ loại tự động:

− Tiếp cận có giám sát (supervised)

− Tiếp cận không giám sát (unsupervised)

Bộ gán nhãn có giám sát có đặc thù là dựa trên kho ngữ liệu đã được gán nhãn,

là công cụ được sử dụng cho quá trình gán nhãn Ví dụ như là Từ điển dùng để gán nhãn, nó bao gồm các tần suất từ/nhãn, các xác suất chuỗi nhãn, tập các luật, …

Trang 39

Mô hình không giám sát không yêu cầu kho ngữ liệu đã gán nhãn, nhưng lại sử dụng các thuật toán phức tạp để tự động xây dựng các nhóm từ (tức là xây dựng các tập nhãn), và dựa trên các nhóm từ này để tính toán các thông tin xác suất cần thiết cho các bộ gán nhãn thống kê hoặc để xây dựng các luật ngữ cảnh cần thiết cho các

hệ thống dựa trên luật

Với tiếng Việt, hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn là:

− Xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất là: danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ Dựa trên nhóm từ loại trên chúng ta có thể xây dựng tập nhãn “mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại Một vấn đề thường gặp phải khi gán nhãn là xuất hiện các từ chưa biết Một giải pháp cho trường hợp này là:

− Bộ gán nhãn tính xác suất mà một hậu tố trên một từ chưa biết xuất hiện với một nhãn đặc biệt

Gán một tập các nhãn mặc định (các lớp mở đặc đặc biệt: Danh từ, tính từ, trạng từ, động từ ) cho các từ chưa biết Để giải quyết nhập nhằng, chúng ta sử dụng các xác suất mà các nhãn đó xuất hiện tại cuối n-gram (mô hình n-gram là một

mô hình sử dụng n-1 từ đằng trước đó để dự đoán từ tiếp theo)



 Phân lớp dựa trên quan hệ thông tin

Mối quan hệ giữa các câu và giữa các văn bản

Một văn bản sẽ bao gồm nhiều văn bản thành phần (đoạn hoặc câu) Vì vậy, có thể xem nhãn cảm xúc cho văn bản là một hàm của một tập nhãn hoặc một chuỗi nhãn của các văn bản thành phần Như vậy, có thể có được một nhãn cho toàn văn bản chính xác hơn bằng cách tổng hợp nhãn của từng văn bản thành phần

Một quan điểm thể hiện trong văn bản gồm:

− Phần định lượng được (các yếu tố góp phần làm nên cảm xúc chung cho văn bản)

Ví dụ: “Một bộ phim tuyệt vời”

Câu trên rõ ràng có thể xác định là ý kiến của tác giả là tích cực đối với bộ phim.Yếu tố giúp định lượng cho câu trên và cũng là thực thể cần được gán nhãn:

"tuyệt vời" Ngoài nhãn thể hiện cảm xúc tích cực, "tuyệt vời" còn có thể nhận một

số điểm cao nhất nếu hệ thống đánh giá theo thang đa điểm (ví dụ thang 5 điểm)

− Phần không định lượng được

Ví dụ: “Trào lưu phụ nữ học thức có năng lực cao nhận những trọng trách lớn.”

Trang 40

Nếu đặt trong ngữ cảnh nói về bình đẳng giới thì câu trên sẽ được xếp vào nhãn tích cực Tuy nhiên, do nhận định của tác giả là hướng đến một đối tượng chung chung (phụ nữ) mà không phải cho một cá nhân cụ thể, nên sẽ khó xác định cực cho phát biểu, mặc dù trong đó có những cụm từ như "năng lực cao", "trọng trách lớn"

Từ ngữ dùng cho những phần định lượng được và phần không định lượng được rất khó phân định, làm cho điều này trở thành vấn đề rất khó khăn và đặc biệt quan trọng trong ngữ cảnh chúng ta đang nghiên cứu xử lý cảm xúc bằng máy tính Một phương pháp để định mức cảm xúc là quy trình hai bước theo Pang và Lee [14+1]



 Phát hiện phần khách quan của tài liệu (ví dụ: kịch bản của phim)

Phân lớp định lượng cảm xúc cho phần còn lại (sau khi đã lược bỏ phần có thể không chứa thông tin)

3.7 Phương pháp thực hiện đề tài

3.7.1 Mô hình tóm tắt ý kiến dựa trên phân loại cảm xúc

− Phân lớp cảm xúc cho các ý kiến: Tạo ba lớp cảm xúc tương ứng với các cảm xúc tích cực, tiêu cực và trung hòa Mỗi lớp sẽ gồm những câu được gán nhãn cảm xúc tương ứng Việc gán nhãn cảm xúc được thực hiện với sự kết hợp giữa các phương pháp học máy và mô hình không gian vector

− Việc tóm tắt ý kiến sẽ dựa theo đặc trưng của văn bản chủ đề và các đặc

trưng về cảm xúc của các ý kiến trong mỗi lớp cảm xúc

3.7.2 Các bước thực hiện

− Xây dựng từ điển từ tiếng Việt, từ điển phân loại cảm xúc từ tiếng Việt,

bao gồm cả các từ đặc biệt thể hiện cảm xúc phổ biến trong các diễn đàn như:

Ngày đăng: 27/01/2021, 00:08

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Phan Thị Tươi (2012), Xử lý ngôn ngữ tự nhiên, Nhà xuất bản Đại học Quốc gia Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: X"ử" lý ngôn ng"ữ" t"ự" nhiên
Tác giả: Phan Thị Tươi
Nhà XB: Nhà xuất bản Đại học Quốc gia Thành phố Hồ Chí Minh
Năm: 2012
[2] Nguyễn Tài Cẩn (1996), Ngữ pháp tiếng Việt, Nhà xuất bản Đại học Quốc gia Hà Nội, Hà Nội Sách, tạp chí
Tiêu đề: Ng"ữ" pháp ti"ế"ng Vi"ệ"t
Tác giả: Nguyễn Tài Cẩn
Nhà XB: Nhà xuất bản Đại học Quốc gia Hà Nội
Năm: 1996
[3] Nguyễn Văn Hiệp, (2009), "Cú pháp tiếng Việt", Nhà xuất bản Giáo Dục, Hà Nội Sách, tạp chí
Tiêu đề: Cú pháp tiếng Việt
Tác giả: Nguyễn Văn Hiệp
Nhà XB: Nhà xuất bản Giáo Dục
Năm: 2009
[4] Nguyễn Bá Đạt (2009), "Nhận dạng thực thể trong văn bản tiếng Việt", Đại học Công Nghệ, Đại học Quốc gia Hà Nội, Hà Nội Sách, tạp chí
Tiêu đề: Nhận dạng thực thể trong văn bản tiếng Việt
Tác giả: Nguyễn Bá Đạt
Năm: 2009
[5] Nguyễn Quang Châu, Cao Hoàng Trụ, Phan Thị Tươi (2006), "Gán nhãn từ loại cho tiếng Việt dựa trên văn phong và tính toán xác suất", Tạp chí phát triển Khoa học và Công nghệ, tập 9, (số 2), trang 11-21 Sách, tạp chí
Tiêu đề: Gán nhãn từ loại cho tiếng Việt dựa trên văn phong và tính toán xác suất
Tác giả: Nguyễn Quang Châu, Cao Hoàng Trụ, Phan Thị Tươi
Năm: 2006
[6] Võ Khánh Nguyên (2013), “Phân loại tính chủ quan của câu trong văn bản”, Đại học Bách Khoa Thành phố Hồ Chí Minh, Thành phố Hồ Chí Minh Sách, tạp chí
Tiêu đề: Phân lo"ạ"i tính ch"ủ" quan c"ủ"a câu trong v"ă"n b"ả"n
Tác giả: Võ Khánh Nguyên
Năm: 2013
[7] Vũ Hải Tùng (2005), “Tóm tắt văn bản bằng lượng giá – thống kê”, Đại học Bách Khoa Hà Nội, Hà Nội.TÀI LIỆU TIẾNG ANH Sách, tạp chí
Tiêu đề: Tóm t"ắ"t v"ă"n b"ả"n b"ằ"ng l"ượ"ng giá – th"ố"ng kê
Tác giả: Vũ Hải Tùng
Năm: 2005
[8] Aria Haghighi, Lucy Vanderwende. "Exploring Content Models for Multi- Document Summarization", Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the ACL, pages 362–370, Boulder, Colorado, June 2009. ©2009 Association for Computational Linguistics Sách, tạp chí
Tiêu đề: Exploring Content Models for Multi-Document Summarization
[9] Ani Nenkova and Kathleen McKeown (2011), "Automatic Summarization", Foundations and Trends in Information Retrieval Vol. 5, Nos. 2–3 (2011), pages 103–233 Sách, tạp chí
Tiêu đề: Automatic Summarization
Tác giả: Ani Nenkova and Kathleen McKeown (2011), "Automatic Summarization", Foundations and Trends in Information Retrieval Vol. 5, Nos. 2–3
Năm: 2011
[10] Bo Pang and Lillian Lee. (2008), "Opinion mining and sentiment analysis", Foundations and Trends in Information Retrieval, Vol. 2, No 1-2 (2008), pages 1–135 Sách, tạp chí
Tiêu đề: Opinion mining and sentiment analysis
Tác giả: Bo Pang and Lillian Lee. (2008), "Opinion mining and sentiment analysis", Foundations and Trends in Information Retrieval, Vol. 2, No 1-2
Năm: 2008
[12] Aurélien Bossard, Christophe Rodrigues (2010), "Combining a Multi- Document Update Summarization System –CBSEAS– with a Genetic Algorithm", Author manuscript, published in CIMA 2010 - International Workshop on Combinations of Intelligend Methods and Applications, Arras, France: France Sách, tạp chí
Tiêu đề: Combining a Multi-Document Update Summarization System –CBSEAS– with a Genetic Algorithm
Tác giả: Aurélien Bossard, Christophe Rodrigues
Năm: 2010
[13] Alexander Pak, Patrick Paroubek. "Twitter as a Corpus for Sentiment Analysis and Opinion Mining", Université de Paris-Sud, Laboratoire LIMSI-CNRS, Bâtiment 508, F-91405 Orsay Cedex, France alexpak@limsi.fr, pap@limsi.fr Sách, tạp chí
Tiêu đề: Twitter as a Corpus for Sentiment Analysis and Opinion Mining
[14] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan (2002). "Thumbs up? sentiment classification using machine learning techniques". In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 79–86 Sách, tạp chí
Tiêu đề: Thumbs up? sentiment classification using machine learning techniques
Tác giả: Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan
Năm: 2002
[15] Bo Pang and Lillian Lee. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. In Proceedings of the Association for Computational Linguistics (ACL), pages 271–278, 2004 Sách, tạp chí
Tiêu đề: Proceedings of the Association for Computational Linguistics (ACL)
[16] Vasileios Hatzivassiloglou and Kathleen McKeown (1997). Predicting the semantic orientation of adjectives. In Proceedings of the Joint ACL/EACL Conference, pages 174–181 Sách, tạp chí
Tiêu đề: Proceedings of the Joint ACL/EACL Conference
Tác giả: Vasileios Hatzivassiloglou and Kathleen McKeown
Năm: 1997
[17] Taku Kudo and Yuji Matsumoto. A boosting algorithm for classification of semi-structured text. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2004 Sách, tạp chí
Tiêu đề: Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)
[18] Haryy Zhang. The Optimality of Maive Bayes. American Association for Artificial Intelligence, 2004 Sách, tạp chí
Tiêu đề: American Association for Artificial Intelligence
[19] Vo Ngoc Phu and Phan Thi Tuoi, Sentiment Classification using enhanced Contextual Valence Shifters, In Proceedings of International Conference on Asian Language Processing (IALP 2014), Malaysia, 2014 Sách, tạp chí
Tiêu đề: Sentiment Classification using enhanced Contextual Valence Shifters

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w