1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá quản điểm trên câu so sánh tiếng việt (tt)

27 14 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 545,49 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

MỞ ĐẦUHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --- NGUYỄN CHÍ NGHIỆP KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN V

Trang 1

MỞ ĐẦU

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

NGUYỄN CHÍ NGHIỆP

KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ HUẬ

Trang 2

Lu n văn ho n th nh t i VIỆN N N Ệ U N V N T N

Ng i h ng n kho h Ts Ng u n h

Ph n iện Ts Trần Đăng ng

Ph n iện Ts Ngu ễn Du Ph ơng

Lu n văn o vệ tr h i ng h m lu n văn t i c viện Công Nghệ u hính Viễn thông

V o h i gi ng th ng năm

th t m hi u lu n n t i th viện c viện Công nghệ BCVT

Trang 3

MỞ ĐẦU

V i sự phát tri n m nh mẽ củ internet v th ơng m i iện tử, l ng thông tin sinh ra là vô cùng l n Do v y việc trích ch n thông tin cần thiết l v ùng kh khăn Việc có m t hệ thống nh gi m t cách khách quan,

r qu n i m của số ng ng i ùng giúp ng i tiêu dùng có sự lựa ch n tốt nh t, ng th i ũng giúp nhà s n xu t biết c s n phẩm củ m nh ng ở u

M t trong những v n ề thú vị và có nhiều ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên là bài toán khai phá qu n i m trên câu so sánh Bài toán sẽ nh n

th ng tin ầu vào là m t câu so sánh về h i ối t ng, có chứa thu c tính so sánh, và mối quan hệ so sánh Nhiệm

vụ là dự o n xem ng i viết thích hoặ nh gi ối

t ng n o o hơn trong h i ối t ng về thu c tính

ng xem xét

V i ngôn ngữ tiếng Anh ã nhiều nghiên cứu

về h kh i ph qu n i m v ã ứng dụng ch y thực tế cho kết qu kh quan Mặ ù l h ng nghiên cứu m i v ã hứng tỏ c hiệu qu v i tiếng Anh, nh ng h nghiên ứu nào về khai phá quan

Trang 4

i m trên câu so sánh cho tiếng Việt c công bố Vì

v y lu n văn mụ í h “Khai phá quan điểm trên câu so sánh tiếng Việt”

N i dung lu n văn g m 3 phần nh s u

Chương 1: Kh i ph qu n i m và khai phá quan

i m trên câu so sánh tiếng Việt

Chương 2: Mô hình phân l p gi i quyết bài toán

kh i ph qu n i m trên câu so sánh

Chương 3:Thực nghiêm

Trang 5

CHƯƠNG 1: KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO

SÁNH TIẾNG VIỆT 1.1 Giới thiệu chung về khai phá quan điểm 1.1.1 Định nghĩa về khai phá quan điểm 1.1.2 Các mức độ khai phá quan điểm

- Mức tài liệu

- Mức câu

- Mức thực th

1.2 Các bài toán nhận diện quan điểm

- Bài toán nh n diện qu n i m

- Bài toán phân l p qu n i m.Khai phá và tổng h p qu n i m dự trên ặ tr ng

- Kh i ph qu n i m câu so sánh

a Bài toán nhận diện quan điểm

b Bài toán phân lớp quan điểm

c Bài toán khai phá quan điểm và tổng hợp quan điểm dựa trên đăc trưng

d Bài toán khai phá quan điểm so sánh

Trang 6

i to n n n c chia thành 3 bài toán nhỏ :

- “Phát hiện câu so sánh trong phân tích quan điểm tiếng Việt”

- Xác định thực thể, thuộc tính trong phân tích quan điểm dựa trên câu so sánh tiếng Việt”

- Xác định quan điểm trong câu so sánh tiếng Việt” Lu n văn sẽ t p trung nghiên cứu bài toán thứ 3

Hình 1.1: Sơ đồ tổng quan bài toán Khai phá quan

điểm trên câu so sánh tiếng Việt

1.3 Ý nghĩa và ứng dụng của bài toán khai phá quan điểm

- Giới hạn về chủ đề: chủ ề nghiên cứu là s n

phẩm công nghệ nh iện tho i, công nghệ…

Trang 7

- Giới hạn về số lượng câu so sánh: làm thực

nghiệm trên 1500 câu tiếng Việt ã x ịnh các

ối t ng, thu c tính và các từ khóa so sánh

- Dữ liệu lưu dưới dạng tập tin văn bản (txt) sử

dụng bộ mã Unicode

1.4 Kết luận chương

h ơng n lu n văn gi i thiệu tổng qu n ơ sở lý

lu n của bài toán khai ph qu n i m trên câu so

s nh, trên ơ sở lu n văn x ịnh v n ề cần gi i quyết củ i to n kh i ph qu n i m trên câu so sánh tiếng việt

Trên ơ sở ầu v o l u so s nh ã c xác ịnh thực th , thu tính v ầu ra sẽ l r qu n

i m của câu so sánh là yêu thích thực th n o hơn Trong h ơng ũng r gi i h n ph m vi về số

l ng câu làm thực nghiệm v lĩnh vực nghiên cứu

là thiết bị công nghệ

Trang 8

CHƯƠNG 2 : MÔ HÌNH PHÂN LỚP GIẢI QUYẾT BÀI TOÁN KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH

2.1 Mô hình bài toán khai phá quan điểm trên câu so sánh như một bài toán phân lớp

2.1.1 Phát biểu bài toán phân lớp quan điểm 2.1.2 Các bước thực hiện bài toán phân lớp quan điểm

Các bài toán phân l p qu n i m ều thực theo

c c lần l t

Hình 2.1: Sơ đồ pha phân lớp

Trang 9

2.2 Một số thuật toán phân lớp

2.2.1 SVM

a Định nghĩa

b Ý tưởng của phương pháp

Mụ ích củ ph ơng ph p SVM l t m c kho ng cách biên l n nh t c minh h nh hình 2.2:

Hình 2.2 Siêu phẳng phân chia dữ liệu học thành 2 lớp + và – với khoảng cách biên lớn nhất Các điểm gần

nhất (được khoanh tròn) là các Support Vector (7)

c Nội dung của của phương pháp

Cơ sở lý thuyết:

Bài toán phân 2 lớp với SVM

Trang 10

Hình 2-3 Minh họa bài toán phân 2 lớp bằng phương

pháp SVM

i m mà nằm trên hai siêu phẳng ph n t h c

g i l Support Ve tor i m này sẽ quyết ịnh

Trang 11

 Sử dụng các tham số cho việc hu n luyện v i t p

Mô hình Entropy cực đại

u i m của mô hình Entropy cự i:

2.3 Các phương pháp trích chọn đặc trưng

Trang 12

Trong lu n văn ốn ặ tr ng c sử dụng l :

+O JE T Đối t ng số 1 trong câu so sánh +O JE T Đối t ng số 2 trong câu so sánh +FEATURE: Thu c tính so sánh trong câu

+RELATEWORK: Từ khóa so sánh

2.4 Kết luận chương

h ơng n ủa lu n văn tr nh bày tổng quan vềm h nh i to n kh i ph qu n i m trên câu so sánh

nh m t bài toán phân l p

Về mặt thu t toán phân l p, trong h ơng ũng

gi i thiệu 3 thu t toán phân l p là SVM, Naive Bayes, Maximum Entropy

Ngo i r trong h ơng ũng gi i thiệu h i ph ơng pháp trích tr n ặ h ng hu n dữ liệu d ng văn n sang dữ liệu d ng số v i bốn ặ tr ng l O JE T , OBJECT2, FEATURE và RELATEWORK

Trang 13

CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT

QUẢ

3 1 Thực nghiệm và kết quả

3.1.1 Thu thập và gán dữ liệu thực nghiệm

Việc thu th p dữ liệu ph i m b o trong m t câu

ph i bao g m ối t ng, 1 từ khóa so sánh và thu c tính so sánh có th có 1 hoặc ngầm hi u Sau khi tiến hành toàn b 1500 câu ta sẽ có danh sách

dữ liệu thực nghiệm:

3.1.2 Đánh giá quan điểm đối tượng

V i t p dữ liệu ã x ựng, ta xây dựng c t p

nh s h nh gi qu n i m v i mỗi câu ta xác ịnh ối t ng êu thí h l ối t ng 1 hay

ối t ng 2 Nếu ối t ng c yêu thích ta

nh số 1, nếu ối t ng êu thí h t nh

số t ơng úng v i mỗi dòng

3.1.3 Thống kê số lượng

V i b dữ liệu 1500 câu ta có b ng 3.1 thống kê số

l ng object 1, object 2, feature, relatework và số

l ng o je t , o je t êu thí h hơn

Trang 14

3.2 Thiết lập thực nghiệm

Từ b dữ liệu g m 1500 câu, tôi phân chia thành 5 phần m t cách ng u nhiên, mỗi phần g m 300 câu

S u 5 lần thự nghiệm, kết qu uối ùng l trung

nh ủ 5 lần thự hiện thự nghiệm héo

3.3 Công cụ thực hiện

3.3.1 LibSVM

Sau khi chuẩn bị dữ liệu, quá trình sử dụng LibSVM [6] bao g m c:

Bước 1: Huấn luyện (training)

Bước 2: Thử nghiệm mô hình (testing)

- Bước 1 ịnh qu n i m củ ng i dùng,

v i 1 câu so sánh g m ối t ng sẽ c

nh gi l ối t ng 1 là tốt hơn h ối

t ng 2 là tốt hơn Nếu ối t ng l c

Trang 15

Bước 3 Xây dựng dữ liệu khuôn d ng SVM

Trang 16

B ng 3.1 Thống kê kết qu sử dụng công cụ LibSVM v i tham số c và g

Thực thi l i các t p train v i các tham số c,g v i lệnh sau svm-train.exe -c 2.0 -g 0.125 train.1

svm-train.exe -c 32.0 -g 0.0078125 train.2

svm-train.exe -c 8.0 -g 0.125 train.3

svm-train.exe -c 2048.0 -g 0.00048828125 train.4 svm-train.exe -c 32.0 -g 0.125 train.5

Trang 17

Hình 3.1 Test công cụ LibSVM với công cụ c và g

Trang 19

3.4.2 NẠVE BAYES

Kết qu thực nghiệm cơng cụ Weka v i thu t tốn Nạve Bayes cho kết qu nh ng 3.6

B ng 3.4 Thống kê kết qu sử dụng cơng cụ Weka v i

thu t tốn Nạve Bayes

Trang 20

B ng 3.5 Thống kê kết qu sử dụng công cụ Weka v i

thu t toán Maximum Entropy

Trang 21

B ng 3.6 Thống kê kết qu sử dụng 3 thu t toán

Trang 23

Kết qu thực nghiệm cho th y r t kh quan tuy nhiên v n cịn nhiều tr ng h p v n cĩ th dự o n sai

3.6 Kết luận chương

h ơng n ã tr nh qu tr nh thực nghiệm dữ liệu v i 3 thu t tốn SVM, Nạve Bayes, Maximum Entropy v i 2 cơng cụ hỗ tr là LibSVM và Weka

V i mỗi ph ơng ph p t kết qu khác nhau, từ

t th nh gi c thu t tốn nào tốt nh t, chính xác cao nh t Trong quá trình thực nghiệm ã hỉ r l thu t tốn SVM Tuy nhiên tùy từng tr ng h p cụ th ta cĩ th ch n 1 trong 3 thu t to n ề phù h p v i mụ í h êu ầu

Trang 24

KẾT LUẬN Các kết quả đạt được

Các kết qu t c của lu n văn o g m:

 Nghiên cứu các v n ề trong bài tốn khai phá

qu n i m trên câu so sánh tiếng việt

 Thực nghiệm so sánh ch t l ng củ ph ơng pháp phân l p sử dụng thu t tốn SVM, Nạve Bayes và Maximum Entropy

Phương hướng nghiên cứu tiếp theo

- T m ph ơng ph p kh i ph qu n i m trên câu

so sánh tiếng việt cĩ ch t l ng o hơn

- Ứng dụng i to n kh i ph qu n i m trên câu

so sánh tiếng Việt cho các bài tốn xử lý ngơn ngữ tiếng Việt khác

Trang 25

TÀI LIỆU THAM KHẢO

[1]. Bing Liu (2012), Sentiment Analysis and Opinion

Mining, Synthesis lectures on human languages

technologies Morgan and Claypool publishers

[2] Bennett, P N 2000 Assessing the calibration of

N ive es’ posterior estim tes n Te hni l Report

No CMUCS00-155

[3] A El-Halees, "Opinion Mining from Arabic

Comparative Sentences", Proceedings of ACIT, pp

265-271

[4] M Ganapathibhotla and B Liu, "Mining Opinions in

Comparative Sentences", Proceedings of COLING, pp

241-248

[5] N Jindal and B Liu, "Identifying comparative

sentences in text documents", Proceedings of SIGIR, pp

244-251

[6] N Jindal and B Liu, "Mining comparative

sentences and relations", Proceedings of AAAI, pp

1331-1336

[7] Hsu, Wei; Chang, Chung; and Lin,

Chih-Jen (2003) A Practical Guide to Support Vector

Classification (Technical report) Department of

Trang 26

Computer Science and Information Engineering,

National Taiwan University

[8] K Nigam, J Lafferty, and A McCallum, "Using maximunm Entropy for text classification", Proceeding

of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999

[9] Zhang, Harry The Optimality of Naive Bayes,

FLAIRS2004 conference,

http://www.cs.unb.ca/~hzhang/publications/FLAIRS04ZhangH.pdf

[10] Ngo Xuan Bach, Tu Minh Phuong (2015),

“Lever ging User R tings for Resour e-Poor Sentiment

l ssifi tion”, Proceedings of the 19th International

Conference on Knowledge-Based and Intelligent

Information & Engineering Systems (KES), Singapore.

[11] Ngo Xuan Bach, Pham Duc Van, Nguyen Dinh

T i, Tu Minh Phuong ( 5), “Mining Vietn mese Comparative Sentences for Sentiment An l sis”,

Proceedings of the 7th International Conference on Knowledge and Systems Engineering (KSE), Ho Chi

Minh City, Vietnam

[12]. Wikipedia,

https://en.wikipedia.org/wiki/Sentiment_analysis

Trang 27

[13]. C.-C Chang and C.-J Lin LIBSVM: a library for support vector machines, 2001 Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm

Ngày đăng: 19/03/2021, 17:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm