MỞ ĐẦUHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --- NGUYỄN CHÍ NGHIỆP KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH TIẾNG VIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN V
Trang 1MỞ ĐẦU
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
NGUYỄN CHÍ NGHIỆP
KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH TIẾNG VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
TÓM TẮT LUẬN VĂN THẠC SĨ HUẬ
Trang 2Lu n văn ho n th nh t i VIỆN N N Ệ U N V N T N
Ng i h ng n kho h Ts Ng u n h
Ph n iện Ts Trần Đăng ng
Ph n iện Ts Ngu ễn Du Ph ơng
Lu n văn o vệ tr h i ng h m lu n văn t i c viện Công Nghệ u hính Viễn thông
V o h i gi ng th ng năm
th t m hi u lu n n t i th viện c viện Công nghệ BCVT
Trang 3MỞ ĐẦU
V i sự phát tri n m nh mẽ củ internet v th ơng m i iện tử, l ng thông tin sinh ra là vô cùng l n Do v y việc trích ch n thông tin cần thiết l v ùng kh khăn Việc có m t hệ thống nh gi m t cách khách quan,
r qu n i m của số ng ng i ùng giúp ng i tiêu dùng có sự lựa ch n tốt nh t, ng th i ũng giúp nhà s n xu t biết c s n phẩm củ m nh ng ở u
M t trong những v n ề thú vị và có nhiều ứng dụng trong lĩnh vực xử lý ngôn ngữ tự nhiên là bài toán khai phá qu n i m trên câu so sánh Bài toán sẽ nh n
th ng tin ầu vào là m t câu so sánh về h i ối t ng, có chứa thu c tính so sánh, và mối quan hệ so sánh Nhiệm
vụ là dự o n xem ng i viết thích hoặ nh gi ối
t ng n o o hơn trong h i ối t ng về thu c tính
ng xem xét
V i ngôn ngữ tiếng Anh ã nhiều nghiên cứu
về h kh i ph qu n i m v ã ứng dụng ch y thực tế cho kết qu kh quan Mặ ù l h ng nghiên cứu m i v ã hứng tỏ c hiệu qu v i tiếng Anh, nh ng h nghiên ứu nào về khai phá quan
Trang 4i m trên câu so sánh cho tiếng Việt c công bố Vì
v y lu n văn mụ í h “Khai phá quan điểm trên câu so sánh tiếng Việt”
N i dung lu n văn g m 3 phần nh s u
Chương 1: Kh i ph qu n i m và khai phá quan
i m trên câu so sánh tiếng Việt
Chương 2: Mô hình phân l p gi i quyết bài toán
kh i ph qu n i m trên câu so sánh
Chương 3:Thực nghiêm
Trang 5CHƯƠNG 1: KHAI PHÁ QUAN ĐIỂM VÀ KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO
SÁNH TIẾNG VIỆT 1.1 Giới thiệu chung về khai phá quan điểm 1.1.1 Định nghĩa về khai phá quan điểm 1.1.2 Các mức độ khai phá quan điểm
- Mức tài liệu
- Mức câu
- Mức thực th
1.2 Các bài toán nhận diện quan điểm
- Bài toán nh n diện qu n i m
- Bài toán phân l p qu n i m.Khai phá và tổng h p qu n i m dự trên ặ tr ng
- Kh i ph qu n i m câu so sánh
a Bài toán nhận diện quan điểm
b Bài toán phân lớp quan điểm
c Bài toán khai phá quan điểm và tổng hợp quan điểm dựa trên đăc trưng
d Bài toán khai phá quan điểm so sánh
Trang 6i to n n n c chia thành 3 bài toán nhỏ :
- “Phát hiện câu so sánh trong phân tích quan điểm tiếng Việt”
- Xác định thực thể, thuộc tính trong phân tích quan điểm dựa trên câu so sánh tiếng Việt”
- Xác định quan điểm trong câu so sánh tiếng Việt” Lu n văn sẽ t p trung nghiên cứu bài toán thứ 3
Hình 1.1: Sơ đồ tổng quan bài toán Khai phá quan
điểm trên câu so sánh tiếng Việt
1.3 Ý nghĩa và ứng dụng của bài toán khai phá quan điểm
- Giới hạn về chủ đề: chủ ề nghiên cứu là s n
phẩm công nghệ nh iện tho i, công nghệ…
Trang 7- Giới hạn về số lượng câu so sánh: làm thực
nghiệm trên 1500 câu tiếng Việt ã x ịnh các
ối t ng, thu c tính và các từ khóa so sánh
- Dữ liệu lưu dưới dạng tập tin văn bản (txt) sử
dụng bộ mã Unicode
1.4 Kết luận chương
h ơng n lu n văn gi i thiệu tổng qu n ơ sở lý
lu n của bài toán khai ph qu n i m trên câu so
s nh, trên ơ sở lu n văn x ịnh v n ề cần gi i quyết củ i to n kh i ph qu n i m trên câu so sánh tiếng việt
Trên ơ sở ầu v o l u so s nh ã c xác ịnh thực th , thu tính v ầu ra sẽ l r qu n
i m của câu so sánh là yêu thích thực th n o hơn Trong h ơng ũng r gi i h n ph m vi về số
l ng câu làm thực nghiệm v lĩnh vực nghiên cứu
là thiết bị công nghệ
Trang 8CHƯƠNG 2 : MÔ HÌNH PHÂN LỚP GIẢI QUYẾT BÀI TOÁN KHAI PHÁ QUAN ĐIỂM TRÊN CÂU SO SÁNH
2.1 Mô hình bài toán khai phá quan điểm trên câu so sánh như một bài toán phân lớp
2.1.1 Phát biểu bài toán phân lớp quan điểm 2.1.2 Các bước thực hiện bài toán phân lớp quan điểm
Các bài toán phân l p qu n i m ều thực theo
c c lần l t
Hình 2.1: Sơ đồ pha phân lớp
Trang 92.2 Một số thuật toán phân lớp
2.2.1 SVM
a Định nghĩa
b Ý tưởng của phương pháp
Mụ ích củ ph ơng ph p SVM l t m c kho ng cách biên l n nh t c minh h nh hình 2.2:
Hình 2.2 Siêu phẳng phân chia dữ liệu học thành 2 lớp + và – với khoảng cách biên lớn nhất Các điểm gần
nhất (được khoanh tròn) là các Support Vector (7)
c Nội dung của của phương pháp
Cơ sở lý thuyết:
Bài toán phân 2 lớp với SVM
Trang 10Hình 2-3 Minh họa bài toán phân 2 lớp bằng phương
pháp SVM
i m mà nằm trên hai siêu phẳng ph n t h c
g i l Support Ve tor i m này sẽ quyết ịnh
Trang 11 Sử dụng các tham số cho việc hu n luyện v i t p
Mô hình Entropy cực đại
u i m của mô hình Entropy cự i:
2.3 Các phương pháp trích chọn đặc trưng
Trang 12Trong lu n văn ốn ặ tr ng c sử dụng l :
+O JE T Đối t ng số 1 trong câu so sánh +O JE T Đối t ng số 2 trong câu so sánh +FEATURE: Thu c tính so sánh trong câu
+RELATEWORK: Từ khóa so sánh
2.4 Kết luận chương
h ơng n ủa lu n văn tr nh bày tổng quan vềm h nh i to n kh i ph qu n i m trên câu so sánh
nh m t bài toán phân l p
Về mặt thu t toán phân l p, trong h ơng ũng
gi i thiệu 3 thu t toán phân l p là SVM, Naive Bayes, Maximum Entropy
Ngo i r trong h ơng ũng gi i thiệu h i ph ơng pháp trích tr n ặ h ng hu n dữ liệu d ng văn n sang dữ liệu d ng số v i bốn ặ tr ng l O JE T , OBJECT2, FEATURE và RELATEWORK
Trang 13CHƯƠNG 3: THỰC NGHIỆM VÀ KẾT
QUẢ
3 1 Thực nghiệm và kết quả
3.1.1 Thu thập và gán dữ liệu thực nghiệm
Việc thu th p dữ liệu ph i m b o trong m t câu
ph i bao g m ối t ng, 1 từ khóa so sánh và thu c tính so sánh có th có 1 hoặc ngầm hi u Sau khi tiến hành toàn b 1500 câu ta sẽ có danh sách
dữ liệu thực nghiệm:
3.1.2 Đánh giá quan điểm đối tượng
V i t p dữ liệu ã x ựng, ta xây dựng c t p
nh s h nh gi qu n i m v i mỗi câu ta xác ịnh ối t ng êu thí h l ối t ng 1 hay
ối t ng 2 Nếu ối t ng c yêu thích ta
nh số 1, nếu ối t ng êu thí h t nh
số t ơng úng v i mỗi dòng
3.1.3 Thống kê số lượng
V i b dữ liệu 1500 câu ta có b ng 3.1 thống kê số
l ng object 1, object 2, feature, relatework và số
l ng o je t , o je t êu thí h hơn
Trang 143.2 Thiết lập thực nghiệm
Từ b dữ liệu g m 1500 câu, tôi phân chia thành 5 phần m t cách ng u nhiên, mỗi phần g m 300 câu
S u 5 lần thự nghiệm, kết qu uối ùng l trung
nh ủ 5 lần thự hiện thự nghiệm héo
3.3 Công cụ thực hiện
3.3.1 LibSVM
Sau khi chuẩn bị dữ liệu, quá trình sử dụng LibSVM [6] bao g m c:
Bước 1: Huấn luyện (training)
Bước 2: Thử nghiệm mô hình (testing)
- Bước 1 ịnh qu n i m củ ng i dùng,
v i 1 câu so sánh g m ối t ng sẽ c
nh gi l ối t ng 1 là tốt hơn h ối
t ng 2 là tốt hơn Nếu ối t ng l c
Trang 15Bước 3 Xây dựng dữ liệu khuôn d ng SVM
Trang 16B ng 3.1 Thống kê kết qu sử dụng công cụ LibSVM v i tham số c và g
Thực thi l i các t p train v i các tham số c,g v i lệnh sau svm-train.exe -c 2.0 -g 0.125 train.1
svm-train.exe -c 32.0 -g 0.0078125 train.2
svm-train.exe -c 8.0 -g 0.125 train.3
svm-train.exe -c 2048.0 -g 0.00048828125 train.4 svm-train.exe -c 32.0 -g 0.125 train.5
Trang 17Hình 3.1 Test công cụ LibSVM với công cụ c và g
Trang 193.4.2 NẠVE BAYES
Kết qu thực nghiệm cơng cụ Weka v i thu t tốn Nạve Bayes cho kết qu nh ng 3.6
B ng 3.4 Thống kê kết qu sử dụng cơng cụ Weka v i
thu t tốn Nạve Bayes
Trang 20B ng 3.5 Thống kê kết qu sử dụng công cụ Weka v i
thu t toán Maximum Entropy
Trang 21B ng 3.6 Thống kê kết qu sử dụng 3 thu t toán
Trang 23Kết qu thực nghiệm cho th y r t kh quan tuy nhiên v n cịn nhiều tr ng h p v n cĩ th dự o n sai
3.6 Kết luận chương
h ơng n ã tr nh qu tr nh thực nghiệm dữ liệu v i 3 thu t tốn SVM, Nạve Bayes, Maximum Entropy v i 2 cơng cụ hỗ tr là LibSVM và Weka
V i mỗi ph ơng ph p t kết qu khác nhau, từ
t th nh gi c thu t tốn nào tốt nh t, chính xác cao nh t Trong quá trình thực nghiệm ã hỉ r l thu t tốn SVM Tuy nhiên tùy từng tr ng h p cụ th ta cĩ th ch n 1 trong 3 thu t to n ề phù h p v i mụ í h êu ầu
Trang 24KẾT LUẬN Các kết quả đạt được
Các kết qu t c của lu n văn o g m:
Nghiên cứu các v n ề trong bài tốn khai phá
qu n i m trên câu so sánh tiếng việt
Thực nghiệm so sánh ch t l ng củ ph ơng pháp phân l p sử dụng thu t tốn SVM, Nạve Bayes và Maximum Entropy
Phương hướng nghiên cứu tiếp theo
- T m ph ơng ph p kh i ph qu n i m trên câu
so sánh tiếng việt cĩ ch t l ng o hơn
- Ứng dụng i to n kh i ph qu n i m trên câu
so sánh tiếng Việt cho các bài tốn xử lý ngơn ngữ tiếng Việt khác
Trang 25TÀI LIỆU THAM KHẢO
[1]. Bing Liu (2012), Sentiment Analysis and Opinion
Mining, Synthesis lectures on human languages
technologies Morgan and Claypool publishers
[2] Bennett, P N 2000 Assessing the calibration of
N ive es’ posterior estim tes n Te hni l Report
No CMUCS00-155
[3] A El-Halees, "Opinion Mining from Arabic
Comparative Sentences", Proceedings of ACIT, pp
265-271
[4] M Ganapathibhotla and B Liu, "Mining Opinions in
Comparative Sentences", Proceedings of COLING, pp
241-248
[5] N Jindal and B Liu, "Identifying comparative
sentences in text documents", Proceedings of SIGIR, pp
244-251
[6] N Jindal and B Liu, "Mining comparative
sentences and relations", Proceedings of AAAI, pp
1331-1336
[7] Hsu, Wei; Chang, Chung; and Lin,
Chih-Jen (2003) A Practical Guide to Support Vector
Classification (Technical report) Department of
Trang 26Computer Science and Information Engineering,
National Taiwan University
[8] K Nigam, J Lafferty, and A McCallum, "Using maximunm Entropy for text classification", Proceeding
of the 16th International Joint Conference Workshop on Machine Learning for Information Filtering: 61-67 Stockholm, Sweden, 1999
[9] Zhang, Harry The Optimality of Naive Bayes,
FLAIRS2004 conference,
http://www.cs.unb.ca/~hzhang/publications/FLAIRS04ZhangH.pdf
[10] Ngo Xuan Bach, Tu Minh Phuong (2015),
“Lever ging User R tings for Resour e-Poor Sentiment
l ssifi tion”, Proceedings of the 19th International
Conference on Knowledge-Based and Intelligent
Information & Engineering Systems (KES), Singapore.
[11] Ngo Xuan Bach, Pham Duc Van, Nguyen Dinh
T i, Tu Minh Phuong ( 5), “Mining Vietn mese Comparative Sentences for Sentiment An l sis”,
Proceedings of the 7th International Conference on Knowledge and Systems Engineering (KSE), Ho Chi
Minh City, Vietnam
[12]. Wikipedia,
https://en.wikipedia.org/wiki/Sentiment_analysis
Trang 27[13]. C.-C Chang and C.-J Lin LIBSVM: a library for support vector machines, 2001 Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm