Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)
Trang 1I H C DÂN L P H I PHÒNG -o0o -
NGÀNH CÔNG NGH THÔNG TIN
H I PHÒNG 2016
Trang 2I H C DÂN L P H I PHÒNG -o0o -
Trang 3I H C DÂN L P H I PHÒNG -o0o -
Sinh viên th c hi n: Nguy n Ti
Mã s sinh viên: 1413101001
Trang 5- -o0o -
m
Trang 6t th nghi m thu t toán
2 Các s li u c n thi thi t k , tính toán
m th c t p
Trang 7n nhi m v
Trang 8Tinh th c tài t t nghi p:
ng c tài t t nghi p (so v i n i dung yêu c ra trong nhi m v tài t t nghi p)
m c a cán b ng d n: m ghi b ng s và ch )
Cán b ng d n chính
( Ký, ghi rõ h tên )
Trang 9Cán b ch m ph n bi n
( Ký, ghi rõ h tên )
Trang 10M C L C 1
L I C 12
L U 13
NG QUAN V M PHÂN TÍCH C M XÚC 16
1.1. 16
1.2 L ch s c a phân tích c m 19
1.3 - 20
1.3.1. : 20
1.3.2 Bi u di n c 21
1.3.3 ng: 21
1.4 M t s nghiên c m 22
1.4.1 nh c m t m 23
1.4.2 nh chi ng, c m t m 25
1.5 Bài toán phân l m 28
P H S N PH M CHO X P H NG CÁC S N PH M 31
2.1 Gi i thi u 31
ng x p h ng d a các s n ph m 32
2.2.1 Các th c nghi m 38
2.2.2 Các k t qu 39
Trang 112.3 T ng k t 41
NGHI M TRÊN D LI U 43
3.1 D li u th nghi án 43
3.2 46
3.3 Gi i thi u công c JFSA 46
K T LU N 49
TÀI LI U THAM KH O 50
Trang 12L I C
ch b ng d n t n tình cho em trong su t quá trình tìm hi u và th c
hi n khóa lu n này
Em xin chân thành c các Th y, Cô trong Khoa Công ngh
n tình gi ng d y và truy n cho em nh ng ki n th c quý báu cho em trong su t quá trình h c t p và làm lu t nghi p
Em xin chân thành c i các Th y, Cô và các Cán b , Nhân viên
Trang 14hi i dùng v s n ph m và d ch v c a mình, thay vì
ph i l y phi u tra cho s n ph m m t cách th công, h có th thu th p
trang m ng T giúp các nhà s n xu t, các nhà cung c p d ch v
cao kinh nghi m mua s m c a khách hàng, các trang Web cho phép khách hàng c a h vi t nh n xét v s n ph m mà h t s s n ph m
Trang 16Thông tin
S ki n: là nh ng bi u hi n khách quan v c th , các
Ví d v câu ch a thông tin khách quan:
hi n tho i này có màu xanh
: u hi n ch quan mô t tình c m,
m xúc c i v i các th c th ,
s ki
Chi n tho i này r t
Nh ng thông tin nh n xét góp ý hay nh ng thông tin ch quan ch a
Trang 17M y trong m t ngày Trong s c gi c tuy n
th ng x p h ng tr c tuy a công dân tr c tuy n cao
c t bình lu n tr c tuy n ho c xem xét v m t s n ph m hay
t r ng h u h t các trang web mà h s d chia s
ng ph n l n các trang web mà h s d ng thách th m c a h , ch ra r ng nhi i không ch n là tìm ki
c tuy n bình lu n chính tr riêng c a h
Trang 18r i s d ng internet c a M m tích c c trong c tuy n, 58% cho r ng thông tin tr c tuy
Vi t Nam: các m ng xã h
i dùng tham gia
n chia s kinh nghi m và nh n xét c a riêng h
nh ng ti ng nói c i tiêu dùng có th v n d ng r t l n ng trong vi c hình thành nh n xét c
u c a h Công ty có th ng v i nh
thông xã h
Tuy nhiên, các nhà phân tích ngành công nghi ng vi c t n
Trang 19Các nhà ti p th luôn luôn c n truy n thông
ho ng quan h công chúng, vi ph m gian l n, ho c tình báo c nh tranh
n th ng Techno c tính r ng 75.000 blog m c t o ra m i ngày, cùng v i
1, 2 tri u bài vi t m u nh n xét i tiêu dùng
c phân tích c m xúc (sentiment analysis) hay khai thác quan
m (opinion mining) g c s quan tâm r ng rãi c a
các v nghiên c i nâng cao phân tích tình c m và khai thác
m
Các nhân t c nghiên c u g m:
và khôi ph c thông tin
S s n có c a các t p d li o cho các thu t toán h c máy, sphát tri n c a Internet, c th là s phát tri n c a t p h p các trang Web thu
Trang 20classification và opinion extraction.
Sentiment classification: khai thác các k thu phân lo i
n ho c thông qua ti p c n semantic/sentiment
postive, negative [Dave et al., 2003; Pang and Lee, 2004;
Turney, 2002, etc.]
m bao g m các thông tin v
Trang 21-Chúng ta có th bi u di n thông tin c ng hay th c th c
Trang 22(oj, fjk, soijkl, hi, tl), oj
-hi tl
Trang 23Vi c gán nhãn t lo c s d ng trong công vi u này có
Hu và Liu (2004) áp d ng vi c gán nhãn t lo t x lý ngôn
ng t nhiên nh m rút ra nh ng tính t ng t ch
t câu mà ch a m t hay nhi u d u hi u s n ph m và t
Trang 25(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff
Trang 26ch nh n m nh trong các bình lu n
n n
cho bài m
Th o lu n v vi c s d ng - là
theo các m c c m xúc cho d li u phim nh theo Dave
Trang 27-Nh ng phân tích ngôn ng c bi t
Kudo và Matsumoto, 2004 cho r ng
c ("ý ki n", "kh ng nh," ho c "mô t "), h c
Trang 28Kim và Hovy, 2007 xu t s d ng t ng quát
-
l p và cách mô t các l p giúp cho tri th nh d trong
Khi nghiên c u m ng, hi ng, chúng ta ch có th d a vào m t s h u h a chúng Nói cách khác, ta ch xem xét
bi u di n c ng, hi ng trong m t không gian h u h n chi u,
Trang 29ph i phân l p các t hay c m t ch m, h rút ra nh m khác nhau c m và s d ng thu t tốn Nạve Bayes (NB),
Trang 30Rating inference (ordinal regression
positive, negative, neutral positive negative.
neutral
negative
Nhi m v c a bài toán phân l p m
tài li u v i m c tiêu là phân lo i các tài li m
t nhi u ti p c c nghiên c gi i quy t cho
m khai thác các thông tin ch
Xây d phân l p các tài li u.
Trang 31h ng các s n ph m d a trên các thông tin c th c hi n
Trong ti p c n này, h s d ng hai tiêu chu p h ng
ph m c a Snapsort.com
Trang 32dùng cu i này có th k t h p thông tin này theo m
các quy nh riêng Tính ti n ích c a thông tin t các h th ng khai thác
m rõ ràng là tùy thu ng h p s d ng c th và nhu
s n ph m chính là:
Trang 33Vi c x p h ng h tr các nhu c u c th c a m t cá nhân hay c a m t nhi m v u/cu i.
c x p h ng có th hoàn toàn ch quan ho c n a ch quan
i s d ng có th b ng b i nh ng y u t ng
n s thích dù có th h ng hay không
M t ví d c a m t th h n t c u trúc siêu d li u chính là b ng x p h ng c a m t ch ng lo i s n ph m t m t c a hàng bán hàng tr c tuy n (trong công vi c này, là các th h ng doanh s bán hàng
Các nh t vai trò quan tr i v i m t quy nh mua
ngu thông tin h tr ra quy nh mua hàng c a h X p h ng
ng hoàn toàn ch quan, tuy nhiên, các y u t
Trang 34vào tính toán, nó có th c ti t l hay không s d ng các thông tin s n có t Snapsort.com
m t d ch v thu th p thông tin chi ti t v máy nh và cung
c p s so sánh gi a chúng i m s c a chúng k t h p các c
t thông s k thu t màn tr c ng m, có hay không s
nh c a vi nh hình nh, tính ph bi n (các máy
c xem bao nhiêu l n trên các trang web) ho c s ng kính có s n Th
h c v i tr ng s khác nhau c a m khác nhau v i nhau, th m chí
c kh i dùng không nh n th c c các nhân t này
Nhi m v c a bài báo này là t o ra m t danh sách th h ng c a các
s n ph m d a trên thông tin c x p th h ng các s n ph m, các
Trang 35tác gi th c hi
n (baselines)
Có hai cách ti p c n d a trên tính các t ho c các c m t có th hi n tích c c và tiêu c c
nh rõ ràng
m th thi n c m xúc score(p) cho m i s n ph m p c tính b ng
s các t tích c c (pos) trên toàn b các nh n xét cho s n ph m này tr
s các t tiêu c c (neg)
trong toàn b các nh n xét cho các s n ph c bi t allp:
c x p h ng c a các s n ph c t o b i vi c s p x p
n hai bi n th cDICT và DICTNorm
u tiên d a trên t n d dang th c hi n và s
d ng Tuy nhiên, nó không th c này các th hi n ch a
hi n d a trên h c máy cho các c m khách quan v i các m th hi n
m c a chúng trong ng c nh, s d ng JPFA (Joint Fine-Grained Sentiment Analysis Tool, Kingler và Cimiano, 2013)
m cho s n ph m và x p h c th c hi
p c n d a trên t n H c p n hai bi n th cpháp này là JFSA và JFSA-NORM
Trang 36trích các so sánh này, s d ng công c c gi i thi u cho CSRL (Comparision Semantic Role-Labeler, Kessler và Kuhn, 2013) H th ng
c so
th c th c p cho tên s n ph m (ho i di n) v
t cosin t i thi u trong m c t
(preferred)
(not preferred)
Trang 37nh t trong t p d li u Trong phiên b n ti p theo c a các
c m t ch quan ho c các th c th xem xét ch tính giá tr c a s n ph m
DICT-NORM (GI) 0.125* -0.148
DICT-NORM (MPQA) 0.142* -0.145
Trang 38Các thi t l p cho th c nghi m
d ng các nh c l y t trang Amazon v i các s n ph m: "camera" và "camera" trong k t n i v i "fuji",
"fuji-hTm", "canon", "panasonic", "olympus", "nikon", "sigma",
"hasselblad", "leica", "pentax", "rollei", "Samsung", "sony", "olympus"
S d ng cho chu n vàng th nh t, d li c l y t trang x p h ng bán hàng Amazon cho các mô t s n ph m (X p h n bán hàng t t nh t trên Amazon cho lo i Máy nh và Photo) trong kho ng th i gian t 14-18/04/2015, và bao g m ch các s n ph c cung c p x p h ng K t
qu tr v danh sách 920 s n ph m v i t ng s 71.409 nh n xét Các tên
c a s n ph c trích t c a trang và s d ng 6 ký t u tiên
i v i chu n vàng th hai, s d ng th h ng cho ch ng s n
ph m c cung c p b i Snapsort, trong s 150 s n ph u trong
b ng x p h ng doanh s bán hàng c a Amazon thì có 56 s n ph m cu t
hi n tên Snapsort S d ng các th h ng trong lo ng th
t t nh t) c a "t t c các máy nh k thu t s công b trong 48 tháng cu i
c truy h i vào ngày 12 Tháng Sáu 2015
JFSA c hu n luy n trên d li u v máy c thi t l p b i Kessler et al (2010) CSRL c hu n luy n v d li u máy nh c a Kessler
Trang 39Xem xét hai x p h p h ng bán hàng bao
g m 920 s n ph t ví d cho m t x p h ng có th h u ích cho các nhà qu n lý bán hàng và các nhà s n xu t s n ph m
Th hai là x p h ng chuyên gia b i Snapsort.com bao g m 56 s n
a hai x p h ng ( p= -0.04)
Theo các tác gi , b ng 1 là s so sánh k t qu c
K t qu t t nh t trên Amazon b m s nh n xét (p=0.33, NUMREVIEWS)
V i Snapsort, NUMREVIEWS ch cho p = 0.1 Nhân t t o ra s khác
Trang 40chu i các x p h ng chu n hóa c a cùng t
n (GI p = -0.16, MPQA p = -0,14)
Vi c x p h ng d a trên t n t t chút v i JFSA, p = 0,23 Chu n hóa s t t n s nh n xét) làm gi m hi u su t p = 0,15 S khác bi t c a JFSA v i dict-NORM (GI) và DlCT (MPQA và GI)
Trang 41p h ng khác nhau ng u nhiên B qua các
k t qu cho CSRL và các k t qu trên Snapsort mà t t c u g n ng u nhiên
i v i b ng x p h c t o b i JFSA, hi u su t c
u nh t g n v i x p x x p h ng c a doanh thu (p = 0,30) ti p theo là video (p = 0,28) C hai k t qu t p h ng target-agnostic
Trang 42s d ng trong các th c nghi m Thêm n a là các th o lu n làm th
và khuy n khích nghiên c u thêm M m s
i th p, cho phép cho m t phân tích v ng c a m t c
th trong x p h x p h ng doanh thu trên Amazon
K t qu t t nh t cho vi c x p h ng doanh s bán hàng c a Amazon
Trang 43D li u c s d ng: Trong ph n th c hi n th nghi
pháp s p x p th h c v cho x p th h ng các s n
ph m, em tìm hi u và phân tích d li u trên trang Amazon.com v i các giá c a khách hàng cho s n ph m cung máy nh
D li u bình lu n c a khách hàng c crawl v cho danh m c s n
ph m Camera and Photo có d ng sau:
Trang 46src/ bao g m t t c các file ngu n
bin/ bao g m các k ch b n tr biên d
3rdparty/ bao g m ark-tweet-nlp-0.3.2.jar
data/ g m các d li u ví d , các ng li u s d ng và các t c
s d ng trong mô hình
Trang 48Ho c: /bin/run.sh modelfile.jfsa inputdata.txt outputdata.txt
Trang 49trang Amazon.com, m u d li c crawl v t trang
phân tích thu t toán áp d ng trên d liChu n b d li u cho th c nghi m
Tìm hi u s d ng công c
n ch a nh n xét
Ch nghiên c u c án này là m c ki n th c m i hoàn
u bi t thêm r t nhi u cho nh ng bài toán có ý
c t Do th i gian có h tài m i ch u phân
th i gian t i, em s ti p t c phát tri t qu th c nghi m
Trong quá trình th c hi tài và trình bày n u
c ch c em không tránh kh i có nh ng thi u sót Em r t mong nh n
Em xin thân thành c
Trang 50[1] Ph Tìm hi u v support vector machine cho bài toán
i Phòng, 2012
n ph m trong tài li u ch m án t t nghi p
[3] Bing Liu, Sentiment Analysis Tutorial 2011
[4] Wiltrud Kessler and Jonas Kuhn 2013 Detection of product comparisons - How far does an out-of-thebox semantic role labeling system take you? In EMNLP, pages 1892 1897 ACL
[5] Wiltrud Kessler, Roman Klinger, and Jonas Kuhn 2015 Towards Opinion Mining from Reviews for the Prediction of Product Rankings In Proceedings of the 6th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis @ Association for Computational Linguistics 2015
[6] James H Steiger 1980 Tests for comparing elements of a correlation matrix Psychological Bulletin, 87(2):245 251
[7] https://java.com/en/download/chrome.jsp
[9] https://bitbucket.org/rklinger/jfsa/downloads