1. Trang chủ
  2. » Công Nghệ Thông Tin

Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)

50 167 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 9,34 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)Tìm hiểu phương pháp trích và sắp xếp các đặc trưng thể hiện quan điểm (Đồ án tốt nghiệp)

Trang 1

I H C DÂN L P H I PHÒNG -o0o -

NGÀNH CÔNG NGH THÔNG TIN

H I PHÒNG 2016

Trang 2

I H C DÂN L P H I PHÒNG -o0o -

Trang 3

I H C DÂN L P H I PHÒNG -o0o -

Sinh viên th c hi n: Nguy n Ti

Mã s sinh viên: 1413101001

Trang 5

- -o0o -

m

Trang 6

t th nghi m thu t toán

2 Các s li u c n thi thi t k , tính toán

m th c t p

Trang 7

n nhi m v

Trang 8

Tinh th c tài t t nghi p:

ng c tài t t nghi p (so v i n i dung yêu c ra trong nhi m v tài t t nghi p)

m c a cán b ng d n: m ghi b ng s và ch )

Cán b ng d n chính

( Ký, ghi rõ h tên )

Trang 9

Cán b ch m ph n bi n

( Ký, ghi rõ h tên )

Trang 10

M C L C 1

L I C 12

L U 13

NG QUAN V M PHÂN TÍCH C M XÚC 16

1.1. 16

1.2 L ch s c a phân tích c m 19

1.3 - 20

1.3.1. : 20

1.3.2 Bi u di n c 21

1.3.3 ng: 21

1.4 M t s nghiên c m 22

1.4.1 nh c m t m 23

1.4.2 nh chi ng, c m t m 25

1.5 Bài toán phân l m 28

P H S N PH M CHO X P H NG CÁC S N PH M 31

2.1 Gi i thi u 31

ng x p h ng d a các s n ph m 32

2.2.1 Các th c nghi m 38

2.2.2 Các k t qu 39

Trang 11

2.3 T ng k t 41

NGHI M TRÊN D LI U 43

3.1 D li u th nghi án 43

3.2 46

3.3 Gi i thi u công c JFSA 46

K T LU N 49

TÀI LI U THAM KH O 50

Trang 12

L I C

ch b ng d n t n tình cho em trong su t quá trình tìm hi u và th c

hi n khóa lu n này

Em xin chân thành c các Th y, Cô trong Khoa Công ngh

n tình gi ng d y và truy n cho em nh ng ki n th c quý báu cho em trong su t quá trình h c t p và làm lu t nghi p

Em xin chân thành c i các Th y, Cô và các Cán b , Nhân viên

Trang 14

hi i dùng v s n ph m và d ch v c a mình, thay vì

ph i l y phi u tra cho s n ph m m t cách th công, h có th thu th p

trang m ng T giúp các nhà s n xu t, các nhà cung c p d ch v

cao kinh nghi m mua s m c a khách hàng, các trang Web cho phép khách hàng c a h vi t nh n xét v s n ph m mà h t s s n ph m

Trang 16

Thông tin

S ki n: là nh ng bi u hi n khách quan v c th , các

Ví d v câu ch a thông tin khách quan:

hi n tho i này có màu xanh

: u hi n ch quan mô t tình c m,

m xúc c i v i các th c th ,

s ki

Chi n tho i này r t

Nh ng thông tin nh n xét góp ý hay nh ng thông tin ch quan ch a

Trang 17

M y trong m t ngày Trong s c gi c tuy n

th ng x p h ng tr c tuy a công dân tr c tuy n cao

c t bình lu n tr c tuy n ho c xem xét v m t s n ph m hay

t r ng h u h t các trang web mà h s d chia s

ng ph n l n các trang web mà h s d ng thách th m c a h , ch ra r ng nhi i không ch n là tìm ki

c tuy n bình lu n chính tr riêng c a h

Trang 18

r i s d ng internet c a M m tích c c trong c tuy n, 58% cho r ng thông tin tr c tuy

Vi t Nam: các m ng xã h

i dùng tham gia

n chia s kinh nghi m và nh n xét c a riêng h

nh ng ti ng nói c i tiêu dùng có th v n d ng r t l n ng trong vi c hình thành nh n xét c

u c a h Công ty có th ng v i nh

thông xã h

Tuy nhiên, các nhà phân tích ngành công nghi ng vi c t n

Trang 19

Các nhà ti p th luôn luôn c n truy n thông

ho ng quan h công chúng, vi ph m gian l n, ho c tình báo c nh tranh

n th ng Techno c tính r ng 75.000 blog m c t o ra m i ngày, cùng v i

1, 2 tri u bài vi t m u nh n xét i tiêu dùng

c phân tích c m xúc (sentiment analysis) hay khai thác quan

m (opinion mining) g c s quan tâm r ng rãi c a

các v nghiên c i nâng cao phân tích tình c m và khai thác

m

Các nhân t c nghiên c u g m:

và khôi ph c thông tin

S s n có c a các t p d li o cho các thu t toán h c máy, sphát tri n c a Internet, c th là s phát tri n c a t p h p các trang Web thu

Trang 20

classification và opinion extraction.

Sentiment classification: khai thác các k thu phân lo i

n ho c thông qua ti p c n semantic/sentiment

postive, negative [Dave et al., 2003; Pang and Lee, 2004;

Turney, 2002, etc.]

m bao g m các thông tin v

Trang 21

-Chúng ta có th bi u di n thông tin c ng hay th c th c

Trang 22

(oj, fjk, soijkl, hi, tl), oj

-hi tl

Trang 23

Vi c gán nhãn t lo c s d ng trong công vi u này có

Hu và Liu (2004) áp d ng vi c gán nhãn t lo t x lý ngôn

ng t nhiên nh m rút ra nh ng tính t ng t ch

t câu mà ch a m t hay nhi u d u hi u s n ph m và t

Trang 25

(Manning and Schutze, 1999) và phân tích cú pháp nông d a trên lu t (Neff

Trang 26

ch nh n m nh trong các bình lu n

n n

cho bài m

Th o lu n v vi c s d ng - là

theo các m c c m xúc cho d li u phim nh theo Dave

Trang 27

-Nh ng phân tích ngôn ng c bi t

Kudo và Matsumoto, 2004 cho r ng

c ("ý ki n", "kh ng nh," ho c "mô t "), h c

Trang 28

Kim và Hovy, 2007 xu t s d ng t ng quát

-

l p và cách mô t các l p giúp cho tri th nh d trong

Khi nghiên c u m ng, hi ng, chúng ta ch có th d a vào m t s h u h a chúng Nói cách khác, ta ch xem xét

bi u di n c ng, hi ng trong m t không gian h u h n chi u,

Trang 29

ph i phân l p các t hay c m t ch m, h rút ra nh m khác nhau c m và s d ng thu t tốn Nạve Bayes (NB),

Trang 30

Rating inference (ordinal regression

positive, negative, neutral positive negative.

neutral

negative

Nhi m v c a bài toán phân l p m

tài li u v i m c tiêu là phân lo i các tài li m

t nhi u ti p c c nghiên c gi i quy t cho

m khai thác các thông tin ch

Xây d phân l p các tài li u.

Trang 31

h ng các s n ph m d a trên các thông tin c th c hi n

Trong ti p c n này, h s d ng hai tiêu chu p h ng

ph m c a Snapsort.com

Trang 32

dùng cu i này có th k t h p thông tin này theo m

các quy nh riêng Tính ti n ích c a thông tin t các h th ng khai thác

m rõ ràng là tùy thu ng h p s d ng c th và nhu

s n ph m chính là:

Trang 33

Vi c x p h ng h tr các nhu c u c th c a m t cá nhân hay c a m t nhi m v u/cu i.

c x p h ng có th hoàn toàn ch quan ho c n a ch quan

i s d ng có th b ng b i nh ng y u t ng

n s thích dù có th h ng hay không

M t ví d c a m t th h n t c u trúc siêu d li u chính là b ng x p h ng c a m t ch ng lo i s n ph m t m t c a hàng bán hàng tr c tuy n (trong công vi c này, là các th h ng doanh s bán hàng

Các nh t vai trò quan tr i v i m t quy nh mua

ngu thông tin h tr ra quy nh mua hàng c a h X p h ng

ng hoàn toàn ch quan, tuy nhiên, các y u t

Trang 34

vào tính toán, nó có th c ti t l hay không s d ng các thông tin s n có t Snapsort.com

m t d ch v thu th p thông tin chi ti t v máy nh và cung

c p s so sánh gi a chúng i m s c a chúng k t h p các c

t thông s k thu t màn tr c ng m, có hay không s

nh c a vi nh hình nh, tính ph bi n (các máy

c xem bao nhiêu l n trên các trang web) ho c s ng kính có s n Th

h c v i tr ng s khác nhau c a m khác nhau v i nhau, th m chí

c kh i dùng không nh n th c c các nhân t này

Nhi m v c a bài báo này là t o ra m t danh sách th h ng c a các

s n ph m d a trên thông tin c x p th h ng các s n ph m, các

Trang 35

tác gi th c hi

n (baselines)

Có hai cách ti p c n d a trên tính các t ho c các c m t có th hi n tích c c và tiêu c c

nh rõ ràng

m th thi n c m xúc score(p) cho m i s n ph m p c tính b ng

s các t tích c c (pos) trên toàn b các nh n xét cho s n ph m này tr

s các t tiêu c c (neg)

trong toàn b các nh n xét cho các s n ph c bi t allp:

c x p h ng c a các s n ph c t o b i vi c s p x p

n hai bi n th cDICT và DICTNorm

u tiên d a trên t n d dang th c hi n và s

d ng Tuy nhiên, nó không th c này các th hi n ch a

hi n d a trên h c máy cho các c m khách quan v i các m th hi n

m c a chúng trong ng c nh, s d ng JPFA (Joint Fine-Grained Sentiment Analysis Tool, Kingler và Cimiano, 2013)

m cho s n ph m và x p h c th c hi

p c n d a trên t n H c p n hai bi n th cpháp này là JFSA và JFSA-NORM

Trang 36

trích các so sánh này, s d ng công c c gi i thi u cho CSRL (Comparision Semantic Role-Labeler, Kessler và Kuhn, 2013) H th ng

c so

th c th c p cho tên s n ph m (ho i di n) v

t cosin t i thi u trong m c t

(preferred)

(not preferred)

Trang 37

nh t trong t p d li u Trong phiên b n ti p theo c a các

c m t ch quan ho c các th c th xem xét ch tính giá tr c a s n ph m

DICT-NORM (GI) 0.125* -0.148

DICT-NORM (MPQA) 0.142* -0.145

Trang 38

Các thi t l p cho th c nghi m

d ng các nh c l y t trang Amazon v i các s n ph m: "camera" và "camera" trong k t n i v i "fuji",

"fuji-hTm", "canon", "panasonic", "olympus", "nikon", "sigma",

"hasselblad", "leica", "pentax", "rollei", "Samsung", "sony", "olympus"

S d ng cho chu n vàng th nh t, d li c l y t trang x p h ng bán hàng Amazon cho các mô t s n ph m (X p h n bán hàng t t nh t trên Amazon cho lo i Máy nh và Photo) trong kho ng th i gian t 14-18/04/2015, và bao g m ch các s n ph c cung c p x p h ng K t

qu tr v danh sách 920 s n ph m v i t ng s 71.409 nh n xét Các tên

c a s n ph c trích t c a trang và s d ng 6 ký t u tiên

i v i chu n vàng th hai, s d ng th h ng cho ch ng s n

ph m c cung c p b i Snapsort, trong s 150 s n ph u trong

b ng x p h ng doanh s bán hàng c a Amazon thì có 56 s n ph m cu t

hi n tên Snapsort S d ng các th h ng trong lo ng th

t t nh t) c a "t t c các máy nh k thu t s công b trong 48 tháng cu i

c truy h i vào ngày 12 Tháng Sáu 2015

JFSA c hu n luy n trên d li u v máy c thi t l p b i Kessler et al (2010) CSRL c hu n luy n v d li u máy nh c a Kessler

Trang 39

Xem xét hai x p h p h ng bán hàng bao

g m 920 s n ph t ví d cho m t x p h ng có th h u ích cho các nhà qu n lý bán hàng và các nhà s n xu t s n ph m

Th hai là x p h ng chuyên gia b i Snapsort.com bao g m 56 s n

a hai x p h ng ( p= -0.04)

Theo các tác gi , b ng 1 là s so sánh k t qu c

K t qu t t nh t trên Amazon b m s nh n xét (p=0.33, NUMREVIEWS)

V i Snapsort, NUMREVIEWS ch cho p = 0.1 Nhân t t o ra s khác

Trang 40

chu i các x p h ng chu n hóa c a cùng t

n (GI p = -0.16, MPQA p = -0,14)

Vi c x p h ng d a trên t n t t chút v i JFSA, p = 0,23 Chu n hóa s t t n s nh n xét) làm gi m hi u su t p = 0,15 S khác bi t c a JFSA v i dict-NORM (GI) và DlCT (MPQA và GI)

Trang 41

p h ng khác nhau ng u nhiên B qua các

k t qu cho CSRL và các k t qu trên Snapsort mà t t c u g n ng u nhiên

i v i b ng x p h c t o b i JFSA, hi u su t c

u nh t g n v i x p x x p h ng c a doanh thu (p = 0,30) ti p theo là video (p = 0,28) C hai k t qu t p h ng target-agnostic

Trang 42

s d ng trong các th c nghi m Thêm n a là các th o lu n làm th

và khuy n khích nghiên c u thêm M m s

i th p, cho phép cho m t phân tích v ng c a m t c

th trong x p h x p h ng doanh thu trên Amazon

K t qu t t nh t cho vi c x p h ng doanh s bán hàng c a Amazon

Trang 43

D li u c s d ng: Trong ph n th c hi n th nghi

pháp s p x p th h c v cho x p th h ng các s n

ph m, em tìm hi u và phân tích d li u trên trang Amazon.com v i các giá c a khách hàng cho s n ph m cung máy nh

D li u bình lu n c a khách hàng c crawl v cho danh m c s n

ph m Camera and Photo có d ng sau:

Trang 46

src/ bao g m t t c các file ngu n

bin/ bao g m các k ch b n tr biên d

3rdparty/ bao g m ark-tweet-nlp-0.3.2.jar

data/ g m các d li u ví d , các ng li u s d ng và các t c

s d ng trong mô hình

Trang 48

Ho c: /bin/run.sh modelfile.jfsa inputdata.txt outputdata.txt

Trang 49

trang Amazon.com, m u d li c crawl v t trang

phân tích thu t toán áp d ng trên d liChu n b d li u cho th c nghi m

Tìm hi u s d ng công c

n ch a nh n xét

Ch nghiên c u c án này là m c ki n th c m i hoàn

u bi t thêm r t nhi u cho nh ng bài toán có ý

c t Do th i gian có h tài m i ch u phân

th i gian t i, em s ti p t c phát tri t qu th c nghi m

Trong quá trình th c hi tài và trình bày n u

c ch c em không tránh kh i có nh ng thi u sót Em r t mong nh n

Em xin thân thành c

Trang 50

[1] Ph Tìm hi u v support vector machine cho bài toán

i Phòng, 2012

n ph m trong tài li u ch m án t t nghi p

[3] Bing Liu, Sentiment Analysis Tutorial 2011

[4] Wiltrud Kessler and Jonas Kuhn 2013 Detection of product comparisons - How far does an out-of-thebox semantic role labeling system take you? In EMNLP, pages 1892 1897 ACL

[5] Wiltrud Kessler, Roman Klinger, and Jonas Kuhn 2015 Towards Opinion Mining from Reviews for the Prediction of Product Rankings In Proceedings of the 6th Workshop on Computational Approaches to Subjectivity, Sentiment and Social Media Analysis @ Association for Computational Linguistics 2015

[6] James H Steiger 1980 Tests for comparing elements of a correlation matrix Psychological Bulletin, 87(2):245 251

[7] https://java.com/en/download/chrome.jsp

[9] https://bitbucket.org/rklinger/jfsa/downloads

Ngày đăng: 25/02/2018, 07:50

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w