1. Trang chủ
  2. » Công Nghệ Thông Tin

Trích rút thông tin tự động dựa trên học máy cho tiếng việt

81 195 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 2,51 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ng For years, Microsoft CorporationCEOBill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "canc

Trang 1

Trang 1

- 2010B -

trong

!

Trang 2

Trang 2

Trang 3

Trang 3

1

2

3

6

7

8

Ư 1 11

1.1 11

1.2 Ki n trúc c a h th ng trích rút thông tin 15

1.2.1 Trích rút th c th - Named Entity Recognition (NER) 16

1.2.2 Gi i quy ng tham chi u 17

1.2.3 Xây d ng m u ph n t - Template Element Construction (TE) 18

1.2.4 Xây d ng m u quan h 19

1.2.5 u k ch b n 19

1.3 Bài toán trích rút th c th 20

1.4 23

1.4.1 Trích rút thông tin t n 23

1.4.2 23

1.4.3 H tr h th ng tr l i câu hỏi t ng 24

1.4.4 C i thi n k t qu c a h th ng tìm ki m 24

Ư 2 Ư

TRÍCH RÚT THÔNG TIN 25 2.1 (hand-written regular expressions) 25

2.2 idden Markov Model - HMM) 26

2.3 Mô hình Markov c i hóa Entropy (MEMM) 28

2.4 T ng k 32

Ư 3 MÔ Ư 33

3.1 ng ng u ki n - CRFs 33

Trang 4

Trang 4

3.2 35

3.2.1 35

3.2.2 35

3.2.3 36

3.3 38

3.4 39

3.5 41

3.6 ch nhãn 43

3.7 44

Ư 4 45

4.1 45

4.2 Ứng d t 50

4.2.1 d ng CRF 50

4.2.2 50

4.2.3 54

4.3 d n: 55

4.3.1 ng: 56

4.3.2 ng câu 56

4.3.3 ng câu 57

4.3.4 ng câu 57

4.4 60

Ư 5 Ư

61

5.1 t 61

5.2 Thi t k 61

5.2.1 Bi lu ng d li u các m c 61

5.2.2 Bi phân c p ch 63

5.2.3 Các bi lu ng th hi n ch th ng 64

Trang 5

Trang 5

5.2.4 Thi t k d li u 67

5.3 Xây d 68

5.3.1 L a ch n ngôn ng và công c l p trình 68

5.3.2 Các l 69

5.4 Thi t k giao di n và s d 72

5.5 75

5.5.1 75

5.5.2 76

5.5.3 76

78

78

79

80

Trang 6

Trang 6

1-1: Ki n trúc c a h th ng trích rút thông tin 16

1-2: Ki n trúc c a h th ng trích rút th c th .20

1-3: H th ng tìm ki m 24

- .27

- .29

2-3: V sai l ch nhãn 30

- .34

- .36

- n 42

- ch nhãn 43

- .47

- .48

- .49

- .50

- .51

- .52

- .53

- .55

5-1: Bi lu ng d li u m c khung c nh 62

5-2: Bi lu ng d li u m nh 62

- .63

- .64

- .66

- .67

- .69

- .70

- .71

- .71

- .72

- .72

- .73

- .74

- .74

Trang 7

Trang 7

- .15

- .17

- .18

- .19

- .19

- .22

- .31

4-1 53

- affection, jealous and gossip) 58

- affection, jealous and gossip) 59

- .68

- .75

- .76

- .77

Trang 8

Trang 8

(2-1) 27

(2-2) 27

(2-3) 29

(2-4) 29

(2-5) 30

(2-6) 30

(2-7) 31

(3-1) 34

(3-2) 34

(3-3) 35

(3-4) 35

(3-5) 35

(3-6) 36

(3-7) 36

(3-8) 36

(3-9) 37

(3-10) 37

(3-11) 38

(3-12) 38

(3-13) 38

(3-14) 38

(3-15) 39

(3-16) 39

(3-17) 39

(3-18) 40

(3-19) 40

(3-20) 41

(3-21) 41

(3-22) 41

(3-23) 41

(3-24) 42

(4-1) 58

(4-2) 58

(5-1) 76

(5-2) 76

(5-3) 76

Trang 9

Trang 9

I

I

“ ”

I f – I )

trong bài toán trích rút

ò

ẽ ò

ỹ mô – CRF), mô hình – )

(Maximum Entropy Markov Model- MEMM)…

1

Trang 10

Trang 10

2

3

4

5

Trang 11

Trang 11

Ư 1

1.1 c

c quan tr ng trong khai phá d li n, h th ng c hi n vi c trích rút các thông tin t các d li u phi c u trúc ho c bán c u trúc chuy n thành d li u có c u trúc Nói cách khác, m t h th c v các th c th và m i quan h gi a các th c th t m i d ng ngôn ng t nhiên n nh ng thông tin này vào m n ghi d li u có c u trúc ho c m t d ng m u m trích ch n thông tin t n nh các th c th ) nh quan h gi a các th c th ) nh và theo dõi các s ki n và các k ch b n (Event and ) ng tham chi u (Co-reference ) c s d ng trong trích ch n thông tin g m có: phân n, phân l p, k t h p và phân c m [1] )

ng

For years, Microsoft CorporationCEOBill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers Gates himself says Microsoft will gladly disclose its crown jewels the coveted code behind the Windows operating system to select customers "We can be open source We love the concept of shared source," said Bill Veghte, a MicrosoftVP "That's a super-important shift for us in terms of e a ess.“ Richard Stallman, founder of the Free Software Foundation, e e sa …

Microsoft Corporation CEO

Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft

VP Richard Stallman founder

Free Software Foundation

Trang 12

Trang 12

railed against the economic philosophy of

open-source software with Orwellian fervor, denouncing

its communal licensing as a "cancer" that stifled

technological innovation

Today, Microsoft claims to "love" the open-source

concept, by which software code is made public to

encourage improvement and development by

will gladly disclose its crown jewels the coveted

code behind the Windows operating system to

select customers

"We can be open source We love the concept of

shared source," said Bill Veghte , a Microsoft VP

"That's a super-important shift for us in terms of

Trang 13

Trang 13

ng d ng trích ch n thông tin trên Internet, h tr ng d ng web ng th ng tr l i t ng, h th ng h tr tìm ki m chính xác Các ng d ng th c t , th i gian t … T

tin cò c ng d ng vào vi c tìm ki m và trích ch n ra các thông tin c a ch , email, s n tho i r i d li u hay tham gia vào h th ng qu n lý thông tin cá nhân G

c bi c chú tr c y h u bài báo nghiên c u và ng d ng c c nh n d ng các th c th trong ngành y ví d

t thông tin [5][7][18]

công

“ ”

Trang 14

Trang 14

-

)

- )

Random Field - CRFs) trích rútthông tin

s

HMM ch nó có th gi i quy c v ph thu c gi a các t Ngoài ra, CRFs ch có th gi c v sai l ch nhãn CRFs

ờng Nguyễn Xiể m2 Giá 5.5 tỷ Sổ ỏ chính chủ Liên h : 090.324.7686 (Mai) V i b t trên ta ch c a ch , di n tích, n tho i liên h Do v y không nh t thi t ph i hi n, m c a bài toán trích ch n th c các thông tin a ch , di … m t kh i d li u

ờng Nguyễn_Xiể

46 <B-DT> m2 <I-DT> Giá 5.5 <B-GB> tỷ <I-GB> Sổ ỏ chính chủ Liên_h : <B-LH> 090.324.7686 <I-LH> (Mai)<I-LH>

Trang 15

Trang 15

V c các nhãn cho các t t :

a LN -LN là t b u lo i nhà, I-LN là t ti p theo c a lo i nhà DC -DC là t b u c a ch và I-DC là các t ti p theo c a ch DT -DT là t b u c a di n tích và I-DT t ti p theo c a di n tích GB B-GB là t b u c a giá bán và I-GB là các t ti p theo c a giá bán LH -LH là t b u c a s ng, s c nh và I-LH là các t ti p theo c a n tho i liên l c UL

1-1

ò

)

trong CSDL l

trong

1.2 Kiến trúc của h thống trích rút thông tin

Quá trình trích rút thông tin g b u tiên h th ng trích rút

nh ng thông tin riêng lẻ t nh ng t p ng li th ng

Trang 16

1-1: Ki n trúc của h th ng trích rút thông tin

1.2.1 Trích rút thực thể - Named Entity Recognition (NER)

n trong m t h th ng trích rút thông tin M n ra các tên riêng (hay các th c th ) giá kh n d ng tên riêng c a m t h th ng, MUC m i ch khoanh vùng

t s ki u th c th nh nh: PERSON, LOCATION, ORGANIZATION, TIME Tiêu chu t h th ng là: so sánh k t qu

Trang 17

t t nh chính xác lên t i 96% Các danh từ riêng chi m kho ng 70% s

li u (corpus) c a MUC, ờ chi m 25%,

chi i 5% Trong các danh t riêng thì tên các tổ chức

chi m kho ng 45-50%, các ể chi m t 12-32%, và ời chi m kho ng

1.2.2 Giải quyế đồng tham chiếu

Gi i quy ng tham chi u (Coreference Resolution – CO) là vi c nh n

d ng tham chi u gi a các th c th b ng cách k t h p nh ng thông tin mô

t n m r n t i các th c th mà nó tham chi u Thao tác này mang tính ch t h tr cho các thao tác khác Nó ít b ng b i dùng, lo

b c

Ví d : Mary said she would help me

Ở “ ” “ ” u cù n m ng là Mary

 “ ” t tham chi n th c th “ ”

Trang 18

Trang 18

1.2.3 Xây dựng mẫu phần tử - Template Element Construction (TE)

M i Template Element (TE) là m t l c tính mô t m i

ng c th thu c l là vi c xây d ng các m u thông tin mô t t i th c th NE c xây d ng d a trên NE và CO t ẽ

t khuôn m u thông tin chung cho các th c th Th c ch t nó là s m

r ng c a bài toán NE.V d li u

Trang 19

Trang 19

1.2.4 Xây dựng mẫu quan h

Xây d ng m u quan h (Template Relation Construction – TR) là vi c tìm và trích rút ra quan h gi a các th c th a m t th c th thu c tính c a nó ph thu c vào bài toán c th và b n ch t c c phân tích, nên quan h gi thu c v c c th

Trang 20

Dò tìm tên th c th

Trang 21

Trang 21

Tách câu

Tách câu (Sentence splitter ho ) c hi

b n thành các câu riêng bi ng sẽ d a vào s xu t hi n c a các kí t sau “ ” “?” “!” c coi là d u hi u k u này không ph i lúc xu t hi n c a “ ” trong t vi t t t, trong m ng d n URL, trong m t s n tho … Đ u vào : m n Đ u ra : danh sách các câu Tách từ Tách t (tokenizer) là m li u vào và tách nó thành các token Ví d chu " " nh kho ng tr ng là phân cách gi a các token Thì m t tokenizer sẽ tách chu

Đ u vào n Đ u ra : danh sách các t Gán nhãn từ loại Gán nhãn t lo i (Part of speech Tagger – O ) c s d ng sau khi tách t trong câu M i t sẽ c gán m t nhãn v t lo i b ng cách s d ng t n nhãn ẵn ẽ

a )

b )

c Adjective (Adj) :

d )

e )

f )

g )

h )

i j )

Đ u vào n, t n nhãn

Trang 22

Trang 22

Đ u ra : danh sách các t c gán nhãn

Ví d v POSTag:

Ta có câu sau : John Smith will eat the beans

Sau khi POSTag : John /N Smith /N will /V eat /V the /N beans /N

Phân cụm

Phân c ) c hi n câu Chunking ch th c hi O ẽ n câu thành nhóm các

c m t theo ch pháp Ở d ng m t t dành cho c m t Ví d t p nhãn c a Penn Treebank

ADJP Adjective Phrase

CONJP Conjunction Phrase conjunction

Ta có câu sau : John Smith will eat the beans

Sau khi POSTag : John /N Smith /N will /V eat /V the /N beans /N

Sau khi chunking : [ NP John /N Smith /N ] [ VP will /V eat /V ] [ NP the /N

beans /N ]

Trang 23

Trang 23

Dò tìm tên thực thể

Dò tìm tên th c th (Named Entity detection) là quá trình dò tìm và trích rút các th c th u k t qu Ở u, h th ng nh n các th c th nh vào tên riêng c a chúng xu t hi tri th xây d ng Tuy nhiên, vi c nh n ra th c th n d a vào tên riêng có th sai,

vì các th c th khác nhau có th có cùng tên Ví d , Sài Gòn v a là tên c a m t thành ph , v a là tên c a m t ng ti p c n c i v i bài

1.4 c ứ d của r c r

1.4.1 Trích rút thông tin từ vă bản

ba … i dùng bu c ph c hi n và ghi chú t t c các thông tin trên trong m t

b ng Công vi c s t nhi u th i gian khi ph i x lý trên

nh ng t p d li u l n H th ng trích rút m i quan h gi a các th c th sẽ t ng

c nh

1.4.2 r eb a

ont rút trích rút m i quan h gi a các

Trang 24

Trang 24

1.4.3 H tr h thống trả lời câu hỏi tự động

H th ng trích rút m i quan h gi a các th c th ò ng trong h th ng hỏ ng H th ng hỏ bi t tên c a m i và

c i thi n k t qu chúng ta tích h p thêm h th ng trích rút m i quan h vào h

th ng tìm ki lo i bỏ t qu không mong mu ng h p này, thông tin v ng Ph ng Hà N i sẽ c hi n th trên k t qu tìm ki t qu tìm ki

Trang 25

Trang 25

Ư 2 Ư

Trong m t s ng h n, vi c trích rút có th c th c hi n m t cách dễ dàng b ng cách s d ng các bi u th c chính quy V i nh ng ngu n

nh d ng theo m t quy t ó th gi i quy t v m t cách chính xác Ví d , n u mu n trích rút nh ng tên sách cùng tên tác gi cu n sách t trang web Amazon.com, ta có th th y r ng nh ng m c này xu t hi n theo m nh

d ng nh m, ch a màu xanh, là hyperlink, tên tác gi

c theo sau b i t khóa "by" và là hyperlinked) n thu th p thông tin t w trích rút thông tin c n

ph i d a vào chính b n thân ngôn ng - các t ng , th t c a các t , các ng , hay

ng pháp - t h p v nh d ng n u có m

Có nhi p c gi i quy t bài toán

ẽ gi i thi u m t s ng ti p c y cùng

v m c a chúng t i t a trên CRFs l c s d ng xây d ng h th ng

2.1 ư ế c ủ c (hand-written regular expressions)

w Yorkkhi tham gia MUC-6 [1]

 Title Capitalized_Word => Title Person Name

o w f

o Sai ‟ )

Trang 26

ò ỏ

ò

“ ” ẽ

- )

- )

- CRFs) trích rút C ẽ cùng , CRFs

2.2 c m ar v idden Markov Model - HMM)

Mô hình HMM là m t ôtômát h u h n tr ng thái v i các tham s xác su t chuy n tr ng thái và xác su t s n sinh d li u quan sát t i m i tr ng thái Ôtômát này mô hình m t dãy tu n t các ký

hi u sẽ c sinh ra khi xu t phát t tr ng thái kh i t o, ta th c hi n các d ch chuy n tr n m t tr ng thái trong mô hình HMM

ng minh, i d li u quan sát do mô hình sinh ra

T i m i tr ng thái, m t thành ph n trong chu c khi chuy n sang tr ng thái ti p theo

Trang 27

Trang 27

c th -per, I-per, B-loc, I-loc v i B là b u c a nhãn, I là ti p theo

c nhãn nhãn nên nhãn

c sinh ra t chính các t Do v y, nhãn) ) xác

su t c a các chu i tr ng thái và tìm xác su t l n nh t

) ( / ) , ( )

S P S

O P S P O S

P

2

1 1

1

( ) ,

Trang 28

m t ch ph thu c tr ng thái t i th y, v i các bài toán gán nhãn cho d li u d ng chu u diễ

ẻ u diễ i d ng các thu c tính (features)

có các ph thu c v thi c l p kh t khe trong chu i

d li u quan sát Xét v m t thu c tính thì HMM ch bi u diễn quan sát b ng m t thu c tính duy nh t chính là b n thân các quan sát

V th hai mà các mô hình sinh quan sát g p ph i khi áp d ng vào các bài toán gán nhãn d li u d ng chu i là chúng s d ng xác su ng th mô

u ki n.V i các bài toán này sẽ thích h u ta dùng m n có th tính toán P (S|O) tr c ti O) trong công th c (2-1)

2.3 Mô hình Markov cực đại hóa Entropy (MEMM)

Mô hình Markov c i hóa Entropy hay MEMM, là m t trong s nh

u ki n g n mô hình HMM nh t M t mô hình MEMM là m t b

ch p nh u h n tr ng thái Khác v i mô hình HMM, MEMM thay th các xác su t chuy n tr ng thái và xác su t sinh quan sát trong HMM b i m t hàm

duy nh tp(S i |S i-1 ,O i ) c tr ng thái hi n t i S i v u ki n

tr S i-1 n t i là O i Mô hình MEMM quan

ni m các quan sát c và không c n xác su t sinh ra chúng mà ch n xác su t chuy n tr ng thái

So sánh v i HMM, n t i không ch ph thu c vào tr ng thái hi n t ò ph thu c vào tr

Trang 29

S P O

S P O S P

1

1 1

( )

Kí hi u PSi-1(Si|Oi)=P(Si|Si-1,Oi) Áp d i hóa Entropy ( ẽ ) nh phân ph i cho xác su t chuy n tr ng thái có d

i i

i

S O Z O

S P

),(

1)

|(

1

V i a là các tham s c c hu n luy ) Oi, Si-1) là th a

s chu t ng xác su t chuy n t tr ng thái Si-1 sang t t c các tr ng thái Si

k u b ng 1; fa (Oi, Si) là hàm thu

i hàm thu c tính fa (Oi,Si) nh n hai tham s , m

Trang 30

Trang 30

n t i Oi và m t là tr ng thái hi n t i Si McCal a=<b, Si>, c tính nh phân ch ph thu n t i

mô hình MEMM t phân

ph i xác su t cho m i tr ng thái có th g p ph i v “sai l ch nhãn” ) [10][12][14] Ta hãy xem xét m t sau:

r_

b:rib

b:rob i_

Trang 31

th là m t quan sát b t kì M t cách t ng quát, các tr ng thái có phân ph i chuy n

v i entropy th ) n quan sát hi n t i

L i có P (3| ) suy ra: P (0123| ) ) | ) ta 453|rob)=P (0)*P (4|0,r) N u trong t p hu n luy n, t „ ‟ t hi n „ ‟ t P(4|0,r) sẽ nhỏ | )

d 453| ) ỏ 3|rob), t c là chu i tr ng thái S=0123 sẽ c ch n dù chu „ ‟ „ ‟

Léon Bottou (1991) i pháp cho v này.Gi i pháp th nh t

là g p hai tr ng thái 1, 4 và trì hoãn vi c rẽ n khi g p m t quan sát xác

Trang 32

nh m t c u trúc thích h i pháp này sẽ làm m

có th t c [2]

M t gi này là xem xét toàn b chu i tr ng

t t ng th và cho phép m t s c chuy n trong chu i tr ng thái

ò nh v i vi c ch n chu i tr

su t c a toàn b chu i tr ng thái sẽ không ph c b o t n trong quá trình chuy n

tr ng thái mà có th b i t i m c chuy n tùy thu c vào quan sát t i trên, xác su t chuy n t i 1 và 4 có th có nhi u i v i

vi c ta sẽ ch n chu i tr t chuy n tr ng thái t i 0

2.4 Tổng kế c ươ

Random Fields – CRF)

ài toán trích rút coi là trích rút các hay p cho bài toán này sát

Trang 33

Trang 33

Ư 3 M Ư

Laff 14 – ) sai l ch nhãn Gi u ki n, có th tích h c các thu ng c a chu i quan sát h tr cho quá trình gán nhãn Tuy v y, khác v th vô ng

u này cho phép CRFs có th i xác su t c a toàn b chu i

tr ng thái c thay vì phân ph i trên m i

tr ng thái bi t tr n t

mô hình MEMM Chính vì cách mô hình h y, CRFs có th gi i quy c

v sai l ch nhãn ẽ t s

i )

Trang 34

Trang 34

)

,

| ( ) ,

,

| ( Y X Y v P Y X Y N v

Ở ) … ) )

1, X2 … n), Y=(Y1,Y2, ,Yn)

3-1 s

- ễ -Clifford [13

A A

T ễ

7 nên

Trang 35

3.2.1 ộ đ r đ ề n

y x

,

)

|(log

*)

|(

*)(

~)

3.2.2 c r b ộc đố v ố m

(3-4)

f sau:

y x

, )

, (

~ [f] ~p( , )f( , )

E

Ở ~ p ( x , y )

x i

,y i)

) ,

Trang 36

Trang 36

 

y x

y x x

y x

,

),(

*)

|()(

~]

] [ ] [

) , (

3-7)

3.2.3 ê cực đạ óa r

f i, [8] ẽ P

Trang 37

“ ”

p

p H p

Trang 38

i f Z

exp ) (

1 )

| (

x x

i f

3.3 m ềm ă của c c m

ff [14]

     

k k k

i i k

Z

)(

1)

|

x x

Trang 39

i i k

Z ( x ) exp  ( y 1, y , x )  ( y , x ) (3-15)

) , ,

,

(1 2 1,2

 ẽ

3.4 c ư am ố c c c m

Chúng ta c nh m t b tham s mô hình “ p nh ” i t p

d li u hu n luy ng tham s ) nh tham s m t cách x p x thông qua

y x

x y

,

) , (

~

),

|()

Trang 40

Trang 40

i hàm likelihood sẽ làm phân ph i trong mô hình g n nh t v i phân ph i th c nghi m trong t p hu n luy n Vì vi c tính d a theo công th c (3-17) r nên thay vì tính toán tr c ti nh làm c i logarit c a hàm likelihood -likelihood):

y x

x y y

x

,

),

|(log),(

~)

t y

~

*

*)

,(

~)

Ở (1,2, n) và (1,2, ,m)là các vector tham s c a mô hình, t

là vector các thu 1(yi-1,yi,x),t2(yi-1,yi ) …) s là vector các thu 1(yi,x),s2(yi ) …)

ng tham s cho mô hình CRF chuy n thành bài toán tìm c i cho hàm log-likelihood Hàm log-likelihood cho mô hình CRFs là

m õ không gian c a tham s B n ch t hàm lõm c a log-likelihood cho phép ta có th c giá tr c i toàn c c  b ng các

d memory quasi-Newton (L- ) c c i ti n t -Newton, có hi t tr n so v c

ng tham s cho các mô hình CRF Ch ng h n, L-BFGS cho phép gi i quy t

ng tham s ch s d ng m t b nh gi i h háp BFGS có th th c hi c, ta c c a hàm log-

i thành ph n c o hàm c a hàm likelihood theo m t tham s mô hình o hàm hàm log – likelihood theo tham s

x y y y

x

1, , )(

),(

~)

i

i i k k

t p

l

Ngày đăng: 25/07/2017, 21:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w